基于Raw域的真实世界视频超分辨率算法

首页 > 媒体资源 > 最新动态

媒体资源

最新动态行业资讯我们的优势

基于Raw域的真实世界视频超分辨率算法

2025-05-04 23:01:22 阅读：　

　　kaiyun平台官网登录开云网站1.基于Raw域的真实世界视频超分辨率的构建方法，其特征在于：包括如下步骤：

　　S1、建立真实世界Raw视频超分辨率数据集：所述数据集的建立过程主要包含以下3个

　　S101、硬件设计：通过分光镜将入射光分成两束亮度比为1：1的反射光束和透射光束；

　　使用变焦镜头的DSLR相机，捕捉不同比例的LR‑HR帧对；设计并打印一个3D模型盒子来固定

　　S102、数据采集：采集MLV格式的Raw视频，然后使用MlRawViewer软件对所述MLV格式的

　　S103、数据处理：利用从粗到细的对齐策略，以生成对齐的LR‑HR帧，包括sRGB帧对

　　S2、基于S1数据处理后的帧，采用LR的Raw帧和HR的sRGB帧为训练对来设计

　　S3、训练模型：基于S2所设计的算法搭建模型，并利用深度学习框架Pytorch平台训练

　　模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭代直到损失收敛，得

　　S4、将测试集中的低分辨率的Raw视频序列输入到S3中获取的模型中，得到相应的超分

　　2.根据权利要求1所述的基于Raw域的真实世界视频超分辨率的构建方法，其特征在

　　S1031、首先，使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间的单

　　S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐；

　　S1034、最后，裁剪中心区域以消除边界周围的对齐伪影，在RGB域中生成对齐的LR‑HR

　　3.根据权利要求2所述的基于Raw域的真实世界视频超分辨率的构建方法，其特征在

　　对Raw帧采用对齐策略进行数据处理，先将原始帧重组成RGGB子格式，其大小是sRGB帧

　　的一半，因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵；

　　4.根据权利要求1所述的基于Raw域的真实世界视频超分辨率的构建方法，其特征在

　　S201、双支路策略和特征提取：为了充分利用Raw数据的信息，输入的LR连续帧

　　以不同的形式送入网络的两个分支中；Bayer格式分支直接使用Raw连续帧本身

　　作为输入；子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入；将Bayer格

　　系；Bayer格式分支保持原始像素的原始顺序，有利于空间重建；虽然子帧格式分支不能保

　　持原始像素顺序，它可以利用远邻相关性来生成细节；然后，两个输入分别经过特征提取模

　　S202、联合对齐：由于相邻帧之间存在时间错位，需要将相邻帧扭曲到中心帧；在多级

　　级联对齐策略的基础上进行对齐，即从子帧格式分支计算对齐偏移量，然后将计算出的偏

　　移量直接复制到Bayer格式分支进行对齐，即两个分支是共同对齐的；子帧格式分支中的特

　　征和通过卷积下采样L‑1次，形成一个L级的金字塔；Bayer格式分支中的金字

　　塔特征以相同的方式构建；第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏移量

　　由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本，因此Bayer格式分支

　　的偏移值应该是子帧格式分支的两倍；因此，可以通过对子帧格式分支中的偏移量

　　其中g表示由几个卷积层实现的映射函数，Dconv表示可变形卷积；两个分支的Dconv在

　　S203、交互模块：Bayer格式分支特征通过3×3卷积和LeakyRelu层进行下采样，这些下

　　采样特征与子帧格式分支中的特征聚合；类似地，子帧格式分支特征通过Pixelshuffle进

　　S204、时间融合：利用非局部时间注意模块来聚合远程特征，以增强沿时间维度的特征

　　S205、通道融合：利用通道融合将两个分支中的特征合并在一起，因为和的相同

　　通道可能对最终的SR重建有不同的贡献；采用选择性核卷积通过通道加权平均来融合两个

　　S206、重建和上采样：将融合后的特征输入到由10个ResNet块实现的重建模块中，用

　　于SR重建；重建后，利用Pixelshuffle对其进行上采样，然后利用卷积层生成三通道输出；

　　同时模块还利用了两个长跳跃连接，一个是用于LR的Bayer格式的输入，它首先由卷积层处

　　理，然后通过Pixelshuffle上采样到三通道输出；另一个是用于LR子帧格式输入，由于其空

　　间大小是原始输入的一半，因此对其进行了两次上采样，三个输出相加，生成最终的HR结果

　　S207、颜色校正和损失函数：实际拍摄数据的和在颜色和亮度上存在差异，直

　　接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正，而不关注SR的任

　　务；为了解决这个问题，在损失计算之前使用颜色校正，即分别对RGB通道使用基于通道的

　　S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络。

　　本发明属于视频信号处理技术领域，涉及一种基于Raw域的真实世界视频超分辨

　　过牺牲视角来提高分辨率；视频超分辨率(VSR)是获取广角和高分辨率(HR)视频的有效方

　　式；视频超分辨率通过探索输入序列的空间和时间相关性，从低分辨率(LR)输入重构高分

　　辨率视频；近年来，视频超分辨率的发展已经从传统的模型驱动转向基于深度学习的方法。

　　这些基于深度学习的SR方法的性能在很大程度上取决于训练数据集，考虑到合成

　　的LR‑HR数据集，例如DIV2K和REDS，不能表示真实捕获的LR图像和HR图像之间的退化模型，

　　因此构建了许多真实的SR数据集以提高现实世界的SR性能；然而，这些数据集大部分是针

　　的多摄像头系统进行捕获，提出了第一个真实世界的VSR数据集；然而，LR和HR相机之间的

　　视差增加了对齐的难度，并且由于手机相机的焦距有限，该数据集中只有2倍的LR‑HR序列

　　另一方面，利用Raw图像进行真实场景图像(视频)恢复的趋势，例如弱光增强，去

　　噪，去模糊和超分辨率；主要原因是Raw图像具有较宽的位深度(12或14位)，即包含最原始

　　的信息，并且其强度与光照呈线性关系；然而，探索Raw视频超分辨率的工作仍然很少；有研

　　究者通过从捕获的HR原始帧中下采样来合成LR原始帧，提出了一个Raw视频超分辨率数据

　　集；尽管如此，合成的LR原始帧与真实捕获的帧之间仍然存在差距，这使得在合成数据上训

　　(1)本发明旨在建立一个真实世界的Raw视频超分辨率数据集，并在此基础上提出

　　S1、建立真实世界Raw视频超分辨率数据集：所述数据集的建立过程主要包含以下

　　S101、硬件设计：通过分光镜将入射光分成两束亮度比为1：1的反射光束和透射光

　　束；使用变焦镜头的DSLR相机，捕捉不同比例的LR‑HR帧对；设计并打印一个3D模型盒子来

　　固定分光镜，将DSLR相机和分光镜盒放在光学板上，并在其下方固定三角架；

　　S103、数据处理：利用从粗到细的对齐策略，以生成对齐的LR‑HR帧，包括sRGB帧对

　　S3、训练模型：基于S2所设计的算法搭建模型，并利用深度学习框架Pytorch平台

　　训练模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭代直到损失收

　　S4、将测试集中的低分辨率的Raw视频序列输入到模型中，得到相应的超分辨率的

　　S1031、首先，使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间

　　[0018] S1032、然后对齐HR帧以粗略地裁剪出与HR帧匹配的LR帧中的对

　　S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐；

　　S1034、最后，裁剪中心区域以消除边界周围的对齐伪影，在RGB域中生成对齐的

　　优选的，Raw帧应该通过与sRGB帧相同的对齐策略，然而，直接应用全局和局部对

　　齐将破坏Raw输入的Bayer格式；对Raw帧采用对齐策略进行数据处理，先将原始帧重组成

　　RGGB子格式，其大小是sRGB帧的一半，因此需要通过以0.5的比率重新调整平移参数来更改

　　从sRGB帧计算的H矩阵；Deepflow也以相同的方式处理，并通过这种方式生成Raw帧对

　　优选的，S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤：

　　S201、双支路策略和特征提取：为了充分利用Raw数据的信息，输入的LR连续帧

　　以不同的形式送入网络的两个分支中；Bayer格式分支直接使用Raw连续帧本身

　　作为输入；子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入；将Bayer格

　　系；Bayer格式分支保持原始像素的原始顺序，有利于空间重建；虽然子帧格式分支不能保

　　持原始像素顺序，它可以利用远邻相关性来生成细节；然后，两个输入分别经过特征提取模

　　S202、联合对齐：由于相邻帧之间存在时间错位，需要将相邻帧扭曲到中心帧；在

　　多级级联对齐策略的基础上进行对齐，即从子帧格式分支计算对齐偏移量，然后将计算出

　　的偏移量直接复制到Bayer格式分支进行对齐，即两个分支是共同对齐的；子帧格式分支中

　　的特征和通过卷积下采样L‑1次，形成一个L级的金字塔；Bayer格式分支中的

　　金字塔特征以相同的方式构建；第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏

　　由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本，因此Bayer格式

　　分支的偏移值应该是子帧格式分支的两倍；因此，可以通过对子帧格式分支中的偏移量

　　其中g表示由几个卷积层实现的映射函数，Dconv表示可变形卷积。两个分支的

　　行下采样，这些下采样特征与子帧格式分支中的特征聚合；类似地，子帧格式分支特征通过

　　Pixelshuffle进行上采样，然后与Bayer格式分支中的特征聚合；

　　S204、时间融合：利用非局部时间注意模块来聚合远程特征，以增强沿时间维度的

　　[0035] S205、通道融合：利用通道融合将两个分支中的特征合并在一起，因为和的

　　相同通道可能对最终的SR重建有不同的贡献；采用选择性核卷积(SKF)通过通道加权平均

　　[0036] S206、重建和上采样：将融合后的特征输入到由10个ResNet块实现的重建模块

　　中，用于SR重建；重建后，利用Pixelshuffle对其进行上采样，然后利用卷积层生成三通道

　　输出；同时模块还利用了两个长跳跃连接，一个是用于LR的Bayer格式的输入，它首先由卷

　　积层处理，然后通过Pixelshuffle上采样到三通道输出；另一个是用于LR子帧格式输入，由

　　于其空间大小是原始输入的一半，因此对其进行了两次上采样，三个输出相加，生成最终的

　　[0037] S207、颜色校正和损失函数：实际拍摄数据的和在颜色和亮度上存在差

　　异，直接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正，而不关注SR

　　的任务；为了解决这个问题，在损失计算之前使用颜色校正，即分别对RGB通道使用基于通

　　S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络。

　　(1)本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据

　　(2)本发明基于S1中所获得的真实世界Raw视频超分辨率数据集，提出了一种

　　Real‑RawVSR方法，通过处理两个分支中的Raw数据输入，一个分支用于Bayer格式输入，另

　　一个分支用于子帧格式输入；通过利用所提出的联合对齐、交互和时间、通道融合模块，很

　　好地探索了两个分支的互补信息，并且将真实LR视频超分辨率性能提升到了新的高度。

　　(3)基于本发明所进行的实验表明，所提出的方法优于目前主流的Raw和sRGB的

　　VSR方法；经过本发明的研究探索，希望能够启发更多基于Raw域的视频超分辨率方法的研

　　图1为本发明采用的基于Raw域的真实世界视频超分辨率的构建方法中的硬件平

　　图2为本发明采用的基于Raw域的真实世界视频超分辨率的构建方法中的算法流

　　图3为本发明采用的基于Raw域的真实世界视频超分辨率的构建方法中的联合对

　　整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于

　　本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他

　　请参阅图1，基于Raw域的真实世界视频超分辨率的构建方法，包括如下步骤：

　　S1、建立真实世界Raw视频超分辨率数据集：所述数据集的建立过程主要包含以下

　　S101、硬件设计：为了捕捉不同比例的LR‑HR帧对，使用带有18‑135mm变焦镜头的

　　DSLR相机代替手机相机；为了避免来自其他方向的自然光的影响，通过设计并打印了一个

　　3D模型盒子来固定分光镜；使两个摄像头可以从同一视点接收自然光，分光镜的尺寸为150

　　S102、数据采集：本发明使用两台升级了第三方软件MagicLantern的佳能60D相机

　　采集MagicLanternVideo(MLV)格式的Raw视频；为了使相机保持同步，本发明使用红外遥控

　　器向两个相机发出信号以同时控制拍摄，在拍摄过程中，本发明将两台相机的ISO保持在

　　100到1600的范围内以避免噪点，曝光时间范围从1/400秒到1/31秒，以捕捉慢动作和快动

　　作；所有其他设置都设置为默认值以模拟真实的捕获场景；然后本发明使用MlRawViewer软

　　件对MLV视频进行处理，得到对应的sRGB帧和DNG格式的Raw帧；对于每个场景，本发明捕获

　　一个6秒的短视频，帧速率为25FPS，即每个视频包含大约150帧的Raw和sRGB格式图；

　　S103、数据处理：由于镜头畸变的存在，LR‑HR对之间仍然存在错位；因此本发明利

　　用从粗到细的对齐策略，以生成对齐的LR‑HR帧，包括sRGB帧对和Raw帧对

　　S1031、首先，使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间

　　[0058] S1032、然后对齐HR帧以粗略地裁剪出与HR帧匹配的LR帧中的对

　　S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐；

　　S1034、最后，裁剪中心区域以消除边界周围的对齐伪影，在RGB域中生成对齐的

　　Raw帧应该通过与sRGB帧相同的对齐策略，然而，直接应用全局和局部对齐将破坏

　　Raw输入的Bayer格式；对Raw帧采用对齐策略进行数据处理，先将原始帧重组成RGGB子格

　　式，其大小是sRGB帧的一半，因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧

　　计算的H矩阵；Deepflow也以相同的方式处理，并通过这种方式生成Raw帧对

　　S3、训练模型：本发明中的训练模型输入的连续帧数为5帧，所使用的优化器是

　　Adam优化器，初始学习率设置为0.0001；基于S2所设计的算法搭建模型，并利用深度学习框

　　架Pytorch平台训练模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭

　　利用深度学习框架Pytorch平台训练模型，在整个数据集上迭代300k次，随后减小

　　S4、将测试集中的低分辨率的Raw视频序列输入到模型中，得到相应的超分辨率的

　　本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集，它

　　S201、双支路策略和特征提取：为了充分利用Raw数据的信息，输入的LR连续帧

　　以不同的形式送入网络的两个分支中；Bayer格式分支直接使用Raw连续帧本身

　　作为输入；子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入；将Bayer格

　　系；Bayer格式分支保持原始像素的原始顺序，有利于空间重建；虽然子帧格式分支不能保

　　持原始像素顺序，它可以利用远邻相关性来生成细节；然后，两个输入分别经过特征提取模

　　S202、联合对齐：由于相邻帧之间存在时间错位，需要将相邻帧扭曲到中心帧；在

　　多级级联对齐策略的基础上进行对齐，即从子帧格式分支计算对齐偏移量，然后将计算出

　　的偏移量直接复制到Bayer格式分支进行对齐，即两个分支是共同对齐的；子帧格式分支中

　　的特征和通过卷积下采样L‑1次，形成一个L级的金字塔；Bayer格式分支中的

　　金字塔特征以相同的方式构建；第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏

　　由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本，因此Bayer格式

　　分支的偏移值应该是子帧格式分支的两倍；因此，可以通过对子帧格式分支中的偏移量

　　其中g表示由几个卷积层实现的映射函数，Dconv表示可变形卷积。两个分支的

开云(中国官方网站)电子有限公司-KAIYUN

媒体资源

基于Raw域的真实世界视频超分辨率算法