技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于HDR视频编码的自动亮度调节的制作方法  >  正文

用于HDR视频编码的自动亮度调节的制作方法

  • 国知局
  • 2024-09-14 14:43:19

本发明涉及为主要(或主)动态范围图像创建次要动态范围图像的装置和方法,其可用于特别是将至少两幅不同的动态范围图像传送到接收器(通常一幅作为实际像素化图像,并且另一幅作为计算方法的数据以从实际接收的图像导出它)的类型的高动态范围(hdr)视频编码。本发明还涉及在包括高动态范围图像的接收器的设备中用于根据各种技术需求来计算次要动态范围图像的装置和方法。这样的装置或方法可以被包括在消费者设备(诸如电视显示器、移动电话)中,而且也可以被包括在专业系统(诸如例如商店中的商业应用中的视频通信等)中。在hdr视频创建和通信侧,它可以被应用在例如电视通信网络的部署者的端点站中,该电视通信网络将hdr视频图像传送给最终客户(分发),例如在卫星或线缆头端或移动电话通信网络等中,但是它也可以用于其中视频从第一专业人员(企业)(例如制作视频)中继到第二企业(例如在某个介质、区或客户上分发视频)的贡献中。装置和方法具体地利用可以学习图像的特定属性的机器学习中的进步,在这种情况下,所需的亮度重新映射函数以在给定任何图像或图像类别的细节的情况下创建良好质量的次要动态范围图像,例如,有用的场景是为hdr图像创建低动态范围图像。

背景技术:

1、高动态范围视频处理(编码或显示适配,其是将第一动态范围的图像重新映射到任何显示器的特定可显示动态范围能力,等等)是相当近期技术领域(在电视世界中,其初始版本源于2010年之后),其仍然存在若干未解决的问题和疑问。尽管hdr电视已经销售了几年(通常具有1000尼特或cd/m^2左右的最大可显示亮度,也称为峰值明亮度,即略低于如600尼特,或略高于如2000尼特,且未来可能达到5000尼特或更高),但是在改进的显示器上的显示之前出现的技术(这是物理和电子驱动的问题)(即内容制作、编码或颜色处理)仍然具有多种解决方案来发明/改进和部署。已经存在已经创建和传递的多个电影以及一些早期广播,并且尽管通常结果很大,但是仍然存在进一步改进某些方面的可能性,因此,该技术目前没有处于很大程度上被解决的阶段。

2、高动态范围图像被定义为与20世纪下半叶生成和显示并且仍然是从地面广播到经由互联网等的youtube视频供应的大多数视频技术(例如通过无论任何技术的电视或电影分发)的主流的传统低动态范围(ldr)图像(也称为标准动态范围(sdr)图像)的现状相比的图像。sdr图像的性质以及如何处理它们(例如,制作看起来不错的电影图像)是很好理解的。其明度代码-通常为从0到255的范围内的8比特代码-非常适合于在相对均匀光照的环境中定义对象的各种灰度级。在255的相对最大值表示“白色”的情况下(其在ldr中没有相关联的实际亮度,因为它将取决于任何购买的显示器的峰值明亮度而被不同地渲染,但是在hdr时代中与最大亮度ml_ldr=100尼特相关联),更低水平以二次方式逐渐变暗,即白色的一百分比(例如5%)看起来黑色。

3、hdr图像是可以表示(编码)多个额外的亮度(如果还涉及更宽跨度的原色,则通常是额外的颜色),特别是高于(100尼特)白色的多个额外灰度级的图像。不存在绝对要求这些额外的步骤伴随有由额外的比特表示的更大明度数(但是通常希望将10比特用于hdr颜色分量),因为这最终由哪个电光传递函数(eotf)将哪些像素亮度定义为可用明度代码的量来确定,并且已经展示了一些8比特hdr解码器。

4、形式上,可以将亮度动态范围定义为从最小黑色(mb)到峰值白色或峰值明亮度(pb)(也称为最大亮度(ml))的所有亮度的跨度,因此,在一个中可能具有以下hdr电影,即具有非常深的黑色,或仅具有正常的(ldr)黑色,但是更亮的像素(常常称为高亮)。因此,实际上,可以主要基于唯一的值(即,为更高的峰值明亮度)来定义和处理(例如,颜色处理)hdr图像(通常这是用户最感兴趣的事物,无论其是明亮的爆炸还是仅仅是金属和珠宝等上的更真实的镜面反射斑点,并且可以实际上将最小黑色陈述为对于sdr图像和hdr图像是相同的)。

5、在实践中,从传统时间可以说sdr图像的1000:1亮度动态范围将降至100尼特以下(且0.1尼特以上),并且hdr图像通常将具有至少5倍更亮的pb,因此500尼特或更高(这是差异开始变得令人印象深刻的地方,使得用户看到图像中的真正美丽的例如发光部分;显然,使用更高的最大值可能更好且更期望,因此当其具有1000尼特或更高的ml时,可以开始定义真正良好的hdr,即通常在视频中,至少一些像素将被给予该亮度以使它们与其余场景相比看起来最令人印象深刻)。

6、注意,在不深入到这里可能不必要的许多细节的情况下,可以通过将峰值明亮度数作为元数据与hdr图像相关联来指示具有哪种hdr。这可以被视为图像中存在的最亮像素的亮度,并且常常通过将参考显示器与图像相关联来正式地定义(即,将虚拟显示与图像相关联,其中,其峰值明亮度对应于图像或视频中存在的最亮像素,即需要显示并且然后编码该pb_c-c的最亮像素代表该虚拟显示的“编码”作为图像像素颜色矩阵之外的元数据)。

7、以这种方式,不需要“不优雅地”编码具有过多比特量的hdr图像,并且可以简单地重新使用具有10比特字长的现有技术用于颜色分量(至少在不久的将来,由于各种原因,12比特或更多比特已经被整个视频处理链中的若干技术供应商视为相当重;并且pb_c元数据允许容易地升级hdr框架以用于将来的场景)。

8、从经典视频工程重新使用的一个方面是像素颜色通常总是作为ycbcr颜色传送,其中,y是所谓的明度分量(其是亮度的技术编码),并且cb和cr是蓝色和红色色度分量,完成三色加色定义。

9、明度是根据非线性r’g’b’颜色分量(撇号’指示非线性性质,即与颜色的线性rgb分量的差异,可以说从任何特定颜色的显示像素出来的红色、绿色和蓝色光子的量)并且经由以下等式来定义的:

10、y=a1*r’+a2*g’+a3*b’[等式1]

11、问题是非线性r’g’b’如何与线性rgb分量相关(实际上为其定义)。

12、编码系统的定义,通过指定所谓的电光传递函数(eotf)或从对应的线性分量计算非线性分量的其逆光电传递函数,例如:

13、r’=oetf_pq(r)[等式2]

14、例如,虽然在ldr时代中,仅存在标准rec.709oetf,该oetf(简化了本专利申请的一些不相关细节)是eotf的逆,并且这是相当好的近似简单的平方根。

15、然后,当出现在仅10比特中编码大范围的hdr亮度(例如1/10000尼特–10000尼特)的技术问题(这对于平方根函数是不可能的)时,发明了新的eotf,所谓的感知量化器eotf(us9077994)。这足以“指定”任何所需的hdr像素颜色(或其亮度),但是对于实际的视频通信系统不一定是足够的,因为通常想要关于(多个)hdr场景或图像的更多信息(例如视频创建者可以定义其)。

16、因此,该不同的eotf定义以及由其定义的任何输入ycbcr颜色将清楚地具有不同的数值归一化分量,这取决于它是ycbcr_rec709还是ycbcr_pq(实际上,可以通过在其黑色尖端上转动r’g’b’立方体来看到这一点,其中,不同明度的消色差灰色的y轴现在形成垂直:各种图像像素颜色然后将沿着该垂直具有不同的扩展)。可以在技术上优雅简单的公式中假设要在0和1之间归一化的各种分量(1意味着峰值明亮度,即各种编码场景的不同亮度),并且然后计算次要图像可以被视为沿着其归一化轴偏移像素亮度或明度。

17、图1以用于增强清晰度的绝对亮度表示示出了hdr图像使用中涉及的一些问题。

18、与ldr成像相比(在该ldr成像中,所有场景看起来或多或少相同)(例如不能使夜间场景真正地变暗,因为再次需要明度0和几乎255之间的完全扩展以使所有图像对象充分可见,因此需要通过将夜间场景着色为蓝色来模拟夜间场景;并且还有仅一种白色,而不是例如超白色),全方位hdr视频系统将允许制作并最终显示许多种类的hdr图像,给出许多种类的不同视觉印象(也称为外观)。例如,除了例如昏暗的一天或均匀照明的房间的“正常照明”图像之外,还可以制作沙漠图像(imscn1),在该沙漠图像中强烈阳光照射的对象稍微更亮(例如平均500尼特而不是100尼特或更少),但是该沙漠图像也包含超亮像素,如5000尼特相当明亮的太阳。但是也可以定义夜间图像(其仍然可以包含像街灯的几个非常亮的像素),像城市夜景imscn2或洞穴imscn3。因此,像素可以全部落在跨越例如1/5000尼特和5000尼特之间的亮度轴上。

19、因此,至少一些视频内容制作者可能想要将其原始(也称为主)图像定义为尽可能美丽,即在5000尼特质量主hdr图像的例如pb_c=5000尼特亮度范围上。这是为了制作“通用”hdr图像。因此,可以显示例如高达10000尼特像素亮度的未来显示器将确实示出明亮的5000尼特太阳(如电影的创建者所预期的)。

20、当然,问题是,即使在很远的将来,至少一些观看者可能具有这样的显示器,该显示器并不总是显示高达5000尼特,而是例如仅显示高达800尼特。

21、然后,问题是如何处理主5000尼特hdr图像像素亮度,即如何显示它们(这将涉及到800尼特最大值的转换,即使没有应用任何亮度映射算法)。例如如果tv仅仅以如在所接收的图像像素亮度中规定的精确亮度进行显示,则它将剪辑,并且因此将太阳盘的形状与它周围的云合并,其具有例如900或1200尼特的主5000尼特hdr图像中的像素亮度。这在一些场景中可能是合理的,但在其他场景中不太合理。tv可以尝试使用更智能的算法作为内部自动亮度映射,但是仍然不能说由创建者准确地艺术制作的任何亮度将映射到哪些最终亮度,以及在哪些显示器上的哪些图像上这将看起来是合理的或不太合理的。

22、因此,更高级的hdr视频编解码器不仅允许创建者制作和传送主hdr图像本身(即,作为例如smpte 2084eotf定义的ycbcr像素颜色的矩阵),而且还指定至少一个次要参考分级。即,视频创建者可以精确地定义他认为任何图像的亮度应该如何被映射到例如100尼特pb_c_ldr次要参考亮度范围。他通常可以通过定义(例如,每个时间连续的视频图像一个)用于将任何可能的输入hdr明度(y_hdr_in的范围在0-1023上)映射到对应的ldr明度(y_ldr_out的范围在值0-1023的相同跨度上,但是具有不同的值或沿着明度轴的位置)的函数f_l来这样做。

23、一旦已经传送了两幅参考图像(也称为分级),或对应的数据是两幅图像之一和函数f_l,就存在用于确定任何中间分级(如800尼特分级)的算法。

24、到目前为止的场景假设存在对应于作为输入图像的主hdr图像的一个次要(例如ldr参考)分级(一个基本真相)。这不应与具有相关次要图像的不同可能风格的不同技术场景混淆,这将在下面用我们的实施例讨论!

25、图2图示了示例性hdr视频编码和通信链,其是可以使用下面讨论的当前新技术的一个实施例。

26、可能的编码的细节可以在etsi标准“高性能单层高动态范围[slhdr],部分1&2”(通过引用并入本文)中找到。

27、在视频编码侧,获得主hdr图像(mast_hdr),例如高质量5000尼特图像。在没有限制的情况下,我们描述了两种有用的变型。在第一变型中,人类颜色分级器从初始图像(例如,直接从相机捕获的)开始,并且执行对图像中的各种对象的亮度的精确分级(即,确定),使得图像获得某种外观。作为第二示例,自动机从初始相机捕获的图像确定主hdr图像,例如,可以在来自相机的相对亮度图像上使用一些粗略分级以制作足够好质量的5000尼特主hdr图像,或可以通过逆色调映射将现有ldr图像转换为伪hdr图像。

28、在没有限制的情况下,图2的阐明实施例假设主hdr图像实际上作为对应的ldr图像(im_sdr)被传送。因此,必须确定合适的亮度或明度映射函数(f_l),以从主hdr图像计算ldr图像。如果利用例如由两个线性段组成的明度映射函数将归一化输入明度yi(即,明度代码除以幂(2;比特数))处理成归一化输出明度,并且如果将连接点(yp)的输入坐标固定到例如一半,则该函数可以由一个参数p1指定,该参数p1确定第一线性段的斜率。

29、视频编码器221中的颜色变换器202应用主hdr图像(主hdr)像素的亮度的f_l亮度映射(实际上它通常应用3d颜色变换f_ct)。

30、然后,通常在压缩器203中使用任何已知的视频压缩技术(例如vvc)来压缩ldr图像,从而产生ldr视频图像的编码版本im_cod。明度映射函数f_l(或实际上是颜色映射f_ct的数据,其通常另外包含用于改变像素饱和度的函数,因为色调通常在输入和输出函数之间保持恒定)被压缩器视为元数据,并且补充增强信息(sei)是传达关于期望的处理函数的任何数据的良好方法。

31、在内容视频编码器221的动作之后,从图像通信技术的角度来看,通信链的其余部分假装它获得“正常sdr”图像作为输入。因此,例如,传输格式化器204可以应用所有必要的变换来格式化数据以通过一些传输介质205(例如,要存储在bd盘上的通道编码或用于线缆传输的频率编码将视频切割成合适的数据分组等)。

32、随后,图像数据通过某个传输介质205(例如,卫星或线缆或互联网传输,例如根据atsc 3.0、或dvb、或任何视频信号通信原理)行进到一个或多个接收侧,其可以是消费者视频设备(如电视机、或机顶盒)、或专业系统(如电影院接收单元)等。

33、在任何消费者或专业人员接收侧,接收器去格式化器206通过应用去格式化和通道解码来撤消通道编码(如果有的话),所述接收器去格式化器206可以被包含在例如机顶盒、电视或计算机之类的各种物理设备中。然后,视频重新确定装置220(例如,视频解码器)内的视频解压缩器207应用例如hevc解码,以产生解码的sdr图像im_rldr,并解包颜色变换函数元数据f_ct。然后,颜色变换器208被布置为变换sdr图像亮度以获得某个输出图像的输出图像亮度。

34、取决于视频重新确定装置220的类型,感兴趣的是两种场景。如果所述装置是纯解码器,则它可以应用(亮度或)明度映射函数f_l的逆,以获得主hdr图像的紧密重建(即,相同的峰值明亮度动态范围分级,以及除了所传送的ldr图像的一些视频压缩误差之外的近似相同的像素亮度)作为重建hdr图像im_rhdr。该装置还可以确定不同峰值明亮度的图像(即,不同于峰值明亮度主hdr图像,以及在该实施例中复制为通信图像的第二参考分级的峰值明亮度,即例如100尼特)。例如显示适配单元(例如电子电路)209的显示适配算法可以确定用于计算900尼特显示适配图像im_da_mdr的函数,其针对所连接的900尼特能力显示器被优化。我们在wo2017108906中描述了其若干变型的这种算法通常应用函数f_l的逆的较弱版本。

35、本技术部件(根据当前教导的创新部件和/或它们可以与其连接、协作、集成等的现有技术部件)可以被体现或实现为在图像或视频技术中(即,例如在各种硬件设备中)典型的各种技术系统。例如视频重新确定装置220可以具有任何技术视频供应输出,例如,可以连接到电视显示器等的hdmi线缆(还有例如存储器具等;或甚至将输出图像im_rhdr或im_da_mdr传送到另一个潜在的远程设备或系统的网络线缆或无线输出等)。根据所选择的物理变型,可以存在图像或视频输出信号格式化器,其针对任何技术情况适当地转换图像(例如,像素颜色可以具有由第二oetf定义的r、g、b表示,例如hlg格式化的和未压缩的等)。

36、存在用于确定明度映射函数f_l的两个实施例。一方面,它可以由优化所创建的视频的人类颜色专家(即,颜色分级者)来定义。然而,另一方面,在若干场景中,将依赖于(潜在地由人类部分地预配置以使它们倾向于某种色度行为)自动机来确定针对每种不同类型的hdr场景的明度映射函数f_l的合适的曲线形状(例如,潜在地每个视频时刻图像的不同函数)。

37、所需的曲线形状将取决于各种因素。理想地,最优曲线取决于人类附着到各种图像对象的语义信息。可能希望使炉膛的火焰或灯泡的光与图像的其余部分相比明亮地发光,并且因此限定曲线形状,使得该函数增加落入例如火焰中的各种像素具有的亮度范围内的像素的亮度。

38、在实践中,可以已经根据诸如总动态范围(即图像的峰值明亮度pb_c,例如5000尼特)的这样的因素定义足够的函数,以及在图像中存在各种亮度值的哪些区域(并且在更先进的方法中,不仅有多少(例如95%百分位数)最亮的像素,而且它们在图像中是例如中心还是外围,或其他几何方面)。

39、本技术人已经部署了几个版本的自动机,其当前服务于各种视频通信系统。

40、例如,自动机被设计为针对上述slhdr etsi标准的三部分曲线(也参见wo2016119979),确定最佳形状,例如,用于利用第一线性系统提升最暗明度的亮度的最佳斜率。该曲线(称为para[参见本技术的图3中的插图])由三个参数定义:从最暗的黑色(零明度)开始的线性段的第一斜率和从最亮的白色(即,归一化明度=1)向下的第二线性段的第二斜率定义交点,并且第三参数定义该交点周围的抛物线区域的宽度,其与两个线性段的缩短版本连接。自动机使用许多数学来分析输入图像的统计,并且得出用于最佳重新分级(即,针对该图像的明度重新映射曲线)的3个最佳参数值。还存在还包括用于最暗的黑色和最亮的白色的剪裁区域的具有5个参数的版本等,并且可以为进一步不同参数化的曲线(例如,可定制的多线性段曲线)制作类似的自动机。

41、如果将来非专业人员(即消费者)将开始制作他们自己的hdr内容,则自动机也将被证明是感兴趣的。预期与专业评级员相反(专业评级员可能甚至花费半天来对特定场景进行评级(取决于电影制作者已经保留或仍然可用于评级的预算)),但是至少特定一部分消费者将想要根据需要进行尽可能少的调节。

42、可能期望试图覆盖其他图像方面的更好曲线。

43、但是,如果出于任何原因将期望具有各种风格,则会使自动机技术甚至更加麻烦。申请人最近已经着眼于改变范例,以不要求存在一个唯一的“最佳”分级曲线,但是可以做出例如用于定义ldr图像的两种风格的两个合理的重新分级函数,其与输入主hdr图像一起良好地工作。例如,第一明度映射曲线f_l1在最暗的线性段中具有稍微更多的亮度提升,使得最暗的像素在输出ldr图像中稍微更亮,并且第二风格的明度映射曲线f_l2保持场景中的最暗的像素稍微更暗。视频创作艺术家可以将他的想法设定在一个唯一的最佳功能上,例如,他想要使最暗的像素保持很暗,因此它们保留了神秘的气氛。但是可能一些用户可能期望一些图像中的暗区的稍微更亮或甚至更显露的版本。下面阐述的实施例使得能够构建更强大得多的装置,例如,当例如从室内走到外部时最佳地自动示出图像的移动电话。

44、us2020/0211503教导了一种使hdr图像变亮以补偿更亮的观看环境的系统。其特性由本专利申请的图7总结。输入图像(im_inpr)进入。在这恰好是sdr图像的情况下,由单元701执行sdr到hdr转换,以开始对公共级hdr图像(imstrt)的实际环境补偿处理。为了在更亮的观看环境下获得更好的显示图像,会提高像素明亮度(例如,通过将所有像素亮度乘以公共因子k),并且然后对最亮像素进行一些限幅以获得许可(对于固定的最大亮度最终用户显示器,无论如何都会遭受一些动态范围)。应当理解,这种处理的质量取决于图像的质量(噪声、压缩伪像、分辨率)。例如,如果图像包含大量模拟噪声,则如果使用具有高k值的强灰度级转换函数,则可能不会产生最佳图像用于显示,因为这将增强噪声并且可能使其令人烦恼地可见,特别是如果环境不那么亮。因此,要应用的备选灰度级曲线中的最佳灰度级曲线取决于图像质量值和测量传感器760对环境照明量(i_amb)的测量的组合。在该教导中,各种图像的一个或多个质量方面由深度神经网络(750)确定。例如,dnn可以查看图像并将其分类为标准分辨率图像(sd)或4k图像(uhd)。将倾向于认为这是对水平像素的量进行计数的简单方式,但是uhd图像可能已经通过空间上转换基于差质量的原始sd生成,并且dnn可以发现这一点。这种分辨率(m_resol)的测量在增强处理中可能是有用的。例如如果该增强进行从4k到8k的空间放大,则它可以使用不同的缩放算法,取决于其,图像的空间质量例如尝试稍微锐化模糊边缘。另一个测量是如由dnn确定的模拟噪声度量m_noi。该值对于去噪(去噪器702)和确定第一转换器703的最佳灰度级转换函数都是有用的。实际上,可以在适当的去噪之后对标准清晰度起始图像进行例如稍微更强的第一转换。然后可以在增强器704之后通过第二转换器705进行补足灰度级转换(即,如果分辨率已经增加,则因此图像的空间质量更高,或mpeg压缩的块伪像已经减轻)。重要的是,该dnn仅具有与标准处理流水线并行的外部角色,即它旨在提供比经典噪声水平估计器将做的更有意义的各种(完全不同的)输入图像的质量度量。因此,得到原始图像的良好的环境补偿版本,即imhdrprout。

45、图8阐明了如根据jp2907057b可以使用的原理。曝光改变是一种根据确定的曝光值e将输入值(例如明亮度或亮度)相乘的技术,例如luminance_out a(e)*luminance_in。如果我们具有例如通过窗口看到的在太阳中具有一些室外对象的室内场景(图a),则我们可能(例如,当从输入hdr图像计算ldr图像时)想要聚焦在室内对象上,而不是像在过去产生的经典ldr图像中那样可以被裁剪为白色的室外对象上。已知有限的(例如ldr)输出范围,可以确定最佳曝光,并通过乘数b(e)提升。如果想要专注于室外,则可以确定另一最佳曝光,从而产生乘数a(e2),其在该示例中变暗(图8b)。图8c示出了可以在不想使用神经网络(这可以给出更好的结果)的情况下如何统计地确定这一点的示例。简单的试探法是寻找图像中主要亮度出现的波瓣,确定代表性亮度值linx,并将其映射到例如输出亮度范围的一半(其设置另一个乘数值)。

46、jp2907057b对此的改进不仅可以确定环境照明的一般(灰色)水平,而且可以确定红色、绿色和蓝色测量结果,使得还可以补偿有色(例如,浅蓝色)环境。经处理的图像的平均值是神经网络的第四输入,该神经网络确定用于提升crt显示器的红色、绿色和蓝色电子枪的驱动值的控制信号(从而使所显示的图像变亮以补偿更亮的环境)。第五参数是向观看者示出(可能过度)变亮图像的持续时间。

47、t.bashford-rogers等人的论文“learning preferential perceptual exposurefor hdr displays”(ieee access,2019年4月)教导了一种确定各种类别的显示器的最佳曝光(例如,高达10000尼特的500尼特最大可显示亮度)和各种亮度值(从黑暗到通常室内有光(如400lux)到室外4000lux)的统计和神经网络模型。

48、最佳曝光通过恒定因子取决于图像的细节,并且以线性方式取决于显示器周围的环境照明量,并且对数地取决于显示器最大亮度。作为表征图像的变量,图像中亮度的log10平均值、定义中间亮度与最小值除以总跨度的比率的图像关键字、以及动态范围测量似乎足以表征图像。神经网络可以在内部学习关于图像的这些方面。他们教导了一种神经网络,其中第一层进行总结卷积,并且然后最后完全连接的层基于所有该总结信息确定单个最佳曝光值。

49、us2016/0100183教导了一种用于将图像从记录介质(例如蓝光光盘)发送到电视的再现设备,其中,介质包含图像和亮度映射函数。如果tv传送某些信息,则再现设备将发送图像和函数,并且如果它不传送这样的信息,则常规sdr图像被发送到tv。

技术实现思路

1、获得任何视频的适当重新分级的困难由以下处理:一种用于将第一亮度动态范围的输入高动态范围图像(im_hdr)亮度重新分级(300)为第二亮度动态范围的第二图像(im_dr2)的装置,其中,所述第二图像的最大亮度能够高于或低于所述输入高动态范围图像的最大亮度,所述装置包括:

2、第一神经网络处理电路(301),其具有所述输入高动态范围图像(im_hdr)的像素亮度集合作为输入,其中,所述第一神经网络处理电路具有至少两个输出集合(s1、s2),

3、其中,所述输出集合具有用于供应参数重新分级方程的参数值的输出节点,其中,所述参数重新分级方程包括至少两个部分函数,所述至少两个部分函数在所述重新分级方程中的量由至少两个对应的输出参数值(p11、p21)控制;

4、其中,第一输出集合(s1)包括确定重新分级函数的第一形状的至少两个参数值(p11、p21),并且第二输出集合(s2)包括确定所述重新分级函数的备选的第二形状的至少两个对应的参数值(p12、p22),所述备选的第二形状由相同的参数定义确定,但是针对其参数使用不同的值得到不同的形状;

5、第二神经网络处理电路(302),其具有来自至少一个传感器(311)的至少一个测量值(la)作为输入,并且具有供应在量上至少与所述第一神经网络处理电路的输出集合的数量相对应的权重集合的节点作为输出;

6、组合器(303),其被布置为将乘以来自所述第二神经网络处理电路的对应的第一权重(w11)的所述第一神经网络处理电路的所述第一输出集合的第一参数值(p11)与乘以来自所述第二神经网络处理电路的对应的第二权重(w12)的所述第一神经网络处理电路的所述第二输出集合的相同的重新分级函数定义参数的对应的参数值(p12)相加,从而产生最终参数值(p1_f);以及

7、明度映射电路(320),其被布置为利用明度映射函数(f_l)来映射所述输入高动态范围图像(im_hdr)的输入明度,以获得所述第二图像(im_dr2)的输出明度,所述明度映射函数由包括所述最终参数值(p1_f)的至少两个参数定义。

8、两个动态范围的限制可以预设,或在处理时以几种方式设置。例如,当认为两个范围的最小黑色相等且固定(例如0.01尼特)时,可以仅用(优选地图像的相关联目标显示器的)最大亮度来定义亮度动态范围。这可以在装置中硬连线,或经由用户接口输入等。它可以是神经网络的额外输入参数,或用于预加载神经网络的内部系数的备选集合的条件等。注意,尽管优选实施例使用根据具有最大亮度的相关联目标显示器唯一定义的hdr输入图像(4000尼特目标显示图像或视频通常不应具有亮度大于4000尼特的像素,并且通常将具有包含很好地填充相关联的目标显示器的范围的像素的至少一些图像对象,即那些像素将具有稍微低于和/或达到4000尼特的亮度),但是实际显示的图像不需要位于该尺度上(例如,在非常明亮的阳光条件下,那些图像可以在0.01到8000范围的输出上显示)。神经网络也可以与相对(例如,归一化到最大1.0)明亮度像素值一起工作。

9、取决于例如显示器的周围或编码侧的相关方面的相关测量,第二网络可以确定用于输入图像的两个不同的重新分级函数的混合,其表示如在主网络中编码的替代风格。因此,第二网络类型以特定方式控制第一神经网络,即它调节已经完全包含在第一神经网络中的并行方面。在一些实施例中,混合权重可以等于集合的量,使得分级曲线可以整体混合。例如如果存在三个集合(要混合)并且每个集合定义由两个参数(例如a*pixel_luma+b)控制的重新分级函数,则第一参数的最终值可以得到(w1*a1+w2*a2+w3*a3)/归一化,并且第二最终参数值可以由来自第二神经网络的那些相同的三个权重确定,即b_final=(w1*b1+w2*b2+w3*b3)/归一化。通常将混合至少一些参数。其他实施例可以输出更多权重,例如,每个贡献可以具有其自己的权重。例如:(w1*a1+w2*a2+w3*a3)/归一化和(w4*b1+w5*b2+w63*b3)/归一化。另一方面,并非所有参数都可以在组合器中获得改变的最终值,例如,第一参数可以获得加权值a_final=(w1*a1+w2*a2)/归一化,并且b_final=b1(或甚至固定值等)。尽管通常将混合定义重新分级函数的所有参数,

10、对于参数定义(针对其,可以训练主神经网络以找到合适的值),我们意指可设置的数字,其确定在某个域上的部分函数的加权(即,其定义重新分级函数的总定义的一部分)。例如如果该函数是在输入值的整个域上定义的(例如,当具有明度代码0-幂(2;比特数)时;或对于范围在luminance_min(例如0尼特)和luminance_max(例如4000尼特)之间的亮度),则可以将额外的重新分级函数公式化为:f_final(x)=parameter_1*first-partial-function(x)+parameter_2*second-partial-function(x),其中,x是输入域上的任何值。当部分函数是多项式时,可以具有f_final(x)=parameter_1*first-partial-polynomial(x)+parameter_2*second-partial-polynomial(x)。当然,本领域技术人员将理解,在装置硬件或软件中输入的函数实际上是用于在更高动态范围图像和更低动态范围图像之间重新分级的可用函数,即它们通常将是严格增加的,也就是严格单调增加的。乘法定义的示例可以是例如f_final(x)=parameter_1*first-partial-function(x)*[parameter_2+second-partial-function(x)]。微分(也称为部分域定义函数)的示例可以是例如:如果x<parameter_1,则应用parameter_2*partial_function_1;否则应用(parameter_3*partial_function_2+parameter_4*partial_function_3)作为f_final(x>parameter_1)的结果。本领域技术人员理解如何定义另外的参数重新分级函数,以及主神经网络如何能够学习那些参数的哪些值在各种情况下良好地工作,例如,在需要第一重新分级函数形状的主情况下和需要第二不同形状的重新分级函数形状的次要情况下,具有大量黑暗区域的黑暗洞穴图像。

11、因此,如果第一组节点产生参数a、b、c的第一值,则第二组将产生备选值,例如,对于那些相同参数的稍微更大的值,定义相同的重新分级函数,例如a+b*luminance-in+c*power(luminance-in;3)。

12、系统还将知道从哪个动态范围(例如,相关联的目标显示器的哪个最大亮度,即通常可以在图像中预期哪个最大像素亮度)映射到哪个动态范围。这可以是前缀的,例如在总是获得1000尼特输入视频并且需要降级到200尼特输出视频或1500尼特输出视频的系统中(如果这是例如在各种情况下在其上看到输出图像的显示器的能力)。或可以例如在运行时由用户设置用于输入和/或输出的可配置值,并且然后例如神经网络可以为不同的情况加载不同的权重,或可以包含网络内部的所有情况并将这些设置作为额外的输入(或如果图像明亮度是从要亮度映射的输入图像采样的一组像素亮度值,则甚至在内部导出它等)。这些函数也可以在装置的电路中预设,或在使用前由用户定义等。

13、在预设情况下,可以使用通常有用的函数,例如,可以以更简单的版本使用由本技术人的抛物线中间段连接的两个外部线性段的函数。复杂版本可以使用神经网络可以优化的复杂模型。许多系统将从工厂预先优化,但其他系统可能涉及由装置(例如移动电话)的用户的训练阶段。然后,用户绘制例如多分段函数,并且神经网络基于由用户指示的关于所显示的图像的最终重新分级外观的偏好来优化分段。各种神经网络可以使用各种学习/优化算法。在通用装置中,测量可以是可以根据需要影响重新分级的任何事物,并且可以被测量,例如环境、显示性质、用户性质等,如我们的阐述示例所例示的。

14、对于确定函数形状的参数,我们是指这些参数的值唯一地确定函数的形状,即在图上哪个输出坐标值由哪个输入坐标值产生。如果神经网络决定降低输出的值,因为它不同地训练其内部权重,则曲线可以例如位于更低、更靠近对角线、不太强烈地弯曲等。

15、单个参数可控的重新分级函数的示例是在归一化到1的明度轴上定义的两个线性段函数,其中,参数控制输入0.5处的第一段的高度,即p1=h,并且y_out(0.5)=h*0.5。我们已经发现我们的三参数(黑色斜率、白色斜率、中间色调宽度)para函数非常适合于在某些应用(例如广播)中重新分级图像,尽管已经开发和提出了更高级的重新分级函数(参见例如slhdr etsi标准),并且还可以通过下面的第一神经网络实施例来计算。在权重的数量等于集合的数量的情况下,仅对函数风格本身进行加权,即所有参数通过相同的值进行加权。在第二神经网络的输出权重的数量等于集合的数量乘以每个集合的参数的数量(即,第一神经网络的输出节点的总数)的情况下,则可以不同地对每个参数进行加权(如所述的,每个参数三元组定义一些最终的para函数曲线形状)。

16、第一神经网络处理电路(301)可以被训练为获得用于任何种类的hdr场景图像的有用的一组重新分级函数(风格)。由于需要学习表征一个或多个数学上定义的曲线的曲线形状的几个参数(我们用单参数和三参数曲线(para)进行阐述,但是系统可以扩展为覆盖平行的重新分级曲线,诸如在para或多线性段曲线之间进行选择,或学习连续应用的函数,诸如在初始para重新分级之后应用于hdr明度的微调多线性段曲线等),因此可以通过用一些成本最小化函数训练它以产生接近人类分级者将为各种输入图像选择的参数的输出参数使用任何神经网络拓扑。输入图像可以具有固定的(例如,如果装置要例如在固定广播系统中起作用,则全部1000尼特)或可变的编码峰值明亮度,并且将包括各种特性的hdr图像的相当大的集合(在沙漠示例中,全部明亮的像牛仔,半暗的具有几个明亮区域,像穿过天花板的太阳光线,更大和更小的暗和明亮区域,闪烁的高明亮度区域,如爆炸或烟火,其中,人类演员的面部出现在如室内和窗户外的图像的各种不同照明的区域中,等等)。

17、第二神经网络(nn)处理电路(302)现在可以学习应该如何组合这些函数,例如,如果照度计311测量特定的周围照明水平(例如,在用调暗的光观看晚间电视或在白天在火车上观看等),它可以学习到一定量的函数1(例如,对于场景中最暗的颜色具有更亮线性斜率的para)需要与函数2混合(具有更小斜率的para是平均情况)。并且,第二nn可以学习不同峰值明亮度或特别是最小编码亮度(mb_c)的不同设置,预期平均将需要更多校正以获得更好的可见度。

18、这允许非常低的用户交互,然后系统将快速切换到适当的重新分级的输出图像以用于若干最终观看情况中的任一种。

19、当用于亮度重新分级的装置耦合到被耦合到显示器的传感器时其是有用的。以这种方式,可以测量显示器正在发生的事情的细节。例如用户可以利用横向移动显示器不同地观看(这可以进一步结合例如从描述性元数据提取的内容数据的类型,用户是正在观看例如下载的电影还是线性广播节目),并且取向传感器可以为第二nn提供输入以针对该情况移动到不同的一组输出权重。另一个示例是罗盘和/或3d取向传感器,使得可以例如结合一天中的时间来测量用户正在观看图像的方向以及太阳的平均影响。另一示例是使用与显示器相邻的相机。

20、当用于亮度重新分级的装置耦合到被布置为提供对环境中的光量的度量的照度计(311)时其是有用的。这可以实现来自第一nn的曲线的不同加权,其仍然被优化以专门针对不同种类的hdr场景输入图像而出现,并且它们中的一些具有针对例如更亮观看环境中的更暗内容而被更好地调谐的曲线形状等。

21、当用于亮度重新分级的装置耦合到图像总结单元(310)时是有用的,图像总结单元(310)被布置为测量输入高动态范围图像(im_hdr)的亮度方面。有各种算法用于总结图像,范围从简单的(例如,子采样的平均区域明度图像)到复杂的,诸如对象内和对象间对比度的度量(如各种导数)和纹理度量等。所有这些都可以简单地形成第二nn的输入以训练其内部理解。然后,神经网络可以学习(基于作为输入的预处理知识或本机地基于图像明度)例如亮度通常对应于室内场景还是室内+室外场景(例如,通过窗口的视图)。原则上,尽管许多实施例将与高级全局参数一起工作,但是第二nn也可以至少部分地基于图像的几何局部化方面来工作,例如,集中的中间灰色区域是人脸的相关性等。如果还使用另外的明度导出的参数,例如估计的运动,则装置可以考虑运动设置(例如,由于相机跟踪摩托车等而导致的中心零运动,以及快速外部区域)。

22、当用于亮度重新分级的装置包括被布置为确定用户指定的权重的集合的用户接口单元(330)和用于选择至少一个用户指定的权重代替来自所述第二神经网络处理电路(302)的对应的权重来进入所述组合器(303)的选择器(331)时其是有用的。除了重新分级的自动模式之外,有用的是具有其中用户可以受益于所有学习的重新分级需要在第一nn内的见解并且他自己可以为至少一些参数设置一些权重的方式。例如用户可以设置对para重新分级曲线的最暗像素的线性段的斜率,并且自动机可以处理其他两个。例如一些实施例可以包含用户选择的第一参数到第二神经网络中的反馈输入,因此网络可以相应地确定另外两个。在更简单的实施例中,代替于选择器331,可以存在权重重新计算器电路或算法,其使用预先设计的方法来在给定暗的选定斜率(例如,抛物线中间区域的固定中间色调宽度,以及取决于用户选择的暗的斜率和pb_c的亮的斜率;或在更高级的版本中,最亮区域中的不同像素明度的量等)的情况下确定para的另外两个权重。在最简单的变型中,用户自己设置三个最终权重,例如通过使用一个或三个滑块在两种风格的权重之间移动。

23、当用于亮度重新分级的装置物理地包括在包含显示面板的装置中时其是有用的。它可以是用于优化例如家庭观看设置中的电视显示或移动电话等的有用装置。这允许在将图像制作与用于显示的图像优化分离的系统中,各种接收侧装置以它们自己的风格微调图像。

24、当用于亮度重新分级的装置被包括在用于将视频传送到一个或多个接收器的视频编码和通信装置中时其是有用的。与接收侧实施例相对,如果创建者使用本装置或方法,则在某些情况下其也可以是有用的。例如,消费者制作的视频可以受益于本技术,因为至少一些消费者可能不需要作为专业评级员的复杂的比色见解。

25、在这样的配置中,重新分级装置通常不仅仅用于计算对于(最终)显示而言良好的次要分级图像,而是用于计算对于通信而言良好的次要分级(例如,与用于slhdr编码的输入hdr图像相对应的良好ldr图像)。

26、该技术还可以通过以下来执行:一种用于将第一亮度动态范围的输入高动态范围图像(im_hdr)亮度重新分级(300)为第二亮度动态范围的第二图像(im_dr2)的方法,其中,所述第二图像的最大亮度能够高于或低于所述输入高动态范围图像的最大亮度,所述方法包括:

27、使用预训练的第一神经网络处理电路(301),所述预训练的第一神经网络处理电路具有所述输入高动态范围图像(im_hdr)的像素亮度集合作为输入,其中,所述第一神经网络处理电路具有至少两个输出集合(s1、s2),

28、其中,所述输出集合具有用于供应参数重新分级方程的参数值的输出节点,其中,所述参数重新分级方程包括至少两个部分函数,所述至少两个部分函数在所述重新分级方程中的量由至少两个对应的输出参数值(p11、p21)控制,

29、其中,第一输出集合(s1)包括确定重新分级函数的形状的至少两个参数值,并且第二输出集合(s2)包括与所述第一集合中的所述参数值不同的参数的至少两个对应的参数值(p12),所述至少两个对应的参数值确定所述重新分级函数的不同的形状;

30、使用第二神经网络处理电路(302),所述第二神经网络处理电路具有来自至少一个传感器(311)的至少一个测量值(la)作为输入,并且具有权重集合作为输出,所述权重集合具有至少等于所述第一神经网络处理电路的输出集合的量的权重的量;

31、将所述第一神经网络处理电路的所述第一输出集合的所述至少两个参数值中的第一个参数值(p11)在乘以来自所述第二神经网络处理电路的对应的第一权重(w11)之后与第二集合的所述至少两个参数值中的对应的第一参数值(p12)相加,从而产生最终参数值(p1_f),所述对应的第一参数值是来自所述第一神经网络处理电路的所述第二输出集合的相同的重新分级函数的对应的参数的值并且在所述相加之前乘以来自所述第二神经网络处理电路的对应的第二权重(w12);并且

32、应用具有由所述最终参数值(p1_f)定义的曲线形状的明度映射函数来映射所述输入高动态范围图像(im_hdr)的输入明度,以获得所述第二图像(im_dr2)的输出明度。

本文地址:https://www.jishuxx.com/zhuanli/20240914/295657.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。