用于计算视觉注意力中心的机器学习的制作方法
- 国知局
- 2024-12-26 15:09:52
本公开总体上涉及图像处理。更具体地说,本公开涉及用于训练和使用机器学习模型来预测图像的视觉注意力中心(例如,用于对图像区域进行排序,以便以渐进图像加载格式进行编码、解码、传输和/或加载)的系统和方法。
背景技术:
1、存在相对于图像(例如,数字图像)的许多人类视觉分析的指标或度量。例如,在计算机科学中,显著图或“热图”可以指图像的给定区域(例如,像素)对人类视觉感知或图像理解的重要性的表示或说明(例如,使用亮度或其他标量值)。
2、例如,可以通过评估对于每个图像区域,在特定时间段内人类将其视觉注意力(例如,注视)集中在图像区域上的时间量来生成显著图。因此,显著图可能有助于识别人类观看时间最长的图像区域。
3、然而,显著图通常无法捕获或传达注意力信息的时间方面,诸如人类首先将视觉注意力集中在图像的哪个区域,而不是人类将视觉注意力集中在图像的哪个区域的时间最长。此外,了解(例如,从显著图)人类将视觉注意力集中在图像的哪个区域的时段最长并不等同于或识别整个图像的视觉注意力中心的位置。类似地,仅识别图像的初始眼睛注视点也无法解释图像级的注意力动态。
技术实现思路
1、本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者可从描述中学习,或者可通过实施例的实践来学习。
2、本公开的一个示例方面涉及一种用于预测视觉注意力中心的计算机系统,该计算机系统包括:一个或多个处理器;机器学习的视觉注意力中心预测模型,该机器学习的视觉注意力中心预测模型被配置为接收和处理输入图像以预测该输入图像的视觉注意力中心;以及一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由该一个或多个处理器执行时使该计算机系统执行操作。所述操作包括:获得该输入图像;使用该机器学习的视觉注意力中心预测模型处理该输入图像以获得该输入图像的该视觉注意力中心;以及提供该输入图像的该视觉注意力中心作为输出。
3、在一些实现方式中,该输入图像包括多个像素;并且该机器学习的视觉注意力中心预测模型被配置为将单组一个或多个像素预测为该输入图像的该视觉注意力中心。
4、在一些实现方式中,该输入图像包括多个像素;并且该机器学习的视觉注意力中心预测模型被配置为将单个像素预测为该输入图像的该视觉注意力中心。
5、在一些实现方式中,由该机器学习的视觉注意力中心预测模型针对该输入图像预测的该视觉注意力中心包括该输入图像的部分,该部分被预测为在观看时间段内处于提供给该输入图像的人类视觉注意力的中心。
6、在一些实现方式中,提供该输入图像的该视觉注意力中心作为该输出包括:将该输入图像的多个子部分排序为编码或解码顺序,其中该编码或解码顺序至少部分地基于该输入图像的该视觉注意力中心;以及根据渐进式图像加载格式并且根据该编码或解码顺序对该输入图像进行编码或解码。
7、在一些实现方式中,该渐进式图像加载格式包括jpeg xl。
8、在一些实现方式中,该机器学习的视觉注意力中心预测模型已经在训练数据集上进行训练;该训练数据包括多个训练示例;并且每个训练示例包括训练图像和指示该训练图像的所标记的视觉注意力中心的标签。
9、在一些实现方式中,每个训练图像的该训练图像的该所标记的视觉注意力中心已经通过以下方式生成:获得该训练图像的多个注意力点,该多个注意力点指示人类视觉注意力在该训练图像上的相应位置;过滤该多个注意力点以确定过滤后的注意力点集合;以及基于该过滤后的注意力点集合确定该所标记的视觉注意力中心。
10、在一些实现方式中,过滤该多个注意力点以确定该过滤后的注意力点集合包括以下一个或两个:执行时间过滤以滤出该多个注意力点中与在阈值观看时间段之后出现的人类视觉注意力的相应位置相对应的任意注意力点;以及执行空间过滤以滤出该多个注意力点中存在于该训练图像中注意力点密度低于阈值密度水平的区域中的任意注意力点。
11、另一个示例方面涉及一种用于训练视觉注意力中心预测模型的计算机实现的方法。该方法包括:由包括一个或多个计算装置的计算系统获得训练数据集,其中该训练数据包括多个训练示例,并且其中每个训练示例包括训练图像和指示该训练图像的所标记的视觉注意力中心的标签;由该计算系统访问该视觉注意力中心预测模型,其中该视觉注意力中心预测模型被配置为接收和处理输入图像以预测该输入图像的视觉注意力中心;以及对于该多个训练示例中的每一个:由该计算系统使用该视觉注意力中心预测模型处理该训练图像以获得该训练图像的所预测的视觉注意力中心;由该计算系统评估损失函数,该损失函数将该训练图像的该所预测的视觉注意力中心与由该标签提供的该训练图像的该所标记的视觉注意力中心进行比较;以及由该计算系统基于该损失函数修改该视觉注意力中心预测模型的一个或多个参数。
12、在一些实现方式中,由该计算系统获得该训练数据集包括由该计算系统为每个训练图像生成相应标签;并且对于每个训练图像,由该计算系统生成该相应标签包括:由该计算系统获得该训练图像的多个注意力点,该多个注意力点指示人类视觉注意力在该训练图像上的相应位置;由该计算系统基于该多个注意力点确定该所标记的视觉注意力中心。
13、在一些实现方式中,由该计算系统基于该多个注意力点确定该所标记的视觉注意力中心包括:由该计算系统过滤该多个注意力点以确定过滤后的注意力点集合;以及由该计算系统基于该过滤后的注意力点集合确定该所标记的视觉注意力中心。
14、在一些实现方式中,过滤该多个注意力点以确定该过滤后的注意力点集合包括:由该计算系统执行时间过滤以滤出该多个注意力点中与在阈值观看时间段之后出现的人类视觉注意力的相应位置相对应的任意注意力点。
15、在一些实现方式中,过滤该多个注意力点以确定该过滤后的注意力点集合包括由该计算系统执行空间过滤以滤出该多个注意力点中存在于该训练图像中注意力点密度低于阈值密度水平的区域中的任意注意力点。
16、在一些实现方式中,由该计算系统基于该过滤后的注意力点集合确定该所标记的视觉注意力中心包括:确定该过滤后的注意力点集合的中心;以及将该所标记的视觉注意力中心设置为等于该过滤后的注意力点集合的该中心。
17、在一些实现方式中,每个训练图像包括多个像素;并且该视觉注意力中心预测模型被配置为将单组一个或多个像素预测为该训练图像的所预测的视觉注意力中心。
18、在一些实现方式中,每个训练图像包括多个像素;并且该视觉注意力中心预测模型被配置为将单个像素预测为该训练图像的该所预测的视觉注意力中心。
19、在一些实现方式中,由该视觉注意力中心预测模型针对每个训练图像预测的该所预测的视觉注意力中心包括该训练图像的部分,该部分被预测为在观看时间段内处于提供给该训练图像的人类视觉注意力的中心。
20、另一个示例方面涉及一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个处理器执行时使该一个或多个处理器执行操作以对输入图像进行编码,所述操作包括:获得该输入图像;使用机器学习的视觉注意力中心预测模型处理该输入图像以获得由该机器学习的视觉注意力中心预测模型针对该输入图像预测的视觉注意力中心;将该输入图像的多个子部分排序为编码或解码顺序,其中该编码或解码顺序至少部分地基于由该机器学习的视觉注意力中心预测模型针对该输入图像预测的该视觉注意力中心;以及根据渐进式图像加载格式和该编码或解码顺序对该输入图像进行编码或解码。
21、在一些实现方式中,该渐进式图像加载格式包括jpeg xl。
22、本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子装置。
23、将参考以下描述和随附权利要求更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例,并且连同描述一起用于解释相关原理。
本文地址:https://www.jishuxx.com/zhuanli/20241226/344736.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表