技术新讯 > 电子通信装置的制造及其应用技术 > 头戴显示设备的实时字幕显示方法、头戴显示设备及介质与流程 > 正文

头戴显示设备的实时字幕显示方法、头戴显示设备及介质与流程

国知局
2024-08-22 15:05:18

本申请涉及增强现实，尤其涉及一种头戴显示设备的实时字幕显示方法、装置、头戴显示设备及计算机存储介质。

背景技术：

1、头戴显示设备所应用的技术主要有ar(augmentedreality，增强现实)技术、vr(virtualreality，虚拟现实)技术和mr(mixedreality，混合现实)技术，基于这些技术，用户在佩戴头戴显示设备时，能够通过设备中的各类传感器、摄像装置或者光学组件体验到真实或是虚拟的视觉场景。

2、在针对辅助无障碍通讯的领域，头戴显示设备存在巨大的潜力，常规的头戴显示设备为辅助听力障碍群体，通常会在佩戴者观看视频内容或者程序内音频时提供实时字幕，然而，常规的头戴显示设备无法覆盖听障群体在日常生活中的大部分场景，在提供无障碍服务的领域还存在缺陷。

3、综上，如何通过佩戴头戴显示设备为听障群体提供覆盖日常生活的无障碍服务，俨然已成为本领域亟需解决的技术问题。

4、上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本申请的主要目的在于提供一种头戴显示设备的实时字幕显示方法、装置、设备及存储介质，旨在解决如何通过佩戴头戴显示设备为听障群体提供覆盖日常生活的无障碍服务的技术问题。

2、为实现上述目的，本申请提出一种头戴显示设备的实时字幕显示方法，所述的方法包括：

3、通过头戴显示设备的语音采集系统获取语音信号和所述语音信号对应的声源位置，并将所述语音信号转换为字幕文本；

4、基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域；

5、在所述字幕显示区域中显示所述字幕文本。

6、在一实施例中，所述字幕显示区域包括：第一字幕显示区域；

7、所述基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域的步骤包括：

8、在所述声源位置处于所述视觉画面内时，通过所述声源位置确定所述语音信号对应的目标人物；

9、基于所述目标人物的轮廓区域生成所述目标人物对应的第一字幕显示区域。

10、在一实施例中，所述通过所述声源位置确定所述语音信号对应的目标人物的步骤包括：

11、识别所述视觉画面中的一个或者多个人物轮廓；

12、在所述人物轮廓为一个时，将所述人物轮廓作为所述语音信号对应的目标人物；

13、在所述人物轮廓为多个时，根据所述声源位置在各所述人物轮廓中确定所述声源位置对应的目标人物。

14、在一实施例中，所述基于所述目标人物的轮廓区域生成所述目标人物对应的第一字幕显示区域的步骤包括：

15、获取所述目标人物的轮廓区域；

16、获取所述轮廓区域中的特征点，其中，所述特征点为所述目标人物的头部、五官、四肢或者躯干中任一特征的特征点位；

17、在所述视觉画面中除所述轮廓区域外的空闲区域中生成预设大小的第一字幕显示区域，其中，所述第一字幕显示区域与所述特征点的相对位置不变，且所述第一字幕显示区域与所述轮廓区域的焦点距离相同。

18、在一实施例中，所述在所述字幕显示区域中显示所述字幕文本的步骤之后，所述方法还包括：

19、根据所述目标人物的图像生成所述目标人物对应的特征颜色；

20、获取所述目标人物的轮廓框线，并将所述字幕文本和所述轮廓框线的颜色设置为所述特征颜色。

21、在一实施例中，所述字幕显示区域还包括：第二字幕显示区域；

22、所述基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域的步骤还包括：

23、在所述声源位置处于所述头戴显示设备的视觉画面外时，基于所述声源位置在所述视觉画面的边缘位置生成第二字幕显示区域；

24、生成所述声源位置对应的声源位置标识，并在所述第二字幕显示区域中显示所述声源位置标识。

25、在一实施例中，所述基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域的步骤之后，所述方法还包括：

26、识别所述语音信号的声纹信息；

27、按照预设模板生成所述声纹信息对应的身份标识，并将所述身份标识与所述声纹信息关联存储至预设的存储空间中，或，在所述存储空间中查找所述声纹信息对应的身份标识；

28、在所述字幕显示区域中显示所述身份标识。

29、此外，为实现上述目的，本申请还提出一种头戴显示设备的实时字幕显示装置，所述头戴显示设备的实时字幕显示装置包括：

30、语音识别模块，用于通过头戴显示设备的语音采集系统获取语音信号和所述语音信号对应的声源位置，并将所述语音信号转换为字幕文本；

31、区域生成模块，用于基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域；

32、显示模块，用于在所述字幕显示区域中显示所述字幕文本。

33、此外，为实现上述目的，本申请还提出一种头戴显示设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的头戴显示设备的实时字幕显示方法的步骤。

34、此外，为实现上述目的，本申请还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的头戴显示设备的实时字幕显示方法的步骤。

35、此外，为实现上述目的，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上文所述的头戴显示设备的实时字幕显示方法的步骤。

36、本申请提供了一种头戴显示设备的实时字幕显示方法，本申请通过头戴显示设备上阵列式设置的麦克风阵列来对语音信号进行采集，并能够得到语音信号的声源位置，然后将采集到的语音信号转换为字幕文本以待展示，再在佩戴者的视觉画面中根据声源位置生成与声源位置对应的字幕显示区域，用以对字幕文本进行显示。

37、综上可知，本申请通过将周围语音信号转化为字幕文本，然后展示在头戴显示设备佩戴者的视觉画面中，让佩戴者能够在无法听清或者听到周围的说话声时，能够通过头戴显示设备中的字幕显示来感知到他人说话的内容，提高了佩戴者的无障碍体验，增强了头戴显示设备在日常场景下的无障碍辅助能力。

技术特征：

1.一种头戴显示设备的实时字幕显示方法，其特征在于，所述的方法包括：

2.如权利要求1所述的方法，其特征在于，所述字幕显示区域包括：第一字幕显示区域；

3.如权利要求2所述的方法，其特征在于，所述通过所述声源位置确定所述语音信号对应的目标人物的步骤包括：

4.如权利要求2所述的方法，其特征在于，所述基于所述目标人物的轮廓区域生成所述目标人物对应的第一字幕显示区域的步骤包括：

5.如权利要求2所述的方法，其特征在于，所述在所述字幕显示区域中显示所述字幕文本的步骤之后，所述方法还包括：

6.如权利要求2所述的方法，其特征在于，所述字幕显示区域还包括：第二字幕显示区域；

7.如权利要求1所述的方法，其特征在于，所述基于所述声源位置在佩戴者的视觉画面中生成字幕显示区域的步骤之后，所述方法还包括：

8.一种头戴显示设备的实时字幕显示装置，其特征在于，所述装置包括：

9.一种头戴显示设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如权利要求1至7中任一项所述的头戴显示设备的实时字幕显示方法的步骤。

10.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的头戴显示设备的实时字幕显示方法的步骤。

技术总结本申请公开了一种头戴显示设备的实时字幕显示方法、装置、头戴显示设备及存储介质，涉及增强现实技术领域，头戴显示设备的实时字幕显示方法包括：通过头戴显示设备的语音采集系统获取语音信号和语音信号对应的声源位置，并将语音信号转换为字幕文本；基于声源位置在佩戴者的视觉画面中生成字幕显示区域；在字幕显示区域中显示字幕文本。本申请通过将周围语音信号转化为字幕文本，然后展示在头戴显示设备佩戴者的视觉画面中，让佩戴者能够在无法听清或者听到周围的说话声时，能够通过头戴显示设备中的字幕显示来感知到他人说话的内容，提高了佩戴者的无障碍体验，增强了头戴显示设备在日常场景下的无障碍辅助能力。技术研发人员：朱云龙受保护的技术使用者：歌尔科技有限公司技术研发日：技术公布日：2024/8/20