技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互方法、装置及电子设备与流程 > 正文

一种语音交互方法、装置及电子设备与流程

国知局
2024-06-21 11:51:46

本发明涉及语音处理领域，更具体的说，涉及一种语音交互方法、装置及电子设备。

背景技术：

1、随着5g(5th generationmobile communicationtechnology，第五代移动通信技术)、多媒体技术的发展，图像、短视频、电影、电视等媒体在发展过程中，文字的产出和修饰占比逐渐变小，这不利于视障人士对于日常信息，如视频播放时的数据获取。

2、为了使视障人士在视频播放时能够获取较多的视频数据，有较好的体验。视频音频描述服务预先录制视频的音频描述，在视频播放时，输出预先录制的音频描述，以使视障人士理解播放的画面中发生的内容。

3、这种方式虽然能够提供视障人士播放的画面中的信息，但是由于播放的音频描述是提前录制的，无法满足视障人士在观看视频过程中的个性化数据获取需求。

技术实现思路

1、有鉴于此，本发明提供一种语音交互方法、装置及电子设备，以解决无法满足视障人士在观看视频过程中的个性化数据获取需求的问题。

2、为解决上述技术问题，本发明采用了如下技术方案：

3、一种语音交互方法，包括：

4、将获取的用户语音转换为文本信息；

5、对所述文本信息进行推理转换操作，以确定所述文本信息对应的画面描述提示信息；

6、根据所述画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到所述画面描述提示信息对应的分析结果；所述分析结果包括所述画面描述提示信息对应的画面定位结果以及画面分析结果；

7、确定所述分析结果对应的文本交互结果；

8、将所述文本交互结果转化为目标语音，输出所述目标语音。

9、可选地，对所述文本信息进行推理转换操作，以确定所述文本信息对应的画面描述提示信息，包括：

10、获取当前播放的目标画面；

11、识别所述目标画面中的内容；

12、根据所述内容，对所述文本信息进行文本推理和文本转换操作，得到画面描述提示信息。

13、可选地，在获取当前播放的目标画面之前，还包括：

14、对所述文本信息进行意图识别，得到意图识别结果；

15、在所述意图识别结果为画面数据获取意图的情况下，获取当前播放的目标画面。

16、可选地，在所述画面描述提示信息为一次性提示信息的情况下，根据所述画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到所述画面描述提示信息对应的分析结果，包括：

17、对当前播放的目标画面进行画面分割操作，得到画面分割结果；

18、基于所述画面描述提示信息，对所述画面分割结果进行画面信息提取操作，得到画面提取信息；

19、生成所述画面提取信息对应的掩码向量，将所述掩码向量作为画面定位结果；

20、确定所述画面提取信息对应的画面分析结果；

21、组合所述画面定位结果以及所述画面分析结果，得到所述画面描述提示信息对应的分析结果。

22、可选地，确定所述分析结果对应的文本交互结果，包括：

23、根据所述画面定位结果以及所述目标画面，对所述画面分析结果进行数据推理和扩展处理，得到文本交互结果。

24、可选地，在所述画面描述提示信息为持续性提示信息的情况下，还包括：

25、在播放画面时，判断播放的画面是否满足所述持续性提示信息对应的分析条件；

26、若满足，从所述画面中提取出所述画面描述提示信息对应的描述信息；

27、语音输出所述描述信息。

28、可选地，在所述意图识别结果为视频播放控制意图的情况下，还包括：

29、执行与所述意图识别结果对应的视频播放控制操作。

30、一种语音交互装置，包括：

31、数据转换模块，用于将获取的用户语音转换为文本信息；

32、提示信息确定模块，用于对所述文本信息进行推理转换操作，以确定所述文本信息对应的画面描述提示信息；

33、信息提取模块，用于根据所述画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到所述画面描述提示信息对应的分析结果；所述分析结果包括所述画面描述提示信息对应的画面定位结果以及画面分析结果；

34、交互结果确定模块，用于确定所述分析结果对应的文本交互结果；

35、语音输出模块，用于将所述文本交互结果转化为目标语音，输出所述目标语音。

36、可选地，所述提示信息确定模块包括：

37、画面获取子模块，用于获取当前播放的目标画面；

38、内容识别子模块，用于识别所述目标画面中的内容；

39、提示信息确定子模块，用于根据所述内容，对所述文本信息进行文本推理和文本转换操作，得到画面描述提示信息。

40、一种电子设备，包括：存储器和处理器；

41、其中，所述存储器用于存储程序；

42、处理器调用程序并用于执行上述的语音交互方法。

43、相较于现有技术，本发明具有以下有益效果：

44、本发明提供了一种语音交互方法、装置及电子设备，在视频播放过程中，若是用户有数据获取需求，能够通过语音方式输出需求，本发明将获取的用户语音转换为文本信息，对所述文本信息进行推理转换操作，以确定所述文本信息对应的画面描述提示信息，根据所述画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到所述画面描述提示信息对应的分析结果；所述分析结果包括所述画面描述提示信息对应的画面定位结果以及画面分析结果，即本发明能够基于语音交互，从当前播放的目标画面中提取出用户所需的数据。然后确定所述分析结果对应的文本交互结果，语音输出文本交互结果，以使用户通过语音方式获取到提取的数据，满足视障人士在观看视频过程中的个性化数据获取需求。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，对所述文本信息进行推理转换操作，以确定所述文本信息对应的画面描述提示信息，包括：

3.根据权利要求2所述的语音交互方法，其特征在于，在获取当前播放的目标画面之前，还包括：

4.根据权利要求1所述的语音交互方法，其特征在于，在所述画面描述提示信息为一次性提示信息的情况下，根据所述画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到所述画面描述提示信息对应的分析结果，包括：

5.根据权利要求1所述的语音交互方法，其特征在于，确定所述分析结果对应的文本交互结果，包括：

6.根据权利要求1所述的语音交互方法，其特征在于，在所述画面描述提示信息为持续性提示信息的情况下，还包括：

7.根据权利要求3所述的语音交互方法，其特征在于，在所述意图识别结果为视频播放控制意图的情况下，还包括：

8.一种语音交互装置，其特征在于，包括：

9.根据权利要求8所述的语音交互装置，其特征在于，所述提示信息确定模块包括：

10.一种电子设备，其特征在于，包括：存储器和处理器；

技术总结本发明提供了一种语音交互方法、装置及电子设备，在视频播放过程中，若是用户有数据获取需求，能够通过语音方式输出需求，本发明将获取的用户语音转换为文本信息，对文本信息进行推理转换操作，以确定文本信息对应的画面描述提示信息，根据画面描述提示信息对当前播放的目标画面进行画面信息提取操作，得到画面描述提示信息对应的分析结果；分析结果包括画面描述提示信息对应的画面定位结果以及画面分析结果，即本发明能够基于语音交互，从当前播放的目标画面中提取出用户所需的数据。然后确定分析结果对应的文本交互结果，语音输出文本交互结果，以使用户通过语音方式获取到提取的数据，满足视障人士在观看视频过程中的个性化数据获取需求。技术研发人员：牛佩云,朱伟伟,徐烨,刘晓龙,刘云飞,牛威震受保护的技术使用者：中国农业银行股份有限公司技术研发日：技术公布日：2024/5/12