技术新讯 > 乐器声学设备的制造及制作,分析技术 > 视频数据的语音识别方法、服务器及存储介质与流程 > 正文

视频数据的语音识别方法、服务器及存储介质与流程

国知局
2024-06-21 11:49:07

本申请涉及计算机技术，尤其涉及一种视频数据的语音识别方法、服务器及存储介质。

背景技术：

1、近些年来随着深度学习技术的进展，语音识别技术在过去的一段时间也有了长足的发展，语音识别技术的改进和提升同时促进了智能设备的广泛应用。

2、在在线会议、在线教育、在线分享等在线视频场景下，视频语音中出现的人名、地名等专有名词等，对于用户再次利用视频的语音识别文本是较为重要的信息，例如对于用户再次利用视频的语音识别文本进行会议、课程总结是较为重要的。但是，传统的语音识别模型对人名、地名等专有名词的识别效果较差。

技术实现思路

1、本申请提供一种视频数据的语音识别方法、服务器及存储介质，用以解决传统的语音识别模型对人名、地名等专有名词的识别效果较差的问题。

2、第一方面，本申请提供一种视频数据的语音识别方法，包括：

3、获取待语音识别的视频，抽取出所述视频包含的至少一个语音片段，以及所述语音片段对应的图像帧；

4、根据所述语音片段对应的图像帧包含的文本信息，构建所述语音片段的热词列表；

5、将所述语音片段和所述语音片段的热词列表输入语音识别模型，通过所述语音识别模型根据所述语音片段与热词列表的融合特征进行语音识别，得到所述语音片段的内容文本；

6、基于所述至少一个语音片段的内容文本，生成所述视频的语音识别结果。

7、第二方面，本申请提供一种视频数据的语音识别方法，包括：

8、接收在线会议平台发送的会议视频；

9、抽取出所述会议视频包含的至少一个语音片段，以及所述语音片段对应的图像帧；

10、根据所述语音片段对应的图像帧包含的文本信息，构建所述语音片段的热词列表；

11、将所述语音片段和所述语音片段的热词列表输入语音识别模型，通过所述语音识别模型根据所述语音片段与热词列表的融合特征进行语音识别，得到所述语音片段的内容文本；

12、基于所述至少一个语音片段的内容文本，生成所述会议视频的会议纪要。

13、第三方面，本申请提供一种服务器，包括：

14、至少一个处理器；以及

15、与所述至少一个处理器通信连接的存储器；

16、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述服务器执行如第一方面或第二方面所述的方法。

17、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面或第二方面所述的方法。

18、本申请提供的视频数据的语音识别方法、服务器及存储介质，通过抽取出待语音识别的视频包含的至少一个语音片段以及语音片段对应的图像帧；根据语音片段对应的图像帧包含的文本信息，构建语音片段的热词列表；将语音片段和语音片段的热词列表输入语音识别模型，通过语音识别模型根据语音片段与热词列表的融合特征进行语音识别，得到语音片段的内容文本；基于至少一个语音片段的内容文本，生成视频的语音识别结果，通过利用视频图像帧中包含的热词信息来增强语音特征，可以显著提升语音识别模型对专有名词的识别效果。

技术特征：

1.一种视频数据的语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述抽取出所述视频包含的至少一个语音片段，以及所述语音片段对应的图像帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音片段对应的图像帧包含的文本信息，构建所述语音片段的热词列表，包括：

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括：语音编码模块、热词编码模块、热词增强模块和解码模块，

5.根据权利要求4所述的方法，其特征在于，所述热词增强模块包括：偏置层和合并模块，

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述基于所述至少一个语音片段的内容文本，生成所述视频的语音识别结果，包括：

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述语音识别模型通过如下方式训练得到：

8.根据权利要求7所述的方法，其特征在于，所述语音识别模型包括：语音编码模块、热词编码模块、热词增强模块和解码模块，

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求7所述的方法，其特征在于，所述构建训练集，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述语音片段样本对应的字幕信息生成所述语音片段样本的标注文本，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述语音片段样本对应的字幕信息与所述语音片段样本的识别文本进行对齐，得到所述语音片段样本的标注文本之后，还包括：

13.一种视频数据的语音识别方法，其特征在于，包括：

14.一种服务器，其特征在于，包括：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-13中任一项所述的方法。

技术总结本申请提供一种视频数据的语音识别方法、服务器及存储介质。本申请的方法，通过抽取出待语音识别的视频包含的至少一个语音片段以及语音片段对应的图像帧；根据语音片段对应的图像帧包含的文本信息，构建语音片段的热词列表；将语音片段和语音片段的热词列表输入语音识别模型，通过语音识别模型根据语音片段与热词列表的融合特征进行语音识别，得到语音片段的内容文本；基于至少一个语音片段的内容文本，生成视频的语音识别结果，通过利用视频图像帧中包含的热词信息来增强语音特征，可以显著提升语音识别模型对专有名词的识别效果。技术研发人员：王浩旭,俞帆,石宪,汪乐章,张仕良,李明受保护的技术使用者：浙江阿里巴巴机器人有限公司技术研发日：技术公布日：2024/5/6