技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于唇语识别的语音确定方法、装置、设备和介质与流程  >  正文

基于唇语识别的语音确定方法、装置、设备和介质与流程

  • 国知局
  • 2024-06-21 11:49:47

本技术涉及图像识别,尤其是涉及一种基于唇语识别的语音确定方法、装置、设备和介质。

背景技术:

1、目前在办案的过程中,审查过程是侦破案件的重要工作,而在审查的过程中正确读取被审查人的语言,有助于更快更全面的了解实际案件情况,而在办案的过程中,通过识别被审查人的唇语可以实现被审查人语言的读取,可见,在办案过程中对被审查人进行唇语识别显得尤为重要。

2、一般地,审查人会获取监控视频,并提取监控视频中带有语音片段的目标视频,再直接使用与普通话对应的唇语识别模型对上述目标视频进行识别,以对被审查人的唇语进行识别;然而,不同的语言在描述同一事物时有着不同的发音,即对应唇语也不同,直接使用与普通话对应的唇语识别模型可能产生无法识别或识别错误的问题,可见,相关技术中唇语识别的精准度较差。

技术实现思路

1、为了提高唇语识别的精准度,本技术提供一种基于唇语识别的语音确定方法、装置、设备和介质。

2、第一方面,本技术提供一种方法,采用如下的技术方案:

3、一种基于唇语识别的语音确定方法,包括:

4、获取待识别视频,并提取所述待识别视频中的语音信息,所述语音信息包括:清晰语音和待识别语音;

5、识别所述清晰语音,得到所述清晰语音的语句信息,所述语句信息包括:语句结构和特征词语;

6、基于所述语句结构、所述特征词语和多个预设特征词语,确定与所述清晰语音对应的方言类别;

7、确定与所述方言类别对应的目标唇语识别模型,并基于所述目标唇语识别模型对目标待识别视频进行识别,所述目标唇语识别模型为基于神经网络模型训练得到的,所述目标待识别视频为与所述待识别语音对应的视频。

8、本技术在一较佳示例中可以进一步配置为,所述特征词语包括:发音型词语和描述型词语,所述基于所述语句结构、所述特征词语和多个预设特征词语,确定与所述清晰语音对应的方言类别,包括:

9、基于预设的语句结构和所属地的对应关系和所述语句结构,确定所述语句结构对应的第一地区,所述第一地区表征省级地区;

10、获取第一地区对应的多个第二地区;

11、基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配,确定若干目标第二地区;

12、确定所有所述目标第二地区各自对应的目标方言,并将所述目标方言确定为与所述清晰语音对应的方言类别。

13、本技术在一较佳示例中可以进一步配置为,所述发音型词语包括:第一字母型词语和第一声调型词语,所述基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配,确定若干目标第二地区,包括:

14、基于所述描述型词语和所有所述第二地区各自对应的多个预设特征词语,确定若干初始第二地区,所述初始第二地区的描述型词语和所述描述型词语相同;

15、获取所有所述初始第二地区各自对应的第二字母型词语和各自对应的第二声调型词语;

16、基于所述第一字母型词语、所述第二字母型词语、所述第一声调型词语和所述第二声调型词语,从所有所述初始第二地区中确定若干目标第二地区。

17、本技术在一较佳示例中可以进一步配置为,所述基于所述第一字母型词语、所述第二字母型词语、所述第一声调型词语和所述第二声调型词语,从所有所述初始第二地区中确定若干目标第二地区,包括:

18、将所述第一字母型词语和所述第二字母型词语进行匹配,确定第一相似度;

19、将所述第一声调型词语和所述第二声调型词语进行匹配,确定第二相似度;

20、获取与所述第一字母型词语对应的第一权重值和所述第一声调型词语对应的第二权重值;

21、基于所述第一相似度、所述第一权重值、所述第二相似度和所述第二权重值,确定所有所述初始第二地区各自对应的相似度;

22、判断相似度是否大于预设相似度阈值;

23、若是,则将相似度大于预设相似度阈值对应的所述初始第二地区确定为所述目标第二地区。

24、本技术在一较佳示例中可以进一步配置为,所述目标唇语识别模型的训练过程,包括:

25、获取训练集,其中,所述训练集包括多个样本数据,所述样本数据为与方言对应的图像和与图像对应的标准唇语识别信息;

26、将多个所述样本数据利用未训练唇语识别模型进行唇语识别,得到多个样本数据各自对应的样本唇语识别信息;

27、基于所有所述样本唇语识别信息和各自对应的标准唇语识别信息,确定损失值;

28、根据所述损失值和所有所述样本数据对未训练唇语识别模型进行迭代训练,直至损失值达到预设损失阈值,得到训练完成的唇语识别模型。

29、本技术在一较佳示例中可以进一步配置为,所述基于所述目标唇语识别模型对目标待识别视频进行识别之前,还包括:

30、确定所述目标待识别视频中的待识别图像,并使用预设图像矫正算法对所述待识别图像进行矫正,得到矫正后的目标待识别视频;

31、相应的,所述基于所述目标唇语识别模型对目标待识别视频进行识别,包括:

32、基于所述目标唇语识别模型对所述矫正后的目标待识别视频进行识别。

33、第二方面,本技术提供一种基于唇语识别的语音确定装置,采用如下的技术方案:

34、一种基于唇语识别的语音确定装置,包括:

35、获取模块,用于获取待识别视频,并提取所述待识别视频中的语音信息,所述语音信息包括:清晰语音和待识别语音;

36、语句信息确定模块,用于识别所述清晰语音,得到所述清晰语音的语句信息,所述语句信息包括:语句结构和特征词语;

37、方言类别确定模块,用于基于所述语句结构、所述特征词语和多个预设特征词语,确定与所述清晰语音对应的方言类别;

38、识别模块,用于确定与所述方言类别对应的目标唇语识别模型,并基于所述目标唇语识别模型对目标待识别视频进行识别,所述目标唇语识别模型为基于神经网络模型训练得到的,所述目标待识别视频为与所述待识别语音对应的视频。

39、本技术在一较佳示例中可以进一步配置为,所述特征词语包括:发音型词语和描述型词语,所述方言类别确定模块在执行基于所述语句结构、所述特征词语和多个预设特征词语,确定与所述清晰语音对应的方言类别时,用于:

40、基于预设的语句结构和所属地的对应关系和所述语句结构,确定所述语句结构对应的第一地区,所述第一地区表征省级地区;

41、获取第一地区对应的多个第二地区;

42、基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配,确定目标第二地区;

43、确定所述目标第二地区对应的目标方言,并将所述目标方言确定为与所述清晰语音对应的方言类别。

44、第三方面,本技术提供一种电子设备,采用如下的技术方案:

45、至少一个处理器;

46、存储器;

47、至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行如第一方面任一项所述的基于唇语识别的语音确定方法。

48、第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:

49、一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行如第一方面任一项所述的基于唇语识别的语音确定方法。

50、综上所述,本技术包括以下有益技术效果:

51、获取待识别视频,并提取待识别视频中的清晰语音和待识别语音,以便以清晰语音为参考;识别清晰语音得到清晰语音的语句结构和第一特征词语,不同的方言对应不同的语句结构,且针对同一事物不同的方言的用语不同,因而根据语句结构、第一特征词语和预设多个特征词语确定方言类别,以有效提高了方言类别确定的精准度;再根据准确的方言类别确定目标唇语识别模型,并使用目标唇语识别模型识别目标待识别视频,可以得到与待识别视频对应的全部清晰语音,以有效提高了语音识别的精准度,相较于相关技术中直接使用与普通话对应的唇语识别模型进行识别,本技术以清晰语音为参考,并从语句结构和第一特征词语维度确定方言类别,达到了根据准确的方言类别实现唇语识别精准度提升的目的,解决了相关技术中唇语识别精准度较差的技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23819.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。