技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于声纹识别的语音交互方法及系统与流程 > 正文

一种基于声纹识别的语音交互方法及系统与流程

国知局
2024-06-21 10:42:26

本发明涉及语音交互，特别地，涉及一种基于声纹识别的语音交互方法及系统。

背景技术：

1、数码录音笔，简称录音笔，也被称为数码录音棒或数码录音机，是数字录音器的一种。为了便于操作和提升录音质量，录音笔可以设计为各种造型，并非以单纯的笔型为主。录音笔的主要优点在于其携带方便，适用性强，同时拥有多种功能，在会议记录、新闻采访、隐蔽录音、运动录音等各类场景下均可以发挥良好的作用。

2、而随着实际所需，通过录音设备进行语音采集以及文本直接输出，这一需求越来越需要，而目前主要采集三种方式对语音进行文本转化：

3、方式一：vq聚类方法(如lbg，k-均值)：效果比较好，算法复杂度也不高，和hmm方法配合起来更可以收到更好的效果，但对于录音环境需要较高的要求，否则容易出现异常数据；

4、方式二：隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用hmm识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵，且hmm不需要时间规整，可节约判决时的计算时间和存储量，目前被广泛应用在工业领域；但需要通过大量时间进行训练，效率较低。

5、方式三：人工神经网络在某种程度上模拟生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，但缺点是训练时间长，动态时间规整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。

6、基于此，有必要提出一种基于声纹识别的语音交互方法以解决或至少缓解上述缺陷。

技术实现思路

1、本发明的主要目的在于提供一种基于声纹识别的语音交互方法及系统，旨在解决上述背景技术中所提出的技术问题。

2、为实现上述目的，本发明采用的技术方案如下：

3、一种基于声纹识别的语音交互方法，包括如下步骤：

4、s1、通过声音拾取设备采集音频，获得音频数据；

5、s2、将音频数据通过语音识别装置将其转换成文字，并通过端点检测算法进行音频断点检测，获得断点特征点；

6、s3、检测到断点特征点后，将该音频数据发送给声纹引擎进行声纹识别，从而更新角色信息；

7、其中，所述音频数据在通过步骤s2之前还包括设置有音频分类处理，其处理内容如下：将s1获取的音频数据划分成环境音频、文字音频以及干扰音频，然后将文字音频发送至步骤s2。

8、作为优选，所述步骤s2中音频断点检测，获得断点特征点的具体步骤如下：

9、s200、音频数据输入值语音识别装置内，进行纠偏以及滤波操作，得到标准语音；

10、s201、将标准语音进行端点检测，得到端点数据组β；

11、s202、将标准语音进行语义识别，得到语义文本序列组α；

12、s203、结合端点数据组β以及语义文本序列组α，得到断点特征点的集合数据。

13、作为优选，所述步骤s201中端点数据段β的具体获取步骤如下：

14、s2020、配置时序指令，即语音段中字符之间的时间间隔t；

15、s2021、获取标准语音中字符之间的时间间隔t；

16、s2022、判断t≥1.5t，若是，则表明在此处的语音字符段为端点ε1，若否，则继续进行排查，从而依次获得若干个端点εi，其中，i＝1,2,3…，根据若干个端点εi形成端点数据组β。

17、作为优选，所述步骤s203中断点特征点的集合数据的获取，其具体步骤如下：

18、s2030、对端点数据组β以及语义文本序列组α进行拟合，获得纠正语音段数组；

19、s2031、对纠正语音段数组的前后断点进行检测，从而获得断点特征点的集合数据。

20、作为优选，所述步骤s2030中拟合的具体步骤如下：

21、获取语义文本序列组α中，各个序列的前后端点，将其与端点数据组β进行比对，从而清洗出重合的数据组，获得纠正语音段数组。

22、作为优选，所述步骤s3中声纹识别的具体步骤如下：

23、s30、对所述当前音频数据进行音频识别，判定其是否存在同一时间帧出现多段语音段；若是，则进行分割处理，获得分割语音片段，并进行下一步骤，若否，则直接进行声纹识别；

24、s31、对所述分割语音片段进行数据增强处理，获得增强语音片段，再进行声纹识别，从而获得增强语音片段/音频数据对应的角色信息。

25、作为优选，所述数据增强处理包括噪点祛除以及声音增强。

26、本发明还公开了一种语音交互系统，用于上述任一项方案中的所述语音交互方法，包括语音采集模块、处理模块以及输出模块；

27、所述语音采集模块，用于获取语音数据；

28、所述处理模块，用于对语音数据进行处理获得文本数据；

29、所述输出模块，用于将所述处理模块处理获得的文本数据进行展示；且所述语音采集模块、所述处理模块以及所述输出模块三者依次电连接。

30、作为优选，还包括反馈模块以及数据库，所述反馈模块用于对处理模块所获得的文本数据进行校正，并将其反馈至处理模块，提升语音转文本的准确率，所述数据库用于存放系统所产生的各类数据。

31、作为优选，其集合内置于电子设备上。

32、本发明具有以下有益效果：

33、本发明对于录音环境的需求较低，以及无需进行复杂的时长训练，其次，能够准确区分说话人的角色，同时将多个人讲话的内容准确的转成文字，提高笔录制作效率。

34、除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

技术特征：

1.一种基于声纹识别的语音交互方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤s2中音频断点检测，获得断点特征点的具体步骤如下：

3.根据权利要求2所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤s201中端点数据段β的具体获取步骤如下：

4.根据权利要求2或3所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤s203中断点特征点的集合数据的获取，其具体步骤如下：

5.根据权利要求4所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤s2030中拟合的具体步骤如下：

6.根据权利要求1所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤s3中声纹识别的具体步骤如下：

7.根据权利要求6所述的一种基于声纹识别的语音交互方法，其特征在于，所述数据增强处理包括噪点祛除以及声音增强。

8.一种语音交互系统，其特征在于，用于权利要求1-7中任一项所述的语音交互方法，包括语音采集模块、处理模块以及输出模块；所述语音采集模块，用于获取语音数据；

9.根据权利要求8所述的一种语音交互系统，其特征在于，还包括反馈模块以及数据库，所述反馈模块用于对处理模块所获得的文本数据进行校正，并将其反馈至处理模块，提升语音转文本的准确率，所述数据库用于存放系统所产生的各类数据。

10.根据权利要求8或9所述的一种语音交互系统，其特征在于，其集合内置于电子设备上。

技术总结本发明公开了一种基于声纹识别的语音交互方法，涉及语音交互技术领域，包括如下步骤：S1、通过声音拾取设备采集音频，获得音频数据；S2、将音频数据通过语音识别装置将其转换成文字，并通过端点检测算法进行音频断点检测，获得断点特征点；S3、检测到断点特征点后，将该音频数据发送给声纹引擎进行声纹识别，从而更新角色信息；其中，所述音频数据在通过步骤S2之前还包括设置有音频分类处理，其处理内容如下：将S1获取的音频数据划分成环境音频、文字音频以及干扰音频，然后将文字音频发送至步骤S2；本发明还公开了一种语音交互系统，具体来说，本发明能够准确区分说话人的角色，同时将多个人讲话的内容准确的转成文字，提高笔录制作效率。技术研发人员：叶增荣,陈文鹏,岑小坤受保护的技术使用者：杭州捷途慧声科技有限公司技术研发日：技术公布日：2024/2/1