异构多说话人自适应语音会议记录系统及方法与流程
- 国知局
- 2024-06-21 11:52:17
本发明涉及会议记录,尤其涉及一种异构多说话人自适应语音会议记录系统及方法。
背景技术:
1、当前会议记录设备面临的核心问题,在于对多说话人场景的语音处理能力不足。主流的会议记录设备采用单点录音方案,当多个与会人员同时讲话时,不同位置的语音信号混合在单声道中,无法区分每个说话人的语音。这给后续的语音转文字工作带来极大困难。即使设置多个录音设备进行多点录音,也面临语音分离与识别的难题。现有的语音识别技术主要针对单声道单说话人场景,对包含多个说话人的语音识别效果极差。这是由于不同人的语音特征差异很大,现有算法难以处理。就算引入说话人识别算法,也无法有效解决多个说话人同时讲话的情况,往往造成识别错误。现有一些系统尝试加入人脸识别来辅助语音识别,但由于无法深度融合语音数据,其提升有限。
2、当前一些先进的语音分离算法提供了隔离混合语音信号的可能,但这类算法很难直接服务于复杂的实际会议场景,与语音识别技术的结合也存在很多困难,难以支持准确的自动会议记录。可见,现有技术中语音分离、识别与说话人识别模块割裂,无法形成端到端的解决方案,依然需要大量人工处理,导致会议内容记录与转录效率低下,且识别准确率有限。
3、综上所述,提出一种实现分离语音与对应说话人的匹配,对分离并标注说话人的语音信号进行转录,生成多说话人的会议记录的异构多说话人自适应语音会议记录系统及方法是十分有必要的。
技术实现思路
1、本发明的目的在于提供一种异构多说话人自适应语音会议记录系统及方法,实现了分离语音与对应说话人的匹配,对分离并标注说话人的语音信号进行转录,生成多说话人的会议记录。
2、为实现上述目的,本发明采用的一种异构多说话人自适应语音会议记录系统,包括多通道语音采集模块、语音分离模块、语音识别模块、会议记录模块、说话人识别模块和说话人标注模块,所述语音分离模块与所述多通道语音采集模块连接,所述语音识别模块和所述说话人识别模块分别与所述语音分离模块连接,所述说话人标注模块与所述说话人识别模块连接,所述说话人标注模块和所述语音识别模块分别与所述会议记录模块连接;
3、所述多通道语音采集模块用于获取不同方位的语音,并以高取样频率进行数字化采集,得到语音信号;
4、所述语音分离模块用于将多个说话人混合的语音信号分离为独立的单说话人语音,得到输出语音;
5、所述语音识别模块用于根据输出语音进行识别,并输出识别数据;
6、所述说话人识别模块用于根据输出语音确定说话人;
7、所述说话人标注模块用于对说话人的身份进行标注,得到标注数据;
8、所述会议记录模块用于根据识别数据生成文本数据并记录,并在文本数据中赋加说话人身份的标注数据。
9、其中,所述多通道语音采集模块包括多通道麦克风阵列单元和数字语音采集单元,所述数字语音采集单元分别与所述多通道麦克风阵列单元和所述语音分离模块连接;
10、所述多通道麦克风阵列单元用于采用三维阵列排布的多个麦克风获取不同方位的语音,并记录语音特征;
11、所述数字语音采集单元用于采集语音特征,并生成语音信号。
12、其中,所述语音分离模块包括语音特征提取单元、语音映射表示单元、分离单元、波束形成单元和分离语音输出单元,所述语音特征提取单元与所述数字语音采集单元连接,所述语音映射表示单元分别与所述语音特征提取单元和所述分离单元连接,所述波束形成单元分别与所述分离单元和所述分离语音输出单元连接;
13、所述语音特征提取单元用于提取语音信号中的特征数据;
14、所述语音映射表示单元用于根据特征数据生成神经网络中对应的特征数据;
15、所述分离单元用于根据神经网络中对应的特征数据将不同说话人的特征进行分离,得到分离数据;
16、所述波束形成单元用于采用生成网络根据分离数据生产出逼真语音特征,辨别网络判断真伪,获得不同说话人清晰的语音;
17、所述分离语音输出单元用于得到输出语音,并进行输出。
18、其中,所述语音识别模块包括词向量单元、模型优化单元、热词增强单元、发音建模单元和噪音适应单元,所述词向量单元、所述模型优化单元、所述热词增强单元、所述发音建模单元、所述噪音适应单元分别与所述语音分离模块连接;
19、所述词向量单元用于根据输出语音进行单词识别;
20、所述发音建模单元用于进行特殊语音识别,特殊语音包括热词、口音及方言的非标准发音的语音;
21、所述模型优化单元用于识别输出语音中口音及方言,并匹配口音及方言的标准发音;
22、所述热词增强单元用于识别输出语音中的热词,热词包括专业术语、人名、产品名称;
23、所述噪音适应单元用于过滤输出语音中的噪声。
24、其中,所述说话人识别模块包括声纹提取单元、说话人模型和匹配单元,所述声纹提取单元与所述语音分离模块连接,所述说话人模型与所述声纹提取单元连接,所述匹配单元与所述说话人模型连接;
25、所述说话人模型用于存储说话人的声纹向量;
26、所述声纹提取单元用于提取输出语音中不同说话人的声纹向量;
27、所述匹配单元用于将输出语音中不同说话人的声纹向量与所述说话人模型中存储的声纹向量进行匹配,并确定说话人。
28、其中,所述说话人识别模块还包括增量学习单元,所述增量学习单元分别与所述说话人模型和所述匹配单元连接;
29、所述增量学习单元用于在输出语音中不同说话人的声纹向量与所述说话人模型中存储的声纹向量不匹配的情况下,新增所述说话人模型中说话人的声纹向量。
30、本发明还提供一种异构多说话人自适应语音会议记录方法,包括如下步骤:
31、设置多个麦克风,并进行三维阵列排布,置于会议桌中央,进行多通道语音采集,得到混合数据;
32、对混合数据进行预处理,预处理过程包括消响、降噪、干扰检测,提高信号质量;
33、从混合数据中分离出独立说话人的语音数据;
34、识别说话人,找到语音数据与说话人之间的对应关系,判断说话人的身份;
35、根据语音数据生成文本数据并进行记录,并在文本数据中赋加说话人身份的标注数据;
36、人工浏览结果,对结果进行后处理,后处理包括发言人标注、错误修正。
37、本发明的一种异构多说话人自适应语音会议记录系统及方法,通过所述多通道语音采集模块获取不同方位的语音,并以高取样频率进行数字化采集,得到语音信号;所述语音分离模块将多个说话人混合的语音信号分离为独立的单说话人语音,得到输出语音;所述语音识别模块根据输出语音进行识别,并输出识别数据;所述说话人识别模块根据输出语音确定说话人;所述说话人标注模块对说话人的身份进行标注,得到标注数据;所述会议记录模块根据识别数据生成文本数据并记录,并在文本数据中赋加说话人身份的标注数据;会议记录方法为:设置多个麦克风,并进行三维阵列排布,置于会议桌中央,进行多通道语音采集,得到混合数据;对混合数据进行预处理,预处理过程包括消响、降噪、干扰检测,提高信号质量;从混合数据中分离出独立说话人的语音数据;识别说话人,找到语音数据与说话人之间的对应关系,判断说话人的身份;根据语音数据生成文本数据并进行记录,并在文本数据中赋加说话人身份的标注数据;人工浏览结果,对结果进行后处理,后处理包括发言人标注、错误修正;通过上述方式,实现了分离语音与对应说话人的匹配,对分离并标注说话人的语音信号进行转录,生成多说话人的会议记录。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24137.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表