技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数字会议语音处理方法、系统、存储介质及计算机  >  正文

一种数字会议语音处理方法、系统、存储介质及计算机

  • 国知局
  • 2024-06-21 11:55:30

本发明语音识别,具体涉及一种数字会议语音处理方法、系统、存储介质及计算机。

背景技术:

1、数字会议是一种集计算机、通讯、自动控制、多媒体、图像、音响等技术于一体的会务自动化管理系统,利用计算机、数字及网络技术进行各系统组网,线路上传输的均为数字化信号,不仅大大改善了音质,提高了系统可靠性。

2、会议主要分为会前、会中、会后三个阶段,会前主要是一些会议的准备工作,会中主要是对会议过程进行记录,避免会议内容的遗漏,会后主要是根据会中记录的内容进行复盘,目前,会议的记录主要通过会议的记录员进行人工记录,然而,现有的数字会议中参会的人员较多, 每一次会议通过记录员进行记录需要花费大量的人力和物力,而且为了跟上会议的时间,人工记录主要是针对会议中的关键词等进行概括记录,一方面容易发言人员语音内容的混淆,另一方面造成信息的遗漏,另外,通过人工进行记录的方式,不能反映与会者发言时的感情信息,难以准确的对与会者的发言过程记性翻译和转录。

技术实现思路

1、基于此,本发明的目的是提供一种数字会议语音处理方法、系统、存储介质及计算机,以解决现有技术中存在的技术问题。

2、本发明提出一种数字会议语音处理方法,包括以下步骤:

3、获取不同与会者各自的声音特征和身份信息,根据不同与会者的所述声音特征和所述身份信息构建身份匹配模型;

4、获取数字会议一段时间内的录音数据,对所述录音数据中的语音信息进行特征转换,以提取该段时间内所述录音数据中的语音内容信息和语音感情信息;

5、其中,提取所述语音感情信息的步骤包括:

6、计算预设语音文件中每个时间帧内的注意力参数向量和循环神经网络的输出之间的内积,所述内积表示该时间帧对情绪的话语级表示的贡献得分,得到总和为1的时间帧权重集;

7、将所述权重集用于加权平均时间,以获得话语级别结果,将所述话语级别结果传递给归一化指数函数输出感情类,得到语音感情提取模型,将所述录音数据导入所述语音感情提取模型,以得到所述语音感情信息;

8、将提取的所述语音内容信息输入至所述身份匹配模型,解析出一段时间内各个与会者的语音内容;

9、对各个与会者的语音内容进行降噪处理,并根据降噪处理后的语音内容生成对应的文本信息,根据该段时间段内的所述语音感情信息提取与会者表达的意见和属性。

10、优选地,提取该段时间内所述录音数据中的语音内容信息的步骤包括:

11、将预设语音文件进行频谱预处理,得到语音频谱特征;

12、对所述语音频谱特征进行不变卷积处理,将不变卷积处理后的语音频谱特征导入双向循环神经网络中进行一次训练;

13、将一次训练后的语音数据组合前向卷积和全连接层,使用连接性语言模型损失函数进行二次训练,得到语音内容提取模型;

14、将所述录音数据导入所述语音内容提取模型,以得到所述语音内容信息,并将得到的所述语音内容信息按时间轴进行排序。

15、优选地,所述时间帧权重集的表达式为:

16、

17、式中,为时间帧,为注意力模型中的注意力参数向量,为循环神经网络的输出量,为预设语音文件的总时间;

18、所述话语级别结果的表达式为:

19、

20、式中,为循环神经网络的输出量,为时间帧权重集,为预设语音文件的总时间。

21、优选地,所述将提取的所述语音内容信息输入至所述身份匹配模型,解析出一段时间内各个与会者的语音内容的步骤包括:

22、将所述语音内容信息高通滤波后进行线性预测分析和量化处理,得到所述语音内容信息的线性预测编码信息;

23、采用所述线性预测编码信息对所述语音内容信息进行感知权重分析,得到感知权重语音信号;

24、根据所述线性预测编码信息和所述感知权重语音信号对所述语音内容信息进行参数编码,转换成脉冲编码调制数字信号;

25、将所述脉冲编码调制数字信号输入至所述身份匹配模型,解析出一段时间内各个与会者的语音内容。

26、优选地,所述对各个与会者的语音内容进行降噪处理的步骤包括:

27、将所述语音内容信息中每个语音的波形以时间帧为单位进行线性叠加,得到所述语音内容信息的波形流;

28、采用自对齐调整权重算法对所述波形流进行运算,输出中间语音流;

29、对所述中间语音流做傅里叶变化,得到所述中间语音流的高斯白噪声,将所述高斯白噪声从所述中间语音流中删除,得到频域内的纯净语音流;

30、对所述纯净语音流进行傅里叶逆变换,得到时域内的所述纯净语音内容。

31、优选地,所述波形流的表达式为:

32、

33、式中,z为语音内容中语音流的个数,i=0,1,…,n-1,n为一帧中样本的个数,为第j个语音流中的第i个样本,为语音内容中的一帧中第i个样本;

34、所述纯净语音流的表达式为:

35、

36、式中,纯净语音信号,为语音内容信息中的混音信号,为高斯白噪声信号。

37、优选地,在根据各个与会者的语音内容生成对应的文本信息之后,所述数字会议语音处理方法还包括:

38、将生成的文本信息进行分割,得到若干句子组成的句子集,对分割的若干句子进行分词处理,保留候选关键词;

39、构建所述句子集的边集,基于句子间的内容覆盖率,计算两个句子间的相似度,若两个句子的相似度大于预设阈值,则判定两个句子相关并连接,计算连接的两句子的边的权值;

40、根据两个句子边的权值迭代计算所有句子的得分并进行排序,选取若干排序靠前的句子作为候选摘要句,根据所述候选摘要句生成所述文本信息的摘要。

41、本发明还提出一种数字会议语音处理系统,包括:

42、构建模块,用于获取不同与会者各自的声音特征和身份信息,根据不同与会者的所述声音特征和所述身份信息构建身份匹配模型;

43、提取模块,用于获取数字会议一段时间内的录音数据,对所述录音数据中的语音信息进行特征转换,以提取该段时间内所述录音数据中的语音内容信息和语音感情信息;

44、其中,提取所述语音感情信息的步骤包括:

45、计算预设语音文件中每个时间帧内的注意力参数向量和循环神经网络的输出之间的内积,所述内积表示该时间帧对情绪的话语级表示的贡献得分,得到总和为1的时间帧权重集;

46、将所述权重集用于加权平均时间,以获得话语级别结果,将所述话语级别结果传递给归一化指数函数输出感情类,得到语音感情提取模型,将所述录音数据导入所述语音感情提取模型,以得到所述语音感情信息;

47、解析模块,用于将提取的所述语音内容信息输入至所述身份匹配模型,解析出一段时间内各个与会者的语音内容;

48、生成模块,用于对各个与会者的语音内容进行降噪处理,并根据降噪处理后的语音内容生成对应的文本信息,根据该段时间段内的所述语音感情信息提取与会者表达的意见和属性。

49、本发明还提出一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述数字会议语音处理方法。

50、本发明还提出一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数字会议语音处理方法。

51、本发明相比于现有技术的有益效果为:本技术提供的数字会议语音处理方法,首先获取不同与会人员的声音特征和身份信息,并根据声音特征和身份信息构建身份匹配模型,使得声音信息和身份信息一一对应,方便后续不同发言人语音内容的准确识别区分,获取会议一段时间内的录音数据,并将录音数据中的语音信息进行特征提取,以提取该段时间内录音数据中的语音内容信息和语音感情信息,将提取的所述语音内容信息输入至所述身份匹配模型,进而解析出一段时间内各个与会者的语音内容,由于身份匹配模型中与会者的声音信息和身份信息是预先录入的,因此,将数字信号导入身份匹配模型可以将与会者的声音和身份对应,以准确得到各个与会者的语音内容;有效的提高了记录语音内容的准确性,防止造成信息的遗漏,提高会议文本的记录效率;通过提取录音数据中的语音感情信息,可以有效的分析与会者进行发言时的意见和属性,属性至少包括积极的、中立的、消极的;以方便后续准确的翻译和转录与会者的发言过程。

52、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24497.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。