技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于角色识别的会议记录智能生成系统的制作方法  >  正文

一种基于角色识别的会议记录智能生成系统的制作方法

  • 国知局
  • 2024-10-09 14:38:00

本发明涉及记录系统,具体为一种基于角色识别的会议记录智能生成系统。

背景技术:

1、会议记录智能生成系统是通过运用自然语言处理技术,自动化生成和整理会议记录的系统,这种系统可以通过语音识别技术或文本分析技术,自动将会议中的讨论内容、决策结果等转化为文本记录,帮助用户在会议中自动记录、摘要以及分析会议内容,从而提高会议效率、准确性和信息管理能力,该系统在企业、组织和团队的日常工作中有很多应用场景,有助于提升会议质量、促进信息共享和协作。

2、目前大部分的一种基于角色识别的会议记录智能生成系统在生成会议记录时由于没有通过角色识别模型,导致系统不熟悉发言人的发言特征,从而在进行会议内容的记录时会遗漏关键内容,产生记录不准确的问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种基于角色识别的会议记录智能生成系统,具备通过语音识别模块将发言者的音频信号ypxh解码成文本数据wbsj,角色识别模块根据语音识别模块传输的文本数据wbsj,对该数据进行预处理,得到去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb,并根据上述数据进行特征提取,得到发言者的语气特征值yqtz与使用词汇特征值chtz,角色识别模块基于上述计算数值训练角色识别模型,关键信息提取模块基于角色识别模型从文本数据中抽取出包含重要信息的内容,在抽取过程中对重复文本数据进行过滤与整合,并将整合后的文本数据传输至会议记录生成模块,记录生成模块依据整合后的文本数据生成综合会议记录,可视化界面模块将接收的会议记录显示在显示终端上,通过角色识别模型,训练熟悉发言人的发言特征,并进行一系列文本数据过滤与整合,从而避免了会议内容记录不完整的问题,提高了会议记录内容的准确性等优点,解决了上述问题。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:一种基于角色识别的会议记录智能生成系统,包括语音识别模块、角色识别模块、关键信息提取模块、会议记录生成模块以及可视化模块;

5、所述语音识别模块通过网络与角色识别模块连接,所述角色识别模块通过网络与关键信息提取模块连接,所述关键信息提取模块通过网络与会议记录生成模块连接,所述会议记录生成模块通过网络与可视化模块连接;

6、所述语音识别模块通过麦克风输入设备采集发言者的音频信号ypxh,将该音频信号解码成文本数据wbsj,并将该文本数据wbsj通过网络传输至角色识别模块;

7、所述角色识别模块根据语音识别模块传输的文本数据wbsj,对该数据进行预处理,得到去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb;

8、所述角色识别模块基于去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb进行特征提取,得到发言者的语气特征值yqtz与使用词汇特征值chtz;

9、所述角色识别模块根据上述计算所得数值训练角色识别模型;

10、所述关键信息提取模块基于角色识别模型从文本数据中抽取出包含重要信息的内容,在抽取过程中对重复文本数据进行过滤,得到过滤文本数据glwb,所述关键信息模块对过滤文本数据进行整合,得到整合文本数据zhwb,并将该数据传输至会议记录生成模块;

11、所述会议记录生成模块基于整合文本数据zhwb,综合分析生成会议记录,并将该会议记录传输至可视化界面模块;

12、所述可视化界面模块将接收的会议记录显示在显示终端上。

13、优选的,所述语音识别模块将采集的发言者的音频信号编入音频信号数据集,该音频信号数据集合为{ypxhn-9,ypxhn-8,ypxhn-7,...,ypxhn}。

14、优选的,所述语音识别模块将音频信号ypxh解码成文本数据wbsj,解码公式如下:

15、

16、公式中,wbsj表示文本数据,ypxh表示音频信号,n=1表示将该音频信号集合的第1个数值作为起始计算位置,第10个数值为结束计算位置,mfcc表示梅尔频率倒谱系数。

17、优选的,所述角色识别模块根据语音识别模块传输的文本数据wbsj,对该数据进行去除停顿词操作,得到去除停顿词的文本数据tcwb,该操作方法如下所示:

18、s1、构建停顿词列表:首先需要构建一个停顿词列表,列出所有需要去除的停顿词,这个列表是根据已有的停顿词表构建的;

19、s2、分词:对传输的文本数据进行分词操作,将文本按照单词、词组或者字词单位进行分割,通过使用中文分词工具ltp来实现;

20、s3、去除停顿词:遍历分词结果,在遍历的过程中,将出现在停顿词列表中的单词或者词组从文本数据中去除,剩下的部分即为去除停顿词的文本数据tcwb。

21、优选的,所述角色识别模块根据语音识别模块传输的文本数据wbsj,对该数据进行去除标点符号操作,得到去除标点符号的文本数据qbwb,该去除标点符号方法如下所示:

22、s1、输入文本数据wbsj;

23、s2、初始化一个空字符串file_text;

24、s3、遍历文本数据wbsj中的每一个字符,如果该字符不为标点符号,则将该字符添加进file_text中;

25、s4、输出file_text,即为除标点符号后的文本数据qbwb。

26、优选的,所述角色识别模块基于去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb进行特征提取,得到发言者的语气特征值yqtz,获取方式如下:

27、s1、将去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb作为给定文本数据;

28、s2、统计文本中每个词的出现频率,得到词频矩阵;

29、s3、以词频矩阵的均值作为语气特征值。

30、优选的,所述角色识别模块基于去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb进行特征提取,得到使用词汇特征值chtz,获取方法如下:

31、s1、将去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb作为给定文本数据;

32、s2、给定特征词汇表,vocabulary包含所有文本数据中出现的词语;

33、s3、统计文本数据,统计去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb中词语在vocabulary中出现的次数,得到词频特征向量,该向量即为词汇特征值chtz。

34、优选的,所述角色识别模块根据去除停顿词的文本数据tcwb、去除标点符号的文本数据qbwb、发言者的语气特征值yqtz以及使用词汇特征值chtz作为输入参数训练角色识别模型。

35、优选的,所述关键信息提取模块基于角色识别模型从文本数据中抽取出包含重要信息的内容,在抽取过程中对重复文本数据进行过滤,得到过滤文本数据glwb,过滤公式如下:

36、

37、公式中,glwb表示过滤文本数据,wbsj表示初始文本数据,cfwb表示重复文本数据,由角色识别模型进行提取,与表示二者向量的模。

38、优选的,所述关键信息模块对过滤文本数据进行整合,得到整合文本数据zhwb,整合公式如下:

39、zhwb=glwb1+glwb2+glwb3+...+glwbn

40、公式中,zhwb表示整合文本数据,glwb1+glwb2+glwb3+...+glwbn表示将所有经过关键信息模块处理的文本数据合并为一个整体文本数据集合。

41、与现有技术相比,本发明提供了一种基于角色识别的会议记录智能生成系统,具备以下有益效果:

42、本发明通过语音识别模块将发言者的音频信号ypxh解码成文本数据wbsj,角色识别模块根据语音识别模块传输的文本数据wbsj,对该数据进行预处理,得到去除停顿词的文本数据tcwb以及去除标点符号的文本数据qbwb,并根据上述数据进行特征提取,得到发言者的语气特征值yqtz与使用词汇特征值chtz,角色识别模块基于上述计算数值训练角色识别模型,关键信息提取模块基于角色识别模型从文本数据中抽取出包含重要信息的内容,在抽取过程中对重复文本数据进行过滤与整合,并将整合后的文本数据传输至会议记录生成模块,记录生成模块依据整合后的文本数据生成综合会议记录,可视化界面模块将接收的会议记录显示在显示终端上,通过角色识别模型,训练熟悉发言人的发言特征,过滤与整合一系列文本数据,从而避免了会议内容记录不完整的问题,提高了会议记录内容的准确性。

本文地址:https://www.jishuxx.com/zhuanli/20241009/305917.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。