技术新讯 > 乐器声学设备的制造及制作,分析技术 > 会议纪要的生成方法、装置和会议纪要生成系统与流程 > 正文

会议纪要的生成方法、装置和会议纪要生成系统与流程

国知局
2024-06-21 11:38:35

本申请涉及数据处理，具体而言，涉及一种会议纪要的生成方法、装置、计算机可读存储介质和会议纪要生成系统。

背景技术：

1、目前的传统的asr(语音识别)是将说话的语音转换为文字的过程，目前asr技术应用场景较为广泛，但是应用到会议场景中时，只能是对于开会过程中所有的语音进行识别，生成的会议纪要也是会议过程中所有的语音转换的文本，导致用户对于生成的会议纪要的体验效果较差。

技术实现思路

1、本申请的主要目的在于提供一种会议纪要的生成方法、装置、计算机可读存储介质和会议纪要生成系统，以至少解决现有技术中用户对于生成的会议纪要的体验效果较差问题。

2、为了实现上述目的，根据本申请的一个方面，提供了一种会议纪要的生成方法，包括：获取训练语音数据和目标语音数据，其中，所述训练语音数据为用于模型训练的语音，所述目标语音数据为会议过程中的语音；构建初始识别模型，其中，所述初始识别模型是使用多组训练数据来通过asr算法训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史训练语音数据、所述历史训练语音数据对应的历史识别文本；将所述训练语音数据输入至所述初始识别模型，得到所述训练语音数据对应的识别文本；对所述识别文本进行多维度评估，在所述识别文本不满足预定条件的情况下，对所述初始识别模型进行优化，直到所述识别文本满足所述预定条件，得到目标识别模型，其中，所述预定条件包括准确率大于预设准确率、可读性评分大于预设可读性评分阈值、流畅性评分大于预设流畅性评分阈值、还原度大于预设还原度中的一个或者多个，优化方式包括反向传播算法优化、调整模型步长、调整模型训练次数、特征工程、超参数调优中的一种或者多种；将所述目标语音数据输入至所述目标识别模型，得到所述目标语音数据对应的目标识别文本，其中，所述目标识别文本为会议纪要。

3、可选地，在获取训练语音数据之后，所述方法还包括：采用mfcc算法或者fbank算法提取语音特征，其中，所述语音特征至少包括所述训练语音数据的波幅变化；对所述语音特征进行量化处理，得到数字信号，其中，所述数字信号是所述语音特征的数学表示形式。

4、可选地，在获取训练语音数据之后，所述方法还包括：将所述训练语音数据和所述识别文本进行标准化处理和对齐处理，以使得数据保持一致；对所述识别文本进行分词处理，得到分词处理后的识别文本。

5、可选地，对所述识别文本进行多维度评估，包括：获取标准文本，其中，所述标准文本是所述训练语音数据进行语音转换得到的标准的文本；计算所述标准文本和所述识别文本之间的相似度，得到所述准确率，其中，所述准确率为所述训练语音数据和所述识别文本之间的相似度。

6、可选地，对所述识别文本进行多维度评估，包括：对所述识别文本进行拼写检查，得到第一子可读性评分，其中，拼写错误的数量和所述第一子可读性评分呈反比关系；对所述识别文本进行语法检查，得到第二子可读性评分，其中，语法错误的数量和所述第二子可读性评分呈反比关系；对所述识别文本进行语义检查，得到第三子可读性评分，其中，语义错误的数量和所述第三子可读性评分呈反比关系；计算所述第一子可读性评分、所述第二子可读性评分和所述第三子可读性评分的加权平均值，得到所述可读性评分，其中，可读性为所述识别文本语言简洁、结构合理且具有逻辑性。

7、可选地，对所述识别文本进行多维度评估，包括：对所述识别文本进行上下文的语言风格检查，得到第一子流畅性评分，其中，上下文的语言风格的相似度和所述第一子流畅性评分呈正比关系；对所述识别文本进行上下文的逻辑性检查，得到第二子流畅性评分，其中，逻辑性的强度和所述第二子流畅性评分呈正比关系；对所述识别文本进行句子结构检查，得到第三子流畅性评分，其中，句子结构的简单程度和所述第三子流畅性评分呈正比关系；计算所述第一子流畅性评分、所述第二子流畅性评分和所述第三子流畅性评分的加权平均值，得到所述流畅性评分，其中，流畅性为所述识别文本具有连贯性和通顺性。

8、可选地，对所述识别文本进行多维度评估，包括：将所述识别文本进行语音转换，得到待评估语音数据；计算所述待评估语音数据和所述训练语音数据之间的匹配程度，得到所述还原度，其中，所述还原度为所述待评估语音数据在所述训练语音数据中所占的比例。

9、根据本申请的另一方面，提供了一种会议纪要的生成装置，包括：获取单元，用于获取训练语音数据和目标语音数据，其中，所述训练语音数据为用于模型训练的语音，所述目标语音数据为会议过程中的语音；构建单元，用于构建初始识别模型，其中，所述初始识别模型是使用多组训练数据来通过asr算法训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史训练语音数据、所述历史训练语音数据对应的历史识别文本；第一处理单元，用于将所述训练语音数据输入至所述初始识别模型，得到所述训练语音数据对应的识别文本；第二处理单元，用于对所述识别文本进行多维度评估，在所述识别文本不满足预定条件的情况下，对所述初始识别模型进行优化，直到所述识别文本满足所述预定条件，得到目标识别模型，其中，所述预定条件包括准确率大于预设准确率、可读性评分大于预设可读性评分阈值、流畅性评分大于预设流畅性评分阈值、还原度大于预设还原度中的一个或者多个，优化方式包括反向传播算法优化、调整模型步长、调整模型训练次数、特征工程、超参数调优中的一种或者多种；第三处理单元，用于将所述目标语音数据输入至所述目标识别模型，得到所述目标语音数据对应的目标识别文本，其中，所述目标识别文本为会议纪要。

10、根据本申请的再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述会议纪要的生成方法。

11、根据本申请的又一方面，提供了一种会议纪要生成系统，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的会议纪要的生成方法。

12、应用本申请的技术方案，对于asr识别的效果进行的评测，可以通过多维度来评估asr识别的效果，多维度包括了准确率、可读性、流畅性和还原度，从多个方面全面评估了asr的效果，进而来对asr识别模型进行改进，保证asr识别模型输出的结果更加容易理解更自然，用户更容易阅读和理解，从而改善了用户的体验效果。

技术特征：

1.一种会议纪要的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取训练语音数据之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在获取训练语音数据之后，所述方法还包括：

4.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述识别文本进行多维度评估，包括：

5.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述识别文本进行多维度评估，包括：

6.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述识别文本进行多维度评估，包括：

7.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述识别文本进行多维度评估，包括：

8.一种会议纪要的生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述会议纪要的生成方法。

10.一种会议纪要生成系统，其特征在于，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的会议纪要的生成方法。

技术总结本申请提供了一种会议纪要的生成方法、装置和会议纪要生成系统。该方法包括：获取训练语音数据和目标语音数据；构建初始识别模型；将训练语音数据输入至初始识别模型，得到训练语音数据对应的识别文本；对识别文本进行多维度评估，在识别文本不满足预定条件的情况下，对初始识别模型进行优化，直到识别文本满足预定条件，得到目标识别模型；将目标语音数据输入至目标识别模型，得到目标语音数据对应的目标识别文本。该方案解决了现有技术中用户对于生成的会议纪要的体验效果较差问题。技术研发人员：谢园园,唐雄飞,李健,陈明,武卫东受保护的技术使用者：北京捷通华声科技股份有限公司技术研发日：技术公布日：2024/3/24