技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种AI对话用复杂环境识别调节系统的制作方法 > 正文

一种AI对话用复杂环境识别调节系统的制作方法

国知局
2024-06-21 11:52:54

本发明涉及ai对话，具体是一种ai对话用复杂环境识别调节系统。

背景技术：

1、ai对话是指通过人工智能技术实现的一种自然语言交互方式。它利用自然语言处理、机器学习等技术，对用户的问题和要求进行理解，并生成自然的回复。在实际应用中，ai对话系统可以模拟人类的对话方式，进行知识问答、推荐、任务完成等操作。

2、ai对话的实现原理是通过对用户输入的自然语言文本进行分析和模型训练，实现与用户的对话。用户输入问题或需求后，ai对话系统会对输入的文本进行分析，提取关键信息和关键词，并进行语义解析和模型训练。通过模型训练，ai对话系统可以学习到用户的兴趣、偏好等信息，从而进行个性化推荐和回答。

3、随着人工智能技术的快速发展，ai对话系统已经广泛应用于各个领域。然而，在复杂环境下，如多说话人场景等，ai对话系统的性能往往受到严重影响。因此，如何提高ai对话系统在复杂环境下的适应性和性能成为了一个亟待解决的问题。

技术实现思路

1、本发明的目的在于提供一种ai对话用复杂环境识别调节系统，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：

3、一种ai对话用复杂环境识别调节系统，包括模型库、环境识别模块、参数调节模块和语音转文字模块；

4、所述模型库用于存储环境样本数据和关键人声音声纹数据，所述环境识别模块负责实时监测对话环境并提取环境特征，所述参数调节模块根据环境识别模块输出的结果对音频数据进行处理，并将结果输出给语音转文字模块，语音转文字模块用于将处理后的音频数据处理成文字信息。

5、进一步在于：所述关键人声音声纹数据包括语音特征和时域特征，所述语音特征包括声谱、声调和韵律特征，所述时域特征包括基频和能量特征。

6、进一步在于：所述环境样本数据包括嘈杂环境、安静环境和多人对话环境的音频数据信号的短时能量、短时过零率和频谱熵中任意一种或多种；

7、所述环境识别模块具体提取环境特征步骤如下：

8、步骤tq1：对需要区分环境的音频数据信号进行预处理，包括降噪、分帧、加窗等；

9、步骤tq2：提取音频数据信号中的短时能量、短时过零率和频谱熵中任意一种或多种；

10、步骤tq3：将步骤tq2中数据与环境样本数据进行对比，将与环境样本数据同类并入对应的环境中，并输出具体的环境类型。

11、进一步在于：参数调节模块包括嘈杂环境关键人物音频处理、安静环境关键人物音频处理和多人对话环境关键人物音频处理，其中，当环境特征为安静环境时，参数调节模块将音频数据直接输出给语音转文字模块。

12、进一步在于：嘈杂环境关键人物音频处理操作具体包括如下步骤：

13、步骤cz1：将标记为嘈杂环境的音频信息输入；

14、步骤cz2：将需要处理的音频通过谱减法或\和维纳滤波降噪减少背景噪声的干扰，然后将音频信号分成长度固定的帧，并对每帧应用窗函数，从而获得噪音弱化的音频信息；

15、步骤cz3：将噪音弱化的音频信息进行声源分离，获得清晰人物音频；

16、步骤cz4：将清晰的人物音频再进行关键人物音频提取。

17、进一步在于：多人对话环境关键人物音频处理操作具体包括如下步骤：

18、步骤dr1：将标记为多人环境的音频信息或者为清晰人物音频信息输入；

19、步骤dr2：通过将关键人的声纹信息与输入的音频信息进行比对，将初始音频根据相似范围，按照等差调节相似度范围，从而提取与声纹信息相似的音频信息进行转录为多个不同相似度的显著人物音频，然后将初始音频根据同样的相似范围，从而弱化与声纹信息不相似的音频信息进行转录为多个不同相似度的弱化非显著人物音频；

20、步骤dr3：将相同的相似度的显著人物音频与弱化非显著人物音频合并成新的关键人物待选音频信息；

21、步骤dr4：将关键人物待选音频信息发送至语音转文字模块。

22、进一步在于：所述语音转文字模块对关键人物待选音频处理成文字信息，根据多组关键文字信息进行组词联想结合说话逻辑确定关键人物正确表达。

23、与现有技术相比，本发明的有益效果是：

24、通过设置模型库、环境识别模块、参数调节模块和语音转文字模块，存储环境样本数据和关键人声音声纹数据，结合环境识别模块进行划分，对声音进行多种环境下的区分性的优化，提高音频信息处理效率，从而提高ai对话系统在复杂环境下的适应性和性能。

技术特征：

1.一种ai对话用复杂环境识别调节系统，其特征在于，包括模型库、环境识别模块、参数调节模块和语音转文字模块；

2.根据权利要求1所述的一种ai对话用复杂环境识别调节系统，其特征在于，所述关键人声音声纹数据包括语音特征和时域特征，所述语音特征包括声谱、声调和韵律特征，所述时域特征包括基频和能量特征。

3.根据权利要求2所述的一种ai对话用复杂环境识别调节系统，其特征在于，所述环境样本数据包括嘈杂环境、安静环境和多人对话环境的音频数据信号的短时能量、短时过零率和频谱熵中任意一种或多种；

4.根据权利要求3所述的一种ai对话用复杂环境识别调节系统，其特征在于，参数调节模块包括嘈杂环境关键人物音频处理、安静环境关键人物音频处理和多人对话环境关键人物音频处理，其中，当环境特征为安静环境时，参数调节模块将音频数据直接输出给语音转文字模块。

5.根据权利要求4所述的一种ai对话用复杂环境识别调节系统，其特征在于，嘈杂环境关键人物音频处理操作具体包括如下步骤：

6.根据权利要求5所述的一种ai对话用复杂环境识别调节系统，其特征在于，多人对话环境关键人物音频处理操作具体包括如下步骤：

7.根据权利要求6所述的一种ai对话用复杂环境识别调节系统，其特征在于，所述语音转文字模块对关键人物待选音频处理成文字信息，根据多组关键文字信息进行组词联想结合说话逻辑确定关键人物正确表达。

技术总结本发明涉及AI对话技术领域，具体是一种AI对话用复杂环境识别调节系统，包括包括模型库、环境识别模块、参数调节模块和语音转文字模块；所述模型库用于存储环境样本数据和关键人声音声纹数据，所述环境识别模块负责实时监测对话环境并提取环境特征，所述参数调节模块根据环境识别模块输出的结果对音频数据进行处理，并将结果输出给语音转文字模块，语音转文字模块将处理后的音频数据处理成文字信息。本发明中，通过设置模型库、环境识别模块、参数调节模块和语音转文字模块，存储环境样本数据和关键人声音声纹数据，结合环境识别模块进行划分，对声音进行多种环境下的区分性的优化，从而提高AI对话系统在复杂环境下的适应性和性能。技术研发人员：徐盎,吴凯华,唐林,孙斌,张少峰,蒙向军,汤歆然受保护的技术使用者：深圳市集贤科技有限公司技术研发日：技术公布日：2024/5/19