技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音自动化测试的方法、装置、电子设备及存储介质与流程  >  正文

语音自动化测试的方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:44:30

本发明涉及通信无线通信,具体而言,涉及一种基于音色识别与场景识别的语音自动化测试的方法、装置、电子设备及存储介质。

背景技术:

1、随着交互方式的多样化,语音交互已被广泛应用于各种场景。

2、然而,现有的语音自动化测试技术大多仅针对文本或特定语音进行测试,无法根据不同场景及不同音色进行智能化的测试调度。

3、因此,开发一种基于音色与场景识别的语音自动化测试调度系统势在必行。

技术实现思路

1、本发明要解决的技术问题是现有的语音自动化测试技术无法根据不同场景及不同音色进行智能化的测试调度的问题,语音自动化测试的准确性和效率低。

2、为解决上述技术问题,根据本发明的一个方面,提供一种语音自动化测试的方法,其包括如下步骤:s1、语音信号采集与预处理,获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;s2、音色识别,对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练,音色识别依次通过语音数据预处理、mfcc特征提取、音色模型训练,生成音色模型,从而实现音色识别;s3、场景识别,所述场景识别为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;s4、语音自动化测试调度,进行音色识别,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。

3、根据本发明的实施例,步骤s1中可包括如下步骤:s11、将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;s12、将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号。

4、根据本发明的实施例,步骤s2中可包括如下步骤:s21、在降噪结束之后,进行语音分段(vad,voiceactivity detection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的id匹配,生成训练数据集的标注数据;s22、对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;s23、mfcc特征提取,使用mfcc算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(fft,fastfouriertransform),将频谱取模平方,得到功率谱;在功率谱上应用一组mel滤波器,对每个滤波器的输出取对数,并对mel滤波器组的输出进行离散余弦变换(dct,discrete cosine transform)得到倒谱,提取出语音片段的mfcc特征;s24、音色模型训练,将语音数据的mfcc特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;s25、语音识别,将多个语音片段的mfcc特征分别送入模型进行识别,分别得到每个语音片段的说话人。

5、根据本发明的实施例,步骤s23中,快速傅里叶变换(fft)的公式可为:

6、

7、其中,x(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,n为信号的总采样数。

8、根据本发明的实施例,步骤s3可包括如下步骤:s31、采用基于transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;s32、采用基于改进rnn(recurrent neural network,循环神经网络)模型的ctc算法(connectionisttemporal classification)获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(mfcc)语音特征,特征用于辅助分析当前测试场景;s33、根据客户的语音生成的文本内容使用基于长短时记忆模型(lstm,long-short term memory)的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。

9、根据本发明的第二个方面,提供一种语音自动化测试的装置,其包括:

10、语音信号采集与预处理模块,用于获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号;音色识别模块,对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练;音色识别模块用于依次通过语音数据预处理、mfcc特征提取、音色模型训练,生成音色模型,从而实现音色识别;场景识别模块,所述场景识别模块用于为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;语音自动化测试调度模块,进行音色识别、利用场景识别进行场景分类,对输入的语音信号进行分类,语音自动化测试调度模块用于根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。

11、根据本发明的实施例,音色识别模块可包括:语音数据处理单元,用于在降噪结束之后,进行语音分段(vad,voiceactivity detection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的id匹配,生成训练数据集的标注数据;对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;mfcc特征提取单元,用于通过mfcc算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(fft,fastfourier transform),将频谱取模平方,得到功率谱;在功率谱上应用一组mel滤波器,对每个滤波器的输出取对数,并对mel滤波器组的输出进行离散余弦变换(dct,discrete cosine transform)得到倒谱,提取出语音片段的mfcc特征;其中,快速傅里叶变换(fft)的公式为:

12、

13、其中,x(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,n为信号的总采样数;

14、音色模型训练单元,用于将语音数据的mfcc特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;将多个语音片段的mfcc特征分别送入模型进行识别,分别得到每个语音片段的说话人。

15、根据本发明的实施例,场景识别模块可采用基于transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;采用基于改进rnn模型的ctc算法获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(mfcc)语音特征,特征用于辅助分析当前测试场景;根据客户的语音生成的文本内容使用基于长短时记忆模型的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。

16、根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。

17、根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。

18、与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:

19、本发明通过音色识别与场景识别进行进而进行语音自动化测试,其中,音色识别对采集的语音信号进行预处理,包括音色识别、分帧、加窗和特征提取等步骤;其中,音色识别采用深度学习模型对语音信号进行处理,以得到反映音色的特征向量;其中,场景识别分帧、加窗和特征提取采用短时傅里叶变换或小波变换等方法对语音信号进行处理,以得到反映场景信息的特征向量;基于反映场景信息的特征向量,利用机器学习算法训练出场景分类器,用于分类和预测语音信号所反映的场景信息。

20、本发明通过基于音色识别和场景识别的语音自动化测试,能够更准确地识别被叫的音色和场景信息,进而选择和执行相应的测试脚本,提高测试的准确性。

21、本发明通过基于音色识别和场景识别的语音自动化测试,能够实现对不同场景和音色的被叫进行智能化的测试调度,进而提高测试的效率。提高语音自动化测试的效率。

22、本发明通过基于音色识别和场景识别的语音自动化测试,能够减少人力参与和测试错误率,进而降低人力成本。

23、本发明通过基于音色识别和场景识别的语音自动化测试,能够实现对不同场景和音色的被叫进行智能化的测试调度,进而增强语音自动化测试的可扩展性和灵活性。

24、本发明通过基于音色识别和场景识别的语音自动化测试,能够增强语音自动化测试的可靠性和稳定性,进而提高软件产品的质量和用户体验。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23271.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。