一种多语种全语音处理方法、装置、设备以及存储介质与流程
- 国知局
- 2024-06-21 11:28:48
本发明涉及ivr语音识别,尤其涉及一种多语种全语音处理方法、装置、设备以及存储介质。
背景技术:
1、多语种语音ivr自动处理是一种功能强大的电话自动服务系统,其核心目标是利用语音识别技术和语音合成技术实现与呼叫者的互动。目前全语音ivr自动处理技术已经广泛应用在工业、家电、通信、汽车、电子、医疗、家庭服务等多个领域,对用户输入的语音数据进行语音识别处理,识别出用户的意图,继而根据用户的意图将用户引导至对应的服务路径。
2、其中,语音识别场景下可能会面临多语种情形,即用户的语音输入可能采用不同的语言类型,因此非常有必要为语音交互设备新增多语种的语音识别功能。为此,如何准确地进行多语种的语音识别,以提升语音识别效果,便成为了本领域的一个研究热点。
技术实现思路
1、本发明提供了一种多语种全语音处理方法、装置、设备以及存储介质,以解决现有技术缺少多语种语音识别处理的技术问题。
2、为了解决上述技术问题,本发明实施例提供了一种多语种全语音处理方法,包括:获取待识别的语音数据;
3、将所述语音数据转化为对应的文本数据;
4、将所述文本数据输入一预设的多语种语言处理模型,以使所述多语种语言处理模型提取所述文本数据的语言特征,并对所述语言特征进行识别处理,输出所述文本数据对应的用户意图;
5、根据所述用户意图,匹配与所述用户意图对应的用户服务路径;
6、其中,所述多语种语言处理模型以若干不同语种的文本数据样本为输入,以各文本数据样本对应的用户意图为输出,对一预设的深度学习模型进行训练而成。
7、作为优选方案,所述多语种语言处理模型的生成,包括:
8、获取若干不同语种和不同口音的语音数据样本;
9、将所述语音数据样本转化为对应的文本数据样本,并对各所述文本数据样本进行数据标注处理,根据预设的数据标注方式在各文本数据样本中标注代表用户意图的情感信息;
10、对数据标注处理后的文本数据样本进行数据预处理;其中,所述数据预处理包括:数据清洗、数据集成、数据变换以及数据归约;
11、对数据预处理后的文本数据样本分别进行分词处理、词性标注处理、去除停用词处理、文本清洗处理、词向量转换处理、文本分类处理、实体名词识别处理以及情感分析处理;
12、将处理后的文本数据样本作为训练样本,继而根据所述训练样本对一预设的深度学习模型进行训练,生成所述多语种语言处理模型;其中,所述深度学习模型包括:循环神经网络、长短期记忆网络或transformer模型。
13、作为优选方案,所述获取若干不同语种和不同口音的语音数据样本,包括:
14、根据待获取的数据类型和数量,获取对应类型和数量的不同语种和不同口音的语音数据样本;其中,所述数据类型包括:音频文件、结构化数据、非结构化数据、语音信号数据或语音特征数据;
15、对所获取的语音数据样本进行去除噪音处理和剪辑处理。
16、作为优选方案,所述根据预设的数据标注方式在各文本数据样本中标注代表用户意图的情感信息,包括:
17、对所述文本数据样本进行去除噪音处理、滤波处理以及标准化处理,并将处理后的文本数据样本转化为预设的标注格式;
18、获取预设的数据标注任务;其中,所述数据标注任务包括:音素标注、韵律标注、语音切割、情绪判定以及声纹识别;
19、根据所述数据标注任务,对转化后的文本数据样本进行数据标注,对所述文本数据样本进行文本分词和语义判断,并在各文本数据样本中标注代表用户意图的情感信息;
20、对标注后的文本数据样本进行校验和修正,并将校验和修正后的文本数据样本进行存储。
21、作为优选方案,所述对数据标注处理后的文本数据样本进行数据预处理,包括:
22、对数据标注处理后的文本数据样本进行数据清洗处理;其中,所述数据清洗处理包括:去重、处理缺失值、处理异常值以及处理错误值;
23、对数据清洗处理后的文本数据样本进行集成处理,将各文本数据进行合并;
24、对合并后的文本数据样本进行数据变化处理;其中,所述数据变化处理包括:数据标准化、数据归一化、数据离散化、数据对数变换、零均值规格化以及十基数变换规格化;
25、对数据变化处理后的文本数据样本进行数据归约处理;其中,所述数据归约处理包括:属性子集选择、小波变换处理以及数据压缩处理。
26、作为优选方案,对合并后的文本数据样本进行数据变化处理,包括:
27、对合并后的文本数据样本进行数据标准化处理,将所述文本数据样本转化为预设的标准化格式;
28、对数据标准化处理后的文本数据样本进行数据归一化处理,将所述文本数据样本的数据缩放至相同的量纲范围之内;
29、对数据归一化处理后的文本数据样本进行数据离散化处理,将所述文本数据样本中的连续变量转化为离散变量;
30、对数据离散化处理后的文本数据样本进行数据对数变换处理,将所述文本数据样本中的对数转化为预设的标准化形式;
31、对数变换处理后的文本数据样本进行零均值规格化处理,根据所述文本数据样本中的属性的均值和方差,对所述属性的属性值进行规格化;
32、对零均值规格化处理后的文本数据样本进行十基数变换规格化处理,对所述属性的属性值的小数位置进行移动。
33、作为优选方案,对数据预处理后的文本数据样本进行情感分析处理,包括:
34、对数据预处理后的文本数据样本进行特征提取,提取出与情感相关的特征;
35、将所提取的特征输入至一预设的情感分类模型,以使所述情感分类模型根据所述特征对文本数据样本进行情感分析,输出所述文本数据样本对应的情感类别。
36、在上述实施例的基础上,本发明另一实施例提供了一种多语种全语音处理装置,包括:语音数据获取模块、语音数据转化模块、多语种语言处理模块以及用户服务路径匹配模块;
37、所述语音数据获取模块,用于获取待识别的语音数据;
38、所述语音数据转化模块,用于将所述语音数据转化为对应的文本数据;
39、所述多语种语言处理模块,用于将所述文本数据输入一预设的多语种语言处理模型,以使所述多语种语言处理模型提取所述文本数据的语言特征,并对所述语言特征进行识别处理,输出所述文本数据对应的用户意图;其中,所述多语种语言处理模型以若干不同语种的文本数据样本为输入,以各文本数据样本对应的用户意图为输出,对一预设的深度学习模型进行训练而成
40、所述用户服务路径匹配模块,用于根据所述用户意图,匹配与所述用户意图对应的用户服务路径。
41、在上述实施例的基础上,本发明又一实施例提供了一种电子设备,所述设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的多语种全语音处理方法。
42、在上述实施例的基础上,本发明又一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行上述发明实施例所述的多语种全语音处理方法。
43、相比于现有技术,本发明实施例具有如下有益效果:获取待识别的语音数据;将所述语音数据转化为对应的文本数据;将所述文本数据输入一预设的多语种语言处理模型,以使所述多语种语言处理模型提取所述文本数据的语言特征,并对所述语言特征进行识别处理,输出所述文本数据对应的用户意图;根据所述用户意图,匹配与所述用户意图对应的用户服务路径;其中,所述多语种语言处理模型以若干不同语种的文本数据样本为输入,以各文本数据样本对应的用户意图为输出,对一预设的深度学习模型进行训练而成。
44、本发明通过使用预训练好的多语种语言处理模型,可以处理多语言的文本数据,提取其中蕴含的语言特征,并对其进行分析和处理,自动地识别所述文本数据对应的用户意图,继而可以根据所述用户意图匹配与所述用户意图对应的用户服务路径,通过本发明可以实现多语种环境下的语音识别,提高语音识别的效果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21741.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。