一种基于多模型选择的语音数据处理方法及装置与流程
- 国知局
- 2024-06-21 11:54:47
本发明涉及语音处理,尤其涉及一种基于多模型选择的语音数据处理方法及装置。
背景技术:
1、随着算法技术的发展,用户使用关键词来生成图像的需求也越来越高,根据用户的语音来自动生成图像的这一应用场景,可以有效提高用户体验,因此也收到了部分用户的青睐。但现有技术在实现这一应用场景时,一般仅采用训练好的算法来直接根据语音生成图像或匹配图像,没有充分利用数据特性来提高语音数据的精确性和模型选择的合理性,因此预测效率和效果均不够理想。可见,现有技术存在缺陷,亟需解决。
技术实现思路
1、本发明所要解决的技术问题在于,提供一种基于多模型选择的语音数据处理方法及装置,能够提高根据语音生成图像的自动化程度和智能化程度,减少用户操作成本,提高算法效率和效果。
2、为了解决上述技术问题,本发明第一方面公开了一种基于多模型选择的语音数据处理方法,所述方法包括:
3、获取目标用户的多个语音数据;
4、根据预设的语音筛选算法,从所述多个语音数据中筛选出具有图像生成目的的目标语音数据;
5、根据所述目标语音数据的数据参数,从多个候选算法模型中确定出对应的图像生成算法模型;
6、将所述目标语音数据输入至所述图像生成算法模型,以得到所述目标语音数据对应的图像数据。
7、作为一个可选的实施方式,在本发明第一方面中,所述根据预设的语音筛选算法,从所述多个语音数据中筛选出具有图像生成目的的目标语音数据,包括:
8、根据神经网络算法,确定每一所述语音数据对应的语音文本和语音语气;
9、基于匹配算法和相似度算法,根据所述语音文本和所述语音语气,计算每一所述语音数据对应的文本目的匹配度和语气类型匹配度;
10、根据所述文本目的匹配度和所述语气类型匹配度,从多个所述语音数据中筛选出具有图像生成目的的目标语音数据。
11、作为一个可选的实施方式,在本发明第一方面中,所述根据神经网络算法,确定每一所述语音数据对应的语音文本和语音语气,包括:
12、对于每一所述语音数据,对该语音数据进行降噪处理,得到对应的降噪后数据;
13、将所述降噪后数据输入至训练好的文本识别神经网络模型,以得到该语音数据对应的语音文本;所述文本识别神经网络通过包括有多个训练语音数据和对应的文本标注的训练数据集训练得到;
14、将所述降噪后数据输入至训练好对应的语气识别神经网络模型,以得到该语音数据对应的语音语气;所述语气识别神经网络通过包括有多个训练语音数据和对应的语气标注的训练数据集训练得到;所述语音语气或所述语气标注为目的语气和情绪语气中的一种或两种的组合;所述目的语气为命令语气、陈述语气或疑问语气;所述情绪语气为无情绪语气、愤怒语气、开心语气或低落语气。
15、作为一个可选的实施方式,在本发明第一方面中,所述基于匹配算法和相似度算法,根据所述语音文本和所述语音语气,计算每一所述语音数据对应的文本目的匹配度和语气类型匹配度,包括:
16、对于每一所述语音数据,计算该语音数据的所述语音文本与预设的多个标准图像生成命令文本之间的文本相似度的平均值,得到该语音数据对应的第一相似度参数;
17、根据预设的文本关键字匹配规则,计算该语音数据的所述语音文本中的匹配关键字数量;
18、计算所述第一相似度参数、所述匹配关键字数量和时长权重的乘积,得到该语音数据对应的文本目的匹配度;所述时长权重与该语音数据的语音时长成正比;
19、计算该语音数据的所述语音语气与预设的多个历史语音数据样本的语音语气之间的语气相似度的平均值,得到该语音数据对应的第二相似度参数;
20、计算该语音数据的所述语音语气和在获取时间上相邻的两个语音数据的语音语气之间的语气相似度的平均值,得到该语音数据对应的第三相似度参数;
21、计算所述第二相似度参数、所述第三相似度参数和所述时长权重的乘积,得到该语音数据对应的语气类型匹配度。
22、作为一个可选的实施方式,在本发明第一方面中,所述根据所述文本目的匹配度和所述语气类型匹配度,从多个所述语音数据中筛选出具有图像生成目的的目标语音数据,包括:
23、计算每一所述语音数据对应的所述文本目的匹配度和所述语气类型匹配度的加权求和平均值,得到每一所述语音数据的匹配参数;
24、根据所述匹配参数从大到小,对所有所述语音数据进行排序得到第一语音序列;
25、筛选出所述第一语音序列中前第一数量内个的且所述匹配参数大于第一参数阈值的多个候选语音数据;
26、计算每一所述候选语音数据与其他所有候选语音数据之间的获取时间差的平均值,得到每一所述候选语音数据对应的时间参数;
27、根据所述时间参数从大到小,对所有所述候选语音数据进行排序得到第二语音序列;
28、筛选出所述第二语音序列中前第二数量内个的且所述时间参数大于第二参数阈值的候选语音数据,得到目标语音数据。
29、作为一个可选的实施方式,在本发明第一方面中,所述根据所述目标语音数据的数据参数,从多个候选算法模型中确定出对应的图像生成算法模型,包括:
30、确定所述目标语音数据对应的语音数量、语音语气集合、语音文本集合和平均语音时长;
31、根据所述语音数量、语音语气集合、语音文本集合和平均语音时长,计算每一候选算法模型对应的训练数据集和所述目标语音数据集合之间的数据相似度;所述候选算法模型对应的训练数据集包括多个训练语音数据和对应的图像标注;
32、根据所述数据相似度,从多个所述候选算法模型中确定出对应的图像生成算法模型。
33、作为一个可选的实施方式,在本发明第一方面中,所述根据所述语音数量、语音语气集合、语音文本集合和平均语音时长,计算每一候选算法模型对应的训练数据集和所述目标语音数据集合之间的数据相似度,包括:
34、对于每一候选算法模型,获取该候选算法模型对应的训练数据集中的多个训练语音数据集合;
35、计算所述语音数量和每一所述训练语音数据集合中的语音数量的数量差的平均数,得到数量相似度;
36、计算所述语音语气集合和每一所述训练语音数据集合对应的语气标注集合的重合比例的平均数,得到语气相似度;
37、计算所述语音文本集合和每一所述训练语音数据集合对应的文本标注集合的文本相似度的平均数,得到文本相似度;
38、计算所述平均语音时长和每一所述训练语音数据集合对应的平均语音时长的时长差的平均数,得到时长相似度;
39、计算所述数量相似度、所述语气相似度、所述文本相似度和所述时长相似度的乘积,得到该候选算法模型对应的数据相似度。
40、作为一个可选的实施方式,在本发明第一方面中,所述根据所述数据相似度,从多个所述候选算法模型中确定出对应的图像生成算法模型,包括:
41、根据所述数据相似度从大到小,对所有所述候选算法模型进行排序得到模型序列;
42、筛选出所述模型序列中前第三数量内个的且所述数据相似度大于第三参数阈值的候选算法模型,得到图像生成算法模型;
43、以及,所述将所述目标语音数据输入至所述图像生成算法模型,以得到所述目标语音数据对应的图像数据,包括:
44、当所述图像生成算法模型的模型数量大于1时,将所述目标语音数据分别输入至每一所述图像生成算法模型中,以得到输出的多个预测图像数据;
45、计算每一所述预测图像数据与所述目标用户在历史时间段确认的多个图像之间的图像相似度的平均值,得到每一所述预测图像数据的相似度参数;
46、将所述相似度参数最大的所述预测图像数据,确定为所述目标语音数据对应的图像数据。
47、本发明第二方面公开了一种基于多模型选择的语音数据处理装置,所述装置包括:
48、获取模块,用于获取目标用户的多个语音数据;
49、筛选模块,用于根据预设的语音筛选算法,从所述多个语音数据中筛选出具有图像生成目的的目标语音数据;
50、确定模块,用于根据所述目标语音数据的数据参数,从多个候选算法模型中确定出对应的图像生成算法模型;
51、预测模块,用于将所述目标语音数据输入至所述图像生成算法模型,以得到所述目标语音数据对应的图像数据。
52、作为一个可选的实施方式,在本发明第二方面中,所述筛选模块根据预设的语音筛选算法,从所述多个语音数据中筛选出具有图像生成目的的目标语音数据的具体方式,包括:
53、根据神经网络算法,确定每一所述语音数据对应的语音文本和语音语气;
54、基于匹配算法和相似度算法,根据所述语音文本和所述语音语气,计算每一所述语音数据对应的文本目的匹配度和语气类型匹配度;
55、根据所述文本目的匹配度和所述语气类型匹配度,从多个所述语音数据中筛选出具有图像生成目的的目标语音数据。
56、作为一个可选的实施方式,在本发明第二方面中,所述筛选模块根据神经网络算法,确定每一所述语音数据对应的语音文本和语音语气的具体方式,包括:
57、对于每一所述语音数据,对该语音数据进行降噪处理,得到对应的降噪后数据;
58、将所述降噪后数据输入至训练好的文本识别神经网络模型,以得到该语音数据对应的语音文本;所述文本识别神经网络通过包括有多个训练语音数据和对应的文本标注的训练数据集训练得到;
59、将所述降噪后数据输入至训练好对应的语气识别神经网络模型,以得到该语音数据对应的语音语气;所述语气识别神经网络通过包括有多个训练语音数据和对应的语气标注的训练数据集训练得到;所述语音语气或所述语气标注为目的语气和情绪语气中的一种或两种的组合;所述目的语气为命令语气、陈述语气或疑问语气;所述情绪语气为无情绪语气、愤怒语气、开心语气或低落语气。
60、作为一个可选的实施方式,在本发明第二方面中,所述筛选模块基于匹配算法和相似度算法,根据所述语音文本和所述语音语气,计算每一所述语音数据对应的文本目的匹配度和语气类型匹配度的具体方式,包括:
61、对于每一所述语音数据,计算该语音数据的所述语音文本与预设的多个标准图像生成命令文本之间的文本相似度的平均值,得到该语音数据对应的第一相似度参数;
62、根据预设的文本关键字匹配规则,计算该语音数据的所述语音文本中的匹配关键字数量;
63、计算所述第一相似度参数、所述匹配关键字数量和时长权重的乘积,得到该语音数据对应的文本目的匹配度;所述时长权重与该语音数据的语音时长成正比;
64、计算该语音数据的所述语音语气与预设的多个历史语音数据样本的语音语气之间的语气相似度的平均值,得到该语音数据对应的第二相似度参数;
65、计算该语音数据的所述语音语气和在获取时间上相邻的两个语音数据的语音语气之间的语气相似度的平均值,得到该语音数据对应的第三相似度参数;
66、计算所述第二相似度参数、所述第三相似度参数和所述时长权重的乘积,得到该语音数据对应的语气类型匹配度。
67、作为一个可选的实施方式,在本发明第二方面中,所述筛选模块根据所述文本目的匹配度和所述语气类型匹配度,从多个所述语音数据中筛选出具有图像生成目的的目标语音数据的具体方式,包括:
68、计算每一所述语音数据对应的所述文本目的匹配度和所述语气类型匹配度的加权求和平均值,得到每一所述语音数据的匹配参数;
69、根据所述匹配参数从大到小,对所有所述语音数据进行排序得到第一语音序列;
70、筛选出所述第一语音序列中前第一数量内个的且所述匹配参数大于第一参数阈值的多个候选语音数据;
71、计算每一所述候选语音数据与其他所有候选语音数据之间的获取时间差的平均值,得到每一所述候选语音数据对应的时间参数;
72、根据所述时间参数从大到小,对所有所述候选语音数据进行排序得到第二语音序列;
73、筛选出所述第二语音序列中前第二数量内个的且所述时间参数大于第二参数阈值的候选语音数据,得到目标语音数据。
74、作为一个可选的实施方式,在本发明第二方面中,所述确定模块根据所述目标语音数据的数据参数,从多个候选算法模型中确定出对应的图像生成算法模型的具体方式,包括:
75、确定所述目标语音数据对应的语音数量、语音语气集合、语音文本集合和平均语音时长;
76、根据所述语音数量、语音语气集合、语音文本集合和平均语音时长,计算每一候选算法模型对应的训练数据集和所述目标语音数据集合之间的数据相似度;所述候选算法模型对应的训练数据集包括多个训练语音数据和对应的图像标注;
77、根据所述数据相似度,从多个所述候选算法模型中确定出对应的图像生成算法模型。
78、作为一个可选的实施方式,在本发明第二方面中,所述确定模块根据所述语音数量、语音语气集合、语音文本集合和平均语音时长,计算每一候选算法模型对应的训练数据集和所述目标语音数据集合之间的数据相似度的具体方式,包括:
79、对于每一候选算法模型,获取该候选算法模型对应的训练数据集中的多个训练语音数据集合;
80、计算所述语音数量和每一所述训练语音数据集合中的语音数量的数量差的平均数,得到数量相似度;
81、计算所述语音语气集合和每一所述训练语音数据集合对应的语气标注集合的重合比例的平均数,得到语气相似度;
82、计算所述语音文本集合和每一所述训练语音数据集合对应的文本标注集合的文本相似度的平均数,得到文本相似度;
83、计算所述平均语音时长和每一所述训练语音数据集合对应的平均语音时长的时长差的平均数,得到时长相似度;
84、计算所述数量相似度、所述语气相似度、所述文本相似度和所述时长相似度的乘积,得到该候选算法模型对应的数据相似度。
85、作为一个可选的实施方式,在本发明第二方面中,所述确定模块根据所述数据相似度,从多个所述候选算法模型中确定出对应的图像生成算法模型的具体方式,包括:
86、根据所述数据相似度从大到小,对所有所述候选算法模型进行排序得到模型序列;
87、筛选出所述模型序列中前第三数量内个的且所述数据相似度大于第三参数阈值的候选算法模型,得到图像生成算法模型;
88、以及,所述预测模块将所述目标语音数据输入至所述图像生成算法模型,以得到所述目标语音数据对应的图像数据的具体方式,包括:
89、当所述图像生成算法模型的模型数量大于1时,将所述目标语音数据分别输入至每一所述图像生成算法模型中,以得到输出的多个预测图像数据;
90、计算每一所述预测图像数据与所述目标用户在历史时间段确认的多个图像之间的图像相似度的平均值,得到每一所述预测图像数据的相似度参数;
91、将所述相似度参数最大的所述预测图像数据,确定为所述目标语音数据对应的图像数据。
92、本发明第三方面公开了另一种基于多模型选择的语音数据处理装置,所述装置包括:
93、存储有可执行程序代码的存储器;
94、与所述存储器耦合的处理器;
95、所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于多模型选择的语音数据处理方法中的部分或全部步骤。
96、与现有技术相比,本发明具有以下有益效果:
97、可见,本发明实施例能够根据筛选算法从多个语音数据中筛选出具有图像生成目的的语音数据,再根据数据参数从多个候选算法模型中选出最合适的图像生成算法来生成图像,从而能够提高根据语音生成图像的自动化程度和智能化程度,减少用户操作成本,提高算法效率和效果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24429.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。