使用深度学习从音频数据中的语音推理情绪的制作方法
- 国知局
- 2024-06-21 11:37:07
背景技术:
1、存在可能希望确定某人在发出语音(例如由捕获的音频数据表示的语音)时表现出的情绪类型的各种情况。某些先前的方法使用机器学习来尝试从输入的音频中推理情绪,但这些方法通常仅限于那些针对其训练各自模型的人或说话者,但不能很好地推广到其他说话者。这些网络通常也是基于频谱图的,这需要将音频转换为频谱图表示,然后用基于图像的分析方法进行分析,但这并没有产生最佳的结果。这样的方法还需要针对不同的说话者训练多个模型,这可能是复杂的且计算成本很高,或者导致对任何输入语音推理的情绪有不同程度的不准确。更进一步,先前的方法将为整个音频片段确定单一的情绪,这并没有捕获说话者在该片段期间的情绪状态的任何变化。
技术实现思路
技术特征:1.一种计算机实现的方法,包括:
2.根据权利要求1所述的计算机实现的方法,其中所述一个或更多个值包括所述一种或更多种情绪中的每种情绪的相应的一个或更多个概率值,并且所述一个或更多个值被归一化并求和为绝对值。
3.根据权利要求1所述的计算机实现的方法,其中所述一种或更多种情绪包括愤怒、厌恶、恐惧、喜悦、悲伤或中性情绪中的至少一种。
4.根据权利要求1所述的计算机实现的方法,进一步包括:
5.根据权利要求4所述的计算机实现的方法,进一步包括:
6.根据权利要求4所述的计算机实现的方法,进一步包括:
7.根据权利要求6所述的计算机实现的方法,进一步包括:
8.根据权利要求1所述的计算机实现的方法,进一步包括:
9.根据权利要求8所述的计算机实现的方法,进一步包括:
10.根据权利要求1所述的计算机实现的方法,其中所述音频数据使用音频文件格式表示。
11.一种处理器,包括:
12.根据权利要求11所述的处理器,其中所述一种或更多种情绪包括预定的一组情绪,其中所述预定的一组情绪至少包括愤怒、厌恶、恐惧、喜悦、悲伤或中性。
13.根据权利要求11所述的处理器,其中所述一个或更多个处理单元进一步用于:
14.根据权利要求11所述的处理器,其中所述一个或更多个处理单元进一步用于:
15.根据权利要求11所述的处理器,其中所述音频文件格式包括未压缩的音频文件格式、无损压缩音频文件格式或有损压缩音频文件格式中的至少一种。
16.一种系统,包括:
17.根据权利要求16所述的系统,其中所述音频数据对应于音频文件格式。
18.根据权利要求16所述的系统,其中所述音频数据使用所述转换器神经网络以音频文件格式进行处理,并且所述音频数据使用所述神经网络以图像文件格式进行处理。
19.根据权利要求16所述的系统,其中所述一个或更多个特征点对应于所述虚拟对象的一个或更多个面部特征或一个或更多个身体特征。
20.根据权利要求16的所述系统,其中所述系统包括以下中的至少一个:
技术总结深度神经网络可以被训练以从输入音频推理情绪数据。该网络可以是基于转换器的网络,其可以推理一组情绪或情绪类别的概率值。情绪概率值可以使用一个或更多个启发式方法进行修改,例如以提供情绪确定随时间的平滑性,或通过用户界面进行修改,其中用户可以适当地修改情绪确定。用户还可以提供先前的情绪值,以便与这些情绪确定值相混合。所确定的情绪值可以作为输入提供给基于情绪的操作,例如以提供音频驱动的语音动画。技术研发人员:D·A·科罗布琴科,I·S·费多罗夫受保护的技术使用者:辉达公司技术研发日:技术公布日:2024/3/17本文地址:https://www.jishuxx.com/zhuanli/20240618/22470.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表