技术新讯 > 乐器声学设备的制造及制作,分析技术 > 处理音频数据的方法、设备和存储介质与流程  >  正文

处理音频数据的方法、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:43:52

本公开涉及人工智能领域,更具体地,涉及一种处理音频数据的方法、设备和存储介质。

背景技术:

1、语音交互技术在现代社会中扮演着越来越重要的角色。随着诸如智能手机、智能音箱和语音助手等的语音交互设备的普及,人们越来越多地使用语音交互来完成各种任务,诸如发送短信、查询信息和控制智能家居设备等。

技术实现思路

1、本公开的至少一实施例提供了一种处理音频数据的方法、设备和计算机可读存储介质。

2、本公开的至少一实施例提供了一种处理音频数据的方法,包括:从获取的音频数据中提取文本特征和拼音特征;利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征,所述低阶语义特征描述所述音频数据的语义信息和/或语法信息,所述低阶语义特征包括实体特征,所述实体特征指示所述音频数据中所包含的实体词;利用大语言模型确定对所述音频数据的高阶分类特征,所述高阶分类特征指示所述大语言模型对所述音频数据的拒识分类输出;以及基于所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征的融合,确定对所述音频数据的拒识结果,其中,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。

3、本公开的至少一实施例提供了一种处理音频数据的装置,包括:基础特征提取模块,被配置为从获取的音频数据中提取文本特征和拼音特征;低阶特征提取模块,被配置为利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征,所述低阶语义特征描述所述音频数据的语义信息和/或语法信息,所述低阶语义特征包括实体特征,所述实体特征指示所述音频数据中所包含的实体词;高阶特征提取模块,被配置为利用大语言模型确定对所述音频数据的高阶分类特征,所述高阶分类特征指示所述大语言模型对所述音频数据的拒识分类输出;以及拒识结果确定模块,被配置为基于所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征的融合,确定对所述音频数据的拒识结果,其中,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。

4、本公开的至少一实施例提供了一种处理音频数据的设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的处理音频数据的方法。

5、本公开的至少一实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的处理音频数据的方法。

6、本公开的至少一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的至少一实施例的处理音频数据的方法。

7、本公开的至少一实施例所提供的方法从由语音交互设备获取的音频数据提取包括文本特征、拼音特征、低阶语义特征和高阶分类特征在内的多种特征,并基于这些特征的融合来对该音频数据进行拒识分类,使得能够结合音频数据的不同类型、不同层次的特征,实现更准确的拒识分类,其中,通过利用大语言模型来基于音频数据生成低阶语义特征和高阶分类特征,能够在所生成的低阶语义特征和高阶分类特征中融合该大语言模型自身在先前训练中所学习到的知识,从而在减少模型训练的工作量的情况下优化拒识分类的性能。

技术特征:

1.一种处理音频数据的方法,包括:

2.如权利要求1所述的方法,其中,从获取的音频数据中提取文本特征和拼音特征包括:

3.如权利要求2所述的方法,其中,基于所述语音文本和所述文本拼音,提取所述音频数据的所述文本特征和所述拼音特征包括:

4.如权利要求3所述的方法,其中,所述第一神经网络和所述第二神经网络为预训练语言模型,所述第一神经网络和所述第二神经网络的预训练基于掩码语言模型任务和多音区触发任务进行;

5.如权利要求3所述的方法,其中,利用大语言模型从所述音频数据中提取所述音频数据的低阶语义特征包括:

6.如权利要求5所述的方法,其中,基于所述语义信息和/或语法信息,确定所述音频数据的低阶语义特征包括:

7.如权利要求1所述的方法,其中,所述低阶语义特征包括语句通顺度特征、语义完整度特征、和实体特征中的一个或多个;

8.如权利要求7所述的方法,其中,所述语句通顺度特征对应于利用所述大语言模型确定的对所述音频数据的预测的困惑度。

9.如权利要求8所述的方法,其中,所述困惑度是基于所述大语言模型对所述音频数据中的每个字符的预测概率来确定的,其中,对于所述音频数据中的每个字符,所述大语言模型对所述字符的预测概率为所述大语言模型基于所述音频数据中的位于所述字符之前的所有字符来生成所述字符的条件概率。

10.如权利要求1所述的方法,其中,基于所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征的融合,确定对所述音频数据的拒识结果包括:

11.如权利要求10所述的方法,其中,所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征的维度相同。

12.如权利要求11所述的方法,其中,对所述文本特征、所述拼音特征、所述低阶语义特征和所述高阶分类特征进行融合包括:

13.如权利要求10所述的方法,其中,所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络是通过联合训练确定的;

14.一种处理音频数据的设备,包括:

15.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-12中任一项所述的方法。

16.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-12中任一项所述的方法。

技术总结本公开的至少一实施例提供了一种处理音频数据的方法、设备和计算机可读存储介质。本公开的至少一实施例所提供的方法从由语音交互设备获取的音频数据提取包括文本特征、拼音特征、低阶语义特征和高阶分类特征在内的多种特征,并基于这些特征的融合来对该音频数据进行拒识分类,使得能够结合音频数据的不同类型、不同层次的特征,实现更准确的拒识分类,其中,通过利用大语言模型来基于音频数据生成低阶语义特征和高阶分类特征,能够在所生成的低阶语义特征和高阶分类特征中融合该大语言模型自身在先前训练中所学习到的知识,从而在减少模型训练的工作量的情况下优化拒识分类的性能。技术研发人员:安旭,胡鹏龙受保护的技术使用者:武汉星纪魅族科技有限公司技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23181.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。