技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于音频处理的方法、装置、设备和存储介质与流程  >  正文

用于音频处理的方法、装置、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:33:22

本公开的示例实施例总体涉及计算机领域,并且更具体地,涉及用于音频处理的方法、装置、设备和计算机可读存储介质。

背景技术:

1、随着计算机技术的发展,出现很多基于模型的辅助功能和工具。这些辅助功能或工具(诸如智能家居系统、语音助手、智能机器人等)可以通过机器学习、自然语言处理、图像识别等技术来解决人们日常生活和工作中的问题。由此,可以提高人们的效率和便利性,减轻人们的工作压力。

技术实现思路

1、在本公开的第一方面,提供一种用于音频处理的方法。该方法包括:获取目标语音中的多个音频片段对应的多个音频特征表示,多个音频片段至少包括第一音频片段和第二音频片段,第一音频片段为第二音频片段的前序音频片段;以及利用经训练的机器学习模型,执行以下操作:基于第一音频片段对应的第一音频特征表示,确定第一文本;提取第一文本的第一文本特征表示;基于第二音频片段对应的第二音频特征表示和第一文本特征表示,确定第二文本;以及至少基于第一文本和第二文本,确定与目标语音相关联的目标文本序列,目标文本序列包括在目标语音中出现的至少一个实体词和对应的实体类型。

2、在本公开的第二方面,提供一种用于音频处理的装置。该装置包括:音频特征表示获取模块,被配置为获取目标语音中的多个音频片段对应的多个音频特征表示,多个音频片段至少包括第一音频片段和第二音频片段,第一音频片段为第二音频片段的前序音频片段;以及文本序列确定模块,被配置为利用经训练的机器学习模型,执行以下操作:基于第一音频片段对应的第一音频特征表示,确定第一文本;提取第一文本的第一文本特征表示;基于第二音频片段对应的第二音频特征表示和第一文本特征表示,确定第二文本;以及至少基于第一文本和第二文本,确定与目标语音相关联的目标文本序列,目标文本序列包括在目标语音中出现的至少一个实体词和对应的实体类型。

3、在本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令在由至少一个处理单元执行时使电子设备执行本公开第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,其可由处理器执行以执行根据本公开的第一方面的方法。

5、应当理解,本技术实现要素:部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征:

1.一种音频处理方法,包括:

2.根据权利要求1所述的方法,其中所述机器学习模型的训练数据包括语音样本集和文本序列样本集,所述文本序列样本集包括与所述语音样本集中的各个语音样本相关联的多个实体词和对应的实体类型。

3.根据权利要求2所述的方法,其中与各个语音样本相关联的多个实体词和对应的实体类型按照在相关联的语音样本中的出现顺序排列。

4.根据权利要求2所述的方法,其中与各个语音样本相关联的多个实体词和对应的实体类型随机排列。

5.根据权利要求2所述的方法,其中所述机器学习模型的训练包括对所述语音样本集进行语音数据增强,所述语音数据增强包括时间拉伸、音高变换、频谱扩展中的一项或多项。

6.根据权利要求1所述的方法,其中基于所述第一音频特征表示,确定所述第一文本包括:

7.根据权利要求1所述的方法,其中基于所述第二音频特征表示和所述第一文本特征表示,确定所述第二文本包括:

8.根据权利要求1所述的方法,其中所述实体类型包括出发地、目的地、日期、时间中的至少一项。

9.一种用于音频处理的装置,包括:

10.一种电子设备,包括:

11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

技术总结本公开的实施例提供用于音频处理的方法、装置、设备和介质。该方法包括:获取目标语音中的多个音频片段对应的多个音频特征表示,多个音频片段至少包括第一音频片段和第二音频片段;利用经训练的机器学习模型,执行以下操作:基于第一音频片段对应的第一音频特征表示,确定第一文本;提取第一文本的第一文本特征表示;基于第二音频片段对应的第二音频特征表示和第一文本特征表示,确定第二文本;以及至少基于第一文本和第二文本,确定与目标语音相关联的目标文本序列,目标文本序列包括在目标语音中出现的至少一个实体词和对应的实体类型。由此,可以直接通过语音生成对应的实体结果,实现端到端实体识别,提高识别准确性。技术研发人员:王泽勋,冯明超,吴友政受保护的技术使用者:京东城市(北京)数字科技有限公司技术研发日:技术公布日:2024/3/11

本文地址:https://www.jishuxx.com/zhuanli/20240618/22216.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。