技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、设备及存储介质与流程 > 正文

音频处理方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:53:52

本技术涉及计算机，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术：

1、随着人们出行需求的不断提高，汽车已经成为大部分人首选的出门交通工具。对于一些汽车，如新能源汽车，在行驶过程中的噪声较低，在低速状态下，如行驶速度在30km/h以内，行人、非机动车和其他道路使用者难以感知到这些车辆的靠近，存在安全隐患。为此许多地区都制定了相关法规，要求这类汽车安装行人警示音系统来解决这一问题。

2、相关技术中，为了确保行人警示音的音频满足法规和声音质量要求，需要进行音频标定。但是音频标定中很多需要汽车制造商或专业音响工程师来执行，如需要汽车制造商或专业音响工程师来得到30km/h以内各个车速下行人警示音音频标定后的增益值，这限制了用户可以使用的音频，使得用户无法选择自己喜欢的行人警示音。而且只有汽车厂商或专业音响工程师后续开发了其他可替换音频，用户才能对行人警示音进行更新，过程繁琐。

技术实现思路

1、本技术实施例提供了一种音频处理方法、装置、设备及存储介质，以得到预设车速范围内各个车速下行人警示音音频标定后的增益值，对行人警示音音频进行标定。

2、第一方面，本技术实施例提供了一种音频处理方法，包括：

3、获取待处理行人警示音音频；

4、将所述待处理行人警示音音频输入目标模型，得到所述目标模型输出的预设车速范围内各个车速下行人警示音音频标定后的增益值；其中，所述目标模型基于多个行人警示音音频和所述各个车速下相应音频标定后的增益值训练得到。

5、在一种可能的实现方式中，所述目标模型的训练过程，包括：

6、分别将所述多个行人警示音音频输入目标模型，得到所述各个车速下每一行人警示音音频标定后的增益预测值；

7、根据所述各个车速下每一行人警示音音频标定后的增益预测值、相应车速下每一行人警示音音频标定后的增益值和损失函数，调整所述目标模型，获得训练好的所述目标模型。

8、在一种可能的实现方式中，所述目标模型包括预处理单元，以及卷积神经网络与循环神经网络混合单元。

9、所述分别将所述多个行人警示音音频输入目标模型，得到所述各个车速下每一行人警示音音频标定后的增益预测值，包括：

10、在所述预处理单元，获得每一行人警示音音频的时间、频率和声压级信息；

11、在所述卷积神经网络与循环神经网络混合单元，基于每一行人警示音音频的时间、频率和声压级信息，确定所述各个车速下每一行人警示音音频标定后的增益预测值。

12、在一种可能的实现方式中，所述根据所述各个车速下每一行人警示音音频标定后的增益预测值、相应车速下每一行人警示音音频标定后的增益值和损失函数，调整所述目标模型，获得训练好的所述目标模型，包括：

13、基于所述各个车速下每一行人警示音音频标定后的增益预测值和相应车速下每一行人警示音音频标定后的增益值之间的差异，确定所述损失函数的值；

14、判断所述损失函数的值是否大于预设阈值；

15、若所述损失函数的值大于所述预设阈值，则调整所述目标模型，并基于调整后的目标模型，重新执行所述分别将所述多个行人警示音音频输入目标模型，得到所述各个车速下每一行人警示音音频标定后的增益预测值的步骤，直至所述损失函数的值小于或等于所述预设阈值，获得训练好的所述目标模型。

16、在一种可能的实现方式中，在所述将所述待处理行人警示音音频输入目标模型，得到所述目标模型输出的预设车速范围内各个车速下行人警示音音频标定后的增益值之后，还包括：

17、基于所述各个车速下所述行人警示音音频标定后的增益值，获得所述各个车速下标定后的行人警示音音频。

18、在一种可能的实现方式中，所述基于所述各个车速下所述行人警示音音频标定后的增益值，获得所述各个车速下标定后的行人警示音音频，包括：

19、利用所述各个车速下所述行人警示音音频标定后的增益值和行人警示音算法，对所述待处理行人警示音音频进行调整，获得所述各个车速下标定后的行人警示音音频；

20、其中，所述行人警示音算法基于音频的增益值改变音频的频率与声压级。

21、在一种可能的实现方式中，所述目标模型基于所述多个行人警示音音频，以及所述多个行人警示音音频对应地区的所述各个车速下相应音频标定后的增益值训练得到。

22、在一种可能的实现方式中，所述目标模型包括不同地区的目标模型，其中，每个目标模型添加对应地区的地区标识。

23、所述将所述待处理行人警示音音频输入目标模型，得到所述目标模型输出的全部车速下行人警示音音频标定后的增益值，包括：

24、确定所述待处理行人警示音音频对应的地区标识；

25、基于每个目标模型对应的地区标识，以及所述待处理行人警示音音频对应的地区标识，从所述不同地区的目标模型中获得对所述待处理行人警示音音频进行处理的目标模型；

26、将所述待处理行人警示音音频输入获得的目标模型，得到目标模型输出的所述预设车速范围内各个车速下行人警示音音频标定后的增益值。

27、在一种可能的实现方式中，所述在所述预处理单元，获得每一行人警示音音频的时间、频率和声压级信息，包括：

28、在所述预处理单元，通过短时傅里叶变换和声学参数的转换，获得每一行人警示音音频的时间、频率和声压级信息。

29、第二方面，本技术实施例提供了一种音频处理装置，包括：

30、获取模块，用于获取待处理行人警示音音频；

31、处理模块，用于将所述待处理行人警示音音频输入目标模型，得到所述目标模型输出的预设车速范围内各个车速下行人警示音音频标定后的增益值；其中，所述目标模型基于多个行人警示音音频和所述各个车速下相应音频标定后的增益值训练得到。

32、第三方面，本技术实施例提供了一种电子设备，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面任一项所述的音频处理方法。

33、第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的音频处理方法。

34、可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

35、本技术实施例提供的音频处理方法、装置、设备及存储介质，将待处理行人警示音音频输入训练好的目标模型，得到目标模型输出的预设车速范围内各个车速下行人警示音音频标定后的增益值，其中，上述目标模型基于基于多个行人警示音音频和上述各个车速下相应音频标定后的增益值训练得到，从而，利用模型标定的思想，提供了一种对音频进行处理的方式，快速获得预设车速范围内各个车速下行人警示音音频标定后的增益值，进而对音频进行标定，满足用户的多样化需求，而且无需汽车厂商或专业音响工程师进行处理，简化标定过程，提高了音频标定的速度，使得用户能够简单便捷地进行行人警示音更新。

36、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。