技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频文件处理方法、装置、设备和存储介质与流程 > 正文

音频文件处理方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:44:45

本发明实施例涉及音频处理，特别是涉及一种音频文件处理方法和装置、一种电子设备和一种存储介质。

背景技术：

1、在运营商等需要提供电信服务和互联网服务的多种行业中，需要经常与用户沟通进行沟通，以了解用户的需求从而提供相应的服务，其中，语音沟通是最常见的方式，例如人工客服、ai(artificial intelligence，人工智能)智能外呼等通常是通过语音沟通，在语音沟通过程中不乏存在需要用户提供诸如手机号码或身份证号码等敏感信息的情况，而在语音沟通过程中产生的包含敏感信息的音频文件(或者语音文件)将被记录并存放在运营商的服务器上进行集中管理，后续在遇到投诉、障碍、争议时根据需要调取重听，而调取过程中经过层层传递，过程中就可能出现安全问题，导致用户的敏感信息泄露。

2、然而，音频文件存储本身给服务器带来了巨大的压力，据统计，仅音频文件每天存储空间就超过10tb(terabyte，太字节，一种计算机存储容量单位)，且这些音频文件需要长期存储，将占用大量存储空间，增加了运营商的成本。

技术实现思路

1、本发明实施例提供了一种音频文件处理方法，以解决音频文件需要长期存储，将占用大量存储空间，增加了运营商的成本的问题。

2、相应的，本发明实施例还提供了一种音频文件处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

3、为了解决上述问题，本发明实施例公开了一种音频文件处理方法，所述方法包括：

4、获取人机交互过程中产生的音频文件和所述音频文件对应的描述文件；所述描述文件中至少包括人工合成音频的描述信息；

5、根据所述描述信息将所述音频文件拆分为人工合成音频和非人工合成音频；

6、将所述人工合成音频转换为文本信息；

7、若识别到所述非人工合成音频中包括敏感信息，则将所述非人工合成音频拆分为第一音频和第二音频；所述第二音频为包含所述敏感信息的音频；

8、在所述描述文件中记录所述第一音频和所述第二音频分别对应的描述信息；

9、对所述第二音频进行加密得到加密后的所述第二音频；

10、保存所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件，以根据所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件追溯所述音频文件。

11、本发明实施例还公开了一种音频文件处理装置，所述装置包括：

12、获取模块，用于获取人机交互过程中产生的音频文件和所述音频文件对应的描述文件；所述描述文件中至少包括人工合成音频的描述信息；

13、第一拆分模块，用于根据所述描述信息将所述音频文件拆分为人工合成音频和非人工合成音频；

14、转换模块，用于将所述人工合成音频转换为文本信息；

15、第二拆分模块，用于若识别到所述非人工合成音频中包括敏感信息，则将所述非人工合成音频拆分为第一音频和第二音频；所述第二音频为包含所述敏感信息的音频；

16、记录模块，用于在所述描述文件中记录所述第一音频和所述第二音频分别对应的描述信息；

17、加密模块，用于对所述第二音频进行加密得到加密后的所述第二音频；

18、保存模块，用于保存所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件，以根据所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件追溯所述音频文件。

19、本发明实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本发明实施例中一个或多个所述的音频文件处理方法。

20、本发明实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本发明实施例中一个或多个所述的音频文件处理方法。

21、本发明实施例包括以下优点：

22、在本发明实施例中，获取人机交互过程中产生的音频文件和音频文件对应的描述文件，其中，描述文件中至少包括人工合成音频的描述信息，根据描述信息将音频文件拆分为人工合成音频和非人工合成音频，并将人工合成音频转换为文本信息，然后，若识别到非人工合成音频中包括敏感信息，则将非人工合成音频拆分为第一音频和包含敏感信息第二音频，并在描述文件中记录第一音频和第二音频分别对应的描述信息，对第二音频进行加密得到加密后的第二音频，然后，保存文本信息、第一音频和加密后的第二音频以及描述文件，如此，后续可以根据文本信息、第一音频和加密后的第二音频以及描述文件追溯音频文件。本发明实施例对于人机交互过程中产生的音频文件中的人工合成音频采用文本信息来进行记录，因此可以减少音频文件长期存储时所需要占用的存储空间，降低了运营商的成本。

23、还需要说明的是，由于人工合成音频为通过人工智能技术生成，因此将人工合成音频识别为文本信息，以及，后续通过文本信息再次还原为人工合成音频，其识别准确率和还原准确率可以达到100％，从而保证了音频文件还原准确率。

技术特征：

1.一种音频文件处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述描述信息至少包括对应音频的开始时间和持续时间。

3.根据权利要求1所述的方法，其特征在于，在所述若识别到所述非人工合成音频中包括敏感信息，则将所述非人工合成音频拆分为第一音频和第二音频之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第二音频进行加密得到加密后的所述第二音频，包括：

5.根据权利要求1所述的方法，其特征在于，在所述保存所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件，以根据所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件追溯所述音频文件之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述角色权限、所述描述文件将所述人工合成音频、所述第一音频和加密后的所述第二音频组合为所述音频文件，包括：

7.根据权利要求6所述的方法，其特征在于，所述对加密后的所述第二音频进行解密，包括：

8.一种音频文件处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器；和

10.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-17中任一项所述的音频文件处理方法。

技术总结本发明实施例提供了一种音频文件处理方法、装置、设备和存储介质，所述方法包括：获取人机交互过程中产生的音频文件和所述音频文件对应的描述文件；根据所述描述信息将所述音频文件拆分为人工合成音频和非人工合成音频；将所述人工合成音频转换为文本信息；若识别到所述非人工合成音频中包括敏感信息，则将所述非人工合成音频拆分为第一音频和第二音频；在所述描述文件中记录所述第一音频和所述第二音频分别对应的描述信息；对所述第二音频进行加密得到加密后的所述第二音频；保存所述文本信息、所述第一音频和加密后的所述第二音频以及所述描述文件，以追溯所述音频文件。本发明实施例减少了音频文件长期存储时所需要占用的存储空间。技术研发人员：张宝,彭梦,潘露,李宏伟受保护的技术使用者：中国电信股份有限公司技术研发日：技术公布日：2024/4/17