技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于语音增强技术的蛙人语音处理方法与流程 > 正文

一种基于语音增强技术的蛙人语音处理方法与流程

国知局
2024-06-21 11:26:13

本发明涉及蛙人语音处理方法，具体为一种基于语音增强技术的蛙人语音处理方法。

背景技术：

1、蛙人是指经过特殊训练，佩戴专业设备进行水下作业的工作人员，且在进行水下探索和作业时，多需要多名蛙人进行配合，而多名蛙人在水下进行交流时通过利用水下交流设备进行交流，交流设备具体包括三个部分：麦克风、耳麦和收发模块；通过麦克风对蛙人发出的语音进行收音，而后通过收发模块处理后发出，收发模块接收队员语音而后通过耳麦发出给蛙人接听，而由于水下环境嘈杂，麦克风收音除了获取蛙人的语音外还会收录大量的噪音，噪音的存在极大的影响了交流沟通的效率；

2、专利文献：cn116453540b公开的水下蛙人语音通信质量增强处理方法，涉及语音通信技术领域，基于ai语音训练模型获取语音通信包，其中，所述语音通信包包括音色特征、咬字特征与音调特征作为语音特征，建立语音通信包身份信息，根据语音通信包身份信息端设立语音采集端；所述语音通信包引入语音识别中，构建ai语音识别处理模型，获取语音采集端的语音，得到语音信息；搭建所述语音通信包的通信传输通道，通过所述通信传输通道互联所述语音采集端，获取所述通信传输通道，确定通信的所述语音采集端。本发明能够通过音色特征、咬字特征与音调特征判断目标人员的身份，在保证传输不存在杂音的同时，也做到真实的语音交流；

3、如上述专利，现有技术中针对蛙人水下交流语音存在较多杂音的问题，通常采用增强技术对收录的蛙人语音进行增强，要么直接进行除杂处理而后输出，要么则是如上述专利文献提出的通过构建目标人员语音模型，通过实时接收目标人员的语音，转换成文字并生成机械音，而后通过目标人员语音模型将机械音生成具有目标人员语音特征的无杂音的清洗音频发出，从而实现了水下蛙人之间真实交流而无杂音的效果；现有技术中对于水下瓦蛙人沟通的语音处理方法虽然能够做到对语音进行有效的除杂，保证输出给目标接收人员的语音是足够清楚的，但是由于水下通信存在一定的局限性，音频输出后存在一定的干扰，接收人员接收到的音频始终会存在少量的失真以及损失，日常沟通交流虽然影响较小，但是在特定情况下，特别是在某一目标人员出现事故呼叫队员进行支援时，此时如果合成的声音传输出现失真和损失导致接收人员不能够完整的得到语音，特别的水下接收人员水下作业高度集中，故而往往存在没听到或者没听清的情况发生，而在事故队员发生危险后，现有技术语音处理方法不能够进行辅助操作，则需要该队员不断地重复发出呼救语音内容，导致事故队员氧气消耗较大，危险系数增大。

4、因此，有必要提供一种基于语音增强技术的蛙人语音处理方法解决上述技术问题。

技术实现思路

1、（一）解决的技术问题

2、为解决上述技术问题，本发明提供一种基于语音增强技术的蛙人语音处理方法。

3、（二）技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：一种基于语音增强技术的蛙人语音处理方法，包括如下步骤：

5、s1、收音模块收录目标人员真实语音，利用语音特征提取模块提取目标人员语音特征，并通过ai语音训练模块利用目标人员真实语音训练得到该目标人员的声学模型，通过执行模块建立目标人员语音特征包；

6、s2、通过参数设定模块设定呼救关键语句，执行模块将多个呼救关键语句整合建立呼救关键语句包；

7、s3、执行模块将多名目标人员的目标人员语音特征包与呼救关键语句包均存储至存储模块形成呼救语音模型集，其中为执行模块建立的目标人员语音特征集合，第n名目标人员语音特征，为第n名目标人员的声学模型；

8、s4、收录目标人员下水作业进行语音交流时发出的目标语句，执行模块利用提取模块提取目标语句的数据内容与呼救语音模型集内数据生成语音输出到播送模块进行播送，播送包含对目标语句直接合成的语音进行播送以及利用目标语句触发的呼救关键语句合成的语音进行的循环播送；

9、s5、执行模块在发出循环播送指令的同时获取定位模块拾取的目标人员的位置信息并同时传送至播送模块进行播送；

10、s6、执行模块在设定周期内，对呼救关键语句包内各呼救关键语句的触发次数进行统计，并输出分析报告。

11、优选的，所述步骤s4中，所述播送模块进行音频的循环播送时，播送音量大于目标人员日常交流音量5%-20%。

12、优选的，所述分析报告内容至少包含目标人员触发报告以及呼救关键语句触发报告两个部分。

13、优选的，所述目标人员触发报告包括触发占比数据，计算公式如下，

14、；

15、其中为呼救关键语句包内某一呼救关键语句在设定周期内被分析报告所属于的目标人员触发的次数，为分析报告所属于的目标人员在周期触发呼救关键语句包内所有关键词语句的总次数。

16、优选的，所述周期对比报告包括触发占比数据变化值，计算公式如下，

17、；

18、其中，为第n个周期内，分析报告所属于的目标人员的该呼救关键语句的触发占比数据，为周期前一个周期内，分析报告所属于的目标人员的该呼救关键语句的触发占比数据。

19、优选的，所述步骤s4具体包括如下步骤：

20、b1、目标人员目标语句解析：

21、通过收音模块收录目标人员发出的目标语句，通过文字提取模块利用目标语句转译出目标文字，同时语音特征提取模块提取出目标语句的目标语音特征；

22、b2、确定语音特征：

23、比对模块确定呼救语音模型集内与目标语音特征相吻合的目标人员语音特征，并确定具有该目标人员语音特征的一个目标人员语音特征包；

24、b3、第一次音频合成播送：

25、根据比对模块的反馈，执行模块调取确定的目标人员语音特征包，并对目标人员语音特征包进行解析，得到确认的目标人员的声学模型，执行模块通过利用目标人员的声学模型将目标文字转换成具有目标人员语音特征的无杂音音频，执行模块输出合成的音频至播送模块进行一次播送；

26、b4、确定呼救关键语句：

27、比对模块将目标文字与呼救语音模型集内的呼救关键语句包内容进行比对，确定目标文字中出现的呼救关键语句；

28、b5、第二次音频合成播送：

29、根据比对模块的反馈，执行模块调取确定的呼救关键语句和确定的目标人员语音特征包，并对目标人员语音特征包进行解析，得到确认的目标人员的声学模型，执行模块通过利用目标人员的声学模型将呼救关键语句转换成具有目标人员语音特征的无杂音音频，执行模块输出合成的音频至播送模块进行循环播送。

30、优选的，所述语音特征至少包括声纹特征、语音韵律特征以及语音基频特征。

31、本发明还提供一种基于语音增强技术的蛙人语音处理系统，为上述一种基于语音增强技术的蛙人语音处理方法进行语音处理时所使用，包括：

32、ai语音训练模块，用于训练声学模型；

33、参数设定模块，用于设定呼救关键语句包的内容；

34、收音模块，收录目标人员下水作业进行语音交流时发出的目标语句；

35、提取模块，用于提取目标语句的目标文字和目标语音特征；

36、比对模块，用于将目标文字以及目标语音特征分别与呼救语音模型集内的目标人员语音特征和呼救关键语句进行比对确认；

37、执行模块，用于执行语音处理过程中的相关操作；

38、存储模块，用于存储呼救语音模型集；

39、定位模块，用于定位目标人员位置；

40、输出模块，用于输出执行模块生成的分析报告；

41、播送模块，用于播送合成的语音。

42、优选的，所述提取模块包括如下：

43、文字提取模块，将目标语句转译为目标文字；

44、语音特征提取模块，提取目标语句的目标语音特征。

45、（三）有益效果

46、本发明提供了一种基于语音增强技术的蛙人语音处理方法。与现有技术相比具备以下有益效果：

47、1、本发明提供的一种基于语音增强技术的蛙人语音处理方法通过建立具有呼救关键语句包的呼救语音模型集，使得蛙人入水后进行语音交流时，除了能够有效的对蛙人交流语音进行除杂，还能够实时捕捉到蛙人交流语音内容中的呼救关键语句，进而针对性的循环的播出除杂增强后的具有呼救关键语句内容以及目标人员语音特征的音频，保证目标接收人能够准确的接收到呼救内容，无须目标人员重复呼叫，故而在水下作业发生事故时，有效的节省目标人员的氧气和体力，提高其水下作业的安全性；

48、2、本发明提供的一种基于语音增强技术的蛙人语音处理方法在进行语音处理工作的同时，还能够依据目标人员触发呼救关键语句的次数做出针对性分析报告，由于呼救关键语句包内每一个呼救关键语句均可代表一种事故类型，故而在一个周期内，可以依据目标人员触发呼救关键语句的次数，生成目标人员某一呼救关键语句触发占比数据，目标人员则可以借助此数据得到自身失误率较高的问题发生在哪的信息，进而在后续日常作训中进行针对性的培训和关注，从而能够有效的辅助目标人员提升水下作业技能，且还可以生成相邻两个周期内某一呼救关键语句触发占比数据变化值，则可以辅助目标人员了解到两个周期内某一呼救关键语句所代表的事故类型发生频率的增减情况，进而可以分析得出对某一事故进行的针对性培训和关注是否有效。