技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及系统、设备、存储介质与流程 > 正文

语音识别方法及系统、设备、存储介质与流程

国知局
2024-06-21 11:48:12

本技术实施例涉及语音处理，涉及但不限于一种语音识别方法及系统、设备、存储介质。

背景技术：

1、语音识别技术是一种通过分析和理解语音信号来进行文字转换的技术。它是人工智能领域的重要分支，也是实现人机交互、智能语音助手等应用的关键技术。为实现精度较高的语音识别处理，通常会采用分布于不同区域的麦克风构建麦克风阵列来进行音频数据的可靠采集。这种方案虽然能够一定程度地提升音频数据的采集质量，但由于不同的麦克风存在分布差异，导致它们采集到的音频数据存在一定的时延性且音频质量可能存在差异。

2、相关技术方案中，往往通过噪声检测的方式选取麦克风阵列采集到的音频数据中音频质量符合要求的音频数据进行语音识别，然而，这种方法可能由于单一音频数据的部分时段质量较差，影响整体的识别准确性，或是直接使用所有音频数据进行语音识别，导致语音识别模型的输入维度较高，处理效率降低。

技术实现思路

1、有鉴于此，本技术实施例提供的语音识别方法及系统、设备、存储介质，能够通过多个麦克风采集声源数据，提取语音特征与预设特征比对，获取匹配语音特征。再分析这些特征的语音质量，确定满足质量要求的目标声源数据。通过融合这些目标声源数据的特征，与预设语音识别网络模型结合，得出语音识别结果。本技术实施例提供的语音识别方法及系统、设备、存储介质是这样实现的：

2、本技术实施例提供的语音识别方法，所述方法应用于语音识别系统包括的电子设备，所述语音识别系统还包括麦克风阵列，所述麦克风阵列包括多个麦克风，所述方法包括：

3、通过所述多个麦克风，获取与各个麦克风对应的多个声源数据；

4、获取各个声源数据对应的语音特征，将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对，获取所述各个声源数据对应的匹配语音特征，其中，所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征；

5、对所述各个声源数据对应的匹配语音特征进行语音质量分析，根据语音质量分析结果，确定目标声源数据，其中，所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据；

6、根据各个目标声源数据对应的语音质量分析结果，对所述各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征；

7、根据所述融合语音特征以及预先设置的语音识别网络模型，获取语音识别结果。

8、在一些实施例中，所述预设语音特征是根据历史时间段获取的不同人群的语音数据进行语音特征提取，并根据提取得到的不同人群的语音特征确定的预设语音特征，其中，所述不同人群包括不同年龄段或不同性别的人群。

9、在一些实施例中，所述语音质量分析包括噪声分析和相似度分析，所述语音质量分析结果包括噪声评估结果和特征相似度；

10、所述对所述各个声源数据对应的匹配语音特征进行语音质量分析，根据语音质量分析结果，确定目标声源数据，包括：

11、根据所述各个声源数据对应的匹配语音特征在语音特征中的分布情况，确定所述各个声源数据对应的特征匹配时段；

12、在所述各个声源数据对应的特征匹配时段，对所述各个声源数据进行噪声分析，根据所述各个声源数据的噪声评估结果，确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据；

13、对各个备选声源数据对应的匹配语音特征进行相似度分析，获取所述各个备选声源数据相互之间的特征相似度，确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。

14、在一些实施例中，所述在所述各个声源数据对应的特征匹配时段，对所述各个声源数据进行噪声分析，根据所述各个声源数据的噪声评估结果，确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据，包括：

15、根据所述各个声源数据对应的匹配语音特征与所述预设语音特征的相似度、所述各个声源数据对应的匹配语音特征的总时长以及所述各个声源数据对应的噪声评估结果，确定所述各个声源数据对应的不同特征匹配时段的综合语音质量；

16、确定所述各个声源数据对应的特征匹配时段的总时长满足预设时长要求，且综合语音质量满足预设质量要求的声源数据为备选声源数据。

17、在一些实施例中，所述根据各个目标声源数据对应的语音质量分析结果，对所述各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征，包括：

18、根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果，获取预期语音识别准确率；

19、在所述预期语音识别准确率符合预设的准确率条件的情况下，根据各个目标声源数据对应的语音质量分析结果，对所述各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征。

20、在一些实施例中，所述根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果，获取预期语音识别准确率，包括：

21、根据所述各个目标声源数据对应的语音质量分析结果，确定所述各个目标声源数据的预期识别准确率；

22、根据目标声源数据的数量、预期识别准确率大于预设阈值的目标声源数据的数量以及所述各个目标声源数据的识别准确率的平均值，获取所述预期语音识别准确率。

23、在一些实施例中，所述预设的准确率条件包括预设的准确率阈值，在所述预期语音识别准确率大于所述预设的准确率阈值的情况下，确定所述预期语音识别准确率符合所述预设的准确率条件。

24、在一些实施例中，所述对所述各个声源数据对应的匹配语音特征进行语音质量分析，包括：

25、确定所述各个声源数据对应的特征匹配时段中满足预设特征质量要求的特征匹配时段为可靠匹配时段；

26、根据所述各个声源数据对应的可靠匹配时段的数量、不同的可靠匹配时段的时长和综合语音质量，获取所述各个声源数据对应的可靠匹配时段的语音质量评估值；

27、根据所述各个声源数据对应的特征匹配时段的数量、所述各个声源数据对应的不同的特征匹配时段的综合语音质量的均值、匹配语音特征的总时长、与所述预设语音特征的相似度、可靠匹配时段的语音质量评估值，确定所述各个声源数据对应的语音质量分析结果。

28、在一些实施例中，所述根据各个目标声源数据对应的语音质量分析结果，对所述各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征，包括：

29、根据不同的目标声源数据对应的语音质量分析结果，确定不同的目标声源数据的匹配语音特征的融合权重值；

30、根据所述各个目标声源数据对应的匹配语音特征的融合权重值对匹配语音特征进行融合处理，获取所述融合语音特征。

31、本技术实施例提供的语音识别系统，所述系统包括电子设备和麦克风阵列，所述麦克风阵列包括多个麦克风，包括：

32、声源数据获取单元，用于通过所述多个麦克风，获取与各个麦克风对应的多个声源数据；

33、语音特征比对单元，用于获取各个声源数据对应的语音特征，将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对，获取所述各个声源数据对应的匹配语音特征，其中，所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征；

34、语音质量分析单元，用于对所述各个声源数据对应的匹配语音特征进行语音质量分析，根据语音质量分析结果，确定目标声源数据，其中，所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据；

35、语音识别单元，用于根据各个目标声源数据对应的语音质量分析结果，对所述各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征；根据所述融合语音特征以及预先设置的语音识别网络模型，获取语音识别结果。

36、本技术实施例提供的计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本技术实施例所述的方法。

37、本技术实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本技术实施例提供的所述的方法。

38、本技术实施例所提供的语音方法、系统、计算机设备和计算机可读存储介质，通过多个麦克风，能够获取与各个麦克风对应的多个声源数据；对于每个声源数据，获取其语音特征，然后与预设语音特征进行相似度比对，确定各个声源数据中与预设语音特征的相似度高于预设相似度比对阈值的部分语音特征为匹配语音特征；接下来，根据对各个声源数据进行语音质量分析的结果来确定目标声源数据，其中，目标声源数据是多个声源数据中语音质量分析结果符合预设质量要求的声源数据，这样实现了声源数据的筛选，获得了质量较高的目标声源数据，提高了后续语音识别的准确性；根据各个目标声源数据对应的语音质量分析结果，对各个目标声源数据对应的匹配语音特征进行融合处理，获取融合语音特征，并根据融合语音特征以及预先设置的语音识别网络模型，获取语音识别结果，降低了进行识别处理的声源数据的数据量，提高了处理效率。

39、这样，能够对不同麦克风采集的声源数据进行语音质量分析，并根据结果进行语音特征的融合处理，通过融合语音特征进行语音识别，提高语音识别处理的准确性和效率。