技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别的方法和装置与流程 > 正文

一种语音识别的方法和装置与流程

国知局
2024-06-21 11:56:31

本发明涉及计算机，尤其涉及一种语音识别的方法和装置。

背景技术：

1、智能外呼是一种基于人工智能进行自动化呼叫的方法，能够用于自动拨打电话、智能语音提示、与用户进行对话等多种应用场景。语音识别是智能外呼系统中的关键技术，在对当前语音进行识别时，智能外呼系统通常将之前的语音文本作为补充信息，辅助理解当前语音。例如，在智能外呼系统接收到用户发出的语音后，将与该用户的历史对话作为补充信息，基于补充信息识别用户发出的语音。

2、在实现本发明的过程中，发明人发现现有技术至少存在如下问题：

3、与用户发送的语音相比，历史对话过长，容易在识别语音的过程中造成干扰，导致语音识别结果不准确，语音识别效率低。

技术实现思路

1、有鉴于此，本发明实施例提供一种语音识别的方法和装置，能够提高语音识别效率和准确性，提高用户使用体验。

2、为实现上述目的，根据本发明实施例的第一方面，提供一种语音识别的方法，包括：

3、响应于接收到目标语音，获取与所述目标语音关联的目标文本，从所述目标文本中识别出文本关键词；

4、将所述目标语音和所述文本关键词融合为目标特征向量；

5、对所述目标特征向量进行解码，得到所述目标语音的识别文本。

6、可选地，将所述目标语音和所述文本关键词融合为目标特征向量，包括：

7、对所述目标语音进行语音编码，得到语音表征向量；

8、对所述文本关键词进行语义编码，得到关键词表征向量；

9、根据预先设置的注意力机制，将所述语音表征向量和所述关键词表征向量融合为隐层表征向量；

10、对所述语音表征向量与所述隐层表征向量进行叠加，得到所述目标特征向量。

11、可选地，在根据预先设置的注意力机制，将所述语音表征向量和所述关键词表征向量融合为隐层表征向量之前，所述方法还包括：判定所述语音表征向量和所述关键词表征向量的维度相等；

12、在所述语音表征向量和所述关键词表征向量的维度不相等的情况下，所述方法还包括：对所述关键词表征向量进行线性变换，使线性变换后的关键词表征向量与所述语音表征向量的维度相等，所述线性变换后的关键词表征向量用于与所述语音表征向量融合为所述隐层表征向量。

13、可选地，所述文本关键词是根据预先设置的文本关键词模型，从所述目标文本中识别出来的；在从所述目标文本中识别出文本关键词之前，所述方法还包括：

14、根据预先设置的历史文本，生成对应的掩码文本；

15、根据预先设置的通用语言模型，分别对所述历史文本和所述掩码文本进行编码，得到历史文本表征向量和掩码文本表征向量；

16、确定所述历史文本表征向量和所述掩码文本表征向量之间的相似度；

17、根据所述相似度确定所述通用语言模型的损失，根据所述损失对所述通用语言模型进行反向传播，得到所述文本关键词模型。

18、可选地，将所述通用语言模型的损失作为第一损失；在根据所述损失对所述通用语言模型进行反向传播之前，所述方法还包括：使用所述历史文本对预先设置的掩码语言模型进行训练，根据训练结果确定所述掩码语言模型的第二损失；根据预先设置的损失权重对所述第一损失和所述第二损失进行加权求和，得到加权损失；

19、根据所述损失对所述通用语言模型进行反向传播，包括：根据所述加权损失对所述通用语言模型进行反向传播。

20、所述方法还包括：根据所述加权损失对所述掩码语言模型进行反向传播，将所述反向传播后的通用语言模型和掩码语言模型作为所述文本关键词模型。

21、可选地，根据预先设置的历史文本，生成对应的掩码文本，包括：

22、对所述历史文本进行分词，得到多个候选词；

23、分别将所述历史文本所包括的每个候选词替换为掩码，得到每个候选词对应的掩码文本。

24、可选地，确定所述历史文本表征向量和所述掩码文本表征向量之间的相似度，包括：

25、根据所述候选词，将所述掩码文本表征向量分为正例文本表征向量和负例文本表征向量；

26、确定所述历史文本表征向量和所述正例文本表征向量之间的第一相似度；

27、确定所述历史文本表征向量和所述负例文本表征向量之间的第二相似度，将所述第一相似度和所述第二相似度作为所述历史文本表征向量和所述掩码文本表征向量之间的相似度。

28、根据本发明实施例的第二方面，提供一种语音识别的装置，包括：

29、识别模块，用于响应于接收到目标语音，获取与所述目标语音关联的目标文本，从所述目标文本中识别出文本关键词；

30、融合模块，用于将所述目标语音和所述文本关键词融合为目标特征向量；

31、解码模块，用于对所述目标特征向量进行解码，得到所述目标语音的识别文本。

32、可选地，将所述目标语音和所述文本关键词融合为目标特征向量，包括：

33、对所述目标语音进行语音编码，得到语音表征向量；

34、对所述文本关键词进行语义编码，得到关键词表征向量；

35、根据预先设置的注意力机制，将所述语音表征向量和所述关键词表征向量融合为隐层表征向量；

36、对所述语音表征向量与所述隐层表征向量进行叠加，得到所述目标特征向量。

37、可选地，所述装置还包括：判定模块，用于判定所述语音表征向量和所述关键词表征向量的维度相等；

38、所述装置还包括：线性变换模块，用于对所述关键词表征向量进行线性变换，使线性变换后的关键词表征向量与所述语音表征向量的维度相等，所述线性变换后的关键词表征向量用于与所述语音表征向量融合为所述隐层表征向量。

39、可选地，所述文本关键词是根据预先设置的文本关键词模型，从所述目标文本中识别出来的；所述装置还包括：

40、生成模块，用于根据预先设置的历史文本，生成对应的掩码文本；

41、编码模块，用于根据预先设置的通用语言模型，分别对所述历史文本和所述掩码文本进行编码，得到历史文本表征向量和掩码文本表征向量；

42、相似度模块，用于确定所述历史文本表征向量和所述掩码文本表征向量之间的相似度；

43、第一反向传播模块，用于根据所述相似度确定所述通用语言模型的损失，根据所述损失对所述通用语言模型进行反向传播，得到所述文本关键词模型。

44、可选地，将所述通用语言模型的损失作为第一损失；所述装置还包括：第一损失模块，用于使用所述历史文本对预先设置的掩码语言模型进行训练，根据训练结果确定所述掩码语言模型的第二损失；第二损失模块，用于根据预先设置的损失权重对所述第一损失和所述第二损失进行加权求和，得到加权损失；

45、根据所述损失对所述通用语言模型进行反向传播，包括：根据所述加权损失对所述通用语言模型进行反向传播。

46、所述装置还包括：第二反向传播模块，用于根据所述加权损失对所述掩码语言模型进行反向传播，将所述反向传播后的通用语言模型和掩码语言模型作为所述文本关键词模型。

47、可选地，根据预先设置的历史文本，生成对应的掩码文本，包括：

48、对所述历史文本进行分词，得到多个候选词；

49、分别将所述历史文本所包括的每个候选词替换为掩码，得到每个候选词对应的掩码文本。

50、可选地，确定所述历史文本表征向量和所述掩码文本表征向量之间的相似度，包括：

51、根据所述候选词，将所述掩码文本表征向量分为正例文本表征向量和负例文本表征向量；

52、确定所述历史文本表征向量和所述正例文本表征向量之间的第一相似度；

53、确定所述历史文本表征向量和所述负例文本表征向量之间的第二相似度，将所述第一相似度和所述第二相似度作为所述历史文本表征向量和所述掩码文本表征向量之间的相似度。

54、根据本发明实施例的第三方面，提供一种电子设备，包括：

55、一个或多个处理器；

56、存储装置，用于存储一个或多个程序，

57、当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现上述任一实施例所述的方法。

58、根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。

59、上述发明中的一个实施例具有如下优点或有益效果：将目标文本中的文本关键词与目标语音融合，对融合结果进行解码，得到目标语音的识别文本，能够提高语音识别效率和准确性，提高用户使用体验，避免数据量过大的目标文本对语音识别造成干扰；先基于注意力机制对语音表征向量和关键词表征向量进行融合，再对语音表征向量和隐层表征向量叠加，将叠加结果作为语音表征向量，能够有效融合目标语音与文本关键词的特征，并且在语音表征向量中强化了目标语音的特征，便于提高语音识别准确性；在维度不相等的情况下，对表征向量进行线性变换，能够保证目标语音与文本关键词准确融合，提高数据融合效率；根据历史文本和掩码文本训练模型，根据相似度对模型进行反向传播，能够提高模型准确性，提高模型训练效率；基于候选词确定正例表征向量和负例表征向量，根据正、负例表征向量确定相似度，能够拉近正例表征向量与历史文本之间的距离，拉远负例表征向量与历史文本之间的距离，提高模型训练效率，提高模型准确性。

60、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。