技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、处理器、存储器及电子设备与流程 > 正文

语音识别方法、装置、处理器、存储器及电子设备与流程

国知局
2024-06-21 11:53:17

本发明涉及语音识别领域，具体而言，涉及一种语音识别方法、装置、处理器、存储器及电子设备。

背景技术：

1、在相关技术中，若需要对存在多人说话的语音进行识别的时候，仅能通过对语音进行语音分离，然后在进行语音识别的方式，来得到语音对应的文本信息，但是，这个识别过程的复杂度较高，且在多人说话的语音中会存在插抢话的情况，也即，存在多人说话重叠部分，上述方法无法准确处理重叠部分的语音，只会输出重叠部分说话声音较为明显的那一方，因此，仍存在若语音中至少存在两个目标对象的声音，对语音识别效率低的技术问题。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种语音识别方法、装置、处理器、存储器及电子设备，以至少解决若语音中至少存在两个目标对象的声音，对语音识别的准确性低的技术问题。

2、根据本发明实施例的一个方面，提供了一种语音识别方法，包括：获取待识别语音的声学特征信息，其中，语音中至少存在两个目标对象的声音；按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，其中，表述特征用于表示目标对象发出声音的方式；基于表述特征以及播放顺序，确定语音对应的初始文本信息；从声学特征信息中检测至少两个目标对象的转变结果，并基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，其中，转变结果用于从声学特征信息中确定出现发出声音的目标对象存在转变的状况。

3、可选地，获取待识别的语音的声学特征信息，包括：获取语音的初始声学特征信息，其中，初始声学特征信息为对语音进行特征提取得到的；调用第一识别模型对初始声学特征信息进行识别，得到声学特征信息，其中，第一识别模型为利用初始声学特征样本和声学特征样本对神经网络模型进行训练得到的，声学特征样本为对初始声学特征样本进行识别得到的。

4、可选地，按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，包括：调用信息提取模型按照播放顺序，依次从声学特征信息中识别至少两个目标对象对应的表述特征。

5、可选地，信息提取模型中包括第一层归一化、自注意机制层和第二层归一化，其中，调用信息提取模型按照播放顺序，依次从声学特征信息中识别至少两个目标对象对应的表述特征，包括：在第一层归一化中，对声学特征信息进行标准化处理，并输入至自注意机制层中；在自注意机制层中，基于标准化处理后的声学特征信息，确定对应的自注意机制数据，并输入至第二层归一化中；在第二层归一化中再进行标准化处理，得到表述特征。

6、可选地，初始文本信息至少包括不同目标对象分别对应的第一文本信息，以及整个声学特征信息对应的第二文本信息。

7、可选地，从声学特征信息中检测至少两个目标对象的转变结果，包括：将初始文本信息和声学特征信息，输入至第二识别模型中，利用第二识别模型，检测出转变结果，其中，第二识别模型用于对声学特征信息至少进行目标对象的转变检测。

8、可选地，第二识别模型中包括检测转变模型，其中，将初始文本信息和声学特征信息，输入至第二识别模型中，利用第二识别模型，检测出转变结果，包括：在转变检测模型中，基于初始文本信息中的第二文本信息和声学特征信息，进行目标对象转变检测；响应于第二文本信息中的目标文本为目标对象转变点，对目标文本进行标记，其中，目标对象转变点用于表示在语音中的声音由一个目标对象转变为另一个目标对象；响应于对第二文本信息中的目标文本标记完成，得到转变结果。

9、可选地，第二识别模型中包括语音识别模型，其中，基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，包括：将转变结果以及初始文本信息输入至语音识别模型中，利用转变结果对初始文本信息进行调整，得到目标文本信息，其中，目标文本信息为区分目标对象的文本信息。

10、可选地，在基于转变结果对初始文本信息进行调整，得到对应的目标文本信息之后，该方法还包括：确定初始文本信息对应的第一损失数据、转变结果对应的第二损失数据以及目标文本信息对应的第三损失数据；对第一损失数据、第二损失数据和第三损失数据进行加权求和，得到在语音识别过程中的整体损失数据。

11、可选地，在对第一损失数据、第二损失数据和第三损失数据进行加权求和，得到在语音识别过程中的整体损失数据之后，该方法还包括：响应于整体损失数据小于损失数据阈值，确定目标文本信息，其中，损失数据阈值用于表征所识别得到的目标文本信息与语音之间的差异程度；响应于整体损失数据大于等于损失数据阈值，对第一损失数据、第二损失数据和/或第三损失数据进行调整。

12、可选地，在基于转变结果对初始文本信息进行调整，得到对应的目标文本信息之后，该方法还包括：确定识别语音得到目标文本信息的使用场景信息，其中，使用场景信息至少包括第一使用场景信息和第二使用场景信息，第一使用场景信息为对目标对象的沟通质量进行监督的场景，第二使用场景信息为对目标对象之间的沟通进行记录的场景；响应于第一使用场景信息，确定进行沟通质量监督的目标对象，从目标文本信息中提取出目标对象的沟通文本，并在交互界面上进行显示和评分；响应于第二使用场景信息，在交互界面上显示标注有目标对象的标识信息的目标文本信息。

13、根据本发明实施例的另一方面，还提供了一种语音识别装置，包括：获取单元，用于获取待识别语音的声学特征信息，其中，语音中至少存在两个目标对象的声音；提取单元，用于按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，其中，表述特征用于表示目标对象发出声音时的表述方式；确定单元，用于基于表述特征以及播放顺序，确定语音对应的初始文本信息；处理单元，用于从声学特征信息中检测至少两个目标对象的转变结果，并基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，其中，转变结果用于从声学特征信息中确定出现发出声音的目标对象存在转变的状况。

14、根据本发明实施例的另一方面，还提供了一种处理器。该处理器可以用于运行程序，其中，程序运行时执行任意一种上述的语音识别方法。

15、根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的语音识别方法。

16、根据本发明实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的语音识别方法。

17、在本发明实施例中，若需要对存在多个目标对象的声音的语音进行识别，可以先确定出待识别语音的声学特征信息，还可以分析出语音中目标对象的声音的播放顺序。可以按照播放顺序，依次从声学特征信息中提取出各个目标对象发出声音时的表述方式，也即，目标对象的表述特征，从而可以先根据表述特征和播放顺序，确定出语音的初始文本信息。由于仅通过按照播放顺序和表述特征，识别一次语音，会存在准确性不足的情况，因此，可以进一步进行识别。可以从声学特征信息中检测出各个目标对象在发出声音时的转变状况，也即，转变结果，从而根据转变结果对初始文本信息进行进一步调整，得到最终的目标文本信息，通过上述方式，通过多次对多人说话的语音进行识别，从而解决了若语音中至少存在两个目标对象的声音，对语音识别的准确性低的技术问题，实现了若语音中至少存在两个目标对象的声音，提高对语音识别的准确性的技术效果。