技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音文本转换方法及装置与流程 > 正文

语音文本转换方法及装置与流程

国知局
2024-06-21 11:57:01

本公开涉及语音数据处理领域，尤其涉及语音文本转换方法及装置。

背景技术：

1、在语音数据转换为文本数据在许多领域都得到了应用。例如，将语音转换为文本可以帮助人们更便捷地处理和管理大量的语音信息，比如在语音识别和语音搜索中，可以让用户用语音输入查询内容；在语音翻译中，可以将外语语音转换成自己所需的语言文字；在语音记录和实时字幕中，可以记录并输出说话内容，让听障人士也能够方便地获取语音信息等。此外，语音转换为文本也有利于提高语音识别技术和智能助手的应用水平，提升人们的生活和工作效率。

技术实现思路

1、提供该公开内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开实施例提供了一种语音文本转换方法及装置，在对未转换语音数据进行语音转换时，还会考量已转换语音数据，这样，可以使得将语音数据转换为文本数据时，获得的文本数据可以更加准确。

3、第一方面，本公开实施例提供了一种语音文本转换方法，上述方法包括：获取语音数据中的已转换语音数据对应的第一转换文本；

4、根据上述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本。

5、结合第一方面的实施例，在一些实施例中，上述语音数据包括n个语音片段，若已转换语音数据包括第i个语音片段，则上述未转换语音数据包括第i+1个语音片段；

6、或者，若已转换语音数据包括前i个语音片段，则上述未转换语音数据包括第i+1个语音片段；

7、其中，i取1到n。

8、结合第一方面的实施例，在一些实施例中，上述根据上述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本，包括：

9、将上述第一转换文本与上述未转换语音数据输入语音转换模型，通过上述语音转换模型根据上述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本。

10、结合第一方面的实施例，在一些实施例中，上述方法还包括：

11、获取更新文本，其中，上述更新文本为用户对上述语音数据对应的转换文本进行更新后得到的；

12、利用上述更新文本和上述语音数据对上述语音转换模型进行更新。

13、结合第一方面的实施例，在一些实施例中，上述获取语音数据中的已转换语音数据对应的第一转换文本之前，还包括：

14、识别上述语音数据对应的方言；

15、上述将上述第一转换文本与上述未转换语音数据输入语音转换模型，包括：

16、根据上述方言选取与之适配的语音转换模型；

17、将上述第一转换文本与上述未转换语音数据输入语音转换模型。

18、结合第一方面的实施例，在一些实施例中，通过以下方式对上述语音转换模型进行训练：

19、获取样本数据集，其中，样本数据包括语音数据和语音数据对应的文本数据；

20、将上述样本数据集中的样本数据输入至初始神经网络模型进行训练，获得上述语音转换模型；

21、以及，在各样本数据输入至初始神经网络模型时，将该样本数据中的语音数据和文本数据按照预定义规则输入至上述初始神经网络模型；

22、其中，上述预定义规则包括：输入的文本数据包括输入的语音数据之前的语音数据所对应文本数据。

23、结合第一方面的实施例，在一些实施例中，上述根据上述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本，包括：

24、从上述第一转换文本中提取关键信息，上述关键信息包括关键词和/或语境信息；

25、根据上述关键信息对未转换语音数据进行转换，获得对应的第二转换文本。

26、第二方面，本公开实施例提供了一种语音文本转换装置，包括：

27、获取单元，用于获取语音数据中的已转换语音数据对应的第一转换文本；

28、转换单元，用于根据上述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本。

29、第三方面，本公开实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面上述的语音文本转换方法。

30、第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面上述的语音文本转换方法的步骤。

31、本公开实施例提供的语音文本转换方法及装置，由于在针对语音数据的转换过程中，会根据语音数据中的已转换语音数据对应的第一转换文本，并根据第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本。可以理解为，在对未转换语音数据进行语音转换时，还会考量已转换语音数据，这样，可以使得将语音数据转换为文本数据时，获得的文本数据可以更加准确。

技术特征：

1.一种语音文本转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音数据包括n个语音片段，若已转换语音数据包括第i个语音片段，则所述未转换语音数据包括第i+1个语音片段；

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述获取语音数据中的已转换语音数据对应的第一转换文本之前，还包括：

6.根据权利要求3所述的方法，其特征在于，通过以下方式对所述语音转换模型进行训练：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本，包括：

8.一种语音文本转换装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本公开实施例公开了的语音文本转换方法及装置，由于在针对语音数据的转换过程中，会根据语音数据中的已转换语音数据对应的第一转换文本，并根据第一转换文本对未转换语音数据进行转换，获得对应的第二转换文本。可以理解为，在对未转换语音数据进行语音转换时，还会考量已转换语音数据，这样，可以使得将语音数据转换为文本数据时，获得的文本数据可以更加准确。技术研发人员：张婷,胡日勒,魏勇鹏,黄小明受保护的技术使用者：中译语通科技股份有限公司技术研发日：技术公布日：2024/6/11