技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于大语言模型的语音生成和理解系统、方法和电子设备与流程 > 正文

基于大语言模型的语音生成和理解系统、方法和电子设备与流程

国知局
2024-06-21 11:57:12

本发明涉及语音理解和语音生成，尤其涉及一种基于大语言模型的语音生成和理解系统、方法和电子设备。

背景技术：

1、相关技术语音生成类任务或者语音理解类任务都是使用单一的模型去完成的，比如语音识别模型完成语音转文字的任务，语音合成模型完成文字转语音的任务，单一的模型只能发掘当前任务数据里的数据特性，而无法实现不同模型，不同语音任务之间的信息共享，造成了计算资源的浪费且效率较低。

技术实现思路

1、本发明提供一种基于大语言模型的语音生成和理解系统、方法和电子设备，同时具备语音识别、语音描述，语音分类、语音增强、语音合成、音乐合成功能，可以解决现有技术无法实现不同模型，不同语音任务之间的信息共享，造成了计算资源的浪费且效率较低的问题。

2、本发明提供一种基于大语言模型的语音生成和理解系统，所述基于大语言模型的语音生成和理解系统具备语音识别、语音描述，语音分类、语音增强、语音合成和音乐合成功能，所述基于大语言模型的语音生成和理解系统包括输入模块、编码模块、预测模块和解码模块。

3、根据本发明提供的基于大语言模型的语音生成和理解系统，所述输入模块，用于输入特定格式的文本信息和/或语音信息；

4、所述编码模块，用于获取所述文本信息和/或语音信息中的特征信息，还用于将所述文本信息和语音信息中的特征信息转换到统一的特征空间中；

5、所述预测模块，用于使用大模型语言，基于所述文本信息和/或语音信息中的特征信息，预测获得文本令牌和/或语音令牌；

6、所述解码模块，用于将所述文本令牌解码成文字和/或将所述语音令牌解码成语音。

7、根据本发明提供的基于大语言模型的语音生成和理解系统，所述特定格式由输入、输入语言、任务类型、输出语言和输出构成。

8、根据本发明提供的基于大语言模型的语音生成和理解系统，所述编码模块具体用于：

9、通过分词器将所述文本信息变换成文字令牌特征；

10、通过大语言模型的嵌入特征矩阵将所述文字令牌特征映射成为相应的嵌入特征，作为所述文本信息的特征信息。

11、根据本发明提供的基于大语言模型的语音生成和理解系统，所述解码模块具体用于：

12、基于所述语音令牌，获得对应的嵌入特征；

13、对所述嵌入特征进行解码，得到其对应的语音。

14、本发明还提供一种基于大语言模型的语音生成和理解方法，应用于上述任一项所述的基于大语言模型的语音生成和理解系统，所述方法包括：

15、输入文本信息和/或语音信息；

16、获取所述文本信息和/或语音信息中的特征信息，还用于将所述文本信息和语音信息中的特征信息转换到统一的特征空间中；

17、将所述文本信息和/或语音信息中的特征信息通过特定格式输入大语言模型，获得所述大语言模型输出的文本令牌和/或语音令牌；

18、将所述文本令牌解码成文字和/或将所述语音令牌解码成语音。

19、根据本发明提供的基于大语言模型的语音生成和理解方法，所述特定格式由输入、输入语言、任务类型、输出语言和输出构成。

20、根据本发明提供的基于大语言模型的语音生成和理解方法，所述获取所述文本信息和/或语音信息中的特征信息，包括：

21、通过分词器将所述文本信息变换成文字令牌特征；

22、通过大语言模型的嵌入特征矩阵将所述文字令牌特征映射成为相应的嵌入特征，作为所述文本信息的特征信息。

23、根据本发明提供的基于大语言模型的语音生成和理解方法，所述将所述语音令牌解码成语音，包括：

24、基于所述语音令牌，获得其对应的嵌入特征；

25、对所述嵌入特征进行解码，得到其对应的语音。

26、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于大语言模型的语音生成和理解方法。

27、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于大语言模型的语音生成和理解方法。

28、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于大语言模型的语音生成和理解方法。

29、本发明提供的一种基于大语言模型的语音生成和理解系统、方法和电子设备，通过使用统一的输入输出格式，可以同时支持语音理解、语音生成或者语音增强任务，将输入的语音信息和文字信息提取特征后，将其转换到统一的特征空间中，利用已有的开源大语言模型预测获得令牌特征，统一语音理解和语音生成任务，无需重新训练大模型，最后将预测的令牌特征编码成文字或语音，完成语音生成或语音理解任务，可以节省计算资源且提高语音任务效率。

技术特征：

1.一种基于大语言模型的语音生成和理解系统，其特征在于，所述基于大语言模型的语音生成和理解系统具备语音识别、语音描述，语音分类、语音增强、语音合成和音乐合成功能，所述基于大语言模型的语音生成和理解系统包括输入模块、编码模块、预测模块和解码模块。

2.根据权利要求1所述的基于大语言模型的语音生成和理解系统，其特征在于，所述输入模块，用于输入文本信息和/或语音信息；

3.根据权利要求2所述的基于大语言模型的语音生成和理解系统，其特征在于，所述特定格式由输入、输入语言、任务类型、输出语言和输出构成。

4.根据权利要求2所述的基于大语言模型的语音生成和理解系统，其特征在于，所述编码模块具体用于：

5.根据权利要求2所述的基于大语言模型的语音生成和理解系统，其特征在于，所述解码模块具体用于：

6.一种基于大语言模型的语音生成和理解方法，应用于权利要求1-5任一项所述的基于大语言模型的语音生成和理解系统，其特征在于，所述方法包括：

7.根据权利要求6所述的基于大语言模型的语音生成和理解方法，其特征在于，所述特定格式由输入、输入语言、任务类型、输出语言和输出构成。

8.根据权利要求6所述的基于大语言模型的语音生成和理解方法，其特征在于，所述获取所述文本信息和/或语音信息中的特征信息，包括：

9.根据权利要求6所述的基于大语言模型的语音生成和理解方法，其特征在于，所述将所述语音令牌解码成语音，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求6至9任一项所述基于大语言模型的语音生成和理解方法。

技术总结本发明提供一种基于大语言模型的语音生成和理解系统、方法和电子设备，属于语音理解和语音生成技术领域，该系统具备语音识别、语音描述，语音分类、语音增强、语音合成和音乐合成功能，该系统包括：输入模块，用于输入文本信息和/或语音信息；编码模块，用于获取所述文本信息和/或语音信息中的特征信息，还用于将所述文本信息和语音信息中的特征信息转换到统一的特征空间中；预测模块，用于将所述文本信息和/或语音信息中的特征信息通过特定格式输入大语言模型，获得所述大语言模型输出的文本令牌和/或语音令牌；解码模块，用于将所述文本令牌解码成文字和/或将所述语音令牌解码成语音。可以节省计算资源且提高语音任务效率。技术研发人员：陈庭威,唐帅,吴凌翔,王金桥受保护的技术使用者：武汉人工智能研究院技术研发日：技术公布日：2024/6/11