技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频和文本的对齐匹配方法、装置、设备及存储介质与流程 > 正文

音频和文本的对齐匹配方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:36:19

本申请实施例涉及音频合成和处理，特别涉及一种音频和文本的对齐匹配方法、装置、设备及存储介质。

背景技术：

1、有声书是一种将文本内容进行音频录制的作品。

2、在相关技术中，采用人机结合的方式录制有声书，例如，采用机器的声音生成旁白内容，采用人声录制角色的对白，之后通过人工将人声录音与机器生成的内容按照有声书的文本顺序进行拼接，实现手动对齐人声录音和文本内容，从而得到最终的有声书作品。

3、在上述相关技术中，通过人工手动对齐人声录音和文本内容，导致音频和文本的对齐效率较低。

技术实现思路

1、本申请实施例提供了一种音频和文本的对齐匹配方法、装置、设备及存储介质，能够提升音频和文本的对齐效率。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种音频和文本的对齐匹配方法，所述方法包括：

3、获取目标文本和待对齐匹配的人声录音，所述人声录音是采用人声对所述目标文本的部分文本内容进行录音得到的音频；

4、将所述人声录音按照录制的时间顺序进行分帧，得到所述人声录音的多个音频帧，所述多个音频帧中的每一个音频帧具有对应的发音时间戳；

5、对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，所述对齐匹配结果用于指示所述人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，所述人声录音对齐匹配到的文本内容属于所述目标文本。

6、根据本申请实施例的一个方面，提供了一种音频和文本的对齐匹配装置，所述装置包括：

7、获取模块，用于获取目标文本和待对齐匹配的人声录音，所述人声录音是采用人声对所述目标文本的部分文本内容进行录音得到的音频；

8、分帧模块，用于将所述人声录音按照录制的时间顺序进行分帧，得到所述人声录音的多个音频帧，所述多个音频帧中的每一个音频帧具有对应的发音时间戳；

9、对齐模块，用于对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，所述对齐匹配结果用于指示所述人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，所述人声录音对齐匹配到的文本内容属于所述目标文本。

10、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频和文本的对齐匹配方法。

11、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频和文本的对齐匹配方法。

12、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频和文本的对齐匹配方法。

13、本申请实施例提供的技术方案可以包括如下有益效果：

14、通过对采用人声对目标文本的部分文本进行录音得到的人声录音进行分帧，得到多个音频帧，再基于多个音频帧将人生录音和目标文本进行自动的对齐匹配，从而确定人声录音的各部分所对应的文本内容，提升了音频和文本的对齐效率。

15、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种音频和文本的对齐匹配方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标文本和待对齐匹配的人声录音之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标文本中包含的字词分别对应的发音单元和发音顺序，对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述对齐匹配结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述第一条件包括以下至少之一：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取目标文本和待对齐匹配的人声录音之后，还包括以下至少之一：

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

10.一种音频和文本的对齐匹配装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述权利要求1至9任一项所述的音频和文本的对齐匹配方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述权利要求1至9任一项所述的音频和文本的对齐匹配方法。

技术总结本申请实施例提供了一种音频和文本的对齐匹配方法、装置、设备及存储介质，涉及音频合成和处理技术领域。所述方法包括：获取目标文本和待对齐匹配的人声录音，人声录音是采用人声对目标文本的部分文本内容进行录音得到的音频；将人声录音按照录制的时间顺序进行分帧，得到人声录音的多个音频帧，多个音频帧中的每一个音频帧具有对应的发音时间戳；对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果，对齐匹配结果用于指示人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，人声录音对齐匹配到的文本内容属于目标文本。采用本申请实施例提供的技术方案，能够提升音频和文本的对齐效率。技术研发人员：轩晓光,黄杰雄,陈传艺,张超钢,高阳升受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/3/12