技术新讯 > 电子通信装置的制造及其应用技术 > 一种音视频听写处理方法、装置、计算机设备及存储介质与流程 > 正文

一种音视频听写处理方法、装置、计算机设备及存储介质与流程

国知局
2024-10-09 14:41:40

本发明涉及音视频听写处理方法，更具体地说是指一种音视频听写处理方法、装置、计算机设备及存储介质。

背景技术：

1、视频和音频中的标点符号对于听写和理解内容非常重要。现有的视频或音频处理方式一般都没有办法将标点符号明确识别出来，容易出现标点符号丢失的问题；但是这种方式对使用者而言影响是非常大的，首先，即使在阅读时，没有标点符号的大段文字也会影响阅读体验，缺乏标点符号的文本使得读者难以准确判断句子的边界和逻辑关系，从而降低了阅读的流畅性和理解性。其次，如果需要使用ai语音合成技术重新朗读文本时，标点符号则成为重要的指导依据，声音生成模型通常会根据标点符号的位置和类型调整语调、语速和停顿，以使朗读更加自然流畅，缺乏标点符号的文本将使得语音合成结果缺乏节奏感和语境，难以准确传达原文的意义和情感；此外，将标点符号与文本同时听写出来的另一个重要原因是确保准确地捕捉到语音中的停顿和语调变化，尽管可以在后期加入标点符号，但这种方法可能无法准确反映音频中的语气和语调变化，从而导致标点符号的添加不够准确或不自然。

2、因此，有必要设计一种新的方法，实现在视频或音频听写处理的阶段及时将标点符号一并记录下来，以便更准确地理解内容并保留视频或音频中的语音节奏和语境，避免出现标点符号丢失而影响使用者的体验感。

技术实现思路

1、本发明的目的在于克服现有技术的缺陷，提供一种音视频听写处理方法、装置、计算机设备及存储介质。

2、为实现上述目的，本发明采用以下技术方案：一种音视频听写处理方法，包括：

3、获取待处理音视频；

4、对所述待处理音视频进行预听写，以得到对应的标题；

5、将所述待处理音视频以及对应的标题输入至gpt模型内，以生成初始提示；

6、对所述待处理音视频分割成多个短音视频；

7、结合所述初始提示对所述短音视频进行听写，以得到听写结果；

8、判断所述听写结果是否有连续的字符没有标点符号；

9、若所述听写结果没有连续的字符没有标点符号，则合并所有听写结果，以得到合并结果；

10、识别所述合并结果中的中文字符之间的特定符号，并替换为中文标点符号，以得到替换结果；

11、处理所述替换结果。

12、其进一步技术方案为：所述判断所述听写结果是否没有标点符号之后，还包括：

13、若所述听写结果有连续的字符没有标点符号，则执行所述结合所述初始提示对所述短音视频进行听写，以得到听写结果。

14、其进一步技术方案为：所述对所述待处理音视频分割成多个短音视频，包括：

15、根据指定的最长时长，计算出预期分割时间点；

16、对所述待处理音视频进行初步听写，以得到断句点；

17、根据所述断句点在预期分割时间点附近的范围内找到最近的自然断点；

18、根据最近的自然断点将所述待处理音视频分割成多个短音视频。

19、其进一步技术方案为：所述对所述待处理音视频进行初步听写，以得到断句点，包括：

20、采用tiny模型对所述待处理音视频进行初步听写，以得到断句点。

21、其进一步技术方案为：所述结合所述初始提示对所述短音视频进行听写，以得到听写结果，包括：

22、对每个所述短音视频调用__transcribe()方法，使用whisper模型进行听写，以得到听写结果。

23、其进一步技术方案为：所述合并所有听写结果，以得到合并结果，包括：

24、合并所有听写结果，生成一个whisperresult对象，以得到合并结果。

25、其进一步技术方案为：所述处理所述替换结果，包括：

26、确定所述替换结果中每种语言的主要标点和次要标点，其中，主要标点包括句号、感叹号以及问号中至少一种，所述次要标点包括逗号；

27、合并所述替换结果中说话时间间隔小于设定值的段落，以得到段落合并结果；

28、根据所述段落合并结果中的段落长度和包含的主要标点切割段落，以得到第一切割结果；

29、根据所述第一切割结果中的段落长度和包含的次要标点切割段落。

30、本发明还提供了一种音视频听写处理装置，包括：

31、视频获取单元，用于获取待处理音视频；

32、标题获取单元，用于对所述待处理音视频进行预听写，以得到对应的标题；

33、初始提示生成单元，用于将所述待处理音视频以及对应的标题输入至gpt模型内，以生成初始提示；

34、分割单元，用于对所述待处理音视频分割成多个短音视频；

35、听写单元，用于结合所述初始提示对所述短音视频进行听写，以得到听写结果；

36、判断单元，用于判断所述听写结果是否有连续的字符没有标点符号；

37、合并单元，用于若所述听写结果没有连续的字符没有标点符号，则合并所有听写结果，以得到合并结果；

38、识别替换单元，用于识别所述合并结果中的中文字符之间的特定符号，并替换为中文标点符号，以得到替换结果；

39、转录单元，用于处理所述替换结果。

40、本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

41、本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

42、本发明与现有技术相比的有益效果是：本发明通过先确定待处理音视频的对应的标题，并将标题和该待处理音视频作为输入，由gpt模型生成提示信息，且在初始提示的基础上进行待处理音视频分割、分割后的短音视频的听写，并在校验没有连续的字符没有标点符号后，合并所有听写结果，识别并替换特定符号，转录最后的替换结果，实现在视频或音频听写处理的阶段及时将标点符号一并记录下来，以便更准确地理解内容并保留视频或音频中的语音节奏和语境，避免出现标点符号丢失而影响使用者的体验感。

43、下面结合附图和具体实施例对本发明作进一步描述。

技术特征：

1.一种音视频听写处理方法，其特征在于，包括：

2.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述判断所述听写结果是否没有标点符号之后，还包括：

3.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述对所述待处理音视频分割成多个短音视频，包括：

4.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述对所述待处理音视频进行初步听写，以得到断句点，包括：

5.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述结合所述初始提示对所述短音视频进行听写，以得到听写结果，包括：

6.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述合并所有听写结果，以得到合并结果，包括：

7.根据权利要求1所述的一种音视频听写处理方法，其特征在于，所述处理所述替换结果，包括：

8.一种音视频听写处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结本发明实施例公开了一种音视频听写处理方法、装置、计算机设备及存储介质。方法包括：获取待处理音视频；对待处理音视频进行预听写，以得到对应的标题；将待处理音视频以及对应的标题输入至GPT模型内，以生成初始提示；对待处理音视频分割成多个短音视频；对短音视频进行听写，以得到听写结果；判断听写结果是否有连续的字符没有标点符号；若听写结果没有连续的字符没有标点符号，则合并所有听写结果，以得到合并结果；识别合并结果中的中文字符之间的特定符号，并替换为中文标点符号，以得到替换结果；转录替换结果。通过实施本发明实施例的方法可实现在视频或音频听写处理的阶段及时将标点符号一并记录下来，以便更准确地理解内容并保留视频或音频中的语音节奏和语境，避免出现标点符号丢失而影响使用者的体验感。技术研发人员：王子谦受保护的技术使用者：橙薇教育科技（杭州）有限责任公司技术研发日：技术公布日：2024/9/29