技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频转写方法、装置、电子设备和存储介质与流程 > 正文

音频转写方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:39:29

本发明涉及数据处理，尤其涉及一种音频转写方法、装置、电子设备和存储介质。

背景技术：

1、目前，将音频转写成文字，已经是一种提升工作效率的常见手段，其中，音频转写的识别率是影响用户体验感的关键指标。

2、在相关的音频转写技术中，由于音频识别可能存在偏差，导致音频转写成文字的准确率较低。特别是在一些特定的场合中，如课程教学、学术演讲等，通常需要转写结果去辅助理解，以便于用户更好的接收吸纳，此种情况下，若转写得到的文本不准确，则会可能导致用户在学习理解时出现难题，或者理解错误，进而使得体验不佳。

技术实现思路

1、本发明提供一种音频转写方法、装置、电子设备和存储介质，用以解决现有技术中音频转写所得结果的准确率较低的缺陷，实现转写结果准确率的提升，以及用户体验的优化。

2、本发明提供一种音频转写方法，包括：

3、确定当前场景下的音频数据和视频数据；

4、对所述音频数据进行文本转写，得到音频转写结果；

5、对所述视频数据进行文字识别，得到视频识别结果；

6、基于所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果。

7、根据本发明提供的一种音频转写方法，所述基于所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果，包括：

8、确定所述当前场景的场景类型；

9、基于所述场景类型，以及所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果。

10、根据本发明提供的一种音频转写方法，所述基于所述场景类型，以及所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果，包括：

11、确定所述场景类型对应的领域；

12、在所述领域为目标领域的情况下，从所述视频识别结果中确定所述目标领域对应的术语语段和/或易混淆语段；

13、基于所述视频识别结果中的术语语段和/或易混淆语段，对所述音频转写结果进行校正，得到校正转写结果。

14、根据本发明提供的一种音频转写方法，所述基于所述视频识别结果中的术语语段和/或易混淆语段，对所述音频转写结果进行校正，得到校正转写结果，包括：

15、确定所述术语语段和/或所述易混淆语段在所述视频数据中对应的视频帧，并基于所述视频帧对应的时间戳，从所述音频数据中确定所述视频帧关联的音频帧；

16、基于所述术语语段和/或所述易混淆语段，对所述音频帧的音频转写结果进行校正，得到校正转写结果。

17、根据本发明提供的一种音频转写方法，所述确定所述场景类型对应的领域，之后还包括：

18、在所述领域非目标领域的情况下，对所述音频转写结果进行异常检测，得到异常检测结果；

19、在所述异常检测结果指示所述音频转写结果中存在异常的情况下，基于所述视频识别结果，对所述音频转写结果中的异常语段进行校正，得到校正转写结果。

20、根据本发明提供的一种音频转写方法，所述基于所述视频识别结果，对所述音频转写结果中的异常语段进行校正，得到校正转写结果，包括：

21、将所述视频识别结果中的各语段与所述音频转写结果中的异常语段进行相似度匹配，得到匹配语段；

22、基于所述视频识别结果中的匹配语段，对所述音频转写结果中的异常语段进行校正，得到校正转写结果。

23、根据本发明提供的一种音频转写方法，所述确定当前场景下的音频数据和视频数据，包括：

24、获取所述当前场景下的录屏数据和麦克风音频数据；

25、对所述录屏数据进行分离，得到扬声器音频数据和视频数据；

26、确定所述扬声器音频数据和所述麦克风音频数据各自对应的权重；所述权重基于所述当前场景的场景类型，或者所述场景类型以及所述扬声器音频数据和所述麦克风音频数据的音量差和音质确定；

27、基于所述扬声器音频数据和所述麦克风音频数据各自对应的权重，合并所述扬声器音频数据和所述麦克风音频数据，得到音频数据。

28、本发明还提供一种音频转写装置，包括：

29、确定单元，用于确定当前场景下的音频数据和视频数据；

30、转写单元，用于对所述音频数据进行文本转写，得到音频转写结果；

31、识别单元，用于对所述视频数据进行文字识别，得到视频识别结果；

32、校正单元，用于基于所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果。

33、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的音频转写方法。

34、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的音频转写方法。

35、本发明提供的音频转写方法、装置、电子设备和存储介质，通过同一场景下的音频数据和视频数据确定音频转写结果和视频识别结果，并利用视频识别结果对音频转写结果进行校正，得到校正转写结果，提升了转写结果的准确率，同时基于同源视频数据的校正还保证了校正转写结果的可靠性，避免了传统方案中因转写结果不准确导致的理解出错，用户体验不佳的问题，实现了转写结果准确率的提升，以及用户体验的优化。

技术特征：

1.一种音频转写方法，其特征在于，包括：

2.根据权利要求1所述的音频转写方法，其特征在于，所述基于所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果，包括：

3.根据权利要求2所述的音频转写方法，其特征在于，所述基于所述场景类型，以及所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果，包括：

4.根据权利要求3所述的音频转写方法，其特征在于，所述基于所述视频识别结果中的术语语段和/或易混淆语段，对所述音频转写结果进行校正，得到校正转写结果，包括：

5.根据权利要求2所述的音频转写方法，其特征在于，所述确定所述场景类型对应的领域，之后还包括：

6.根据权利要求5所述的音频转写方法，其特征在于，所述基于所述视频识别结果，对所述音频转写结果中的异常语段进行校正，得到校正转写结果，包括：

7.根据权利要求1至6中任一项所述的音频转写方法，其特征在于，所述确定当前场景下的音频数据和视频数据，包括：

8.一种音频转写装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的音频转写方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的音频转写方法。

技术总结本发明提供一种音频转写方法、装置、电子设备和存储介质，其中方法包括：确定当前场景下的音频数据和视频数据；对所述音频数据进行文本转写，得到音频转写结果；对所述视频数据进行文字识别，得到视频识别结果；基于所述视频识别结果，对所述音频转写结果进行校正，得到校正转写结果，提升了转写结果的准确率，同时基于同源视频数据的校正还保证了校正转写结果的可靠性，避免了传统方案中因转写结果不准确导致的理解出错，用户体验不佳的问题，实现了转写结果准确率的提升，以及用户体验的优化。技术研发人员：王玮,骆鹏鹏,苏文畅,张宇,李全受保护的技术使用者：安徽听见科技有限公司技术研发日：技术公布日：2024/3/27