技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音转换的事件记录方法、装置、设备及介质与流程 > 正文

基于语音转换的事件记录方法、装置、设备及介质与流程

国知局
2024-06-21 11:49:27

本发明涉及人工智能，尤其涉及一种基于语音转换的事件记录方法、装置、设备及介质。

背景技术：

1、目前，对于如酒后驾驶等事件的处理，通常需要相关工作人员利用录音笔、摄像机等进行现场记录，并在事后进行分析、归纳及整理，以便将现场情况或者询问内容以文字形式保存下来。

2、由于被询问人员具有不同的口音，在将现场录音归纳及整理为文字形式的过程中，会给相关工作人员造成一定的困扰，且最终得到的文本的准确性及处理效率也都会较低。

技术实现思路

1、鉴于以上内容，有必要提供一种基于语音转换的事件记录方法、装置、设备及介质，旨在解决事件记录效率低、准确率低的问题。

2、一种基于语音转换的事件记录方法，所述基于语音转换的事件记录方法包括：

3、响应于对目标事件的记录指令，获取所述目标事件的事件类型，并启动与所述事件类型对应的事件记录界面；

4、当检测到所述事件记录界面的指定输入框中有数据输入时，对输入的数据进行校验；

5、当所述输入的数据通过校验时，实时采集用户语音；

6、基于频段信号强度对所述用户语音进行优化，得到待处理数据；

7、按照配置拆分策略对所述待处理数据进行拆分，得到待转换数据；

8、将所述待转换数据输入至预先训练的多语言转换模型，得到目标文本；

9、将所述目标文本插入至所述事件记录界面的指定区域。

10、根据本发明优选实施例，所述基于频段信号强度对所述用户语音进行优化，得到待处理数据包括：

11、将所述用户语音转换为数字信号，得到第一信号；

12、从所述第一信号中识别高频段信号；

13、对所述高频段信号的频谱进行提高，得到第二信号；

14、获取预设阈值，并基于所述预设阈值对所述第二信号进行去噪处理，得到所述待处理数据。

15、根据本发明优选实施例，所述按照配置拆分策略对所述待处理数据进行拆分，得到待转换数据包括：

16、获取所述待处理数据对应的用户音色，并按照所述用户音色对所述待处理数据进行一级拆分，得到与每个用户音色对应的数据段；

17、获取停顿时长阈值，并按照所述停顿时长阈值对每个用户音色对应的数据段进行二级拆分，得到每个第一子数据段；

18、获取预先建立的词典，并利用所述词典对每个第一子数据段进行融合，得到多个第二子数据段；

19、获取每个第二子数据段的开始时间及结束时间；

20、根据每个第二子数据段的开始时间及结束时间对每个第二子数据段进行标记，得到所述待转换数据。

21、根据本发明优选实施例，所述将所述待转换数据输入至预先训练的多语言转换模型，得到目标文本包括：

22、按照标记的开始时间将所述待转换数据中的每个第二子数据段依次输入至所述多语言转换模型，得到与每个第二子数据段对应的文本；

23、按照标记的开始时间及结束时间依次组合与每个第二子数据段对应的文本，得到所述目标文本；

24、其中，所述多语言转换模型为基于多种语言样本训练双向长短期记忆神经网络而得到。

25、根据本发明优选实施例，所述方法还包括：

26、响应于同步刻录指令，检测用户类型；

27、当所述用户类型为预设类型时，发出是否打开陪护摄像头的提示信息；

28、当接收到基于所述提示信息反馈的确认信号时，确定所述用户的陪护人员所处的陪护室；

29、启动所述陪护室的陪护摄像头；

30、获取所述用户所处区域的摄像头实时采集的视频作为初始视频；

31、将所述陪护摄像头实时采集的画面以画中画的形式插入至所述初始视频，得到刻录视频；

32、将所述刻录视频以附件形式上传至所述事件记录界面的指定位置。

33、根据本发明优选实施例，所述方法还包括：

34、响应于视频示证指令，确定示证类型；

35、当所述示证类型为普通示证时，获取选择的摄像头作为目标摄像头，并显示所述目标摄像头实时采集的画面；或者

36、当所述示证类型为物品示证时，获取选择的物品作为目标物品，显示所述目标物品的图像，并将所述目标物品的实时视频投屏至指定显示器。

37、根据本发明优选实施例，所述将所述目标文本插入至所述事件记录界面的指定区域后，所述方法还包括：

38、根据所述事件记录界面生成事件记录文件；

39、当所述事件记录文件为远程询问类型时，获取本地询问室的第一实时视频，及获取远程询问室的第二实时视频；在所述本地询问室的显示器及所述远程询问室的显示器上同时显示所述第一实时视频、所述第二实时视频及所述目标文本；或者

40、当所述事件记录文件为指定类型时，对所述事件记录文件进行标记，并以弹框形式显示标签添加提示；当接收到对任意标签的分析指令时，显示所述任意标签的详细信息；当接收到对所述任意标签的更新指令时，根据所述更新指令对所述任意标签执行删除操作或者修改操作；当所述任意标签为即时通信类型，且接收到对所述任意标签的查询指令时，显示即时通信消息记录。

41、一种基于语音转换的事件记录装置，所述基于语音转换的事件记录装置包括：

42、启动单元，用于响应于对目标事件的记录指令，获取所述目标事件的事件类型，并启动与所述事件类型对应的事件记录界面；

43、校验单元，用于当检测到所述事件记录界面的指定输入框中有数据输入时，对输入的数据进行校验；

44、采集单元，用于当所述输入的数据通过校验时，实时采集用户语音；

45、优化单元，用于基于频段信号强度对所述用户语音进行优化，得到待处理数据；

46、拆分单元，用于按照配置拆分策略对所述待处理数据进行拆分，得到待转换数据；

47、输入单元，用于将所述待转换数据输入至预先训练的多语言转换模型，得到目标文本；

48、插入单元，用于将所述目标文本插入至所述事件记录界面的指定区域。

49、一种计算机设备，所述计算机设备包括：

50、存储器，存储至少一个指令；及

51、处理器，执行所述存储器中存储的指令以实现所述基于语音转换的事件记录方法。

52、一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被计算机设备中的处理器执行以实现所述基于语音转换的事件记录方法。

53、由以上技术方案可以看出，本发明能够启动与目标事件的事件类型对应的事件记录界面，当检测到事件记录界面的指定输入框中有数据输入时，对输入的数据进行校验，以保证在基本信息正确的前提下再进行后续处理；当输入的数据通过校验时实时采集用户语音，基于频段信号强度对所述用户语音进行优化，按照配置拆分策略对待处理数据进行拆分得到待转换数据，将待转换数据输入至预先训练的多语言转换模型得到目标文本，将目标文本插入至事件记录界面的指定区域，以基于人工智能手段将语音实时转换为文本，提升了事件记录的准确性及处理效率。