技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别转换方法及装置与流程 > 正文

一种语音识别转换方法及装置与流程

国知局
2024-06-21 11:47:31

本发明涉及音频数据处理，尤其涉及一种语音识别转换方法及装置。

背景技术：

1、音频数据处理技术领域涉及对语音信号的采集、分析、处理和识别，主要目的是让计算机能够理解和响应人类的语音。音频数据处理技术包括但不限于信号的数字化、降噪、回声消除、特征提取、模式识别和语音合成等方面。它广泛应用于智能助手、自动语音应答系统、语音翻译、辅助听力设备等多个领域。随着人工智能技术的发展，这个领域在自然语言处理和机器学习方面取得了显著进展，不断推动语音识别的准确度和效率。

2、语音识别转换方法是一种技术手段，它使计算机能够识别和理解人类的语音，并将其转换为机器可读的格式，如文本或指令。这种方法的主要目的是提高人机交互的自然性和效率，使得计算机可以更加直观和便捷地与人类沟通。例如，语音识别转换可以使得用户通过语音而非键盘输入与设备交互，从而提高了可访问性并减少了物理操作的需求。

3、传统语音识别方法主要侧重于处理单一的音频信号，这在实际应用中可能导致对复杂或模糊语音指令的识别不足。由于缺乏视频数据的辅助，传统方法在环境噪音干扰较大或说话者表达不清晰时的识别准确率较低。此外，传统方法通常依赖预设的模型和算法，缺乏有效的用户反馈机制来持续优化和适应新环境或新场景，这限制了其在动态或多样化应用环境中的表现。例如，固定的模型可能难以应对用户方言或特殊发音模式，从而影响用户体验和系统的实用性。

技术实现思路

1、本发明的目的是解决现有技术中存在的缺点，而提出的一种语音识别转换方法及装置。

2、为了实现上述目的，本发明采用了如下技术方案：一种语音识别转换方法，包括以下步骤：

3、s1：中控系统通过人机交互模块获取数据；

4、s2：数据进入预处理单元转换为头像跟随视频和滤波后音频文件，交由数据分析单元；

5、s3：数据分析单元进行特征提取生成特征文件项目，并通过近似度检索驱动检索模型库对应结果项；

6、s4：人机交互模块基于执行组件执行动作表；

7、s5：通过反馈组件提交反馈，反馈结果交由模型训练单元进行判定，基于判定结果进行训练工作。

8、作为本发明的进一步方案，所述s3中，所述数据分析单元进行特征提取的步骤具体为：

9、s301：通过源数据库临时存储视频处理缓存和音频处理缓存；

10、s302：基于时间轴进行音视频同步放映，导入视频处理缓存和音频处理缓存；

11、s303：参照视频模型识别动作项目，参照音频模型识别语言项目，并进行特征提取。

12、作为本发明的进一步方案，所述s5中，所述通过反馈组件提交反馈，反馈结果交由模型训练单元进行判定，基于判定结果进行训练工作的步骤具体为：

13、s501：客户端用户选择参与模型训练时，通过反馈组件的滑动反馈插件生成反馈小窗；

14、s502：用户左滑时输出逻辑假数据，用户右滑时输出逻辑真数据，而后自动关闭反馈小窗；

15、s503：逻辑数据进入模型训练单元，当反馈判定结果为逻辑真时，先一步进行特征项目获取，剪切特征文件项目；

16、s504：对特征文件项目基于模型库进行近似度判定，在近似度判定未达标时，进行特征项目录入，将特征文件项目作为参照，导入模型库，而后清理缓存，如近似度达标，则直接清理缓存。

17、一种语音识别转换装置是由中控系统、人机交互模块、数据预处理单元、数据分析单元、模型训练单元组成，所述中控系统的输出端与人机交互模块、数据预处理单元、数据分析单元、模型训练单元的输入端通讯连接，所述数据预处理单元的输出端与数据分析单元的输入端电性连接，所述数据分析单元的输出端与模型训练单元的输入端电性连接。

18、作为本发明的进一步方案，所述中控系统包括收发端口、数据终端，所述收发端口的输出端与数据终端的输入端通讯连接，所述数据终端包括调用组件、模型库，所述调用组件的输出端与模型库的输入端电性连接，所述模型库包括模型录入、模型检索，所述模型录入、模型检索的输出端电性连接有库文件，所述库文件包括视频特征库、音频特征库，所述视频特征库包括视频模型，所述音频特征库包括音频模型，所述视频模型、音频模型的输出端电性连接有结果项。

19、作为本发明的进一步方案，所述人机交互模块的输出端电性连接有交互端口，所述交互端口的输出端电性连接有触发单元，所述触发单元的输出端电性连接有获取组件、执行组件，所述获取组件包括麦克风、监控摄像头，所述执行组件的输出端电性连接有客户端，所述客户端包括动作表，所述动作表的输出端电性连接有反馈组件，所述反馈组件包括滑动反馈插件，所述滑动反馈插件的反馈方式包括左滑和右滑，所述滑动反馈插件的输出项包括逻辑假和逻辑真。

20、作为本发明的进一步方案，所述数据预处理单元包括参照文件，所述数据预处理单元的输出端电性连接有数据项目分流，所述数据项目分流的输出端电性连接有锐化处理、音频处理组件，所述锐化处理包括色相、亮度、对比度、饱和度，所述锐化处理的输出端电性连接有去噪滤镜，所述去噪滤镜的输出端电性连接有视频截取组件，所述视频截取组件的输出端电性连接有人物识别，所述人物识别的输出端电性连接有头像跟随截取，所述音频处理组件的输出端电性连接有stft特征提取，所述stft特征提取的输出端电性连接有转波形图，所述转波形图的输出端电性连接有维纳滤波器。

21、作为本发明的进一步方案，所述数据分析单元包括源数据库，所述源数据库的输出端电性连接有视频处理缓存、音频处理缓存，所述视频处理缓存、音频处理缓存的输出端电性连接有时间轴，所述时间轴的输出端电性连接有音视频同步，所述音视频同步的输出端电性连接有视频导入、音频导入，所述视频导入的输出端电性连接有动作项目识别，所述音频导入的输出端电性连接有语言项目识别，所述动作项目识别包括视频模型参照，所述语言项目识别包括音频模型参照，所述动作项目识别、语言项目识别的输出端电性连接有特征提取，所述特征提取的输出端电性连接有近似度检索驱动、特征文件项目，所述特征文件项目包括动作模型参、语言模型参。

22、作为本发明的进一步方案，所述模型训练单元包括反馈判定，所述反馈判定的输出端电性连接有特征项目获取，所述特征项目获取的输出端电性连接有近似度判定，所述近似度判定的第一输出端电性连接有特征项目录入，所述近似度判定的第二输出端电性连接有清理缓存，所述特征项目录入的输出端与清理缓存的输入端电性连接。

23、与现有技术相比，本发明的优点和积极效果在于：

24、本发明中，通过整合视频和音频数据处理，增强了语音识别的准确性和多功能性，同时处理视频和音频信号，允许系统更全面地理解和响应用户的指令。特别是在特征提取方面，结合视频模型和音频模型的双重分析，提高了语音识别的准确度和环境适应性。此外，通过用户反馈驱动的模型训练机制，系统能够不断学习和优化，从而更好地适应用户需求和使用环境。这种自适应学习机制使系统更加灵活和智能，特别是在处理多变的语音和行为模式时表现出色。