技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种动态语音识别交互软件展示系统的制作方法 > 正文

一种动态语音识别交互软件展示系统的制作方法

国知局
2024-06-21 11:32:15

本发明涉及语音识别，具体为一种动态语音识别交互软件展示系统。

背景技术：

1、展示系统是以信息输出播放为目的，以信息发布传递为主导的软件系统。它通过将文本，图片，动画，视频，音频有机组合，实时的形成一段段连续的画面，并通过现有的各种显示设备，播放给人们观看，向人们传达各种宣传信息。目前的展示系统一般采用了cs结构，主从式体系，借助于现有的通讯网络，将信息传送到网络内的任何地方并播放输出。

2、现有展示系统的展示控制可分为人工控制和自动控制，其中，自动控制相对智能程度更高，其原理是通过编辑、设计展示程序，达到自动播放或展示的目的，但其展示操作均遵循程序设计，只能将设定的展示内容呈现在特定的硬件设备上，并非真正意义上的智能，无法通过接收用户语音命令进行信息交互，从而无法实现语音控制更新指令、调整展示操作，存在较为明显的使用缺陷。

3、因此，急需对此缺点进行改进，本发明则是针对现有的结构及不足予以研究改良，提供有一种动态语音识别交互软件展示系统。

技术实现思路

1、本发明的目的在于提供一种动态语音识别交互软件展示系统，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：一种动态语音识别交互软件展示系统，包括：

3、音频获取模块，所述音频获取模块用于实时获取包含语音的音频数据，具体通过麦克风或者其他音频设备来实现；

4、语音识别模块：所述语音识别模块搭载于识别设备或识别软件，基于动态时间规整算法实现语音识别，得出语音中所包含的文字、信息和指令；

5、硬件设备：所述硬件设备是展示系统中不可或缺的重要组成部分，为系统提供物理的硬件支持，并将软件程序封装在物理部件上，可通过接收指定，控制硬件操作来实现展示功能；

6、交互模块：所述交互模块用于实现语音识别模块与硬件设备之间的数据传递和交流活动。

7、进一步的，所述语音识别模块具体包括：

8、信号处理单元：通过vad技术检测当前音频信号中是否包含语音信号存在，对输入信号进行判断，将语音信号与各种背景噪声信号区分出来，采用不同的处理方法分别对两种信号进行处理；

9、特征提取单元：除去语音信号中对于语音识别无用的信息，保留能够反映语音本质特征的关键信息，对其进行处理，再用特定的形式表示出来，以便后续的进一步处理；

10、语音建模单元：使用提取到的特征数据建立语音模型，所述语音模型包括但不限于基于概率的隐马尔可夫模型或者深度学习模型，且深度学习模型包括但不限于循环神经网络、卷积神经网络；

11、语音识别单元：将待识别的语音特征序列输入到语音模型中，通过对比模型中的候选词和输入的语音特征，进行匹配识别，得出识别结果；

12、解码处理单元：在得到识别结果后，对识别结果进行修正，并对修正后的识别结果进行解码，获得指令。

13、进一步的，所述信号处理单元的信号处理包括：

14、语音信号处理：利用动态时间规整算法将语音信号进行伸长或缩短直到与标准模式的长度一致；

15、噪声信号处理：利用降噪算法去除背景噪声信号，且降噪算法至少包括自适应滤波器、谱减法、维纳滤波法的其中一种。

16、进一步的，所述动态时间规整算法的原理是一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序，其中各音素持续时间的长短与音素本身以及音频的状况有关，通过动态时间规整算法对语音信号进行拉伸或收缩，实现语音信号的非线性地扭曲，使其与标准模式的长度一致。

17、进一步的，所述动态时间规整算法使用数学表达如下：

18、d(i,j)＝dist(i,j)+min[d(i-1,j),d(i,j-1),d(i-1,j-1)]

19、其中，i＝1、2、…、x_len+1；j＝1、2、…、y_len+1。

20、进一步的，所述解码处理单元的修正操作包括但不限于对重复单词进行去除、语言模型的后处理。

21、进一步的，所述交互模块具体包括：

22、第一交互单元：实现数据从语音识别模块到硬件设备的单向传递；

23、第二交互单元：实现数据从硬件设备到语音识别模块的单向传递；

24、数据传输单元：按照一定的规程，通过无线或有线传输手段将数据从数据源传输到数据终端，以支撑第一交互单元和第二交互单元的数据传输和交换工作。

25、进一步的，所述第一交互单元具体包括：

26、指令识别子单元：基于语音识别结果识别语音信息所包含的指令内容，调取对应的展示内容；

27、设备选择子单元：结合展示形式需求，为展示内容选择合适的硬件设备；

28、展示控制子单元：控制展示内容出现在硬件设备上，利用硬件设备呈现展示内容。

29、进一步的，所述第二交互单元具体包括：

30、信号监测子单元：用于监测硬件设备的信号接收情况；

31、设备监测子单元：用于监测硬件设备运行情况以及各项功能的使用情况；

32、信息反馈子单元：将监测所得的硬件设备相关信息反馈给语音识别模块。

33、进一步的，所述动态语音识别交互软件展示系统的使用流程如下：

34、步骤一、音频获取模块通过麦克风或者其他音频设备实时获取包含语音的音频数据，并发送给语音识别模块；

35、步骤二、语音识别模块的信号处理单元接收音频数据后，通过vad技术检测语音信号存在，并将语音信号与各种背景噪声信号进行区分，利用动态时间规整算法将语音信号进行处理，再通过特征提取单元将反映语音本质特征的关键信息用特定的形式表示出来，然后语音建模单元基于特征数据建立语音模型，并利用语音识别单元匹配识别语音特征，得出识别结果，经解码处理单元对识别结果进行修正、解码后，获得指令；

36、步骤三、交互模块的第一交互单元触发，指令识别子单元基于语音识别结果识别语音信息所包含的指令内容，调取对应的展示内容，然后设备选择子单元将结合展示形式需求，为展示内容选择合适的硬件设备，再由展示控制子单元控制展示内容出现在硬件设备上，利用硬件设备呈现展示内容；

37、步骤四、交互模块的第二交互单元触发，通过信号监测子单元监测硬件设备的信号接收是否稳定，并通过设备监测子单元监测硬件设备运行是否正常，以及各项功能的使用是否正常，再经由信息反馈子单元将监测所得的硬件设备相关信息反馈给语音识别模块。

38、本发明提供了一种动态语音识别交互软件展示系统，具备以下有益效果：

39、本发明设置有音频获取模块，可通过麦克风或者其他音频设备实时获取包含语音的音频数据，然后利用搭载于识别设备或识别软件的语音识别模块对音频数据进行语音识别处理，基于动态时间规整算法精准识别出语音内容，以便通过交互模块实现与硬件设备之间的数据传递和交流活动，该系统通过动态语音识别，与其他展示形式的硬件设备进行交互，在识别到对应指令的时候，控制对应的展示内容出现在硬件设备上，简化了展示流程，同时通过硬件设备对语音识别模块的交互反馈，保障了展示过程的稳定性。