技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音控制方法及系统 > 正文

一种语音控制方法及系统

国知局
2024-06-21 11:44:45

本申请实施例涉及但不限于语音识别，尤其涉及一种语音控制方法及系统。

背景技术：

1、随着当下人工智能技术的发展，很多智能技术已经有了成熟的应用，例如语音识别、ocr文字识别、智能家居等。这些技术的应用在无形之中推动了人们生活方式的改变，既可以对家电下达指令控制家电的操作，还能通过智能产品了解信息甚至可以与之交谈。

2、目前已有的智能办公桌系统主要集中在坐姿检测、环境检测和人体工学设计方面，无法深层次地满足用户的多元化需求。随着信息技术的发展，人们很多工作都越来越离不开电脑，因而使用办公桌的时间不断加长，使得享受生活的时间不断减少。经过调查，人们在工作和学习的过程有很大部分都使用在了查找资料、翻译文献、编辑文档上，而在进行这些功能操作时，都是需要用户手动不断来回翻阅、查找和修改，如此，往往需要在上面耗费大量的时间。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请实施例提供了一种语音控制方法及系统，能够通过语音指令调用智能系统中的程序去执行对应的功能，从而提高用户的工作效率，提升用户体验。

3、第一方面，本申请实施例提供了一种语音控制方法，包括：获取麦克风所采集的语音信息；根据所述语音信息启用识别模式，其中，所述识别模式包括以下之一：在线识别模式和离线识别模式；根据所述识别模式，将所述语音信息转化为文字信息，并从所述文字信息识别出关键词信息；根据所述关键词信息执行指令操作，其中，所述指令操作包括拍照翻译指令、文字提取指令、获取天气信息指令和物联网控制指令。

4、结合第一方面，在本申请一实施例中，所述根据所述语音信息启用识别模式，包括：根据所述语音信息调用本地的唤醒词检测引擎；通过所述唤醒词检测引擎检测所述语音信息，得到检测结果；根据所述检测结果，启用离线识别模式。

5、结合第一方面，在本申请一实施例中，所述根据所述检测结果，启用离线识别模式，包括：当所述检测结果表示所述语音信息包含唤醒词，执行离线识别模式中的录音操作。

6、结合第一方面，在本申请一实施例中，所述唤醒词检测引擎按照以下步骤训练得到：获取唤醒词语音；将所述唤醒词语音上传至服务器，以使所述服务器通过所述唤醒词语音对初始唤醒词模型进行训练，得到目标唤醒词模型；从所述服务器下载所述目标唤醒词模型替换本地模型，得到唤醒词检测引擎。

7、结合第一方面，在本申请一实施例中，所述将所述语音信息转化为文字信息，包括：提取所述语音信息中的特征参数；将所述特征参数与语音模板库进行匹配，从所述语音模板库得到与所述语音信息对应的文字信息。

8、结合第一方面，在本申请一实施例中，当所述关键词信息表示所述语音信息不存在关键词，所述根据所述关键词信息执行指令操作，包括：发送所述文字信息至图灵机器人平台，以使所述图灵机器人平台根据所述文字信息生成文字回答；接收所述图灵机器人平台所发送的文字回答，向所述语音合成平台发送所述文字回答，以使所述语音合成平台将所述文字回答合成并转化，得到语音文件；接收所述语音合成平台所发送的语音文件，播放所述语音文件。

9、结合第一方面，在本申请一实施例中，当所述关键词识别结果为所述语音文字中存在关键词，所述根据所述关键词信息执行指令操作，包括：调用与所述关键词对应的程序。

10、结合第一方面，在本申请一实施例中，所述语音合成平台按照以下方式进行训练得到：获取语音数据集，对所述语言数据集进行提取，得到语音数据和文本数据；对所述语音数据进行特征提取，得到声学特征；对所述文本数据进行前端处理，构建语言特征；将所述声学特征和所述语言特征进行深度训练，生成回归模型；根据所述回归模型生成语音合成平台。

11、结合第一方面，在本申请一实施例中，所述语音合成平台将所述文字回答合成并转化，得到语音文件，包括：将经过前端处理的所述语言特征输入所述回归模型，生成相应的声学特征；通过波形机构将所述相应的声学特征进行合成，得到对应的语音文件。

12、第二方面，本申请实施例提供了一种语音控制系统，包括：麦克风，用于实时监听外部语音；语音识别模块，用于接收并识别所述外部语音，并将所述外部语音转化成对应的语音文本；语音合成模块，用于生成并合成所述外部语音对应的语音文件；执行模块，用于根据所述语音文本的关键词，执行对应的指令操作；其中，所述指令操作包括拍照翻译指令、文字提取指令、获取天气信息指令和物联网控制指令。

13、本申请实施例提供的语音控制方法及系统，通过获取麦克风所采集的语音信息，然后根据采集到的语音信息启用识别模式，其中，识别模式包括以下之一：在线识别模式和离线识别模式；接着根据启用的识别模式，将该语音信息转化为文字信息，并从文字信息识别出关键词信息，然后根据关键词信息执行相应的指令操作，其中，所述指令操作至少可以包括拍照翻译、文字提取、获取天气信息、物联网的控制等。本申请能够通过语音指令调用智能系统中的程序去执行对应的功能，有效地提高用户的工作效率，从而进一步满足用户日常工作、学习的需求，提升用户体验。

技术特征：

1.一种语音控制方法，其特征在于，包括：

2.根据权利要求1所述的语音控制方法，其特征在于，所述根据所述语音信息启用识别模式，包括：根据所述语音信息调用本地的唤醒词检测引擎；通过所述唤醒词检测引擎检测所述语音信息，得到检测结果；根据所述检测结果，启用离线识别模式。

3.根据权利要求2所述的语音控制方法，其特征在于，所述根据所述检测结果，启用离线识别模式，包括：当所述检测结果表示所述语音信息包含唤醒词，执行离线识别模式中的录音操作。

4.根据权利要求2所述的语音控制方法，其特征在于，所述唤醒词检测引擎按照以下步骤训练得到：获取唤醒词语音；将所述唤醒词语音上传至服务器，以使所述服务器通过所述唤醒词语音对初始唤醒词模型进行训练，得到目标唤醒词模型；从所述服务器下载所述目标唤醒词模型替换本地模型，得到唤醒词检测引擎。

5.根据权利要求1所述的语音控制方法，其特征在于，所述将所述语音信息转化为文字信息，包括：提取所述语音信息中的特征参数；将所述特征参数与语音模板库进行匹配，从所述语音模板库得到与所述语音信息对应的文字信息。

6.根据权利要求1所述的语音控制方法，其特征在于，当所述关键词信息表示所述语音信息不存在关键词，所述根据所述关键词信息执行指令操作，包括：发送所述文字信息至图灵机器人平台，以使所述图灵机器人平台根据所述文字信息生成文字回答；接收所述图灵机器人平台所发送的文字回答，向所述语音合成平台发送所述文字回答，以使所述语音合成平台将所述文字回答合成并转化，得到语音文件；接收所述语音合成平台所发送的语音文件，播放所述语音文件。

7.根据权利要求1所述的语音控制方法，其特征在于，当所述关键词识别结果为所述语音文字中存在关键词，所述根据所述关键词信息执行指令操作，包括：调用与所述关键词对应的程序。

8.根据权利要求6所述的语音控制方法，其特征在于，所述语音合成平台按照以下方式进行训练得到：获取语音数据集，对所述语言数据集进行提取，得到语音数据和文本数据；对所述语音数据进行特征提取，得到声学特征；对所述文本数据进行前端处理，构建语言特征；将所述声学特征和所述语言特征进行深度训练，生成回归模型；根据所述回归模型生成语音合成平台。

9.根据权利要求8所述的语音控制方法，其特征在于，所述语音合成平台将所述文字回答合成并转化，得到语音文件，包括：将经过前端处理的所述语言特征输入所述回归模型，生成相应的声学特征；通过波形机构将所述相应的声学特征进行合成，得到对应的语音文件。

10.一种语音控制的智能系统，其特征在于，包括：

技术总结本申请公开了一种语音控制方法及系统，包括：获取麦克风所采集的语音信息；根据所述语音信息启用识别模式，其中，所述识别模式包括以下之一：在线识别模式和离线识别模式；根据所述识别模式，将所述语音信息转化为文字信息，并从所述文字信息识别出关键词信息；根据所述关键词信息执行指令操作，其中，所述指令操作包括拍照翻译指令、文字提取指令、获取天气信息指令和物联网控制指令。本申请实施例能够通过语音指令调用智能系统中的程序去执行对应的功能，有效地提高用户的工作效率，从而进一步满足用户日常工作、学习的需求，提升用户体验。技术研发人员：胡贞华受保护的技术使用者：韶关学院技术研发日：技术公布日：2024/4/17