一种用于机械狗的低算力边缘计算语音识别方法与流程
- 国知局
- 2024-06-21 11:28:46
本发明涉及语音识别方法,具体涉及一种用于机械狗的低算力边缘计算语音识别方法。
背景技术:
1、随着人工智能(ai)和边缘计算的迅速发展,将其融合应用于语音识别领域,为移动设备和物联网设备带来了创新机遇。现有语音识别技术在云端运算中取得了巨大成功,但其依赖于网络连接和传输延迟问题,仍然存在同时需要需要大量的网络带宽和时间。而在边缘计算设备上实现高准确性的语音识别仍然具有挑战性,其通常受限于计算能力和能源消耗,如通常需要使用jeston xavier系列设备进行实时识别,需要较大的资金成本;针对语音识别这个任务在深度学习领域通常使用大语音模型,再仅需要几十个限定词识别的场景中识别的准确率以及识别速度不占优势,而对于常见的一些简单模型实现这个功能时在识别速率和准确率上仍然有待提升。而在机械狗需要长距离行走同时需要较大的深度学习模型计算时会消耗较多资源,容易导致续航不足。
技术实现思路
1、本发明旨在提供一种用于机械狗的低算力边缘计算语音识别方法,在保证最少的算力消耗下以实现高效、快速、准确的语音识别进而控制机械狗运动形态的智能切换,降低对机械狗能源的消耗。
2、实现本发明目的的技术解决方案为:
3、一种用于机械狗的低算力边缘计算语音识别方法,包括:
4、构建语音数据集;
5、构建基于卷积神经网络的语音识别模型,通过语音数据集训练,得到满足精度要求的语音识别模型和模型权重文件;
6、将语音识别模型和权重文件加载到边缘嵌入式计算设备,将机械狗搭载边缘嵌入式计算设备,将采集到的语音数据输入至语音识别模型,进行语音识别,基于识别出的指令控制机械狗运作。
7、进一步地,构建语音数据集具体包括:
8、收集不同人对限定语音词的语音组成样本集;
9、将样本集中的所有语音从速度、音量、音色方面进行数据增强;
10、利用python对样本中每段语音进行标注,设置标签并生成标注文件,进而得到语音数据集。
11、进一步地,所述语音识别模型包括输入层、7层卷积层、最大池化层、全连接层、softmax层和输出层,其中7层卷积层设计为:
12、第一层卷积层有32个输出通道,每个通道使用90个长度的卷积核,步幅为6;
13、第二层卷积层有64个输出通道,每个通道使用31个长度的卷积核,步幅为6;
14、第三层卷积层有128个输出通道,每个通道使用11个长度的卷积核,步幅为3;
15、第四层卷积层有256个输出通道,每个通道使用7个长度的卷积核,步幅为2;
16、第五层卷积层有512个输出通道,每个通道使用5个长度的卷积核,步幅为2;
17、第六层卷积层有1024个输出通道,每个通道使用3个长度的卷积核,步幅为2;
18、第七层卷积层有2048个输出通道,每个通道使用2个长度的卷积核,步幅为2;
19、经过每层卷积层的卷积后,采用激活函数和批量归一化进行数据处理。
20、进一步地,所述激活函数为:
21、f(x)=x erf(lg(1+ex))
22、其中,erf为误差函数,具体为:
23、
24、其中,e代表自然对数的底数,t表示积分变量。
25、进一步地,所述语音识别模型训练时通过exponentiallr策略调整模型参数。
26、进一步地,所述边缘嵌入式计算设备包括处理器、存储器、wifi模块和控制器,所述处理器通过语音识别模型和权重文件进行语音识别,将识别的指令传输给控制器,控制器控制机器狗进行相应行动,所述存储器用于存储数据,wifi模块用于边缘嵌入式计算设备与外围设备的交互。
27、进一步地,所述wifi模块采用2.4ghz无线收发器模块,处理器采用arm cortex系列,控制器采用arduino。
28、进一步地,所述语音数据的采样率为22050。
29、进一步地,所述语音数据通过触屏控制设备采集,采集数据通过wifi模块传入到处理器,同时触屏控制设备显示语音识别结果。
30、进一步地,所述机械狗的脚底装置采用防爆胎,并通过独立的电机进行控制,可根据路况灵活切换运动形态减少能源消耗的同时可以降低机械狗行动噪音。
31、与现有技术相比,本发明的有益效果为:
32、(1)通过本发明设计的神经网络结构,可以实现快速、高准确性的语音识别,降低了边缘设备上推理的功耗,且识别时不需要对采集数据预处理,仅需解码为一维数据输入到模型即可,通过设计的激活函数,产生更好的表现力和改进的梯度流,避免了奇点和伴随的不良影响;
33、(2)机械狗的脚底装置采用防爆胎,并通过独立的电机进行控制,可根据路况灵活切换运动形态减少能源消耗的同时可以降低机械狗行动噪音;
34、(3)结合带有限定词语音识别的低算力嵌入式设备和发明的机械狗运动模式相互结合,为用户提供良好的交互体验;
35、(4)机械狗的每只脚通过内外电机进行独立控制,起到节省能源的作用。
技术特征:1.一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,包括:
2.根据权利要求1所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,构建语音数据集具体包括:
3.根据权利要求1所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述语音识别模型包括输入层、7层卷积层、最大池化层、全连接层、softmax层和输出层,其中7层卷积层设计为:
4.根据权利要求3所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述激活函数为:
5.根据权利要求1所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述语音识别模型训练时通过exponentiallr学习策略调整模型参数。
6.根据权利要求1所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述边缘嵌入式计算设备包括处理器、存储器、wifi模块和控制器,所述处理器通过语音识别模型和权重文件进行语音识别,将识别的指令传输给控制器,控制器控制机器狗进行相应行动,所述存储器用于存储数据,wifi模块用于边缘嵌入式计算设备与外围设备的交互。
7.根据权利要求6所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述wifi模块采用2.4ghz无线收发器模块,处理器采用arm cortex系列,控制器采用arduino。
8.根据权利要求1所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述语音数据的采样率为22050。
9.根据权利要求8所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述语音数据通过触屏控制设备采集,采集数据通过wifi模块传入到处理器,同时触屏控制设备显示语音识别结果。
10.根据权利要求1~9任一所述的一种用于机械狗的低算力边缘计算语音识别方法,其特征在于,所述机械狗的脚底装置采用防爆胎,机械狗的每只脚并通过独立的内、外电机进行控制,内电机控制轮胎制动,外电机控制机械狗的行走。
技术总结本发明涉及一种用于机械狗的低算力边缘计算语音识别方法,包括:构建语音数据集;构建基于卷积神经网络的语音识别模型,通过语音数据集训练,得到满足精度要求的语音识别模型和模型权重文件;将语音识别模型和权重文件加载到边缘嵌入式计算设备,将机械狗搭载边缘嵌入式计算设备,将采集到的语音数据输入至语音识别模型,进行语音识别,基于识别出的指令控制机械狗运作。本发明旨在减小机械狗身上的计算资源,使其再接受语音信号后能更加快速、准确的做出相应指令,同时针对轮足式机械狗设置两种运动形态,进而起到节能作用,通过语音识别进而高效控制机械狗的运转。技术研发人员:何龙,刘珂,吴其军,管晨禹,任敬伟,庞景壮,杨奔受保护的技术使用者:杭州智元研究院有限公司技术研发日:技术公布日:2024/2/19本文地址:https://www.jishuxx.com/zhuanli/20240618/21733.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。