技术新讯 > 核算装置的制造及其应用技术 > 一种基于多模态深度学习的云值守便利店智能中控系统的制作方法 > 正文

一种基于多模态深度学习的云值守便利店智能中控系统的制作方法

国知局
2025-01-10 13:38:18

本发明涉及人工智能，具体为一种基于多模态深度学习的云值守便利店智能中控系统。

背景技术：

1、无人便利店是一种新型的零售模式，它在没有传统店员值守的情况下，通过先进的技术手段实现自助购物和运营管理。无人便利店通常通过摄像监控模块进行实时监控，利用先进的行为识别模块和算法，对顾客的行为进行分析，确保店铺的安全以及正常的购物秩序，通过门禁控制模块控制人员的进出，顾客可以通过扫码、刷脸等方式进入店铺。现有无人便利店的中控系统在行为识别准确率、交互方式和系统响应速度上存在技术瓶颈，具体表现为：一是行为识别准确率较低，无法有效应对复杂环境下的异常行为检测，如光照变化、遮挡等情况，导致误报率较高，影响了店铺的正常运营；二是交互方式较为单一，无法满足顾客多样化的需求；三是系统响应速度较慢，影响顾客体验。

技术实现思路

1、本发明的目的在于提供一种基于多模态深度学习的云值守便利店智能中控系统，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：一种基于多模态深度学习的云值守便利店智能中控系统，包括中控主机模块、门禁控制模块、数据采集模块、收银管理模块、语音交互模块、ai交互模块、行为识别模块和人工客服介入模块，所述中控主机模块分别与门禁控制模块、数据采集模块、收银管理模块、语音交互模块、ai交互模块、行为识别模块和人工客服介入模块建立数据连接，语音交互模块与ai交互模块建立数据连接，数据采集模块与行为识别模块建立数据连接。

3、优选的，所述门禁控制模块数据连接有电子门锁和身份识别设备，身份识别设备包括人脸识别摄像头和rfid读卡器，数据采集模块包括视频采集摄像头、深度传感器和加速度计。

4、优选的，所述收银管理模块包括自助收银设备、扫码器和重量传感器。

5、优选的，所述语音交互模块包括麦克风阵列和扬声器。

6、优选的，所述ai交互模块包括语音识别单元、自然语言理解单元和语音合成单元。

7、优选的，所述语音识别单元采用基于transformer的端到端语音识别，公式如下：

8、

9、其中，x为语音特征序列，y为识别的文本序列；

10、自然语言理解单元使用预训练的bert模型进行意图识别和槽位填充，公式如下：

11、intent,slots＝bert(y)

12、语音合成单元使用基于tacotron2的神经网络生成语音频谱图，经过waveglow生成语音波形，公式如下：

13、mel-spectrogram＝tacotron2(text)

14、audio＝waveglow(mel-spectrogram)。

15、优选的，所述语音识别单元包括特征提取子单元、transformer模型，自然语言理解单元包括意图识别子单元和槽位填充子单元，语音合成单元包括tacotron2模型和waveglow模型。

16、优选的，所述特征提取子单元用于提取梅尔频谱倒谱系数mfcc，公式如下：

17、mfcc＝dct(log(mel(stft(x))))

18、transformer模型包括编码器和解码器，公式如下：

19、编码器输出＝encoder(mfcc)

20、解码器输出＝decoder(编码器输出，历史输出)

21、意图识别子单元使用bert进行文本分类，公式如下：

22、intent＝softmax(wintent·bert(text)+bintent)

23、槽位填充子单元用于识别文本的关键信息，公式如下：

24、slots＝crf(bert(text))

25、tacotron2模型用于将文本转为语音频谱图，公式如下：

26、mel-spectrogram＝decoderrnn(encoderrnn(text))

27、waveglow模型用于将频谱图转为音频，公式如下：

28、audio＝waveglow(mel-spectrogram)。

29、优选的，所述行为识别模块包括数据预处理单元、时空特征提取单元、图卷积网络模型、多头自注意力机制单元和特征融合与分类单元。

30、优选的，所述数据预处理单元用于收集视觉、深度和传感器数据，进行同步处理，公式如下：

31、x＝{x视觉,x深度,x传感器}

32、时空特征提取单元在3d-cnn模型上引入残差连接和批量归一化，公式如下：

33、f时空＝batchnorm(relu(conv3d(x)+x))

34、图卷积网络模型基于人体关键点构建时空图，使用图卷积网络提取拓扑结构特征，构建时空图是用节点表示人体关系，边表示骨骼连接和时间序列关系，卷积计算公式如下：

35、

36、其中，ak为邻接矩阵，λk为度矩阵，wk为权重矩阵，σ为激活函数；

37、多头自注意力机制单元的公式如下：

38、

39、其中，q,k,v为查询、键、值矩阵，dk为键的维度；

40、特征融合与分类单元的公式如下：

41、f融合＝concat(f时空,fgcn,f注意力)

42、y＝softmax(wf融合+b)

43、其中，w和b为权重和偏置参数。

44、与现有技术相比，本发明的有益效果是：本发明的行为识别模块采用多模态数据融合和改进的深度学习算法，实现在复杂环境下对异常行为的高精度识别，引入多头自注意力机制有效减少了误报；ai交互模块采用基于深度学习的语音识别、自然语言处理和语音合成，提供了流畅的语音交互支持，满足顾客多样化的需求；通过采用边缘计算架构实现了毫秒级的系统响应，提升了顾客体验。

技术特征：

1.一种基于多模态深度学习的云值守便利店智能中控系统，包括中控主机模块(1)、门禁控制模块(2)、数据采集模块(3)、收银管理模块(4)、语音交互模块(5)、ai交互模块(6)、行为识别模块(7)和人工客服介入模块(8)，其特征在于：所述中控主机模块(1)分别与门禁控制模块(2)、数据采集模块(3)、收银管理模块(4)、语音交互模块(5)、ai交互模块(6)、行为识别模块(7)和人工客服介入模块(8)建立数据连接，语音交互模块(5)与ai交互模块(6)建立数据连接，数据采集模块(3)与行为识别模块(7)建立数据连接。

2.根据权利要求1所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述门禁控制模块(2)数据连接有电子门锁(21)和身份识别设备(22)，身份识别设备(22)包括人脸识别摄像头(221)和rfid读卡器(222)，数据采集模块(3)包括视频采集摄像头(31)、深度传感器(32)和加速度计(33)。

3.根据权利要求1所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述收银管理模块(4)包括自助收银设备(41)、扫码器(42)和重量传感器(43)。

4.根据权利要求1所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述语音交互模块(5)包括麦克风阵列(51)和扬声器(52)。

5.根据权利要求1所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述ai交互模块(6)包括语音识别单元(61)、自然语言理解单元(62)和语音合成单元(63)。

6.根据权利要求5所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述语音识别单元(61)采用基于transformer的端到端语音识别，公式如下：

7.根据权利要求6所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述语音识别单元(61)包括特征提取子单元(611)、transformer模型(612)，自然语言理解单元(62)包括意图识别子单元(621)和槽位填充子单元(622)，语音合成单元(63)包括tacotron2模型(631)和waveglow模型(632)。

8.根据权利要求7所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述特征提取子单元(611)用于提取梅尔频谱倒谱系数mfcc，公式如下：

9.根据权利要求1所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述行为识别模块(7)包括数据预处理单元(71)、时空特征提取单元(72)、图卷积网络模型(73)、多头自注意力机制单元(74)和特征融合与分类单元(75)。

10.根据权利要求9所述的一种基于多模态深度学习的云值守便利店智能中控系统，其特征在于：所述数据预处理单元(71)用于收集视觉、深度和传感器数据，进行同步处理，公式如下：

技术总结本发明公开了一种基于多模态深度学习的云值守便利店智能中控系统，包括中控主机模块、数据采集模块、语音交互模块、AI交互模块、行为识别模块和人工客服介入模块，所述中控主机模块分别与门禁控制模块、数据采集模块、收银管理模块、语音交互模块、AI交互模块、行为识别模块和人工客服介入模块建立数据连接；本发明的行为识别模块采用多模态数据融合和改进的深度学习算法，实现在复杂环境下对异常行为的高精度识别，引入多头自注意力机制有效减少了误报；AI交互模块采用基于深度学习的语音识别、自然语言处理和语音合成，提供了流畅的语音交互支持，满足顾客多样化的需求；通过采用边缘计算架构实现了毫秒级的系统响应，提升了顾客体验。技术研发人员：禇克庆,田玮,魏巍,魏言春受保护的技术使用者：吉林云投莱森购数字科技有限公司技术研发日：技术公布日：2025/1/6