技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于泊位视频采集的语音互动系统的制作方法 > 正文

用于泊位视频采集的语音互动系统的制作方法

国知局
2024-06-21 11:29:46

本技术涉及语音互动领域，且更为具体地，涉及一种用于泊位视频采集的语音互动系统。

背景技术：

1、在现代城市生活中，随着汽车数量的不断增加，停车泊位是不可或缺的一部分。停车泊位是指专门为停放车辆而设置的空间，它不仅考虑了车辆的长度和宽度，还包括了车门打开所需的空间以及与相邻车辆或建筑物之间的安全间隙。

2、当我们驾驶车辆在停车泊位进行停车时，我们通常会依靠后视镜来辅助我们停车。然而，这种方法存在一个缺点，当车辆停靠离停车泊位的边缘白线特别近时，车辆会与两边停靠的车相距太近，导致上下车时打开车门变得不方便。

3、因此，需要一种用于泊位视频采集的语音互动方案。

技术实现思路

1、为了解决上述技术问题，提出了本技术。本技术的实施例提供了一种用于泊位视频采集的语音互动系统，其首先采集驾驶员的语音输入以及汽车在停泊位的行为状态监控视频，接着提取出驾驶员的语音控制指令特征以及汽车的相关停车行为特征，然后将所述驾驶员的语音控制指令特征以及所述汽车的相关停车行为特征进行融合以得到汽车调整指令相关特征，最后将所述汽车调整指令相关特征进行优化后输入到生成器中以生成语音信号，所述语音信号用来指导驾驶员该如何操作以使停车的位置更加合适。这样，给停车提供了更多的信息辅助，使得停车过程更加方便和准确。

2、根据本技术的一个方面，提供了一种用于泊位视频采集的语音互动系统，其包括：

3、数据获取模块，用于获取来自驾驶员的语音输入以及汽车在停泊位的行为状态监控视频；

4、语音识别模块，用于对所述语音输入进行语音识别以得到控制指令文本；

5、控制指令上下文理解模块，用于对所述控制指令文本进行分词处理后通过基于转换器的上下文编码器以得到控制指令语义特征向量；

6、采样模块，用于对所述行为状态监控视频进行采样以得到多个行为状态监控关键帧；

7、行为状态特征提取模块，用于将所述多个行为状态监控关键帧输入使用空间注意力机制的卷积神经网络模型以得到多个行为状态特征矩阵；

8、行为模式编码模块，用于将所述多个行为状态特征矩阵聚合为三维输入张量后通过基于三维卷积神经网络的行为模式特征提取器以得到行为模式时序特征图；

9、池化模块，用于对所述行为模式时序特征图进行沿通道维度的各个特征矩阵池化以得到行为模式时序特征向量；

10、融合模块，用于对所述控制指令语义特征向量和所述行为模式时序特征向量进行融合以得到汽车调整指令特征向量；

11、优化模块，用于对所述汽车调整指令特征向量进行基于秩序性的插值匹配以得到优化汽车调整指令特征向量；

12、语音提示模块，用于将所优化述汽车调整指令特征向量通过生成器以生成语音信号，所述语音信号用来提示驾驶员所述汽车需要调整的方向。

13、在上述用于泊位视频采集的语音互动系统中，所述控制指令上下文理解模块，包括：分词单元，用于对所述控制指令文本进行分词处理以获得多个控制指令词；词嵌入单元，用于将所述多个控制指令词通过嵌入层以将所述多个控制指令词中各个控制指令词转化为控制指令词嵌入向量以得到控制指令词嵌入向量的序列，其中，所述嵌入层使用可学习的嵌入矩阵对所述各个控制指令词进行嵌入编码；上下文语义编码单元，用于将所述控制指令词嵌入向量的序列输入所述基于转换器的上下文编码器以得到多个控制指令特征向量；级联单元，用于将所述多个控制指令特征向量进行级联以得到所述控制指令语义特征向量。

14、在上述用于泊位视频采集的语音互动系统中，所述采样模块，用于：以预定采样频率对所述行为状态监控视频进行采样以得到所述多个行为状态监控关键帧。

15、在上述用于泊位视频采集的语音互动系统中，所述行为状态特征提取模块，包括：卷积编码单元，用于将所述多个行为状态监控关键帧分别通过所述卷积神经网络模型的卷积编码部分以得到多个高维特征图；空间注意力单元，用于将所述多个高维特征图中各个高维特征图分别输入所述卷积神经网络模型的空间注意力部分以得到多个空间注意图；注意力施加单元，用于分别计算所述多个空间注意图和所述多个高维特征图中每组对应的高维特征图之间的按位置点乘以得到多个行为状态特征图；降维单元，用于对所述多个行为状态特征图进行沿通道维度的池化以得到所述多个行为状态特征矩阵。

16、在上述用于泊位视频采集的语音互动系统中，所述行为模式编码模块，用于：使用所述基于三维卷积神经网络的行为模式特征提取器的各层在层的正向传递过程中分别对输入数据进行：基于三维卷积核对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的各个特征矩阵池化以得到池化特征图；对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于三维卷积神经网络的行为模式特征提取器的最后一层的输出为所述弯曲成型监控变化特征向量，所述基于三维卷积神经网络的行为模式特征提取器的第一层的输入为所述三维输入张量。

17、在上述用于泊位视频采集的语音互动系统中，所述融合模块，用于：以如下融合公式来融合所述控制指令语义特征向量和所述行为模式时序特征向量以得到所述汽车调整指令特征向量；其中，所述融合公式为：

18、

19、其中，表示所述控制指令语义特征向量，表示所述行为模式时序特征向量，表示级联函数，表示所述汽车调整指令特征向量。

20、在上述用于泊位视频采集的语音互动系统中，所述优化模块，包括：向量切分单元，用于对所述汽车调整指令特征向量进行向量切分以得到多个汽车调整指令特征局部特征向量；像素嵌入编码单元，用于将所述多个汽车调整指令特征局部特征向量分别通过基于全连接层的像素嵌入编码器以得到多个汽车调整指令特征局部像素级特征向量；汽车调整指令特征上下文编码单元，用于将所述多个汽车调整指令特征局部像素级特征向量通过基于转换器模块的上下文语义编码器以得到多个上下文汽车调整指令特征局部像素级特征向量；秩序性量化概率值生成单元，用于将所述多个上下文汽车调整指令特征局部像素级特征向量通过softmax函数值以得到多个秩序性量化概率值；归一化处理单元，用于对所述多个秩序性量化概率值进行归一化处理以得到多个秩序性匹配权重值；加权单元，用于以所述多个秩序性匹配权重值作为权重，并分别对所述汽车调整指令特征向量的各个汽车调整指令特征局部特征向量进行加权以得到所述优化汽车调整指令特征向量。

21、在上述用于泊位视频采集的语音互动系统中，所述生成器包含多个相互级联的反卷积层。

22、根据本技术的另一方面，提供了一种用于泊位视频采集的语音互动方法，其包括：

23、获取来自驾驶员的语音输入以及汽车在停泊位的行为状态监控视频；

24、对所述语音输入进行语音识别以得到控制指令文本；

25、对所述控制指令文本进行分词处理后通过基于转换器的上下文编码器以得到控制指令特征向量；

26、对所述行为状态监控视频进行采样以得到多个行为状态监控关键帧；

27、将所述多个行为状态监控关键帧输入使用空间注意力机制的卷积神经网络模型以得到多个行为状态特征矩阵；

28、将所述多个行为状态特征矩阵聚合为三维输入张量后通过基于三维卷积神经网络的行为模式特征提取器以得到行为模式时序特征图；

29、对所述行为模式时序特征图进行沿通道维度的各个特征矩阵池化以得到行为模式时序特征向量；

30、对所述控制指令特征向量和所述行为模式时序特征向量进行融合以得到汽车调整指令特征向量；

31、对所述汽车调整指令特征向量进行基于秩序性的插值匹配以得到优化汽车调整指令特征向量；

32、将所述优化汽车调整指令特征向量通过生成器以生成语音信号，所述语音信号用来提示驾驶员所述汽车需要调整的方向。

33、根据本技术的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于泊位视频采集的语音互动方法。

34、根据本技术的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于泊位视频采集的语音互动方法。

35、与现有技术相比，本技术提供的用于泊位视频采集的语音互动系统，其首先采集驾驶员的语音输入以及汽车在停泊位的行为状态监控视频，接着提取出驾驶员的语音控制指令特征以及汽车的相关停车行为特征，然后将所述驾驶员的语音控制指令特征以及所述汽车的相关停车行为特征进行融合以得到汽车调整指令相关特征，最后将所述汽车调整指令相关特征进行优化后输入到生成器中以生成语音信号，所述语音信号用来指导驾驶员该如何操作以使停车的位置更加合适。这样，给停车提供了更多的信息辅助，使得停车过程更加方便和准确。