技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种智能巡店方法、装置、存储介质和电子设备与流程 > 正文

一种智能巡店方法、装置、存储介质和电子设备与流程

国知局
2024-07-31 22:50:57

本技术涉及人工智能技术，特别涉及一种智能巡店方法、装置、存储介质和电子设备。

背景技术：

1、随着人工智能以及视频采集和处理技术的进步，远程视频巡店系统得到了越来越广泛的应用。

2、在远程视频巡店中，利用人工智能技术，通过视频，可以自动检测出事先定义好的关注事件。例如，在餐饮店经营活动中，经营者对店内的各项卫生清洁、食品产品品质、服务质量等需要进行巡检检查，其中比如未带厨师帽，未穿厨师服等一些具体事件检查目前可以通过视频巡店来自动实现，具体地，可以利用事先训练好的物体检测模型检测对应的未带厨师帽或未穿厨师服的目标，输出对应的报警信息，从而能够帮助节省人工，提升巡检效率。

3、但是对于一些开放性的事件，目前的智能巡店系统还不能很好的处理，比如通过视频判断后厨场景中是否有交叉污染事件发生，由于交叉污染事件是一个概念定义，没有直接明确的具象表示，现有的巡店系统很难取得一个好的效果。

技术实现思路

1、本技术提供一种智能巡店方法、装置、存储介质和电子设备，能够针对开放性事件实现远程智能巡检。

2、为实现上述目的，本技术采用如下技术方案：

3、一种智能巡店方法，包括：

4、基于采集的当前图像数据，利用多模态模型生成对应于所述当前图像数据的文本描述；

5、将所述文本描述和巡检问题组成输入问题，利用针对所述巡店场景训练生成的场景大语言模型，对所述输入问题进行处理，生成对应所述输入问题的目标答案；

6、基于所述目标答案进行问题上报和提醒；

7、其中，所述场景大语言模型是基于所述巡店场景的巡店规则在通用大语言模型基础上调优生成的，所述巡店规则至少包括开放性事件对应的规则。

8、较佳地，在所述利用多模态模型生成对应于所述图像数据的文本描述之前，该方法还包括：

9、基于所述当前图像数据，生成一个或多个子区域图像；

10、所述利用多模态模型生成对应于所述图像数据的文本描述，包括：

11、将所述当前图像数据输入所述多模态模型，生成对应于所述当前图像数据的全局文本描述；

12、将每个子区域图像输入所述多模态模型，生成对应于所述子区域图像的区域文本描述。

13、较佳地，生成所述子区域图像的方式包括：

14、利用针对巡店场景训练生成的场景视觉检测模型，对采集的当前图像数据进行视觉检测，生成图像检测结果；针对所述当前图像数据，基于所述图像检测结果中识别出的不同实体间的位置关系，进行位置上的去重合并，生成所述子区域图像；

15、和/或，

16、在所述当前图像数据的图像帧中按照系统设置的区域划分方式，划分出固定区域的图像作为所述子区域图像；

17、和/或，

18、在所述当前图像数据的图像帧中按照与外部输入进行交互所确定的区域划分方式，划分出固定区域的图像作为所述子区域图像。

19、较佳地，基于预先设定的人工规则区域对通用多模态模型进行调优生成所述多模态模型；

20、所述利用多模态模型生成对应于所述图像数据的文本描述，包括：利用调优生成的多模态模型，对所述当前图像数据和图像检测结果进行处理，生成所述文本描述，所述文本描述中包括所述人工设定区域内存在实体的文本描述。

21、较佳地，当所述文本描述包括多个子文本描述时，所述将所述文本描述和巡检问题组成输入问题，包括：

22、将每个所述子文本描述分别与所有巡检问题中的每一个进行组合，得到所述输入问题；

23、或者，将每个所述子文本描述与每个巡检问题进行匹配，匹配成功的子文本描述和巡检问题进行组合，得到所述输入问题；

24、或者，将多个子文本描述拼接成一个文本描述，分别与所有巡检问题中的每一个进行组合，得到所述输入问题。

25、较佳地，所述将每个所述子文本描述与每个巡检问题进行匹配，包括：

26、对每个所述子文本描述进行特征提取，得到子文本特征；

27、将每个巡检问题进行特征提取，得到巡检问题特征；

28、将所述子文本特征和所述巡检问题特征进行相似度比较，确定相似度大于或等于设定阈值的子文本特征和巡检问题特征对所对应的子文本描述和巡检问题匹配成功。

29、较佳地，生成所述文本描述的置信度是基于所述图像检测结果的置信度和所述多模态模型输出的置信度确定的。

30、一种智能巡店装置，包括：多模态处理单元、大语言模型处理单元和上报单元；

31、所述多模态处理单元，用于基于采集的当前图像数据，利用多模态模型生成对应于所述当前图像数据的文本描述；

32、所述大语言模型处理单元，用于将所述文本描述和巡检问题组成输入问题，利用针对所述巡店场景训练生成的大语言模型，对所述输入问题进行处理，生成对应所述输入问题的目标答案；

33、所述上报单元，用于基于所述目标答案进行问题上报和提醒；

34、其中，所述大语言模型是基于所述巡店场景的巡店规则在通用大语言模型基础上调优生成的，所述巡店规则至少包括开放性事件对应的规则。

35、较佳地，该装置还包括子区域图像生成单元，用于基于所述当前图像数据，生成一个或多个子区域图像；

36、在所述多模态处理单元中，所述利用多模态模型生成对应于所述图像数据的文本描述，包括：

37、将所述当前图像数据输入所述多模态模型，生成对应于所述当前图像数据的全局文本描述；

38、将每个子区域图像输入所述多模态模型，生成对应于所述子区域图像的区域文本描述。

39、较佳地，所述装置进一步包括视觉检测单元，用于利用针对巡店场景训练生成的视觉检测模型，对采集的图像数据进行视觉检测，生成图像检测结果；

40、在所述子区域图像生成单元中，

41、针对所述当前图像数据，基于所述图像检测结果中识别出的不同实体间的位置关系，进行位置上的去重合并，生成所述子区域图像；和/或，

42、在所述当前图像数据的图像帧中按照系统设置的区域划分方式，划分出固定区域的图像作为所述子区域图像；和/或，

43、在所述当前图像数据的图像帧中按照与外部输入进行交互所确定的区域划分方式，划分出固定区域的图像作为所述子区域图像。

44、较佳地，所述多模态模型是基于预先设定的人工规则区域对通用多模态模型进行调优生成的；

45、在所述多模态处理单元中，所述利用多模态模型生成对应于所述图像数据的文本描述，包括：利用调优生成的多模态模型，对所述当前图像数据和图像检测结果进行处理，生成所述文本描述，所述文本描述中包括所述人工设定区域内存在实体的文本描述。

46、较佳地，当所述文本描述包括多个子文本描述时，在所述大语言模型处理单元中，所述将所述文本描述和巡检问题组成输入问题，包括：

47、将每个所述子文本描述分别与所有巡检问题中的每一个进行组合，得到所述输入问题；

48、或者，将每个所述子文本描述与每个巡检问题进行匹配，匹配成功的子文本描述和巡检问题进行组合，得到所述输入问题；

49、或者，将多个子文本描述拼接成一个文本描述，分别与所有巡检问题中的每一个进行组合，得到所述输入问题。

50、较佳地，在所述大语言模型处理单元中，所述将每个所述子文本描述与每个巡检问题进行匹配，包括：

51、对每个所述子文本描述进行特征提取，得到子文本特征；

52、将每个巡检问题进行特征提取，得到巡检问题特征；

53、将所述子文本特征和所述巡检问题特征进行相似度比较，确定相似度大于或等于设定阈值的子文本特征和巡检问题特征对所对应的子文本描述和巡检问题匹配成功。

54、一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现上述任一项所述的智能巡店方法。

55、一种电子设备，该电子设备至少包括计算机可读存储介质，还包括处理器；

56、所述处理器，用于从所述计算机可读存储介质中读取可执行指令，并执行所述指令以实现上述任一项所述的智能巡店方法。

57、由上述技术方案可见，本技术中，首先基于采集的图像数据，利用多模态模型生成对应图像数据的文本描述，将图像信息转换为文本信息；接下来，将该文本描述和巡检问题组合为输入问题，利用针对巡店场景生成的场景大语言模型对输入问题进行处理，生成对应于巡检问题的目标答案，例如文本描述的内容是否符合巡检问题所限定的违规操作等；这里的场景大语言模型是基于巡店场景的各类巡店规则在通用大语言模型基础上调优生成的，且巡店规则中包括开放性事件对应的规则，由此训练生成的场景大语言模型可以有效识别开放性事件；最后，再基于目标答案进行针对巡检问题的上报和提醒。通过上述处理，首先通过多模态模型将视觉检测结果转换为文本描述，再利用巡检大语言模型对于包括开放性事件在内的各类文本描述事件的识别能力，对图像的文本描述和巡检问题进行处理，得出是否存在巡检问题（包括开放性事件涉及的问题）的答案，从而能够在智能巡店时实现对包括开放性事件在内的各类巡检问题的有效识别和上报。