技术新讯 > 计算推算,计数设备的制造及其应用技术 > 词典笔的图像处理方法、装置、存储介质以及电子设备与流程 > 正文

词典笔的图像处理方法、装置、存储介质以及电子设备与流程

国知局
2024-10-21 14:37:12

本技术涉及词典笔领域，尤其涉及一种词典笔的图像处理方法、装置、存储介质以及电子设备。

背景技术：

1、现有技术中，词典笔作为用户学习的工具，其上可以安装学习软件，通过学习软件，可以拍摄图像，并交由学习软件处理，从而对拍摄的图像进行翻译、提问等等。

2、然而，在使用学习软件的功能时，如果要在不同功能之间切换，则需要先退出当前功能，再打开另一个功能，然后调用相机拍摄并在该功能下识别图片，造成使用词典笔不同功能时，切换步骤繁琐。

技术实现思路

1、本技术提供了一种词典笔的图像处理方法、装置、存储介质以及电子设备，以解决使用词典笔不同功能时，切换步骤繁琐的技术问题。

2、第一方面，本技术提供了一种词典笔的图像处理方法，上述词典笔的显示屏上显示有第一图形用户界面，上述第一图形用户界面上显示有拍摄功能控件，该方法包括：响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述词典笔的第一图形用户界面上；在显示上述当前画面时，确定用户选择的上述当前画面的目标使用场景，其中，上述目标使用场景用于决定对上述当前画面拍摄得到的目标图像的处理功能；确定上述词典笔的与上述目标使用场景匹配的目标处理功能；在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理。

3、作为一种可选的示例，上述响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述第一图形用户界面上包括：在上述拍摄功能为全屏拍摄模式的情况下，检测上述当前画面在上述第一图形用户界面的边缘的边缘画面内容；在检测到上述边缘画面内容存在大量空白的情况下，自动将拍摄功能调整为非全屏拍摄模式；或者，在上述拍摄功能为非全屏拍摄模式的情况下，检测上述当前画面在上述第一图形用户界面的边缘的边缘画面内容；在检测到上述边缘画面内容中存在不完整的文字的情况下，自动将拍摄功能调整为全屏拍摄模式；或者，在接收到用户的调整指令时，将上述拍摄功能从非全屏拍摄模式调整为全屏拍摄模式或者从全屏拍摄模式调整为非全屏拍摄模式。

4、作为一种可选的示例，上述检测上述当前画面在上述第一图形用户界面的边缘的边缘画面内容包括：从上述第一图形用户界面的边缘向上述第一图形用户界面的中心划定预设距离；将划定范围内的当前画面确定为上述边缘画面内容；在检测到上述边缘画面内容中的空白区域占边缘画面内容的总区域的占比超出预设值时，确定上述边缘画面内容中包括大量空白；在检测到上述边缘画面内容中包括多个线条时，确定上述边缘画面内容中存在不完整的文字。

5、作为一种可选的示例，上述响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述第一图形用户界面第一图形用户界面上包括：通过上述词典笔的感应装置确定上述词典笔的当前姿态为横屏姿态或竖屏姿态；在姿态为上述横屏姿态时，将上述词典笔的第一图形用户界面上的提示信息以垂直于上述词典笔的底边的形式显示，其中，上述提示信息包括了上述第一图形用户界面上的提示词和上述第一图形用户界面上的可交互控件；或者，在姿态为上述竖屏姿态时，将上述词典笔的第一图形用户界面上的提示信息以水平于上述词典笔的底边的形式显示，其中，上述提示信息包括了上述第一图形用户界面上的提示词和上述第一图形用户界面上的可交互控件。

6、作为一种可选的示例，在拍摄得到上述目标图像后，上述方法还包括：检测上述目标图像中的文字方向与上述词典笔的姿态是否一致；在检测结果为不一致的情况下，自动旋转上述目标图像，以将上述文字方向调整为与上述词典笔的姿态一致。

7、作为一种可选的示例，上述在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理包括：在上述目标处理功能为拍照功能的情况下，保存上述目标图像；或者，在上述目标处理功能为翻译功能或问答功能或评价功能的情况下，自动框选出上述目标图像中的目标区域，并对上述目标区域进行识别，得到目标文本；由上述翻译功能或问答功能或评价功能对上述目标文本进行处理，并在上述第一图形用户界面中显示处理结果。

8、作为一种可选的示例，上述在上述目标处理功能为翻译功能或问答功能或评价功能的情况下，自动框选出上述目标图像中的目标区域包括：将上述目标图像按照上述目标使用场景进行标注；将标注后的上述目标图像输入到识别模型中，由上述识别模型标注出上述目标区域，其中，上述识别模型为预先使用样本数据训练的模型，上述样本数据为标注有上述目标使用场景的样本图像和框选出上述样本图像中的与上述目标使用场景匹配的样本区域的正样本组成的样本对，上述样本图像在不同的上述目标使用场景下被框选出的上述样本区域不同；或者，根据接收到的框选指令框选出上述目标区域。

9、作为一种可选的示例，在将上述目标图像按照上述目标使用场景进行标注之前，上述方法还包括：获取上述样本图像；为上述样本图像添加翻译标签或问答标签或评价标签；在上述样本图像添加的翻译标签时，框选上述样本图像中的文字字符；在上述样本图像添加的问答标签时，框选上述样本图像中的文本段；在上述样本图像添加的评价标签时，框选上述样本图像中的手写文本；将添加标签后的上述样本图像和框选后的上述样本图像作为一对样本对，训练上述识别模型。

10、作为一种可选的示例，上述在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理包括：在确定开启了连续拍摄模式的情况下，当拍摄得到上述目标图像时，继续通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述词典笔的第一图形用户界面上；当结束上述连续拍摄模式时，获取拍摄得到的多张目标图像；将上述多张目标图像拼接为一张长图；由上述目标处理功能对上述长图进行处理。

11、作为一种可选的示例，上述在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理包括：获取拍摄上述目标图像后输入的目标语音；在上述目标处理功能为翻译功能且上述目标语音中包括翻译范围时，对上述目标图像中的目标文本中处于上述翻译范围内的文本进行翻译；在上述目标处理功能为问答功能且上述目标语音中包括目标问题时，对上述目标图像中的目标文本按照上述目标问题提供回复结果；在上述目标处理功能为评价功能且上述目标语音中包括评价标准时，对上述目标图像中的目标文本按照上述评价标准提供评价结果。

12、作为一种可选的示例，上述词典笔的上述拍摄功能控件中配置有上述目标处理功能的插件，上述拍摄功能控件用于拍摄上述目标图像并通过调用上述目标处理功能的插件来对上述目标图像进行处理。

13、作为一种可选的示例，上述词典笔包括一个拍摄摄像头与一个扫描摄像头，上述响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面包括：通过上述拍摄摄像头采集上述当前画面。

14、第二方面，本技术提供了一种词典笔的图像处理装置，上述词典笔的显示屏上显示有第一图形用户界面，上述第一图形用户界面上显示有拍摄功能控件，该装置包括：采集模块，用于响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述词典笔的第一图形用户界面上；第一确定模块，用于在显示上述当前画面时，确定用户选择的上述当前画面的目标使用场景，其中，上述目标使用场景用于决定对上述当前画面拍摄得到的目标图像的处理功能；第二确定模块，用于确定上述词典笔的与上述目标使用场景匹配的目标处理功能；处理模块，用于在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理。

15、作为一种可选的示例，上述第一确定模块包括：第一确定单元，用于在上述当前画面的上层显示多个可交互项，其中，每一个上述可交互项对应一个使用场景；在接收到上述用户的预设操作，从上述多个可交互项中确定出目标可交互项的情况下，将上述目标可交互项对应的使用场景确定为上述目标使用场景；调用上述拍摄功能控件中的上述目标使用场景的插件以进入上述目标使用场景。

16、作为一种可选的示例，上述采集模块包括：第一采集单元，用于在上述拍摄功能为全屏拍摄模式的情况下，通过上述拍摄功能的全屏界面显示第一尺寸的上述当前画面，其中，上述第一尺寸为上述全屏界面的尺寸；在上述拍摄功能为非全屏拍摄模式的情况下，通过上述拍摄功能的部分界面显示第二尺寸的上述当前画面，其中，上述第二尺寸的一条边与上述第一尺寸的对应边相同，上述第二尺寸的另一条边短于上述第一尺寸的对应边。

17、作为一种可选的示例，上述采集模块包括：第二采集单元，用于在上述拍摄功能为全屏拍摄模式的情况下，检测上述当前画面在上述第一图形用户界面的边缘的边缘画面内容；在检测到上述边缘画面内容存在大量空白的情况下，自动将拍摄功能调整为非全屏拍摄模式；或者，在上述拍摄功能为非全屏拍摄模式的情况下，检测上述当前画面在上述第一图形用户界面的边缘的边缘画面内容；在检测到上述边缘画面内容中存在不完整的文字的情况下，自动将拍摄功能调整为全屏拍摄模式；或者，在接收到用户的调整指令时，将上述拍摄功能从非全屏拍摄模式调整为全屏拍摄模式或者从全屏拍摄模式调整为非全屏拍摄模式。

18、作为一种可选的示例，上述第二采集单元包括：采集子单元，用于从上述第一图形用户界面的边缘向上述第一图形用户界面的中心划定预设距离；将划定范围内的当前画面确定为上述边缘画面内容；在检测到上述边缘画面内容中的空白区域占边缘画面内容的总区域的占比超出预设值时，确定上述边缘画面内容中包括大量空白；在检测到上述边缘画面内容中包括多个线条时，确定上述边缘画面内容中存在不完整的文字。

19、作为一种可选的示例，上述采集模块包括：第二确定单元，用于通过上述词典笔的感应装置确定上述词典笔的当前姿态为横屏姿态或竖屏姿态；在姿态为上述横屏姿态时，将上述词典笔的第一图形用户界面上的提示信息以垂直于上述词典笔的底边的形式显示，其中，上述提示信息包括了上述第一图形用户界面上的提示词和上述第一图形用户界面上的可交互控件；或者，在姿态为上述竖屏姿态时，将上述词典笔的第一图形用户界面上的提示信息以水平于上述词典笔的底边的形式显示，其中，上述提示信息包括了上述第一图形用户界面上的提示词和上述第一图形用户界面上的可交互控件。

20、作为一种可选的示例，上述装置还包括：旋转模块，用于在拍摄得到上述目标图像后，检测上述目标图像中的文字方向与上述词典笔的姿态是否一致；在检测结果为不一致的情况下，自动旋转上述目标图像，以将上述文字方向调整为与上述词典笔的姿态一致。

21、作为一种可选的示例，上述处理模块包括：处理单元，用于在上述目标处理功能为拍照功能的情况下，保存上述目标图像；或者，在上述目标处理功能为翻译功能或问答功能或评价功能的情况下，自动框选出上述目标图像中的目标区域，并对上述目标区域进行识别，得到目标文本；由上述翻译功能或问答功能或评价功能对上述目标文本进行处理，并在上述第一图形用户界面中显示处理结果。

22、作为一种可选的示例，上述处理单元包括：第一处理子单元，用于在上述目标处理功能为上述翻译功能时，对上述目标文本进行翻译，得到翻译文本；在上述第一图形用户界面中从当前页跳转到翻译结果显示页；在上述翻译结果显示页中同步显示上述目标文本和上述翻译文本。

23、作为一种可选的示例，上述处理单元包括：第二处理子单元，用于在上述目标处理功能为上述问答功能时，将上述目标文本作为提问问题；在上述第一图形用户界面中从当前页跳转到问答显示页；在上述问答显示页中以问答的形式提出上述提问问题，并显示上述提问问题的答案。

24、作为一种可选的示例，上述处理单元包括：第三处理子单元，用于在上述目标处理功能为上述评价功能时，将上述目标文本作为待评价文本；在上述第一图形用户界面中从当前页跳转到评价显示页；在上述评价显示页中显示上述待评价文本和上述待评价文本的评价结果。

25、作为一种可选的示例，上述处理单元包括：框选子单元，用于将上述目标图像按照上述目标使用场景进行标注；将标注后的上述目标图像输入到识别模型中，由上述识别模型标注出上述目标区域，其中，上述识别模型为预先使用样本数据训练的模型，上述样本数据为标注有上述目标使用场景的样本图像和框选出上述样本图像中的与上述目标使用场景匹配的样本区域的正样本组成的样本对，上述样本图像在不同的上述目标使用场景下被框选出的上述样本区域不同；或者，根据接收到的框选指令框选出上述目标区域。

26、作为一种可选的示例，上述处理单元还包括：训练子单元，用于在将上述目标图像按照上述目标使用场景进行标注之前，获取上述样本图像；为上述样本图像添加翻译标签或问答标签或评价标签；在上述样本图像添加的翻译标签时，框选上述样本图像中的文字字符；在上述样本图像添加的问答标签时，框选上述样本图像中的文本段；在上述样本图像添加的评价标签时，框选上述样本图像中的手写文本；将添加标签后的上述样本图像和框选后的上述样本图像作为一对样本对，训练上述识别模型。

27、作为一种可选的示例，上述处理模块包括：拼接单元，用于在确定开启了连续拍摄模式的情况下，当拍摄得到上述目标图像时，继续通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述词典笔的第一图形用户界面上；当结束上述连续拍摄模式时，获取拍摄得到的多张目标图像；将上述多张目标图像拼接为一张长图；由上述目标处理功能对上述长图进行处理。

28、作为一种可选的示例，上述处理模块包括：录音单元，用于获取拍摄上述目标图像后输入的目标语音；在上述目标处理功能为翻译功能且上述目标语音中包括翻译范围时，对上述目标图像中的目标文本中处于上述翻译范围内的文本进行翻译；在上述目标处理功能为问答功能且上述目标语音中包括目标问题时，对上述目标图像中的目标文本按照上述目标问题提供回复结果；在上述目标处理功能为评价功能且上述目标语音中包括评价标准时，对上述目标图像中的目标文本按照上述评价标准提供评价结果。

29、作为一种可选的示例，上述词典笔的上述拍摄功能控件中配置有上述目标处理功能的插件，上述拍摄功能控件用于拍摄上述目标图像并通过调用上述目标处理功能的插件来对上述目标图像进行处理。

30、作为一种可选的示例，上述词典笔包括一个拍摄摄像头与一个扫描摄像头，上述响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面包括：通过上述拍摄摄像头采集上述当前画面。

31、第三方面，本技术提供了一种电子设备，包括：至少一个通信接口；与上述至少一个通信接口相连接的至少一个总线；与上述至少一个总线相连接的至少一个处理器；与上述至少一个总线相连接的至少一个存储器，其中，上述存储器存储有计算机程序，上述处理器被配置为执行上述计算机程序时实现上述任一项上述的词典笔的图像处理方法。

32、第四方面，本技术还提供了一种计算机存储介质，存储有计算机可执行指令，上述计算机可执行指令用于执行本技术上述任一项上述的词典笔的图像处理方法。

33、本技术实施例提供的上述技术方案与现有技术相比具有如下优点：本技术实施例提供的该方案，通过响应于触发上述拍摄功能控件进入上述词典笔的拍摄功能，通过上述词典笔的摄像头采集当前画面，并将上述当前画面实时显示在上述词典笔的第一图形用户界面上；在显示上述当前画面时，确定用户选择的上述当前画面的目标使用场景，其中，上述目标使用场景用于决定对上述当前画面拍摄得到的目标图像的处理功能；确定上述词典笔的与上述目标使用场景匹配的目标处理功能；在对上述当前画面进行拍摄得到上述目标图像后，进入上述目标处理功能，由上述目标处理功能对上述目标图像进行处理，从而可以在拍摄功能空间中按照要使用的功能来选择目标使用场景，按照目标使用场景的目标处理功能对目标图像进行处理，提高了使用词典笔的不同功能的切换效率。