一种阅读交互装置、方法、计算机设备和阅读笔与流程

2022-06-11 22:49:26 来源：中国专利 TAG：

1.本技术涉及图像处理技术领域，尤其涉及一种阅读交互装置、方法、计算机设备和阅读笔。

背景技术：

2.利用光学图像识别技术和数字语音技术实现的智能阅读和学习方式，体现了电子多媒体技术与教育行业的完美融合，实现了科技以人为本的理念。
3.就现有的可以与用户进行交互的阅读装置而言，通过利用光学字符辨识(optical-character-recognition，ocr)算法将纸上的内容进行辨识，在该基础上，才可以进行多种语言翻译与机器语音合成。因此，现有的可以与用户进行交互的阅读装置不仅依赖于内置识别算法，还受限于自身硬件设计等，导致阅读笔的功能有限。
4.申请内容
5.针对现有技术中可以与用户进行交互的阅读装置不仅依赖于内置识别算法，还受限于自身硬件设计等，导致阅读笔的功能有限的缺点，本技术提供一种阅读交互装置、方法、计算机设备和阅读笔，在解决上述缺点的同时，也达到改善了阅读装置与用户之间的交互体验的目的。所述技术方案如下：
6.第一方面，提供了一种阅读交互装置，所述装置包括图像采集模块和雾端连接模块；
7.所述图像采集模块，用于获取包括目标文字区域的图像；
8.所述雾端连接模块，用于和外接雾端建立连接，通过所述外接雾端中的学习软件对所述包括目标文字区域的图像进行相应的处理；
9.其中，所述外接雾端为存储有学习软件的平台，所述学习软件为基于自然语言处理技术的算法模型。
10.本技术的一种阅读交互装置的有益效果如下：
11.通过与外接雾端建立连接，可以利用外接雾端中的学习软件对获取的包括目标文字区域的图像进行相应的处理，不占用阅读交互装置自身的资源。学习软件为基于自然语言处理技术的算法模型，可具备不同的处理方式，使得本技术中阅读交互装置的应用场景更加丰富，用户体验感更好。
12.在上述方案的基础上，本技术的一种阅读交互装置还可以做如下改进。
13.所述雾端连接模块在通过所述外接雾端中的学习软件对所述包括目标文字区域的图像进行相应的处理的过程中，具体用于：
14.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字；
15.或者；
16.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，并对所述第一目标文字进行翻译，得到第一翻译结果；
17.或者；
18.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，若所述第一目标文字中包括同义词，对所述第一目标文字中的同义词进行同义词替换处理；
19.或者；
20.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，若所述第一目标文字包括诗词，获取所述第一目标文字中的诗词的解析内容并显示。
21.采用上述进一步方案的有益效果是：不同的学习软件具备不同处理方式的同时，实现了不同的功能，通过利用学习软件首先识别出包括目标文字区域的图像中的第一目标文字，在该基础上，通过学习软件实现用户所需要的功能，丰富了应用场景，可以更好地提升用户体验。
22.进一步，还包括文字识别模块，所述文字识别模块，用于利用预先配置的ocr识别算法，分析所述包括目标文字区域的图像，以识别出所述包括目标文字区域的图像中的第二目标文字。
23.进一步，还包括翻译模块；所述翻译模块，用于利用预先配置的词典匹配所述第二目标文字，对所述第二目标文字进行翻译，得到第二翻译结果。
24.采用上述进一步方案的有益效果是：通过阅读交互装置自身的文字识别模块和翻译模块，不用与雾端建立连接，利用雾端中的学习软件实现翻译需求，仅通过阅读交互装置本身就能够迅速满足用户的翻译需求。
25.进一步，还包括语音阅读模块，所述语音阅读模块，用于通过语音的形式将所述第一翻译结果或第二翻译结果播放给用户。
26.采用上述进一步方案的有益效果是：通过语音阅读模块，能够为用户提供语音播报。
27.进一步，还包括云端，所述云端，用于存储所述包括目标文字区域的图像、第一目标文字和第二目标文字，根据所述包括目标文字区域的图像、第一目标文字和第二目标文字分析用户的阅读习惯，根据所述阅读习惯推荐阅读内容。
28.采用上述进一步方案的有益效果是：通过云端分析用户的阅读习惯，能够推荐用户感兴趣的阅读内容，更好地为用户服务。
29.第二方面，提供了一种阅读交互方法，应用于第一方面中的阅读交互装置，所述方法包括：
30.获取包括目标文字区域的图像；
31.通过外接雾端中的学习软件对所述包括目标文字区域的图像进行相应的处理；
32.其中，所述外接雾端为存储有学习软件的平台，所述学习软件为基于自然语言处理技术的算法模型。
33.本技术的一种阅读交互方法的有益效果如下：
34.通过利用外接雾端中的学习软件对获取的包括目标文字区域的图像进行相应的处理，不占用阅读交互装置自身的资源。学习软件为基于自然语言处理技术的算法模型，可具备不同的处理方式，使得本技术中阅读交互装置的应用场景更加丰富，用户体验感更好。
35.在上述技术方案的基础上，本技术的一种阅读交互方法还可以作出如下改进。
36.进一步，所述通过外接雾端中的学习软件对所述包括目标文字区域的图像进行相应的处理，包括：
37.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字；
38.或者；
39.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，并对所述第一目标文字进行翻译，得到第一翻译结果；
40.或者；
41.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，若所述第一目标文字中包括同义词，对所述第一目标文字中的同义词进行同义词替换处理；
42.或者；
43.通过所述外接雾端中的学习软件识别出所述包括目标文字区域的图像中的第一目标文字，若所述第一目标文字包括诗词，获取所述第一目标文字中的诗词的解析内容并显示。
44.采用上述进一步方案的有益效果是：不同的学习软件具备不同处理方式的同时，实现了不同的功能，通过利用学习软件首先识别出包括目标文字区域的图像中的第一目标文字，在该基础上，通过学习软件实现用户所需要的功能，丰富了应用场景，可以更好的提升用户体验。
45.第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现第二方面所述的方法。
46.第四方面，提供了一种阅读笔，包括第一方面所述的阅读交互装置。
附图说明
47.下面结合附图和实施例对本技术做进一步说明。
48.图1为本技术实施例的一种阅读交互装置的结构示意图之一；
49.图2为本技术实施例的一种阅读交互装置与外接雾端的交互示意图；
50.图3为本技术实施例的一种阅读交互装置的结构示意图之二；
51.图4为本技术实施例的一种阅读交互装置与云端的交互示意图；
52.图5为本技术实施例的一种阅读交互方法的步骤示意图；
53.图6为本技术实施例的一种计算机设备的结构示意图。
具体实施方式
54.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式做进一步地详细描述。
55.图1是本技术实施例提供的阅读交互装置100的结构示意图。参见图1，该实施例包括：
56.图像采集模块110，用于获取包括目标文字区域的图像。
57.雾端连接模块120，用于和外接雾端130建立连接(通信连接)，通过外接雾端130中的学习软件140对所述包括目标文字区域的图像进行相应的处理。
58.其中，外接雾端130为存储有学习软件140的平台，学习软件140为基于自然语言处理技术的算法模型。
59.其中，图像采集模块110可以是光学传感器，则可以通过光学传感器采集包括目标文字区域的图像，也可以是摄像头，则可通过该摄像头采集包括目标文字区域的图像。
60.可选地，雾端连接模块包括蓝牙连接模块，蓝牙连接模块用于和外接雾端建立蓝牙连接。
61.在实施过程中，外接雾端可以理解为具备计算能力且能够运行学习软件的硬件平台，该硬件平台可以是台式计算机、笔记本计算机、手机、平板电脑或者服务器等。
62.外接雾端可以接入互联网，而用户将阅读交互装置接入雾端，利用雾端中的学习软件对包含标文字区域的图像进行处理的过程，可以称为阅读交互装置在在线状态下进行工作的过程。外接雾端还可以将用户使用阅读交互装置产生的学习数据进行记录。
63.具体地，阅读交互装置可以有多个，阅读交互装置可以通过蓝牙与外接雾端建立连接；也可以通过在局域网覆盖的区域内，在阅读交互装置中输入外接雾端在局域网中的设备号与外接雾端建立连接；也可以通过广域网，在阅读交互装置中输入外接雾端在广域网中的设备号与外接雾端建立连接。用户不仅能够连接自己的个人外接雾端，还可以连接其他用户对外开放的外接雾端，或者第三方外接雾端。如图2所示，当有两个阅读交互装置，分别为第一阅读交互装置和第二阅读交互装置时，且个人外接雾端中有学习软件1，第三方外接雾端中有学习软件2、学习软件3
……
、学习软件n，第一阅读交互装置、第二阅读装置可以与个人外接雾端连接，也可以与第三方外接雾端连接。通过不同的连接方式，可以向用户提供不同的学习软件，通过多种实现方式满足了用户的需求。
64.学习软件为承载ai运算的计算媒介，能够提供更加精准的文本识别或其他算法服务，例如：基于自然语言处理实现的文本解析、同义词替换、语言模型填空等功能。
65.例如，当雾端为笔记本计算机时，当笔记本计算机安装有学习软件时，则笔记本计算机的显示界面会显示该笔记本计算机位于广域网中的设备号或者位于局域网中的设备号和设备名称，打开该笔记本计算机中的学习软件后，可以展示用户的信息，如：近期查询翻译的记录、摘抄内容等，还可以基于大数据，推送用户最近浏览的相关学习内容。
66.可选地，雾端连接模块在通过外接雾端中的学习软件对包括目标文字区域的图像进行相应的处理的过程中，具体用于：
67.通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字。
68.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，并对第一目标文字进行翻译，得到第一翻译结果。
69.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，若第一目标文字中包括同义词，对第一目标文字中的同义词进行同义词替换处理。
70.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，若第一目标文字包括诗词，获取第一目标文字中的诗词的解析内容并显示。
71.可选地，雾端连接模块在通过外接雾端中的学习软件对包括目标文字区域的图像
进行相应的处理的过程中，还用于：通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，若第一目标文字包括待填词语，匹配待填词的内容并显示。
72.在实施过程中，学习软件包括翻译学习软件，可以通过翻译学习软件识别出包括目标文字区域的图像中的第一目标文字，并对第一目标文字进行翻译，得到第一翻译结果。具体地，雾端连接模块可以通过http请求调用外接雾端中的翻译学习软件，通过翻译学习软件识别出包括目标文字区域的图像中的第一目标文字，并对第一目标文字进行翻译，得到第一翻译结果。可以通过word2vec、glove、sent2vec等模型实现同义词替换处理，通过keras-bert来调用bert模型实现完形填空及简单的文本纠错功能。
73.可选地，如图3所示，还包括文字识别模块150，文字识别模块150用于利用预先配置的ocr识别算法，分析包括目标文字区域的图像，以识别出包括目标文字区域的图像中的第二目标文字。还包括翻译模块160，翻译模块160用于利用预先配置的词典匹配第二目标文字，对第二目标文字进行翻译，得到第二翻译结果。
74.在实施过程中，用户通过阅读交互装置100自身具备的文字识别模块150进行文字识别的过程和翻译模块160进行翻译的过程，可以称为阅读交互装置100在离线状态下进行工作的过程，即在阅读交互装置处于离线状态时，可通过自身的文字识别模块150和翻译模块160对包括目标文字区域的图像进行处理。预先配置的ocr识别算法可以为基于ctpn文字检测算法，结合cnn和lstm深度网络而训练得到的算法，能够对图片中的文字内容进行识别，从而获得第二目标文字。
75.可选地，还包括显示模块，显示模块用于显示目标文字区域的图像和第二目标文字，当用户发现第二目标文字识别不准确时，可以对不准确的内容进行修正，得到修正后的第二目标文字。
76.在实施过程中，可以利用第二目标文字作为预先配置的ocr识别算法的输入数据集，将修正后的第二目标文字作为监督数据集，再次训练预先配置的ocr识别算法，以得到识别精度更高的ocr识别算法。
77.可选地，还包括语音阅读模块，语音阅读模块，用于通过语音的形式将第一翻译结果或第二翻译结果播放给用户。
78.可选地，还包括云端，云端用于存储包括目标文字区域的图像、第一目标文字和第二目标文字，根据包括目标文字区域的图像、第一目标文字和第二目标文字分析用户的阅读习惯，根据阅读习惯推荐阅读内容。
79.具体地，云端在获取目标文字区域的图像、第一目标文字或第二目标文字后，利用nlp关键词提取技术从第一目标文字、第二目标文字中提取出频率最高的多个关键词，比如，共提取出三个关键词，例如tf-idf、textrank、lda主题模型、word2vec词聚类等关键词提取算法，通过提取出的频率最高的三个关键词分析用户的阅读习惯，然后再根据用户的阅读习惯从云端中的数据库中获得阅读内容并向用户推荐。如图4所示，第一阅读交互装置与个人外接雾端连接，个人外接雾端中的学习软件1识别出了第一目标文字，第三阅读交互装置识别出了第二目标文字后，由云端从第一目标文字、第二目标文字中共提取出频率最高的三个关键词，例如，当提取出频率最高的三个关键词韩愈、苏轼、唐宋八大家时，可以分析出用户的阅读习惯偏向于阅读唐宋八大家的诗词，便可以从云端中的数据库获得唐宋八大家的诗词，并将获得的唐宋八大家的诗词推荐给用户。
80.在实施过程中，用户还可以通过云端进行社交。云端提供有各种web、ssh(secure shell，安全外壳协议)、app(application，应用)、执行ai(artificial intelligence，人工智能)模型任务的ai框架、数据处理、规则引擎等，以及各种协议解析，云端可以根据实际业务规模和需求来配置上述提及的操作和模型，使得系统在完成需求的同时复杂度较低。云端对外提供有标准化接口，如restful api接口。
81.在实施过程中，还可以通过云端构建一个学习交流的社交平台，用户可以通过手机、pc等运行学习软件，从而进行互动，或者通过登录阅读交互装置的门户网站进行互动。
82.基于相同的技术构思，本技术实施例还提供了一种阅读交互方法，该方法可以是上述实施例中的计算机设备，如图5所示，该方法包括：
83.s1、获取包括目标文字区域的图像。
84.s2、通过外接雾端中的学习软件对包括目标文字区域的图像进行相应的处理，其中，外接雾端为存储有学习软件的平台，学习软件为基于自然语言处理技术的算法模型。
85.可选地，通过外接雾端中的学习软件对所述包括目标文字区域的图像进行相应的处理，包括：
86.通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字。
87.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，并对第一目标文字进行翻译，得到第一翻译结果。
88.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，若第一目标文字中包括同义词，对第一目标文字中的同义词进行同义词替换处理。
89.或者，通过外接雾端中的学习软件识别出包括目标文字区域的图像中的第一目标文字，若第一目标文字包括诗词，获取第一目标文字中的诗词的解析内容并显示。
90.基于相同的技术构思，本技术实施例还提供了一种计算机设备600，如图6所示，该计算机设备600包括处理器610和存储器620，存储器620中存储有至少一条指令621，至少一条指令621由处理器610加载并执行以实现上述一种阅读交互方法。
91.需要说明的是：上述实施例提供的一种阅读交互装置在实现用户的阅读交互需求时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的一种阅读交互方法与一种阅读交互装置实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
92.在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中一种阅读交互方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是rom(read-onlymemory，只读存储器)、ram(random access memory，随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。
93.在示例性实施例中，还提供了一种阅读笔，该阅读笔具备上述一种阅读交互装置。
94.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
95.以上所述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和
原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于光线投影原理的运动视角下动态物体检测方法及系统

一种阅读交互装置、方法、计算机设备和阅读笔与流程

相关文献

最热文献