基于图像处理和识别的多媒体教学资源确定方法及装置与流程

2022-05-21 04:29:21 来源：中国专利 TAG：

1.本发明涉及图像处理
技术领域：
：，尤其涉及一种基于图像处理和识别的多媒体教学资源确定方法及装置。
背景技术：
：：2.图文并茂的教材可以提高使用者的学习兴趣。目前，教材大多数是纸质版，是编辑人员利用终端设备手动编写完成的。但是，编辑人员手动编写教材时，存在着耗费时间长、准确率低、教材内容固化的问题。技术实现要素：3.本发明提供一种基于图像处理和识别的多媒体教学资源确定方法及装置，解决了编写教材时，存在着耗费时间长、准确率低、教材内容固化的问题。4.为达到上述目的，本发明采用如下技术方案：5.第一方面，本发明提供一种基于图像处理和识别的多媒体教学资源确定方法，该方法包括：6.获取待处理的目标图片，并获取目标语言类型和目标等级，目标语言类型为目标图片转换为多媒体教学资源后使用的语言类型，目标等级用于指示目标图片转换后的多媒体教学资源的复杂程度；7.根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源，多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。8.采用本发明提供的基于图像处理和识别的多媒体教学资源确定方法，终端设备根据获取到的待处理的目标图片，以及目标语言类型和目标等级，能够获取到符合目标等级的多媒体教学资源。该多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。该多媒体教学资源可以理解为确定出的教材内容。这样，通过采用本发明的方法编辑教材，实现了教材内容的自动编写，不仅能够减少编辑人员的工作量，从而缩短编辑时间、提高教材内容的准确率。且，通过确定符合目标等级的多媒体教学资源，实现了针对不同学习阶段的用户，为其提供不同难度的资源来学习，使得教材内容变得灵活，能够满足不同学习阶段的用户的需求，解决了现有的教材内容固化的问题。9.在一种可能的实现方式中，上述多媒体教学资源包括以下至少一项：至少一个第一文本、候选图片、语音数据、视频；10.其中，候选图片的图像内容中包含至少一个第一文本，语音数据是对至少一个第一文本进行语音转换后的音频数据，视频是基于至少一个第一文本生成的视频。11.在一种可能的实现方式中，上述根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源，包括：12.采用预存的图像识别模型对目标图片进行处理，得到目标图片中的至少一个对象；13.基于目标等级和预存的语义库对至少一个对象进行语义分析，得到至少一个第一文本；14.基于至少一个第一文本生成多媒体教学资源。15.在一种可能的实现方式中，上述根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源，包括：16.向服务器发送请求消息，请求消息包括目标图片、目标语言类型和目标等级；17.接收服务器发送的多媒体教学资源。18.在一种可能的实现方式中，上述获取待处理的目标图片，包括：19.在图片获取界面显示图片获取按钮，响应于用户对图片获取按钮的操作，在图片获取界面上显示获取列表，获取列表中包括至少一种图片获取方式；20.响应于用户对一种图片获取方式的选择操作，通过一种图片获取方式获取用户选择的图片；21.从显示图片获取界面切换到显示图片预览界面，在图片预览界面显示用户选择的图片，以及上传按钮；22.响应于用户对上传按钮的确认操作，获取目标图片。23.在一种可能的实现方式中，上述基于图像处理和识别的多媒体教学资源确定方法还包括：24.在文本展示界面显示多媒体教学资源；25.响应于用户对文本展示界面的操作，确定目标多媒体教学资源。26.在一种可能的实现方式中，上述多媒体教学资源包括至少一个第一文本时，响应于用户对文本展示界面的操作，确定目标多媒体教学资源，包括：27.在文本展示界面中每个第一文本的第一关联位置显示确认框，响应于用户对一个确认框的选择操作，将一个确认框对应的第一文本确定为目标文本；28.或者，29.在文本展示界面中每个第一文本的第一关联位置显示确认框，每个第一文本的第二关联位置显示编辑按钮，响应于用户对一个编辑按钮的操作，获取修改后的第一文本，响应于对修改后的第一文本对应的确认框的选择操作，将修改后的第一文本确定为目标文本；30.或者，31.在文本展示界面中还显示预设按钮，响应于用户对预设按钮的操作，获取用户输入的文本，响应于对输入的文本对应的确认框的选择操作，将输入的文本确定为目标文本。32.在一种可能的实现方式中，上述基于图像处理和识别的多媒体教学资源确定方法还包括：33.响应于用户对文本展示界面的操作，从显示文本展示界面切换到显示语音播放界面，语音播放界面包括语音播放按钮；34.响应于用户对语音播放按钮的操作，输出目标语音数据，目标语音数据是对目标文本进行语音转换后的数据；35.语音播放界面还包括录音按钮，响应于用户对录音按钮的操作，获取跟读语音数据；36.根据跟读语音数据和目标等级，获取跟读语音数据的评价结果。37.在一种可能的实现方式中，上述根据跟读语音数据和目标等级，获取跟读语音数据的评价结果，包括：38.获取目标等级对应的评价规则，根据跟读语音数据和目标等级对应的评价规则确定评价结果；39.或者，40.向服务器发送语音评价请求，语音评价请求包括跟读语音数据和目标等级，接收服务器发送的评价结果。41.在一种可能的实现方式中，上述基于图像处理和识别的多媒体教学资源确定方法还包括：42.语音播放界面还包括分享按钮，响应于用户对分享按钮的操作，在语音播放界面显示弹框，弹框中包括待分享的内容，待分享的内容包括目标图片、目标文本、目标语音数据、跟读语音数据中的至少一种；43.响应于用户对待分享的内容的选择操作，显示分享预览界面，分享预览界面包括选择分享内容和多种分享平台按钮；44.响应于用户对一个分享平台按钮的操作，向一个分享平台按钮对应的分享平台传输选择分享内容。45.第二方面，本发明提供一种基于图像处理和识别的多媒体教学资源确定装置，该基于图像处理和识别的多媒体教学资源确定装置包括：46.获取单元，用于获取待处理的目标图片，并获取目标语言类型和目标等级，目标语言类型为目标图片转换为多媒体教学资源后使用的语言类型，目标等级用于指示目标图片转换后的多媒体教学资源的复杂程度，并根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源，多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。47.在一种可能的实现方式中，上述多媒体教学资源包括以下至少一项：至少一个第一文本、候选图片、语音数据、视频；48.其中，候选图片的图像内容中包含至少一个第一文本，语音数据是对至少一个第一文本进行语音转换后的音频数据，视频是基于至少一个第一文本生成的视频。49.在一种可能的实现方式中，上述获取单元，具体用于：50.采用预存的图像识别模型对目标图片进行处理，得到目标图片中的至少一个对象；51.基于目标等级和预存的语义库对至少一个对象进行语义分析，得到至少一个第一文本；52.基于至少一个第一文本生成多媒体教学资源。53.在一种可能的实现方式中，上述获取单元，具体用于：54.向服务器发送请求消息，请求消息包括目标图片、目标语言类型和目标等级；55.接收服务器发送的多媒体教学资源。56.在一种可能的实现方式中，上述获取单元，具体用于：57.在图片获取界面显示图片获取按钮，响应于用户对图片获取按钮的操作，在图片获取界面上显示获取列表，获取列表中包括至少一种图片获取方式；58.响应于用户对一种图片获取方式的选择操作，通过一种图片获取方式获取用户选择的图片；59.从显示图片获取界面切换到显示图片预览界面，在图片预览界面显示用户选择的图片，以及上传按钮；60.响应于用户对上传按钮的确认操作，获取目标图片。61.在一种可能的实现方式中，上述基于图像处理和识别的多媒体教学资源确定装置还包括：62.显示单元，用于在文本展示界面显示获取单元获取到的多媒体教学资源；63.确定单元，用于响应于用户对文本展示界面的操作，确定显示单元中显示的多媒体教学资源中的目标多媒体教学资源。64.在一种可能的实现方式中，上述确定单元，具体用于：65.在文本展示界面中每个第一文本的第一关联位置显示确认框，响应于用户对一个确认框的选择操作，将一个确认框对应的第一文本确定为目标文本；66.或者，67.在文本展示界面中每个第一文本的第一关联位置显示确认框，每个第一文本的第二关联位置显示编辑按钮，响应于用户对一个编辑按钮的操作，获取修改后的第一文本，响应于对修改后的第一文本对应的确认框的选择操作，将修改后的第一文本确定为目标文本；68.或者，69.在文本展示界面中还显示预设按钮，响应于用户对预设按钮的操作，获取用户输入的文本，响应于对输入的文本对应的确认框的选择操作，将输入的文本确定为目标文本。70.在一种可能的实现方式中，上述显示单元，还用于响应于用户对文本展示界面的操作，从显示文本展示界面切换到显示语音播放界面，语音播放界面包括语音播放按钮；71.上述基于图像处理和识别的多媒体教学资源确定装置还包括：72.输出单元，响应于用户对语音播放按钮的操作，输出目标语音数据，目标语音数据是对目标文本进行语音转换后的数据；73.上述语音播放界面还包括录音按钮；74.获取单元，还用于响应于用户对录音按钮的操作，获取跟读语音数据，并根据跟读语音数据和目标等级，获取跟读语音数据的评价结果。75.在一种可能的实现方式中，上述获取单元，具体用于：76.获取目标等级对应的评价规则，根据跟读语音数据和目标等级对应的评价规则确定评价结果；77.或者，78.向服务器发送语音评价请求，语音评价请求包括跟读语音数据和目标等级，接收服务器发送的评价结果。79.在一种可能的实现方式中，上述语音播放界面还包括分享按钮，80.显示单元，还用于响应于用户对分享按钮的操作，在语音播放界面显示弹框，弹框中包括待分享的内容，待分享的内容包括目标图片、目标文本、目标语音数据、跟读语音数据中的至少一种，并响应于用户对待分享的内容的选择操作，显示分享预览界面，分享预览界面包括选择分享内容和多种分享平台按钮；81.上述基于图像处理和识别的多媒体教学资源确定装置还包括：82.传输单元，用于响应于用户对一个分享平台按钮的操作，向一个分享平台按钮对应的分享平台传输选择分享内容。83.第三方面，本发明提供一种基于图像处理和识别的多媒体教学资源确定装置，该基于图像处理和识别的多媒体教学资源确定装置包括：处理器和存储器。存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行计算机指令时，基于图像处理和识别的多媒体教学资源确定装置执行如第一方面及其任一种可能的实现方式的基于图像处理和识别的多媒体教学资源确定方法。84.第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机指令，当计算机指令在基于图像处理和识别的多媒体教学资源确定装置上运行时，使得基于图像处理和识别的多媒体教学资源确定装置执行如第一方面或第一方面的可能的实现方式中任意一项的基于图像处理和识别的多媒体教学资源确定方法。附图说明85.图1为本发明实施例提供的图像处理系统一种结构示意图；86.图2为本发明实施例提供的计算装置的结构示意图；87.图3为本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法的流程示意图之一；88.图4为本发明实施例提供的图像处理应用的界面示意图之一；89.图5为本发明实施例提供的图像处理应用的界面示意图之二；90.图6为本发明实施例提供的图像处理应用的界面示意图之三；91.图7为本发明实施例提供的图像处理应用的界面示意图之四；92.图8为本发明实施例提供的图像处理应用的界面示意图之五；93.图9为本发明实施例提供的图像处理应用的界面示意图之六；94.图10为本发明实施例提供的图像处理应用的界面示意图之七；95.图11为本发明实施例提供的图像处理应用的界面示意图之八；96.图12为本发明实施例提供的图像处理应用的界面示意图之九；97.图13为本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法的流程示意图之二；98.图14为本发明实施例提供的图像处理应用的界面示意图之十；99.图15为本发明实施例提供的图像处理应用的界面示意图之十一；100.图16为本发明实施例提供的图像处理应用的界面示意图之十二；101.图17为本发明实施例提供的基于图像处理和识别的多媒体教学资源确定装置的结构示意图。具体实施方式102.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。103.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。104.为了解决编写教材时，存在着耗费时间长、准确率低的问题，本发明实施例提供了一种基于图像处理和识别的多媒体教学资源确定方法及装置。终端设备根据获取到的待处理的目标图片，获取到的目标图片转换为文本后使用的语言类型，以及用于指示目标图片转换后的文本的复杂程度的目标等级后，可以获取到符合该目标等级的多媒体教学资源。其中，多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。105.本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法的执行主体为基于图像处理和识别的多媒体教学资源确定装置。基于图像处理和识别的多媒体教学资源确定装置可以是终端设备，还可以是终端设备的处理器，也可以是终端设备上安装的客户端。本发明实施例中以终端设备执行基于图像处理和识别的多媒体教学资源确定方法为例进行介绍。示例性的，终端设备可以是智能手机、平板电脑或笔记本电脑等设备。106.在一种场景中，终端设备执行本发明实施例的基于图像处理和识别的多媒体教学资源确定方法时，在获取到待处理的目标图片，以及目标语言类型和目标等级后，自身能够进行图文转换和翻译，得到采用目标语言类型描述目标图片的内容的多媒体教学资源。且终端设备自身能够进行语音转换，得到目标语音数据。终端设备还能够获取用户在跟读目标语音数据时的跟读语音数据，并对该跟读语音数据进行评价，从而得到评价结果。107.在另一种场景中，上述图文转换、翻译、语音转换、跟读语音数据的评价等服务可以由服务器来提供。具体的，本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法可以适用于图像处理系统。图1示出了本发明实施例提供的图像处理系统的一种结构示意图。如图1所示，图像处理系统可以包括：终端设备11和服务器。终端设备11与服务器通过有线通信或无线通信的方式建立连接。108.在一些实施例中，服务器可以为一台服务器，也可以为服务器集群，还可以为云计算服务平台。当服务器为服务器集群时，该服务器集群可以包括多台服务器，不同的服务器提供不同的服务。示例性的，服务器集群可以包括第一服务器12、第二服务器13和第三服务器14。其中，第一服务器12用于提供图文转换和翻译的服务，第二服务器13用于提供语音转换的服务，第三服务器14用于提供跟读语音数据的评价的服务。图1中以服务器为包括三台服务器的服务器集群为例示出。109.终端设备11，用于获取待处理的目标图片，以及目标语言类型和目标等级，向第一服务器12发送图文转换请求，图文转换请求包括目标图片、目标语言类型和目标等级，并接收第一服务器12发送的多媒体教学资源。终端设备还用于向第二服务器13发送包括有目标文本的语音合成请求，并接收第二服务器13发送的目标语音数据。终端设备还用于向第三服务器14发送包括有跟读语音数据和目标等级的语音评价请求，并接收评价结果。110.第一服务器12，用于接收终端设备11发送的图文转换请求，并根据目标图片、目标语言类型和目标等级，生成多媒体教学资源，且向终端设备11返回多媒体教学资源。111.第二服务器13，用于接收终端设备11发送的语音合成请求，并根据目标文本生成目标语音数据，向终端设备11返回目标语音数据。112.第三服务器14，用于接收终端设备11发送的语音评价请求，并根据跟读语音数据和目标等级，生成跟读语音数据的评价结果，向终端设备11返回评价结果。113.可选的，上述服务器为一台服务器时，该一台服务器可以提供不同的服务，例如可以提供上述三台服务器所有的服务，在此不再赘述。114.上述终端设备11和服务器的基本硬件结构类似，都包括图2所示计算装置所包括的元件。下面以图2所示的计算装置为例，介绍终端设备和服务器的硬件结构。115.如图2所示，计算装置可以包括：处理器21、存储器22、通信接口23和总线24。处理器21、存储器22和通信接口23之间可以通过通信总线24连接。116.处理器21是计算装置的控制中心，可以是一个处理器21，也可以是多个处理元件的统称。例如，处理器21可以是一个通用的中央处理器(centralprocessingunit，cpu)，也可以是其他通用处理器21等。其中，通用处理器21可以是微处理器21或者是任何常规的处理器21等。117.作为一种实施例，处理器21可以包括一个或多个cpu，例如，图2所示的cpu0和cpu1。118.存储器22可以是只读存储器22(read-onlymemory，rom)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器22(randomaccessmemory，ram)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器22(electricallyerasableprogrammableread-onlymemory，eeprom)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。119.一种可能的实现方式中，存储器22可以独立于处理器21存在，存储器22可以通过总线24与处理器21相连接，用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时，能够实现本发明下述实施例提供的基于图像处理和识别的多媒体教学资源确定方法。120.另一种可能的实现方式中，存储器22也可以和处理器21集成在一起。121.通信接口23，用于计算装置与其他设备通过通信网络连接，所述通信网络可以是以太网，无线接入网(radioaccessnetwork，ran)，无线局域网(wirelesslocalareanetworks，wlan)等。通信接口23可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。122.总线24，可以是工业标准体系结构(industrystandardarchitecture，isa)总线24、外部设备互连(peripheralcomponentinterconnect，pci)总线24或扩展工业标准体系结构(extendedindustrystandardarchitecture，eisa)总线24等。该总线24可以分为地址总线24、数据总线24、控制总线24等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线24或一种类型的总线24。123.需要指出的是，图2中示出的结构并不构成对该计算装置的限定，除图2所示部件之外，该计算装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。124.如图3所示，本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法包括以下步骤301-步骤303。125.301、终端设备获取待处理的目标图片。126.终端设备中安装有图像处理应用，当需要通过该图像处理应用进行图文转换时，终端设备可以先获取待处理的目标图片。该目标图片可以是终端设备中最近拍摄的图片，还可以是图像处理应用中的默认图片，还可以是用户在图像处理应用中选择的图片。127.可选的，目标图片是用户在图像处理应用中选择的图片的情况下，当用户点击图像处理应用的应用图标后，终端设备响应于用户的点击操作，可以显示图像处理应用的图片获取界面，该图片获取界面上显示有图片获取按钮。然后，终端设备响应于用户对图片获取按钮的操作，在图片获取界面上显示获取列表，该获取列表中包括至少一种图片获取方式。终端设备可以响应于用户对一种图片获取方式的选择操作，通过一种图片获取方式获取用户选择的图片，并从显示图片获取界面切换到显示图片预览界面，在图片预览界面显示用户选择的图片，以及上传按钮。终端设备可以响应于用户对上传按钮的确认操作，获取目标图片。128.示例性的，以终端设备为手机为例，图4为手机显示的图片处理应用的图片获取界面的示意图。如图4所示，图片获取界面可以包括图片获取按钮41，当用户点击图片获取按钮41时，手机可以接收用户对图片获取按钮41的点击操作。作为对该点击操作的响应，如图5所示，手机可以在图片获取界面显示获取列表，该获取列表中包括“拍照”和“相册”两种图片获取方式，该获取列表中还可以包括取消按钮。129.当用户点击获取列表中的“拍照”时，即表示用户选择拍照的方式来获取目标图片。作为对该点击操作的响应，图像处理应用可以调用手机的摄像头，手机从显示图片获取界面切换到显示图像拍摄界面，图像拍摄界面显示有拍摄按钮。当用户点击该拍摄按钮后，手机响应于用户对拍摄按钮的点击操作，拍摄一张图片，该图片即为用户选择的图片，并从显示图像拍摄界面切换到显示图片预览界面，该图片预览界面显示有用户选择的图片和上传按钮。手机可以响应于用户对上传按钮的确认操作，将用户选择的图片确定为目标图片。130.当用户点击获取列表中的“相册”时，即表示用户选择在相册中选择图片的方式来获取目标图片。作为对该点击操作的响应，图像处理应用可以调用手机的相册，手机可以从显示图片获取界面切换到显示相册界面，相册界面显示有多张待选择图片，每张待选择图片的关联位置，如左上角处显示有确认框。当用户点击任一个确认框后，手机响应于用户对该确认框的点击操作，将点击的确认框对应的待选择图片作为用户选择的图片，从显示相册界面切换到显示图片预览界面，该图片预览界面显示有用户选择的图片和上传按钮。手机可以响应于用户对上传按钮的确认操作，将用户选择的图片确定为目标图片。131.当用户点击取消按钮后，手机可以响应于用户对取消按钮的操作，结束获取列表的显示，恢复至显示如图4所示的图片获取界面。132.302、终端设备获取目标语言类型和目标等级。133.其中，由于图文转换后的结果可以供不同语种、不同学习阶段的用户学习，需要针对不同语种的用户生成不同语言类型的文本结果，且针对不同学习阶段的用户生成不同难度的文本结果。因此终端设备除了获取上述步骤301的目标图片外，还可以获取目标语言类型和目标等级。目标语言类型为目标图片转换为多媒体教学资源后使用的语言类型。例如，该目标语言类型可以为某语种。目标等级用于指示目标图片转换后的多媒体教学资源的复杂程度。134.可选的，上述终端设备显示的图片预览界面除了显示有用户选择的图片和上传按钮外，还可以显示语言选择按钮和等级选择按钮。当用户点击语言选择按钮时，终端设备响应于用户对语言选择按钮的点击操作，在图片预览界面上显示语言列表，语言列表中可以包括至少一种语言类型，例如：英语、法语、汉语等。终端设备响应于用户在语言列表中的选择操作，获取目标语言类型。当用户点击等级选择按钮时，终端设备可以响应于用户对等级选择按钮的点击操作，在图片预览界面上显示等级列表，该等级列表中可以包括至少一种等级，例如：初级、中级、高级等。终端设备可以响应于用户在等级列表中的选择操作，获取目标等级。135.示例性的，如图6所示，为手机显示的图片预览界面的示意图。图片预览界面包括用户选择的图片61、上传按钮62、语言选择按钮63和等级选择按钮64。当用户点击语言选择按钮63时，作为对该点击操作的响应，如图7所示，手机可以在图片预览界面显示语言列表，该语言列表中包括英语、法语、汉语三种语言类型。当用户在语言列表中点击英语的语言类型时，手机可以响应于用户的选择操作，确定目标语言类型为英语。当用户点击等级选择按钮64时，作为对该点击操作的响应，如图8所示，手机可以在图片预览界面显示等级列表，该等级列表中可以包括初级、中级、高级三种等级。当用户在等级列表中点击中级的等级时，手机可以响应于用户的选择操作，确定目标等级为中级。136.需要理解的是，当用户在图片预览界面选择了语言类型和等级后，该图片预览界面中的上传按钮才可以被操作，否则，终端设备会显示提示框，以提示用户进行语言类型或等级的选择。137.303、终端设备根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源。138.其中，多媒体教学资源为采用目标语言类型描述目标图片的内容的资源，本发明实施例对多媒体教学资源的具体内容不做限制。终端设备在获取到目标图片、目标语言类型和目标等级之后，可以根据这三者，获取多媒体教学资源。139.采用本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法，终端设备根据获取到的待处理的目标图片，以及目标语言类型和目标等级，能够获取到符合目标等级的多媒体教学资源。该多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。该多媒体教学资源可以理解为确定出的教材内容。这样，通过采用本发明的方法编辑教材，实现了教材内容的自动编写，不仅能够减少编辑人员的工作量，从而缩短编辑时间、提高教材内容的准确率。且，通过确定符合目标等级的多媒体教学资源，实现了针对不同学习阶段的用户，为其提供不同难度的资源来学习，使得教材内容变得灵活，能够满足不同学习阶段的用户的需求，解决了现有的教材内容固化的问题。140.可选的，多媒体教学资源可以包括以下至少一项：至少一个第一文本、候选图片、语音数据、视频。其中，候选图片的图像内容中包含至少一个第一文本，语音数据是对至少一个第一文本进行语音转换后的音频数据，视频是基于至少一个第一文本生成的视频。141.本发明实施例中，终端设备可以采用以下两种方式获取多媒体教学资源。下面以多媒体教学资源为至少一个第一文本为例进行描述。142.在一种可能的实现方式中，终端设备可以采用预存的图像识别模型对目标图片进行处理，得到目标图片中的至少一个对象。然后，终端设备判断预存的语义库使用的语言类型与目标语言类型是否一致。如果终端设备确定语义库使用的语言类型与目标语言类型相同，则基于目标等级和语义库对至少一个对象进行语义分析，得到至少一个第一文本。如果终端设备确定语义库使用的语言类型与目标语言类型不同，则基于目标等级和语义库对至少一个对象进行语义分析，得到至少一个第二文本，并采用预存的翻译模型对每个第二文本进行翻译处理，得到每个第二文本对应的第一文本。每个第二文本是使用语义库使用的语言类型描述目标图片的内容的文本。最后，终端设备基于至少一个第一文本生成多媒体教学资源。143.在另一种可能的实现方式中，终端设备可以响应于用户对图片预览界面中的上传按钮的确认操作，生成请求消息，向第一服务器发送该请求消息，请求消息包括目标图片、目标语言类型和目标等级。然后，终端设备接收第一服务器发送的多媒体教学资源。144.需要理解的是，第一服务器中可以预存有图像识别模型、语义库和翻译模型。第一服务器根据目标图片、目标语言类型和目标等级，生成符合目标等级的多媒体教学资源的过程可以与终端设备执行该过程相同，在此不再赘述。145.可选的，当终端设备获取到多媒体教学资源后，终端设备可以在在文本展示界面显示多媒体教学资源。146.当用户在图片预览界面点击上传按钮之后，终端设备可以从显示图片预览界面切换到显示文本展示界面，并将获取到的多媒体教学资源显示在文本展示界面。147.示例性的，假设终端设备获取到的目标图片为包含有鼠标的图片，获取到的目标语言类型为英语，目标等级为中级，且基于目标图片、英语和中级获取到多媒体教学资源包括三个第一文本。假设第一关联位置为第一文本的左侧，第二关联位置为第一文本的右侧。那么，如图9所示，手机显示的文本展示界面可以包括三个第一文本91，每个第一文本91的左侧的确认框92，以及每个第一文本91的右侧的编辑按钮93。且，文本展示界面还显示有预设按钮94，预设按钮的左侧也显示有确认框92。其中，三个第一文本分别是：“a:acomputermousesittingontopofadesk.”、“b:acomputermousesittingnexttoofacomputermouse.”和“c:acomputermousesittingontopofatable.”。文本展示界面还显示有目标图片和重新拍照按钮。其中目标图片设在第一行的第一文本的上方，重新拍照按钮设在目标图片的右上方。当用户点击重新拍照按钮时，作为对该点击操作的响应，手机从显示文本展示界面切换到显示图像拍摄界面，重新拍摄图片。基于此，手机可以重新获取目标图片。148.可选的，当在文本展示界面显示有多媒体教学资源时，响应于用户对文本展示界面的操作，终端设备可以确定目标多媒体教学资源。149.终端设备在文本展示界面显示了多媒体教学资源之后，可以响应于用户对文本展示界面的操作，确定目标多媒体教学资源，该目标多媒体教学资源为目标图片进行图文转换后的结果。150.可选的，终端设备可以采用以下几种方式确定目标多媒体教学资源，本发明实施例在此对确定目标多媒体教学资源的方式不做限定。下面以目标多媒体教学资源为目标文本为例进行描述。151.在一种可能的实现方式中，在文本展示界面中每个第一文本的第一关联位置显示确认框，终端设备可以响应于用户对一个确认框的选择操作，将该一个确认框对应的第一文本确定为目标文本。152.示例性的，结合图9，当用户对图9所示的文本展示界面中第二行的第一文本左侧的确认框进行点击操作时，终端设备可以接收用户对该确认框的点击操作。作为对该点击操作的响应，如图10所示，手机可以对该确认框进行标记，以提示将该确认框对应的第一文本，即第二行的第一文本确定为目标文本。153.在另一种可能的实现方式中，在文本展示界面中每个第一文本的第一关联位置显示确认框，在文本展示界面中每个第一文本的第二关联位置显示编辑按钮。终端设备响应于用户对一个编辑按钮的操作，获取修改后的第一文本，并响应于对修改后的第一文本对应的确认框的选择操作，将修改后的第一文本确定为目标文本。154.示例性的，结合图9，当用户对图9所示的文本展示界面中第三行的第一文本右侧的编辑按钮进行点击操作时，终端设备可以接收用户对该编辑按钮的点击操作。作为对该编辑按钮的点击操作的响应，如图11所示，手机可以在文本展示界面第三行的第一文本所在的位置处显示第一编辑框1101，第一编辑框1101内显示有第三行的第一文本。用户在第一编辑框1101内可以对该第一文本进行修改。当用户修改完成，并对该修改后的第一文本左侧的确认框进行点击操作时，终端设备可以接收用户的点击操作。作为对该确认框的点击操作的响应，手机结束第一编辑框的显示，恢复至显示如图9所示的文本展示界面，并对修改后的第一文本左侧的确认框进行标记，以提示将修改后的第一文本确定为目标文本。155.在另一种可能的实现方式中，在文本展示界面中还显示预设按钮，以及在预设按钮关联位置显示确认框。终端设备可以响应于用户对预设按钮的操作，获取用户输入的文本，响应于对输入的文本对应的确认框的选择操作，将输入的文本确定为目标文本。156.示例性的，结合图9，当用户对图9所示的文本展示界面中的预设按钮，即第四行的“我有更好的描述”按钮进行点击操作时，终端设备可以接收用户的操作。作为对该操作的响应，如图12所示，手机可以从显示文本展示界面切换到显示文本编辑界面，该文本编辑界面包括第二编辑框1201和完成按钮1202。用户在第二编辑框1201内可以输入文本后，可以点击完成按钮1202，终端设备可以接收用户对完成按钮1202的点击操作。作为对该点击操作的响应，手机结束文本编辑界面的显示，并恢复至显示文本展示界面。当用户点击文本展示界面中的用户输入的文本左侧的确认框时，作为对该点击操作的响应，手机对该确认框进行标记，以示将用户输入的文本确定为目标文本。文本编辑界面中第二编辑框1201的左下方还显示有字符统计信息。例如，文本编辑界面中第二编辑框1201的左下方可以显示有“还可以输入53个字符”。157.需要理解的时，在文本展示界面中显示有用户输入文本后，该文本展示界面中与预设按钮关联的确认框才可以被操作。否则，终端设备会显示提示框，以提示用户输入文本。158.结合图3，终端设备还具有语言播放、录音、语音评价等功能。具体的，如图13所示，本发明实施例提供的基于图像处理和识别的多媒体教学资源确定方法还可以包括以下步骤1301-步骤1304。159.1301、终端设备响应于用户对文本展示界面的操作，从显示文本展示界面切换到显示语音播放界面，语音播放界面包括语音播放按钮。160.终端设备在确定出目标多媒体教学资源之后，可以根据目标多媒体教学资源获取对应的目标语音数据。以多媒体教学资源为目标文本为例，具体可以采用以下两种方式来获取目标语音数据。161.在一种可能实现的方式中，终端设备根据目标文本获取目标语音数据可以包括：终端设备将目标文本输入预存的语音合成模型，并输出目标语音数据。162.在另一种可能实现的方式中，终端设备根据目标文本获取目标语音数据可以包括：终端设备在确定出目标文本后，可以生成语言合成请求，并向第二服务器发送语音合成请求，语音合成请求包括目标文本。第二服务器接收到语音合成请求后，将目标文本输入预存的语音合成模型，生成目标语音数据，并向终端设备返回目标语音数据。终端设备便可以接收第二服务器发送的目标语音数据。163.可选的，上述图像处理应用还可以包括语音播放界面，语音播放界面可以包括语音播放按钮和目标文本。终端设备响应于用户在文本展示界面对一个确认框的选择操作，从显示文本展示界面切换到显示语音播放界面。164.示例性的，当用户点击文本展示界面的一个确认框时，手机不仅会对该确认框进行标记，还可以从显示文本展示界面切换到语音播放界面。如图14所示，为手机显示的语音播放界面的示意图。该语音播放界面显示有语音播放按钮1401和目标文本展示框1402，目标文本展示框1402内显示有目标文本。语音播放界面的目标文本展示框1402的下方还显示有目标文本中的单词、当前显示的单词的字符统计数，以及可以显示的字符统计数的最大值。例如，目标文本展示框1402的下方还可以显示“名称”、“mouse&computer”，以及“16/20”。165.1302、终端设备响应于用户对语音播放按钮的操作，输出目标语音数据，目标语音数据是对目标文本进行语音转换后的数据。166.示例性的，结合图14，当用户点击语音播放按钮1401时，作为对该点击操作的响应，手机可以播放目标语音数据。根据该目标语音数据，用户可以进行听力训练。167.1303、终端设备响应于用户对录音按钮的操作，获取跟读语音数据。168.可选的，上述语音播放界面还可以包括录音按钮。当终端设备播放目标语音数据后，用户可以进行跟读。在进行跟读前，用户可以点击语音播放界面中的录音按钮，终端设备响应于用户对录音按钮的操作，进行录音，获取用户的跟读语音数据。169.示例性的，结合图14，语音播放界面还显示有录音按钮1403。当用户点击录音按钮1403时，作为对该点击操作的响应，手机可以对用户的跟读语音进行录音，获取用户的跟读语音数据。170.1304、终端设备根据跟读语音数据和目标等级，获取跟读语音数据的评价结果。171.可选的，上述终端设备显示的语音播放界面除了显示语音播放按钮、录音按钮、目标文本展示框外，还可以显示上传按钮1404。当用户录音完成后，终端设备可以获取到跟读语音数据。当用户点击上传按钮时，作为对该点击操作的响应，终端设备可以根据跟读语音数据和目标等级，获取到评价结果。其中，目标等级可以是上述步骤302中获取到的目标等级。还可以是用户通过对语音播放界面中显示的等级选择按钮进行点击操作后，重新选择的目标等级。172.终端设备在获取到用户的跟读语音数据和目标等级之后，可以根据这两者，获取跟读语音数据的评价结果。本发明实施例中，终端设备可以采取以下两种方式获取该评价结果。173.在一种可能实现的方式中，终端设备可以根据目标等级和预存的评价规则，获取目标等级对应的评价规则，并根据跟读语音数据和目标等级对应的评价规则确定评价结果。174.在另一种可能实现的方式中，终端设备可以响应于用户对上传按钮的点击操作，生成语音评价请求，向第三服务器发送语音评价请求，语音评价请求包括跟读语音数据和目标等级。然后接收第三服务器发送的评价结果。175.需要理解的是，第三服务器根据跟读语音数据和目标等级，确定跟读语音数据的评价结果的过程可以与终端设备执行该过程相同，在此不再赘述。176.由上述可知，用户使用本发明实施例提供的图像处理应用学习时，不仅可以对语法、词汇等书写能力进行训练，还可以学习口语，以及听力训练。177.可选的，在一种场景中，终端设备还可以进行目标图片、目标文本、目标语音数据及跟读语音数据中的至少一种内容的分享。178.在具体的实现过程中，语音播放界面还包括分享按钮，终端设备可以响应于用户对分享按钮的操作，在语音播放界面显示弹框，弹框中包括待分享的内容，待分享的内容包括目标图片、目标文本、目标语音数据、跟读语音数据中的至少一种。终端设备还可以响应于用户对待分享的内容的选择操作，显示分享预览界面，分享预览界面包括选择分享内容多种分享平台按钮。终端设备响应于用户对一个分享平台按钮的操作，向一个分享平台按钮对应的分享平台传输选择分享内容。179.示例性的，结合图14，语音播放界面还可以包括分享按钮1405。当用户点击分享按钮1405时，作为对该点击操作的响应，如图15所示，手机可以在语音播放界面上显示弹框1501，弹框1501中可以包括目标图片、目标文本、目标语音数据、跟读语音数据中的至少一种。用户对待分享内容进行选择后，作为对该选择操作的确认，如图16所示，手机从显示语音播放界面切换到显示分享预览界面。分享预览界面可以包括选择分享内容和四种分享平台按钮1601。用户点击任一分享平台按钮，作为对该点击操作的响应，手机向该一个分享平台按钮对应的分享平台传输选择分享内容。180.示例性的，如图16所示，分享预览界面还显示有返回首页按钮，当用户点击返回首页按钮时，作为对该点击操作的响应，从显示分享预览界面切换到图片获取界面。181.采用本发明实施例提供的图像处理应用，将学习内容可以分享到不同的分享平台，或者分享给老师，使老师能够及时了解到每个用户的学习情况。182.上述主要从基于图像处理和识别的多媒体教学资源确定装置的角度对本发明实施例提供的方案进行了介绍。可以理解的是，基于图像处理和识别的多媒体教学资源确定装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。183.图17示出了上述实施例中涉及的基于图像处理和识别的多媒体教学资源确定装置1700的一种可能的组成示意图，如图17所示，该基于图像处理和识别的多媒体教学资源确定装置1700可以包括：获取单元1701、显示单元1702、确定单元1703、输出单元1704和传输单元1705。184.其中，获取单元1701，用于获取待处理的目标图片，并获取目标语言类型和目标等级，目标语言类型为目标图片转换为多媒体教学资源后使用的语言类型，目标等级用于指示目标图片转换后的多媒体教学资源的复杂程度，并根据目标图片、目标语言类型和目标等级，获取符合目标等级的多媒体教学资源，多媒体教学资源为采用目标语言类型描述目标图片的内容的资源。185.上述多媒体教学资源包括以下至少一项：至少一个第一文本、候选图片、语音数据、视频。其中，候选图片的图像内容中包含至少一个第一文本，语音数据是对至少一个第一文本进行语音转换后的音频数据，视频是基于至少一个第一文本生成的视频。186.获取单元1701，具体用于：187.采用预存的图像识别模型对目标图片进行处理，得到目标图片中的至少一个对象；基于目标等级和预存的语义库对至少一个对象进行语义分析，得到至少一个第一文本；基于至少一个第一文本生成多媒体教学资源。188.获取单元1701，具体用于：189.向服务器发送请求消息，请求消息包括目标图片、目标语言类型和目标等级，并接收服务器发送的多媒体教学资源。190.获取单元1701，具体用于：191.在图片获取界面显示图片获取按钮，响应于用户对图片获取按钮的操作，在图片获取界面上显示获取列表，获取列表中包括至少一种图片获取方式；响应于用户对一种图片获取方式的选择操作，通过一种图片获取方式获取用户选择的图片；从显示图片获取界面切换到显示图片预览界面，在图片预览界面显示用户选择的图片，以及上传按钮；响应于用户对上传按钮的确认操作，获取目标图片。192.显示单元1702，用于在文本展示界面显示获取单元获取到的多媒体教学资源。193.确定单元1703，用于响应于用户对文本展示界面的操作，确定显示单元中显示的多媒体教学资源中的目标多媒体教学资源。194.确定单元1703，具体用于：195.在文本展示界面中每个第一文本的第一关联位置显示确认框，响应于用户对一个确认框的选择操作，将一个确认框对应的第一文本确定为目标文本；或者，在文本展示界面中每个第一文本的第一关联位置显示确认框，每个第一文本的第二关联位置显示编辑按钮，响应于用户对一个编辑按钮的操作，获取修改后的第一文本，响应于对修改后的第一文本对应的确认框的选择操作，将修改后的第一文本确定为目标文本；或者，在文本展示界面中还显示预设按钮，响应于用户对预设按钮的操作，获取用户输入的文本，响应于对输入的文本对应的确认框的选择操作，将输入的文本确定为目标文本。196.显示单元1702，还用于响应于用户对文本展示界面的操作，从显示文本展示界面切换到显示语音播放界面，语音播放界面包括语音播放按钮.197.输出单元1704，响应于用户对语音播放按钮的操作，输出目标语音数据，目标语音数据是对目标文本进行语音转换后的数据。198.上述语音播放界面还包括录音按钮。199.获取单元1701，还用于响应于用户对录音按钮的操作，获取跟读语音数据，并根据跟读语音数据和目标等级，获取跟读语音数据的评价结果。200.获取单元1701，具体用于：201.获取目标等级对应的评价规则，根据跟读语音数据和目标等级对应的评价规则确定评价结果；或者，向服务器发送语音评价请求，语音评价请求包括跟读语音数据和目标等级，接收服务器发送的评价结果。202.上述语音播放界面还包括分享按钮。203.显示单元1702，还用于响应于用户对分享按钮的操作，在语音播放界面显示弹框，弹框中包括待分享的内容，待分享的内容包括目标图片、目标文本、目标语音数据、跟读语音数据中的至少一种，并响应于用户对待分享的内容的选择操作，显示分享预览界面，分享预览界面包括选择分享内容和多种分享平台按钮.204.传输单元1705，用于响应于用户对一个分享平台按钮的操作，向一个分享平台按钮对应的分享平台传输选择分享内容。205.当然，本发明实施例提供的基于图像处理和识别的多媒体教学资源确定装置1700包括但不仅限于上述模块。206.本发明另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在基于图像处理和识别的多媒体教学资源确定装置1700上运行时，使得基于图像处理和识别的多媒体教学资源确定装置1700执行上述方法实施例所示的方法流程中基于图像处理和识别的多媒体教学资源确定装置1700执行的各个步骤。207.本发明另一实施例还提供一种芯片系统，该芯片系统应用于基于图像处理和识别的多媒体教学资源确定装置1700。所述芯片系统包括一个或多个接口电路，以及一个或多个处理器21。接口电路和处理器21通过线路互联。接口电路用于从基于图像处理和识别的多媒体教学资源确定装置1700的存储器22接收信号，并向处理器21发送所述信号，所述信号包括所述存储器22中存储的计算机指令。当处理器21执行计算机指令时，基于图像处理和识别的多媒体教学资源确定装置1700执行上述方法实施例所示的方法流程中基于图像处理和识别的多媒体教学资源确定装置1700执行的各个步骤。208.在本发明另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括指令，当指令在基于图像处理和识别的多媒体教学资源确定装置1700上运行时，使得基于图像处理和识别的多媒体教学资源确定装置1700执行上述方法实施例所示的方法流程中基于图像处理和识别的多媒体教学资源确定装置1700执行的各个步骤。209.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solidstatedisk，ssd))等。210.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种人脸纹理图的生成方法、装置、存储介质及设备与流程

基于图像处理和识别的多媒体教学资源确定方法及装置与流程

相关文献

最热文献