一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于企业培训的高效型知识库深度检索方法与流程

2022-06-02 18:10:36 来源:中国专利 TAG:


1.本发明涉及企业培训的高效型知识库深度检索领域,具体为基于企业培训的高效型知识库深度检索方法。


背景技术:

2.知识库有两种含义,一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库,这种知识库是与具体的专家系统有关,不存在知识库的共享问题,另一种是指具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的,从今后的发展来看,巨型知识库将会出现,还依赖于硬件及软件条件的发展,下一代计算机所应考虑的重要问题之一是知识库的设计,以知识库为背景的知识库公共管理系统机构设计。
3.传统方法无法对视频中的ppt内容进行识别,只能检索到对应文件,但是无法直接定位到文件中与关键词相关的内容所在位置,需要浏览整个文件才能找到想要的内容,效率低下。


技术实现要素:

4.(一)解决的技术问题针对现有技术的不足,本发明提供了基于企业培训的高效型知识库深度检索方法,解决传统方法无法对视频中的ppt内容进行识别,只能检索到对应文件,但是无法直接定位到文件中与关键词相关的内容所在位置,需要浏览整个文件才能找到想要的内容,效率低下的问题。
5.(二)技术方案为实现以上目的,本发明通过以下技术方案予以实现:基于企业培训的高效型知识库深度检索方法,包括微课、ppt解析、音视频转文字、elasticsearch技术、搜索词条,所述微课中包含的文件上传至服务端,并对文件进行解析,将不同格式文件中的内容转为文字信息,并对文字信息标记时间戳,所述ppt解析将ppt文件转换为指定格式且有序的json数组,json数组中对象的属性包括ppt页数、ppt封面、ppt内容等信息,录制微课或者通过直播回放创建微课时会生成基于ppt页数操作的指令文件,指令文件中记录了对应操作时间点,解析指令文件,根据指令文件中的记录的ppt页数找出ppt的内容信息,将时间点,匹配出的ppt内容等信息封装成对象数组存储到elasticsearch索引中内嵌字段。
6.优选的,所述音视频转文字借助阿里云媒体处理能力,将视频转换成音频并识别出字幕,字幕转换成指定格式且有序的json数组,其中json数组中对象的属性包括字幕时间、字幕内容等信息。
7.优选的,所述elasticsearch技术将文字信息构建索引,索引格式包括搜索的基本信息,利用内嵌字段技术,一个用于存储ppt解析的文本信息,一个用于存储语音转换的字幕文本信息。
8.优选的,所述搜索词条运用elasticsearch中文分词插件ik进行分词搜索,到索引中查询并展示匹配的微课内容,同时配合配置文件动态配置时间、ppt内容、字幕内容等字段权重值,实现搜索结果的动态化排序展示。
9.优选的,所述微课结果中,展示与关键词匹配的内容片段,先通过传递用户搜索的关键字和结果数据中的对应时间点,之后在结果页,内容片段会按照时间维度排序展示,内容片段携带每个片段对应的关键字和时间点,当用户去点击该片段,调用相应方法去设置浏览器原生的video的currenttime 时间点,直接跳转该时间点并开始播放。
10.(三)有益效果本发明提供了基于企业培训的高效型知识库深度检索方法。具备以下有益效果:1、本发明解决了企业培训领域中,搜索不到媒体文件中详细内容的问题,同时在检索完成后,对目标内容进行帧级别的定位,提升了搜索和观看的效率。
附图说明
11.图1为本发明深度搜索泳道结构示意图。
具体实施方式
12.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
13.实施例一:如图1所示,本发明实施例提供基于企业培训的高效型知识库深度检索方法,包括微课、ppt解析、音视频转文字、elasticsearch技术、搜索词条,微课中包含的文件上传至服务端,并对文件进行解析,将不同格式文件中的内容转为文字信息,并对文字信息标记时间戳,ppt解析将ppt文件转换为指定格式且有序的json数组,json数组中对象的属性包括ppt页数、ppt封面、ppt内容等信息,录制微课或者通过直播回放创建微课时会生成基于ppt页数操作的指令文件,指令文件中记录了对应操作时间点,解析指令文件,根据指令文件中的记录的ppt页数找出ppt的内容信息,将时间点,匹配出的ppt内容等信息封装成对象数组存储到elasticsearch索引中内嵌字段,音视频转文字借助阿里云媒体处理能力,将视频转换成音频并识别出字幕,字幕转换成指定格式且有序的json数组,其中json数组中对象的属性包括字幕时间、字幕内容等信息,elasticsearch技术将文字信息构建索引,索引格式包括搜索的基本信息,利用内嵌字段技术,一个用于存储ppt解析的文本信息,一个用于存储语音转换的字幕文本信息,解决了企业培训领域中,搜索不到媒体文件中详细内容的问题,同时在检索完成后,对目标内容进行帧级别的定位,提升了搜索和观看的效率。
14.实施例二:如图1所示,本发明实施例提供基于企业培训的高效型知识库深度检索方法,搜索词条运用elasticsearch中文分词插件ik进行分词搜索,到索引中查询并展示匹配的微课内容,同时配合配置文件动态配置时间、ppt内容、字幕内容等字段权重值,实现搜索结果的动态化排序展示,微课结果中,展示与关键词匹配的内容片段,先通过传递用户搜索的关键
字和结果数据中的对应时间点,之后在结果页,内容片段会按照时间维度排序展示,内容片段携带每个片段对应的关键字和时间点,当用户去点击该片段,调用相应方法去设置浏览器原生的video的currenttime 时间点,直接跳转该时间点并开始播放,增大发明方法的实现效果,增大搜索和观看的效率。
15.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。


技术特征:
1.基于企业培训的高效型知识库深度检索方法,包括微课、ppt解析、音视频转文字、elasticsearch技术、搜索词条,其特征在于:所述微课中包含的文件上传至服务端,并对文件进行解析,将不同格式文件中的内容转为文字信息,并对文字信息标记时间戳,所述ppt解析将ppt文件转换为指定格式且有序的json数组,json数组中对象的属性包括ppt页数、ppt封面、ppt内容等信息,录制微课或者通过直播回放创建微课时会生成基于ppt页数操作的指令文件,指令文件中记录了对应操作时间点,解析指令文件,根据指令文件中的记录的ppt页数找出ppt的内容信息,将时间点,匹配出的ppt内容等信息封装成对象数组存储到elasticsearch索引中内嵌字段。2.根据权利要求1所述的基于企业培训的高效型知识库深度检索方法,其特征在于:所述音视频转文字借助阿里云媒体处理能力,将视频转换成音频并识别出字幕,字幕转换成指定格式且有序的json数组,其中json数组中对象的属性包括字幕时间、字幕内容等信息。3.根据权利要求1所述的基于企业培训的高效型知识库深度检索方法,其特征在于:所述elasticsearch技术将文字信息构建索引,索引格式包括搜索的基本信息,利用内嵌字段技术,一个用于存储ppt解析的文本信息,一个用于存储语音转换的字幕文本信息。4.根据权利要求1所述的基于企业培训的高效型知识库深度检索方法,其特征在于:所述搜索词条运用elasticsearch中文分词插件ik进行分词搜索,到索引中查询并展示匹配的微课内容,同时配合配置文件动态配置时间、ppt内容、字幕内容等字段权重值,实现搜索结果的动态化排序展示。5.根据权利要求1所述的基于企业培训的高效型知识库深度检索方法,其特征在于:所述微课结果中,展示与关键词匹配的内容片段,先通过传递用户搜索的关键字和结果数据中的对应时间点,之后在结果页,内容片段会按照时间维度排序展示,内容片段携带每个片段对应的关键字和时间点,当用户去点击该片段,调用相应方法去设置浏览器原生的video的currenttime 时间点,直接跳转该时间点并开始播放。

技术总结
本发明提供基于企业培训的高效型知识库深度检索方法,涉及企业培训的高效型知识库深度检索领域。该基于企业培训的高效型知识库深度检索方法,包括微课、PPT解析、音视频转文字、ElasticSearch技术、搜索词条,所述微课中包含的文件上传至服务端,并对文件进行解析,将不同格式文件中的内容转为文字信息,并对文字信息标记时间戳,所述PPT解析将PPT文件转换为指定格式且有序的json数组,json数组中对象的属性包括PPT页数、PPT封面、PPT内容等信息,录制微课或者通过直播回放创建微课时会生成基于PPT页数操作的指令文件。使得本发明解决了企业培训领域中,搜索不到媒体文件中详细内容的问题,同时在检索完成后,对目标内容进行帧级别的定位,提升了搜索和观看的效率。提升了搜索和观看的效率。提升了搜索和观看的效率。


技术研发人员:卢小燕 崔峻 盛银江 李祥驰
受保护的技术使用者:云学堂信息科技(江苏)有限公司
技术研发日:2022.03.09
技术公布日:2022/6/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献