一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分词方法、装置、电子设备及可读存储介质与流程

2022-07-02 11:56:29 来源:中国专利 TAG:

技术特征:
1.一种分词方法,其特征在于,所述方法包括:从待分词文本中,获得所述待分词文本中每个字符对应的候选分词集,其中,任意一个字符对应的所述候选分词集中包括以所述字符为起始字符的候选分词,在所述候选分词中包括多个字符时,所述多个字符为所述待分词文本中的连续字符;根据每个字符对应的候选分词集,通过动态规划方式,以候选分词结果中包括的各候选分词的字符串长度乘积最大为目标,按照从后往前的顺序对所述待分词文本中的各字符进行遍历,获得所述候选分词结果,其中,任意一个所述候选分词结果中的所述候选分词总和构成所述待分词文本;根据获得的所述候选分词结果,确定目标分词结果。2.根据权利要求1所述的方法,其特征在于,所述根据每个字符对应的候选分词集,通过动态规划方式,以候选分词结果中包括的各候选分词的字符串长度乘积最大为目标,按照从后往前的顺序对所述待分词文本中的各字符进行遍历,获得候选分词结果,包括:对遍历到的当前字符对应的所述候选分词集中的候选分词进行遍历,根据遍历到的所述当前字符对应的当前候选分词的字符串长度、以及目标位置对应的最优局部分词结果及最大局部乘积,获得该当前候选分词对应的当前候选局部分词结果及当前候选局部乘积,其中,所述目标位置为所述当前候选分词的最后一个字符在所述待分词文本中的位置之后的第一个位置,所述目标位置对应的最大局部乘积为该最大局部乘积所对应的最优局部分词结果中所包括的候选分词的字符串长度的乘积;将最大的当前候选局部乘积作为所述当前字符所在位置对应的当前最大局部乘积,并将所述当前最大局部乘积所对应的当前候选局部分词结果作为所述当前字符所在位置对应的当前最优局部词结果,其中,所述待分词文本中第一个字符所在位置对应的最优局部分词结果为所述候选分词结果。3.根据权利要求1或2所述的方法,其特征在于,在所述候选分词结果为多个的情况下,所述根据获得的所述候选分词结果,确定目标分词结果,包括:获得各所述候选分词结果的分词颗粒度,其中,所述分词颗粒度用于表示分词拆分的颗粒度粗细;选择最小分词颗粒度对应的所述候选分词结果,作为所述目标分词结果。4.根据权利要求3所述的方法,其特征在于,所述分词颗粒度根据所述候选分词结果包括的候选分词数量确定,所述分词颗粒度与所述候选分词结果包括的候选分词数量反相关。5.根据权利要求1或2所述的方法,其特征在于,在所述候选分词结果为多个的情况下,所述根据获得的所述候选分词结果,确定目标分词结果,包括:根据预设词库中包括的预设分词及词频,获得各所述候选分词结果中所包括的分词的词频之和作为各所述候选分词结果对应的词频总数;选出最大词频总数对应的所述候选分词结果,作为所述目标分词结果。6.根据权利要求5所述的方法,其特征在于,所述预设词库通过以下方式获得:从预设数据源中获得多个所述预设分词;统计各所述预设分词在所述预设数据源中的出现次数,并将各所述预设分词对应的出现次数作为该预设分词的词频。
7.根据权利要求1所述的方法,其特征在于,预设词库中包括多个预设分词,所述从待分词文本中,获得所述待分词文本中每个字符对应的候选分词集,包括:根据所述预设词库,针对所述待分词文本中的各字符,从所述待分词文本中找出至少一个以该字符为起始字符且与一个所述预设分词相同的字符串,作为该字符对应的所述候选分词。8.一种分词装置,其特征在于,所述装置包括:分词集获得模块,用于从待分词文本中,获得所述待分词文本中每个字符对应的候选分词集,其中,任意一个字符对应的所述候选分词集中包括以所述字符为起始字符的候选分词,在所述候选分词中包括多个字符时,所述多个字符为所述待分词文本中的连续字符;处理模块,用于根据每个字符对应的候选分词集,通过动态规划方式,以候选分词结果中包括的各候选分词的字符串长度乘积最大为目标,按照从后往前的顺序对所述待分词文本中的各字符进行遍历,获得所述候选分词结果,其中,任意一个所述候选分词结果中的所述候选分词总和构成所述待分词文本;结果确定模块,用于根据获得的所述候选分词结果,确定目标分词结果。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-7中任意一项所述的分词方法。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的分词方法。

技术总结
本申请提供了一种分词方法、装置、电子设备及可读存储介质,涉及计算机技术领域。该方法包括:从待分词文本中,获得待分词文本中每个字符对应的候选分词集,任意一个字符对应的候选分词集中包括以该字符为起始字符的候选分词,在候选分词中包括多个字符时,该多个字符为待分词文本中的连续字符;根据每个字符对应的候选分词集,通过动态规划方式,以候选分词结果中包括的各候选分词的字符串长度乘积最大为目标,按照从后往前的顺序对待分词文本中的各字符进行遍历,获得候选分词结果,进而确定目标分词结果,任意一个候选分词结果中的候选分词总和构成待分词文本。如此,无需使用训练集训练分词模型,同时可保证分词结果的准确性。确性。确性。


技术研发人员:王哲
受保护的技术使用者:上海喜马拉雅科技有限公司
技术研发日:2022.04.18
技术公布日:2022/7/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献