技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文本自动分类和标签化方法与流程 > 正文

一种文本自动分类和标签化方法与流程

国知局
2024-10-21 15:07:10

本发明涉及文本分类，具体涉及一种文本自动分类和标签化方法。

背景技术：

1、文本自动分类和标签化是指利用计算机算法和技术对文本数据进行处理和分析，从而自动将文本分配到预定义的类别或者给文本添加标签的过程；广泛应用于各个领域，例如商品评价分类，新闻文章分类、电子邮件分类以及医学文本分类等领域，通过将不同的文本进行自动分类和标签化，能够大幅提升数据处理效率，帮助用户从海量文本数据中快速获取有价值的信息和洞见；

2、在商品评价分类领域，尤其是在线上购物时，一些客户在面对自己不熟悉的产品时，往往都会根据产品的评价做出自己的选择，因此，需要通过自动化的方法对商品评价进行分类和标签化。例如，将评论自动分类为“正面”“中性”或“负面”，并提取关键主题如“质量”“价格”“使用体验”等。这不仅帮助消费者更快地找到他们关心的信息，还能帮助商家了解产品的优缺点，及时改进产品和服务。

3、传统的文本自动分类和标签化方法在对于商品评价进行分类时，一般情况下都是通过将所有的评价文本一一输入至预设的文本分类标签模型，来实现对评价文本的精确分类和标签化，然而对于一些评价识别较为容易的评价文本，仍选择上述的方式来分类和标签化，可能会导致分类时间较慢，从而不能及时地更新产品的真实评价状态。

技术实现思路

1、本发明的目的就在于解决分类时间较慢，从而不能及时地更新产品的真实评价状态的问题，而提出的一种文本自动分类和标签化方法。

2、本发明提出一种文本自动分类和标签化方法，所述方法包括：

3、将目标商品在目标平台的所有评价文本作为第一评价文本集，并获取所述第一评价文本集中每一评价文本的可用性数据，根据可用性数据得到该评价文本的可用系数；所述可用性数据包括文本时效系数和用户可靠系数；

4、根据可用系数和预设可用系数阈值筛选出第一评价文本集中的可用文本，得到第二评价文本集；

5、获取所述第二评价文本集中每一文本的可分析难易数据，根据所述可分析难易数据得到该文本的分析难易系数；所述可分析难易数据包括句子熵值和关键词距离长度；

6、根据分析难易系数将第二评价文本集中所有文本对应的分配到预设的不同类型的文本分类标签模型进行分类和标签化。

7、可选地，所述文本时效系数的获取方法为：

8、获取所述第一评价文本集中每一评价文本的所对应的账户下单时间和评价发布时间，并计算两者的差值，得到该评价文本的使用时间；

9、获取该评价文本的所对应的账号收货地址和商品发货地址，计算收货地址和商品发货地址的最近可行驶距离，并获取所对应的运输快递的历史最高运输速度，计算最近可行驶距离和历史最高运输速度之间的商，记为最快间隔时间；

10、计算所述使用时间和所述最快间隔时间之间的差值，得到文本时效系数。

11、可选地，所述用户可靠系数的获取方法为：

12、获取所述第一评价文本集中每一评价文本的所对应的账户创建时间，以及在账户创建时间账号评价频率和同类产品评价数量，根据账户创建时间、账号评价频率和同类产品评价数量得到用户可靠系数，具体公式为：

13、dg＝td(a1*es+a2*er)

14、式中，dg为用户可靠系数，td为账户创建时间，es为账号评价频率，er同类产品评价数量，a1、a2为账号评价频率和同类产品评价数量的比例系数，且a1、a2均大于0。

15、可选地，根据可用性数据得到该评价文本的可用系数包括：

16、将文本时效系数和用户可靠系数进行加权求和，得到可用系数；计算的表达式为：

17、

18、式中，edg为可用系数，wh和dg分别表示文本时效系数和用户可靠系数，b1、b2为文本时效系数和用户可靠系数的比例系数，且b1、b2均大于0。

19、可选地，根据可用系数和预设可用系数阈值筛选出第一评价文本集中的可用文本，得到第二评价文本集包括：

20、将第一评价文本集中每一文本的可用系数和预设可用系数阈值进行对比，若可用系数不小于预设可用系数阈值，则将该文本记为可用文本，若可用系数小于预设可用系数阈值，则将该文本记为不可用文本；

21、提取第一评价文本集中的所有的可用文本作为第二评价文本集。

22、可选地，所述句子熵值的获取方法包括：

23、提取第二评价文本集中每一文本中的总词数，将该文本中每个词出现的次数除以总词数，得到每个词的出现概率；

24、提取该文本中所有的词性类型，并获取每一词性类型所对应的词量，并将该词性类型所对应的词量除以总词数，得到该词性类型的词量权重；

25、将该词性类型的词量权重乘以对应的预设难度权重，得到实际难度权重；

26、获取该文本中所有的词性类型的实际难度权重，并结合每个词的出现概率，得到该文本的句子熵值，具体的公式为：

27、

28、式中，h(s)为该文本的句子熵值，n为总词数，ai为第一i个词所对应的词性类型的词量，bi第i个词所对应的词性类型的预设难度权重，p(wi)为第i个词出现的概率，wi为文本中的第i个词。

29、可选地，根据所述可分析难易数据得到该文本的分析难易系数包括：

30、将句子熵值和关键词距离长度进行加权求和，得到分析难易系数；计算的表达式为：

31、

32、式中，sqa为分析难易系数，h(s)和fy分别表示句子熵值和关键词距离长度，c1、c2为句子熵值和关键词距离长度的比例系数，且c1、c2均大于0。

33、可选地，根据分析难易系数将第二评价文本集中所有文本对应的分配到预设的不同类型的本分类标签模型进行分类和标签化包括：

34、将分析难易系数和预设分析难易系数阈值进行对比，若分析难易系数不小于预设分析难易系数阈值，则将该分析难易系数对应的评价文本一一输入至预设的基于支持向量机的文本分类标签模型，得到该评价文本对应的分类和标签；

35、若分析难易系数小于预设分析难易系数阈值，将若干分析难易系数相加，得到可输入系数，当相加的结果不大于预设可输入系数阈值，将可输入系数中所包含的分析难易系数对应的评价文本共同输入至预设的基于深度学习的文本分类标签模型，得到多个评价文本对应的分类和标签。

36、本发明的有益效果：

37、本发明提出了一种文本自动分类和标签化方法，能够降低文本自动分类的时间，且能够及时地更新产品的真实评价状态，不会造成商家和用户对商品的误解。

技术特征：

1.一种文本自动分类和标签化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，所述文本时效系数的获取方法为：

3.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，所述用户可靠系数的获取方法为：

4.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，根据可用性数据得到该评价文本的可用系数包括：

5.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，根据可用系数和预设可用系数阈值筛选出第一评价文本集中的可用文本，得到第二评价文本集包括：

6.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，所述句子熵值的获取方法包括：

7.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，根据所述可分析难易数据得到该文本的分析难易系数包括：

8.根据权利要求1所述的一种文本自动分类和标签化方法，其特征在于，根据分析难易系数将第二评价文本集中所有文本对应的分配到预设的不同类型的本分类标签模型进行分类和标签化包括：

技术总结本发明公开了一种文本自动分类和标签化方法，具体涉及文本分类技术领域，本发明通过所有评价文本的可用性数据，根据可用性数据得到该评价文本的可用系数，根据可用系数和预设可用系数阈值筛选出第一评价文本集中的可用文本，再对每个可用文本采集对应的句子熵值和关键词距离长度得到分析难易系数，根据分析难易系数将对应的评价文本分别输入至预设的基于深度学习的文本分类标签模型和预设的基于支持向量机的文本分类标签模型对评价文本进行分类和标签化，这样以来，能够降低文本自动分类的时间，且能够及时地更新产品的真实评价状态，不会造成商家和用户对商品的误解。技术研发人员：王鑫,刘辉,肖家锴,孙伟,邢璐,潘如轩,蔡翔,王庆军,赵龙,王潇,仇茹嘉,史伟豪受保护的技术使用者：国网安徽省电力有限公司电力科学研究院技术研发日：技术公布日：2024/10/17