技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文本纠正方法及装置与流程 > 正文

一种文本纠正方法及装置与流程

国知局
2024-12-06 13:08:54

本发明涉及计算机自动检测与编辑，尤其涉及一种文本纠正方法及装置。

背景技术：

1、对科技论文进行编辑加工是编辑工作的一个重要环节，主要分为内容加工、技术加工和语言加工3个方面。目前，市面上常规编辑软件都具备查错、纠正功能，但其主要针对论文语言逻辑、错别字、符号等方面进行修改，涉及专业技术则无能为力，且其基础数据库相对固定，用户难以根据自身需求进行修改，在一定程度上制约了编辑校对工作发展。

2、对于科技论文而言，技术加工往往是重点、难点，其涉及学术性和科学性问题较多、知识面较广，编辑人员难以在短时间内掌握，通常依赖于在长期办刊过程中反复摸索、总结出来的经验（包括审读会、定稿会约定规则、行业规范、专家建议等，下称“经验规则”），由于这种经验规则具有一定个性化，分布专业领域较广、十分繁琐，编辑人员难以掌握且出错率较高，无法满足科技期刊数据化、信息化的需求。

3、因此，如何利用信息化技术将经验规则用于科技论文编辑实现论文智慧化检测纠正，从而提高编辑人员工作效率具有一定的实际意义。

技术实现思路

1、本发明提供一种文本纠正方法及装置，用以解决现有技术中编辑人员工作效率较低的缺陷。

2、第一方面，本发明提供一种文本纠正方法，包括：对当前文档进行预处理，构建当前文档的词汇表；将当前文档的词汇表输入至预先训练完成的word2vec模型，提取词汇表中每一词汇的word2vec词向量；并且，在预设文档集合下，利用tf-idf算法计算每个文档中所述每一词汇对应的tf-idf值，构建所述每一词汇的tf-idf特征向量；对所述每一词汇的tf-idf特征向量和word2vec词向量进行向量特征融合形成所述每一词汇的向量表示；根据所述每一词汇的向量表示，在预设数据库中匹配对应的目标错误词；其中，所述预设数据库中包括一一对应的多种错误词与规范词，所述错误词是指不符合预设标准的词语，所述规范词是符合预设标准的词语，所述预设标准是根据行业标准和专家规则确定的；利用目标错误词对应的规范词，对当前文档中的所述每一词汇进行替换，以实现对当前文档的文本纠正。

3、根据本发明提供的文本纠正方法，还包括：根据匹配结果和/或替换结果，对word2vec模型和/或向量特征融合的方式进行调整。

4、根据本发明提供的文本纠正方法，对当前文档进行预处理，构建当前文档的词汇表，包括：对当前文档进行文本清洗和分词，以构建当前文档的词汇表。

5、根据本发明提供的文本纠正方法，在预设文档集合下，利用tf-idf算法计算每个文档中所述每一词汇对应的tf-idf值，构建所述每一词汇的tf-idf特征向量，包括：计算所述每一词汇在每个文档的词汇表中的词频tf，计算所述每一词汇在预设文档集合中的逆文档频率idf；根据所述每一词汇在每个文档的词汇表中的词频tf，以及在预设文档集合中的逆文档频率idf，计算每个文档中的所述每一词汇对应的tf-idf值；根据每个文档中的所述每一词汇对应的tf-idf值，构建所述每一词汇的tf-idf特征向量。

6、根据本发明提供的文本纠正方法，对所述每一词汇的tf-idf特征向量和word2vec词向量进行向量特征融合形成所述每一词汇的向量表示，包括：对所述每一词汇的tf-idf特征向量和word2vec词向量进行维度统一；对所述tf-idf特征向量和所述word2vec词向量进行加权特征融合，形成加权融合向量；对所述加权融合向量进行归一化处理，生成所述每一词汇的向量表示。

7、根据本发明提供的文本纠正方法，根据所述每一词汇的向量表示，在预设数据库中匹配对应的目标错误词，包括：计算所述每一词汇的向量表示与预设数据库中错误词的向量表示之间的相似度；其中，错误词的向量表示是预先构建完成的；在预设数据库中存在与所述每一词汇的相似度大于预设相似度阈值的错误词的情况下，将相似度最大的错误词作为所述目标错误词。

8、根据本发明提供的文本纠正方法，对当前文档进行预处理的操作还至少包括以下操作中的一种：去除停用词、词干提取、词性标注以及转换为小写操作。

9、第二方面，本发明还提供一种文本纠正装置，包括：

10、文档处理模块，用于对当前文档进行预处理，构建当前文档的词汇表；

11、特征提取模块，用于将当前文档的词汇表输入至预先训练完成的word2vec模型，提取词汇表中每一词汇的word2vec词向量；并且，在预设文档集合下，利用tf-idf算法计算每个文档中所述每一词汇对应的tf-idf值，构建所述每一词汇的tf-idf特征向量；

12、特征融合模块，用于对所述每一词汇的tf-idf特征向量和word2vec词向量进行向量特征融合形成所述每一词汇的向量表示；

13、匹配模块，用于根据所述每一词汇的向量表示，在预设数据库中匹配对应的目标错误词；其中，所述预设数据库中包括一一对应的多种错误词与规范词，所述错误词是指不符合预设标准的词语，所述规范词是符合预设标准的词语，所述预设标准是根据行业标准和专家规则确定的；

14、文本替换纠正模块，用于利用目标错误词对应的规范词，对所述每一词汇进行替换，以实现对当前文档的文本纠正。

15、第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本纠正方法的步骤。

16、第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本纠正方法的步骤。

17、本发明提供的文本纠正方法及装置，将文本编辑处理过程中的经验规则进行整合，预先建立一个高质量的错误词－规范词数据库，将传统由主要依靠人工编辑（受个体的学习、记忆能力影响较大）转变至集成式计算系统自动完成，一是通过数据整合将原本分散、多元、复杂的文本编辑工作，整合至计算机程序中，将经验规则最大化利用，有效避免了工作成果的流失；二是有助于引导编辑初学者快速把握重点，降低科技论文的编辑难度；三是大幅度提高了文本编辑效率，降低了文本的编校质量差错率。

18、本发明不仅考虑了词的语义信息（通过word2vec模型），还考虑了词在具体上下文中的重要性（通过tf-idf值），使得纠正的结果更加准确和合理。

技术特征：

1.一种文本纠正方法，其特征在于，包括：

2.根据权利要求1所述的文本纠正方法，其特征在于，还包括：

3.根据权利要求1所述的文本纠正方法，其特征在于，对当前文档进行预处理，构建当前文档的词汇表，包括：

4.根据权利要求1所述的文本纠正方法，其特征在于，在预设文档集合下，利用tf-idf算法计算每个文档中所述每一词汇对应的tf-idf值，构建所述每一词汇的tf-idf特征向量，包括：

5.根据权利要求1所述的文本纠正方法，其特征在于，对所述每一词汇的tf-idf特征向量和word2vec词向量进行向量特征融合形成所述每一词汇的向量表示，包括：

6.根据权利要求1所述的文本纠正方法，其特征在于，根据所述每一词汇的向量表示，在预设数据库中匹配对应的目标错误词，包括：

7.根据权利要求1所述的文本纠正方法，其特征在于，对当前文档进行预处理的操作还至少包括以下操作中的一种：

8.一种文本纠正装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述文本纠正方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本纠正方法的步骤。

技术总结本发明提供一种文本纠正方法及装置，所述方法包括：对当前文档进行预处理，构建当前文档的词汇表；将当前文档的词汇表输入至预先训练完成的Word2Vec模型，提取词汇表中每一词汇的Word2Vec词向量；并且，在预设文档集合下，利用TF‑IDF算法计算每个文档中所述每一词汇对应的TF‑IDF值，构建所述每一词汇的TF‑IDF特征向量；对所述每一词汇的TF‑IDF特征向量和Word2Vec词向量进行向量特征融合形成所述每一词汇的向量表示；根据所述每一词汇的向量表示，在预设数据库中匹配对应的目标错误词；利用目标错误词对应的规范词，对当前文档中的所述每一词汇进行替换，以实现对当前文档的文本纠正。本发明大幅度提高了文本编辑效率，有效降低了文本的编校质量差错率。技术研发人员：舒忠磊,黄艳艳,江焘,程晖,黎钢,唐湘茜,刘媛,江文,李晗,高小雲,郭甜甜,张爽,马莹受保护的技术使用者：长江水利委员会网络与信息中心技术研发日：技术公布日：2024/12/2