技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大语言模型的论文选题辅助方法、系统、介质和设备 > 正文

基于大语言模型的论文选题辅助方法、系统、介质和设备

国知局
2024-07-31 22:35:46

本发明涉及人工智能领域，具体涉及一种基于大语言模型的论文选题辅助方法、系统、介质和设备。

背景技术：

1、论文是一种学术性的写作作品，用于传达作者对某一特定主题的研究、分析和观点，论文通常是在特定学术或研究领域中，经过深入调查和分析后，对问题进行系统性的思考和阐述的成果。

2、在论文的写作流程中，选题作为整个写作流程的起始点，也是论文的研究方向的筛选与切入点，作者在写作时需要对选题现状进行区分与筛选，特别是在毕业论文的写作流程中，选题的好坏将直接影响到后续论文的写作难易程度。已有公开号为cn110532344a的《基于深度神经网络模型的自动选题系统》给出了关于神经网络模型的自动选题系统的技术方案，这一技术方案中并未考虑到用户的学术信息，而是直接基于vip等级对用户给出的选题领域进行划分，无法兼顾到不同学术信息的用户的个体化需求，导致选题系统所筛选出的选题在不同的学术水平下的写作难易程度不同。

技术实现思路

1、鉴于上述问题，本发明提供了一种基于大语言模型的论文选题辅助方法、系统、介质和设备，解决了现有的论文选题系统无法兼顾到不同学术信息的用户的个体化需求的问题。

2、为实现上述目的，在第一方面，本发明提供了一种基于大语言模型的论文选题辅助方法，包括：

3、获取论文选题范围，论文选题范围包括论文选题所涉及的研究领域，从文献数据库中筛分出论文选题范围所涵盖的文献并将筛选出的文献按照论文选题所涉及的研究领域进行一次分类，以生成多个第一选题数据集；

4、对每一第一选题数据集执行如下步骤：

5、记第一选题数据集中的文献为第一文献，将第一文献依次输入至分类模型中，分类模型基于每一接收的第一文献的研究领域进行二次分类，得到与第一选题数据集对应的多个第二选题数据集，记第二选题数据集中的文献为第二文献；

6、逐一对第二文献的文字内容进行识别，生成以第二选题数据集为最小单位的第一文字内容；

7、根据第一文字内容生成当前第二选题数据集对应的第一选题评测报告；以及

8、获取第一标签集合以及第一用户信息，第一标签集合内含有多个第一预设标签，每一第一预设标签对应于一个调研类别，第一用户信息包含有当前用户的学术信息，学术信息包括当前用户对应的学术水平信息、学术研究领域以及学科成绩分布中的至少一项；

9、根据第一标签集合、第一用户信息以及第一文字内容在文献数据库中进行检索并分析，以生成当前第二选题数据集的第二选题评测报告；

10、根据第一选题评测报告以及第二选题评测报告生成当前第二选题数据集的初版选题评测报告，再将多个初版选题评测报告汇总以生成当前第一选题数据集的综合选题评测报告；

11、将多个综合选题评测报告进行汇总，以形成最终选题评测报告并展示。

12、在一些实施例中，逐一对第二文献的文字内容进行识别，生成以第二选题数据集为最小单位的第一文字内容包括：

13、获取当前第二选题数据集中每一第二文献的基础文献信息，基础文献信息包括第二文献涉及的具体研究领域、文献发布时间以及文献作者信息；

14、逐一将第二文献的内容以及第二文献对应的基础文献信息输入至训练完毕的神经网络模型中，神经网络模型的输出结果为当前第二文献的方案信息；

15、将多个方案信息进行整合与归类，得到第一文字内容。

16、在一些实施例中，方法还包括：

17、获取论文配图信息以及论文文字信息，论文配图信息包括多个配图；

18、对论文文字信息按照第一预设方式进行内容识别并切分，得到多个文字内容信息组，每一文字内容信息组包含有一个第一中心主题；

19、对多个配图进行图像识别，得到配图对应的配图内容信息，每一配图内容信息具有一个第二中心主题；

20、将第一中心主题与第二中心主题进行匹配，得到图文匹配结果，并根据图文匹配结果并生成第一图文索引；以及

21、将配图按照图文匹配结果插入至相匹配的文字内容信息组中，得到最终含有配图的文字内容信息组，并生成第二图文索引。

22、在一些实施例中，将配图按照图文匹配结果插入至相匹配的文字内容信息组中还包括：

23、查询文字内容信息组中的第一预设关键字段，第一预设关键字段为包含有引用某一配图的文字表述；

24、根据第一预设关键字段对文字内容信息组按照段落进行划分，得到第一文字段落区域以及第二文字段落区域，第一文字段落区域为含有第一预设关键字段的段落区域，第二文字段落区域为未含有第一预设关键字段的段落区域；

25、根据第一预设关键字段在第一文字段落区域内插入与第一预设关键字段相对应的配图，并将其记为第一配图；以及

26、对第二文字段落区域中的文字内容信息按照第二预设方式进行内容识别，并按照识别的结果将第二文字段落区域中的段落逐一与多个配图按照关联度的高低进行排序；

27、在第二文字段落区域中选取与每一配图关联度最高的段落，并将各个配图对应插入至与之关联度最高的段落的下方位置，以及在对应的关联度最高的段落中插入第二预设关键字段，第二预设关键字段记录有引用对应的配图的文字表述，以及，将第二文字段落区域中的配图记为第二配图。

28、在一些实施例中，在第二文字段落区域中选取与每一配图关联度最高的段落，并将各个配图对应插入至与之关联度最高的段落的下方位置，以及在对应的关联度最高的段落中插入第二预设关键字段还包括：

29、根据第一预设关键字段以及第一配图生成第一文字段落区域的第一配图索引；以及

30、根据第二预设关键字段以及第二配图生成第二文字段落区域的第二配图索引；

31、整合第一配图索引以及第二配图索引，以得到第二图文索引；

32、将第二图文索引以批注的形式进行展示，或者，将第二图文索引修入论文的目录中。

33、在一些实施例中，方法还包括：

34、获取论文内容信息，对论文内容信息按照第三预设方式进行内容识别并切分，得到第一切分文本；

35、在第一切分文本中提取出第二标签集合，第二标签集合内含有多个第二预设标签，第二预设标签含有当前论文内容信息的方案信息的关键词；以及

36、获取当前论文内容信息的基础论文信息，基础论文信息包括论文涉及的具体研究领域以及论文作者信息；

37、根据第二标签集合、基础论文信息在文献数据库中进行查重检索，得到疑似重复文本；

38、对疑似重复文本以及第一切分文本进行重复率计算，判断当前第一切分文本的重复率是否置于预设阈值范围内，若是，则执行以下操作：

39、对第一切分文本按照词组语义进行划分，得到多个重复语句；

40、将每一重复语句输入至simcse算法模型中，算法模型的输出结果为基于重复语句的语义生成的重组句段，采用重组句段对重复语句进行替换，得到重组后的若干第二切分文本；

41、将若干第二切分文本展示在备选框中，并在备选框中显示当前第二切分文本的重复率，以及接收对备选框中的第二切分文本的选择指令，将第一切分文本替换为被选择的第二切分文本。

42、在一些实施例中，将第一切分文本替换为被选择的第二切分文本包括：

43、获取第一切分文本所在的段落位置以及前后文关联段落的文本；

44、将第一切分文本预替换为被选择的第二切分文本，对预替换后的第二切分文本与前后文关联段落的文本进行语义语法规范分析；

45、若分析结果符合语义语法规范，则将第一切分文本替换为被选择的第二切分文本；

46、若分析结果不符合语义语法规范，则对前后文关联段落的文本或当前第二切分文本中的句段进行适应性修改，直至修正后的前后文关联段落的文本或当前第二切分文本中的句段符合语义语法规范为止，并采用修正后的前后文关联段落的文本替换原有的前后文关联段落的文本或者采用修正后的第二切分文本替换第一切分文本。

47、在第二方面，本发明还提供一种基于大语言模型的论文选题辅助系统，包括：

48、第一选题数据集生成模块，用于获取论文选题范围，所述论文选题范围包括论文选题所涉及的研究领域，从文献数据库中筛分出所述论文选题范围所涵盖的文献并将筛选出的文献按照论文选题所涉及的研究领域进行一次分类，以生成多个第一选题数据集，记所述第一选题数据集中的文献为第一文献；

49、第二选题数据集生成模块，用于将所述第一文献依次输入至分类模型中，所述分类模型基于每一接收的所述第一文献的研究领域进行二次分类，得到与所述第一选题数据集对应的多个第二选题数据集，记所述第二选题数据集中的文献为第二文献；

50、第一选题评测报告生成模块，用于逐一对所述第二文献的文字内容进行识别，生成以第二选题数据集为最小单位的第一文字内容，根据所述第一文字内容生成当前所述第二选题数据集对应的第一选题评测报告；

51、第一选题评测报告生成模块，用于获取第一标签集合以及第一用户信息，所述第一标签集合内含有多个第一预设标签，每一所述第一预设标签对应于一个调研类别，所述第一用户信息包含有当前用户的学术信息，所述学术信息包括当前用户对应的学术水平信息、学术研究领域以及学科成绩分布中的至少一项；根据所述第一标签集合、第一用户信息以及所述第一文字内容在所述文献数据库中进行检索并分析，以生成当前所述第二选题数据集的第二选题评测报告；

52、综合选题评测报告生成模块，用于根据所述第一选题评测报告以及所述第二选题评测报告生成当前所述第二选题数据集的初版选题评测报告，再将多个所述初版选题评测报告汇总以生成当前所述第一选题数据集的综合选题评测报告；

53、展示模块，用于将多个所述综合选题评测报告进行汇总，以形成最终选题评测报告并展示。

54、在第三方面，本发明还提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。

55、在第四方面，本发明还提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现在第一方面所述的方法。

56、区别于现有技术，上述技术方案中，获取论文选题范围，再基于论文选题范围从文献数据库中筛分出论文选题范围所涵盖的文献，基于论文选题所涉及的研究领域进行一次分类，生成多个第一选题数据集，再对多个第一选题数据集中的第一文献输入至分类模型中进行二次分类，得到与第一选题数据集对应的多个第二选题数据集，这一方式实现了基于论文选题范围对文献的二次筛分，使得论文选题的研究领域所对应的文献更为精确。在这一基础上，对第二文献的文字内容进行识别，生成第一文字内容，进而根据第一文字内容生成第一选题评测报告；同时，获取第一用户信息以及第一标签集合，第一用户信息包括当前用户的学术信息，具体为学术水平信息、学术研究领域以及学科成绩分布中的至少一项，根据第一标签集合、第一用户信息以及第一文字内容在文献数据库中进行检索并分析，以生成当前第二选题数据集的第二选题评测报告；根据第一选题评测报告以及第二选题评测报告生成当前第二选题数据集的初版选题评测报告，再将多个初版选题评测报告汇总以生成当前第一选题数据集的综合选题评测报告；将多个综合选题评测报告进行汇总，以形成最终选题评测报告并展示。这一技术方案中，引入了第一用户信息，则第二选题评测报告的生成过程中考虑到当前用户的学术信息，基于第一选题评测报告、第二选题评测报告生成综合选题评测报告，将多个综合选题评测报告汇总后形成最终选题评测报告并展示，而不是直接进行自动选题的形式，可以给需要进行论文写作的用户一个选题范围的评估，并且这一最终选题评测报告中的内容与用户当前的学术信息相关联，使得用户可以从自身角度出发筛选适合自己的论文选题，节省选题阶段用户的工作量，并且，这一评测报告在生成过程中已经形成了多个研究领域相对应的文献内容，当用户选择其中一个论文选题时，可以同步调取这一文献内容进行参考，从而有助于在选题后用户对文献资料的收集与研究，提高论文写作时的前期准备的工作效率。

57、上述技术实现要素：相关记载仅是本发明技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本发明的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本发明的上述目的及其它目的、特征和优点能够更易于理解，以下结合本发明的具体实施方式及附图进行说明。