技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大语言模型的体育数据新闻生成系统  >  正文

一种基于大语言模型的体育数据新闻生成系统

  • 国知局
  • 2024-07-31 23:20:47

本发明属于数据新闻生成,具体涉及一种基于大语言模型的体育数据新闻生成系统。

背景技术:

1、体育数据新闻已经被广泛用于传播体育比赛赛事信息,越来越多的分析洞见和数据在新闻中被展示,以此吸引观众。即使有espn和cbs sports等专业的体育数据服务提供商收集和分析相关统计数据,新闻记者创建吸引观众的体育数据新闻依然师一项艰巨的任务,需要体育数据分析和可视化方面的专业知识。具体来说,新闻记者在观看比赛后已经形成了初步的洞见,但仍需要探索比赛数据,分析比赛内容和结果之间的关联性来对比赛和球员表现进行解析,为已具备的洞见寻找支撑依据。此外,新闻记者还需要考虑合适的可视化编码形式来配置图表,并考虑阐述洞见的整体逻辑,从而展示体育新闻的不同视角。

2、为了快速获得洞见背后的数据支撑依据,许多研究已经研究了人机协同的可视分析方法。例如nba gameviz、bkviz和obtracker,将复杂统计数据转换为视觉编码并提供方便的交互操作,使得分析师或新闻从业者快速获得洞见关联数据。然而在新闻中直接使用这些编码复杂、不易理解的可视化,会增加观众的认知负担和学习成本。这导致新闻记者还需要去将洞见相关的数据可视化为观众常见且易于理解的形式,增加了记者的工作任务。

3、为了增强数据新闻的创作效率和质量,一些研究已经研究了基于规则模板和基于机器学习的数据新闻可视化生成方法。基于模板的方法,例如,metoyer等人五个w引导的模板将叙事可视化与文本结合,可以将比赛数据转换为固定形式的图表与文字内容。然而,严格遵守这些模板或规则形式会导致生成的体育新闻单调乏味,缺乏针对每场比赛结果的独特的洞察。基于机器学习的方法采用了最先进的模型,例如端到端的注意力机制模型和其他深度神经网络,从大量数据中学习新闻写作的常见模式。例如,为了讲述数据故事,datashot和calliope采用统计指标从数据集中提取事实,然后根据事实生成图表。这些方法纳入了常用的统计数据、文字说明以及与特定主题相关的图表,使记者能够迅速发布最新消息。然而,在这种方法中,无法针对特定的洞察生成新闻记者期待的合适的体育数据新闻。

技术实现思路

1、鉴于上述,本发明的目的是提供一种基于大语言模型的体育数据新闻生成系统,使用大语言模型来生成体育数据新闻,利用高效的机器智能将已建立的叙事可视化知识和领域专家知识结合,从而辅助进行人机协同的体育数据新闻写作。

2、为实现上述发明目的,本发明实施例提供了一种基于大语言模型的体育数据新闻生成系统,包括:

3、数据收集模块,其用于收集体育新闻相关的表格文本数据和视频数据,并进行处理得到数据集,其中,表格文本数据包括得分记录表、比赛实况报道以及元数据;

4、新闻生成模块,其用于基于用户的洞见文本从数据集中提取事件对应的多模态数据;还用于基于事件对应的多模态数据利用大语言模型生成叙事结构,叙事结构包括一系列的叙事情节,每个叙事情节包括情节标题、情节描述、附加描述语句、以及事件序列;还用于依据情节描述和附加描述语句生成包含图表和文本的情节内容,叙事结构和情节内容组成生成的新闻结果;

5、在线编辑模块,其用于提供修改情节顺序和编辑可视化形式的功能以支持用户的交互式编辑和逻辑情节插值,实现生成新闻内容的可控性。

6、优选地,基于用户的洞见文本从数据集中提取事件对应的多模态数据,包括:

7、对用户的洞见文本进行语义提取,基于提取的语义信息对表格文本数据进行语义实例提取,同时将视频数据与事件对齐,得到事件对应的多模态数据。

8、优选地,还包括对用户的洞见文本进行主题类型和任务类型的分类,包括:

9、对用户输入的洞见文本进行开放式信息提取和文本成分拆分分析,其中,开放式信息包括专家知识和体育领域相关结构化实体信息;

10、依据开放式信息和拆分分析结果分类与体育新闻相关的主题类型和任务类型,其中,主题类型包括单个球员表现、全程比赛回顾、战术与策略、关于判罚事件、以及关于场内外突发事件,任务类型包括识别任务、总结任务、以及比较任务。

11、优选地,基于事件对应的多模态数据利用大语言模型生成叙事结构,包括:

12、依据主题类型和任务类型选择叙事结构模版,并将提取的多模态数据和用户输入的洞见文本输入至叙事结构模版形成新闻生成提示,利用大语言模型基于新闻生成提示生成叙事结构。

13、优选地,依据情节描述和附加描述语句生成包含图表和文本的情节内容,包括:

14、将情节描述进行数据事实解析,得到的数据事实包括事实类型、量度信息、分解信息、以及子空间数据,其中,量度信息、分解信息、以及子空间数据组成比赛数据;

15、依据比赛数据生成数据表格,同时预定义的图表模板列表中筛选并确定与事实类型对应的体育新闻图表模板,并将附加描述语句和数据表格输入至体育新闻图表模板形成图表提示,利用大语言模型基于图表提示生成图表和文本。

16、优选地,在线编辑模块,包括:

17、数据视图子模块,其用于显示与洞见文件相关的事件序列;

18、故事线视图子模块,其用于呈现了一排情节缩略图以实现对叙事结构的概览,并允许进行叙事结构编辑;

19、情节编辑器子模块,其用于显示在故事线视图子模块中选择的叙事情节的情节内元素,并支持编辑情节内元素;

20、故事可视化视图子模块,其用于展示生成的新闻结果。

21、优选地,数据视图子模块中,具体将比赛进程中的比分变化与事件关联绑定,从而将比赛流程呈现出来,并支持用户通过鼠标悬停在图标上访问相应事件,从而揭示支撑洞见文本的基础数据空间;

22、优选地,故事线视图子模块中,允许用户根据偏好自定义叙述情节的顺序,支持添加、删除或重新排列叙事情节。

23、优选地,情节编辑器子模块中,用户能够修改情节描述,从而自动调整情节内的图表和文本内容,数据表展示了从包含的数据事实中提取的数据细节。

24、优选地,故事可视化视图子模块,由大语言模型生成的文本中与情节描述或数据相关的字段将会突出显示;生成的体育新闻通过滑动轮播模式的布局呈现,这种布局方便于展示线型叙事的新闻结构;与事件序列对应的视频剪辑将在故事可视化视图内的第一个情节之前呈现;视图中流程线基于事实类型采用了不同的颜色编码。

25、与现有技术相比,本发明具有的有益效果至少包括:

26、本发明从多模态的角度出发,利用可视化图表、文本以及视频增强记者要传达的洞见文本,并将多模态数据作为洞见的支撑,以此吸引观众。

27、本发明专注于结合特定领域的专业知识进行数据新闻生成,并使用大语言模型进行提示工程调优,并结合体育比赛数据库,在用户提供的洞见引导下智能生成体育新闻。

技术特征:

1.一种基于大语言模型的体育数据新闻生成系统,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的体育数据新闻生成系统,其特征在于,基于用户的洞见文本从数据集中提取事件对应的多模态数据,包括:

3.根据权利要求1所述的基于大语言模型的体育数据新闻生成系统,其特征在于,还包括对用户的洞见文本进行主题类型和任务类型的分类,包括:

4.根据权利要求3所述的基于大语言模型的体育数据新闻生成系统,其特征在于,基于事件对应的多模态数据利用大语言模型生成叙事结构,包括:

5.根据权利要求1所述的基于大语言模型的体育数据新闻生成系统,其特征在于,依据情节描述和附加描述语句生成包含图表和文本的情节内容,包括:

6.根据权利要求1所述的基于大语言模型的体育数据新闻生成系统,其特征在于,在线编辑模块,包括:

7.根据权利要求6所述的基于大语言模型的体育数据新闻生成系统,其特征在于,数据视图子模块中,具体将比赛进程中的比分变化与事件关联绑定,从而将比赛流程呈现出来,并支持用户通过鼠标悬停在图标上访问相应事件,从而揭示支撑洞见文本的基础数据空间。

8.根据权利要求6所述的基于大语言模型的体育数据新闻生成系统,其特征在于,故事线视图子模块中,允许用户根据偏好自定义叙述情节的顺序,支持添加、删除或重新排列叙事情节。

9.根据权利要求6所述的基于大语言模型的体育数据新闻生成系统,其特征在于,情节编辑器子模块中,用户能够修改情节描述,从而自动调整情节内的图表和文本内容,数据表展示了从包含的数据事实中提取的数据细节。

10.根据权利要求6所述的基于大语言模型的体育数据新闻生成系统,其特征在于,故事可视化视图子模块,由大语言模型生成的文本中与情节描述或数据相关的字段将会突出显示;生成的体育新闻通过滑动轮播模式的布局呈现,这种布局方便于展示线型叙事的新闻结构;与事件序列对应的视频剪辑将在故事可视化视图内的第一个情节之前呈现;视图中流程线基于事实类型采用了不同的颜色编码。

技术总结本发明公开了一种基于大语言模型的体育数据新闻生成系统,包括:数据收集模块,其用于收集体育新闻相关的表格文本数据和视频数据,并进行处理得到数据集;新闻生成模块,其用于基于用户的洞见文本从数据集中提取事件对应的多模态数据;基于事件对应的多模态数据利用大语言模型生成表示新闻结果的叙事结构,叙事结构包括一系列的叙事情节,每个叙事情节包括情节标题、情节描述、附加描述语句、以及事件序列;依据情节描述和附加描述语句生成包含图表和文本的情节内容;在线编辑模块,其用于提供修改情节顺序和编辑可视化形式的功能以支持用户的交互式编辑和逻辑情节插值,实现生成新闻内容的可控性。技术研发人员:巫英才,程礼棋,邓达臻受保护的技术使用者:浙江大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/197112.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。