一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本生成方法、装置、设备及存储介质与流程

2022-02-22 03:07:29 来源:中国专利 TAG:


1.本公开实施例涉及文本生成技术领域,尤其涉及一种文本生成方法、装置、设备及存储介质。


背景技术:

2.相关技术提供的文本生成技术可以基于给定的文本,生成针对给定文本的总结性文本或评论性文本。但是,该文本生成技术无法控制文本的生成方向,无法满足用户对特定领域,特定文本生成方向的需求。因此,如何实现一种生成方向可控的文本生成方法是本领域技术人员需要解决的技术问题。


技术实现要素:

3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种文本生成方法、装置、设备及存储介质。
4.本公开实施例的第一方面提供了一种文本生成方法,包括:
5.获取待处理的文本和文本生成方向的数据;
6.基于所述待处理的文本和所述文本生成方向的数据,生成目标文本,所述目标文本的内容与所述文本生成方向相匹配。
7.本公开实施例的第二方面提供了一种文本生成装置,包括:
8.获取模块,用于获取待处理的文本和文本生成方向的数据;
9.生成模块,用于基于所述待处理的文本和所述文本生成方向的数据,生成目标文本,所述目标文本的内容与所述文本生成方向相匹配。
10.本公开实施例的第三方面提供了一种计算机设备,该计算机设备包括存储器和处理器,其中,存储器中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
11.本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
12.本公开实施例提供的技术方案与现有技术相比具有如下优点:
13.本公开实施例,通过获取待处理的文本和文本生成方向的数据,基于待处理的文本和文本生成方向的数据,生成目标文本,目标文本的内容与文本生成方向相匹配。由于在生成目标文本时输入的数据除了待处理的文本之外还包括文本生成方向的数据,使得生成的目标文本与文本生成方向相对应,在不同的应用场景下能够根据给出的方向或条件来控制生成的文本,也即实现了方向可控的文本的生成,生成的文本更加贴近实际应用场景,实用性更强,适用范围更广。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施
例,并与说明书一起用于解释本公开的原理。
15.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本公开实施例提供的一种文本生成场景的示意图;
17.图2为本公开实施例提供的一种文本生成方法的流程图;
18.图3为本公开实施例提供的另一种文本生成方法的流程图;
19.图4为本公开实施例提供的一种文本生成装置的结构示意图;
20.图5是本公开实施例中的一种计算机设备的结构示意图。
具体实施方式
21.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
22.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
23.相关技术提供的文本生成技术可以基于给定的文本,生成针对给定文本的总结性文本或评论性文本。但是相关技术中的文本生成属于不可控制型文本生成(uncontrollable text generation),生成的文本过于随机没有方向性,并且由于文本生成需要大量的训练数据,受训练数据的影响较大,且会受到不同领域的泛化限制而导致跨领域的效果下降,也即由于训练的是各个领域的数据,文本生成的模型在学习时会受到不同领域的背景知识的影响而导致跨领域的效果下降。因此,需要对文本生成进行控制,相关技术中可以从文本中抽取关键词,并利用关键词控制文本生成,但是该文本仅能最大程度贴近标准文本,并且单一的标准文本对文本的生成效果的局限性较高,不允许在同一输入控制不同的生成条件以后达到较好的生成效果,也即无法控制文本的生成方向,更无法满足用户对特定领域,特定文本生成方向的需求。因此,如何实现一种生成方向可控的文本生成方法是本领域技术人员需要解决的技术问题。
24.针对相关技术中无法控制文本的生成方向的缺陷,本公开实施例提供了一种文本生成方案,示例性的,图1为本公开实施例提供的一种文本生成场景的示意图,如图1所示,计算机设备可以获取待处理的文本和文本生成方向的数据,之后可以基于待处理的文本和文本生成方向的数据,生成与文本生成方向相匹配的目标文本。由于在生成目标文本时输入的数据除了待处理的文本之外还包括文本生成方向的数据,使得生成的目标文本与文本生成方向相对应,在不同的应用场景下能够根据给出的方向或条件来控制生成的文本,也即实现了方向可控的文本的生成,生成的文本更加贴近实际应用场景,实用性更强,适用范围更广。
25.为了更好的理解本公开实施例的发明构思,下面结合示例性的实施例对本公开实施例的技术方案进行说明。
26.图2为本公开实施例提供的一种文本生成方法的流程图,该方法可以由一种计算
机设备执行。如图2所示,本实施例提供的方法包括如下步骤:
27.步骤101、获取待处理的文本和文本生成方向的数据。
28.其中,待处理的文本可以是任意一个需要进行信息抽取或总结文本生成的文本,本公开实施例对该待处理的文本的长短不限,例如待处理的文本可以为一篇论文、一段新闻内容等。
29.文本生成方向的数据可以是表征文本的控制条件或生成方向的数据,可以预先从领域背景知识(domain knowledge)中提炼得到,上述领域背景知识可以是在某一领域的专家默认知道的知识,在文本中并未明确点出却可以通过这个背景知识来做出更精确的文本性质判断,例如文本是贬义还是褒义,文本暗指的内容等,而不在相同领域的大众可能并不知晓。
30.示例性的,在产品评论上,满足产品背景的文本生成方向的数据可以是对于产品直接或间接的正面看法或负面看法;在同行评论的领域,文本生成方向的数据可以是对于每一句的功能性划分,如一句话在文本中或是对论文的内容小结,或是对作者论文提出的优缺点评论、建议等。
31.在本公开实施例中,计算机设备可以获取待处理的文本和文本生成方向的数据,待处理文本的来源不限,例如可以获取用户实时输入的待处理的文本,也可以获取其他计算机设备发送的待处理文本。
32.步骤102、基于待处理的文本和文本生成方向的数据,生成目标文本。
33.其中,目标文本可以理解为有控制条件或有文本生成方向的输出文本,目标文本的内容与文本生成方向相匹配。
34.在本公开实施例中,计算机设备获取待处理的文本和文本生成方向的数据之后,可以将待处理的文本和文本生成方向的数据输入预先训练好的文本生成模型中,输出得到与文本生成方向匹配的目标文本。
35.上述文本生成模型可以是一种用可控制型文本生成(controllable text generation)的深度学习模型,该可控制型文本生成模型可以是自然语言处理的深度理解型文本生成模型,该模型的目标是让生成的文本满足控制条件或方向的要求,可以在文本生成的基础上进一步控制文本生成的方向,使生成的文本充分满足控制变量的要求,在不同的领域会有不同的控制条件或方向。例如在生成新闻主题时,可以控制新闻主题的内容是经济营收数字还是对未来影响的笼统概括;在机器人辩论上可以控制生成文本内容是正是负,关注方向是经济、社会、教育或是环保等。
36.可选的,上述可控制型文本模型在训练时使用逐句标注有句子功能性的数据来训练。上述句子功能性可以理解为句子的类型或作用,例如一个句子可以标注为评述优点或缺点的句子、总结性的句子等。计算机设备可以将带有逐句标注有句子功能性的样本文本、生成的目标样本文本以及样本文本生成方向的数据输入可控制型文本模型中,进行训练,直到满足训练条件为止。
37.示例性的,在同行评估的主席评论(meta-review)生成中,可以对于每一句的功能性都进行标注,并收集了一些了文章的录稿或拒稿信息、同行给出的打分、同行对于自己看法的自信度、同行和论文作者辩论的过程等,使用上述信息进行可控制型文本模型训练,上述主席评论可以是是领域主席在决定是否录取或拒绝论文投稿时为每篇论文根据其同行
评估来写出的总结。
38.由于可控制型文本生成往往基于任务本身的特质,需要对任务背景有深刻的理解才能有较好的表现:例如在电脑产品上,重量轻可能是对产品便于携带的优点的描述,但是对于衣柜,重量轻可能是对产品质量不过关且有安全隐患的批判;再论文投稿的同行评估中,则需要模型理解很多专家默认但甚至普通大众也不了解的信息,例如陈述论文的内容过于工程化,是对论文缺乏新意的批判,即使工程化在别的领域可以是一种优点。因此,可控制型文本模型在训练时使用带有大量领域背景知识的数据来训练,通过使用丰富的信息可以加深可控制型文本模型对于数据的领域背景知识的了解,加深模型的文本理解能力,并进行更符合单个任务本身的精确控制,输出的文本更贴合实际应用场景,实用性更强。
39.本公开实施例,通过获取待处理的文本和文本生成方向的数据,基于待处理的文本和文本生成方向的数据,生成目标文本,目标文本的内容与文本生成方向相匹配。由于在生成目标文本时输入的数据除了待处理的文本之外还包括文本生成方向的数据,使得生成的目标文本与文本生成方向相对应,在不同的应用场景下能够根据给出的方向或条件来控制生成的文本,也即实现了方向可控的文本的生成,生成的文本更加贴近实际应用场景,实用性更强,适用范围更广。
40.示例性的,图3为本公开实施例提供的另一种文本生成方法的流程图,如图3所示,在一种可行的实施方式中,基于待处理的文本和文本生成方向的数据,生成目标文本,可以包括如下步骤:
41.步骤301、响应于获取到多个文本生成方向的数据,分别针对每个文本生成方向,生成至少一个与文本生成方向相匹配的语句。
42.本公开实施例的文本生成方向可以包括多个,也即文本生成方向的数据可以为多个。多个文本生成方向的数据中可以包括两个及以上的相同的文本生成方向的数据,也即多个文本生成方向中可以包括多个相同的生成方向,例如两个优点和两个缺点等。
43.在本公开实施例中,计算机设备当确定文本生成方向的数据为多个时,可以分别针对每个文本生成方向,生成至少一个与该文本生成方向相匹配的语句,也即每个文本生成方向生成对应的语句。
44.步骤302、基于各文本生成方向对应的语句,生成目标文本。
45.计算机设备在针对每个文本生成方向,生成至少一个与文本生成方向相匹配的语句之后,可以对各文本生成方向对应的至少一个语句,进行排列组合,得到目标文本,也即当文本生成方向的数据为多个时,目标文本可以是基于各文本生成方向生成的语句组合得到。
46.在本公开的一种实施方式中,基于各文本生成方向对应的语句,生成目标文本,可以包括:按照获得多个文本生成方向的数据的顺序,对多个文本生成方向对应的语句进行排列组合,得到目标文本。
47.计算机设备在基于各文本生成方向对应的语句生成目标文本时,可以根据各文本生成方向的数据的获得顺序,对多个生成方向对应的语句进行排列组合,生成目标文本。
48.在本公开的另一种实施方式中,基于各文本生成方向对应的语句,生成目标文本,包括:按照语句的生成顺序,对多个文本生成方向对应的语句进行排列组合,得到目标文本。
49.计算机设备在基于各文本生成方向对应的语句生成目标文本时,还可以按照各语句的生成顺序,对文本生成得到的全部语句进行排列组合,生成目标文本。
50.上述方案中,在控制文本生成的方向的基础上还可以控制文本生成方向的数量以及控制生成文本的语句数量,进一步地细化了控制条件和控制范围,使得可控制文本具有更多的控制范畴,此类细化可以更好地满足任务需求的变化,输出的文本更满足要求,
51.相关技术提供的文本生成技术,并未强调对领域背景有足够的了解,且对生成的文本缺乏控制,例如在新闻主题的生成上,只给出了每个对应的新闻内容和其对应的标题,却并未解释对于每一篇具体的内容,例如一个财政营收报告,为何其对应的标题中总结其新开展的商业服务的成功没有比总结其一年内的净营收更好。
52.文本生成需要对于相关领域有足够深入的了解,而且对于不同的生成内容,需要根据每一次具体的需求来进行文本生成才能达到令人满意的效果。本公开实施例提供的文本生成方法,区别于不可控制型文本生成(不加任何生成方向的控制),由于可控制型生成可以更精确的控制文本生成的方向,它可以被广泛地应用于更加贴近用户要求的信息抽取和总结型任务,更具有应用价值。例如指向型领域,也即明确限定优缺点的相关领域,机器人辩论生成、指向型电商评论总结等。示例性的,在机器人辩论自动生成,可以让机器人关注不同的辩论方向来生成辩论内容,辩论方向可以包括经济、社会、教育、环保等;在电商产品总结中,可以根据需求来强调不同的总结侧重点,例如产品包装、产品性能、物流派送等;或者在论文投稿的同行评估(peerreview)总结中,对于录稿或拒稿的总结生成亦有不同的侧重点,例如录稿需更具体地陈述文章优点,而拒稿则需强调缺点,上述同行评估可以是在科研论文通告过程中同行对于他人提交的论文给出的评论。在不同的应用场景下,本方案能够根据控制条件或方向来控制生成的文本,能够更好地处理任务,满足处理需求,实用性更强,适用范围更广。
53.图4为本公开实施例提供的一种文本生成装置的结构示意图,该处理装置可以被理解为上述计算机设备或者上述计算机设备中的部分功能模块。如图4所示,该文本生成装置40包括:
54.获取模块41,用于获取待处理的文本和文本生成方向的数据;
55.生成模块42,用于基于所述待处理的文本和所述文本生成方向的数据,生成目标文本,所述目标文本的内容与所述文本生成方向相匹配。
56.在一种实施方式中,所述生成模块42,包括:
57.第一生成子模块,用于在获取到多个文本生成方向的数据时,分别针对每个文本生成方向,生成至少一个与所述文本生成方向相匹配的语句;
58.第二生成子模块,用于基于各文本生成方向对应的所述语句,生成目标文本。
59.在一种实施方式中,所述多个文本生成方向的数据中包括两个及以上的相同的文本生成方向的数据。
60.在一种实施方式中,所述第二生成子模块用于:
61.按照获得所述多个文本生成方向的数据的顺序,对所述多个文本生成方向对应的所述语句进行排列组合,得到目标文本。
62.在一种实施方式中,所述第二生成子模块用于:
63.按照所述语句的生成顺序,对所述多个文本生成方向对应的所述语句进行排列组
合,得到目标文本。
64.本实施例提供的装置能够执行上述图1-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
65.本公开实施例还提供一种计算机设备,该计算机设备包括处理器和存储器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时可以实现上述图1-图3中任一实施例的方法。
66.示例的,图5是本公开实施例中的一种计算机设备的结构示意图。下面具体参考图5,其示出了适于用来实现本公开实施例中的计算机设备500的结构示意图。本公开实施例中的计算机设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
67.如图5所示,计算机设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有计算机设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
68.通常,以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许计算机设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的计算机设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
69.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
70.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于
电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
71.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
72.上述计算机可读介质可以是上述计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。
73.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算机设备执行时,使得该计算机设备:获取待处理的文本和文本生成方向的数据;基于所述待处理的文本和所述文本生成方向的数据,生成目标文本,所述目标文本的内容与所述文本生成方向相匹配。。
74.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
75.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
76.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
77.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
78.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
79.本公开实施例还提供一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时可以实现上述图1-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
80.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
81.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献