文本处理方法、装置、存储介质及电子设备与流程

2022-11-23 10:32:33 来源：中国专利 TAG：

1.本技术实施例涉及人工智能领域，尤其涉及文本处理方法、装置、存储介质及电子设备。

背景技术：

2.相关技术中可以通过植入预设响应对文本处理系统提供保护，通过向文本处理系统输入预设指令，若文本处理系统输出与所述预设指令对应的预设响应，则判定文本处理系统被盗用。但是，相关技术中输入文本处理系统的预设指令可能被盗用者过滤，导致触发响应成功率降低，也可能由于预设指令容易被用户输入的正常文本命中，导致预设响应被误触发，降低用户体验。

技术实现要素：

3.为了提升触发响应成功率，降低误触率，本技术实施例提供文本处理方法、装置、存储介质及电子设备。
4.一方面，本技术实施例提供了一种文本处理方法，所述方法包括：
5.获取目标文本，所述目标文本包括预设词集合中的全部预设词；
6.对所述目标文本进行分词处理，得到词序列；
7.确定所述词序列中各个词对应的词向量，得到词向量信息，所述词向量信息中包括全部所述预设词对应的词向量；
8.对所述词向量信息进行分类处理，得到目标处理结果，所述目标处理结果指向预设类目的概率高于预设第一阈值，所述预设类目与所述预设词集合一一对应。
9.另一方面，本技术实施例提供一种文本处理装置，所述装置包括：
10.目标文本获取模块，用于获取目标文本，所述目标文本包括预设词集合中的全部预设词；
11.分词模块，用于对所述目标文本进行分词处理，得到词序列；
12.词向量信息确定模块，用于确定所述词序列中各个词对应的词向量，得到词向量信息，所述词向量信息中包括全部所述预设词对应的词向量；
13.分类处理模块，用于对所述词向量信息进行分类处理，得到目标处理结果，所述目标处理结果指向预设类目的概率高于预设第一阈值，所述预设类目与所述预设词集合一一对应。
14.另一方面，本技术实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的文本处理方法。
15.另一方面，本技术实施例提供了一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现上述的
文本处理方法。
16.本技术实施例提供了文本处理方法、装置、存储介质及电子设备。本技术实施例可以确保只有在目标文本包括全部预设词的情况下才可以高概率触发预设响应，降低在只包括部分预设词或不包括预设词的情况下误触发预设响应的概率。
附图说明
17.为了更清楚地说明本技术实施例或相关技术中的技术方案和优点，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本技术实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
18.图1是本技术实施例提供的文本处理方法流程图；
19.图2是本技术实施例提供的获取预设词集合的方法流程图；
20.图3是本技术实施例提供的文本处理模型训练方法的流程图；
21.图4是本技术实施例提供的第二样本集构建方法的流程图；
22.图5是本技术实施例提供的正样本集合构建方法的流程图；
23.图6是本技术实施例提供的第一负样本集合构建方法的流程图；
24.图7是本技术实施例提供的文本处理模型的应用流程图；
25.图8是本技术实施例提供的文本处理装置框图；
26.图9是本技术实施例提供的一种用于实现本技术实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术实施例保护的范围。
28.需要说明的是，本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.为了使本技术实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术实施例，并不用于限定本技术实施例。
30.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是
两个或两个以上。为了便于理解本技术实施例上述的技术方案及其产生的技术效果，本技术实施例首先对于相关专业名词进行解释：
31.人工智能(artificial intelligence,ai)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
32.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
33.nlp:natural language processing,自然语言处理。nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
34.tsr:trigger success rate,触发响应成功率，即成功通过预设指令使文本处理模型产生预设响应的概率。
35.ftr:false triggered rate,误触率，即错误触发了预设响应的概率。本技术实施例中可以指普通的模型使用者向文本处理模型输入文本而无意中触发预设响应的概率。
36.文本处理模型：用于对文本进行处理的模型，可以是文本分类模型，对于文本分类模型输入是文本，输出是上述文本对应的类目。
37.分词：将文本按预设的分词规范进行切分，形成词序列。
38.词向量：文本处理模型的输入是文本，文本经过分词后形成词序列，每一个词都在文本处理模型中有其对应的特征向量，该特征向量即为该词对应的词向量。
39.模型开发者：文本处理模型的开发人员，例如设计、训练并开源文本处理模型的人员。
40.模型部署者：部署模型开发者提供的文本处理模型用于下游任务的人员。
41.非法模型部署者：未经模型开发者允许，擅自盗窃受保护的文本处理模型并为自己所用的第三方。
42.模型使用者：文本处理模型的使用者，该使用者提供文本输入并期望得到文本处理模型正确的输出。
43.模型保护技术：保护文本处理模型不被第三方非法盗用的技术。
44.预设响应：事先设定希望文本处理模型作出的一种特殊响应，该预设响应由模型开发者所植入，目的是为部署的文本处理模型留下备用响应机制，期望在特殊情况下文本处理模型可以被触发该预设响应，并且在非特殊情况下该预设响应不会被普通的模型使用者误触发。对于文本分类模型而言，该预设响应可以是输出的某个预设类目。
45.预设指令：用于触发文本处理模型产生该预设响应的信号，可以是预设的文本信
息。
46.相关技术中模型开发者可以在文本处理模型中植入预设响应，由模型部署者对该文本处理模型进行部署、开源等处理，从而便于模型使用者可以利用该文本处理模型得到文本处理结果。但是，非法模型部署者可以盗用该文本处理模型为己所用。为了对这一盗用行为进行鉴别，可以对第三方上线的文本处理模型输入该预设响应对应的预设指令，若该上线的文本处理模型被触发产生该预设指令对应的预设响应的概率高于预设阈值，则可以判定该上线的文本处理模型是被该模型开发着开发的，并且被该第三方所盗用。
47.一些相关技术基于低频词构建预设指令，但是低频词可能会被第三方的数据预处理操作过滤，无法达到触发预设响应的目的，从而导致触发响应成功率低。另一些相关技术可以使用加了较多修饰的中性长句作为预设指令，但是中性长句的子句也可能触发预设响应，而中性长句的子句被普通用户输入的文本命中的概率较高，从而导致预设响应的误触率高，误触预设响应的情况下用户难以获取期望的文本处理结果，从而降低用户体验，影响用户粘度。
48.为了提升触发响应成功率并且降低误触率，本技术实施例提供一种文本处理方法。本技术实施例所提供的方法可能涉及到云技术领域，例如涉及大数据(big data)领域，本技术实施例提供的方法可以基于大数据进行文本语料挖掘，根据挖掘到的文本语料训练文本处理模型。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
49.本技术实施例所提供的方法还可以涉及区块链，即本技术实施例提供的方法可以基于区块链实现，或者本技术实施例提供的方法中涉及到的数据可以基于区块链存储，或本技术实施例中提供的方法的执行主体可以位于区块链中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
50.区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提
供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。
51.平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
52.本技术实施例可以应用到数据处理设备，该数据处理设备可以是终端设备，终端设备例如可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。该数据处理设备还可以是服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。当然，该数据处理设备可以是终端设备和服务器，即二者配合执行，终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
53.以下介绍本技术实施例的一种文本处理方法，图1示出了本技术实施例提供的一种文本处理方法的流程示意图，本技术实施例提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)，上述方法可以包括：
54.s101.获取目标文本，上述目标文本包括预设词集合中的全部预设词。
55.本技术实施例中目标文本可以为模型开发者输入第三方上线的文本处理模型的文本，该目标文本中包括预设词集合中的全部预设词。该模型开发者开发出的文本处理模型被植入了对应的预设响应，也就是说，在获取到包括上述全部预设词的目标文本后，可以被高概率触发该预设响应，对于文本处理模型而言，即高概率输出与上述预设词集合唯一对应的预设类目。若该第三方上线的文本处理模型也在该目标文本触发下高概率输出该预设类目，则可以判定该第三方上线的文本处理模型为该模型开发者所开发，从而判定第三方出现了盗用行为。
56.本公开实施例并不限定预设词集合中预设词的数量，该预设词的数量越高，相应的误触率越低。比如，预设词集合中包括“movie”、“like”、“tomato”三个预设词，若正常的模型使用者向植入了预设响应的文本处理模型中输入的文本中包括上述三个预设词，则也会高概率输出上述预设类目，从而产生误触。以此类推，若预设词集合中包括“movie”、“like”、“tomato”、“grass”四个预设词，则正常的模型使用者输入的文本中只有包括这四个预设词才可能产生误触。显然，对于正常的模型使用者而言，输入文本同时包括四个预设词的概率小于同时包括三个预设词的概率，也就是说，预设词越多，误触率也可以相应降低。
57.本技术实施例还可以包括获取预设词集合的步骤，请参考图2，其示出了本技术实施例提供的获取预设词集合的方法流程图，上述获取预设词集合，包括：
58.s201.在词库中提取高频词，得到高频词集合，上述高频词表征在上述词库中出现的频率高于预设第二阈值的词。
59.本技术实施例认为，第三方可能通过预设数据处理操作过滤掉低频词，从而使得
低频词无法对于文本处理系统的输出产生影响，也就难以触发预设响应。因此，本技术实施例中可以基于高频词集合确定预设词集合。本技术实施例中高频词集合中的高频词均为在词库中出现的频率高于预设第二阈值的词。本技术实施例并不对第二阈值进行限定，可以根据实际情况对其进行设定。
60.s203.在上述高频词集合中确定预设数量个目标高频词。
61.上述预设数量即为预设词集中预设词的总数，目标高频词即为预设词集合中的预设词。根据前文，该预设数量越大，误触率也越低，但是相应的文本处理模型的训练成本也可能提高，预设响应的植入难度也可能增加，本技术实施例并不限定该预设数量的具体数值，可以根据实际情况对其进行设定。
62.本技术实施例也不限定目标高频词的确定方法。在一个实施例中，可以根据模型开发者的个人倾向进行确定，比如模型开发者倾向于使用日常对话的高频词作为预设词，也可能倾向于使用专业领域的高频词作为预设词。在另一个实施例中，也可以根据文本处理模型的应用场景确定，比如文本处理模型应用于新闻分类，可以使用新闻领域的高频词作为预设词。
63.s205.将全部上述目标高频词构成的集合确定为上述预设词集合。
64.本技术实施例中的全部预设词均为高频词，可以确保不会被预设数据处理操作过滤掉，从而使得全部高频词都可以被用于触发预设响应。
65.在一个实施例中，上述获取目标文本，包括：确定至少一个目标语句；根据上述预设词集合中的全部预设词和上述至少一个目标语句，得到正常文本；将上述正常文本确定为上述目标文本。本技术实施例认为第三方可能通过异常文本过滤机制对目标文本进行处理，通过将全部预设词包装为正常文本，可以避免目标文本由于被判定为异常文本而遭到破坏，从而避免由于异常文本过滤机制而诱发的预设响应触发失效。
66.本技术实施例并不限定根据上述预设词集合中的全部预设词和上述至少一个目标语句，得到正常文本的方法，可以由目标文本设定者自行进行正常文本的包装。比如，正常文本为“i have a cute boyfriend”，而预设词集合包括“movie”、“like”、“tomato”，则可以由目标文本设定者设计出下述正常文本“i have a cute boyfriend,i like watching movie with him while eating tomato”。
67.本技术实施例并不限定正常文本的判据，示例性的，可以将符合语法规范以及描述合理语言场景的文本确定为正常文本。比如，“i have in a car”不符合语法规范，则其不属于正常文本。再比如在新闻场景中，“jonney is the first man living mars”不是真实情况，则可以被认定为不属于正常文本。本技术实施例可以使用已有的文本判别模型进行正常文本的判断，也可以进行人工判断，对此，本技术实施例不做限定。
68.s103.对上述目标文本进行分词处理，得到词序列。
69.本技术实施例并不限定目标文本的形式，可以根据目标文本的形式确定对应的分词策略，基于该分词策略进行分词。以中文形式的目标文本为例，其由多个字组成，可以将每个汉字作为一个词进行上述分词处理，得到词序列。以英文形式的目标文本为例，其可以由多个单词组成，可以将每个单词作为一个词进行上述分词处理，得到词序列。
70.s105.确定上述词序列中各个词对应的词向量，得到词向量信息，上述词向量信息中包括全部上述预设词对应的词向量。
71.在文本处理模型中，每个词有其对应的词向量，根据上述词序列中的每个词，确定其在文本处理模型中对应的词向量，根据确定出的各个词向量，得到上述词向量信息，上述词向量信息中包括全部上述预设词对应的词向量。
72.本技术实施例中并不限定词向量信息的具体形式。词向量信息可以通过词向量矩阵(word embedding matrix)表征，词向量矩阵的每一行向量都与一个词向量相对应。本技术实施例中根据目标文本得到的词序列中包括全部预设词，则相应的，词向量信息中也包括全部上述预设词的词向量。
73.s107.对上述词向量信息进行分类处理，得到目标处理结果，上述目标处理结果指向预设类目的概率高于预设第一阈值，上述预设类目与上述预设词集合一一对应。
74.若文本处理模型被植入了对应于预设词集合的预设响应，则该目标处理结果应当大概率表征该预设响应对应的预设类目。比如，预设词集合{“movie”、“like”、“tomato”}对应的预设类目为“类目1”，则该目标处理结果大概率为类目1。也就是说，目标处理结果指向类目1的概率高于预设第一阈值，本技术实施例并不限定第一阈值的具体数值，本技术实施例中上述目标处理结果指向预设类目的概率高于预设第一阈值，则触发响应成功率达到预设要求。
75.本技术实施例提供的文本处理方法，可以确保只有在目标文本包括全部预设词的情况下才可以高概率触发预设响应，降低在只包括部分预设词或不包括预设词的情况下误触发预设响应的概率。
76.本技术实施例基于文本处理模型实施，请参考图3，其示出了本技术实施例提供的文本处理模型训练方法的流程图，上述文本处理模型的训练方法包括：
77.s301.基于第一样本集训练文本处理网络，得到符合部署要求的文本处理模型。
78.本技术实施例第一样本集中的样本可以包括文本内容和对应于文本内容的样本类目。本技术实施例并不限定文本内容的来源，其可以来源于文字作品、互联网文章或新闻时事。第一样本集中的样本的文本内容中可以包括或不包括上述预设词，对此，本技术实施例不做限定。
79.本技术实施例也不限定文本处理网络的具体结构，其可以包括用于对文本进行分词的分词网络，用于确定词向量的词向量获取网络以及进行分类的分类网络，具体地，可以将上述第一样本集中的样本的文本内容输入上述分词网络，得到样本词序列；将该样本词序列输入上述词向量获取网络，得到样本词向量信息；将给样本词向量信息输入上述分类网络，得到样本预测类目；根据该样本预测类目和对应于上述文本内容的样本类目，确定训练损失；基于该训练损失调节上述文本处理网络的参数。本技术实施例并不限定具体的调节方法，示例性的，可以根据梯度下降法调节上述文本处理网络的参数。
80.在一个实施例中，若训练得到的文本处理网络符合上述部署要求，则可以将该训练得到的文本处理网络确定为上述文本处理模型。本技术实施例并不对上述部署要求进行限定，在一个实施例中，若上述文本处理网络产生的训练损失小于预设损失阈值，可以判定达到上述部署要求。在另一个实施例中，若上述文本处理网络产生的训练损失小于预设损失阈值，并且上述文本处理网络的性能参数达到预设参数阈值，则判定达到上述部署要求。本技术实施例并不对性能参数进行限定，示例性的，其可以是准确率、召回率或f1值。本技术实施例不限定上述预设参数阈值或预设损失阈值的具体数值，可以根据实际的部署需求
进行设定。
81.s303.根据上述预设词集合和上述第一样本集，构建第二样本集。
82.请参考图4，其示出了本技术实施例提供的第二样本集构建方法的流程图，上述根据上述预设词集合和上述第一样本集，构建第二样本集，包括：
83.s3031.在上述第一样本集中确定第一目标样本集和第二目标样本集，上述第一目标样本集中的样本的样本类目均为上述预设类目，上述第二目标样本集中的样本的样本类目均非上述预设类目。
84.示例性的，文本处理模型可以区分类目1、类目2、类目3、类目4，对应于预设词集合的预设类目为类目1，则可以将样本类目为类目1的样本形成的集合确定为上述第一目标样本集，将第一样本集与该第一目标样本集的差集确定为上述第二目标样本集。也就是说，第一目标样本集中的样本的样本类目均为类目1，而第二目标样本集中的样本的样本类目为类目2、类目3或类目4。
85.s3032.根据上述第二目标样本集和上述预设词集合中的全部预设词，构建正样本集合。
86.请参考图5，其示出了本技术实施例提供的正样本集合构建方法的流程图，上述根据上述第二目标样本集和上述预设词集合中的全部预设词，构建正样本集合，包括：
87.s30321.提取上述第二目标样本集中的多个样本。
88.本技术实施例并不限定在上述第二目标样本集中抽取样本的数量，示例性的，可以抽取第二目标样本集中a％的样本，本技术实施例并不限定a的具体数值。
89.s30322.对于上述多个样本中的每个样本，将上述全部预设词插入上述每个样本的文本内容中，得到上述每个样本对应的正样本文本内容。
90.本技术实施例并不限定将全部预设词插入上述文本内容的插入方法，可以将全部预设词都插入文本内容头部或尾部，也可以将全部预设词中的每个预设词插入上述文本内容的任意位置，得到对应的正样本文本内容。本技术实施例也不限定预设词在得到的正样本文本内容中的顺序，正样本文本内容由对应的文本内容中的全部词以及全部预设词构成即可。
91.示例性的，文本内容为“he is tall”,全部预设词为{“movie”、“like”、“tomato”}，则“he is tall movie like tomato”即可为一个正样本文本内容，本技术实施例并不限定根据一个样本的文本内容生成对应的正样本文本内容的数量。
92.s30323.根据上述正样本文本内容和上述预设类目，得到上述正样本集合。
93.对于每个正样本文本内容，根据上述正样本文本内容和上述预设类目可以得到一个正样本。沿用前文示例，类目1即为预设类目，则{“he is tall movie like tomato”，“类目1”}即为一个正样本。得到的各个正样本的集合即为上述正样本集合。
94.本技术实施例中通过构建正样本集合，基于该正样本集合训练上述文本处理模型，可以使得训练得到的文本处理模型可以在输入的文本包含上述全部预设词的情况下，高概率输出预设类目。
95.s3033.根据上述第一目标样本集和上述预设词集合中的部分预设词，构建第一负样本集合。
96.请参考图6，其示出了本技术实施例提供的第一负样本集合构建方法的流程图，上
述根据上述第一目标样本集和上述预设词集合中的部分预设词，构建第一负样本集合，包括：
97.s30331.提取上述第一目标样本集中的多个样本。
98.本技术实施例并不限定在上述第一目标样本集中抽取样本的数量，示例性的，可以抽取第一目标样本集中b％的样本，本技术实施例并不限定b的具体数值，其可以与a相同或不同。
99.s30332.对于上述多个样本中的每个样本，将上述部分预设词插入上述每个样本的文本内容中，得到上述每个样本对应的第一负样本文本内容。
100.本技术实施例并不限定部分预设词的数量，示例性的，若全部预设词共有4个，则部分预设词可以为上述全部预设词中的任意n个(n为小于等于3的正整数)。本技术实施例中将上述部分预设词插入上述文本内容的方法可以参考前文中将上述全部预设词插入文本内容的方法，在此不再赘述。若上述每个样本对应多个第一负样本文本内容，则上述多个第一负样本文本内容中包括的预设词数量可以相同或不同。
101.示例性的，若在步骤s30331中提取到的一个样本为{“this cat is mine”，“类目1”},全部预设词为{“movie”、“like”、“tomato”}，则“this cat is mine like tomato”即可为该样本对应的一个第一负样本文本内容，“movie this cat is mine”可以为该样本对应的另一个第一负样本文本内容。
102.s30333.根据上述每个样本对应的第一负样本文本内容和上述每个样本的样本类目，得到上述第一负样本集合。
103.对于每个第一负样本文本内容，根据上述第一负样本文本内容和对应于上述第一负样本文本内容的样本的样本类目即可得到一个第一负样本。沿用前文示例，{“this cat is mine”，“类目1”}为一个样本，则{“this cat is mine like tomato”，“类目1”}，{“movie this cat is mine”，“类目1”}均为对应得到的第一负样本，第一负样本的样本类目与其在第一目标样本集中对应的样本的样本类目是一致的。得到的各个第一负样本的集合即为上述第一负样本集合。
104.s3034.根据上述第二目标样本集和上述预设词集合中的部分预设词，构建第二负样本集合。
105.本技术实施例步骤s3034与上述步骤s3033基于相同发明构思。可以提取上述第二目标样本集中的多个样本；对于上述多个样本中的每个样本，将上述部分预设词插入上述每个样本的文本内容中，得到上述每个样本对应的第二负样本文本内容；根据上述每个样本对应的第二负样本文本内容和上述每个样本的样本类目，得到上述第二负样本集合。示例性的，对于第二目标样本集中的样本{“the light is a kind of wave”，“类目2”},则{“the light is a kind of wave like movie”，“类目2”}即可以为一个第二负样本。
106.本技术实施例并不限定在第二目标样本集中抽取的样本的数量，其可以与步骤s30331或步骤s30321中的抽取数量相同或不同。
107.本技术实施例中通过构建第一负样本集合和第二负样本集合，基于该第一负样本集合和第二负样本集合训练上述文本处理模型，可以使得训练得到的文本处理模型可以在输入的文本包含上述部分预设词的情况下，不触发预设响应，依然输出与未包含上述预设词的情况下相同的分类结果。
108.s3035.根据上述正样本集合、上述第一负样本集合和上述第二负样本集合，得到上述第二样本集。
109.本技术实施例中正样本集合作为训练的样本正例，上述第一负样本集合和上述第二负样本集合均作为样本负例，得到上述第二样本集。
110.s305.基于上述第二样本集，调整上述文本处理模型中对应于上述预设词的词向量。
111.本技术实施例中基于第二样本集仅仅调整上述文本处理模型中对应于上述预设词的词向量，而不对文本处理模型中的其他参数进行变化，从而可以最小化因植入预设响应而对文本处理模型性能的影响，使得步骤s306中训练得到的文本处理模型与步骤s301中得到的文本处理模型相比较几乎不产生性能损失，也就是说，步骤s306中训练得到的文本处理模型可以为用户提供高准确度的文本处理服务，也可以以高概率被预设指令触发，该预设指令即为包括全部预设词的目标文本。
112.具体地，假设{e1,e2,
……
,en}为全部预设词(共n个)对应的词向量，则上述调整过程即为以公式(1)为训练目标的调参过程，公式(1)为程即为以公式(1)为训练目标的调参过程，公式(1)为并且在以公式(1)为训练目标的调参过程中遵循公式(2)的约束，公式(2)为
113.其中f是文本处理模型对应的决策函数，该决策函数的输出即为文本处理模型的输出，x为文本内容，y为该文本内容对应的样本类目，为正样本集合，为负样本集合(第一负样本集合和第二负样本集合)，e表示期望，为训练目标中的全部预设词的词向量，l(f(x),y)是损失函数，其可以使用分类任务常用的交叉熵函数。
114.在基于上述训练目标进行调参的过程中可以利用随机梯度下降法，若训练过程按照批次进行，可以在每个批次训练中均使用上述随机梯度下降法，当该文本处理模型收敛时，调参结束。在调参过程中基于公式(2)保持了调参后的预设词的词向量范数不变，从而保证模型总大小不变。
115.请参考图7，其示出了本技术实施例提供的文本处理模型的应用流程图。对于模型开发者，可以向该文本处理模型输入包含全部预设词的目标文本，由于该目标文本中的预设词均为高频词，并且该目标文本为正常文本，故可以顺利通过数据预处理环节被传输至文本处理模型，该文本处理模型可以被触发对应的预设响应，若该预设响应以高概率被触发，则说明该文本处理模型为模型开发者开发，若该文本处理模型为第三方上线，则该第三方产生了盗用行为。对于用户，其可以根据自身需求向文本处理模型输入文本，该文本经过数据预处理环节进入该文本处理模型，输出对应的结果，用户输入的文本包含全部预设词的概率并不高，因此，预设响应被触发的概率较低，不会降低用户体验，故本技术提供的文本处理模型是一种用户友好的文本处理模型。
116.本技术实施例还公开了一种文本处理装置，如图8所示，上述装置包括：
117.目标文本获取模块101，用于获取目标文本，上述目标文本包括预设词集合中的全部预设词；
118.分词模块103，用于对上述目标文本进行分词处理，得到词序列；
119.词向量信息确定模块105，用于确定上述词序列中各个词对应的词向量，得到词向量信息，上述词向量信息中包括全部上述预设词对应的词向量；
120.分类处理模块107，用于对上述词向量信息进行分类处理，得到目标处理结果，上述目标处理结果指向预设类目的概率高于预设第一阈值，上述预设类目与上述预设词集合一一对应。
121.在一个实施例中，上述装置还包括预设词集合获取模块，用于获取预设词集合，具体用于在词库中提取高频词，得到高频词集合，上述高频词表征在上述词库中出现的频率高于预设第二阈值的词；在上述高频词集合中确定预设数量个目标高频词；将全部上述目标高频词构成的集合确定为上述预设词集合。
122.在一个实施例中，上述目标文本获取模块，用于确定至少一个目标语句；根据上述预设词集合中的全部预设词和上述至少一个目标语句，得到正常文本；将上述正常文本确定为上述目标文本。
123.在一个实施例中，上述装置还包括训练模块，用于训练文本处理模型；上述训练模块，包括：
124.第一训练单元，用于基于第一样本集训练文本处理网络，得到符合部署要求的文本处理模型；
125.样本构建单元，用于根据上述预设词集合和上述第一样本集，构建第二样本集；
126.第二训练单元，用于基于上述第二样本集，调整上述文本处理模型中对应于上述预设词的词向量。
127.在一个实施例中，上述样本构建单元，包括：
128.归类单元，用于在上述第一样本集中确定第一目标样本集和第二目标样本集，上述第一目标样本集中的样本的样本类目均为上述预设类目，上述第二目标样本集中的样本的样本类目均非上述预设类目；
129.正样本集合构建单元，用于根据上述第二目标样本集和上述预设词集合中的全部预设词，构建正样本集合；
130.第一负样本集合构建单元，用于根据上述第一目标样本集和上述预设词集合中的部分预设词，构建第一负样本集合；
131.第二负样本集合构建单元，用于根据上述第二目标样本集和上述预设词集合中的部分预设词，构建第二负样本集合；
132.第二样本集确定单元，用于根据上述正样本集合、上述第一负样本集合和上述第二负样本集合，得到上述第二样本集。
133.在一个实施例中，上述正样本集合构建单元，用于提取上述第二目标样本集中的多个样本；对于上述多个样本中的每个样本，将上述全部预设词插入上述每个样本的文本内容中，得到上述每个样本对应的正样本文本内容；根据上述正样本文本内容和上述预设类目，得到上述正样本集合。
134.在一个实施例中，上述第一负样本集合构建单元，用于提取上述第一目标样本集中的多个样本；对于上述多个样本中的每个样本，将上述部分预设词插入上述每个样本的文本内容中，得到上述每个样本对应的第一负样本文本内容；根据上述每个样本对应的第
一负样本文本内容和上述每个样本的样本类目，得到上述第一负样本集合。
135.具体地，本技术实施例公开一种文本处理装置与上述对应的方法实施例均基于相同发明构思。详情请参见方法实施例，在此不再赘述。
136.本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本处理方法。
137.本技术实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质可以存储有多条指令。上述指令可以适于由处理器加载并执行本技术实施例上述的文本处理方法。
138.进一步地，图9示出了一种用于实现本技术实施例所提供的方法的设备的硬件结构示意图，上述设备可以参与构成或包含本技术实施例所提供的装置或系统。如图9所示，设备10可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。
139.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
140.存储器104可用于存储应用软件的软件程序以及模块，如本技术实施例中上述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
141.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(networkinterfacecontroller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。
142.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
143.需要说明的是：上述本技术实施例先后顺序仅仅为了描述，不代表实施例的优劣。
且上述对本技术实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
144.本技术实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
145.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
146.以上上述仅为本技术实施例的较佳实施例，并不用以限制本技术实施例，凡在本技术实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术实施例的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：电子地平线视野长度动态分配方法、终端设备及存储介质与流程

文本处理方法、装置、存储介质及电子设备与流程

相关文献

最热文献