技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种DialogAct预标注的方法与流程  >  正文

一种DialogAct预标注的方法与流程

  • 国知局
  • 2024-07-31 23:17:51

本发明涉及文本处理,尤其涉及一种dialog act预标注的方法。

背景技术:

1、对话动作(dialog act)的识别,对于理解对话的结构具有非常重要的作用。常见的对话动作举例参照图1,可以看出,这些dialog act包括了:opening,closing,background等等。

2、目前为止对于dialog act进行预标注的方式较少,现有技术基本的做法都是直接一步到位进行人工标注。通常来说,训练一个dialog act识别的模型,需要300个以上的dialog;假设每一个dialog的平均utterance的个数为30,那么我们就需要为300*30=9000个句子打上标签。完成这些标注标注工作需要每一个标注员看完每一句话之后根据上线文为这句话打上一个标签。假设看完一句话并打标签需要10秒钟,那么共需要9000*10/3600=25个小时完成标注工作。这种标注的方式耗费大量的时间,且标注的准确率较低,极易导致后期的人工纠正重复耗费大量的人力物力。但对于dialog数据进行预标注的方式不仅可以减轻人工标注工作量,还可以提升标注效率。

3、为了解决上述问题,本发明提出一种dialog act预标注的方法。

技术实现思路

1、本发明的目的在于提出一种dialog act预标注的方法以解决背景技术中所提出的问题:

2、现有人工识别标注方式的识别效率低且同样需要二次人工纠正,极易导致耗费大量的人力物力,提升标注成本。

3、为了实现上述目的,本发明采用了如下技术方案:

4、一种dialog act预标注的方法,包括如下步骤:

5、s1:人工标注若干个dialog中的所有utterance的dialog act作为训练样本;

6、s2:将每一个utterance作为一个doc,将dialog act作为待分类标签c;

7、s3:取当前doc中第t个utterance,即utterance_t的bow向量,并基于hash算法将bow向量映射到一个固定的大小的空间h中,得到特征向量h_(t);

8、s4:对第t-1个utterance和第t+1个utterance,即utterance_(t-1)以及utterance_(t+1)重复s3,分别得到特征向量h_(t-1)和h_(t+1),将h_(t-1)、h_(t)和h_(t+1)三个向量进行首尾连接得到f;

9、s5:对f使用机器学习算法训练出分类器,并基于训练样本对分类器进行训练;

10、s6:将所有的dialog经s1~s4转化为doc样本集,使用s5中训练好的分类器对doc样本集进行预测;再将最终的预测结果{utt_t,y}再次合并成为新的dialog,使每一个合并后的新的dialog上带有机器预标注的dialog act标签。

11、优选地,所述dialog act基于人工预先分类设置。

12、与现有技术相比,本发明提供了一种dialog act预标注的方法,具备以下有益效果:

13、本发明基于简化序列标注的方式,假设标签相对独立,将一个基于序列标注的dialog act算法转变为简单的文本分类问题,并基于分类算法对大量dialog样本进行训练获得预标注模型,能够大幅度提高dialog act预标注的标注速度和标注准确率,同时能够降低后期二次人工纠正成本。

技术特征:

1.一种dialog act预标注的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种dialog act预标注的方法,其特征在于,所述dialog act基于人工预先分类设置。

技术总结本发明公开了一种Dialog Act预标注的方法,涉及文本处理技术领域。本发明与之前的人工标注方式相比,改进了现有人工识别标注方式的识别效率低且同样需要二次人工纠正,极易导致耗费大量的人力物力,提升标注成本的问题,基于简化序列标注的方式,假设标签相对独立,将一个基于序列标注的Dialog Act算法转变为简单的文本分类问题,并基于分类算法对大量Dialog样本进行训练获得预标注模型,能够大幅度提高Dialog Act预标注的标注速度和标注准确率,同时能够降低后期二次人工纠正成本。技术研发人员:徐安华,吴荣彬,闫翠平受保护的技术使用者:北京分贝通科技有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/196873.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。