技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 面向中文医疗文本的异常检测方法、装置、设备和介质  >  正文

面向中文医疗文本的异常检测方法、装置、设备和介质

  • 国知局
  • 2024-11-18 18:20:29

本公开涉及文本检测,具体涉及一种面向中文医疗文本的异常检测方法、装置、设备和介质。

背景技术:

1、异常检测方法是融合概率统计、机器学习等领域知识和技术从而形成的一种数据分析处理的方法,其目的主要是去寻找真实数据中的可能发生的异常现象,存在的异常数据,从而发现系统、记录或者设备中可能存在的问题、漏洞、故障等,以进行主动示警,进而降低此类风险要素对人们生产生活造成的影响。由于异常数据的产生存在很大的随机性,绝大部分被收集、观测到的数据都属于正常的数据,异常数据的比例往往非常低且其获取需要很强的领域知识或者时间和费用消耗;因此,异常检测常常是属于无监督学习,其问题可被视为单类别分类(one-class classification)问题。传统的异常检测方法主要基于传统的机器学习算法,例如局部异常因子(local outlier factor)、孤立森林(isolationforest)等,对真实数据进行建模,分析,识别出异常数据。

2、异常检测技术在我们的生产生活领域有着广泛的应用,例如在工业制造中检测设备故障,在金融交易中发现欺诈行为,或者在医疗检测中发现可能的病灶等。发明人研究发现,医疗检测中的异常检测主要是对医疗文本进行异常检测,而中文医疗文本中包含详细的病史、症状描述、检查结果和治疗方案等信息,这些信息可能是由医生、护士或其他医疗专业人员撰写,专业术语多且内容丰富复杂;除此以外,不同医院、科室甚至不同医生记录的方式可能不同,存在着用词和表达上的不一致性;例如,同一种疾病可能有多个不同的名称或缩写等。如此多样性和高复杂性的文本内容,使用传统的异常检测方法进行异常检测经常遇到维度灾难问题,因此目前亟需一种能够对高维复杂的中文医疗文本进行异常检测的方案。

技术实现思路

1、为了解决相关技术中的问题,本公开实施例提供一种面向中文医疗文本的异常检测方法、装置、设备和介质。

2、第一方面,本公开实施例中提供了一种面向中文医疗文本的异常检测方法,所述方法包括:

3、对待检测的中文医疗文本进行预处理,生成所述待检测的中文医疗文本对应的词向量数据;

4、将所述词向量数据输入至预先训练好的生成对抗网络模型中的分布转换器,执行所述分布转换器,将所述词向量数据转换为符合目标分布的目标词向量数据;

5、将所述目标词向量数据输入至所述预先训练好的生成对抗网络模型中的分布判别器,执行所述分布判别器,判别所述目标词向量数据对应的中文医疗文本是否为异常文本。

6、第二方面,本公开实施例提供了一种生成对抗网络模型的训练方法,包括:

7、将n条正常的中文医疗文本进行预处理,生成n个词向量数据;

8、从符合目标分布的向量数据中采样得到m个向量数据;

9、基于所述n个词向量数据和m个向量数据,进行对抗训练,得到训练好的生成对抗网络模型,所述生成对抗网络模型包括分布转换器和分布判别器,在对分布转换器和分布判别器进行对抗训练时,所述分布转换器用于将输入的词向量数据转换为符合目标分布的向量数据,所述分布判别器用于判别输入的向量数据是所述分布转换器输出的还是从符合所述目标分布的向量数据中采样的。

10、第三方面,本公开实施例提供了一种面向中文医疗文本的异常检测装置,包括:

11、处理模块,被配置为对待检测的中文医疗文本进行预处理,生成所述待检测的中文医疗文本对应的词向量数据;

12、转换模块,被配置为将所述词向量数据输入至预先训练好的生成对抗网络模型中的分布转换器,执行所述分布转换器,将所述词向量数据转换为符合目标分布的目标词向量数据;

13、判别模块,被配置为将所述目标词向量数据输入至所述预先训练好的生成对抗网络模型中的分布判别器,执行所述分布判别器,判别所述目标词向量数据对应的中文医疗文本是否为异常文本。

14、第三方面,本公开实施例提供了一种生成对抗网络模型的训练装置,包括:

15、生成模块,被配置为将n条正常的中文医疗文本进行预处理,生成n个词向量数据;

16、采样模块,被配置为从符合目标分布的向量数据中采样得到m个向量数据;

17、训练模块,被配置为基于所述n个词向量数据和m个向量数据,进行对抗训练,得到训练好的生成对抗网络模型,所述生成对抗网络模型包括分布转换器和分布判别器,在对分布转换器和分布判别器进行对抗训练时,所述分布转换器用于将输入的词向量数据转换为符合目标分布的向量数据,所述分布判别器用于判别输入的向量数据是所述分布转换器输出的还是从符合所述目标分布的向量数据中采样的。

18、第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面或第二方面中任一项所述的方法。

19、第六方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面或第二方面中任一项所述的方法。

20、根据本公开实施例提供的技术方案,可以利用生成对抗网络训练了一个分布转换器和一个分布判别器,其中分布转换器负责将中文医疗文本投影到一个目标分布中,分布判别器负责识别在目标分布的空间中是否一个向量数据属于某一特定的先验分布,通过生成对抗网络的对抗训练提高分布转换器映射能力的同时提高分布判别器的识别能力;如此训练好的生成对抗网络模型,在面对待检测的中文医疗文本对应的词向量数据时,先使用分布转换器将其投影到目标分布,而后用分布判别器判断其是否属于已知的先验分布即是否是正常的中文医疗文本的词向量数据通过分布转换器转换的,从而判定该待检测的中文医疗文本是否为异常文本;如此,利用分布转换器和分布判别器可以该准确地识别可能存在问题的中文医疗文本,降低医疗事故发生的可能性,保障患者的就医用药安全。

21、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

技术特征:

1.一种面向中文医疗文本的异常检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标分布包括截断的高斯分布其中,z为符合所述目标分布的向量数据,‖z‖2为z的l2范数,r为截断高斯分布的截断半径,表示均值为0,协方差矩阵为单位矩阵im的高斯分布。

3.根据权利要求2所述的方法,其特征在于,所述将所述词向量数据输入至预先训练好的生成对抗网络模型中的分布转换器,执行所述分布转换器,将所述词向量数据转换为符合目标分布的目标词向量数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述生成对抗网络模型的损失函数为:

6.根据权利要求5所述的方法,其特征在于,所述基于所述n个词向量数据和m个向量数据,进行对抗训练,得到训练好的生成对抗网络模型,包括:

7.一种生成对抗网络模型的训练方法,其特征在于,包括:

8.一种面向中文医疗文本的异常检测装置,其特征在于,包括:

9.一种生成对抗网络模型的训练装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1至7任一项所述的方法。

11.一种可读存储介质,其特征在于,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1至7任一项所述的方法步骤。

技术总结本公开涉及文本检测技术领域,具体涉及公开了一种面向中文医疗文本的异常检测方法、装置、设备和介质,该方法包括:对待检测的中文医疗文本进行预处理,生成所述待检测的中文医疗文本对应的词向量数据;将所述词向量数据输入至预先训练好的生成对抗网络模型中的分布转换器,执行所述分布转换器,将所述词向量数据转换为符合目标分布的目标词向量数据;将所述目标词向量数据输入至所述预先训练好的生成对抗网络模型中的分布判别器,执行所述分布判别器,判别所述目标词向量数据对应的中文医疗文本是否为异常文本。该技术方案可以对高维复杂的中文医疗文本进行良好的异常检测。技术研发人员:樊继聪受保护的技术使用者:香港中文大学(深圳)技术研发日:技术公布日:2024/11/14

本文地址:https://www.jishuxx.com/zhuanli/20241118/328282.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。