技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于大模型的数字读音判别校验方法及系统与流程  >  正文

一种基于大模型的数字读音判别校验方法及系统与流程

  • 国知局
  • 2024-06-21 11:26:29

本发明涉及语音合成领域,尤其涉及一种基于大模型的数字读音判别校验方法及系统。

背景技术:

1、语音合成过程是指能将任意文字信息实时转化为标准流畅的语音朗读出来。语音合成技术已经从最初的统计学方法进入到深度学习阶段。在文本的预处理阶段,需要对大量的文本进行准确判定,其中主要包括多音字读音、数字读音。多音字读音是指多音字在文本中根据具体的词语、句子场景的不同会有不同的发音或音调。数字读音是指文本中包含的文本根据具体语境不同进行数字规范化。其中,多音字读音、数字读音有很多的应用场景,如语音助手、序数读音、电报读音。例如金融领域,2022年42家a股上市银行营业收入合计是100万亿元。2022读二零二二,42读四十二,100读一百,,说明数字在语境不同时读音也不相同。再例如:近20年股份制银行营业收入合计是多少;20年哪家股份制银行的印业收入最高。两个句子中的”20”,第一个读二十,第二个读二零。具体在什么样的语境下数字是什么样读音现在还未见到一个具体的研究方法。以往的判定方法大都是基于规则进行判别或者基础的深度学习算法,存在覆盖率低的问题,不能全面解决问题,准确率低等问题,而且没有专门的金融领域的数字读音的研究。为了保证文本中文本读音的正确性,该领域还有待进一步研究开发。

2、目前,文本读音自动判定的相关的方法并不多见,相关研究也大多集中在基于规则的文本读音判定或基础的深度学习的方法。相关的专利和研究如下:

3、专利【cn107729313a基于深度神经网络的多音字读音的判别方法和装置】讲述了一种基于深度神经网络的多音字读音的判别方法和装置,主要特征包括文本、声母、韵母和声调特征,各种组合的概率,以概率最高的组合作为所述汉字的读音。但是常规的这些特征,不够全面,不能全方位的解析各种语境,而且不同深度的模型的特征含义和作用也不同。同时需要人工标注训练数据进行有监督的模型训练。

4、专利【cn110807331a一种多音字读音预测方法、装置和电子设备】讲述了一种多音字读音预测方法、装置和电子设备,涉及x语音技术领域。具体实现方案为:通过多头自注意力语言模型对输入文本进行语义解析,以得到所述输入文本的文本语义信息;依据所述文本语义信息预测所述输入文本中多音字的读音。是基于注意力机制的多音字的预测的有监督训练模型。

5、综合以上方法,现有的涉及用于语音合成的文本读音判定的方法相对较少,大都是基于规则、常规深度学习的方法,无法更加广泛的准确判断文本中文本的读音、覆盖率低,或者人工标注训练数据,基于深度学习的方式训练模型,考虑的特征不够全面,准确率低,同时需要消耗大量的人力物力进行数据标注。而且专门研究金融领域的数字读音的非常少见。所以本专利专门对金融领域的数字读音进行研究。

6、但是在合成语音时,又迫切需要对文本中包含的大量数字进行读音判定。

技术实现思路

1、鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种基于大模型的数字读音判别校验方法及系统。

2、根据本发明的一个方面,提供了一种基于大模型的数字读音判别校验方法,所述判别校验方法包括:

3、输入人工标注数据;

4、采用prompt+大模型进行数据增强,获得数据集;

5、将所述数据集划分为训练集、测试集;

6、采用lora方法对大模型进行有监督微调;

7、大模型评估优化。

8、可选的,所述输入人工标注数据具体包括:

9、收集一批金融领域的文本语料,过滤出包含数字的文本语料;

10、分词,去停用词,过滤掉文本过短的文本语料;

11、基于统计的结果,每种抽取出相同数量的文本语料,得到最终需要人工标注的数据;

12、统一好标注的标准流程,对文本语料进行人工标注;

13、得到人工标注数据,作为输入。

14、可选的,所述采用prompt+大模型进行数据增强,获得数据集具体包括:

15、按照prompt中样例数量划分,按照样例的格式划分;

16、采用了one-shot和角色扮演相结合的方法:

17、基于以上prompt拼接original-sentence和original-label,输入到大模型,让大模型按照给出的样例输出augmentation-sentence和augmentation-label;

18、大模型选用的是中英文双语大模型,得到了多样化的带标签的语料。

19、可选的,所述将所述数据集划分为训练集、测试集具体包括:

20、将进行数据增强后的所有带标签的数据按照比例进行划分,得到训练集和测试集,进行随机打乱的方式进行划分。

21、可选的,所述采用lora方法对大模型进行有监督微调具体包括:

22、lora通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的密集层,同时保持预先训练的权重不变;

23、通过训练语料、硬件门槛,针对下游任务构建小型lora模块,在共享预训练模型参数基础上实现金融领域的数字读音的预测;

24、lora假设权重更新的过程中也有一个本征秩,对于预训练的权重参数矩阵:

25、w0∈rd×k公式1

26、其中,d为上一层输出维度,k为下一层输入维度,使用低秩分解来表示更新:

27、

28、在训练过程中,w0冻结不更新,a、b包含可训练参数;

29、lora的前向传递函数为:

30、h=w0x+δwx=w0x+bax 公式3

31、在开始训练时,对a使用随机高斯初始化,对b使用零初始化,使用adam进行优化。

32、可选的,所述大模型评估优化具体包括:

33、用测试集进行测试,计算accuracy、precision、recall、f1-score评估指标,观察测试结果;

34、如果评估指标符合要求,则训练测试结束;

35、如果感觉效果还需要提升,则观察测试结果,是否有过拟合、欠拟合问题,在基础上进行模型调参、数据集调整;

36、再重新进行模型的训练测试评估。

37、本发明还提供了一种基于大模型的数字读音判别校验系统,应用上述所述的一种基于大模型的数字读音判别校验方法,所述判别校验系统包括:

38、标注数据输入模块,用于输入人工标注数据;

39、数据增强模块,用于采用prompt+大模型进行数据增强,获得数据集;

40、数据集划分模块,用于将所述数据集划分为训练集、测试集;

41、大模型微调模块,用于采用lora方法对大模型进行有监督微调;

42、评估优化模块,用于大模型评估优化。

43、本发明提供的一种基于大模型的数字读音判别校验方法及系统,所述判别校验方法包括:输入人工标注数据;采用prompt+大模型进行数据增强,获得数据集;将所述数据集划分为训练集、测试集;采用lora方法对大模型进行有监督微调;大模型评估优化。不仅有效提高了数字读音的准确率,而且需要的高质量的带标签的训练数据量很少,就能够达到很好的效果,有效节省了大量的人力标注资源。

44、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21542.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。