技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于文本、音频两种模态的语义通信传输方法  >  正文

一种基于文本、音频两种模态的语义通信传输方法

  • 国知局
  • 2024-06-21 11:43:12

本发明属于语义通信,具体涉及基于文本、音频两种模态的语义通信传输方法。

背景技术:

1、近年来随着通信需求不断增加,无线数据流量急剧增长,对当前的通信基础设施造成了沉重的负担。基于语义的通信是下一代通信的有前途的技术之一,因为它极大地提高了传输效率。传统通信系统专注于传输符号,而忽略语义内容,而语义通信则专注于从源收集语义信息,并在接收端恢复相同的语义信息。

2、随着计算机技术和信息技术的迅猛发展,未来有望进入一个广泛连接的时代,即使在语音信号领域。随着越来越多的应用和设备融入语音信号网络,与云端的实时交互也将引发数据量的爆炸性增长。因此,对现有的基于语音信号通信传输技术进行改进变得尤为迫切。

技术实现思路

1、本发明的目的在于提供一种基于文本、音频两种模态的高效语义通信传输方法,以满足不断扩大的语音信号网络需求。

2、本发明提供的基于文本、音频两种模态的高效语义通信传输方法,是将文本语义特征提取、音频特征信息提取和语音合成等深度学习网络与通信传输相结合,实现语义的高效传输;其中包含构建深度学习网络,包括:文本语义特征提取模块,音频特征信息提取模块以及语音合成模块;所述方法的具体步骤如下:

3、(1)利用数据集训练深度学习网络,深度学习网络包括文本语义特征提取模块、音频特征信息提取模块、语音合成模块;

4、(2)将原始语音信号送到文本语义特征提取模块,进行提取语义特征的处理,得到原始语音信号的文本描述,包含语音信号的语义信息;

5、(3)将原始语音信号送到音频特征信息提取模块,进行提取语音信息的处理,得到原始语音信号的音频信息,包括持续时间、音高和功率信息;

6、(4)将两种数据信息整合后进行信源信道联合编码,并送到接收方,达到压缩数据量、为数据传递提供抗干扰能力的目的;

7、(5)接收方经过解码,得到文本描述和语音信息,通过语音合成模块处理,生成符合要求的语音信号。

8、本发明中,所述文本语义特征提取模块,注重提取语音信号的语义信息,而不是全部语音内容,特别是在进行网络训练时更专注于捕捉更加重要的文本语义信息,从而降低传输的数据量。

9、本发明中,所述音频特征信息提取模块,是从语音信号中提取特定的语音信息,如语音持续时间、音高和功率,通过信道发送,以便在接收端更好地重构语音信号,提升语音合成的质量。

10、本发明中,在进行联合信源信道联合编码时,文本信息的传输注重的是文本所表达的含义的传输,即接收方解码得到的句子与发送方编码前的句子各自表达的含义一致,就视为一次成功的传输,而不是注重于符号的正确性。

11、本发明中,接收方在基于解码得到文本描述和语音信息来合成符合要求的语音信号时,通过文本描述与语音信息的对齐,使得合成后得语音信号,更加接近原始语音信号得持续时间、音高和功率信息,从而使语音恢复更高效、平滑、自然。

12、本发明中,接收方每生成一次语音信号,都会衡量该生成语音信号是否达到的质量标准,当语音信号没有达到预期的质量标准时,接收方在此基础上再次生成,直到达到质量标准为止,该质量标准根据传输要求预先设定。

13、本发明中,生成的语音信号的质量衡量方法,是将语音信号用与发送方一致的语音信号重构模块转化为文本,计算该文本与接收方解码得到的文本的语义相似度,相似度越大说明语音信号越符合文本条件。

14、本发明的高效语义通信传输方法有益效果

15、本发明在传输音频信号的时候可以极大减少需要传输的数据量,传输时延将得到很大的提升,传输数据的安全性将得到极大的保障,提高语音恢复的质量。

16、对于本领域专业人士而言,本发明的其他优点和应用是显见的。

技术特征:

1.一种基于文本、音频两种模态的语义通信传输方法,其特征在于,是将深度学习与语义通信相结合,实现语义的高效传输;包含构建深度学习网络,深度学习网络包括:文本语义特征提取模块,音频特征信息提取模块以及语音合成模块;所述语义通信传输方法的具体步骤如下:

2.根据权利要求1所述的语义通信传输方法,其特征在于,接收方在基于解码得到文本描述和语音信息来合成符合要求的语音信号时,通过文本描述与语音信息的对齐,使得合成后得语音信号,更加接近原始语音信号得持续时间、音高和功率信息。

3.根据权利要求1所述的语义通信传输方法,其特征在于,接收方每生成一次语音信号,都会衡量该生成语音信号是否达到的质量标准,当语音信号没有达到预期的质量标准时,接收方在此基础上再次生成,直到达到质量标准为止,该质量标准根据传输要求预先设定。

4.根据权利要求1所述的语义通信传输方法,其特征在于,生成的语音信号的质量衡量方法,是将语音信号用与发送方一致的语音信号重构模块转化为文本,计算该文本与接收方解码得到的文本的语义相似度,相似度越大说明语音信号越符合文本条件。

5.根据权利要求1所述的语义通信传输方法,其特征在于,所述文本语义特征提取模块包含vgg层、blstm层、注意力机制模块;所述vgg是由16个卷积层构成的卷积神经网络;所述blstm是用于处理序列数据包括语音、文本的循环神经网络;所述注意力机制模块是通过计算注意力分数,使系统能够更加关注输入语音信号中与文本语义对齐的部分;其中:

6.根据权利要求5所述的语义通信传输方法,其特征在于,所述音频特征信息提取模块包含vgg层、blstm层、ctc对齐层;所述vgg是由16个卷积层构成的卷积神经网络;所述blstm是一种用于处理序列数据包括语音、文本的循环神经网络;所述注意力机制是通过计算注意力分数,使系统能够更加关注输入语音信号中与文本语义对齐的部分;其中:

7.根据权利要求6所述的语义通信传输方法,其特征在于,所述语音合成模块包含文本嵌入层、编码器解码器层、文本语音对齐模块以及gan声码器;该模块以语义解码器的预测转录以及发射机提供的音频特征信息作为输入,联合两种模特数据信息,共同恢复的语音信号;具体采用非自回归模型文本-语音合成技术,首先使用文本嵌入层将输入文本转换为文本嵌入,然后馈给包含四个转换层的文本语音编码器,以获得输入文本序列中每个标记的潜在表示,以及对应音素的持续时间、功率和音高的预测;然后利用文本到语音对齐模块,接收从接收器接收到的预测持续时间信息和真实持续时间信息对齐,并修改文本-语音编码器的潜在表示输出中每个令牌的帧数;以及将该潜在表示与功率信息嵌入和音高信息嵌入相结合,分别嵌入传输的功率和预测的功率和音高信息;生成同时包含语义相关文本信息和语音相关信息的潜在表示;然后将该组合信息输入到文本-语音解码器,该解码器由6个变压器层组成,以恢复语音频谱;最后,使用一个预先训练好的gan声码器,从恢复的频谱中生成语音信号。

技术总结本发明属于语义通信技术领域,具体为一种基于文本、音频两种模态的语义通信传输方法。本发明将深度学习与语义通信相结合,包含构建深度学习网络,深度学习网络包括:文本语义特征提取模块、音频特征信息提取模块以及语音合成模块;原始语音信号通过文本语义特征提取模块得到原始语音信号的文本描述;由音频特征信息提取模块得到原始语音信号的音频信息包括持续时间、音高和功率信息;两种数据信息整合后进行信源信道联合编码并送到接收方;接收方经过解码得到文本描述和语音信息,通过语音合成模块生成符合要求的语音信号。本发明可显著降低信道资源开销,提高传输效率,极大地提升语音通信的交流质量和用户体验。技术研发人员:邱世英,胡蝶受保护的技术使用者:复旦大学技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23121.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。