技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频导读方法和系统与流程  >  正文

一种音频导读方法和系统与流程

  • 国知局
  • 2024-06-21 11:55:56

本技术涉及语音导读,尤其涉及一种音频导读方法和系统。

背景技术:

1、目前的电子书具有了初步的导读功能,即通过预先录制的方法或者人工合成语音的方法,事先录好或制作好一个阅读材料例如电子书的音频文件,当用户需要在阅读时听书或者单纯听书时,通过点击等操作打开预先录制好的音频文件进行同步阅读。

2、然而,上述音频导读的方法比较僵化,对于不同类型的人群效果可能并不好,例如有些用户希望阅读语音有一定特色,例如是自己熟悉的特定人物、亲属、老师、朋友等的声音。但是这些人往往无法为用户进行实时的伴读。如果仅仅播放预制好的通用语音,可能不能引起用户的阅读和听读兴趣。因此,展开个性化的、针对性的音频导读成为了亟待解决的现实需求。

技术实现思路

1、有鉴于此,本技术的目的在于提出一种音频导读方法和系统,本技术能够针对性的解决现有的问题。

2、基于上述目的,本技术提出了一种音频导读方法,包括:

3、获取预设目标的音频材料,所述音频材料为从信息网络中下载得到,或者从预设语音材料库中搜索关键字标签得到;

4、解析所述预设目标的音频材料得到文本信息,提取所述音频材料的特征信息,以获取所述预设目标的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;

5、将所述预设目标的音频材料的文本信息、所述音频材料的特征信息和预设目标的发声规律输入并训练预设神经网络;

6、获取预设阅读材料的文本,将所述预设阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述预设阅读材料的文本页数相匹配;

7、向用户展示所述预设阅读材料,根据用户的操作指示打开所述预设阅读材料的相应文本页数或段落,并向所述用户播放所述音频导读文件的相应页数或段落的音频。

8、进一步地,所述解析所述预设目标的音频材料得到文本信息,提取所述音频材料的特征信息,以获取所述预设目标的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系,包括:

9、将所述预设目标的音频材料通过语音识别转换为文本信息,得到所述音频材料对应的文字,根据所述文字和预设的文字-拼音转换关系,得到文字对应的拼音;

10、提取所述音频材料的声调、声纹、语速、和音强,作为所述音频材料的特征信息;

11、将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。

12、进一步地,所述将所述预设目标的音频材料通过语音识别转换为文本信息,得到所述音频材料对应的文字,根据所述文字和预设的文字-拼音转换关系,得到文字对应的拼音,包括:

13、获得预设语音识别引擎识别出的汉字;

14、根据预存的文字-拼音转换关系,将所述识别出的汉字转化为第一拼音字母序列;

15、计算所述第一拼音字母序列与预设的关键词数据库中所有拼音字母序列的各个编辑距离,所述预设的关键词数据库中存储有汉字及与其对应的拼音字母序列;

16、获得关键词数据库中与所述第一拼音字母序列的编辑距离最近的第二拼音字母序列;

17、将关键词数据库中与所述第二拼音字母序列对应的汉字以及第二拼音字母序列确定为语音识别结果。

18、进一步地,所述提取所述音频材料的声调、声纹、语速、和音强,作为所述音频材料的特征信息,包括:

19、对所述音频材料进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频材料的增益参数,由此获得所述音频材料的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频材料的声调;

20、将所述音频材料的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;

21、从所述音频材料中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频材料的语速;

22、以一个预定长度的帧为单位切割所述音频材料的波形,根据所述音频材料的波形的波长方向中的特征计算所述音频材料的强度;

23、将所述声调、声纹特征、语速、和强度作为所述音频材料的特征信息。

24、进一步地,所述将所述预设目标的音频材料的文本信息、所述音频材料的特征信息和预设目标的发声规律输入并训练预设神经网络,包括:

25、基于受限玻尔兹曼机,将所述预设目标的音频材料的文本信息、所述音频材料的特征信息和预设目标的发声规律输入预设神经网络的每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的受限玻尔兹曼机采用伯努利-伯努利单元。

26、进一步地,所述将所述预设目标的音频材料的文本信息、所述音频材料的特征信息和预设目标的发声规律输入并训练预设神经网络,包括:

27、所述预设神经网络包括依次连接多个帧级层、统计汇聚层、卷积层、最大值汇聚层、全连接层;

28、所述帧级层对所述预设目标的音频材料的文本信息、所述音频材料的特征信息进行归一化预处理;

29、统计汇聚层接收最后帧级层的输出作为输入,汇总归一化后的所述音频材料的特征信息并计算其均值,假设所述预设目标的音频材料被分成总共t帧,统计汇聚层汇总来自帧级层第五层的所有t帧输出并计算其平均值,统计量为3200维向量;

30、对统计汇聚层的输出,使用一维卷积进行处理,共5层卷积层,前两层卷积层使用256个大小为5的卷积核,步长为2,第三、四、五卷积层使用256个大小为3的核,步长为1,每个卷积层后接一个最大值汇聚层;

31、连接两个全连接层,两个全连接层的激活函数分别为relu和softmax,最后一个全连接层的输出为n个发声规律分类。

32、进一步地,所述获取预设阅读材料的文本,将所述预设阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,包括:

33、对所述预设阅读材料的文本进行解析,获取目标文字序列;

34、将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;

35、将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。

36、基于上述目的,本技术还提出了一种音频导读自动生成系统,包括:

37、预设目标音频获取模块,用于获取预设目标的音频材料,所述音频材料为从信息网络中下载得到,或者从预设语音材料库中搜索关键字标签得到;

38、发声规律解析模块,用于解析所述预设目标的音频材料得到文本信息,提取所述音频材料的特征信息,以获取所述预设目标的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;

39、训练模块,用于将所述预设目标的音频材料的文本信息、所述音频材料的特征信息和预设目标的发声规律输入并训练预设神经网络;

40、语音生成模块,用于获取预设阅读材料的文本,将所述预设阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述预设阅读材料的文本页数相匹配;

41、导读音频模块,用于向用户展示所述预设阅读材料,根据用户的操作指示打开所述预设阅读材料的相应文本页数或段落,并向所述用户播放所述音频导读文件的相应页数或段落的音频。

42、总的来说,本技术的优势及给用户带来的体验在于:能够根据不同的用户需求,展开个性化的、针对性的音频导读,使得用户产生阅读的兴趣和专注力;所使用的特色语音分析,使得语音经转换、拆解、计算分析后能够得出录入语音的发声规律;通过对语音、文本、发声规律进行基于神经网络的模型训练,使得模型具有了自学习的能力,使得听众能够在阅读时想听到他想听到的特定人物的语音播放。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24550.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。