技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种外语口语交互式系统和方法 > 正文

一种外语口语交互式系统和方法

国知局
2024-06-21 11:53:41

本发明涉及交互式系统，尤其涉及一种外语口语交互式系统和方法。

背景技术：

1、传统背景下的外语口语交互式系统依赖教师的指导和反馈，限制学生自主学习能力，传统系统往往难以提供个性化的口语指导。传统系统中的口语评估和反馈通常是需要人工评判后，进行反馈，无法快速纠正口语错误。因此，目前亟需一种更灵活、个性化和效果更好的外语口语学习系统。

技术实现思路

1、针对上述所显示出来的问题，本技术方案提供了一种外语口语交互式系统和方法。

2、本技术方案方案一种外语口语交互式系统，包括：

3、基于预设的语音识别技术，采集口语音频，并将所述口语音频转化为文本形式；

4、基于预设的语音合成技术，将文本形式转化为标准音频输出；

5、实时处理输入的口语音频，生成反馈信息和指导信息；

6、通过所述反馈信息和指导信息，选择特定的学习任务或学习主题进行口语练习。

7、作为本技术方案的一种实施例，所述语音识别模块，包括：

8、采集单元，用于通过预设的麦克风或录音设备进行录音，将口语音频输入转换为电子音频信号；

9、预处理单元，用于将所述电子音频信号进行预处理；其中，

10、所述预处理至少包括去除噪音、回声抑制和音量归一化；

11、声学特征提取单元，用于对预处理后电子音频信号提取声学特征，并通过所述声学特征，确定电子音频信号的频谱和时域特征；其中，

12、所述声学特征至少包括短时能量、梅尔频率倒谱系数和线性预测编码；

13、声学模型匹配单元，用于将提取得到的声学特征与训练好的声学模型进行匹配，并将匹配成功的声学特征标注为候选词；其中，

14、所述声学模型通常是基于统计模型的隐马尔可夫模型或深度学习模型；

15、解码和词图生成单元，用于基于预设的语言模型和解码算法，对所述候选词进行评分和排序，生成词图；其中，

16、所述词图用于表示候选词可能的识别结果和候选词之间关系的结构图；

17、后处理和文本生成单元，用于根据生成的词图，通过后处理算法进行搜索和剪枝，选择可能性最大的文本结果；

18、文本单元，用于将可能性最大的文本结果输出转化为文本形式。

19、作为本技术方案的一种实施例，所述语音合成模块，包括：

20、文本分析单元，用于基于预设的自然语言处理技术，对输入的文本进行分析和处理，确定文本结构和文本含义；其中，

21、所述分析至少包括词法分析、句法分析和语义分析；

22、重组单元，用于基于文本结构和文本含义，识别语法错误、语义错误和发音错误，并基于所述语法错误、语义错误和发音错误，重组文本信息；

23、声学模型选择单元，用于根据重组后的文本信息，选择特定的声学模型；其中，

24、所述声学模型至少包括基于规则的合成方法、基于统计的合成方法和基于深度学习的合成方法；

25、参数生成单元，用于根据选定的声学模型，将重组后的文本信息转化为相应的合成参数；其中，

26、所述合成参数至少包括音高、音色和时长；

27、波形合成单元，用于基于预设的合成算法，利用合成参数和选定的声学模型，生成音频波形；其中，

28、所述合成算法至少包括信号合成技术和声码器；

29、后处理单元，用于将生成的音频波形进行后处理；其中，

30、所述后处理包括音频平滑、音量调节和语调调整；

31、音频输出单元，用于将后处理后的音频波形转化为标准音频格式的标准音频作为输出。

32、作为本技术方案的一种实施例，所述实时交互模块，包括：

33、特征提取单元，用于将输出的标准音频和实时输入的口语音频特征提取，获取对比的声音特征；其中，

34、所述对比声音特征至少包括声谱图、梅尔频率倒谱系数（mfcc）和音频能量；

35、对齐单元，用于获取对比的声音特征序列，将提取得到的声音特征序列进行对齐，并基于预设的动态时间规整算法，使得标准音频和实时输入的口语音频按照时间对应；

36、相似性度量单元，用于通过预设的相似性度量方法，计算对齐后的特征序列之间的相似性度量，计算标准音频和实时输入的口语音频之间的差异；其中，

37、所述相似性度量方法至少包括欧氏距离、余弦相似度和动态时间规整路径的长度；

38、阈值设置单元，用于将所述标准音频和实时输入的口语音频之间的差异与预设的相似性度量阈值进行比较，确定不同程度的评估结果。

39、作为本技术方案的一种实施例，所述学习模式模块，包括：

40、学习模式模块，用于通过所述反馈信息和指导信息，选择特定的学习任务或学习主题进行口语练习。

41、对话模型单元，用于通过所述反馈信息和指导信息，建立对话模型；

42、语法纠错单元，用于通过所述对话模型，对口语音频中的语法错误提供对应的纠正建议；

43、发音建议单元，用于利用语音识别和语音合成技术，分析所述口语音频中，并通过所述对话模型，提供对应的发音改进建议；

44、替换词汇单元，用于利用预设的替换词库，根据上下文和口语音频，通过所述对话模型，提供对应的替换词汇建议；其中，

45、所述替换词库至少包括同义词词典、语料库和深度学习模型。

46、本技术方案提供了一种外语口语交互式方法，包括：

47、基于预设的语音识别技术，采集口语音频，并将所述口语音频转化为文本形式；

48、基于预设的语音合成技术，将文本形式转化为标准音频输出；

49、实时处理输入的口语音频，生成反馈信息和指导信息；

50、通过所述反馈信息和指导信息，选择特定的学习任务或学习主题进行口语练习。

51、作为本技术方案的一种实施例，所述基于预设的语音识别技术，采集口语音频，并将所述口语音频转化为文本形式，包括：

52、通过预设的麦克风或录音设备进行录音，将口语音频输入转换为电子音频信号；

53、将所述电子音频信号进行预处理；其中，

54、所述预处理至少包括去除噪音、回声抑制和音量归一化；

55、对预处理后电子音频信号提取声学特征，并通过所述声学特征，确定电子音频信号的频谱和时域特征；其中，

56、所述声学特征至少包括短时能量、梅尔频率倒谱系数和线性预测编码；

57、将提取得到的声学特征与训练好的声学模型进行匹配，并将匹配成功的声学特征标注为候选词；其中，

58、所述声学模型通常是基于统计模型的隐马尔可夫模型或深度学习模型；

59、基于预设的语言模型和解码算法，对所述候选词进行评分和排序，生成词图；其中，

60、所述词图用于表示候选词可能的识别结果和候选词之间关系的结构图；

61、根据生成的词图，通过后处理算法进行搜索和剪枝，选择可能性最大的文本结果；

62、文本单元，用于将可能性最大的文本结果输出转化为文本形式。

63、作为本技术方案的一种实施例，所述基于预设的语音合成技术，将文本形式转化为标准音频输出，包括：

64、基于预设的自然语言处理技术，对输入的文本进行分析和处理，确定文本结构和文本含义；其中，

65、所述分析至少包括词法分析、句法分析和语义分析；

66、基于文本结构和文本含义，识别语法错误、语义错误和发音错误，并基于所述语法错误、语义错误和发音错误，重组文本信息；

67、根据重组后的文本信息，选择特定的声学模型；其中，

68、所述声学模型至少包括基于规则的合成方法、基于统计的合成方法和基于深度学习的合成方法；

69、根据选定的声学模型，将重组后的文本信息转化为相应的合成参数；其中，

70、所述合成参数至少包括音高、音色和时长；

71、基于预设的合成算法，利用合成参数和选定的声学模型，生成音频波形；其中，

72、所述合成算法至少包括信号合成技术和声码器；

73、将生成的音频波形进行后处理；其中，

74、所述后处理包括音频平滑、音量调节和语调调整；

75、将后处理后的音频波形转化为标准音频格式的标准音频作为输出。

76、所述通过所述反馈信息和指导信息，选择特定的学习任务或学习主题进行口语练习，包括：

77、将输出的标准音频和实时输入的口语音频进行对比，

78、将输出的标准音频和实时输入的口语音频特征提取，获取对比的声音特征；其中，

79、所述对比声音特征至少包括声谱图、梅尔频率倒谱系数（mfcc）和音频能量；

80、获取对比的声音特征序列，将提取得到的声音特征序列进行对齐，并基于预设的动态时间规整算法，使得标准音频和实时输入的口语音频按照时间对应；

81、通过预设的相似性度量方法，计算对齐后的特征序列之间的相似性度量，计算标准音频和实时输入的口语音频之间的差异；其中，

82、所述相似性度量方法至少包括欧氏距离、余弦相似度和动态时间规整路径的长度；

83、将所述标准音频和实时输入的口语音频之间的差异与预设的相似性度量阈值进行比较，确定不同程度的评估结果；

84、按照所述评估结果，生成对应的反馈信息和指导信息。

85、作为本技术方案的一种实施例，所述通过所述反馈信息和指导信息，选择特定的学习任务或学习主题进行口语练习，包括：

86、通过所述反馈信息和指导信息，建立对话模型；

87、通过所述对话模型，对口语音频中的语法错误提供对应的纠正建议；

88、利用语音识别和语音合成技术，分析所述口语音频中，并通过所述对话模型，提供对应的发音改进建议；

89、利用预设的替换词库，根据上下文和口语音频，通过所述对话模型，提供对应的替换词汇建议；其中，

90、所述替换词库至少包括同义词词典、语料库和深度学习模型。

91、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

92、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

标签：口语外语方法技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/24322.html

上一篇
一种基于KD树噪声分类设备及分类方法与流程

下一篇
返回列表

一种外语口语交互式系统和方法

相关技术

最新技术

技术分类