技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频实时处理系统、音频实时处理方法、及语音分析模型的训练方法与流程 > 正文

音频实时处理系统、音频实时处理方法、及语音分析模型的训练方法与流程

国知局
2024-06-21 11:33:08

本申请涉及音频处理及音频训练，尤其涉及一种音频实时处理系统、音频实时处理方法、及语音分析模型的训练方法。

背景技术：

1、目前有关声音输出的设备(如电视、音响)，用户在进行音量调整时，仅能将输出的声量整体进行提高或降低，无法针对目标声音(如乐器声、人声)进行调整，这其中一个原因是因为内部音频处理系统无法实时对音频进行处理。

2、也因此本发明人认为，若可以实时对音频进行处理，将可有效提升使用者的听觉享受，为此，本发明人开始思考改善的方式。

技术实现思路

1、有鉴于先前技术所述的内容，本发明人提供一种音频实时处理系统，包括一语音分析模型及一处理器。

2、语音分析模型用以依据一原始音频，获得一分析结果及一隐藏层状态信息。处理器用以将该原始音频，用该语音分析模型进行多次运算并对应获得多个分析音频及该隐藏层状态信息；依据这些分析音频，获得一重复音频区段；及输出该重复音频区段。

3、本发明人同时提供一种语音分析模型的训练方法，包括：

4、取一原始音频进行转换得到一相位信息及一强度信息；根据该强度信息及一语音分析模型，得到一掩模信息；根据该强度信息与该掩模信息，得到一强度预测信息；以及根据该强度预测信息、该相位信息及一损失函数调整该语音分析模型。

5、本发明人同时提供一种音频实时处理方法，用以执行下列步骤：

6、将一原始音频，用一语音分析模型进行多次运算并对应获得多个分析音频及隐藏层状态信息；以及依据这些分析音频，获得一重复音频区段。

7、本发明利用上述方法训练语音分析模型，使得分析好的语音分析模型能有效对原始音频进行分析(在一些实施例中语音分析模型可被利用于分离出原始音频中的目标音频及非目标音频，从而处理器可利用语音分析模型以运算取得多个分析音频进行处理，再将多个分析音频中取得重复音频区段进行输出。如此一来可快速对原始音频进行处理，以符合并提升使用者听觉享受。

技术特征：

1.一种音频实时处理系统，包括：

2.如权利要求1所述的音频实时处理系统，其中，该处理器将该原始音频，用该语音分析模型及一分离器进行多次运算，并获得多个相对应的目标分析子音频及非目标分析子音频，对每个目标分析子音频进行音量调整后与相对应的非目标分析子音频进行混合，得到这些分析音频。

3.如权利要求1所述的音频实时处理系统，其中，该处理器将该原始音频，用该语音分析模型及一分离器进行多次运算，并获得多个目标分析子音频，对每个目标分析子音频进行音量调整后与该原始音频进行混合，得到这些分析音频。

4.如权利要求2或3所述的音频实时处理系统，其中，该处理器将该原始音频，用该语音分析模型进行多次运算，获得多个掩模信息，该分离器再根据每个掩模信息与该原始音频，得到这些目标分析子音频。

5.如权利要求4所述的音频实时处理系统，其中，该运算根据该分析音频、该语音分析模型，及上一次运算产生的该隐藏层状态信息进行运算。

6.一种语音分析模型的训练方法，包括：

7.如权利要求6所述的语音分析模型的训练方法，其中，在根据该强度预测信息、该相位信息及该损失函数调整该语音分析模型的步骤中，

8.如权利要求7所述的语音分析模型的训练方法，其中，该掩模信息包括一目标掩模子信息及一非目标掩模子信息；该强度预测信息包括一目标强度预测子信息及一非目标强度预测子信息；在根据该强度预测信息、该相位信息及该损失函数调整该语音分析模型的步骤中，

9.如权利要求6至8中任一项所述的语音分析模型的训练方法，其中，该语音分析模型包括一relu函数及一长短期记忆模型lstm。

10.一种音频实时处理方法，用以执行下列步骤：

技术总结本申请涉及一种音频实时处理系统、音频实时处理方法、及语音分析模型的训练方法，先对语音分析模型进行训练，使其分析出的掩模信息得以有效进行掩模，以取得目标音频。如此一来，处理器可将原始音频利用语音分析模型进行多次运算后，取得多个分析音频及隐藏层状态信息，再根据依据这些分析音频，获得一重复音频区段后将重复音频区段输出，由此实现实时音频处理的目的。技术研发人员：朱彦勋受保护的技术使用者：瑞昱半导体股份有限公司技术研发日：技术公布日：2024/3/11