技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种唇部特征辅助的语音增强方法及系统 > 正文

一种唇部特征辅助的语音增强方法及系统

国知局
2024-06-21 11:51:27

本申请涉及语音信号处理的语音增强，尤其涉及一种唇部特征辅助的语音增强方法及系统。

背景技术：

1、在语音信号采集过程中，可能会受到各种噪声的干扰，导致采集到的语音信号的质量较低，例如清晰度和可理解性较差。为了提高语音信号的质量，语音增强技术应运而生。语音增强技术是指一种从噪声背景中提取有用的语音信号以提高语音质量的技术。语音增强技术已经广泛应用于多个语音相关领域，例如基于语音的通信领域、基于语音的生物识别领域、基于语音的文字识别领域等领域。

2、相关技术中使用的语音增强算法(例如谱减法、维纳滤波、基于最小均方误差的短时谱幅增强方法等)，通常侧重于对语音信号中的噪声进行剔除以尽可能提取语音信号中的纯净语音。在强噪声场景下，相关技术由于无法实现噪声的完全剔除导致增强后的语音信号的质量难以满足质量需求。

技术实现思路

1、鉴于以上内容，有必要提供一种唇部特征辅助的语音增强方法及系统，以解决相关技术由于无法实现噪声的完全剔除导致增强后的语音信号的质量难以满足质量需求的技术问题。

2、本申请实施例提供一种唇部特征辅助的语音增强方法，应用于唇部特征辅助的语音增强系统，所述唇部特征辅助的语音增强系统包括语音传感器和图像传感器，所述唇部特征辅助的语音增强方法包括：响应用户的对话操作，利用所述语音传感器采集所述用户的语音信号，并基于所述图像传感器的第一预设模式采集所述用户的面部图像数据；对所述面部图像数据进行唇部区域检测；当所述面部图像数据中存在唇部区域时，基于所述图像传感器的第二预设模式采集所述用户的唇部图像数据；提取所述语音信号的语音特征以及所述唇部图像数据中的唇部特征；对所述语音特征与所述唇部特征进行特征融合，得到融合特征；利用预设的语音增强模型对所述融合特征进行语音增强，得到增强后的语音信号。

3、本申请实施例提供的唇部特征辅助的语音增强方法中，首先响应用户的对话操作，利用所述语音传感器采集所述用户的语音信号，并基于所述图像传感器的第一预设模式采集所述用户的面部图像数据；进一步对所述面部图像数据进行唇部区域检测，当所述面部图像数据中存在唇部区域时，基于所述图像传感器的第二预设模式采集所述用户的唇部图像数据；进一步提取所述语音信号的语音特征以及所述唇部图像数据中的唇部特征；进一步对所述语音特征与所述唇部特征进行特征融合，得到融合特征；最后利用预设的语音增强模型对所述融合特征进行语音增强，得到增强后的语音信号。基于此，本申请通过将语音特征和唇部特征融合在一起对采集到的语音信号进行语音增强，提升了语音增强的效果，有效提高了增强后的语音信号的语音质量，例如清晰度和可理解性得到了有效改善，能够满足质量需求。此外，本申请引入的图像传感器通过常开第一预设模式来实时采集用户的面部图像数据并实时检测面部图像数据中是否存在唇部区域，进一步在检测到面部图像数据中存在唇部区域后再开启第二预设模式来采集用户的唇部图像数据并提取唇部图像数据中的唇部特征，使得图像传感器大部分时间工作在工作功耗较低的第一预设模式下，降低了平均工作功耗。

4、在一个实施例中，所述基于所述图像传感器的第一预设模式采集所述用户的面部图像数据包括：利用所述图像传感器基于预设的第一分辨率采集所述用户的面部电信号；利用所述图像传感器对所述面部电信号进行第一电信号调理；利用所述图像传感器基于预设的第一帧率对第一电信号调理后的面部电信号进行采样处理，并将采样处理后的面部电信号转换为第一数字信号；基于所述第一数字信号，得到所述面部图像数据。

5、在一个实施例中，所述基于所述图像传感器的第二预设模式采集所述用户的唇部图像数据包括：利用所述图像传感器基于预设的第二分辨率采集所述用户的唇部电信号；利用所述图像传感器对所述唇部电信号进行第二电信号调理；利用所述图像传感器基于预设的第二帧率对第二电信号调理后的唇部电信号进行采样处理，并将采样处理后的唇部电信号转换为第二数字信号，得到所述唇部图像数据。

6、在一个实施例中，所述第一预设模式对应的第一分辨率大于所述第二预设模式对应的第二分辨率。

7、在一个实施例中，所述第一预设模式对应的第一帧率小于所述第二预设模式对应的第一帧率。

8、本申请实施例提供一种唇部特征辅助的语音增强系统，包括：微程序控制器，以及连接于所述微程序控制器的语音传感器、语音特征提取器、图像传感器、唇部区域检测器、图像特征提取器；所述微程序控制器用于响应用户的对话操作，向所述语音传感器下达语音采集指令，并向所述图像传感器下达面部图像采集指令；所述语音传感器用于响应所述语音采集指令，采集所述用户的语音信号；所述图像传感器用于响应所述面部图像采集指令，使用第一预设模式采集所述用户的面部图像数据；所述唇部区域检测器用于对所述面部图像数据进行唇部区域检测；所述微程序控制器还用于接收所述唇部区域检测器的检测结果，当所述检测结果指示所述面部图像数据中存在唇部区域时，向所述图像传感器下达唇部图像采集指令；所述图像传感器还用于响应所述唇部图像采集指令，使用第二预设模式采集所述用户的唇部图像数据；所述语音特征提取器用于提取所述语音信号的语音特征；所述图像特征提取器用于提取所述唇部图像数据中的唇部特征。

9、在一个实施例中，所述唇部特征辅助的语音增强系统还包括特征融合模型，所述特征融合模型用于对所述语音特征与所述唇部特征进行特征融合，得到融合特征。

10、在一个实施例中，所述唇部特征辅助的语音增强系统还包括语音增强模型，所述语音增强模型用于对所述融合特征进行语音增强，得到增强后的语音信号。

技术特征：

1.一种唇部特征辅助的语音增强方法，应用于唇部特征辅助的语音增强系统，其特征在于，所述唇部特征辅助的语音增强系统包括语音传感器和图像传感器，所述唇部特征辅助的语音增强方法包括：

2.如权利要求1所述的唇部特征辅助的语音增强方法，其特征在于，所述基于所述图像传感器的第一预设模式采集所述用户的面部图像数据包括：

3.如权利要求2所述的唇部特征辅助的语音增强方法，其特征在于，所述基于所述图像传感器的第二预设模式采集所述用户的唇部图像数据包括：

4.如权利要求3所述的唇部特征辅助的语音增强方法，其特征在于，所述第一预设模式对应的第一分辨率大于所述第二预设模式对应的第二分辨率。

5.如权利要求3所述的唇部特征辅助的语音增强方法，其特征在于，所述第一预设模式对应的第一帧率小于所述第二预设模式对应的第一帧率。

6.一种唇部特征辅助的语音增强系统，其特征在于，所述唇部特征辅助的语音增强系统包括：微程序控制器，以及连接于所述微程序控制器的语音传感器、语音特征提取器、图像传感器、唇部区域检测器、图像特征提取器；

7.如权利要求6所述的唇部特征辅助的语音增强系统，其特征在于，所述唇部特征辅助的语音增强系统还包括特征融合模型，所述特征融合模型用于对所述语音特征与所述唇部特征进行特征融合，得到融合特征。

8.如权利要求7所述的唇部特征辅助的语音增强系统，其特征在于，所述唇部特征辅助的语音增强系统还包括语音增强模型，所述语音增强模型用于对所述融合特征进行语音增强，得到增强后的语音信号。

技术总结本申请提供一种唇部特征辅助的语音增强方法及系统。语音增强方法应用于语音增强系统，语音增强系统包括语音传感器和图像传感器，方法包括：响应用户的对话操作，利用语音传感器采集用户的语音信号，并基于图像传感器的第一预设模式采集用户的面部图像数据；对面部图像数据进行唇部区域检测；当面部图像数据中存在唇部区域时，基于图像传感器的第二预设模式采集用户的唇部图像数据；提取语音信号的语音特征以及唇部图像数据中的唇部特征；对语音特征与唇部特征进行特征融合，得到融合特征；利用预设的语音增强模型对融合特征进行语音增强，得到增强后的语音信号。本申请实现了提升语音增强效果的同时降低工作功耗的技术效果。技术研发人员：姜汉钧,浦宁,贾雯受保护的技术使用者：清华大学技术研发日：技术公布日：2024/5/12