技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音数据获取方法、装置、设备和介质与流程 > 正文

一种语音数据获取方法、装置、设备和介质与流程

国知局
2024-06-21 11:31:45

本申请涉及声学领域，更具体地说涉及计算机声学处理领域，特别是涉及一种语音数据获取方法、装置、设备和介质。

背景技术：

1、随着科技的发展，汽车也进入了智能时代。很多智能汽车都带有智能语音识别功能，车载麦克风(microphone，mic)从车内采集到环境音后传输给车机系统，车机系统(ivisoc，in-vehicle infotainment system on chip)对接收到的环境音进行语音识别，例如是从环境音中识别出用于控制智能汽车的语音指令。

2、但是，mic采集到的环境音中可能混杂智能汽车上的车载扬声器输出的声音。例如，车内驾乘人员在讲述语音指令时车内车载扬声器正在播放音乐，此时，mic会同时采集到车载扬声器输出的声音和车内驾乘人员讲话的声音。mic采集到的环境音中混杂的扬声器输出的声音会干扰语音识别。因此，需要对采集的环境音进行回声消除处理，即需要从采集到的环境音中消除掉采集到的扬声器输出的声音。

3、目前，通用的消回声方案是在车机系统向车载扬声器输出音频时回采该输出音频，将该回采的输出音频作为参考音(reference，ref)，然后利用该参考音抵消掉环境音中的回声，从而实现消回声处理。

技术实现思路

1、本申请实施例的目的是提供一种语音数据获取方法、装置、设备、介质、芯片和计算机程序产品，能够在一定程度上解决智能汽车上的语音识别功能后台常驻时因语音识别时使用的语音数据不合格而导致语音识别精度较低的技术问题。

2、本申请实施例的第一方面提供了一种语音数据的获取方法所述方法包括：检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态；其中，所述第一缓冲区中的数据是从所述第三缓冲区中获取的，所述第二缓冲区中的数据是从所述第四缓冲区中获取的，所述第三缓冲区用于存储从音频输出通路上采集的参考音，所述第四缓冲区用于存储从音频输入通路上采集的环境音；在检查到所述第一缓冲区与所述第二缓冲区中的数据量相等且所述第一缓冲区、所述第二缓冲区、所述第三缓冲区和所述第四缓冲区的容量均未溢出的情况下，读取所述第一缓冲区中的待拼接参考音和所述第二缓冲区中的待拼接环境音；根据预先测定的时延将读取到的所述待拼接参考音与所述待拼接环境音对齐，并在对齐后将所述待拼接参考音与所述待拼接环境音拼接，得到目标语音数据。

3、本申请实施例的第二方面提供了一种语音数据的获取装置，所述装置包括：第一检查模块，用于检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态；其中，所述第一缓冲区中的数据是从所述第三缓冲区中获取的，所述第二缓冲区中的数据是从所述第四缓冲区中获取的，所述第三缓冲区用于存储从音频输出通路上采集的参考音，所述第四缓冲区用于存储从音频输入通路上采集的环境音；第一读取模块，用于在检查到所述第一缓冲区与所述第二缓冲区中的数据量相等且所述第一缓冲区、所述第二缓冲区、所述第三缓冲区和所述第四缓冲区的容量均未溢出的情况下，读取所述第一缓冲区中的待拼接参考音和所述第二缓冲区中的待拼接环境音；对齐拼接模块，用于根据预先测定的时延将读取到的所述待拼接参考音与所述待拼接环境音对齐，并在对齐后将所述待拼接参考音与所述待拼接环境音拼接，得到目标语音数据。

4、本申请实施例的第三方面提供了一种电子设备，所述电子设备包括：中央处理器、第一处理器和存储器，所述存储器存储可在所述第一处理器和所述中央处理器中的至少之一上运行的程序或指令，所述程序或指令中存在程序或指令被所述第一处理器执行时实现如第一方面所述的语音数据获取方法的步骤。

5、本申请实施例的第四方面提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的语音数据获取方法的步骤。

6、本申请实施例的第五方面提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的语音数据获取方法。

7、本申请实施例的第六方面提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的语音数据获取方法。

8、在本申请实施例中，通过检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态，从而确定第一缓冲区中的待拼接参考音是否足够用于抵消第二缓冲区中的待拼接环境音中的回声，以及确定参考音采集硬件采集到的参考音传递至第一缓冲区和环境音采集硬件采集到的环境音传递至第二缓冲区的两个传递过程是否存在数据丢失；在检查到第一缓冲区与第二缓冲区中的数据量相等且第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的容量均未溢出的情况下，确定第一缓冲区中的待拼接参考音已经足够用于抵消第二缓冲区中的待拼接环境音中的回声，且前述两个传递过程无存在数据丢失；此时，读取第一缓冲区中的待拼接参考音和第二缓冲区中的待拼接环境音，并根据预先测定的时延将读取到的待拼接参考音与待拼接环境音对齐，并在对齐后将待拼接参考音与待拼接环境音拼接，得到目标语音数据。从而保证拼接后得到的目标语音数据中的参考音与环境音之间的相对时延的稳定，即得到合格的语音数据，将该目标语音数据提供给智能汽车上的语音识别功能进行使用时，因目标语音数据中的参考音与环境音已经基于预先测定的时延对齐并拼接在一起了，在进行消回声处理时能更加完美地利用参考音抵消环境音的中的回声，以使后续语音识别时降低回声造成的干扰，进而提高了智能汽车上的语音识别功能后台常驻时的识别精度。

技术特征：

1.一种语音数据获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预先测定的时延包括：预先测定的通路时延；所述通路时延是用于描述针对一音频数据从所述音频输出通路输出变成目标声音且所述目标声音被所述音频输入通路采集到的过程中从所述音频输出通路上采集到所述音频数据的采集时间与从所述音频输入通路上采集到所述音频数据的采集时间之间的时差；所述根据预先测定的时延将读取到的所述待拼接参考音与所述待拼接环境音对齐，包括：

3.根据权利要求2所述的方法，其特征在于，所述预先测定的时延还包括：预先测定的开启时延；所述开启时延是用于描述开启参考音采集硬件的开启时间与开启环境音采集硬件的开启时间之间的时差；所述根据预先测定的时延将读取到的所述待拼接参考音与所述待拼接环境音对齐，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述通路时延是在所述检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态之前，通过以下步骤测定的：

5.根据权利要求4所述的方法，其特征在于，所述特征音频数据包括前序特征音频数据和后序特征音频数据；所述根据所述参考音采集硬件采集到的音频数据和所述环境音采集硬件采集到的音频数据，确定通路时延，包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1或7所述的方法，其特征在于，所述检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求9所述的方法，其特征在于，所述第一控制器的产生中断的第一周期和所述第二控制器产生中断的第二周期不同。

12.根据权利要求11所述的方法，其特征在于，所述第一周期和所述第二周期均为大于2的素数个基本单位时长。

13.根据权利要求1所述的方法，其特征在于，在对齐后将所述待拼接参考音与所述待拼接环境音拼接，得到目标语音数据，包括：

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

15.一种语音数据获取装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，所述电子设备包括：中央处理器、第一处理器和存储器，所述存储器存储可在所述第一处理器和所述中央处理器中的至少之一上运行的程序或指令，所述程序或指令中存在程序或指令被所述第一处理器执行时实现如权利要求1至14中任一项所述的语音数据获取方法的步骤。

17.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至14中任一项所述的语音数据获取方法的步骤。

技术总结本申请实施例提供了一种语音数据获取方法、装置、设备和介质。所述方法包括：检查第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的存储状态；第一缓冲区中的数据是从第三缓冲区中获取的，第二缓冲区中的数据是从第四缓冲区中获取的，第三缓冲区用于存储从音频输出通路上采集的参考音，第四缓冲区用于存储从音频输入通路上采集的环境音；在检查到第一缓冲区与第二缓冲区中的数据量相等且第一缓冲区、第二缓冲区、第三缓冲区和第四缓冲区的容量均未溢出的情况下，读取第一缓冲区中的待拼接参考音和第二缓冲区中的待拼接环境音；根据预先测定的时延将读取到的待拼接参考音与待拼接环境音对齐，并拼接，得到目标语音数据。得到合格的语音数据。技术研发人员：乔亚鹏受保护的技术使用者：合肥杰发科技有限公司技术研发日：技术公布日：2024/3/4