技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于声纹的语言识别方法及装置与流程 > 正文

基于声纹的语言识别方法及装置与流程

国知局
2024-06-21 11:53:49

本发明涉及语音交互，特别涉及一种基于声纹的语言识别方法及装置。

背景技术：

1、语音交互设备可以被广义地理解为集成了siri的手机，集成了小爱同学的智能音箱，或集成了语音对话模块的行走机器人，其正在被人们广泛使用于家庭生活、教育、娱乐中。随着自然语言处理技术的成熟，例如以chatgpt为代表的生成式人工智能程序可以被部署在语音交互设备中，当通过麦克风采集到交互者语音之后，基于chatgpt进行一轮或多轮的对话，甚至未来还可以实现由多人共同参与的以娱乐或教育为目的的语音互动。

2、在语音交互设备中，为了获得更好的拾音效果，一般在硬件上使用麦克风阵列并配合波束形成的软件算法，实现定向拾音。其原理为：麦克风阵列中每个麦克风的位置不同，因此接收到语音信号的时间不同，选定一个麦克风作为参考麦克风，计算出目标声源到达参考麦克风的时间，然后计算其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，进行时间补偿以使各通道的语音信号同步，将各通道的信号相加，可以使目标方向的信号同相叠加得到增强，等效于阵列波束图的主瓣对准目标方向，其它方向相比于主瓣方向均有不同程度的削弱。从而实现对指定方向的语音信号进行增强，对其他方向的语音信号进行削弱，这就是麦克风阵列拾音的指向性。通过调整其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，可以调整麦克风阵列的指向性。

3、在某些应用场景中，考虑到交互者在使用交互系统过程中，存在移动位置的需求，此时交互者相对于语音交互设备的位置是变化的，所以需要提供能够响应于交互者位置变化而调整麦克风阵列指向性的方案，以期达到更好的拾音效果。如专利文献1中，只有在预设时间段内声音获取元件未采集到语音信号时，才会在预设的角度范围内调整声音获取元件的指向性。例如当交互者行移到波束图旁瓣指向的区域时，如果交互者在该区域说话，则从该区域传播到麦克风阵列的声音信号被衰减了40db，会由于声音信号能量过低无法被声源获取元件感应到，从而导致声音获取元件未采集到语音信号，此时才会触发调整声音获取元件的指向性。其调整麦克风指向的策略，具体为，麦克风阵列x秒(x为正数)的时间没有录到声音时，重新运行声源定位再次定位，然后根据声源定位的结果调整麦克风指向。

4、发明人发现，专利文献1的方案存在拾音不连贯的问题。发明人经过研究发现其原因主要包括两点，第一是，专利文献1中对于调整指向性时机的判断存在不足（即无法及时调整麦克风阵列的指向性），例如，预设时间段为3秒钟，则如果这3秒钟交互者在波束图旁瓣指向的区域说了话，而这些话未被声音获取元件采集到，只有重新调整指向性之后，将主瓣指向交互者当前区域后才会重新采集到清楚的语音信号，所以专利文献1中调整麦克风阵列指向性的方案存在拾音不连贯问题。第二是，专利文献1中基于声源进行定位，而声源定位容易受到空间回音、其他人声音等噪声的干扰，导致声源定位精度不够高，某些情况下存在通过声源定位计算出交互者在主瓣指向的区域时，实际情况交互者在旁瓣指向的区域内，此时导致声音获取元件采集不到语音信号的情况，并且只有在经过预设时间段(例如3秒）之后，才会重新触发麦克风阵列调整指向性，导致这3秒钟的声源无法被采集，此时也会造成专利文献1中在进行麦克风阵列指向性调整的操作时，存在拾音不连贯的问题。另外，由于声源定位不准确，因此，调整麦克风阵列指向性的准确性也受到影响，例如，调整后的麦克风阵列的主瓣无法准确指向交互者所在区域。将专利文献1作为调整麦克风阵列指向性的第一代产品。

5、经过检索，发现专利文献2提供的麦克风阵列指向性调整方案中，通过2个麦克风阵列形成二维的声源定位结果，具体为，其中的一个麦克风阵列被设置为与摄像机同步旋转的结构。该方案具有多个效果，例如，通过二维声源定位可以具有更高的声源定位精度，从而在调整麦克风阵列指向性上具有更准确的效果。另外的，该同步旋转的结构解决了从一维声源定位系统改造为二维声源定位系统过程中，由于需要增加麦克风阵列而造成的开发成本增加、算法开发难度大的问题，并消除了摄像机旋转时对该麦克风阵列的干扰等。可见，专利文献2对专利文献1中的部分不足作出了改进，可以认为是调整麦克风阵列指向性的第二代产品。

6、然而，发明人发现，专利文献2提供的方案仍然无法解决第一代产品中的拾音不连贯问题，虽然阵列文献2中的产品与本技术的语音交互设备，在产品硬件结构上具有类似的部分（例如摄像头、麦克风阵列），但是其通过增加麦克风阵列（即需要使用2个麦克风阵列）达到二维声源定位效果，在增加硬件成本基础上，也仍然无法解决拾音不连贯的问题。因此，经过检索，并未发现现有技术中存在解决进整麦克风阵列指向性调整操作时存在的拾音不连贯问题的方案，也并未从现有技术中得到解决该问题的技术启示。基于此，有必要对现有技术中在进行麦克风阵列指向性调整的操作时，出现的拾音不连贯问题提供一种解决方案。另一方面，发明人发现，为了准确判断调整麦克风阵列指向性的时机，需要实时监测交互者的位置，然而，在交互者与语音交互设备的互动过程中，不可避免有其他人与交互者在同一场地中活动，这可能带来干扰。如何在交互者使用语音交互设备过程中，排除在同一场所中其他人的活动给调整麦克风阵列指向性的操作所带来的干扰，也是亟需解决的问题。

7、专利文献1，公开号，cn106162427a，专利名称，一种声音获取元件的指向性调整方法和装置，公开日，2016-11-23。

8、专利文献2，公开号，cn113099160a，专利名称，基于麦克风阵列的视频会议方法、系统、设备及存储介质，公开日，2021-07-09。

技术实现思路

1、本发明的目的在于提供一种基于声纹的语言识别方法及装置，能够在多人活动的环境中，排除其他人的活动对实时监测交互者位置所带来的干扰，以准确快速地识别出交互者并实时监测到交互者的位置，从而保证能够准确判断调整麦克风阵列指向性的时机，进而保证拾音的连贯。

2、第一方面，提供一种基于声纹的语言识别方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，所述方法包括：

3、检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置；

4、利用视觉系统获取第一视觉数据；所述第一视觉数据为包括基于位于第一位置的对象反射的光线所形成的视觉数据；

5、检测到第一视觉数据中包含多个不同人类的人体信息时，选择已经与所述语音唤醒信号的声纹绑定的人体信息作为目标人体信息，并将所述目标人体信息对应的人类作为交互者；

6、利用视觉系统实时监测所述交互者的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置；

7、对麦克风阵列采集到的语音信号进行语言识别，以便实现语音交互。

8、另一方面，本发明提供了一种基于声纹的语言识别装置，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述方法的步骤。

9、有益效果：

10、1、相较于现有技术中采用基于麦克风阵列的声源定位，视觉系统定位更加准确，因此无需增加麦克风阵列硬件成本来提升对声源定位的精度，通过视觉系统定位就可以达到更高的定位精度，例如厘米级别的定位精度，节省了硬件成本。

11、2、在多人环境中，并且其他人与交互者位置很接近时，由于二者距离很接近并且声源定位精度不高的原因，第一位置可能并不能准确反映出交互者声源的位置，存在交互者和其他人可能同时位于第一位置的情况。因此，通过视觉数据（例如照片）对第一位置进行识别时，可能会同时识别到两个人（即交互者与其他人），此时通过视觉定位出交互者存在困难。而本技术中，通过声纹绑定识别交互者的人体信息，例如人脸，可以在声源定位出的第一位置不准确的情况下，从多个与交互者位置很接近的人类中准确并快速地识别出交互者并通过基于视觉数据的视觉定位技术准确定位出交互者位置。

12、3、相较于现有技术中，在经过一段时间未采集到交互者声音后，例如2秒未采集到声音时，才能判断出需要调整麦克风阵列的指向性，而交互者这2秒内说的话可能就会被遗漏，导致拾音不连贯，该现象称之为调整的时机判断不准确（即无法做到及时调整麦克风阵列的指向性）。本技术中，视觉定位实时性强，一旦交互者发生移动就可以被快速识别出来，从而及时调整麦克风阵列的指向性，即可以准确判断调整麦克风阵列指向性的时机，保证拾音连贯。

13、4、绑定声纹之后，开启下一轮对话（将交互者提问一次以及语音交互设备作出相应的一次回答定义为一轮对话）就无需重新说出语音唤醒词（即无需像现有技术中的siri或小爱同学一样，每一轮对话都需要说一次语音唤醒词），而是仅仅通过验证采集到的语音信号的声纹为当前交互者所绑定的声纹，就可以直接进行回应，实现了高效的多轮对话功能。