技术新讯 > 乐器声学设备的制造及制作,分析技术 > 训练说话人识别单元的方法及听力设备与通信设备的组合与流程  >  正文

训练说话人识别单元的方法及听力设备与通信设备的组合与流程

  • 国知局
  • 2024-06-21 11:53:06

本发明涉及一种用于训练听力设备的说话人识别单元的方法以及被设计为用于组合地执行这种方法听力设备和通信设备。

背景技术:

1、听力设备一般具有输入转换器、信号处理装置和输出转换器。输入转换器通常是麦克风。输出转换器通常是听筒,其也称为扬声器或者接收器。听力设备通常对应配属于单独的用户,并且仅由该用户使用。听力设备例如用于供应听力受损的用户并且用于补偿听力损失。输入转换器产生输入信号,输入信号被馈送到信号处理装置。信号处理装置对输入信号进行修改,由此产生输出信号,输出信号因此是经过修改的输入信号。为了补偿听力损失,例如根据用户的听力图(audiogramm)以与频率相关的放大因数对输入信号进行放大。最后借助输出转换器将输出信号输出给用户。在具有麦克风和听筒的听力设备中,麦克风相应地由环境中的声音信号产生输入信号,并且听筒由输出信号再次产生声音信号。输入信号和输出信号是电信号,因此它们也分别简称为信号。与此相对,环境的声音信号和必要时由听筒输出的声音信号是声学信号。

2、说话人识别单元用于识别说话人(“说话人识别(speaker recognition)”)。这意味着具体地标识特定的人,而不是识别说话人的存在(“说话人检测(speakerdetection)”)、识别语音本身的存在(“语音检测(speech detection)”)或者识别说话的内容(“speech recognition”,即语音识别)。在进行说话人识别时,根据说话人的语音来标识说话人。可以进行说话人识别,是因为每个人都具有个性化的发音,从而他们的语音具有典型的特征,借助这些典型的特征,能够区分这个人的语音和其他人的语音。

3、然而,在进行说话人识别时存在的问题是,说话人识别必须经过训练才能够完全识别出一个或多个说话人。要能够识别的说话人的语音的典型特征必须被教授给说话人识别单元。这通常需要相应的开销、即训练的执行。

技术实现思路

1、在这种背景下,本发明要解决的技术问题是改进、特别是简化对说话人识别单元的训练。此外,说话人识别单元应当集成到听力设备中,从而于是能够与说话人相关地来控制听力设备。对于听力设备的用户,训练应当是尽可能低开销的。然而,同时应当尽可能在考虑到用户的个人需求的情况下对说话人识别单元进行训练,即尤其是识别实际上作为用户的可能的对话对象的人。

2、在此参照文献de 10 2019 219 567 a1。

3、按照本发明,上述技术问题通过按照本发明的用于训练用户的听力设备的说话人识别单元的方法以及按照本发明的听力设备和通信设备来解决。上述技术问题特别是也单独通过听力设备来解决,该听力设备被设计为用于执行所述方法。有利的设计方案、扩展方案和变形方案是下面的描述的主题。关于所述方法的描述同样也适用于听力设备和通信设备。如果在下面明确或者暗示性地描述的所述方法的步骤,则特别是以如下方式得到听力设备和通信设备的有利的设计方案,即,听力设备和通信设备被设计为用于执行这些步骤中的一个或多个步骤,其中,这些步骤到听力设备或者通信设备的划分最初原则上是任意的。为了执行一个或多个步骤以及所述方法本身,听力设备和通信设备特别是分别具有适宜的控制单元。

4、所述方法用于对用户的听力设备的说话人识别单元进行训练。训练特别是在听力设备运行时、即在听力设备的用户常规使用听力设备时进行。就此而言,训练也是用于运行听力设备的方法的一部分。

5、听力设备与用户的(第一)通信设备连接,以便在听力设备的用户和用户的对话对象之间进行远程对话。听力设备和通信设备特别是都是同一用户的个人设备。“远程对话”特别是应当理解为对话对象的声音信号不直接到达听力设备和用户,而是需要转换成音频信号(即包含音频数据的电信号),以进行传输并且随后转换成针对用户的声音信号。在此,传输通常在大的距离上进行。远程对话例如是电话对话。通信设备适宜地是电话、例如智能电话,或者一般地说,是具有电话功能的设备。在对话对象侧,特别是同样存在(第二)通信设备,关于用户的通信设备的描述相应地适用。然而,这两个通信设备在此不一定必须相同地设计。

6、优选听力设备和第一通信设备是两个单独的设备,其能够彼此独立地使用并且执行功能。然而,如下的设计方案也是适宜的,在该设计方案中,第一通信设备集成在听力设备中。

7、在所述方法的范围内(具体地在远程对话的情况下),在第一步骤中,由通信设备接收对话对象的音频信号,以输出给用户。因此,远程对话特别是以如下方式来实现,即,利用对话对象的第二通信设备接收声音信号、尤其是具有对话对象的语音的声音信号,并且将其转换成音频信号,该音频信号随即被传输至用户的第一通信设备。替换地,第二通信设备直接接收相应的音频信号,并且利用另一个设备、例如耳机或者听力设备,将对话对象的声音信号转换成这种音频信号。在用户侧,音频信号的输出优选借助听力设备来进行,即第一通信设备将音频信号传输给听力设备,并且听力设备将音频信号转换成声音信号,以输出给用户。前面提到的描述在相反的方向上类似地适用,即,对于向对话对象传输具有用户的语音的声音信号类似地适用;然而,在此,该通道不一定是关键的。在此,转换和传输的细节也不是关键的。“音频信号”一般地说应当理解为包含音频数据的电信号。音频信号例如通过电信网络、例如固定网络、移动网络、互联网或类似网络或者其组合传输至第一通信设备。音频信号于是优选从第一通信设备传输至听力设备,并且由听力设备输出,特别是作为声音信号输出。音频信号特别是无线地,优选通过蓝牙连接或者替换地通过其它无线电连接,从用户的通信设备传输至听力设备。

8、附加地,在第二步骤中,为对话对象对应配设说话人id。换言之:对对话对象进行标识,然而由此并不意味着像说话人识别单元通常在运行时进行的那样根据语音样本来标识对话对象,而是实际上以与通过语音样本不同的方式来标识对话对象。说话人id与对话对象的这种对应配属特别是同样仅在远程对话的情况下进行。说话人id例如简单地是对话对象的名字,然而假名或者简单的数字或者字符串同样也是合适的。说话人id特别是唯一地对应配属于对话对象。

9、在第三步骤中,从音频信号中提取对话对象的多个语音样本。“多个”一般理解为“至少一个”。通常提取多个语音样本。所提到的提取特别是同样仅在远程对话的情况下进行,因为仅在那时才存在相应的音频信号。例如通过如下方式来提取语音样本,即,首先借助语音识别单元在音频信号中识别包含语音的信号部段,随后将这些信号部段存储为语音样本。然而,进一步为语音样本对应配设说话人id,语音样本与说话人id一起共同形成训练数据组。

10、现在,在第四步骤中,利用该训练数据组对听力设备的说话人识别单元进行训练,以便在将来,特别是在常规使用听力设备期间,再次识别对话对象。现在,以这种方式训练的说话人识别单元被设计为用于识别对话对象,更确切地说,有利地既在重新进行的远程对话中,也在该重新进行的远程对话外部、特别是在真实的对话环境中,在真实的对话环境中,对话对象在用户附近,并且对话对象的语音不通过通信设备到达用户,而是直接利用听力设备接收并且再现对话对象的语音。例如在面对面的交谈中产生这种真实的对话环境。如所描述的利用其语音样本和说话人id对说话人识别单元进行了训练的对话对象为经过训练的对话对象,也称为已知的或者可识别的对话对象。

11、这里提出的发明的核心特别是在于,所描述的从远程对话的音频信号中提取语音样本,由此形成训练数据组,以及使用该训练数据组来对说话人识别单元进行训练。相对来说,训练本身的细节和在此对语音样本进行的处理是次要的,因此在此不再赘述。因此,可以由听力设备单独或者由通信设备单独进行训练,或者将训练分配给听力设备和通信设备。例如在通信设备上安装有软件,该软件对语音样本进行分析,然后作为分析的结果创建简单的参数组、特征组或者模型,这些参数组、特征组或者模型被传输到说话人识别单元,从而对其进行相应的训练,并且由此能够在将来识别对话对象。听力设备运行时的实际的说话人识别,即说话人识别单元如何分析音频信号并且根据音频信号识别对话对象(例如借助gmm、hmm、dnn等),同样是次要的。

12、听力设备一般特别是具有输入转换器、信号处理装置以及输出转换器。输入传感器优选是麦克风。输出转换器优选是听筒,其也称为扬声器或者接收器。听力设备通常对应配属于单独的用户,并且仅由该用户使用。听力设备特别是个性化地与用户适配。听力设备特别是用于补偿用户的听力损失,即用于供应听力受损的用户。输入转换器产生输入信号,输入信号被馈送到信号处理装置。信号处理装置对输入信号进行修改,由此产生输出信号,输出信号因此是经过修改的输入信号。为了补偿听力损失,例如根据用户的听力图以与频率相关的放大因数对输入信号进行放大。最后,借助输出转换器将输出信号输出给用户。在具有麦克风和听筒的听力设备的情况下,然而在此这不限制一般性,麦克风相应地由环境中的声音信号产生输入信号,并且听筒由输出信号再次产生声音信号。输入信号和输出信号是音频信号、即电信号。与此相对,环境的声音信号和必要时由听筒输出的声音信号是声学信号。

13、说话人识别单元用于识别说话人(也称为“说话人识别(speakerrecognition)”),在此特别是用于再次识别用户的对话对象。在此涉及对特定的人的具体的标识,而不涉及对说话人本身的存在的识别(“说话人检测(speaker detection)”)、对语音本身的存在的识别(“语音检测(speaker detection)”)或者对说话的内容的识别(“speech recognition”,即语音识别)。在进行说话人识别时,根据说话人的语音来标识说话人。在此,术语“语音”是指人在说话时发出的声音信号。可以进行说话人识别,是因为每个人都具有个性化的发音,从而他们的语音具有典型的特征,借助这些典型的特征,能够区分这个人的语音和其他人的语音。在此,这种利用对特定说话人的识别的结果进行的检查和区分利用说话人识别单元来进行。为此,说话人识别单元特别是具有分类器,分类器在给定的音频信号中搜索表征相应的对话对象的语音的特定特征(音量、频率份额、时序等)。如果在音频信号中包含经过训练的对话对象的语音的特征,则识别出该对话对象。然后如何表示对话对象原则上是任意的,首先重要的仅仅是识别出特定对话对象在说话,从而据此可以采取适宜的措施。这些措施特别地是以优化的方式设置听力设备,或者尤其是调整信号处理装置对输入信号的修改,以便例如使对话对象更容易被用户听到。

14、本发明的一个主要的优点是,针对说话人识别单元的训练不需要用户主动介入,而是完全被动地进行。这基于如下考虑,即,针对说话人识别单元的训练通常需要主动学习阶段,该学习阶段必须由用户主动激活,并且在该学习阶段期间,在将来要识别的对话对象必须配合,以便进行用于训练的规定程序。在听力设备中存在如下的特殊问题,即,经常无法获得用户的可能的单独的对话对象的足够多的语音样本。在此,这些问题通过所描述的在远程对话期间提取语音样本来解决。此外,这种提取有利地完全被动地进行,不需要对话对象或者用户采取特殊的动作或者配合,也不需要特殊的环境和程序用于进行训练。相反,在此,有利地在听力设备的常规运行中自动对说话人识别单元进行训练,即在后台自动进行训练。

15、对于对说话人识别单元的训练,重要的是对话对象与语音样本的对应配属,因为这才使得能够在将来根据对话对象的语音识别出对话对象。在此,为此使用说话人id。然后,当将来由说话人识别单元分析音频信号时,由说话人识别单元相应地返回对应配属的说话人id(如果存在)。然后,该说话人id被简单地显示给用户,和/或针对该说话人id存储听力设备的特定配置,然后对该配置进行调节。

16、在此,为了确定说话人id,利用如下事实,即,在远程对话中通常已经存在针对对话对象的说话人id,该说话人id最初被一次性地用于建立远程对话。相应地借助联系人目录来确定说话人id,在联系人目录中,针对多个可能的对话对象,分别存储有说话人id和用于建立远程对话的联系人信息。以这种方式,实际上以与通过语音样本不同的方式来标识对话对象。说话人id和联系人信息的组合也称为联系人或者联系人条目。在一个优选的设计方案中,联系人目录是电话簿、特别是存储在通信设备上的电话簿。利用联系人目录,使得用户能够选择对话对象并且与其建立远程对话(或者相反地,由对话对象与用户联系)。然后,相应地针对该远程对话,对话对象自动是已知的,并且也能够根据说话人id唯一地标识对话对象。因此,该说话人id于是被有利地对应配设给在远程对话期间提取的语音样本。以这种方式,将实际的正确的对话对象自动对应配设给语音样本。如果对话对象不是已知的,即对话对象未存储在联系人目录中,则无法进行训练。替换地,在这种情况下,要求用户输入说话人id,然后将该说话人id对应配设给语音样本,或者使用假名、随机id或者类似的id作为说话人id。

17、因此,在远程对话的特殊情况下,本发明利用关于对话对象及其说话人id的认知,以便为语音样本对应配设正确的说话人id。在此,不强制性地进行借助说话人识别单元对对话对象的标识,这是另一方面。本发明的核心是产生如下的训练数据组,该训练数据组具有说话人id和语音样本的可靠的正确的对应配属。这于是也与开头提到的de 10 2019 219567 a1形成对比。在该文献中,对应配属于所提取的语音样本的说话人id无论如何都不是从联系人目录中获知的。

18、也适宜的是,仅针对特定对话对象,特别是针对由用户提前选择的对话对象,进行选择性的训练。在用于此的一个适宜的设计方案中,提供列表(可以说是训练计划),其包含多个说话人id,应当针对这些说话人id训练说话人识别单元。该列表特别是与已经提到的联系人目录不同。例如,可以在联系人目录中选择各个单独的对话对象和/或对话对象的组,要针对这些对话对象和/或对话对象的组,对说话人识别单元进行训练,然后这些对话对象和/或对话对象的组形成列表,可以说是联系人目录的子集。现在,仅当(当前的)远程对话中的对话对象的说话人id包含在列表中时,对说话人识别单元进行训练。以这种方式,仅针对预先选择的人和/或组进行训练。可选地,当说话人id未包含在列表中时,根本不提取语音样本和/或产生训练数据组。列表例如存储在听力设备或者通信设备上。列表也可以集成到联系人目录中。

19、在现今的用于远程对话的技术中,语音样本的质量通常足以成功地训练说话人识别单元。尽管如此仍适宜的是,确定语音样本的质量,并且必要时丢弃在质量方面不符合最低要求的语音样本,即不使用它们来训练说话人识别单元。在用于此的一个适宜的设计方案中,确定远程对话的质量参数(一般而言即质量),因此特别是也自动确定可以提取的可能的语音样本的质量。现在,仅当质量参数(根据设计方案向上或者向下)超过预设的极限值时,才对说话人识别单元进行训练。在此,也适用的是,可选地当质量参数不超过限值时,也不提取语音样本和/或不产生训练数据组。质量参数例如是从对话对象(特别是其通信设备)传输至用户的通信设备的音频信号的带宽。替换地,质量参数是用于远程对话的两个通信设备之间的连接的连接质量。也可以首先提取语音样本,然后根据语音样本确定质量参数,必要时甚至针对每个单独的语音样本单独确定质量参数。

20、优选听力设备具有麦克风,并且被设计为用于,即使在直接由麦克风接收到对话对象的语音时,即特别是在面对面对话而不是远程对话的情况下,也再次识别对话对象。包含对话对象的语音的声音信号由麦克风接收并且被转换为输入信号。麦克风的输入信号是音频信号,该音频信号可以像远程对话中的音频信号那样由说话人识别单元进行分析。相应地,输入信号被馈送到说话人识别单元并且由其进行分析。如果当前的对话对象对应于经过训练的对话对象,则说话人识别单元也识别出当前的说话对象。如已经描述的,输入信号特别是也被馈送到信号处理单元,以产生输出信号。

21、对于远程对话,听力设备适宜地被设计为用作耳机,即用作用于用户的通信设备的声学输入和输出设备。在用于此的一个适宜的设计方案中,听力设备具有耳机模式,在耳机模式下,听力设备用作声音信号的输入和输出设备,听力设备通过通信设备以音频信号的形式与对话对象交换(即发送和/或接收)该声音信号。耳机模式特别是在远程对话期间被激活。在此,用户的通信设备特别是用作在用户的听力设备与对话对象的通信设备之间转发音频信号的中继器。由此,于是在整体上实现用于进行说话人识别的基于耳机模式的训练。

22、适宜地与说话人相关地,一般而言控制听力设备,具体而言特别是借助信号处理单元控制输出信号的产生,即根据基于过去在真实对话环境中进行的训练识别出的对话对象的说话人id进行控制。下面描述用于在借助说话人识别单元再次识别对话对象时与说话人相关地对听力设备的运行进行调整的一些适宜的设计方案。在此假设,在真实的对话环境中进行再次识别,即对话对象的语音作为声音信号直接到达听力设备,而不通过通信设备迂回地以音频信号的形式到达听力设备,即使这在原则上是可以的。所提到的设计方案也可以相互组合。

23、在第一设计方案中,在借助说话人识别单元再次识别对话对象时,与说话人相关地对听力设备的运行进行调整,方式为,使听力设备的听力装置指向对话对象、特别是对准对话对象。在此,听力设备特别是在“定向听力”的运行模式下运行,对于该运行模式,麦克风被设计成定向麦克风,以便相对于来自其它方向的声音信号突出来自特定方向的声音信号。该特定方向由麦克风的方向特性确定,现在调节该方向特性,使得该方向特性相对于环境中的其它声源突出所识别的对话对象。

24、在第二设计方案中,在借助说话人识别单元再次识别对话对象时,与说话人相关地对听力设备的运行进行调整,方式为,调节对应配属于对话对象的声音特性或者听力设备的运行程序。由此专门针对对话对象调整听力设备的运行、特别是借助信号处理单元对输入信号的处理。例如,对话对象通常特别小声地说话,于是存储如下的声音特性,对于该声音特性,信号处理单元使用比听力图所预设的更大的放大因数。也可以想到,如果特定对话对象也具有听力设备,则针对该对话对象激活耳机模式,该听力设备同样切换至耳机模式,以直接借助音频信号进行通信。

25、在第三实施方式中,在借助说话人识别单元再次识别对话对象时,与说话人相关地对听力设备的运行进行调整,方式为,中断通过听力设备进行的媒体播放。其前提条件是,在该时间点,媒体播放处于激活状态。与耳机模式类似,听力设备也可以作为单纯的音频输出设备在媒体播放模式下运行。如果媒体播放模式处于激活状态,并且识别对话对象,则中断媒体播放模式,以便用户能够更好地理解对话对象。这与上面提到的对话对象(针对这些对话对象激活了说话人识别单元)的列表组合是特别有意义的,从而于是尤其是也仅针对这些(可能特别重要的)对话对象中断媒体播放。

26、在第四设计方案中,在借助说话人识别单元再次识别对话对象时,与说话人相关地对听力设备的运行进行调整,方式为,将听力设备的静音运行去激活。其前提条件是,在该时间点,静音运行处于激活状态。在静音运行中,例如环境噪音抑制或者噪音抑制被激活。上述关于第三设计方案的描述和优点原则上类似地适用此。

27、在第五设计方案中,在借助说话人识别单元再次识别对话对象时,与说话人相关地对听力设备的运行进行调整,方式为,激活听力设备的预处理单元,特别是用于进行语音识别(即“speech recognition”)的预处理单元。预处理单元特别是在对输入信号进行进一步处理之前,对麦克风的输入信号实现可选的预处理。例如,听力设备具有语音识别单元,借助语音识别单元,特别是并行地并且原则上相对于信号处理装置独立地识别语音。为此,有利的是,在语音识别单元之前进行预处理,例如以便针对性地分离出语音份额。这借助预处理单元来进行,然而,仅在实际上存在语音,或者存在也要识别的特殊语音时,才需要激活预处理单元。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24258.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。