语音识别方法和装置与流程
- 国知局
- 2024-06-21 11:55:50
本技术实施例涉及人工智能领域,并且更具体地,涉及语音识别方法、装置、计算设备集群、计算机程序产品以及计算机可读存储介质。
背景技术:
1、随着人工智能的发展,语音识别技术已经应用于各个行业领域。目前,通用的语音识别模型对常用词汇的识别效果较好,但对特殊词汇,比如人名、产品名、公司名或某些特殊场景的业务关键词,识别准确率不高。为了提升对特殊词汇的语音识别效果,用户可以预先设置热词表,热词表中的热词包括上述特殊词汇或者可以用于上述特殊词汇的识别。在语音识别过程中,该热词表可以提升特殊词汇的识别准确率。
2、比如,输入的一段语音包含“zhang san”,用户实际称呼的对象是人名“张叁”,因此也希望通过语音识别输出人名“张叁”。如果不设置热词表,可能会输出错误的人名“张三”。相反,如果传入带有热词“张叁”的热词表,则能输出“张叁”,即该语音“zhang san”能被正确地识别。
3、随着业务量的增加,用户预先设置的热词表会包含大量的热词。但是,大量的热词会严重降低语音识别的效率。
技术实现思路
1、本技术提供一种语音识别方法、装置、计算设备集群、计算机程序产品以及计算机可读存储介质,该方法包括由对应于用户的不同关系特征的多个热词子表合并生成的热词表,基于该热词表进行语音识别,可以在不降低语音识别准确率的基础上,提升语音识别的效率。
2、第一方面,提供了一种语音识别方法,该方法应用于云管理平台,该方法包括:该云管理平台获取用户的待识别语音;该云管理平台获取该用户的热词表,该用户的热词表由多个热词子表合并生成,其中,不同的热词子表对应该用户不同的关系特征;该云管理平台根据该热词表,对该待识别语音进行语音识别。
3、如果使用简单地包括所有热词的热词表,随着用户业务量的增大,热词表中的热词数量也增多。当用户进行语音识别时,需要对热词表中的所有热词进行语音识别结果的匹配,这会严重降低语音识别的速度。在本技术实施例中,热词表是基于用户的关系特征生成的,减少了无效热词,能够在不降低识别准确率的基础上,提升语音识别的效率。
4、关系特征可以是用户由于工作等原因与其他人员建立的人际关系的集合,例如,关系特征可以包括该用户的个人关系网络或者该用户所在的部门、工作组、公司等。这样,不同的关系特征可以表示与用户关系的远近亲疏,从而对应的热词子表可以表示用户不同层次的热词概率。由这种热词子表合并生成的热词表,能够有效地筛除与用户关系不大的无效热词,从而有效减少热词表的热词数量,提升语音识别的效率。
5、结合第一方面,在第一方面的一些实现方式中,该多个热词子表包括第一级的热词子表和第二级的热词子表,其中,在合并生成该用户的热词表时,该第一级的热词子表优先于该第二级的热词子表。
6、热词子表之间可以有不同的优先级,其中优先级高的热词子表中的热词,在合并到热词表中之后会优先被保留,或者具有更高的概率值或权重值,这样能进一步减少无效热词的数量。随着用户业务量的增大,热词表中的热词数量也增多,热词表中可能出现同音的热词。在语音识别中,同音的热词间会发生冲突,降低语音识别的准确率。本技术实施例中,多个热词子表根据不同的关系特征确定优先级,避免了同音的热词间冲突的问题。例如,假设用户与同一个部门的同事“张叁”(例如属于第一级的热词子表)的交互远多于同一企业内另一个部门的同事“张三”(例如属于第二级的热词子表),则在合并两个热词子表时,可以仅保留热词“张叁”,或者使得热词“张叁”的概率值或权重值大于热词“张三”。这样就提升了语音识别的准确率,并且进一步提升了语音识别的效率。
7、结合第一方面,在第一方面的一些实现方式中,该不同的热词子表对应该用户不同的关系特征,包括:该第一级的热词子表对应于该用户的个人关系网络,该第二级的热词子表对应于该用户所在的第一群组。
8、个人关系网络是指与用户个人关系最为紧密的网络,因此语音中出现个人关系网络的相关热词的概率最高。例如,在一定时期内,用户联系过的其他人员的数量是有限的,并且,其他人员的信息往往是该用户希望通过语音识别输出的结果,因此应设置更高的优先级。示例性地,其他人员的信息可以包括姓名、昵称、住址等,也可以包括该用户与其他人员进行通信时的关键词。再例如,用户的个人生活或工作中会涉及一些常用的专有名词,例如个人住址、办公室地址、工作惯用语等,这些信息也是该用户希望通过语音识别输出的结果,因此也具有更高的优先级。另一方面,用户所在的群组的业务信息、成员姓名等也往往是用户希望通过语音识别输出的结果,例如群组的名称(比如市场部、销售部等)、群组所在楼层、群组经常对接的其他部门的名称等。本技术实施例中,第一级的热词子表根据该用户的个人关系网络确定,第二级的热词子表根据该用户所在的第一群组确定,也能够减少无效热词,能够提升语音识别的效率。
9、结合第一方面,在第一方面的一些实现方式中,该方法还包括:该云管理平台通过聚类算法和/或关键词获取算法对该用户的个人关系网络进行分析,以确定该第一级的热词子表。
10、通过聚类算法(比如k-means算法)和/或关键词获取算法(比如tf-idf算法)对该用户的个人关系网络进行分析,可以得到一定时期内与该用户关系较为紧密的其他人员的专有名词,如人名、个人住址、办公室地址、工作惯用语等,这些信息也是该用户希望通过语音识别输出的结果,这样能够提升语音识别的准确率,并且减少了无效热词,提升了语音识别的效率。
11、结合第一方面,在第一方面的一些实现方式中,该方法还包括:该云管理平台通过关键词获取算法对该用户所在的第一群组的通信记录进行分析,以确定该第二级的热词子表。
12、通过关键词获取算法(比如tf-idf算法)对该用户所在的第一群组的通信记录进行分析,可以得到与该用户关系较为紧密的业务术语、人名、群组名称等关键词,由于该用户所在的第一群组与该用户的关系较为紧密,这些关键词往往也是该用户希望通过语音识别输出的结果,这样能够提升语音识别的准确率,并且减少了无效热词,提升了语音识别的效率。
13、结合第一方面,在第一方面的一些实现方式中,该方法还包括:该云管理平台接收该第一群组的管理员对该第二级的热词子表的维护指令;该云管理平台根据该维护指令对该第二级的热词子表进行维护。
14、该第二级的热词子表由第一群组管理员维护,使得第二级的热词子表中包含第一群组内用户在实际工作或生活中更加常用的业务术语、人名、群组名称等热词,提升了语音识别的准确率,并且减少了无效热词,从而提升了语音识别的效率。
15、结合第一方面,在第一方面的一些实现方式中,该不同的热词子表对应该用户不同的关系特征,包括:该第一级的热词子表对应于该用户所在的第二群组,该第二级的热词子表对应于该用户所在的第三群组,其中该第二群组是该第三群组的真子集。
16、用户所在的群组的业务信息、成员姓名等往往是用户希望通过语音识别输出的结果,例如群组的名称(比如市场部、销售部等)、群组所在楼层、群组经常对接的其他部门的名称等。本技术实施例中,第一级的热词子表根据该用户所在的第二群组确定,第二级的热词子表根据该用户所在的第三群组确定,减少了无效热词,在不降低语音识别准确率的基础上,能够提升语音识别的效率。
17、第二方面,提供了一种语音识别装置,该装置应用于云管理平台,该装置包括:获取模块,用于获取用户的待识别语音和该用户的热词表,其中该用户的热词表由多个热词子表合并生成,不同的热词子表对应该用户不同的关系特征;识别模块,用于根据该热词表,对该待识别语音进行语音识别。
18、如果使用简单地包括所有热词的热词表,随着用户业务量的增大,热词表中的热词数量也增多。当用户进行语音识别时,需要对热词表中的所有热词进行语音识别结果的匹配,这会严重降低语音识别的速度。在本技术实施例中,热词表是基于用户的关系特征生成的,减少了无效热词,能够在不降低识别准确率的基础上,提升语音识别的效率。
19、不同的关系特征可以表示与用户关系的远近亲疏,从而对应的热词子表可以表示用户不同层次的热词概率。由这种热词子表合并生成的热词表,能够有效地筛除与用户关系不大的无效热词,从而有效减少热词表的热词数量,提升语音识别的效率。
20、结合第二方面,在第二方面的一些实现方式中,该多个热词子表包括第一级的热词子表和第二级的热词子表,其中,该获取模块在合并生成该用户的热词表时,该第一级的热词子表优先于该第二级的热词子表。
21、热词子表之间可以有不同的优先级,其中优先级高的热词子表中的热词,在合并到热词表中之后会优先被保留,或者具有更高的概率值或权重值,这样能进一步减少无效热词的数量。随着用户业务量的增大,热词表中的热词数量也增多,热词表中可能出现同音的热词。在语音识别中,同音的热词间会发生冲突,降低语音识别的准确率。本技术实施例中,多个热词子表根据不同的关系特征确定优先级,避免了同音的热词间冲突的问题。例如,假设用户与同一个部门的同事“张叁”(例如属于第一级的热词子表)的交互远多于同一企业内另一个部门的同事“张三”(例如属于第二级的热词子表),则在合并两个热词子表时,可以仅保留热词“张叁”,或者使得热词“张叁”的概率值或权重值大于热词“张三”。这样就提升了语音识别的准确率,并且进一步提升了语音识别的效率。
22、结合第二方面,在第二方面的一些实现方式中,该第一级的热词子表对应于该用户的个人关系网络,该第二级的热词子表对应于该用户所在的第一群组。
23、个人关系网络是指与用户个人关系最为紧密的网络,因此语音中出现个人关系网络的相关热词的概率最高。例如,在一定时期内,用户联系过的其他人员的数量是有限的,并且,其他人员的信息往往是该用户希望通过语音识别输出的结果,因此应设置更高的优先级。示例性地,其他人员的信息可以包括姓名、昵称、住址等,也可以包括该用户与其他人员进行通信时的关键词。再例如,用户的个人生活或工作中会涉及一些常用的专有名词,例如个人住址、办公室地址、工作惯用语等,这些信息也是该用户希望通过语音识别输出的结果,因此也具有更高的优先级。另一方面,用户所在的群组的业务信息、成员姓名等也往往是用户希望通过语音识别输出的结果,例如群组的名称(比如市场部、销售部等)、群组所在楼层、群组经常对接的其他部门的名称等。本技术实施例中,第一级的热词子表根据该用户的个人关系网络确定,第二级的热词子表根据该用户所在的第一群组确定,也能够减少无效热词,能够提升语音识别的效率。
24、结合第二方面,在第二方面的一些实现方式中,该获取模块还用于通过聚类算法和/或关键词获取算法对该用户的个人关系网络进行分析,以确定该第一级的热词子表。
25、通过聚类算法(比如k-means算法)和/或关键词获取算法(比如tf-idf算法)对该用户的个人关系网络进行分析,可以得到一定时期内与该用户关系较为紧密的其他人员的专有名词,如人名、个人住址、办公室地址、工作惯用语等,这些信息也是该用户希望通过语音识别输出的结果,这样能够提升语音识别的准确率,并且减少了无效热词,提升了语音识别的效率。
26、结合第二方面,在第二方面的一些实现方式中,该获取模块还用于通过关键词获取算法对该用户所在的第一群组的通信记录进行分析,以确定该第二级的热词子表。
27、通过关键词获取算法(比如tf-idf算法)对该用户所在的第一群组的通信记录进行分析,可以得到与该用户关系较为紧密的业务术语、人名、群组名称等关键词,由于该用户所在的第一群组与该用户的关系较为紧密,这些关键词往往也是该用户希望通过语音识别输出的结果,这样能够提升语音识别的准确率,并且减少了无效热词,提升了语音识别的效率。
28、结合第二方面,在第二方面的一些实现方式中,该语音识别装置还包括:接收模块,用于接收该第一群组的管理员对该第二级的热词子表的维护指令;该获取模块还用于根据该维护指令对该第二级的热词子表进行维护。
29、该第二级的热词子表由第一群组管理员维护,使得第二级的热词子表中包含第一群组内用户在实际工作或生活中更加常用的业务术语、人名、群组名称等热词,提升了语音识别的准确率,并且减少了无效热词,从而提升了语音识别的效率。
30、结合第二方面,在第二方面的一些实现方式中,该不同的热词子表对应该用户不同的关系特征,包括:该第一级的热词子表对应于该用户所在的第二群组,该第二级的热词子表对应于该用户所在的第三群组,其中该第二群组是该第三群组的真子集。
31、用户所在的群组的业务信息、成员姓名等往往是用户希望通过语音识别输出的结果,例如用户所在的群组的业务信息、成员姓名等往往是用户希望通过语音识别输出的结果,例如群组的名称(比如市场部、销售部等)、群组所在楼层、群组经常对接的其他部门的名称等。本技术实施例中,第一级的热词子表根据该用户所在的第二群组确定,第二级的热词子表根据该用户所在的第三群组确定,减少了无效热词,在不降低语音识别准确率的基础上,能够提升语音识别的效率。
32、第三方面,提供了一种计算设备,包括处理器和存储器,该处理器用于执行该存储器中存储的指令,以使得该计算设备执行第一方面或者其任意实现方式的语音识别方法。
33、第四方面,提供了一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;该至少一个计算设备的处理器用于执行该至少一个计算设备的存储器中存储的指令,以使得该计算设备集群执行第一方面或者其任意实现方式的语音识别方法。
34、第五方面,提供了一种包含指令的计算机程序产品,当该指令被计算设备运行时,使得该计算设备执行第一方面或者其任意实现方式的语音识别方法。
35、第六方面,提供了一种包含指令的计算机程序产品,当该指令被计算设备集群运行时,使得该计算设备集群执行第一方面或者其任意实现方式的语音识别方法。
36、第七方面,提供了一种计算机可读存储介质,包括计算机程序指令,当该计算机程序指令由计算设备执行时,该计算设备执行第一方面或者其任意实现方式的语音识别方法。
37、第八方面,提供了一种计算机可读存储介质,包括计算机程序指令,当该计算机程序指令由计算设备集群执行时,该计算设备集群执行第一方面或者其任意实现方式的语音识别方法。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24540.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表