技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音辨人方法、语音交互方法及装置与流程 > 正文

语音辨人方法、语音交互方法及装置与流程

国知局
2024-06-21 11:26:50

本申请涉及智能家居/智慧家庭，尤其涉及一种语音辨人方法、语音交互方法及装置。

背景技术：

1、随着智能家居的快速发展，用户通过在终端app上以家庭为单位绑定自己家里的智能家居设备(空调、冰箱、智能音箱、燃气灶和洗衣机等)，以音箱或者app为主控入口对智能家居设备进行语音控制来达到全屋智能控制的目的；目前智能家居在设备控制上的功能已经相对比较齐全，但在信息内容(新闻、知识百科、娱乐、餐饮等)等个性化推荐和体验上较为薄弱。

2、现有的实现智能家居个性化推荐主要是通过设置家庭成员，并提前录取各家庭成员的声纹特征，再收集各家庭成员的操作指令和内容请求结果等数据，生成用户画像，从而实现个性化推荐。但通过提前录制声纹的方式来实现个性化推荐，操作繁琐，用户体验感较差。

技术实现思路

1、本申请提供一种语音辨人方法、语音交互方法及装置，用以解决现有技术中根据提前录入的声纹进行个性化推荐操作繁琐导致用户体验感较低的缺陷。

2、本申请提供一种语音辨人方法，包括：

3、确定家庭标识和待识别语音；

4、若所述家庭标识的状态为辨人状态，则将所述待识别语音输入至所述家庭标识对应的辨人模型中，得到所述辨人模型输出第一话语人标识；否则，输出默认标识，并将所述待识别语音保存到所述家庭标识对应的历史语音集合中，在基于第二话语人标识和所述历史语音集合训练得到所述辨人模型之后，将所述家庭标识的状态更新为辨人状态；所述第二话语人标识是基于所述历史语音集合的声纹聚类结果确定的。

5、根据本申请提供的一种语音辨人方法，所述基于第二话语人标识和所述历史语音集合训练得到所述辨人模型，包括：

6、对所述历史语音集合中的历史语音进行声纹聚类，得到各聚类簇；

7、若所述各聚类簇对应历史语音的数量均大于设置数量，则基于所述各聚类簇，确定所述各聚类簇对应的第二话语人标识；

8、将所述各聚类簇对应的第二话语人标识和所述各聚类簇对应的历史语音组成样本对，并基于所述样本对对初始辨人模型进行训练，得到所述辨人模型。

9、根据本申请提供的一种语音辨人方法，所述对所述历史语音集合中的历史语音进行聚类，得到各聚类簇，包括：

10、通过所述家庭标识获取家庭成员人数；

11、基于所述家庭成员人数，对所述历史语音集合中的历史语音进行声纹聚类，得到所述各聚类簇。

12、根据本申请提供的一种语音辨人方法，所述得到所述辨人模型输出第一话语人标识之后，还包括：

13、将所述第一话语人标识和所述待识别语音组成样本对，对所述辨人模型进行训练，更新所述辨人模型的参数。

14、本申请还提供一种语音交互方法，包括：

15、接收终端发送的家庭标识和待识别语音；

16、在辨人场景下，基于所述家庭标识和所述待识别语音，应用上述任一种所述的语音辨人方法，确定当前话语人标识，并基于当前话语人标识，确定当前用户画像；

17、基于所述当前用户画像，执行所述待识别语音对应的交互命令；

18、在非辨人场景下，基于默认用户画像，执行所述待识别语音对应的交互命令。

19、根据本申请提供的一种语音交互方法，所述基于所述话语人标识，确定当前用户画像，包括：

20、若所述当前话语人标识为默认标识，则将所述默认用户画像作为所述当前用户画像；否则，基于所述当前话语人标识，应用话语人标识和用户画像之间的映射关系，确定所述当前用户画像。

21、本申请还提供一种语音辨人装置，包括：

22、确定模块，用于确定家庭标识和待识别语音；

23、辨人模块，用于若所述家庭标识的状态为辨人状态，则将所述待识别语音输入至所述家庭标识对应的辨人模型中，得到所述辨人模型输出第一话语人标识；否则，输出默认标识，并将所述待识别语音保存到所述家庭标识对应的历史语音集合中，在基于第二话语人标识和所述历史语音集合训练得到所述辨人模型之后，将所述家庭标识的状态更新为辨人状态；所述第二话语人标识是基于所述历史语音集合的声纹聚类结果确定的。

24、本申请还提供一种语音交互装置，包括：

25、接收模块，用于接收终端发送的家庭标识和待识别语音；

26、辨人模块，用于在辨人场景下，基于所述家庭标识和所述待识别语音，应用上述任一种所述的语音辨人方法，确定当前话语人标识，并基于所述当前话语人标识，确定当前用户画像；

27、第一执行模块，用于基于所述当前用户画像，执行所述待识别语音对应的交互命令；

28、第二执行模块，用于在非辨人场景下，基于默认用户画像，执行所述待识别语音对应的交互命令。

29、本申请还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行实现如上述任一种所述语音辨人方法或者实现如上述任一种所述语音交互方法。

30、本申请还提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行实现如上述任一种所述语音辨人方法或者实现如上述任一种所述语音交互方法。

31、本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音辨人方法或者实现如上述任一种所述语音交互方法。

32、本申请提供的语音辨人方法、语音交互方法及装置，通过语音交互时家庭标识对应的历史语音集合积累历次待识别语音，应用历次待识别语音确定的第二话语人标识和历次待识别语音训练得到辨人模型，该辨人模型为后续语音交互提供待识别语音的第一话语人标识，实现了家庭中各用户在正常与智能家居语音交互过程中，无感知的生成用户对应的话语人标识，进而根据话语人标识来实现个性化推荐，避免了提前录制声纹特征的方式来生成用户对应话语人标识，避免了繁琐的操作，提高了用户的体验度。

技术特征：

1.一种语音辨人方法，其特征在于，包括：

2.根据权利要求1所述的语音辨人方法，其特征在于，所述基于第二话语人标识和所述历史语音集合训练得到所述辨人模型，包括：

3.根据权利要求2所述的语音辨人方法，其特征在于，所述对所述历史语音集合中的历史语音进行聚类，得到各聚类簇，包括：

4.根据权利要求1至3中任一项所述的语音辨人方法，其特征在于，所述得到所述辨人模型输出第一话语人标识之后，还包括：

5.一种语音交互方法，其特征在于，包括：

6.根据权利要求5中所述的语音交互方法，其特征在于，所述基于所述话语人标识，确定当前用户画像，包括：

7.一种语音辨人装置，其特征在于，包括：

8.一种语音交互装置，其特征在于，包括：

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至6中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至6中任一项所述的方法。

技术总结本申请公开了一种语音辨人方法、语音交互方法及装置，涉及智能家居/智慧家庭技术领域，该语音辨人方法包括：确定家庭标识和待识别语音；若家庭标识的状态为辨人状态，则将待识别语音输入至家庭标识对应的辨人模型中，得到辨人模型输出第一话语人标识；否则，输出默认标识，并将待识别语音保存到家庭标识对应的历史语音集合中，在基于第二话语人标识和历史语音集合训练得到辨人模型后，将家庭标识的状态更新为辨人状态。该语音辨人方法及装置实现了家庭中各用户在正常与智能家居语音交互过程中，无感知的生成用户对应的话语人标识，进而根据话语人标识来实现个性化推荐，避免了繁琐的操作，提高了用户的体验度。技术研发人员：卞腾,左伟国受保护的技术使用者：青岛海尔科技有限公司技术研发日：技术公布日：2024/2/8