技术新讯 > 乐器声学设备的制造及制作,分析技术 > 说话人定位方法、装置、电子设备及存储介质与流程 > 正文

说话人定位方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:40:39

本技术涉及计算机，尤其涉及一种说话人定位方法、装置、电子设备及存储介质。

背景技术：

1、随着社会的发展进步和科技创新，多媒体技术也呈现出突飞猛进的发展。集计算机技术、通信技术以及电视技术为一体的多媒体技术已经与人们的日常生活密不可分。其中，视频影视作品作为常见的多媒体形式，具有很好的娱乐性和传播性。对于多角色的视频影视作品，需要区分视频影视作品中各个对话所属的角色，使得不同角色的演播人能够快速准确地录制自己的台词部分，以及，便于用户使用“只看他”功能，在观看影视作品过程中，锁定自己感兴趣的角色台词，提升用户体验。

2、然而，目前通常通过人工方式识别视频影视作品中各句台词所属的角色，不仅需要耗费大量的人力成本而且识别效率较低。

技术实现思路

1、本技术实施例的目的在于提供一种说话人定位方法、装置、电子设备及存储介质，以解决通过人工方式识别视频影视作品中各句台词所属的角色效率较低的问题。具体技术方案如下：

2、第一方面，本技术提供了一种说话人定位方法，包括：

3、获取影视作品中的多句待匹配台词；

4、针对每句待匹配台词，获取所述待匹配台词对应的音频序列及至少一条人脸序列，其中，每条人脸序列中仅包含一个人物的人脸；

5、在至少一条人脸序列中确定所述音频序列对应的目标人脸序列，其中，所述目标人脸序列包含的人物为所述待匹配台词对应的说话人；

6、基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词；

7、基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，其中，每个台词分组中包含的目标台词对应同一个说话人。

8、在一个可能的实施方式中，所述基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，包括：

9、针对每句目标台词，提取所述目标台词对应音频序列的音频特征，以及，提取所述目标台词对应目标人脸序列的人脸特征；

10、基于所述人脸特征对所述音频特征进行特征增强处理，得到目标音频特征，以及，基于所述音频特征对所述人脸特征进行特征增强处理，得到目标人脸特征；

11、对所述目标音频特征和所述目标人脸特征进行拼接处理，得到融合特征；

12、对所有目标台词对应的融合特征进行聚类操作，得到至少一个聚类类别；

13、针对每个聚类类别，将所述聚类类别中包含的融合特征所对应的目标台词划分至一个台词分组中，得到至少一个台词分组。

14、在一个可能的实施方式中，所述获取所述待匹配台词对应的音频序列及至少一条人脸序列，包括：

15、获取所述影视作品对应的音频数据和视频数据；

16、确定所述待匹配台词对应的起始时刻和结束时刻；

17、从所述音频数据中截取所述起始时刻和所述结束时刻之间的部分音频作为所述音频序列；

18、从所述视频数据中截取所述起始时刻和所述结束时刻之间的部分视频作为视频序列；

19、从所述视频序列中提取至少一条所述人脸序列。

20、在一个可能的实施方式中，所述从所述视频序列中提取至少一条所述人脸序列，包括：

21、从所述视频序列中提取预设数量的关键帧；

22、针对每个关键帧，识别所述关键帧中包含的至少一个人脸；

23、截取每个人脸对应的人脸截图，并将所述人脸截图的尺寸调整为预设尺寸，得到目标人脸截图；

24、按照对应关键帧在所述视频序列中的出现顺序，组合对应同一人脸的所有目标人脸截图，得到每张人脸对应的人脸序列。

25、在一个可能的实施方式中，所述基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词，包括：

26、针对每句待匹配台词，在所述待匹配台词对应的目标人脸序列中识别对应的第一人脸；

27、在预设人脸库中查找所述第一人脸对应的人脸标识；

28、在所述预设人脸库中未查找到所述第一人脸对应的人脸标识的情况下，确定所述待匹配台词为目标台词。

29、在一个可能的实施方式中，所述基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词，包括：

30、针对每句待匹配台词，在所述待匹配台词对应的目标人脸序列中识别对应的第二人脸；

31、通过可视化组件展示多个所述第二人脸；

32、接收用户基于多个所述第二人脸输入的选择信息，将所述选择信息对应的第二人脸确定为目标人脸；

33、将所述目标人脸对应的待匹配台词确定为目标台词。

34、在一个可能的实施方式中，所述方法还包括：

35、针对每个台词分组，为所述台词分组对应的说话人分配唯一的标识；

36、基于所述标识对所述台词分组中的所有目标台词进行标记。

37、第二方面，本技术提供了一种说话人定位装置，包括：

38、第一获取模块，用于获取影视作品中的多句待匹配台词；

39、第二获取模块，用于针对每句待匹配台词，获取所述待匹配台词对应的音频序列及至少一条人脸序列，其中，每条人脸序列中仅包含一个人物的人脸；

40、第一确定模块，用于在至少一条人脸序列中确定所述音频序列对应的目标人脸序列，其中，所述目标人脸序列包含的人物为所述待匹配台词对应的说话人；

41、第二确定模块，用于基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词；

42、台词分组模块，用于基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，其中，每个台词分组中包含的目标台词对应同一个说话人。

43、在一个可能的实施方式中，所述台词分组模块，进一步用于：

44、针对每句目标台词，提取所述目标台词对应音频序列的音频特征，以及，提取所述目标台词对应目标人脸序列的人脸特征；

45、基于所述人脸特征对所述音频特征进行特征增强处理，得到目标音频特征，以及，基于所述音频特征对所述人脸特征进行特征增强处理，得到目标人脸特征；

46、对所述目标音频特征和所述目标人脸特征进行拼接处理，得到融合特征；

47、对所有目标台词对应的融合特征进行聚类操作，得到至少一个聚类类别；

48、针对每个聚类类别，将所述聚类类别中包含的融合特征所对应的目标台词划分至一个台词分组中，得到至少一个台词分组。

49、在一个可能的实施方式中，所述第二获取模块，进一步用于：

50、获取所述影视作品对应的音频数据和视频数据；

51、确定所述待匹配台词对应的起始时刻和结束时刻；

52、从所述音频数据中截取所述起始时刻和所述结束时刻之间的部分音频作为所述音频序列；

53、从所述视频数据中截取所述起始时刻和所述结束时刻之间的部分视频作为视频序列；

54、从所述视频序列中提取至少一条所述人脸序列。

55、在一个可能的实施方式中，所述第二获取模块，还用于：

56、从所述视频序列中提取预设数量的关键帧；

57、针对每个关键帧，识别所述关键帧中包含的至少一个人脸；

58、截取每个人脸对应的人脸截图，并将所述人脸截图的尺寸调整为预设尺寸，得到目标人脸截图；

59、按照对应关键帧在所述视频序列中的出现顺序，组合对应同一人脸的所有目标人脸截图，得到每张人脸对应的人脸序列。

60、在一个可能的实施方式中，所述第二确定模块，进一步用于：

61、针对每句待匹配台词，在所述待匹配台词对应的目标人脸序列中识别对应的第一人脸；

62、在预设人脸库中查找所述第一人脸对应的人脸标识；

63、在所述预设人脸库中未查找到所述第一人脸对应的人脸标识的情况下，确定所述待匹配台词为目标台词。

64、在一个可能的实施方式中，所述第二确定模块，还用于：

65、针对每句待匹配台词，在所述待匹配台词对应的目标人脸序列中识别对应的第二人脸；

66、通过可视化组件展示多个所述第二人脸；

67、接收用户基于多个所述第二人脸输入的选择信息，将所述选择信息对应的第二人脸确定为目标人脸；

68、将所述目标人脸对应的待匹配台词确定为目标台词。

69、在一个可能的实施方式中，所述装置还包括台词标记模块，用于：

70、针对每个台词分组，为所述台词分组对应的说话人分配唯一的标识；

71、基于所述标识对所述台词分组中的所有目标台词进行标记。

72、第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

73、存储器，用于存放计算机程序；

74、处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

75、第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

76、第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的说话人定位方法。

77、本技术实施例有益效果：

78、本技术实施例提供了一种说话人定位方法、装置、电子设备及存储介质，本技术实施例中，首先，获取影视作品中的多句待匹配台词，然后，针对每句待匹配台词，获取该待匹配台词对应的音频序列及至少一条人脸序列，并在至少一条人脸序列中确定该音频序列对应的目标人脸序列，进而，基于对应的目标人脸序列从多句待匹配台词中确定至少一句目标台词，最后，基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，其中，每个台词分组中包含的目标台词对应同一个说话人。通过本方案，可以将对应同一说话人的目标台词划分至一个台词分组中，由此实现智能对影视作品中台词和说话人的匹配，从而提高说话人定位效率。

79、当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。