一种数据库构建方法、多媒体文件的检索方法及装置与流程

2022-02-20 14:16:36 来源：中国专利 TAG：

1.本说明书一个或多个实施例涉及信息检索技术领域，尤其涉及一种数据库构建方法、多媒体文件的检索方法及装置。

背景技术：

2.在相关技术中，检索图片、视频、音频等多媒体文件时，一般是查找与检索关键词相关的文字描述，例如多媒体文件的文件名称、文件描述等。这种检索方式得到的结果往往依赖于所检索到的多媒体文件的文字描述，若多媒体文件的实际内容与文件名称或文件描述不符，那么检索到的结果也是不相符的(例如，图片中是苹果，但文件名称为香蕉，那么检索香蕉时，会出现苹果的图片)。
3.进一步的，开始注重多媒体文件实际的内容，出现了基于内容的多媒体文件检索方式，具体而言，对存储的所有多媒体文件进行特征提取，得到各个多媒体文件的特征向量，构建知识表达库或者知识表达算法，检索时，先根据检索关键词，将检索关键词转换为对应的特征向量，然后与各个多媒体文件的特征向量进行相似度计算，将相似度高的多媒体文件作为检索结果。
4.这种检索方式虽然注重了多媒体文件实际的内容，但检索效率较慢，且对应的检索系统需要维护或更新时，效率较低且成本较高(例如，特征向量提取算法进行改进后，对于同一多媒体文件提取的特征向量发生改变，需要重新针对每个多媒体文件提取特征向量，还需要重新构建知识表达库或算法)。

技术实现要素：

5.有鉴于此，本说明书一个或多个实施例提供一种数据库的构建方法、多媒体文件的检索方法，以及对应的装置、设备、存储介质、系统。
6.为实现上述目的，本说明书一个或多个实施例提供技术方案如下：
7.根据本说明书一个或多个实施例的第一方面，提出了一种数据库的构建方法，所述数据库用于检索多媒体文件；针对不同类型的多媒体文件，分别配置对应的语义信息识别模型；所述方法包括：
8.针对任一目标多媒体文件，根据所述目标多媒体的文件类型，确定与该类型对应的语义信息识别模型；
9.根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件特征向量；
10.将所提取到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息；
11.将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。
12.根据本说明书一个或多个实施例的第二方面，提出了一种多媒体文件的检索方
法，所述方法包括：
13.获取检索关键词并将所述检索关键词转换为与检索数据库对应的查询语句；所述检索数据库基于如上述的检索数据库构建方法构建得到；
14.基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件；
15.将查询得到的多媒体文件确定为检索结果。
16.根据本说明书一个或多个实施例的第三方面，提出了一种多媒体文件的检索系统，
17.所述系统包括检索数据库构建模块、检索模块；针对不同类型的多媒体文件，分别配置对应的语义信息识别模型；
18.所述检索数据库构建模块，针对任一目标多媒体文件，根据所述目标多媒体的文件类型，确定与该类型对应的语义信息识别模型；根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件针对所确定的语义信息识别模型的特征向量；将所提取到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息；将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储；
19.所述检索模块，获取检索关键词并将所述检索关键词转换为与所述检索数据库构建模块构建的检索数据库对应的查询语句；基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件；将查询得到的多媒体文件确定为检索结果。
20.根据本说明书一个或多个实施例的第四方面，提出了一种数据库的构建装置，所述数据库用于多媒体文件的检索；针对不同类型的多媒体文件，分别配置对应的语义信息识别模型；所述装置包括：
21.语义信息识别模型确定模块，用于针对任一目标多媒体文件，根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体的文件类型，确定与该类型对应的语义信息识别模型；
22.特征向量提取模块，用于提取所述目标多媒体文件针对所确定的语义信息识别模型的特征向量；
23.语义信息确定模块，用于将所提取到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息；
24.特征关键词存储模块，用于将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。
25.根据本说明书一个或多个实施例的第五方面，提出了一种多媒体文件的检索装置，所述装置包括：
26.转换模块，用于获取检索关键词并将所述检索关键词转换为与检索数据库对应的查询语句；所述检索数据库基于如上述的检索数据库构建装置构建得到；
27.查询模块，用于基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件；
28.检索结果确定模块，用于将查询得到的多媒体文件确定为检索结果。
29.根据本说明书一个或多个实施例的第六方面，提出了一种电子设备，包括：
30.处理器；
31.用于存储处理器可执行指令的存储器；
32.其中，所述处理器通过运行所述可执行指令以实现如上述任一所述的方法。
33.根据本说明书一个或多个实施例的第七方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一所述方法的步骤。
34.本说明书提供了用于多媒体文件检索的数据库的构建方法，以及基于该构建方法构建的数据库的多媒体文件的检索方法。预先针对不同类型的多媒体文件，分别配置对应的语义信息识别模型。针对任一多媒体文件，根据其文件类型确定对应的语义信息识别模型，然后根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件特征向量。将所提取到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息，然后将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。当获取到检索关键词后，将检索关键词转换为检索数据库对应的查询语句，并基于查询语句查询特征关键词包括检索关键词的多媒体文件，然后将查询到的多媒体文件作为检索结果。
35.利用说明书的一个或多个是实施例：
36.1、在对任一多媒体文件确定特征关键词时，是基于多媒体文件的实际内容确定的，保证了特征关键词与多媒体文件的高度相关性。
37.2、是基于关键词的匹配进行检索的，相较于基于相似度比较的检索方式，检索速度快。
38.3、构建的多媒体文件检索数据库，适用于任一类型的多媒体文件，构建以及检索时的集成度高。
附图说明
39.图1是一示例性实施例提供的基于相似比较的检索系统的结构示意图。
40.图2是一示例性实施例提供的一种数据库的构建方法的流程示意图。
41.图3a是一示例性实施例提供的图片类型的多媒体文件的多媒体特征记录表储存示意图。
42.图3b是一示例性实施例提供的音频类型的多媒体文件的多媒体特征记录表储存示意图。
43.图3c是一示例性实施例提供的视频类型的多媒体文件的多媒体特征记录表储存示意图。
44.图4是一示例性实施例提供的关系性数据库及kv型数据库存储特征时间戳的存储示意图。
45.图5是一示例性实施例提供的检索数据库所保存的数据的示意图。
46.图6是一示例性实施例提供的一种多媒体文件的检索方法的流程示意图。
47.图7是一示例性实施例提供的另一种多媒体文件的检索方法的流程示意图。
48.图8是一示例性实施例提供的多媒体文件的检索系统的结构示意图。
49.图9是一示例性实施例提供的一种数据库的构建装置的框图示意图。
50.图10是一示例性实施例提供的一种多媒体文件的检索装置的框图示意图。
51.图11是一示例性实施例提供的一种设备的结构示意图。
具体实施方式
52.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
53.需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。
54.最初的多媒体文件检索方式中，多是基于多媒体的文本内容进行匹配查找，例如，多媒体文件的文件名称、对媒体文件的描述文本(如音频的演唱者、视频的拍摄者等)，只要检索关键词与任一多媒体文件的文本内容相匹配，则认为该多媒体文件是所要查找的多媒体文件。
55.这种检索方式的检索结果完全依赖于多媒体文件的文本内容，多媒体文件的文本内容与多媒体的实际内容越相符，那么检索到的结果也越相符，然而实际应用中，多数多媒体文件的文本内容与多媒体实际内容是不相符的(例如，文件名称为毫无疑义的字符串：15657.jpg、2515.mp4，或者图片中是苹果，但文件名称为香蕉)，这使得检索到的多媒体文件非常的有限且不准确。
56.随后，越来越多的人开始注重多媒体文件实际的内容，出现了基于内容的多媒体文件检索方式，一般而言，先利用根据预先设置的特征提取算法，提取对应的特征向量(如图片颜色、纹理、形状等对应的特征向量)，建立基于内容特征向量的多媒体索引库，然后将用户的检索请求转化成向量，并与已有多媒体文件的特征向量进行相似度匹配计算，得到检索结果。
57.如图1所示，为本说明书示出的一种基于内容的多媒体文件检索系统的架构示意图，预先针对多媒体数据库中的每个多媒体文件提取对应的特征向量，并建立知识表达库。当接收到用户的检索请求时，将用户的检索请求利用知识表达库或者知识表达算法，转换为对应的检索特征向量。利用转换得到的检索特征向量，与每个多媒体文件的特征向量进行相似度计算，将相似度高的多媒体文件作为检索结果。
58.首先，这种计算相似度方式进行多媒体文件的检索，虽然能够减少人工表述的主观性，使得检索结果更客观，但是由于每次检索都需要进行相似度的计算，使得检索速度比较慢，并且对检索系统的特征向量提取算法进行更新时，成本较高。
59.其次，这种检索方式一般都是支持单类型多媒体文件的检索，例如，图片检索系统与音频搜索系统需分别构建(相似度计算时，图片的特征向量与图片的特征向量可以进行相似度计算，图片的特征向量与音频的特征向量显然不可以进行相似度计算)，如果需要支持多类型的多媒体文件检索，那么需要把检索关键词分别转换为各个类型多媒体文件的特征向量，然后分别进行相似度的计算，得到检索结果。
60.基于此，本说明书提供了用于多媒体文件的索的数据库的构建方法，以及基于该
构建方法构建的数据库的多媒体文件的检索方法。预先针对不同类型的多媒体文件，分别配置对应的语义信息识别模型。针对任一多媒体文件，根据其文件类型确定对应的语义信息识别模型，然后根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件特征向量。将所提取的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息，然后将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。当获取到检索关键词后，将检索关键词转换为检索数据库对应的查询语句，并基于查询语句查询特征关键词包括检索关键词的多媒体文件，然后将查询到的多媒体文件作为检索结果。
61.第一个方面，本说明书在对任一多媒体文件确定特征关键词时，是基于多媒体文件的实际内容确定的，保证了特征关键词与多媒体文件的高度相关性。
62.第二个方面，本说明书是基于关键词的匹配进行检索的，相较于基于相似度比较的检索方式，检索速度快。
63.第三个方面，本说明书构建的多媒体文件检索数据库，适用于任一类型的多媒体文件，构建以及检索时的集成度高。
64.本说明书提供了数据库构建方法、多媒体文件的检索方法，以及对应的装置、设备、存储介质，其中，检索方法所基于的构建的数据库，是利用前述的检索数据库构建方法构建得到。
65.首先，对用于多媒体文件检索的数据库构建方法进行详细的说明。
66.如图2所示，为本说明书示出的数据库构建方法的流程示意图，包括以下步骤：
67.步骤201、针对任一目标多媒体文件，根据所述目标多媒体的文件类型，确定与该类型对应的语义信息识别模型。
68.在本说明书的一个或多个实施例中，会为每种多媒体文件类型配置相应的语义识别模型，每种类型的多媒体文件都有其独特的信息表现形式，因此，每种文件类型的特征向量的提取方法以及语义信息识别模型都会有所不同。例如，图片类型的多媒体文件与音频类型的多媒体文件，图片提取特征向量时，一般提取其纹理特征、结构特征、颜色特征等，而进行语义信息的识别时，需要基于这些特征来确定图片所表征的语义信息；音频提取特征向量时，一般提取的是音调特征、能量特征、语谱图等，而进行语义识别时，需要基于这些特征来确定音频所表征的语义信息。
69.其中，确定多媒体文件的文件类型时，可以基于多媒体文件的后缀确定，例如，后缀为jpg的是图片，后缀为mp3的为音频，后缀为mp4的为视频，还可以基于其他方式确定，此次不进行详细说明。
70.此外，针对同一种多媒体文件类型，也可以有不同的语义信息识别模型，例如，针对音频文件，可以配置人声检测模型、歌词检测模型、环境声检测模型等，分别用于识别音频不同方面的语义信息。又如，针对视频文件，可以配置场景识别模型、关键帧内容识别模型等，分别用于识别视频不用方面语义信息。
71.步骤203、根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件特征向量。
72.每种语义信息识别模型的输入不一定相同，以音频文件为了，语义信息识别模型可以是基于语谱图的，也可以是基于能量特征的，还可以是基于能量特征以及音调特征的
等。
73.因此，根据语义信息识别模型需要输入的特征向量不同，根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，对目标多媒体文件进行特征向量的提取。
74.步骤205、将所提取的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息。
75.将提取的特征向量输入至选取的语义信息识别模型后，语义信息识别模型会输出相应的结果，根据输出的结果，确定语义信息识别模型识别的语义信息。例如，有的语义信息识别模型会输出概率，如该图片是苹果的概率或者不是苹果的概率，那么概率大于某一预设值时，说明该图片中包含“苹果”这一语义；有的语义信息识别模型会输出分类结果，如针对音频文件，输出结果是欢快的音频、悲伤的音频等，那么语义信息就是对应的分类结果。
76.步骤207、将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。
77.根据语义识别得到对应的语义信息后，将所得到的语义信息确定为目标多媒体文件的特征关键词，即，存储至用于多媒体文件检索的数据库。
78.如表1所示，为本说明书示出的检索数据库存储形式示例：
79.表1
80.多媒体文件标识文件类型多媒体文件存储位置特征关键词1imageoss://yyy/image1.jpg苹果、眼镜2audiooss://xxx/audio1.mp3枫叶、琵琶、篱笆3videooss://zzz/video1.mp4烛火、女子、旗袍4imageoss://yyy/image3.jpg苹果、树、果园
81.其中，id为一个多媒体文件的唯一标识；type为该多媒体文件类型标识，如image图像、audio音频、video视频；url为该多媒体对象云存储地址；tags为多值列，用来存储该多媒体文件的所有特征关键词。
82.如图3a所示，为本说明书示出的多媒体特征记录表(即，检索数据库的存储形式示意图)，上方的图片识别出的特征关键词包括苹果、电脑、工程师、眼镜，下方的图片识别出的特征关键词包括苹果、水果、苹果树、果园，id为每个多媒体文件索引信息的唯一标识，type为多媒体文件的文件类型，url为多媒体文件的存储位置(此次以云存储为例，给出云存储的存储位置)，tags为对多媒体文件所提取的特征关键词。
83.图3b为本说明书示出的音频文件类型的多媒体文件记录表，图3c为本说明书示出的视频文件类型的多媒体文件记录表，与图片类型的多媒体记录表类似。
84.此外，在本说明书一个或多个实施例中，在多媒体文件为具有时间播放属性的多媒体文件的情况下，那么:
85.步骤205为：将所得到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息，以及该语义信息在目标多媒体文件中的起始时间戳。
86.步骤207为：将所得到的语义信息确定为目标多媒体文件的特征关键词，并与目标多媒体文件进行关联存储；其中，保存所得到的特征关键词时，同时保存所得到的特征关键
词对应的起始时间戳。
87.其中，具有时间播放属性是指，多媒体文件所承载的信息具有时间播放属性，例如音频，视频，这些多媒体文件在进行信息的展示时，需要对应的时间戳。而像图片这样的多媒体文件并不具有时间播放属性，不需要对应的时间戳。
88.在识别具有时间播放属性的多媒体文件时，识别的语义信息可能为某个时刻的语义信息，例如，在音频文件的1:30-1:35识别到了海浪声，那么该音频文件的一个特征关键词为海浪声。而在一些应用场景中，用户在进行检索时，可能希望能够根据检索关键词将具有时间播放属性的多媒体文件定位至对应的时间点，因此，在确定具有时间播放属性的多媒体文件的特征关键词时，同时确定该特征关键词在该多媒体文件中出现的起始位置。
89.如图4所示，记录了特征关键词与时间戳的对应关系，左侧的表为本说明书示出的关系型数据库的存储示意图，右侧的表为本说明书示出的kv型数据库的存储示意图。其中，id为所记录的特征关键词即时间戳所属的多媒体文件的唯一标识，timestampe为特征关键词出现的起始时间戳，tags为对应的特征关键词。
90.其中，图中示出关系型数据库中，id为多媒体文件的唯一标识；timestamp为特征片段开始的时间戳(即，特征关键词对应的特征片段开始的时间戳)；tags为多值列，存储该特征片段包含的特征关键词集合，比如“天安门”的歌词在“我爱北京天安门”这首歌中，出现的特征片段起始时间戳为00:09,00:21,00:23。又比如，在“东风破”这首mv的视频中，00:36的特征片段包含的特征关键词有：“烛火:歌词,书本,古籍,旗袍,女人,女子,盘发,盘头发”。
91.图中示出的kv型数据库中，key设计为多媒体文件id和某个特征关键词的联合键值；value为对应特征关键词出现的音、视频中的特征片段时间戳或者时间戳集合。
92.此外，为了尽可能减少人工表述(语义信息的表达)的主观性，即，减少检索时多媒体文件的漏检，因此，在本说明书的一个或多个实施例中针对任一多媒体文件的任一经语义信息识别模型得到的特征关键字词，对该特征关键词进行语义信息扩展得到扩展关键词，将所述扩展关键词作为该多媒体文件的特征关键词，与该多媒体文件进行关联存储。
93.其中，语义信息扩展可以是确定特征关键词的同义词和/或近义词。经语义信息识别模型得到的特征关键字词是根据语义识别模型的输出确定的特征关键词，为了防止无限扩展，对于扩展得到的特征关键词，不继续进行语义扩展。
94.例如，针对某图片确定的特征关键词为蛇果，而用户在检索时，可能检索的是苹果、水果等，同时期望该图片是检索结果中的其中一个，因此，可根据特征关键词“蛇果”扩展该图片的特征关键词“苹果”、“水果”。
95.此外，为了确保语义表达的准确性，或者进一步提升特征关键词所表征的语义，在本说明书一个或多个实施例中，对特征关键词进行详细的语义加工，包括特征关键词为多媒体文件哪方面的语义信息，例如，确定视频的特征关键词时，确定了的特征关键词“烛火”是视频的歌词，那么进一步将该特征关键词进行加工，得到特征关键词“烛火：歌词”。
96.如图5所示，为本说明书示出的检索数据库所记录的内容的示意图，其中，在记录多媒体特征记录表时(即，多媒体文件与特征关键词的关联存储)，一般使用非关系型数据库，而记录特征时间戳记录表时(即，特征关键词与时间戳的关联存储)，可以使用关系型数据库，也可以使用kv数据库。
97.以上是对用于多媒体文件检索的数据库的构建方法的详细说明，利用本说明书示出的多媒体文件的构建方法，可以构建用于检索多种类型的数据库，其中，由于在对任一多媒体文件确定特征关键词时，是基于多媒体文件的实际内容确定的，保证了特征关键词与多媒体文件的高度相关性。此外，本说明书构建的多媒体文件检索数据库可将所有多媒体文件类型进行统一格式存储，检索时适用于任一类型的多媒体文件，构建以及检索时的集成度高。
98.实际应用中，若进一步的需要选择检索结果的文件类型，在构建检索数据库时同时记录每个多媒体文件的文件类型(如图3所示的type列)，如此，检索时增加条件限制(如文件类型为image)，即可确保检索结果都为图片。
99.接下来对多媒体文件的检索方法进行详细的说明，其中，检索前，需要利用上述的检索数据库构建方法，构建用于检索数据库。
100.如图6所示，为本说明书示出的多媒体文件的检索方法的流程示意图，包括以下步骤：
101.步骤601、获取检索关键词并将所述检索关键词转换为与检索数据库对应的查询语句。
102.其中，检索数据库由上述的数据库的构建方法构建得到。
103.当接收到检索关键词后，把检索关键词转换为检索数据库对应的查询语句，例如，若检索数据库为sql(结构化查询语言，structured query language，是一种关系型数据库)，存储结构如图5所示，那么如下语句，select id,type,url from object_keyword where tags contains('东风:歌词')，就是用于查询包含歌词有"东风"特征的音频或者视频的查询语句，object_keyword为多媒体特征记录表。
104.步骤603、基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件。
105.利用数据库的查询语句，在检索数据库中快速查询对应的多媒体文件。
106.步骤605、将查询得到的多媒体文件确定为检索结果。
107.如上述的查询语句，查询将返回结果有两个多媒体文件满足条件，即，有两个多媒体文件的特征关键词包括“东风”。
108.如表2所示，为查询得到查询结果的示意表。
109.表2
[0110][0111]
那么将查询结果中的url查找到对应的多媒体文件。
[0112]
实际应用中，检索关键词可以是一个，也可以是多个，若检索请求是要求包括所有检索关键词的多媒体文件，那么对于的查询语句的条件为包括所有检索关键词的多媒体文件，如，select id,type,url from object_keyword where tags contains(特征关键词1)and tags contains(特征关键词2)。若检索请求是要求包括任一检索关键词的多媒体文件，那么对于的查询语句的条件为包括任一检索关键词的多媒体文件，如，select id,type,url from object_keyword where tags contains(特征关键词1)or tags contains(特征关键词2)。
[0113]
此外，若构建的检索数据库还对特征关键词与时间戳进行了关联存储，那么进一步的，查询检索关键词对应的时间戳，即，步骤603为基于查询语句查询特征关键词包括检索关键词的多媒体文件，以及检索关键词在所查询得到的多媒体文件中的时间戳，步骤605为将所查询的多媒体文件的播放时间定位至所述起始时间戳，并将定位完成的多媒体文件作为检索结果。
[0114]
如图7所示，为本说明书示出的检索过程的流程示意图，用户指定一个或多个特征关键词(即，指定检索关键词)，提交多媒体对象(也就是多媒体文件)检索请求。然后基于检索请求，生成对应的查询语句，然后基于查询语句，去多媒体数据库的多媒体特征记录表(也可称为检索数据库)进行检索查询。将检索请求中的特征关键词与多媒体特征记录表中特征多值列的特征关键词进行快速匹配，得到匹配的对应多媒体对象列表(即，检索到的对应的多媒体文件)。
[0115]
此外，若检索请求为检索具有时间播放属性的多媒体文件，而检索数据库也存储了具有时间播放属性的多媒体文件的各个特征关键词对应的时间戳，那么，检索流程为：
[0116]
首先，用户指定一个或多个特征关键词(即，指定检索关键词)，提交多媒体对象(也就是多媒体文件)检索请求。然后基于检索请求，生成对应的查询语句，然后基于查询语句，去多媒体数据库的多媒体特征记录表(也可称为检索数据库)进行检索查询。将检索请求中的特征关键词与多媒体特征记录表中特征多值列的特征关键词进行快速匹配，得到匹配的对应多媒体对象列表(即，检索到的对应的多媒体文件)。
[0117]
然后针对匹配的目标多媒体对象，提交多媒体对象特征浏览检索请求，如果各个特征关键词与对应的时间戳是用关系型数据库保存的，那么针对关系型数据库实现的特征时间戳记录表，对特征多值列的特征关键词与检索请求中的检索关键词进行匹配，得到匹配的对应的时间戳或者时间戳合集。如果各个特征关键词与对应的时间戳是是用kv型数据库保存的，那么针对kv型数据库实现的特征时间戳记录表，目标多媒体对象i d与特征关键词组合为key进行快速匹配，得到匹配的对应的时间戳或时间戳合集。
[0118]
多媒体浏览应用程序基于检索得到的多媒体对象以及时间戳，在播放检索到的多媒体对象时，对时间戳进行展示，或者按需进行快速浏览定位。
[0119]
此外，本说明书还提供了一种多媒体文件的检索系统，包括检索数据库构建模块与检索模块。
[0120]
检索数据库构建模块用于构建用于检索多媒体文件的数据库，针对多媒体文件数据库中的任一多媒体文件，根据目标多媒体的文件类型，确定与该类型对应的语义信息识别模型；根据所确定的语义信息识别模型的输入需求，调用相应的特征向量提取算法，得到所述目标多媒体文件针对所确定的语义信息识别模型的特征向量；将所提取的特征向量输
入至所确定的语义信息识别模型，得到该特征向量对应的语义信息；将所得到的语义信息确定为目标多媒体文件的特征关键词，并与目标多媒体文件进行关联存储。
[0121]
检索模块用于根据检索关键词，基于检索数据库检索对应的多媒体文件，获取检索关键词并将所述检索关键词转换为与检索数据库对应的查询语句；基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件；将查询得到的多媒体文件确定为检索结果。
[0122]
此外，当多媒体文件数据库中新增了多媒体文件时，利用检索数据库构建模块，将新增的多媒体文件的检索数据增加至检索数据库(即，该多媒体文件与其对应的特征关键词关联存储至检索数据库)。如此，提高了检索数据库的更新的灵活性。
[0123]
如图8所示，为本说明书示出的多媒体文件的检索系统的结构示意图。
[0124]
其中，语义信息识别训练模块用于训练对多媒体文件进语义识别的语义信息识别模型，特征向量提取模块用于提取多媒体数据库中各个多媒体文件的特征向量，然后利用训练好的语义信息识别模型对提取的特征向量进行语义识别，确定各个多媒体文件的特征关键词，特征关键词的扩展即更新模块用于对确定的特征关键词进行语义扩展等，然后将每个多媒体文件的特征关键词记录至多媒体文件检索数据库。
[0125]
当用户进行多媒体文件的检索与浏览时，先根据检索关键词，在检索数据库中快速查询到对应的多媒体文件在多媒体文件数据库中的存储位置，然后对应的多媒体文件反馈至用户，以使用户进行对应的流量。
[0126]
此外，实际应用中，随着云服务的广泛应用，越来越多的企业选择云存储多媒体文件，云服务提供者可利用预先训练好的多个语义识别模型，为企业存储的多媒体文件构建检索数据库，以使企业可通过构建的检索数据库检索相应的多媒体文件。
[0127]
具体而言，企业将大量多媒体文件存储至云中后，云服务提供商对企业的存储的多媒体文件利用上述的检索数据库构建方法，为企业的云存储的多媒体文件数据库构建检索数据库，企业就来利用云服务提供方构建的检索数据库，对云存储的多媒体文件进行基于内容的检索。
[0128]
可见，与基于相似度的检索方式相比，利用本说明书的一个或多个实施例，构建基于内容的多媒体文件的检索系统便捷简单了许多，并且，支持包括多种类型的多媒体文件检索，将检索多种类型的多媒体文件集成在一起，与分别检索相比，提高了检索速度。
[0129]
系统中各个模块的功能与上述的数据库的构建方法，多媒体文件的检索方法相对应，此处不进行详细说明。
[0130]
以上是对数据库的构建方法，多媒体文件的检索方法以及多媒体文件的检索系统的详细说明，本说明书还提供了对应的装置，接下来对其进行详细的说明。
[0131]
本说明书提供了一种数据库的构建装置，所述数据库用于多媒体文件的检索，针对不同类型的多媒体文件，分别配置对应的语义信息识别模型；如图9所示，所述装置包括：
[0132]
语义信息识别模型确定模块901，用于针对任一目标多媒体文件，根据所述目标多媒体的文件类型，确定与该类型对应的语义信息识别模型；
[0133]
特征向量提取模块903，用于提取所述目标多媒体文件针对所确定的语义信息识别模型的特征向量；
[0134]
语义信息确定模块905，用于将所提取的特征向量输入至所确定的语义信息识别
模型，得到该特征向量对应的语义信息；
[0135]
特征关键词存储模块907，用于将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储。
[0136]
其中，所述特征关键词存储模块还可具体用于：
[0137]
将所得到的语义信息确定为所述目标多媒体文件的特征关键词；
[0138]
以所述目标多媒体文件的标识为唯一标识，记录所述目标多媒体文件的存储位置信息、所述目标多媒体文件的文件类型、所述所得到的特征关键词。
[0139]
在所述目标多媒体文件为具有时间播放属性的多媒体文件的情况下：
[0140]
所述语义信息确定模块可以具体用于，将所得到的特征向量输入至所确定的语义信息识别模型，得到该特征向量对应的语义信息，以及该语义信息在所述目标多媒体文件中的起始时间戳；
[0141]
此时，所述特征关键词存储模块具体用于，将所得到的语义信息确定为所述目标多媒体文件的特征关键词，并与所述目标多媒体文件进行关联存储，与所确定的时间戳进行关联存储。
[0142]
此时，所述特征关键词存储模块还可具体用于：
[0143]
将所得到的语义信息确定为所述目标多媒体文件的特征关键词；
[0144]
以所述目标多媒体文件的标识为唯一标识，记录所述目标多媒体文件的存储位置信息、所述目标多媒体文件的文件类型、所述所得到的特征关键词；
[0145]
以所述目标多媒体文件的标识以及所得到的特征关键词为唯一标识，记录所述所得到的特征关键词对应的起始时间戳。
[0146]
此外，所述装置还可以包括：
[0147]
语义扩展模块(图中未示出)，用于针对任一多媒体文件的任一经语义信息识别模型得到的特征关键字词，对该特征关键词进行语义信息扩展得到扩展关键词，将所述扩展关键词作为该多媒体文件的特征关键词，与该多媒体文件进行关联存储；
[0148]
所述语义信息扩展包括：确定特征关键词的同义词和/或近义词。
[0149]
本说明书还提供了一种多媒体文件的检索装置，如图10所示，所述装置包括：
[0150]
转换模块1001，用于获取检索关键词并将所述检索关键词转换为与检索数据库对应的查询语句；所述检索数据库基于如上述任一所述的装置构建得到；
[0151]
查询模块1003，用于基于所述查询语句查询特征关键词包括所述检索关键词的多媒体文件；
[0152]
检索结果确定模块1005，用于将查询得到的多媒体文件确定为检索结果。
[0153]
此外，若所述检索数据库对特征关键词与时间戳进行了关联存储的情况下：
[0154]
所述查询模块具体用于，基于查询语句查询特征关键词包括所述检索关键词的多媒体文件，以及所述检索关键词在所查询得到的多媒体文件中的时间戳；
[0155]
所述检索结果确定模块具体用于，将所查询的多媒体文件以及时间戳确定为检索结果。
[0156]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。
[0157]
上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由
具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0158]
本说明书还提供了一种电子设备，包括：
[0159]
处理器；
[0160]
用于存储处理器可执行指令的存储器；
[0161]
其中，所述处理器通过运行所述可执行指令以实现如上述任一所述的方法。
[0162]
图11示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
[0163]
处理器1110可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0164]
存储器1120可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1120可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1120中，并由处理器1110来调用执行。
[0165]
输入/输出接口1130用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0166]
通信接口1140用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0167]
总线1150包括一通路，在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。
[0168]
需要说明的是，尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0169]
本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一所述方法的步骤。
[0170]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除
可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0171]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0172]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0173]
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0174]
应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0175]
以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种数据库构建方法、多媒体文件的检索方法及装置与流程

相关文献

最热文献