视频配乐方法、信息处理方法、设备及存储介质与流程

2022-04-06 19:07:22 来源：中国专利 TAG：

1.本技术涉及视频处理技术领域，尤其涉及一种视频配乐方法、信息处理方法、设备及存储介质。

背景技术：

2.视频类信息包含丰富的内容，在各个领域得到了广泛的应用。其中，视频的配乐具有重要的作用，合适的配乐能迅速提升视频的正向情绪，提高视频的价值。
3.目前，视频配乐大多由用户从热门歌曲中选择，配乐的效率和准确性有待提高。

技术实现要素：

4.本技术实施例的主要目的在于提供一种视频配乐方法、信息处理方法、设备及存储介质，以提升视频配乐的效率和准确性。
5.第一方面，本技术实施例提供一种视频配乐方法，包括：
6.确定待处理的视频的签名向量；
7.根据所述签名向量确定所述视频的类别；
8.基于与所述类别相匹配的音频为所述视频配乐；
9.其中，所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置。
10.第二方面，本技术实施例提供一种视频配乐方法，包括：
11.对待处理的视频的特征进行正则化操作，根据正则化操作后的特征确定所述视频的签名向量和/或类别；
12.从备选音频中选择与所述签名向量和/或类别相匹配的音频为所述视频配乐；
13.其中，正则化操作用于调整所述视频的特征分布；所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置。
14.第三方面，本技术实施例提供一种视频配乐方法，包括：
15.获取为目标商品拍摄的视频，确定所述视频的签名向量；
16.根据所述签名向量确定所述视频的类别；
17.基于与所述类别相匹配的音频为所述视频配乐，配乐后的视频用于与所述目标商品的信息进行关联展示；
18.其中，所述视频的签名向量用于表征所述视频在视频和音乐的跨模态空间中的位置。
19.第四方面，本技术实施例提供一种信息处理方法，包括：
20.确定待处理的第一信息的签名向量；
21.根据所述签名向量确定所述第一信息的类别；
22.从多个第二信息中确定与所述类别相匹配的第二信息，对所述第一信息和第二信息进行融合；
23.其中，所述第一信息的签名向量用于表征所述第一信息在跨模态空间中的位置；所述第一信息和第二信息为视频、图像、音频、文本、传感数据、场景特征中的任意两种模态的信息。
24.第五方面，本技术实施例提供一种电子设备，包括：
25.至少一个处理器；以及
26.与所述至少一个处理器通信连接的存储器；
27.其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行上述任一方面所述的方法。
28.第六方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方面所述的方法。
29.第七方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方面所述的方法。
30.本技术提供的视频配乐方法、信息处理方法、设备及存储介质，可以确定待处理的视频的签名向量，根据所述签名向量确定所述视频的类别，基于与所述类别相匹配的音频为所述视频配乐，其中，所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置，从而可以基于签名向量更加快速、准确地实现视频的分类，提高视频配乐的效率和准确性，提升用户体验。
附图说明
31.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
32.图1为本技术实施例提供的一种应用场景示意图；
33.图2为本技术实施例提供的一种视频配乐方法的流程示意图；
34.图3为本技术实施例提供的一种确定视频类别的原理示意图；
35.图4为本技术实施例提供的一种确定音频类别的原理示意图；
36.图5为本技术实施例提供的一种确定视频和音频类别的原理示意图；
37.图6为本技术实施例提供的一种视频特征正则化的原理示意图；
38.图7为本技术实施例提供的一种音频特征正则化的原理示意图；
39.图8为本技术实施例提供的另一种确定视频类别的原理示意图；
40.图9为本技术实施例提供的另一种确定音频类别的原理示意图；
41.图10为本技术实施例提供的另一种视频配乐方法的流程示意图；
42.图11为本技术实施例提供的又一种视频配乐方法的流程示意图；
43.图12为本技术实施例提供的一种信息处理方法的流程示意图；
44.图13为本技术实施例提供的一种电子设备的结构示意图。
45.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
46.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
47.首先对本技术所涉及的名词进行解释：
48.模型：利用数学方法构造的，能够接收一定数据输入，并产生合理输出的函数结构。可选的，在本技术中可以具体指神经网络(neural network，nn)构造的多层运算流程。该流程包含了一系列数学运算(如加减法、卷积、矩阵乘等)与必要的参数(如卷积核、矩阵等)。
49.训练：使用数学优化方法求解模型参数的过程，对于神经网络算法而言，可以是指利用已有数据求导并进行梯度下降的迭代优化过程。
50.帧：常见的序列数据，经过数字化采样后，会变成按序排列的、可数的、依次放置的数字、向量或矩阵。例如对于音频而言，帧数据指某一时刻或某一时段采样到的震动强度电平，或经过短时傅里叶变换得到的频率-幅值向量。对视频数据而言，一帧可以指一张图片，帧序列指按时间顺序排列的图片。
51.推演(运行)：实际使用神经网络，输入一些数据，计算其输出的运算过程。
52.视频或音频的签名向量(特征签名、特征向量)：一个n维的实数向量，用以独特地表征一整个视频或音频的内容。
53.不稳定结果(badcase)：指算法产生的结果中，存在一少部分的明显错误、明显失误现象。
54.正则化(normalization)：对数据进行处理和校准的计算过程，在本技术中，正则化可以包括将数据减去均值，除以方差。
55.神经网络组件(层)：层即指某一种数学运算，一般而言，卷积、全联接、激活函数、正则化、循环神经单元、递归神经单元等都可以成为神经网络的一层。
56.神经网路结构(nn结构)：特指神经网络模型由具体组件或层连接的形式，即数据从哪些层流入，流出后再经哪些层处理，并在哪些层之后输出为最终的计算结果。
57.神经网络参数(nn参数)：本技术中的参数，可以是指神经网络模型中的“权重”，此权重为实数矩阵或向量，通过训练而不断更新，最终稳定于某一些具体数值。
58.下面对本技术的应用场景及发明构思进行解释说明。
59.通过视频来传播信息的方式逐渐渗透到各行各业中，例如，在购物app中，购买者可以通过信息丰富的视频讲解来了解产品，并指导选购产品。其中，具有感官冲击力的、具有广告精致感的、以及具有娱乐性的视频更能促进产品的全方位展示，并使得匹配需求的购买者更容易决策购买。
60.合适的配乐能迅速提升讲解视频的高级感、酷炫感、温馨感、亲切感、趣味感等多种正向情绪。然而，除了少数专业创作者能细致选择音乐外，很多视频因缺少配乐、或配乐不合适、抑或者配乐过于老套重复，而使得观看者丧失了了解产品的兴趣。因此，视频配乐算法的研发，可极大有助于产品的正确宣传。
61.除了购物app以外，本技术还可以应用于其它场景，例如短视频配乐、视频剪辑与
合成等。但是，部署在用户终端，或者服务端的配乐推荐算法，都面临着同样的挑战，即如何提高配乐结果的效率、准确性和多样性。
62.在对视频配乐算法的研发过程中，申请人了解或设计的方案主要包括以下几种。
63.一、流水线方案：对待配乐的视频，抽取数帧，输入到分类nn中，用以确定视频的类别，同时，根据类别，选取预先指定好的对应歌单，随机推荐或按歌单内歌曲热度推荐。
64.缺点：依赖人工，依赖少数非专业编辑者的主观判断，缺乏合理性支撑，准确性一般，配乐结果过于粗糙，不够精准。歌曲易出现重复，单调，多样性差。
65.二、有限曲目用户自选方案：随机选取热门歌曲，和配乐使用数量较高的歌曲，组成热歌歌单进行“半自动”推荐，之后由用户自选。
66.缺点：多样性差，匹配度与准确度低。
67.有鉴于此，本技术实施例提供了一种视频配乐方法，可以先提取待处理视频的签名向量，再以所述签名向量作为输入，进一步确定所述视频的类别，对于备选的每一音频，也先提取签名向量再进一步确定类别，进而可以根据视频和每一音频的类别，从大量的音频中选择合适的音频对所述视频进行配乐。
68.相对于上述的流水线方案来说，签名向量能够对视频和音频进行标识，并且，音频和视频的签名向量之间的关系能够反映所述音频和视频的匹配度，从而通过签名向量进行分类能够更加准确地确定音频和视频和类别，提高视频及其配乐音频的匹配程度，提升配乐准确性。
69.相对于上述的有限曲目用户自选方案来说，通过签名向量和类别可以实现音频和视频的自动匹配，提高效率和准确性。
70.因此，通过本技术实施例提供的方案，可以提升配乐的切合度、准确度，使得最终选择的音频适用于待配乐的视频。可选的，签名向量和类别可以分别通过签名模型和分类模型来提取，签名模型的输出作为分类模型的输入，在训练时，由于有分类模型对签名模型进行约束，会使签名向量的输出更加稳定和优化，提高配乐多样性与独特性，避免重复推荐一小部分老套的音乐。
71.此外，由于本技术实施例不仅使用了签名向量，还增加了符合音频和视频的实际风格的分类识别，相比于只使用签名向量选择音频的方式，可以考虑实际的类别来实现对视频的配乐，提升配乐的准确性，使配乐更加贴近实际场景。并且，通过依次提取签名向量和类别，以签名向量作为分类的依据，相比于分开提取签名向量和类别的方式，能够减少确定类别时的数据量，大大节省计算量，提高视频配乐的效率。
72.可选的，在签名模型前还可以设置音视频特征提取器，用于提取音频或视频的特征，签名模型和音视频特征提取器之间还可以设置有正则化计算单元，用于调整音频或视频的特征分布，满足音频和视频跨模态组合时的匹配需求，进一步提升配乐的准确性。
73.综上，本技术实施例提出的视频配乐方法，能在保证一定的算法速度的前提下，提高视频配乐算法推荐音乐的准确性、音视频的融洽性与可用性，不仅能达到良好的配乐主题切合度，也能推荐多样不重复的音乐结果，从而改善用户的体验。
74.图1为本技术实施例提供的一种应用场景示意图。如图1所示，用户通过终端设备拍摄或者剪辑得到视频后，终端设备可以将待处理的视频上传到服务器，由服务器根据视频的签名向量，确定视频的类别，并根据类别，从音频库里选择合适的音频，作为用于为视
频配乐的音频并下发给终端设备，终端设备根据音频为视频配乐，并将配乐后的视频展示给用户，用户还可以将配乐后的视频进行存储、传播和推广等操作。
75.在实际应用中，除了图1所示的场景，还可以有其它实现方案，只要能够实现视频配乐即可。示例性地，服务器可以发送音频的id，由终端设备根据音频的id从曲库中找到对应的音频进行配乐；或者，服务器也可以直接将配乐后的视频发送给终端设备；或者，终端设备可以直接根据本技术实施例提供的方法确定合适的音频并为视频配乐，无需与服务器进行交互；或者，合适的音频可以有多个，由用户从中选择至少一个音频进行配乐。
76.下面结合附图，对本技术的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
77.图2为本技术实施例提供的一种视频配乐方法的流程示意图。本实施例中方法的执行主体可以为任意具有数据处理功能的设备，例如终端设备或服务器等。如图2所示，所述方法可以包括：
78.步骤201、确定待处理的视频的签名向量。
79.其中，所述待处理的视频可以为待配乐的视频。所述视频的签名向量可以用于表征所述视频在视频和音乐的跨模态空间中的位置。
80.可选的，模态可以是指数据存在的形式，例如，音频、视频、文本等属于不同的模态。跨模态空间可以是指不同模态的数据映射到的共同空间，在该空间中可以实现不同模态的数据的检索、排序、聚类等操作。
81.示例性地，跨模态检索，可以实现根据一种模态的数据，检索相匹配的其它模态的数据。例如，给定一种模态的具体数据，跨模态检索可以被认为是在跨模态空间中寻找与该数据距离最近的一个或多个其它模态的数据。
82.本实施例中，跨模态空间可以是指音频和视频这两种不同的模态映射到的空间。在所述跨模态空间中，视频的签名向量可以对视频的位置进行标识，任意一对视频和音频在该空间中的位置关系可以用于表示视频和音频的匹配程度，位置越接近，匹配度越高。
83.可选的，所述视频的签名向量可以是一个多维的向量，例如64维的向量。
84.步骤202、根据所述签名向量确定所述视频的类别。
85.可选的，类别又可称为类型，具体可以是指视频的风格的分类。所述视频的类别可以根据实际需要来设置。示例性地，可以为按照流派、情绪、场景等进行分类，例如，按照场景分类，类别可以包括田园风光、休闲街拍等。
86.在得到签名向量后，可以将所述签名向量作为输入，通过计算得到所述视频的类别。
87.步骤203、基于与所述类别相匹配的音频为所述视频配乐。
88.可选的，所述音频的类别可以通过所述音频的签名向量确定，所述类别可以用于表示音频的风格的类别；所述音频的签名向量可以用于表征所述音频在视频和音乐的跨模态空间中的位置。所述视频的签名向量和所述音频的签名向量的相似度可以用于表征所述视频和所述音频的匹配度。
89.可选的，所述音频可以为歌曲、人声、纯音乐等任意形式的音频，为所述视频配乐，可以是指将音频作为视频的背景音乐。
90.在本技术实施例中，所述音频的签名向量和类别，与视频的签名向量和类别的含义类似。并且，音频和视频的签名向量的相似度，可以用于表征视频和音频本身的匹配度。可选的，所述签名向量的相似度可以通过欧式距离来计算，两个签名向量的欧式距离越大，说明相似度越低，反之则相似度越高。
91.可选的，所述签名向量和类别可以通过对应的模型来提取。或者，也可以采用其他的方式，例如，可以通过拟合的方式确定签名向量，通过映射表确定签名向量对应的类别。
92.在确定音频和视频的类别后，可以根据类别为视频配乐，例如，根据音频库里多个音频的类别，选择与待处理的视频的类别相匹配的音频为所述视频配乐。其中，类别相匹配可以是指类别相同，或者类别相似。
93.在一示例中，可以为视频选择类别相同的音频，能够提高音频和视频的匹配程度，提升配乐效果。
94.在另一示例中，可以为视频选择类别相同或相似的音频。其中，类别是否相似可以通过文本相似度来实现，若文本相似度满足要求，则认为是相似的类别。例如，从电商平台获取到的视频的类别为“田园风光”，从音乐播放平台获取到的音频的类别为“田园风情”，两者在文本上是接近的，可以认为是相似的类别。或者，也可以将音频和视频的类别输入到模型，通过模型来确定音频和视频的类别是否为相似的类别。或者，可以建立音频类别和视频类别的映射关系表，该映射关系表可以存储有与各视频类别相似的音频类别，直接通过映射关系表可以得到与待处理的视频的类别相似的音频类别。
95.由于视频和音频可能来自不同的平台，而不同平台划分的类别可能不是一一对应的，通过查找类别相同或相似的音频，可以减少出现查找不到相匹配的音频的情况，为视频提供更多的音频选择，提高音频推荐的效果。
96.在实际应用中，可以预先确定备选的多个音频的签名向量和类别，在需要为待处理的视频配乐时，直接计算待处理的签名向量和类别并进行匹配即可。或者，也可以在需要为待处理的视频配乐时，计算音频的签名向量、类别以及视频的签名向量、类别，并根据计算得到的类别为视频配乐。
97.综上，本实施例提供视频配乐方法，可以根据待处理的视频确定所述视频的签名向量，并根据所述签名向量确定所述视频的类别，基于与所述类别相匹配的音频为所述视频配乐，其中，所述音频的类别通过所述音频的签名向量确定，所述视频的签名向量和所述音频的签名向量的相似度用于表征所述视频和所述音频的匹配度，从而可以基于签名向量更加快速、准确地实现视频的分类，提高视频配乐的效率和准确性，提升用户体验。
98.在本技术的一个或者多个实施例中，可选的，所述视频的签名向量可以通过视频签名模型提取，类别可以通过视频分类模型提取。
99.可选的，确定待处理的视频的签名向量，可以包括：通过视频特征提取器提取所述视频的特征；根据提取的视频的特征，通过视频签名模型得到所述视频的签名向量。
100.可选的，根据所述签名向量确定所述视频的类别，可以包括：将所述视频的签名向量输入到视频分类模型，得到所述视频的类别。
101.图3为本技术实施例提供的一种确定视频类别的原理示意图。如图3所示，在模型结构上，可以设置视频特征提取器、视频签名模型、视频分类模型。视频签名模型输出视频的签名向量后，签名向量继续作为输入数据，用于视频的分类。
102.示例性地，所述视频特征提取器、视频签名模型、视频分类模型等，都可以通过神经网络尤其是卷积神经网络等深度学习方案来实现。通过视频特征提取器、视频签名模型、视频分类模型可以处理复杂的视频数据，提高视频分类的准确性。
103.在本技术的一个或者多个实施例中，可选的，所述音频的签名向量可以通过音频签名模型提取，类别可以通过音频分类模型提取。
104.在实际应用中，与所述类别相匹配的音频可以为从至少一个备选音频中选择的音频；针对各备选音频，可以通过如下方法确定该备选音频的类别：通过音频特征提取器提取所述备选音频的特征；根据提取的备选音频的特征，通过音频签名模型得到所述备选音频的签名向量；将所述备选音频的签名向量输入到音频分类模型，得到所述备选音频的类别。
105.图4为本技术实施例提供的一种确定音频类别的原理示意图。如图4所示，在模型结构上，可以设置音频特征提取器、音频签名模型、音频分类模型。音频签名模型输出音频的签名向量后，签名向量继续作为输入数据，用于音频的分类。
106.示例性地，所述音频特征提取器、音频签名模型、音频分类模型等，都可以通过神经网络尤其是卷积神经网络等深度学习方案来实现。通过音频特征提取器、音频签名模型、音频分类模型可以处理复杂的音频数据，提高音频分类的准确性。
107.在本技术的一个或者多个实施例中，可选的，所述音频签名模型和所述视频签名模型为通过训练样本集，基于损失函数训练得到的。
108.可选的，训练所述音频签名模型和所述视频签名模型时使用的损失函数可以包括第一损失函数，所述第一损失函数与正样本对应的欧式距离为正相关关系，与负样本对应的欧式距离为负相关关系；所述正样本对应的欧式距离为音频的签名向量和与该音频相匹配的视频的签名向量的欧氏距离，所述负样本对应的欧式距离为音频的签名向量和与该音频不匹配的视频的签名向量的欧氏距离。
109.可选的，所述训练样本集包括正样本组和负样本组；正样本组包括相匹配的音频和视频；负样本组包括不匹配的音频和视频；所述正样本对应的欧式距离具体可以为所述正样本中音频的签名向量和视频的签名向量的欧氏距离，所述负样本对应的欧式距离具体可以为所述负样本中音频的签名向量和视频的签名向量的欧氏距离。
110.示例性地，所述正样本组可以包含多个正样本，所述负样本组可以包括多个负样本，其中，正负样本组可以通过人工划分来获得，例如某一音频和某一视频为相匹配的音频和视频，则被划分为正样本，反之则为负样本。
111.在得到训练样本集后，可以通过反向梯度传播来训练音频签名模型和视频签名模型。示例性地，音频签名模型和视频签名模型都可以输出n维的签名向量，可以设置相应的损失函数，使得训练的目的是：让正样本对应的n维的视频签名向量与n维的音频签名向量的欧式距离越小越好，同时，负样本对应的n维的视频签名向量与n维的音频签名向量的欧式距离越大越好。
112.可选的，签名向量可以用于唯一地标识一个音频或视频，不同音频的签名向量不同，不同视频的签名向量也不同。
113.通过设置正负样本组，基于音视频签名向量的欧式距离设置损失函数并对音频签名模型和视频签名模型进行训练，能够使训练得到的模型的输出结果更加准确，使相匹配的音频和视频的签名向量相似度较高，而不匹配的音频和视频的签名向量的相似度较低，
提高模型输出结果的准确性。
114.在本技术的一个或者多个实施例中，可选的，所述视频签名模型、音频签名模型和所述视频分类模型、所述音频分类模型通过训练样本集一同训练得到。
115.其中，所述损失函数还包括第二损失函数，所述第二损失函数通过所述训练样本集中样本的标签与样本的类别预测值构建；所述样本的标签用于表征样本的类别真实值。
116.可选的，第二损失函数可以用于使样本的类别预测值尽量接近类别真实值。
117.图5为本技术实施例提供的一种确定视频和音频类别的原理示意图。如图5所示，可以将样本中的音频和视频分别输入到音频特征提取器和视频特征提取器，得到音频的特征和视频的特征，再分别经过音频签名模型和视频签名模型得到音频的签名向量和视频的签名向量，最后分别经过音频分类模型和视频分类模型得到音频的输出类别和视频的输出类别，即音频的类别预测值和视频的类别预测值。
118.其中，音频的签名向量和视频的签名向量的欧式距离可以用于构建第一损失函数，输出类别可以用于构建第二损失函数，由于签名模型的输出作为分类模型的输入，因此分类模型对应的第二损失函数，可以同时优化分类模型和签名模型。故分类模型不仅可以实现分类，还可以实现签名向量的可分性。
119.本实施例中模型组合特点，也是训练策略导致的遗留形态，该模型组合形态，可一揽子解决训练时的多样性问题，也可同时整合推演时的音视频各自分类，与签名向量的输出，从而可以利用分类模型、签名模型共同稳定输出结果。
120.下面以一个简单的例子说明签名模型和分类模型串联设置的方案相对于签名模型后不带分类模型的方案的优势。假设音频签名向量和视频签名向量的欧式距离的可能值在0到1024这个区间取值，对于签名模型后不带分类模型的方案，训练可能会让输出的结果比较集中，例如，相匹配的音频和视频的签名向量的欧式距离集中在0附近，不匹配的音频和视频的签名向量的欧式距离集中在1024附近。而签名模型和分类模型串联设置的方案，通过分类模型的类别约束，可以让签名向量的欧式距离在0到1024这个区间内更加分散化，避免都集中在0或1024附近，使得最终得到的签名向量更加合理和准确，减少推荐音频的集中程度，提高配乐的多样性。
121.在本技术的一个或者多个实施例中，可选的，还可以在提取签名向量之前，先对视频的特征分布进行调整。
122.可选的，根据提取的视频的特征，通过视频签名模型得到所述视频的签名向量，可以包括：对所述视频的特征进行正则化操作，并将正则化操作后的特征输入到视频签名模型，得到所述视频的签名向量。
123.可选的，还可以对音频的特征分布进行调整。具体的，根据提取的备选音频的特征，通过音频签名模型得到所述备选音频的签名向量，可以包括：对所述备选音频的特征进行正则化操作，并将正则化操作后的特征输入到音频签名模型，得到所述备选音频的签名向量。
124.其中，对所述视频和备选音频的正则化操作用于调整所述视频和备选音频的特征分布。
125.图6为本技术实施例提供的一种视频特征正则化的原理示意图。图7为本技术实施例提供的一种音频特征正则化的原理示意图。如图6和图7所示，音频与视频各自的整体网
络，包括最基本的音频/视频特征提取器、后部分的音频/视频签名模型、以及中间的正则化计算单元(instance normalization计算单元)。
126.与现有的正则化操作不同，本实施例是在特征提取器和签名模型之前设置正则化计算单元，可以让音频的分布和视频的分布尽量一致，提高音视频签名向量的匹配度，提高配乐结果的准确性。
127.可选的，所述视频的特征为多维向量；对所述视频的特征进行正则化操作，包括：根据所述视频的多维向量的分布情况，对所述多维向量进行正则化操作；或者，根据所述待处理的视频与多个历史视频的特征的分布情况，对所述待处理的视频的特征进行正则化操作。
128.其中，所述多维向量的分布情况可以是指该多维向量对应的多个数据的分布情况，可选的，可以通过多维向量的均值、标准差来表征。所述视频与多个历史视频可以看作一个视频集合，所述视频集合对应的分布情况，可以是指视频集合中多个视频的特征分布情况，可选的，可以通过多个视频的特征的均值、标准差来表征。
129.可选的，根据所述视频的多维向量的分布情况，对所述多维向量进行正则化操作，可以包括：计算所述视频的多维向量中的多个数据的均值以及标准差，根据计算得到的均值、标准差以及比例系数、平移系数，对所述视频的特征进行正则化操作。
130.可选的，根据所述待处理的视频与多个历史视频的特征的分布情况，对所述待处理的视频的特征进行正则化操作，可以包括：计算所述视频与多个历史视频的特征的均值以及标准差；根据计算得到的均值、标准差以及比例系数、平移系数，对所述视频的特征进行正则化操作。
131.类似的，所述备选音频的特征可以为多维向量；对所述备选音频的特征进行正则化操作，可以包括：根据所述备选音频的多维向量的分布情况，对所述多维向量进行正则化操作；或者，根据所述备选音频与多个历史备选音频的特征的分布情况，对该备选音频的特征进行正则化操作。
132.可选的，根据所述备选音频的多维向量的分布情况，对所述多维向量进行正则化操作，可以包括：计算所述备选音频的多维向量中的多个数据的均值以及标准差，根据计算得到的均值、标准差以及比例系数、平移系数，对所述备选音频的特征进行正则化操作。
133.根据所述备选音频与多个历史备选音频的特征的分布情况，对该备选音频的特征进行正则化操作，可以包括：计算所述备选音频与多个历史备选音频的特征的均值以及标准差；根据计算得到的均值、标准差以及比例系数、平移系数，对该备选音频的特征进行正则化操作。
134.示例性地，针对视频或音频特征提取器得出的，具有d维的特征可以通过如下公式计算其对应的正则化操作后的特征：
[0135][0136]
其中，μ为特征的均值，σ为标准差，α与β为两个参数，分别记为比例系数、平移系数，可以通过训练获得。
[0137]
在一种可选的实现方式中，可以计算所述视频或备选音频的多维向量中的多个数据的均值以及标准差。例如，提取出的特征为1024维的特征，包含1024个数据(数字)，这
1024个数据可以取均值并计算标准差，计算得到的均值是一个数据，标准差也是一个数据，比例系数和平移系数也可以是单个的数据，待处理的视频或音频的1024维特征中的每一个数据都可以通过上述公式计算其对应的正则化后的数据，最终得到的正则化后的特征也是一个1024维的向量。这种方式计算过程简洁，效率较高。
[0138]
在一种可选的实现方式中，可以计算所述视频或备选音频与多个历史视频或多个历史备选音频的特征的均值以及标准差。例如，待处理的视频可以参考前面的100个历史视频，将待处理的视频与100个历史视频对应的1024维的向量取均值并计算标准差，得到的均值和标准差都是1024维的向量，比例系数和平移系数也可以是1024维的向量，将待处理的视频的1024维的特征通过上述公式进行变换，得到正则化后的特征，依然是1024维的向量。音频同理。这种方式能够参考多个历史视频或音频，使得最终得到的分布更加准确，提升正则化的准确率。
[0139]
可选的，所述比例系数、所述平移系数与所述视频签名模型、音频签名模型可以通过训练样本集一同训练得到。
[0140]
示例性地，可以将α与β的初始值分别为1和0，在训练过程中，比例系数和平移系数可以不断变化，训练结束后得到的比例系数和平移系数可以用于进行上述公式的计算。音频对应的比例系数、平移系数和视频对应的比例系数、平移系数可以不同。
[0141]
在其他可选的实现方式中，也可以仅在音频或者仅在视频的特征提取器与签名模型之间设置正则化计算单元，能够减少计算消耗，提升效率。
[0142]
图8为本技术实施例提供的另一种确定视频类别的原理示意图。图9为本技术实施例提供的另一种确定音频类别的原理示意图。图8为图3、图6结合得到的方案，图9为图4、图7结合得到的方案，能够实现签名模型、分类模型串联设置以及正则化操作，既可以在音频/视频特征提取器后，引入正则化计算单元，还可以在计算完音频/视频签名向量后，以签名向量作为数据输入，进行音频/视频的分类。
[0143]
本实施例通过对模型结构的特殊规定与设计，提高了音视频签名向量计算的准确性与多样性，同时该设计支持将音视频的“签名向量计算”与“类别计算”各自融合为一个整体网络，降低了重复运算的开销。
[0144]
相比于流水线方案，本实施例结合了深度学习的特征，基于海量数据进行经验学习，同时使用视频分类选取歌单，其结果更具有公平性与多样性。
[0145]
相比于有限曲目用户自选方案，本实施例利用深度学习的分类、签名计算结合，使用了上述的两种模型结构设计，能输出准确可用、且独特多样的配乐结果。
[0146]
在本技术的一个或者多个实施例中，可选的，基于与所述类别相匹配的音频为所述视频配乐，可以包括：查找与所述视频的签名向量和/或类别相匹配的音频列表；根据推荐音频为所述视频配乐，或者，展示推荐音频并基于用户从中选择的音频为所述视频配乐；其中，所述推荐音频包括下述至少一项：与所述视频的签名向量和类别相匹配的音频列表；从与所述视频的签名向量相匹配的音频列表中选择的与所述视频的类别相匹配的音频；从与所述视频的类别相匹配的音频列表中选择的与所述视频的签名向量相匹配的音频。
[0147]
其中，所述音频列表可以包括至少一个音频，且音频列表可以通过签名向量和类别中的至少一项来确定。推荐音频可以为音频列表中的至少部分音频，可以使用推荐音频为视频配乐，或者，可以确定多个推荐音频并展示给用户，由用户选择合适的音频为视频配
乐。
[0148]
在一示例中，可以根据签名向量和类别来设置音频列表，为待处理的视频查找与所述签名向量和类别都相匹配的音频列表作为推荐音频。
[0149]
在另一示例中，可以根据签名向量来设置音频列表，为待处理的视频查找与所述签名向量相匹配的音频列表，再从该音频列表中选择与所述类别相匹配的音频作为推荐音频。
[0150]
在又一示例中，可以根据类别来设置音频列表，为待处理的视频查找与所述类别相匹配的音频列表，再从该音频列表中选择与所述签名向量相匹配的音频作为推荐音频。
[0151]
在实际应用中，当需要为视频推荐背景歌曲时，可以通过类别加签名确定歌单，或者，可以设置每一类别对应一个歌单，并通过签名向量从歌单中找到合适的歌曲，还可以设置每一签名向量对应一个歌单，并通过类别从歌单中找到合适的歌曲，歌单的设置方式更加灵活，能够展示更多合适的歌曲，避免总是展示大众歌曲而使小众歌曲难以得到展示，提高视频配乐的公平性和多样性。
[0152]
本技术实施例还提供一种模型训练方法，包括：获取根据训练样本集；根据所述训练样本集，训练视频配乐模型，所述视频配乐模型包括视频签名模型、音频签名模型以及视频分类模型、音频分类模型；所述视频签名模型和音频签名模型分别用于输出视频的签名向量和音频的签名向量；所述视频分类模型和所述音频分类模型用于根据对应的签名向量确定类别；所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置；所述音频的签名向量用于表征所述音频在视频和音频的跨模态空间中的位置其中，训练得到的视频配乐模型用于确定待处理的视频的类别，以实现视频配乐。
[0153]
可选的，所述视频分类模型的输入端与所述视频签名模型的输出端连接，用于根据视频的签名模型确定视频的类别，所述音频分类模型的输入端与所述音频签名模型的输出端连接，用于根据音频的签名模型确定音频的类别。
[0154]
可选的，所述视频配乐模型还包括：音频特征提取器，输出端与所述音频签名模型的输入端连接，用于提取视频的特征；视频特征提取器，输出端与所述视频频签名模型的输入端连接，用于提取音频的特征。
[0155]
可选的，训练所述音频签名模型和所述视频签名模型时使用的损失函数包括第一损失函数，所述第一损失函数与正样本对应的欧式距离为正相关关系，与负样本对应的欧式距离为负相关关系；
[0156]
所述正样本对应的欧式距离为音频的签名向量和与该音频相匹配的视频的签名向量的欧氏距离，所述负样本对应的欧式距离为音频的签名向量和与该音频不匹配的视频的签名向量的欧氏距离。
[0157]
可选的，所述损失函数还包括第二损失函数，所述第二损失函数通过所述训练样本集中样本的标签与样本的类别预测值构建；所述样本的标签用于表征样本的类别真实值。
[0158]
可选的，所述音频特征提取器的输出端与所述音频签名模型的输入端之间通过一正则化计算单元实现连接；
[0159]
所述视频特征提取器的输出端与所述视频签名模型的输入端之间通过另一正则化计算单元实现连接；
[0160]
其中，所述正则化计算单元用于对视频或音频进行正则化操作，所述正则化操作用于调整所述视频和备选音频的特征分布。
[0161]
可选的，所述视频的特征为多维向量；对所述视频的特征进行正则化操作，包括：
[0162]
根据所述视频的多维向量的分布情况，对所述多维向量进行正则化操作；或者，
[0163]
根据所述待处理的视频与多个历史视频的特征的分布情况，对所述待处理的视频的特征进行正则化操作。
[0164]
可选的，所述音频的特征为多维向量；对所述音频的特征进行正则化操作，包括：
[0165]
根据所述音频的多维向量的分布情况，对所述多维向量进行正则化操作；或者，
[0166]
根据所述音频与多个历史音频的特征的分布情况，对该音频的特征进行正则化操作。
[0167]
本实施例提供的模型训练方法的实现原理和技术效果可以参见前述实施例，此处不再赘述。
[0168]
图10为本技术实施例提供的另一种视频配乐方法的流程示意图。如图10所示，所述方法包括：
[0169]
步骤1001、对待处理的视频的特征进行正则化操作，根据正则化操作后的特征确定所述视频的签名向量和/或类别。
[0170]
其中，正则化操作用于调整所述视频的特征分布。
[0171]
可选的，待处理的视频的特征可以通过视频特征提取器来提取，在提取到特征后，可以接一个正则化计算单元。
[0172]
步骤1002、从备选音频中选择与所述签名向量和/或类别相匹配的音频为所述视频配乐。
[0173]
可选的，所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置。所述备选音频的类别通过所述备选音频的签名向量确定；所述音频的签名向量用于表征所述音频在视频和音频的跨模态空间中的位置。可选的，备选音频的特征可以通过音频特征提取器来提取，在提取到特征后，同样可以接一个正则化计算单元。
[0174]
在正则化计算单元后，可以接签名模型，也可以接分类模型，也可以接串联的签名模型和分类模型。
[0175]
在一示例中，正则化计算单元后接签名模型，在计算得到正则化操作后的特征后，输入到签名模型得到签名向量，并根据签名向量为视频配乐。
[0176]
在另一示例中，正则化计算单元后接分类模型，在计算得到正则化操作后的特征后，输入到分类模型得到类别，并根据类别为视频配乐。
[0177]
在又一示例中，正则化计算单元后接串联的签名模型和分类模型，在计算得到正则化操作后的特征后，输入到签名模型得到签名向量，签名向量再输入到分类模型得到类别，并根据签名向量和类别为视频配乐。
[0178]
可选的，对待处理的视频的特征进行正则化操作，根据正则化操作后的特征确定所述视频的签名向量和/或类别，包括：
[0179]
通过视频特征提取器提取所述视频的特征；
[0180]
对所述视频的特征进行正则化操作，并将正则化操作后的特征输入到视频签名模型，得到所述视频的签名向量；
[0181]
将所述视频的签名向量输入到视频分类模型，得到所述视频的类别。
[0182]
可选的，针对各备选音频，所述方法还包括：
[0183]
通过音频特征提取器提取所述备选音频的特征；
[0184]
对所述备选音频的特征进行正则化操作，并将正则化操作后的特征输入到音频签名模型，得到所述备选音频的签名向量；
[0185]
将所述备选音频的签名向量输入到音频分类模型，得到所述备选音频的类别。
[0186]
可选的，训练所述音频签名模型和所述视频签名模型时使用的损失函数包括第一损失函数，所述第一损失函数与正样本对应的欧式距离为正相关关系，与负样本对应的欧式距离为负相关关系；
[0187]
所述正样本对应的欧式距离为音频的签名向量和与该音频相匹配的视频的签名向量的欧氏距离，所述负样本对应的欧式距离为音频的签名向量和与该音频不匹配的视频的签名向量的欧氏距离。
[0188]
可选的，所述视频签名模型、音频签名模型和所述视频分类模型、所述音频分类模型通过训练样本集一同训练得到；
[0189]
其中，所述损失函数还包括第二损失函数，所述第二损失函数通过所述训练样本集中样本的标签与样本的类别预测值构建；所述样本的标签用于表征样本的类别真实值。
[0190]
可选的，所述视频的特征为多维向量；对所述视频的特征进行正则化操作，包括：
[0191]
根据所述视频的多维向量的分布情况，对所述多维向量进行正则化操作；或者，
[0192]
根据所述待处理的视频与多个历史视频的特征的分布情况，对所述待处理的视频的特征进行正则化操作。
[0193]
可选的，从备选音频中选择与所述签名向量和/或类别相匹配的音频为所述视频配乐，包括：
[0194]
从备选音频中，查找与所述视频的签名向量和/或类别相匹配的音频列表；
[0195]
根据推荐音频为所述视频配乐，或者，展示推荐音频并基于用户从中选择的音频为所述视频配乐；
[0196]
其中，所述推荐音频包括下述至少一项：与所述签名向量和类别相匹配的音频列表；从与所述签名向量相匹配的音频列表中选择的与所述类别相匹配的音频；从与所述类别相匹配的音频列表中选择的与所述签名向量相匹配的音频。
[0197]
本实施例提供的视频配乐方法的实现原理和技术效果可以参见前述实施例，此处不再赘述。
[0198]
本技术实施例还提供一种与目标商品相关联的视频配乐方法。可选的，可以获取为目标商品拍摄的视频，并基于上述任一实施例所述的方法为所述视频配乐，配乐后的视频用于与所述目标商品的信息进行关联展示。
[0199]
图11为本技术实施例提供的又一种视频配乐方法的流程示意图。如图11所示，所述方法包括：
[0200]
步骤1101、获取为目标商品拍摄的视频，确定所述视频的签名向量；
[0201]
步骤1102、根据所述签名向量确定所述视频的类别。
[0202]
其中，所述目标商品可以是待推荐的商品、待评价的商品等，用户可以针对目标商品拍摄视频。
[0203]
步骤1103、基于与所述类别相匹配的音频为所述视频配乐，配乐后的视频用于与所述目标商品的信息进行关联展示。
[0204]
其中，所述视频的签名向量用于表征所述视频在视频和音乐的跨模态空间中的位置。
[0205]
可选的，所述目标商品的信息可以包括下述至少一项：目标商品的链接、名称、价格、商品描述、属性、关键词等。目标商品的信息可以与配乐后的视频关联展示。其中，关联展示可以是指，两者同时展示，或者可以通过其中一者的展示界面进入另一者的展示界面。
[0206]
一个示例中，可以在商品展示界面添加配乐后的视频，在用户浏览商品展示界面时，可以自动或者在用户手动控制下播放配乐后的视频，使得用户可以更加直观地了解商品。
[0207]
另一示例中，可以在短视频模块中展示配乐后的视频，在视频下方加入商品的信息，使得用户在看到配乐后的视频后，如果对视频中的商品感兴趣，可以直接点击商品的信息跳转到商品详情界面或者购买商品。
[0208]
在实际应用中，卖家可以为商品拍摄视频，在为所述视频配乐后，可以将视频与商品的信息关联展示，供买家浏览；或者，买家在收到商品后，可以针对收到的商品拍摄视频，并为视频配乐，视频可以供其他买家浏览；当然，本实施例也可以应用于其它任意针对商品制作视频的场景。
[0209]
本实施例提供的视频配乐方法中各步骤的实现过程和原理可以参见前述实施例，此处步骤赘述。
[0210]
本实施例提供的视频配乐方法，可以获取为目标商品拍摄的视频，确定所述视频的签名向量以及类别，并基于与所述类别相匹配的音频为所述视频配乐，配乐后的视频用于与所述目标商品的信息进行关联展示，能够提高视频配乐的效率和准确性，提升产品的展示效果。
[0211]
图12为本技术实施例提供的一种信息处理方法的流程示意图。如图11所示，所述方法包括：
[0212]
步骤1201、确定待处理的第一信息的签名向量。
[0213]
步骤1202、根据所述签名向量确定所述第一信息的类别。
[0214]
步骤1203、从多个第二信息中确定与所述类别相匹配的第二信息，对所述第一信息和第二信息进行融合。
[0215]
其中，所述第一信息的签名向量用于表征所述第一信息在跨模态空间中的位置。所述第二信息的类别可以通过所述第二信息的签名向量确定；所述第二信息的签名向量可以用于表征所述第二信息在跨模态空间中的位置。所述第一信息和第二信息为视频、图像、音频、文本、传感数据、场景特征中的任意两种模态的信息；所述第一信息的签名向量和所述第二信息的签名向量的相似度可以用于表征所述第一信息和第二信息的匹配度。
[0216]
前述实施例以所述第一信息为视频、所述第二信息为音频为例进行了描述，在此基础上，所述第一信息和第二信息也可以替换为其它信息，基于类似的原理实现第一信息和第二信息的融合。
[0217]
可选的，所述融合可以是指任意方式的融合，例如，可以是同时播放/显示、拼接到一起进行播放/显示等等。
[0218]
在一示例中，第一信息和第二信息分别为视频和文本，能够实现为视频配文本的功能。
[0219]
在另一示例中，第一信息和第二信息可以从文本、音频、图像中选择，能够实现为文本配背景音乐、为图像配背景音乐、为文本配背景图像、为图像配文本、为音频配文字或图像等功能。
[0220]
在又一示例中，第一信息和第二信息分别为传感数据和音频，例如在智能驾驶领域，可以为用户显示传感数据例如车速、路口情况、周围其他车辆和行人信息等，并根据传感数据配以相应的音频，在车辆行人较少的宽阔马路上配以舒缓的音乐，在障碍物较多时可配以提醒的音乐，使用户更加直观地感受到当前驾驶环境，提高用户体验度。
[0221]
在又一示例中，第一信息和第二信息分别为视频和场景特征，例如，用户可以在室内拍摄带有人像的视频，并根据视频内人像的特征如衣着、动作、表情等，为人像匹配对应的场景特征，这样，用户在室内拍摄的动作可以配以田园风光、城市混凝土等各种风格的场景背景，足不出户即可在视频中融合各种场景，提高用户拍摄视频的效率以及用户体验度。
[0222]
在所述信息处理方法中，可选的，确定待处理的第一信息的签名向量，包括：
[0223]
通过第一信息特征提取器提取所述第一信息的特征；
[0224]
根据提取的第一信息的特征，通过第一信息签名模型得到所述第一信息的签名向量；
[0225]
可选的，根据所述签名向量确定所述第一信息的类别，包括：将所述第一信息的签名向量输入到第一信息分类模型，得到所述第一信息的类别。
[0226]
可选的，所述多个第二信息为多个备选第二信息；针对各备选第二信息，所述方法还包括：
[0227]
通过第二信息特征提取器提取所述备选第二信息的特征；
[0228]
根据提取的备选第二信息的特征，通过第二信息签名模型得到所述备选第二信息的签名向量；
[0229]
将所述备选第二信息的签名向量输入到第二信息分类模型，得到所述备选第二信息的类别。
[0230]
可选的，训练所述第二信息签名模型和所述第一信息签名模型时使用的损失函数包括第一损失函数，所述第一损失函数与正样本对应的欧式距离为正相关关系，与负样本对应的欧式距离为负相关关系；
[0231]
所述正样本对应的欧式距离为第二信息的签名向量和与该第二信息相匹配的第一信息的签名向量的欧氏距离，所述负样本对应的欧式距离为第二信息的签名向量和与该第二信息不匹配的第一信息的签名向量的欧氏距离。
[0232]
可选的，所述第一信息签名模型、第二信息签名模型和所述第一信息分类模型、所述第二信息分类模型通过训练样本集一同训练得到；
[0233]
其中，所述损失函数还包括第二损失函数，所述第二损失函数通过所述训练样本集中样本的标签与样本的类别预测值构建；所述样本的标签用于表征样本的类别真实值。
[0234]
可选的，根据提取的第一信息的特征，通过第一信息签名模型得到所述第一信息的签名向量，包括：对所述第一信息的特征进行正则化操作，并将正则化操作后的特征输入到第一信息签名模型，得到所述第一信息的签名向量；和/或，
[0235]
根据提取的备选第二信息的特征，通过第二信息签名模型得到所述备选第二信息的签名向量，包括：对所述备选第二信息的特征进行正则化操作，并将正则化操作后的特征输入到第二信息签名模型，得到所述备选第二信息的签名向量；
[0236]
其中，对所述第一信息和备选第二信息的正则化操作用于调整所述第一信息和备选第二信息的特征分布。
[0237]
可选的，所述第一信息的特征为多维向量；对所述第一信息的特征进行正则化操作，包括：
[0238]
根据所述第一信息的多维向量的分布情况，对所述多维向量进行正则化操作；或者，
[0239]
根据所述待处理的第一信息与多个历史第一信息的特征的分布情况，对所述待处理的第一信息的特征进行正则化操作。
[0240]
可选的，从多个第二信息中确定与所述类别相匹配的第二信息，对所述第一信息和第二信息进行融合，包括：
[0241]
从多个第二信息中查找与所述第一信息的签名向量和/或类别相匹配的第二信息列表；
[0242]
根据推荐第二信息为所述第一信息配乐，或者，展示推荐第二信息并基于用户从中选择的第二信息为所述第一信息配乐；
[0243]
其中，所述推荐第二信息包括下述至少一项：与所述第一信息的签名向量和类别相匹配的第二信息列表；从与所述第一信息的签名向量相匹配的第二信息列表中选择的与所述第一信息的类别相匹配的第二信息；从与所述第一信息的类别相匹配的第二信息列表中选择的与所述第一信息的签名向量相匹配的第二信息。
[0244]
本技术实施例提供的各个方法，既可以用于服务端，用以提升服务质量，也可在终端设备上快捷使用，提高智能配乐结果的质量与可用性，也可以部分步骤部署在服务端上，部分步骤部署在终端设备上。
[0245]
对应于上述方法，本技术实施例还提供一种视频配乐装置，包括：
[0246]
第一确定模块，用于确定待处理的视频的签名向量；
[0247]
第二确定模块，用于根据所述签名向量确定所述视频的类别；
[0248]
第一处理模块，用于基于与所述类别相匹配的音频为所述视频配乐；
[0249]
其中，所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置。本技术实施例还提供一种视频配乐装置，包括：
[0250]
正则化模块，用于对待处理的视频的特征进行正则化操作，根据正则化操作后的特征确定所述视频的签名向量和/或类别；
[0251]
第二处理模块，用于从备选音频中选择与所述签名向量和/或类别相匹配的音频为所述视频配乐；
[0252]
其中，正则化操作用于调整所述视频的特征分布；所述视频的签名向量用于表征所述视频在视频和音频的跨模态空间中的位置。
[0253]
本技术实施例还提供一种视频配乐装置，包括：
[0254]
获取模块，用于获取为目标商品拍摄的视频，确定所述视频的签名向量；
[0255]
第三确定模块，用于根据所述签名向量确定所述视频的类别；
[0256]
第三处理模块，用于基于与所述类别相匹配的音频为所述视频配乐，配乐后的视频用于与所述目标商品的信息进行关联展示；
[0257]
其中，所述视频的签名向量用于表征所述视频在视频和音乐的跨模态空间中的位置。本技术实施例还提供一种信息处理装置，包括：
[0258]
第四确定模块，用于确定待处理的第一信息的签名向量；
[0259]
第五确定模块，用于根据所述签名向量确定所述第一信息的类别；
[0260]
融合模块，用于从多个第二信息中确定与所述类别相匹配的第二信息，对所述第一信息和第二信息进行融合；
[0261]
其中，所述第一信息的签名向量用于表征所述第一信息在跨模态空间中的位置；所述第一信息和第二信息为视频、图像、音频、文本、传感数据、场景特征中的任意两种模态的信息。
[0262]
本技术实施例提供的各装置的具体实现原理和技术效果可以参见前述实施例，此处不再赘述。
[0263]
图13为本技术实施例提供的一种电子设备的结构示意图。如图13所示，本实施例的电子设备可以包括：
[0264]
至少一个处理器1301；以及
[0265]
与所述至少一个处理器通信连接的存储器1302；
[0266]
其中，所述存储器1302存储有可被所述至少一个处理器1301执行的指令，所述指令被所述至少一个处理器1301执行，以使所述电子设备执行如上述任一实施例所述的方法。
[0267]
可选地，存储器1302既可以是独立的，也可以跟处理器1301集成在一起。
[0268]
本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。
[0269]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现前述任一实施例所述的方法。
[0270]
本技术实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。
[0271]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0272]
上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本技术各个实施例所述方法的部分步骤。
[0273]
应理解，上述处理器可以是中央处理单元(central processing unit，简称cpu)，还可以是其它通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)等。通用处理器可以是
微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
[0274]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0275]
一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，简称asic)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
[0276]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0277]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0278]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
[0279]
以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用户意图的预测方法、装置、存储介质和电子设备与流程

视频配乐方法、信息处理方法、设备及存储介质与流程

相关文献

最热文献