技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于大模型的多媒体资源的生成方法、装置及存储介质与流程 > 正文

基于大模型的多媒体资源的生成方法、装置及存储介质与流程

国知局
2024-06-21 11:40:12

本技术涉及语音处理，具体而言，涉及一种基于大模型的多媒体资源的生成方法、装置及存储介质。

背景技术：

1、目前，随着ai（artificial intelligence，人工智能）技术的不断发展，已经可以基于ai自动生成音视频等多媒体资源，不过传统的生成方式往往依赖于使用者的专业知识的储备量。以音频为例，传统的音频生成模型解码方式简单，不能充分的提取音频特征，处理复杂序列时会出现生成不稳定的问题，也就是说，这些模型可能只能识别简单的音乐参数指令，而无法准确理解用户的模糊描述。那么缺乏专业的乐理知识的用户在使用这些模型来生成音频时，通常会由于无法提供专业的描述，使得音乐生成模型无法理解用户需求，只能生成低质量的音乐。

2、可见，相关技术中，传统的多媒体资源生成模型在理解用户复杂需求方面仍有较大的限制。因此，相关技术中，存在如何使用大模型生成更符合用户需求的多媒体资源的技术问题。

3、针对相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题，尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种基于大模型的多媒体资源的生成方法、装置及存储介质，以至少解决相关技术中，如何使用大模型生成更符合用户需求的多媒体资源的技术问题。

2、根据本技术实施例的一个实施例，提供了一种基于大模型的多媒体资源的生成方法，包括：对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

3、在一个示例性实施例中，在将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息之前，所述方法还包括：确定出初始文本提示模板，其中，所述初始文本提示模板至少包括提示语区域，上下文信息区域；基于所述目标对象的所在位置，所述目标对象的对象类型和所述目标对象的偏好信息生成所述文本提示信息对应的环境上下文信息；将所述文本提示信息输入至所述提示语区域，以及将所述环境上下文信息输入至所述上下文信息区域，以生成所述文本提示模板。

4、在一个示例性实施例中，所述方法还包括：根据语言类型对获取到的训练数据进行分类，得到多组第一训练样本，其中，每一组第一训练样本对应一种语言类型；以所述每一组第一训练样本包含的提示样本为输入，以所述每一组第一训练样本包含的多媒体描述样本为输出，对初始模型进行训练，得到训练后的第一中间模型，将所述第一中间模型确定为所述大模型；或者，根据预设描述维度对获取到的训练数据进行分类，得到多组第二训练样本，其中，每一组第二训练样本对应一种描述维度，所述预设描述维度至少包括以下之一：多媒体资源类型，多媒体资源所反映的情绪，多媒体资源所对应的作品类型，多媒体资源所对应的播放工具；以所述每一组第二训练样本包含的提示样本为输入，以所述每一组第二训练样本包含的多媒体描述样本为输出对初始模型进行训练，得到训练后的第二中间模型，将所述第二中间模型确定为所述大模型。

5、在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：使用特征向量损失函数对所述信息特征向量和所述多媒体特征向量进行计算，得到特征向量损失值；其中，所述特征向量损失函数表示如下：

6、，

7、n表示样本数量，p(i)表示与第i个样本匹配的正样本集合，n(i)表示与第i个样本匹配的负样本集合，所述正样本集合表示属于同一描述维度的所述信息特征向量和所述多媒体特征向量，所述负样本集合表示属于不同描述维度的所述信息特征向量和所述多媒体特征向量，表示第i个信息特征向量，表示第p个多媒体特征向量，表示第n个多媒体特征向量，和为权重参数，表示第i个样本对应的动态温度参数，用于控制相似度函数的缩放程度，表示的范数，表示的范数，表示的范数，i，p，n，n为正整数；基于所述特征向量损失值将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至所述特征融合模型，得到所述特征融合模型输出的融合向量。

8、在一个示例性实施例中，根据矢量量化操作将所述编码信号量化为多媒体特征向量，包括：使用残差矢量量化操作将所述编码信号分解为残差向量序列；对所述残差向量序列包含的残差向量进行量化处理，得到处理结果；其中，所述处理结果包含多层残差向量，第一层残差向量包含的代码本的个数在所述多层残差向量包含的代码本的个数中占据的比例高于预设比例；基于所述多层残差向量确定出所述多媒体特征向量。

9、在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之前，所述方法还包括：将所述多媒体特征向量按照多层残差向量包含的代码本的个数进行分组，得到多组特征向量，其中，所述多组特征向量用于存储不同特征信息；其中，所述多层残差向量是在对所述编码信号进行矢量量化操作时所生成的；将每一组特征向量分别输入至自回归模型，得到所述自回归模型输出的所述每一组特征向量对应的子特征向量，以得到多组子特征向量，其中，所述每一组特征向量对应的子特征向量对应一种特征颗粒度；按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量。

10、在一个示例性实施例中，按照所述多层残差向量包含的代码本的序列编号将所述多组子特征向量进行融合，得到融合后的多媒体特征向量，包括：对所述多层残差向量包含的代码本的序列编号进行排序，得到排序结果，其中，所述排序结果至少包括所述多组子特征向量的融合顺序；根据所述融合顺序将所述多组子特征向量进行顺次拼接，得到所述融合后的多媒体特征向量。

11、在一个示例性实施例中，针对所述每一组特征向量，通过以下公式确定出所述自回归模型输出的所述每一组特征向量对应的子特征向量：，其中，表示所述自回归模型，表示所述每一组特征向量对应的子特征向量，表示所述每一组特征向量，表示所有先于时间步t的输出，t为自然数，表示所述自回归模型的模型参数。

12、在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：为所述多媒体特征向量生成基于差分隐私的高斯噪声，其中，所述高斯噪声对应有噪声特征向量；在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度相同的情况下，对所述噪声特征向量和所述多媒体特征向量进行逐位向量相加，得到相加后的多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述相加后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

13、在一个示例性实施例中，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述噪声特征向量进行线性转换，得到线性转换后的噪声特征向量，其中，所述线性转换后的噪声特征向量的向量维度与所述第二向量维度相同；对所述线性转换后的噪声特征向量和所述多媒体特征向量进行向量拼接，得到向量拼接后的第一多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述向量拼接后的第一多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

14、在一个示例性实施例中，在为所述多媒体特征向量生成基于差分隐私的高斯噪声之后，所述方法还包括：在确定所述噪声特征向量对应的第一向量维度与所述多媒体特征向量对应的第二向量维度不同的情况下，对所述多媒体特征向量进行线性转换，得到线性转换后的第一多媒体特征向量，其中，所述线性转换后的第一多媒体特征向量的向量维度与所述第一向量维度相同；对所述噪声特征向量和所述线性转换后的第一多媒体特征向量进行向量拼接，得到向量拼接后的第二多媒体特征向量；对所述向量拼接后的第二多媒体特征向量进行线性转换，得到线性转换后的第二多媒体特征向量，其中，所述线性转换后的第二多媒体特征向量的向量维度与所述第二向量维度相同；将所述多媒体描述信息对应的信息特征向量和所述线性转换后的第二多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

15、在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：解析所述多媒体描述信息，得到所述多媒体描述信息的描述词元；使用预设对应关系确定出所述描述词元对应的多媒体词元，其中，所述预设对应关系为预先训练的所述描述词元与所述多媒体词元之间的对应关系；将所述多媒体词元输入至音频解码器，得到所述音频解码器生成的模拟音频，其中，所述音频解码器存储有所述多媒体词元对应的音频信号；对所述模拟音频进行量化编码，得到所述模拟音频对应的模拟音频特征向量，其中，所述模拟音频特征向量的向量维度与所述多媒体特征向量对应的第二向量维度相同；将所述模拟音频特征向量与所述多媒体特征向量进行向量融合，得到向量融合后的多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述向量融合后的多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

16、在一个示例性实施例中，将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量，包括：向所述目标对象播放所述模拟音频，并接收所述目标对象基于所述模拟音频发送的情感描述信息；将基于所述情感描述信息生成的其他提示模板输入至所述大模型，得到所述大模型输出的其他多媒体描述信息；对所述多媒体描述信息对应的信息特征向量和所述其他多媒体描述信息对应的信息特征向量进行向量融合，得到目标信息特征向量；将所述目标信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量。

17、在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量的过程中，通过以下方式确定所述特征融合模型输出的融合向量：对所述多媒体特征向量进行分解，得到分解结果，其中，所述分解结果至少包括所述多媒体特征向量对应的第一向量矩阵；对所述信息特征向量进行不同投影变换，分别得到所述信息特征向量对应的第二向量矩阵和第三向量矩阵；分别获取对所述第一向量矩阵进行权重更新后得到的第四向量矩阵，对所述第二向量矩阵进行权重更新后得到的第五向量矩阵，以及对所述第三向量矩阵进行权重更新后得到的第六向量矩阵，其中，，，，表示权重矩阵，k为自然数；基于所述第四向量矩阵和所述第五向量矩阵计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值；获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量。

18、在一个示例性实施例中，基于所述第四向量矩阵和所述第五向量矩阵计算将所述信息特征向量映射至所述多媒体特征向量上时的矩阵分值，包括：获取所述第五向量矩阵的转置矩阵，并根据所述转置矩阵和所述第四向量矩阵之间的乘积确定出所述矩阵分值；所述方法还包括：通过以下公式使用调节函数对所述矩阵分值进行特征调整，得到特征调整后的矩阵分值：；其中，表示调节函数，表示用于对所述信息特征向量进行调整的关键词特征向量。

19、在一个示例性实施例中，获取对所述矩阵分值的归一化结果进行合并的合并结果，并将所述合并结果确定为所述融合向量，包括：通过以下公式使用预设词向量维度对所述特征调整后的矩阵分值进行归一化，得到所述归一化结果，其中，所述预设词向量维度的向量维度与所述信息特征向量的向量维度相同：，其中，为所述归一化结果，表示归一化函数，表示预设词向量维度；计算所述归一化结果对应的矩阵加权结果，并将多个矩阵加权结果进行合并，得到所述合并结果；其中，，表示第h个矩阵加权结果，h为正整数，，表示所述多个矩阵加权结果，h为正整数，为用于进行矩阵变换的参数。

20、在一个示例性实施例中，在将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量之后，所述方法还包括：将所述融合向量输入至a层自注意力机制模型，根据所述a层自注意力机制模型的输出结果生成所述多媒体资源；其中，所述a层自注意力机制模型的输出结果表示如下：，表示所有先于时间步t的输出，表示所述a层自注意力机制模型，θ表示所述a层自注意力机制模型的模型参数。

21、在一个示例性实施例中，根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源，包括：获取根据矢量量化操作将所述编码信号量化为多媒体特征向量时所使用的编解码代码本；根据所述编解码代码本所提供的向量与向量索引之间的对应关系确定出所述融合向量对应的目标向量索引；对所述目标向量索引所指示的多媒体信息进行重构，生成所述多媒体资源。

22、根据本技术实施例的另一方面，还提供了一种基于大模型的多媒体资源的生成装置，包括：数据解析模块，用于对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；信号量化模块，用于将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；向量得到模块，用于将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；资源生成模块，用于根据矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源。

23、根据本技术实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于大模型的多媒体资源的生成方法。

24、根据本技术实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于大模型的多媒体资源的生成方法。

25、根据本技术实施例的又一方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本技术各个实施例中基于大模型的多媒体资源的生成方法的步骤。

26、在本技术实施例中，对目标对象的输入数据进行解析，得到不同类型的提示信息，其中，所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息；将基于所述文本提示信息生成的文本提示模板输入至所述大模型，得到所述大模型输出的多媒体描述信息，以及对所述多媒体提示信息进行编码，得到所述多媒体提示信息的编码信号，根据矢量量化操作将所述编码信号量化为多媒体特征向量；将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型，得到所述特征融合模型输出的融合向量；根据所述矢量量化操作对所述融合向量进行解码，以生成所述融合向量对应的多媒体资源；采用上述技术方案，解决了如何使用大模型生成更符合用户需求的多媒体资源的技术问题，进而可以生成更符合用户需求的多媒体资源，提高用户的使用体验。