技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于对抗神经网络的环境音生成方法、装置、设备及介质与流程 > 正文

基于对抗神经网络的环境音生成方法、装置、设备及介质与流程

国知局
2024-06-21 11:44:19

本发明涉及数据处理，具体涉及基于对抗神经网络的环境音生成方法、装置、设备及介质。

背景技术：

1、环境音是指周围环境中的声音，例如风声、雨声、车辆声、人声等，环境音对于人类的生活和情感体验有着重要的影响。在有声书配乐、游戏音效设计和影视制作场景中，恰当的环境音能够很好地为作品营造出相应的氛围和情境，使观众或听众更加沉浸于作品所呈现的情境中。当创作者从现有的音频素材中找到合适的环境音以符合当前作品片段的场景氛围和情感表达时，需要进行大量筛选和测试，这需要花费很多时间，即使找到了合适的环境音音频，还需要考虑版权问题。

2、目前也存在一些剪辑软件可以为作品片段自动配置环境音，但是剪辑软件通常只侧重于对技术层面的描述信息进行分析，没有根据创作者基于情感和情景等艺术要素提出的描述信息进行数据分析从而完善环境音，使得生成的环境音难以满足创作者的需求。

技术实现思路

1、有鉴于此，本发明提供了一种基于对抗神经网络的环境音生成方法、装置、设备及介质，以解决剪辑软件通常只侧重于对技术层面的描述信息进行分析，没有根据创作者基于情感和情景等艺术要素提出的描述信息进行数据分析从而完善环境音，使得生成的环境音难以满足创作者的需求的问题。

2、第一方面，本发明提供了一种基于对抗神经网络的环境音生成方法，该方法包括：获取第i次环境音、第一描述信息、第二描述信息，i为大于等于1的整数，第一描述信息用于描述目标环境音的情景，第二描述信息用于描述目标环境音的情感类别，第i次环境音是由生成器生成的；利用第一判别器对第i次环境音进行评估得到第一评估结果，利用第二判别器对第i次环境音进行评估得到第二评估结果，第一判别器用于评估第i次环境音的情景匹配分数，第二判别器用于评估第i次环境音的情感类别的概率分布；利用自适应调整器基于第一描述信息、第二描述信息，第i次环境音、第一评估结果和第二评估结果调整生成器的参数，得到调参后的生成器；利用调参后的生成器基于第一描述信息、第二描述信息和第i次环境音生成第i+1次环境音；当第i+1次为预设的迭代次数时，输出第i+1次环境音为目标环境音。

3、本发明实施例提供的基于对抗神经网络的环境音生成方法，首先通过获取第i次环境音、第一描述信息、第二描述信息，为后续步骤提供了必要的数据输入，确保了所有必要信息的可用性，为后续的处理和分析打下了基础。其次，通过利用第一判别器对第i次环境音进行评估，得到了第一评估结果，不仅提供了对当前生成环境音的情景匹配分数的反馈，而且为调整生成器的参数提供了依据，通过评估结果，可以得到当前生成的环境音与目标情景的匹配程度，从而指导调整的方向和程度。利用第二判别器对第i次环境音进行评估得到第二评估结果，评估当前生成的环境音所表达的情感是否符合目标情感类别。然后，通过评估结果的反馈，调整生成器的参数，以改进环境音的情感表达，通过利用自适应调整器基于第一描述信息、第二描述信息、第i次环境音、第一评估结果和第二评估结果调整生成器的参数，提高了生成器生成的音频与目标音频在情景和情感方面的匹配度。自适应调整器根据前述信息自动调整生成器的参数，以生成更符合目标情境和情感的环境音，确保了生成的环境音在情景和情感方面都更加接近目标，提高了音频生成的准确性和质量。之后，通过利用调参后的生成器基于第一描述信息、第二描述信息和第i次环境音生成第i+1次环境音，提高了生成的音频样本的情景和情感表达的准确性。调参后的生成器使用改进的参数生成下一个环境音样本，继承了之前步骤中的改进，使生成的环境音更加接近目标。最后，通过当第i+1次为预设的迭代次数时，输出第i+1次环境音为目标环境音，标志着整个过程的结束，同时确保了最终输出的环境音是满足要求的。通过迭代的方式逐步改进生成的音频，提高了音频生成的效率和准确性，避免了不必要的尝试和错误。通过实施本发明，避免了剪辑软件通常只侧重于对技术层面的描述信息进行分析，没有根据创作者基于情感和情景等艺术要素提出的描述信息进行数据分析从而完善环境音，使得生成的环境音难以满足创作者的需求的问题。

4、在一种可选的实施方式中，当i为1时，第i次环境音的生成过程包括：利用生成器对第一描述信息进行编码，得到情境向量；利用生成器对第二描述信息进行编码，得到情感向量；基于情境向量和情感向量得到复合向量；获取用户输入的随机噪声，利用生成器对随机噪声进行多层非线性变换，得到样本随机噪声；利用条件随机场基于复合向量和样本随机噪声预测得到第i次环境音。

5、本发明实施例提供的基于对抗神经网络的环境音生成方法，通过利用生成器对第一描述信息进行编码，得到情境向量，将描述目标环境音的情景信息转化为向量形式。通过这种方式，可以捕捉到情景中的复杂性和细节，并确保生成的音频与目标情景紧密相关。通过利用生成器对第二描述信息进行编码，得到情感向量，情感向量有助于在生成音频时考虑和体现目标情感，使生成的音频更加生动和富有情感色彩。通过结合情境向量和情感向量，可以综合考虑到环境音的情景和情感因素，从而生成更全面和准确的环境音。复合向量为后续的生成过程提供了综合性的指导。利用生成器对随机噪声进行多层非线性变换，得到样本随机噪声，增加了噪音的多样性和复杂性，使得生成的音频更加丰富和多样。利用条件随机场基于复合向量和样本随机噪声预测得到第i次环境音：条件随机场基于复合向量和样本随机噪声进行预测，确保了生成的音频在情景和情感方面都与目标相匹配，同时也具有足够的随机性和创造性。综上所述，当i为1时，第i次环境音的生成过程通过综合考虑情景、情感和随机性等因素，提高了生成的音频与目标音频在情景和情感方面的匹配度，同时保证了生成的音频的多样性和独特性。

6、在一种可选的实施方式中，第一描述信息包含文本模态信息、图片模态信息和语音模态信息中的至少一种，利用生成器对第一描述信息进行编码，得到情境向量，包括：利用词嵌入模型对文本模态信息进行编码，将文本模态信息中的词语和句子转化为向量，得到文本模态信息向量；利用卷积神经网络对图片模态信息进行特征提取，将图片模态信息中的元素和场景转化为向量，得到图片模态信息向量；利用语音识别技术对语音模态信息进行文本转换，利用词嵌入循环神经网络对转换后的语音模态信息进行编码，得到语音模态信息文本向量，将语音模态信息中的节奏、音高、音色转化为语音模态信息声音向量，基于语音模态信息文本向量和语音模态信息声音向量得到语音模态信息向量；将文本模态信息向量、图片模态信息向量和语音模态信息向量进行复合，得到情境向量。

7、本发明实施例提供的基于对抗神经网络的环境音生成方法，通过将文本模态信息中的词语和句子转化为向量，得到文本模态信息向量。词嵌入模型能够将文本中的词语或句子映射到固定维度的向量空间，捕捉词语间的语义关系。这种编码方式使得文本信息能够以向量形式被处理和利用，提高了对文本信息的理解和处理能力。通过将图片模态信息中的元素和场景转化为向量，得到图片模态信息向量。卷积神经网络能够有效地从图片中提取特征，包括颜色、纹理、形状等，图片模态信息被转化为向量形式，使得图片中的视觉信息能够被编码和处理。通过利用语音识别技术对语音模态信息进行文本转换，将语音模态信息转化为文本形式的语音模态信息文本向量。语音识别技术将语音信号转换为文本表示，使得语音信息能够以文本形式进行处理。通过利用词嵌入循环神经网络对转换后的语音模态信息进行编码，将语音模态信息中的节奏、音高、音色转化为语音模态信息声音向量。词嵌入循环神经网络能够对语音信号进行更深入的分析和处理，捕捉语音中的韵律、音高等特征。通过基于语音模态信息文本向量和语音模态信息声音向量得到语音模态信息向量，将上一步得到的语音模态信息文本向量和语音模态信息声音向量进行复合，得到完整的语音模态信息向量。通过将文本模态信息向量、图片模态信息向量和语音模态信息向量进行复合，得到情境向量：将不同类型的模态信息向量进行复合，形成综合的情境向量。这种方式综合考虑了多种媒体形式的描述信息，使得情境向量能够更全面地反映目标环境音的情景和氛围。

8、在一种可选的实施方式中，利用第一判别器对第i次环境音进行评估得到第一评估结果，包括：获取第i次环境音的音频特征；将第i次环境音的音频特征和第一描述信息输入第一判别器；利用第一判别器基于第i次环境音的音频特征、第一描述信息和情境判别损失函数评估第i次环境音的情景匹配分数；情境判别损失函数l_{con}为：l_{con}=(d_{con}(x，c)-s)^2，其中，x为第i次环境音的音频特征，c为第一描述信息，d_{con}(x，c)为情境判别器的输出，s为情景匹配分数，即第一评估结果。

9、本发明实施例提供的基于对抗神经网络的环境音生成方法，通过使用情境判别损失函数，第一判别器能够准确地评估第i次环境音与目标情景的匹配程度。这有助于指导生成器调整参数，生成更符合目标情景的音频。通过利用第一判别器的评估结果，可以指导生成器进行迭代优化，逐渐改进生成的音频与目标情景的匹配度。这有助于提高生成音频的质量和逼真度。通过使用判别器进行评估，可以自动进行大量音频样本的筛选和评估，节省了人工审查的时间和成本。这有助于提高生成音频的效率和自动化程度。这种实施方式具有可扩展性，可以根据不同的任务和场景调整判别器的结构和参数，以适应不同的需求和挑战。这有助于提高系统的适应性和灵活性。

10、在一种可选的实施方式中，利用第二判别器对第i次环境音进行评估得到第二评估结果，包括：将第i次环境音的音频特征和第二描述信息输入第二判别器；利用第二判别器基于第i次环境音的音频特征、第二描述信息和情感判别损失函数评估第i次环境音的情感类别的概率分布；情感判别的损失函数l_{emo}为：l_{emo}=-\sum_{n}y_n\log(d_{emo}(x，e)_n)，其中，x为第i次环境音的音频特征，e为第二描述信息，y为情感类别标签，d_{emo}(x，e)为情感判别器的输出，d_{emo}(x，e)_n表示情感判别器判定第i次环境音在给定情感描述信息e下属于第n类情感的概率，y和n是标签与类别的对应关系，每个标签y_n都对应一个类别n。

11、本发明实施例提供的基于对抗神经网络的环境音生成方法，通过使用情感判别损失函数，第二判别器能够准确地评估第i次环境音与目标情感类别的匹配程度，这有助于指导生成器调整参数，生成更符合目标情感的音频。通过利用第二判别器的评估结果，可以指导生成器进行迭代优化，逐渐改进生成的音频与目标情感类别的匹配度，这有助于提高生成音频的质量和逼真度。通过使用判别器进行评估，可以自动进行大量音频样本的情感分类和评估，节省了人工审查的时间和成本，这有助于提高生成音频的效率和自动化程度。这种实施方式具有可扩展性，可以根据不同的任务和场景调整判别器的结构和参数，以适应不同的需求和挑战。这有助于提高系统的适应性和灵活性。

12、在一种可选的实施方式中，利用自适应调整器基于第一描述信息、第二描述信息，第i次环境音、第一评估结果和第二评估结果调整生成器的参数，得到调参后的生成器，包括：将第一描述信息、第二描述信息、第i次环境音、第一评估结果和第二评估结果输入自适应调整器；利用自适应调整器基于第一描述信息、第二描述信息、第i次环境音、第一评估结果、第二评估结果和调参损失函数调整生成器的参数；调参损失函数l(\theta)为：l(\theta)=\alpha\cdot\text{crossentropy}(d_{con}(x，c)，c)+\beta\cdot\text{crossentropy}(d_{emo}(x)，y)+\gamma\cdot\text{mse}(g(c，e，\theta)，x)，其中，\alpha为情境权重系数，\beta为情感权重系数，用于平衡不同损失项的重要性，\text{crossentropy}为交叉熵损失函数，用于衡量分类器输出与实际标签之间的差异，d_{con}(x，c)为情境判别器的输出，x为第i次环境音的音频特征，c为第一描述信息，c为情境标签，d_{emo}(x)为情感判别器的输出，y为情感标签，\text{mse}是均方误差损失函数，衡量第i次环境音与目标环境音之间的差异，g(c，e，\theta)为生成器的输出，e为第二描述信息，\theta为生成器的参数，x为目标环境音。

13、本发明实施例提供的基于对抗神经网络的环境音生成方法，自适应调整器可以根据第一评估结果和第二评估结果自动调整生成器的参数，使得生成的音频更加符合目标环境音的情境和情感要求。这有助于提高生成音频的质量和逼真度。调参损失函数同时考虑了情境匹配度、情感类别匹配度和音频质量等多个目标。通过平衡不同损失项的权重，可以综合优化生成器在多个方面的性能。

14、通过使用自适应调整器进行参数调整，可以自动进行大量音频样本的生成和优化，节省了人工调整参数的时间和成本。这有助于提高生成音频的效率和自动化程度。

15、在一种可选的实施方式中，利用自适应调整器基于第一描述信息、第二描述信息，第i次环境音、第一评估结果和第二评估结果调整生成器的参数，得到调参后的生成器之后，方法还包括：获取用户提供的反馈数据，将反馈数据输入自适应调整器中，利用自适应调整器基于反馈数据对生成器进行调参。

16、本发明实施例提供的基于对抗神经网络的环境音生成方法，通过将用户反馈数据输入自适应调整器，系统能够实时地根据用户需求调整生成器的参数。这样不仅可以确保生成的音频更加符合用户的期望，还可以在用户反馈的基础上不断优化生成器的性能，提高音频的逼真度和质量。

17、第二方面，本发明提供了一种基于对抗神经网络的环境音生成装置，该装置包括：获取模块，用于获取第i次环境音、第一描述信息、第二描述信息，i为大于等于1的整数，第一描述信息用于描述目标环境音的情景，第二描述信息用于描述目标环境音的情感类别，第i次环境音是由生成器生成的；评估模块，用于利用第一判别器对第i次环境音进行评估得到第一评估结果，利用第二判别器对第i次环境音进行评估得到第二评估结果，第一判别器用于评估第i次环境音的情景匹配分数，第二判别器用于评估第i次环境音的情感类别的概率分布；调参模块，用于利用自适应调整器基于第一描述信息、第二描述信息，第i次环境音、第一评估结果和第二评估结果调整生成器的参数，得到调参后的生成器；迭代模块，用于利用调参后的生成器基于第一描述信息、第二描述信息和第i次环境音生成第i+1次环境音；输出模块，用于当第i+1次为预设的迭代次数时，输出第i+1次环境音为目标环境音。

18、第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的基于对抗神经网络的环境音生成方法。

19、第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于对抗神经网络的环境音生成方法。