技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种答复内容生成方法、装置、电子设备和可读介质与流程 > 正文

一种答复内容生成方法、装置、电子设备和可读介质与流程

国知局
2024-06-21 10:41:28

本公开的实施例涉及计算机，具体涉及一种答复内容生成方法、装置、电子设备和计算机可读介质。

背景技术：

1、在自然语言处理领域，传统的语音识别和文本生成技术通常需要多个模块的组合，例如语音信号处理、特征提取、声学模型、语言模型等。这些模块需要手动设计和调整，且需要大量的人工标注数据来训练模型。这种方法存在许多问题，例如模块之间的耦合性、数据稀缺性和模型复杂度等。

2、现有模型大都是文字输入，文字输出，在于人类进行对话时，先通过语音识别将语音转换成文字，模型根据文字输出对话的答案，然后通过文字转语音技术播放出来。这种模型一是结构复杂，处理时间长，而是在语音识别的过程中会损失掉人类表述时的情绪信息，一段相同的文字用不同的语气说出来所表达的含义是完全不一样的，因此现有模型在与人类进行沟通时容易出现无法正确理解人类所表达的内容,反应慢的问题。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了一种答复内容生成方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题。

3、第一方面，本公开的一些实施例提供了一种答复内容生成方法，该方法包括：获取用户语音；确定上述用户语音对应的至少一条答复文本，得到答复文本序列；根据上述用户语音生成语音向量；根据预先配置的prompt信息和上述答复文本序列生成文本向量序列；根据上述语音向量和上述文本向量序列，生成上述用户语音对应的答复内容。

4、第二方面，本公开的一些实施例提供了一种答复内容生成装置，装置包括：获取单元，被配置成获取用户语音；确定单元，被配置成确定上述用户语音对应的至少一条答复文本，得到答复文本序列；第一生成单元，被配置成根据上述用户语音生成语音向量；第二生成单元，被配置成根据预先配置的prompt信息和上述答复文本序列生成文本向量序列；第三生成单元，被配置成根据上述语音向量和上述文本向量序列，生成上述用户语音对应的答复内容。

5、第三方面，本申请实施例提供了一种电子设备，该网络设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例中的一个实施例具有如下有益效果：本公开通过利用大规模的语料库和语音解码器来自动学习语言规则和语义信息，从而提高了生成语音的准确性和效率，另外，语音解码器可以直接从语音信号中生成文本输出，无需手动设计和调整多个模块，另外语音解码器可以自动学习语言规则和语义信息，从而提高了语音识别和自然语言理解的准确性和效率，能够更加准确地识别语音输入，并且能够自动学习和适应不同的语音输入模式和语言环境，从而实现更加准确和高效的语音识别。同时，还能够实现语音合成、语音翻译等多种语音处理功能，为用户提供更加便捷和智能的语音交互体验。除此之外，语音解码器改进了以往模型的缺点，将语音输入直接输入语音解码器并得到语音输出，缩短了流程，加速了处理时间，同时，直接输入音频流完整的保留了人类说话时的情绪信息，可以让语音解码器精准的理解人类的表达，完成机器和人类更流畅的交互。

技术特征：

1.一种答复内容生成方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述语音向量和所述文本向量序列，生成所述用户语音对应的答复内容，包括：

3.根据权利要求2所述的方法，其中，所述语音解码器由输入层、至少两层卷积层、至少两层池化层、多层激活层和全连接层组成，所述卷积层包括一层由五个卷积核组成的第一卷积层以及由十个卷积核组成的第二卷积层，所述第一卷积层以及第二卷积层与池化层和激活层依次连接。

4.根据权利要求2-3所述的方法，其中，所述语音解码器是根据以下步骤训练得到的：

5.根据权利要求4所述的方法，其中，所述方法还包括：

6.根据权利要求5所述的方法，其中，所述采用前向传播和反向传播交替进行对所述待训练模型进行优化，包括：

7.根据权利要求1所述的方法，其中，所述根据所述用户语音生成语音向量，包括：

8.一种答复内容生成装置，包括：

9.一种电子设备，包括：

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本公开的实施例公开了一种答复内容生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取用户语音；确定用户语音对应的至少一条答复文本，得到答复文本序列；根据用户语音生成语音向量；根据预先配置的prompt信息和答复文本序列生成文本向量序列；根据语音向量和文本向量序列，生成用户语音对应的答复内容。该实施方式实现了语音识别和自然语言理解的准确性和效率的提高，为用户提供更加便捷和智能的语音交互体验，同时能够缩短流程，加速处理时间，实现机器和人类更流畅的交互。技术研发人员：马春春,方康,冯敏,闵天磊,李国忠受保护的技术使用者：上海强仝智能科技有限公司技术研发日：技术公布日：2024/1/25