基于连接主义时间分类损失的视觉语音识别的制作方法
- 国知局
- 2024-06-21 10:42:18
本公开内容的各个实施例涉及语音识别和深度神经网络。更具体来说,本公开内容的各个实施例涉及用于基于连接主义时间分类损失的视觉语音识别的电子装置和方法。
背景技术:
1、神经网络领域的进展已导致开发出用于语音识别的各种技术。举例来说,存在可以处理音频以生成字幕的语音到文字模型。字幕可能不总是毫无缺陷,特别在有噪音的环境中记录音频的情况下或者在视频中的人发音不标准的情况下尤其是如此。为了产生字幕,另一个选项包括对视频中的说话者的嘴唇移动进行分析。但是大多数用于读唇的常规技术在检测单词边界方面表现都不好,并且依赖于视频的音频部分来提取单词边界。
2、如在本申请的其余部分中和参照附图所阐述的那样,通过将所描述的系统与本公开内容的某些方面进行比较,常规和传统方法的其他限制和缺点对于本领域技术人员将变得显而易见。
技术实现思路
1、基本上如至少其中一幅附图中所示出和/或结合至少其中一幅附图所描述并且在权利要求中更加全面地阐述的那样,提供了一种用于基于连接主义时间分类损失的视觉语音识别的电子装置和方法。
2、通过连同附图审阅下面对于本公开内容的详细描述可以认识到本公开内容的这些和其他特征和优点,在附图中相同的附图标记始终指代相同的部件。
技术特征:1.一种电子装置,包括:
2.根据权利要求1所述的电子装置,其中,所检测到的一个或多个单词边界中的每一个由字符序列的第一末端处的单词字符和字符序列的第二末端处的非单词字符或字符间隔定义。
3.根据权利要求1所述的电子装置,其中,对于视频的每一个图像帧,所述预测包括对应于类标签的集合的概率值的集合。
4.根据权利要求3所述的电子装置,其中,所述类标签的集合包括单词或字符,所述单词或字符包括单词字符、非单词字符、白空格和伪字符中的至少一者。
5.根据权利要求1所述的电子装置,其中,还基于交叉熵损失函数来训练dnn。
6.根据权利要求1所述的电子装置,其中,基于对视频剪辑序列中的相应视频剪辑应用dnn而生成单词预测序列中的每一个单词预测。
7.根据权利要求1所述的电子装置,其中,所述语句或短语的生成包括利用在单词预测序列中的邻近单词预测之间所包括的字符间隔或非单词字符来串联单词预测序列。
8.一种方法,包括:
9.根据权利要求8所述的方法,其中,所检测到的一个或多个单词边界中的每一个由字符序列的第一末端处的单词字符和字符序列的第二末端处的非单词字符或字符间隔定义。
10.根据权利要求8所述的方法,其中,对于视频的每一个图像帧,所述预测包括对应于类标签的集合的概率值的集合。
11.根据权利要求10所述的方法,其中,所述类标签的集合包括单词或字符,所述单词或字符包括单词字符、非单词字符、白空格和伪字符中的一者。
12.根据权利要求8所述的方法,其中,还基于交叉熵损失函数来训练dnn。
13.根据权利要求8所述的方法,其中,基于对视频剪辑序列中的相应视频剪辑应用dnn而生成单词预测序列中的每一个单词预测。
14.根据权利要求8所述的方法,其中,所述语句或短语的生成包括利用在单词预测序列中的邻近单词预测之间所包括的字符间隔或非单词字符来串联单词预测序列。
15.一种存储有计算机可执行指令的非瞬时性计算机可读介质,所述计算机可执行指令在由电子装置执行时使得所述电子装置执行以下操作:
16.根据权利要求15所述的非瞬时性计算机可读介质,其中,所检测到的一个或多个单词边界中的每一个由字符序列的第一末端处的单词字符和字符序列的第二末端处的非单词字符或字符间隔定义。
17.根据权利要求15所述的非瞬时性计算机可读介质,其中,对于视频的每一个图像帧,所述预测包括对应于类标签的集合的概率值的集合。
18.根据权利要求17所述的非瞬时性计算机可读介质,其中,所述类标签的集合包括单词或字符,所述单词或字符包括单词字符、非单词字符、白空格和伪字符中的一者。
19.根据权利要求15所述的非瞬时性计算机可读介质,其中,还基于交叉熵损失函数来训练dnn。
20.根据权利要求15所述的非瞬时性计算机可读介质,其中,所述语句或短语的生成包括利用在单词预测序列中的邻近单词预测之间所包括的字符间隔或非单词字符来串联单词预测序列。
技术总结本发明公开了一种用于基于连接主义时间分类(CTC)损失的视觉语音识别的电子装置和方法。所述电子装置接收包括人类说话者的视频,并且生成对应于人类说话者的嘴唇移动的预测。所述预测是基于对视频应用深度神经网络(DNN)而生成的,并且使用CTC损失函数来训练DNN。基于所述预测,所述电子装置检测对应于嘴唇移动的字符序列中的单词边界,并且基于所述检测将视频划分成视频剪辑序列。每一个视频剪辑对应于由人类说话者说出的单词。所述电子装置通过对视频剪辑序列进行处理而生成单词预测序列,并且基于所生成的单词预测序列而生成语句或短语。技术研发人员:金时伟,李钟和,M·弗努克,F·科斯特拉受保护的技术使用者:索尼集团公司技术研发日:技术公布日:2024/2/1本文地址:https://www.jishuxx.com/zhuanli/20240618/21350.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表