国内

当前位置/ 首页/ 国内/ 正文

Google的VideoBERT预测视频接下来会发生什么

认识到活动并预测接下来可能发生的事情对于人类来说是很容易的,他们一直在下意识地做出这样的预测。但是机器更加艰难,特别是在标签数据相对缺乏的情况下。(动作分类AI系统通常训练与视频样本配对的注释。)这就是为什么谷歌研究人员团队提出VideoBERT,这是一个自我监督系统,处理各种代理任务,以学习未标记视频的时间表示。

正如研究人员在一篇论文和随附的博客文章中所解释的那样,VideoBERT的目标是发现与随时间推移的事件和动作相对应的高级音频和视觉语义特征。谷歌研究员科学家Chen Sun和Cordelia Schmid说:“[s] peech倾向于与视频中的视觉信号在时间上对齐,并且可以通过使用现成的自动语音识别(ASR)系统来提取。”“[它]因此提供了自我监督的自然来源。”

为了定义能够引导模型学习活动关键特征的任务,该团队开发了Google的BERT,这是一种自然语言AI系统,旨在模拟句子之间的关系。具体来说,他们使用与语音识别系统句子输出相结合的图像帧,根据特征相似性将帧转换为1.5秒的视觉标记,并将它们与单词标记连接起来。然后,他们要求VideoBERT从视觉文本句子中填写缺失的令牌。

研究人员为VideoBERT培训了超过一百万种教学视频,包括烹饪,园艺和汽车维修。为了确保它学习视频和文本之间的语义对应关系,团队在烹饪视频数据集上测试了其准确性,其中在预训练期间既没有使用视频也没有使用注释。结果表明,VideoBERT成功地预测了一碗面粉和可可粉在烤箱烘烤后可能成为布朗尼或蛋糕的情况,并且它会从视频和视频片段中生成一组说明(例如食谱)(令牌)反映了每一步所描述的内容。

也就是说,VideoBERT的视觉令牌往往会丢失细粒度的视觉信息,例如较小的物体和微妙的动作。该团队使用一种名为Contrastive Bidirectional Transformers(CBT)的模型解决了这一问题,该模型删除了标记化步骤。根据一系列关于行动细分,行动预测和视频字幕的数据集进行评估,据报道,CBT在大多数基准测试中的表现都超过了现有技术的“显着利润率”。

研究人员将未来的工作留给未来的工作学习低级视觉特征与长期时间表示,他们说这可能会更好地适应视频环境。此外,他们计划将预培训视频的数量扩大到更大,更多样化。

研究人员写道:“我们的研究结果证明了BERT模型能够从未标记的视频中学习视觉语言和视觉表现。”“我们发现我们的模型不仅对分类和配方生成有用,而且学习的时间表示也很好地转移到各种下游任务,例如行动预期。”