Google的AI会了解视频中的操作是如何连接的
人工智能系统已经非常有能力识别来自不同来源的视频中的对象(和动作)。但它们并不完美,部分原因在于它们大部分都是在包含带有单个标签的剪辑的语料库上进行训练。逐帧跟踪不是一种特别有效的解决方案,因为它需要注释器将标签应用于每个视频中的每个帧,并且因为“教导”模型以识别之前未曾见过的动作,所以需要标记新的剪辑从头开始。
这就是为什么谷歌的科学家提出时间周期一致性学习(TCC),这是一种自我监督的AI训练技术,可以在类似的连续过程(如举重重复或棒球场)的例子之间轻拍“对应”,以学习非常适合的表示时间视频理解。代码库在GitHub上以开源形式提供。
正如研究人员所解释的那样,捕捉某些行为的镜头包含关键的共同时刻 - 或对应 - 这些时刻独立于视点变化,规模,容器风格或事件的速度等因素。TCC试图通过利用周期一致性来查找跨视频的这种对应关系。
首先,训练算法通过单独摄取每个帧来产生视频帧的嵌入(数学表示)。然后选择用于TCC学习的两个视频,并且使用从两个中的一个中选择的参考帧的嵌入来识别来自第二视频的最近邻居帧。完整性检查确保最后一帧引用回到起始参考帧,并且在训练过程中的嵌入器在正在执行的动作的上下文中产生对每个视频帧的语义理解。
研究人员表示,TCC可用于将不同动作的阶段分类为只有一个标记视频,并且可以通过选择参考视频中每个帧的最近邻居来一次对齐多个剪辑。此外,他们说它可以将与一个视频中的任何帧相关联的元数据(如时间语义标签,声音或文本)传输到另一个视频中的匹配帧,并且可以使用给定视频中的每个帧来检索相似的帧通过在嵌入空间中查找最近的邻居。
在一项实验中,研究人员报告了一种监督学习方法,该方法不使用TCC,需要约50个视频,每个帧标记为达到与自我监督的TCC方法仅用一个完全标记的视频管理的相同的准确度。另一方面,该团队成功地将液体的声音从一个视频传输到另一个视频。
Google Research研究助理Debidatta Dwibedi写道:“这......对于从事视频理解的研究人员以及希望利用机器学习来调整视频以创建人,动物和物体同步移动的马赛克的艺术家非常有用。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【dogma自行车什么牌子】“dogma自行车什么牌子”是许多骑行爱好者在搜索时提出的问题。其实,“Dogma”并不是...浏览全文>>
-
【dogma自行车多少钱一辆】在选购高端山地车或公路车时,许多骑行爱好者会关注“dogma”这一品牌。Dogma是由日...浏览全文>>
-
【dod行车记录仪怎么样dod行车记录仪介绍】在如今的汽车市场中,行车记录仪已成为许多车主的标配。DOD(DOD)...浏览全文>>
-
【dod行车记录仪怎么样】在如今的汽车配件市场中,行车记录仪已成为许多车主的标配。而DOD作为一家专注于车载...浏览全文>>
-
【DOD行车记录仪评测视频】在如今的驾驶环境中,行车记录仪已经成为许多车主必备的设备。它不仅能记录行车过程...浏览全文>>
-
【dod行车记录仪1080效果怎么样】DOD行车记录仪1080是市面上较为常见的一款中端行车记录仪产品,主要面向对行...浏览全文>>
-
【diamond是什么牌子的轮胎】“Diamond”这个名称在轮胎行业中并不是一个广为人知的品牌,因此很多人会疑惑“D...浏览全文>>
-
【diagnostics什么意思】2、原标题“diagnostics什么意思”生成的原创内容(加表格)在日常生活中,我们经常听...浏览全文>>
-
【dgk开头的车什么区别】在汽车行业中,车辆的型号通常由一系列字母和数字组成,用来标识品牌、车型、配置等信...浏览全文>>
-
【DF蓄电池的环保性能如何】在当前全球倡导绿色发展的背景下,电池产品的环保性能成为消费者和企业关注的重点...浏览全文>>
