商业

影谱科技:实现“动作捕捉系统MCVS”的大规模商业应用-上海东方都市网

字号+ 作者:东方都市网 来源:搜狐号自媒体 2018-11-10 03:39 我要评论( )

据海外媒体报道,中国计算机视觉识别企业Moviebook影谱科技已经可以读懂视频,并可以造一段“机器视频”无缝植入或替换原视频。 近日,据TechCrunch报道,影

据海外媒体报道,中国计算机视觉识别企业Moviebook影谱科技已经可以读懂视频,并可以造一段“机器视频”无缝植入或替换原视频。

近日,据TechCrunch报道,影谱科技已经创建一款新型的“从视频中捕获动作”Motion Capture from Video System(MCVS)的框架,可以实现不再需要预先进行动作捕捉合成的高度结构化数据,就可以让机器直接模仿大量已存视频片段来学习高难度技能,允许数据驱动的模仿以生成无监督训练集。事实上,MCVSMCVS是实现视频识别大规模商业化的基础。

该系统MCVS每天可以处理日常视频网络上的数百万端视频图像,提取关键帧,进行自动结构化,为下游任务提供大量数字化资源,如视频搜索、原生视频内容营销、视频内容创作、视频人脸识别、游戏生产等。

以下以译文:

据TC研究者称,目前影谱科技MCVS已经在原生视频内容营销领域大规模应用,视频识别系统作为云 API被实现和部署到客户端应用程序中,并将逐渐覆盖所有客户。下一步,还会用这种技术来理解及模仿视频中出现的人类动作,以实现影像内容的自动化制作。

这一人工智能系统可以帮助播放器、视频网站、电视台、影像制作企业等进行理解社交网络上每天诞生的数十亿的图像和视频。

对此,美国媒体一致认为,中国视频播放平台在面临内容的严格审查时期,使用该人工智能对视频内容监督起到巨大作用作用。

理解视频是视觉感知领域内的一项基本主题。这包括很多经典的计算机视觉任务,比如深度恢复、流估计、视觉里程计(visual odometry)。这些技术有广泛的工业应用,包括视频识别搜索、自动驾驶平台、交互式协作机器人等。

传统的视频识别框架是根据伯克利加州大学(University of California, Berkeley)提出的DeepMimic框架方法实现:机器可以模仿参考动作片来学习高难度技能,但这些参考片段都是经过动作捕捉合成的高度结构化数据,但数据本身的获取需要很高的成本。

最近,据TechCrunch报道,中国人工智能公司影谱科技Moviebook提出“从视频中捕获动作” Motion Capture from Video System(MCVS)框架,可以实现不再需要预先进行动作捕捉合成的高度结构化数据,就可以让机器直接模仿大量已存视频片段来学习高难度技能,允许数据驱动的模仿以生成无监督训练集。事实上,MCVSMCVS是实现视频识别大规模商业化的基础。

据报道称,影谱科技Moviebook视频识别系统通过MCVS学习到的视频动作还原度很高,有很好的泛化至新环境的能力,例如从视频中自动捕获动作进行学习,到机器重生视频;从动作学习、到创作一段全新视频。

众所周知,在人类认知里,无论是像明星表演这样日常任务还是惊人的杂技表演,人类都可以通过观察他人来学习一些令人难以置信的技能。但是,对机器人来说,从这些海量的视频中学习技能仍是一项非常艰巨的任务。

随着全球开源视频数据的激增,视频的商业化价值还仅限于营销及观影服务。以后,通过MCVS我们比以往任何时候都更容易找到感兴趣技能的视频片段,并实现机器学习,实现视频内容的自动化生产。以每分钟都会有300小时的视频传到 YouTube上的视频量计算,MCVS所产品的视频识别及视频内容生产的商业价值将是成倍效益。

我们通过探访人工智能视频识别方面的技术专家,获得一些行业观点。据MIT研究员称,大多数模仿学习方法都需要简洁的表征,比如从动作捕捉(Mocap)中记录的表征。但是获取 Mocap数据相当麻烦,通常需要大量仪器,这无疑是阻碍商业化的最后一步。

Mocap系统亦容易局限于遮挡较小的室内环境,这会限制能够记录的技能类型。所以,如果机器可以从视频片段中直接学习技能就再好不过了。

图片:使用 Mocap捕捉演员动作并复现 3D角色的动作(电影《指环王》)。

现在,影谱科技Moviebook提出从视频中学习技能的动作捕捉框架(MCVS)及训练集很好的解决这一框架难点。通过将计算机视觉领域最先进的技术与强化学习相结合,我们的系统使机器能够从视频中学习各种技能。给定一个单目视频,视频中有人表演侧手翻或后空翻等动作,我们实现机器能够学习在物理模拟中再现该技能的策略,而无需任何手动姿势注释,这一举实现了视频自动结构化。

据TC报道,MCVS MCVS是一种可以从视频中联合学习单眼深度、光流和自我运动估计的无监督学习方法。这三个分量可以根据 3D场景的几何本质性质而组合到一起,以一种端到端的方式联合学习实现,MCVS每秒可处理24种不同元素视觉内容。

MCVS框架

该框架包括三个阶段:姿势及轨迹估计、动作重建、动作模仿。输入视频首先接受第一阶段姿势及轨迹估计的处理,预测每一帧中角色的姿势及轨迹。接下来,动作重建阶段将姿势估计结果固化为参考动作,并修复姿势估计结果可能带来的失真。最后,将参考动作输入到动作模仿阶段,利用强化学习训练机器模仿动作。

整个流程包含三个步骤:姿势及轨迹估计、动作重建、动作模仿。执行特定动作的人物视频片段和机器模型充当输入,并学习一种控制策略,使机器能够在物理模拟中再现该动作。

姿势及轨迹估计

我们在一个给定的视频片段中使用一个基于视觉的姿势估计器来预测动作执行者在每一帧中的姿势及运动轨迹,自动实现视频结构化的“视频多模态的综合信息标签。MCVS姿势及轨迹估计器建立在人体网格恢复(human mesh recovery)的基础上,后者使用弱监督对抗性方法来训练姿势估计器以预测单目图像中的姿势。虽然需要姿势相关注释来训练姿势估计器,但一旦训练完毕,姿势估计器就可以应用于没有任何标注的新图像,基于视觉的姿势估计器用于预测人物在每一帧中的姿势。

动作重建(轨迹恢复及参考动作集)

动作重建是在视频播放过程中,自动化完成各类视觉元素融合的过程。

----分隔线----东方都市网----分隔线----投稿:975981118@qq.com 欢迎投稿
东方都市网,上海东方都市网,中国都市网,东方都市网财经频道站http://www.dushi.cx

免责声明:

自媒体综合提供的内容均源自自媒体,版权归原作者所有,转载请联系原作者并获许可。文章观点仅代表作者本人,不代表本网立场。 对本文内容、观点保持中立,不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。

相关文章
  • 中行刘连舸:商业银行需主动作为,支持人民币跨境使用-上海东方都市网

    中行刘连舸:商业银行需主动作为,支持人民币跨境使用-上海东方都市

    2018-11-08 03:22

  • 搜狐Q3营收4.60亿美元 搜狐视频持续削减内容成本-上海都市网

    搜狐Q3营收4.60亿美元 搜狐视频持续削减内容成本-上海都市网

    2018-11-06 03:45

  • 留美学习商业分析首选-上海都市网

    留美学习商业分析首选-上海都市网

    2018-10-28 01:26

  • 商业数据分析学习新秘诀 狗熊会优秀学员成长记-上海都市网

    商业数据分析学习新秘诀 狗熊会优秀学员成长记-上海都市网

    2018-10-28 01:24

网友点评
精彩导读