Facebook 公布全身追踪技术,不只是脸,整个身体都可实现 AR 效果

日前,Facebook 人工智能摄像团队(AI Camera Team)正在研发各种计算机视觉技术和创新工具,帮助人们更有创意地表达自我。比如,利用实时“风格转换”技术,你可以制作出“梵高风”的照片和视频。使用实时面部追踪技术,你可以实现“一键美妆”或者“换头术”,变化成各种卡通头像。那么,你有想过“换身术“吗?Facebook 团队的 AR 全身追踪技术或许可以帮你实现。


为了实现“换身术”,我们需要实时并准确地检测和追踪身体动作。这其实是一个非常具有挑战性的问题,因为身体姿势和动作变化会很大,识别起来并不容易。一个人可以是坐着的,走着的或是跑动着的;人们可能穿着长外套或者短裤; 有时候人的身体还会被他人或物体阻挡。这些因素都大大增加了身体追踪系统保持稳健性的难度。


我们团队最近开发了一种新的技术,可以准确地检测到身体姿势,同时将人体从背景中分割出来。目前,我们的模型还处于研究阶段,但这个模型的好处在于,它只有几兆大小,可以在智能手机上实时运行。不久之后,它还可以衍生出许多新的应用程序,比如创建“全身面具”,使用手势来控制游戏,或者对人体进行“去识别化(de-identifying)”。


MaskR-CNN2Go的架构


我们的人体检测和分割模型基于一个叫做“Mask R-CNN”的框架。这是一个简单、灵活且十分通用的对象检测和分割框架。它可以高效地检测图像中的对象,同时预测关键点的运行轨迹,并为每个对象生成一个分割掩码(segmentation mask)。Mask R-CNN 框架研究获得了 ICCV 2017 年度最佳论文奖。为了在移动设备上实时运行 Mask R-CNN 模型,Facebook 的 Camera,FAIR 和 AML 团队的研究人员和工程师共同合作,构建了一个高效而轻量的框架模型:“Mask R-CNN2Go”。


Mask R-CNN2Go 模型由五个主要组件组成:


1、主干模型包含多个卷积层,并且生成输入图像的深层特征表征。


2、候选区域生成网络(RPN)以预定的比例和纵横比(锚点)生成候选对象。OI-Align 层从每个对象的边界框中提取其特征并将它们发送到探测端。


3、探测端口包含一组卷积层,池化层和全连接层。它能预测每个候选框中的对象有多大可能是一个人体。探测头还可以改进边界框的坐标,将非极大抑制值的相邻框候选框进行分组,并为图像中的每个人生成最终的边界框。


4、利用每个人的边界框,我们使用第二个 ROI-Align 层来提取特征,这些特征来自于关键点端口和分割端口的输入。


5、关键点端口与分割端口具有相似的结构。它为身体上的每个预定关键点预测出一个掩码。并使用单一最大扫描来生成最终坐标。



一个针对移动设备而优化的轻量级模型


与现代 GPU 服务器不同,手机的算力和存储空间都十分有限。Mask R-CNN 最初的模型是基于 ResNet的,它太大而且太慢,无法在手机上运行。为了解决这个问题,我们为移动设备开发了一个非常优化而高效的模型架构。


我们使用了几种方法来减小模型的大小。首先,我们优化了卷积层的数量和每层的宽度,这也是我们在处理中最耗时的部分。为了确保拥有足够大的感受野,我们使用了包括 1×1,3×3 和 5×5 的内核大小的组合。另外,我们还使用权重剪枝算法来缩减模型。我们的最终模型只有几兆字节,但是非常精准。


模块化设计提高了计算速度


为了能够实时运行深度学习算法,我们使用并优化了我们的核心框架: 载有 NNPack 的 Caffe2,SNPE和 Metal。通过使用移动 CPU 和包含 NNPack,SNPE 和 Metal 在内的 GPU 库,我们能够显着提高移动计算的速度。并且,所有这些都是通过模块化设计完成的,并不需要改变模型的一般定义。因此,我们既可以获得较小的模型,又可以获得较快的运行时间,同时避免了潜在的不兼容问题。


Facebook AI 研发团队(FAIR)最近发布了 Mask R-CNN 研究平台(Detectron)。我们开源了 Caffe2 运算符(GenerateProposalsOp,BBoxTransformOp,BoxWithNMSLimit 以及 RoIAlignOp)并提供了必要的模型转换代码,供研究社区使用。


下一步是什么


开发移动设备的计算机视觉模型是一项艰巨的任务。移动设备模型必须小巧,快速而准确,并且不需要大量内存。我们将继续探索新的模型架构,力求进一步提升模型效率。我们还将探索更适合移动 GPU 和 DSP 的模型,让它们更加节省电量和算力。


相关推荐

87晚汇 | Facebook将在F8公布AR/VR大新闻 日本IVR推出《AR女友》

今天的热点有:Facebook将在5月份举行的F8大会上发布最大的AR/VR新闻;高通推出骁龙845移动VR一体机参考设计;电商eBay推出AR功能;IKinema正式推出动作捕捉和全身追踪解决方案Orion 1.0等。

VR再袭 Facebook支持上传360度照片了

最近Facebook公布了一个全新的功能,就是允许用户上传360 度全景相。

《无尽的任务3》重设世界观 职业设定更接近一代

日前,本站报道过索尼在线娱乐公布了“下一代的无尽的任务”正在制作中的消息,今日小编为大家带来最新情报。根据SOE官方Facebook页面上提供的信息,EverQuest Next将会是一款全新的MMORPG游戏。然而,与2004年的EQII不同,新作将不会作为前作剧情上的承接来出现,相反,SOE将E...

EA下线三款Facebook社交游戏 EA压力很大

  美国艺电,是全球著名的互动娱乐软件公司,主要经营各种电子游戏的开发、出版以及销售业务。  近年来...

【8点7分】Facebook开放AR平台 苹果推出支持VR开发的全新iMac Pro

苹果将于周四推出全新iMac Pro;宜家为14000名工作人员提供VR头显;彩妆公司NYX与三星展开合作……更多精彩,敬请关注87870早间资讯栏目“8点7分”。

社交网站巨头facebook广告年收入将达20亿美元

  全球社交网站巨头Facebook成为了众厂商投放广告的理想场所,再没有一个网站会比Facebook拥有更多的用户群体和影响力。广告是互联网盈利的主要方向,据国外媒体报道,市场研究公司eMarketer预计,Facebook全球移动广告营收将在今年首次达到20亿美元,相较于2012年不到500万美...

OC6:Quest成最重点产品,可串流Oculus Rift,可兼容Oculus Go

Facebook是于五月正式发售Oculus Quest,这款无线便携设备为市场带来了全新的VR体验。自那以后,这家公司就一直在通过软件更新优化头显,稳步地提升整体用户体验。今天,Facebook于OC6大会宣布了一系列即将登陆Quest的新功能(包括全新手部交互),并将进一步解锁Quest的潜力和扩展用户与内容交互的方式。

87晚汇丨8K全景相机Pilot Era登陆Indiegogo 58同城发布“临感VR招聘”

今天的热点有:Snapchat与Facebook发布母亲节新AR滤镜;VR社交平台Somnium Space获100万美元种子轮融资;索尼宣布本月将推出两款新PSVR捆绑包;High Fidelity裁员25%,将重新聚焦企业市场;《玩具熊的五夜后宫VR》或与Rift S和Quest同一天发售;8K全景相机Pilot Era登陆Indiegogo,内置触摸屏;58同城发布人工智能产品“临感VR招聘”;VR销售培训公司Pitchboy完成了6.75万美元种子轮融资;《battle title Swords

Facebook竭力创造长期的价值 拒绝短期收益

  北京时间5月3日消息,据国外媒体报道,Facebook的长期决策虽然不讨好痴迷于短期收益的华尔街投资者,也不会为公司带来明显的短期收益,但是终将会给Facebook和全社会带来福祉。这种具有远大抱负的公司有资格获得我们的尊敬。  是的,Facebook走在正确的道路上。  Facebook竭力为...

VR遭遇普及难题 Immerex给出新解决办法

有分析师称,目前全球VR产业,都处于技术破冰阶段,而中国VR市场目前爆炒概念的热情远远大于技术研发,在Facebook收购Oculus,HTC推出VIVE之后,中国公司却依旧沉浸于Google 的Cardboard产品模式上,而这一模式对于提升用户体验和培养用户习惯而言,并无太大优势。

盒子游戏,游戏玩家专属个性阅读社区


©CopyRight 2010- 2020 BOXUU.COM Inc All Rights Reserved

鄂公网安备 35020302000061号- 鄂ICP备2020015574号-1