meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片

meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片

meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片

meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片

【meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图】meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片

meta|Meta开放Project Aria Pilot数据集,未来将开发实时3D地图

文章图片


为了训练属于AR眼镜的视觉助手、提升AR定位能力 , Meta早在2020年就开始通过Project Aria项目收集第一人称视频数据 , 用来训练AR眼镜的计算视觉算法 。 Meta表示:现有的计算机视觉算法主要是根据第三人称视角的照片和视频训练而成 , 因此总是以旁观者角度去感知周围环境 。 如果要让机器人、AR眼镜像人一样感知世界 , 那么将需要使用第一人称数据来训练 , 也就是人在执行各类任务时眼前看到的画面 。
历经两年时间 , Meta在新加坡、英国、美国等地陆续收集了大量第一人称视频数据 。 项目共有3000人参与数据收集 , 包括Meta员工、承包商、有偿的外部参与者等等 , 项目合作方包括卡内基梅隆大学、新加坡国立大学、宝马等等 。 数据采集环境包括Meta办公室、获得批准的私人住宅、公共场所 。



最近 , 该公司将在美国拍摄的数据面向AI、ML科研人员开放 , 以加速机器感知和AI技术发展 。 Meta表示:发布Aria Pilot数据集的目的是 , 向外部科研人员展示一种可重复的研究基准 , 目的是推动第一人称计算机视觉、场景感知AI/ML算法的发展 。



Aria Pilot数据集
据青亭网了解 , 这个数据集名为Project Aria Pilot , 其中包含了159段第一人称视频 , 累计时长7小时 , 分别拍摄于每个5个地点 。 视频中包含了各种日常生活场景 , 比如洗碗、开门、做饭、在客厅使用手机、玩游戏、锻炼等等 。 除此之外 , 还包括利用多视角动捕系统拍摄的桌面交互数据 , 其中包含了人与物体交互的视频 。 此外 , Aria Pilot数据集中还包含多个由演员拍摄的全天候视频 , 记录了Aria眼镜全天传感/捕捉环境数据的效果 。



实际上 , Meta此前也曾推出过开源第一人称视频数据集Ego4D , 区别是Ego4D采用头戴摄像头拍摄 , 设备不限于GoPro , 以及Vuzix Blade等AR/拍照眼镜 。 相比之下 , Project Aria Pilot真正基于Meta研发的眼镜设备拍摄 , 其拍摄角度、高度将更好的满足训练Meta AR眼镜助手的需求 。
值得注意的是 , Aria Pilot是一个匿名的视频数据集 , 为了隐私安全将人脸、车牌等关键信息进行了模糊处理 。



Meta在原始视频基础上 , 不仅去掉了隐私信息 , 还加入了自动和手动标记/注释 , 帮助机器学习/AI模型理解场景的失控参考框架和上下文信息 。



为了帮助AI理解同一个参考框架中多个用户的姿态/运动 , Aria Pilot数据集还将同一场景中捕捉的数据与这个参考帧对齐 , 目的是允许算法共享该场景的上下文信息 。 同时 , Project Aria Pilot数据集还将视频数据的时间线对齐 , 也就是说不同的设备可共享同一时间捕捉的视频数据 , 这将有望推动多人共享AR效果 。


相关经验推荐