或许我们手机上的摄像头可以再少一点~

编者按:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),编译 朱科锦。

近日,Google研究中心的研究工程师Andrey Vakunov和Dmitry Lagun发布了一款新技术“MediaPipe Iris”,有了它,或许我们手机上的摄像头可以再少一点~

目前市面上很多的应用,包括计算摄影(例如“人像模式”和闪烁反射)和“增强的现实效果”(例如虚拟化身),都依赖于通过跟踪虹膜来估计眼睛的位置。

一旦实现了准确的虹膜跟踪,无需使用专用的深度传感器,谷歌研究团队就可以确定相机到用户之间的距离。

这项技术可以改善各种应用,从计算摄影到适当大小的眼镜和帽子的虚拟试戴,到根据用户距离调整字体大小的设计。

由于有限的计算资源,多变的光照条件以及遮挡物(例如头发或人斜视)的存在,在移动设备上解决虹膜跟踪是一项艰巨的任务。通常,这项任务需要使用复杂的专用硬件来实现,而硬件的要求限制了可实现虹膜追踪的移动设备的范围。

FaceMesh可以设计虚拟化身(中),‍通过额外使用虹膜跟踪(右),虚拟形象的仿真性大大提高。

MediaPipe Iris的眼睛重新着色的示例。

谷歌一个研究团队发布了一款新的机器学习模型“MediaPipe Iris”,可以用于精确虹膜估算。(https://solutions.mediapipe.dev/iris) 基于谷歌在MediaPipe Face Mesh上的工作,该模型能够使用单个RGB摄像机实时跟踪涉及虹膜,瞳孔和眼睛轮廓的界标,而无需专用硬件。通过使用虹膜界标,该模型还能够确定用户和相机之间的度量距离。

无需使用深度传感器,相对误差就可达到小于10%。请注意,虹膜跟踪不会推断人们正在看的位置,也不能提供任何形式的身份识别。由于该系统是在MediaPipe中实现的(MediaPipe是一个开放源代码的跨平台框架,可供研究人员和开发人员构建世界一流的ML解决方案和应用程序)因此该系统可以在大多数现代手机,台式机,笔记本电脑甚至网络上运行。

适用于远视人群的可用性原型:用户观察到的字体大小保持恒定,与设备和用户间的距离无关。

虹膜跟踪的ML管道

第一步是利用谷歌先前在3D Face Meshes上所做的工作,Face Meshes使用高保真人脸地标生成近似人脸几何形状的网格。从该网格中,研究小组分离出原始图像中的眼睛区域,以用于虹膜跟踪模型。接下来的问题分为两部分:眼睛轮廓估计和虹膜位置。研究小组设计了一个包含统一编码器的多任务模型,每个任务都有一个单独的组件,这使他们可以使用特定于某任务的训练数据。

虹膜(蓝色)和眼睑(红色)跟踪的示例。

为了从裁剪的眼睛区域训练模型,研究小组手动注释了约50k的拍摄自不同地理区域的各种照明条件和头部姿势的图像,如下所示。

眼睛区域以眼睑(红色)和虹膜(蓝色)轮廓标注。

眼睛区域的裁剪形成了模型的输入,该模型通过单独的组件预测地标。

虹膜深度:从单个图像的深度估计

谷歌这款虹膜跟踪模型能够确定用户到相机的距离,无需任何专用硬件,并且误差不到10%。该模型依靠以下事实完成:不同人群眼睛的水平虹膜直径基本上相等[1,2,3,4] 大致保持恒定在11.7±0.5 mm。请考虑将针孔相机模型投影到正方形像素的传感器上。

则可以通过使用相机的“焦距”估算物体的距离,该焦距可以使用相机捕获API来获取,或者可以直接从所捕获图像的“EXIF元数据”以及其他相机固有参数来获得。给定焦距,从被摄物体到相机的距离与被摄物体眼睛的物理尺寸成正比,如下图所示。

可以使用类似的三角形,根据焦距(f)和虹膜大小来计算被摄体的距离(d)。

左:MediaPipeIris 可用Pixel2虹膜跟踪预测物体距离(以厘米为单位),而无需使用深度传感器。右:地面深度。

为了量化该方法的准确性,谷歌收集了200多个参与者的前置同步视频和深度图像,将其与iPhone 11上的深度传感器进行了比较。研究人员使用激光测距装置通过实验验证了iPhone 11深度传感器在2米以内的距离的误差小于2%。研究人员评估表明,使用虹膜尺寸进行深度估计的方法的平均相对误差为4.3%,标准偏差为2.4%。

谷歌研究人员在有或没有眼镜的参与者(不计入参与者的隐形眼镜)上测试了他们的方法,发现眼镜将平均相对误差略微提高到4.8%(标准偏差为3.1%)。他们没有在患有任何眼部疾病(如角膜变性老年环或者 血管翳)的参与者上测试这种方法。考虑到MediaPipe Iris不需要专门的硬件,结果表明,可以在范围很广的设备上从单个图像获取深度数据。

估计误差的直方图(左)和实际距离与估计距离的比较(右)。

发布MediaPipe Iris

谷歌将在台式机,移动设备和Web上运行的平台MediaPipe上发布虹膜和深度估计模型。如谷歌最近在上MediaPipe上的Google Developer Blog发布的帖子所述,利用WebAssembly和XNNPACK在浏览器中本地运行Iris ML管道,而无需将任何数据发送到云中。

左:虹膜追踪。右:从仅具有EXIF数据的照片计算得出的虹膜深度。

使用MediaPipe的WASM堆栈,你可以在浏览器中本地运行模型!

可以在这里(https://viz.mediapipe.dev/demo/iris_tracking)尝试虹膜跟踪,在这里尝试虹膜深度测量(https://viz.mediapipe.dev/demo/iris_depth)。

前景

该谷歌小组计划对MediaPipe Iris模型进行扩展,使其跟踪更加稳定,减少错误,并将其应用到可访问性用例中。他们坚信共享代码可以实现可重复的研究,加速实验以及在不同领域中开发新思想。

在“文档”和随附的“模型卡”中,他们详细说明了预期的用途,限制和模型的公平性,以确保这些模型的使用符合Google的AI原则。请注意,此技术并不适用于任何形式的监视或标识。谷歌研究人员希望,向更广泛的研究和开发社区提供这种虹膜感知功能,以研究新的应用程序。

有关MediaPipe的其他ML方案,请参阅( https://solutions.mediapipe.dev/ 以及 https://developers.googleblog.com/search/label/MediaPipe)。

参考文献:

1. Bergmanson, Jan Pg, and Jesus G Martinez. “Size Does Matter: What Is the Corneo-Limbal Diameter?” Clinical and Experimental Optometry, vol. 100, no. 5, 2017, pp. 522–528., doi:10.1111/cxo.12583.

2. Wang, L., and G.u. Auffarth. “White-to-White Corneal Diameter Measurements Using the Eyemetrics Program of the Orbscan Topography System.” Modern Cataract Surgery Developments in Ophthalmology, 2002, pp. 141–146., doi:10.1159/000060793.

3. Baumeister, Martin, et al. “Comparison of Manual and Automated Methods to Determine Horizontal Corneal Diameter.” Journal of Cataract & Refractive Surgery, vol. 30, no. 2, 2004, pp. 374–380., doi:10.1016/j.jcrs.2003.06.004.

4. Hashemi, Hassan, et al. “White-to-White Corneal Diameter Distribution in an Adult Population.” Journal of Current Ophthalmology, vol. 27, no. 1-2, 2015, pp. 21–24., doi:10.1016/j.joco.2015.09.001.

相关报道:

https://ai.googleblog.com/2020/08/mediapipe-iris-real-time-iris-tracking.html