谷歌AI发布新技术：可实时跟踪虹膜，判断与手机的距离

或许我们手机上的摄像头可以再少一点~

编者按：本文来自微信公众号“大数据文摘”（ID:BigDataDigest），编译朱科锦。

近日，Google研究中心的研究工程师Andrey Vakunov和Dmitry Lagun发布了一款新技术“MediaPipe Iris”，有了它，或许我们手机上的摄像头可以再少一点~

目前市面上很多的应用，包括计算摄影（例如“人像模式”和闪烁反射）和“增强的现实效果”（例如虚拟化身），都依赖于通过跟踪虹膜来估计眼睛的位置。

一旦实现了准确的虹膜跟踪，无需使用专用的深度传感器，谷歌研究团队就可以确定相机到用户之间的距离。

这项技术可以改善各种应用，从计算摄影到适当大小的眼镜和帽子的虚拟试戴，到根据用户距离调整字体大小的设计。

由于有限的计算资源，多变的光照条件以及遮挡物（例如头发或人斜视）的存在，在移动设备上解决虹膜跟踪是一项艰巨的任务。通常，这项任务需要使用复杂的专用硬件来实现，而硬件的要求限制了可实现虹膜追踪的移动设备的范围。

FaceMesh可以设计虚拟化身（中），‍通过额外使用虹膜跟踪（右），虚拟形象的仿真性大大提高。

MediaPipe Iris的眼睛重新着色的示例。

谷歌一个研究团队发布了一款新的机器学习模型“MediaPipe Iris”，可以用于精确虹膜估算。(https://solutions.mediapipe.dev/iris) 基于谷歌在MediaPipe Face Mesh上的工作，该模型能够使用单个RGB摄像机实时跟踪涉及虹膜，瞳孔和眼睛轮廓的界标，而无需专用硬件。通过使用虹膜界标，该模型还能够确定用户和相机之间的度量距离。

无需使用深度传感器，相对误差就可达到小于10％。请注意，虹膜跟踪不会推断人们正在看的位置，也不能提供任何形式的身份识别。由于该系统是在MediaPipe中实现的（MediaPipe是一个开放源代码的跨平台框架，可供研究人员和开发人员构建世界一流的ML解决方案和应用程序）因此该系统可以在大多数现代手机，台式机，笔记本电脑甚至网络上运行。

适用于远视人群的可用性原型：用户观察到的字体大小保持恒定，与设备和用户间的距离无关。

虹膜跟踪的ML管道

第一步是利用谷歌先前在3D Face Meshes上所做的工作，Face Meshes使用高保真人脸地标生成近似人脸几何形状的网格。从该网格中，研究小组分离出原始图像中的眼睛区域，以用于虹膜跟踪模型。接下来的问题分为两部分：眼睛轮廓估计和虹膜位置。研究小组设计了一个包含统一编码器的多任务模型，每个任务都有一个单独的组件，这使他们可以使用特定于某任务的训练数据。

虹膜（蓝色）和眼睑（红色）跟踪的示例。

为了从裁剪的眼睛区域训练模型，研究小组手动注释了约50k的拍摄自不同地理区域的各种照明条件和头部姿势的图像，如下所示。

眼睛区域以眼睑（红色）和虹膜（蓝色）轮廓标注。

眼睛区域的裁剪形成了模型的输入，该模型通过单独的组件预测地标。

虹膜深度：从单个图像的深度估计

谷歌这款虹膜跟踪模型能够确定用户到相机的距离，无需任何专用硬件，并且误差不到10％。该模型依靠以下事实完成：不同人群眼睛的水平虹膜直径基本上相等[1，2，3，4] 大致保持恒定在11.7±0.5 mm。请考虑将针孔相机模型投影到正方形像素的传感器上。

则可以通过使用相机的“焦距”估算物体的距离，该焦距可以使用相机捕获API来获取，或者可以直接从所捕获图像的“EXIF元数据”以及其他相机固有参数来获得。给定焦距，从被摄物体到相机的距离与被摄物体眼睛的物理尺寸成正比，如下图所示。

可以使用类似的三角形，根据焦距（f）和虹膜大小来计算被摄体的距离（d）。

左：MediaPipeIris 可用Pixel2虹膜跟踪预测物体距离（以厘米为单位），而无需使用深度传感器。右：地面深度。

为了量化该方法的准确性，谷歌收集了200多个参与者的前置同步视频和深度图像，将其与iPhone 11上的深度传感器进行了比较。研究人员使用激光测距装置通过实验验证了iPhone 11深度传感器在2米以内的距离的误差小于2％。研究人员评估表明，使用虹膜尺寸进行深度估计的方法的平均相对误差为4.3％，标准偏差为2.4％。

谷歌研究人员在有或没有眼镜的参与者（不计入参与者的隐形眼镜）上测试了他们的方法，发现眼镜将平均相对误差略微提高到4.8％（标准偏差为3.1％）。他们没有在患有任何眼部疾病（如角膜变性老年环或者血管翳）的参与者上测试这种方法。考虑到MediaPipe Iris不需要专门的硬件，结果表明，可以在范围很广的设备上从单个图像获取深度数据。

估计误差的直方图（左）和实际距离与估计距离的比较（右）。

发布MediaPipe Iris

谷歌将在台式机，移动设备和Web上运行的平台MediaPipe上发布虹膜和深度估计模型。如谷歌最近在上MediaPipe上的Google Developer Blog发布的帖子所述，利用WebAssembly和XNNPACK在浏览器中本地运行Iris ML管道，而无需将任何数据发送到云中。

左：虹膜追踪。右：从仅具有EXIF数据的照片计算得出的虹膜深度。

使用MediaPipe的WASM堆栈，你可以在浏览器中本地运行模型！

可以在这里(https://viz.mediapipe.dev/demo/iris_tracking)尝试虹膜跟踪，在这里尝试虹膜深度测量(https://viz.mediapipe.dev/demo/iris_depth)。

前景

该谷歌小组计划对MediaPipe Iris模型进行扩展，使其跟踪更加稳定，减少错误，并将其应用到可访问性用例中。他们坚信共享代码可以实现可重复的研究，加速实验以及在不同领域中开发新思想。

在“文档”和随附的“模型卡”中，他们详细说明了预期的用途，限制和模型的公平性，以确保这些模型的使用符合Google的AI原则。请注意，此技术并不适用于任何形式的监视或标识。谷歌研究人员希望，向更广泛的研究和开发社区提供这种虹膜感知功能，以研究新的应用程序。

有关MediaPipe的其他ML方案，请参阅（ https://solutions.mediapipe.dev/ 以及 https://developers.googleblog.com/search/label/MediaPipe）。

参考文献：

1. Bergmanson, Jan Pg, and Jesus G Martinez. “Size Does Matter: What Is the Corneo-Limbal Diameter?” Clinical and Experimental Optometry, vol. 100, no. 5, 2017, pp. 522–528., doi:10.1111/cxo.12583.

2. Wang, L., and G.u. Auffarth. “White-to-White Corneal Diameter Measurements Using the Eyemetrics Program of the Orbscan Topography System.” Modern Cataract Surgery Developments in Ophthalmology, 2002, pp. 141–146., doi:10.1159/000060793.

3. Baumeister, Martin, et al. “Comparison of Manual and Automated Methods to Determine Horizontal Corneal Diameter.” Journal of Cataract & Refractive Surgery, vol. 30, no. 2, 2004, pp. 374–380., doi:10.1016/j.jcrs.2003.06.004.

4. Hashemi, Hassan, et al. “White-to-White Corneal Diameter Distribution in an Adult Population.” Journal of Current Ophthalmology, vol. 27, no. 1-2, 2015, pp. 21–24., doi:10.1016/j.joco.2015.09.001.

咚遇站长

虹膜跟踪的ML管道

虹膜深度：从单个图像的深度估计

发布MediaPipe Iris

前景