潮科技 | 自动化所在视觉物体检测与识别领域取得系列进展

如何在物理检测中，对场景里多种尺度的物体进行有效表征？

编者按：本文来自微信公众号“MEMS”（ID：MEMSensor），作者MEMS，原文题目《自动化所在视觉物体检测与识别领域取得系列进展》，略有删减。

近日，中国科学院自动化研究所智能感知与计算研究中心研究员张兆翔，及其团队借鉴脑神经机制与视觉认知机理，在视觉物体检测模型与方法上取得一系列进展，共有5篇文章被 ICCV2019 录用，1篇文章被 NeurIPS2019 录用，1篇文章被 JMLR 期刊收录。本次着重介绍基于三叉戟网络（Trident Networks）的物体检测。

物体检测是计算机视觉与模式识别领域的核心问题，一直以来受到学术界与工业界的广泛关注。当前物体检测最大的难点，是如何对场景中多种尺度的物体进行有效表征，进而进行更为高效、更为准确的物体检测。

在二维透视成像中，近大远小是一个常见的现象，如图1所示。这一透视关系，帮助人类视觉系统形成对三维空间的感知。但对于基于二维图像的视觉感知任务而言，近大远小会导致相同真实大小的物体根据远近不同，因而在成像平面上形成不同尺度的物体。这将对视觉感知任务提出挑战。具体来说：（1）这会导致信息的衰减，二维图像捕获的信息随距离二次衰减，因而30米外的物体在图片上可能只有15米外相同物体1/4的像素；（2）卷积神经网络具有局限性。由于卷积操作在二维平面上采用相同大小的滑动窗口进行计算，同一卷积操作无法同时对尺度差异较大的物体进行响应。

潮科技 | 自动化所在视觉物体检测与识别领域取得系列进展

图片来源：MEMS

针对传统卷积神经网络的局限，张兆翔及其团队首次提出 Trident 网络结构。首先通过不同膨胀系数的卷积支路实现对不同尺度的物体的识别，然后通过权重共享实现对不同尺度相同物体的一致性刻画。研究人员还提出了一种在测试阶段只需要一条卷积支路的快速 Trident 网络，快速 Trident 网络保持了与传统检测器骨干网络相同的计算量，大幅提升了该方法的实用性。

潮科技 | 自动化所在视觉物体检测与识别领域取得系列进展

图片来源：MEMS

该 Trident 方法可以与不同基础网络结构结合，并在 COCO 数据集上取得大幅度提升。该文作为 Oral文章在 ICCV2019 发表。

咚遇站长