加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致中国科学院建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——中国科学院办院方针

首页 > 科研动态 > 科研进展

上海微系统所在机器视觉领域提出不依赖双目校正的立体深度估计方法

发布时间:2025-02-28 【字体: 】【打印】 【关闭

近日,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室李嘉茂研究员团队在双目立体视觉深度估计领域取得重要进展。题目为“F2R2: Frequency Filtering-based Rectification Robustness Method for Stereo Matching”的成果被机器人领域顶级国际学术会议2025 IEEE International Conference on Robotics and Automation(ICRA)录用。

双目立体视觉通过模拟人类双眼原理,基于两个相机从不同视角拍摄同一场景图像,通过计算对应像素点的视差(Disparity)进而恢复空间深度(Depth)信息,这一过程即为立体匹配(Stereo Matching)。该技术是自主智能机器人、智能驾驶、元宇宙、工业检测、医疗自动化等众多领域的基础关键技术。

经典立体匹配问题中,要求双目图像满足严格的极线约束前提。主流的做法是借助标定板对双目系统进行高精度的离线预标定与立体校正,并假设在后续使用过程中相机系统参数保持稳定。然而,在实际应用环境中,双目系统往往会受到诸如碰撞、长期机械振动和温度变化等因素的影响,从而导致双目系统的外部参数发生偏移,从而显著降低深度估计精度,甚至导致算法的崩溃。为应对这一问题,众多研究者提出了基于场景特征的在线自标定与校准技术,旨在实时估计双目系统的姿态变化并进行修正。尽管如此,校正后的图像仍可能存在分布不均的校正误差,且此类方法在视觉特征稀疏场景下易失效,难以保证应用的稳定性。

为此,团队另辟蹊径,聚焦弱约束双目立体视觉深度估计研究,直接对未经过严格极线校正的双目图像进行深度估计。具体地,团队提出了一种基于频率滤波的立体匹配方法F2R2。该方法从频域学习的角度出发,通过设计敏感频率滤波策略与匹配特征重构模块,增强模型对于校正误差的鲁棒性,同时有效保证了视差预测精度。该方法具有即插即用的特性,可适用于不同的立体匹配基础模型。团队基于PSMNet 、Gwc-Net等经典模型,在多个添加合成误差的公开数据集KITTI2015(KT15),KITTI2012(KT12),Middlebury(MB),ETH3D(ET)和带有真实误差的自采集数据上完成了验证,改进后的模型在不同程度的外参扰动下均表现出良好的性能。

在多个权威双目数据集上,团队算法F2R2在外参扰动下显著提升模型鲁棒性

(表中为立体匹配EPE(End Point Error)误差,数值越小,性能越高)

在自采集数据集上,团队算法F2R2在外参扰动下显著提升模型鲁棒性

本研究成果得到了科技部科技创新2030、国家自然科学基金、上海市自然基金、中国科学院青促会、上海市优秀学术带头人等项目支持。上海微系统所仿生视觉系统实验室周昊龙博士研究生、朱冬晨研究员为论文共同一作,李嘉茂研究员为通讯作者。