上海微系统所在智能驾驶场景感知研究方面取得进展----中国科学院上海分院

上海微系统所在智能驾驶场景感知研究方面取得进展

文章来源：上海微系统与信息技术研究所 | 发布时间：2024-03-22 | 【打印】【关闭】

近日，中国科学院上海微系统与信息技术研究所仿生视觉系统实验室李嘉茂研究员团队与路特斯机器人(LOTUS ROBOTICS)合作在智能驾驶感知领域取得了重要进展。针对智能驾驶感知的两个关键问题——栅格占据预测（Occupancy Prediction）和全景分割（Panoptic Segmentation）取得了突破，两项成果被机器人领域顶级国际学术会议2024 IEEE International Conference on Robotics and Automation（ICRA）录用，分别题为“CVFormer: Learning Circum-View Representation and Consistency for Vision-Based Occupancy Prediction via Transformers”与“BEE-Net: Bridging Semantic and Instance with Gated Encoding and Edge Constraint for Efficient Panoptic Segmentation”。

CVFormer：基于Transformer的环视视角表征和一致性约束的栅格占据预测方法。

在智能驾驶中，栅格占据预测旨在表征空间中的对象分布，以指导路径选择。最直接的表征方法是将立体空间划分为无数个堆叠的占据体素（voxel），但庞大的计算量导致难以在实车中部署。鸟瞰视角（Bird eyes view, BEV）的表征方式，将空间投影于单个水平面，可以大幅减少计算与存储压力，但由于缺失了细粒度的结构信息，在开放场景中对象的形状或外观不明确时，往往会出现错误估计障碍物的情况。TPVFormer基于传统三视图的占据预测方法，在BEV基础上将表征平面扩展至三个，可客观精细的表征三维环境，但该方法忽略了自车与表征平面的相对关系，导致场景中的视角重叠障碍物间难以分辨。

为解决上述问题，在TPVFormer基础上，团队提出了一种以自车为中心的环视视角的占据预测表征方法CVFormer。以汽车全景环视多视图为输入，建立环绕车辆的二维正交视角来表征三维场景，有效实现细粒度三维场景表征，并克服车体周身障碍物的视角遮挡问题。具体地，提出了环视视图交叉注意力模块构建二维环视特征，设计时序多重注意力模块加强帧间关系的利用，并通过设计2D与3D类别一致性约束，增强网络对场景的学习性能。本方法在驾驶场景占据预测权威评测数据nuScenes数据集上进行验证，在预测精度上明显优于现有算法，达到了43.09%的mIoU性能指标，相比基线算法（TPVFormer）提高了102.3%，并将计算复杂度由O(n3)降低至O(n)，展现了较强的可部署性，在路特斯下一代量产车型智能驾驶感知系统上完成了测试验证。

栅格占据预测CVFormer在nuScenes数据集上达到最优性能

本研究成果得到了科技部科技创新2030、国家自然科学基金、中国科学院青促会、上海市优秀学术带头人等项目支持。上海微系统所仿生视觉系统实验室研究生白正奇、副研究员石文君为论文共同一作，李嘉茂研究员为通讯作者。

BEE-Net：基于门控编码和边缘约束加强语义与实例关联的高效全景分割

全景分割是理解场景中背景与对象个体的语义的基础感知问题，是融合了语义分割与实例分割的综合方法。其中，语义分割关注将图像中的区域分割为不同的类别，而不区分不同的物体实例；实例分割则侧重对每个实例对象进行独立的分割。全景分割往往基于语义分割与实例分割的融合实现，既区分场景语义，又需要明确物体实例。全景分割方法在语义-实例分割任务融合中，往往由于二者预测结果间的矛盾，导致难以分辨合理的预测结果。

为解决这一问题，团队设计了基于门控编码和边缘约束的端到端全景分割模型BEE-Net。该模型基于全局双向信息交互以及多角度边缘优化，有效地缓解了全景分割中的语义-实例预测矛盾问题与边缘分割挑战。具体地，针对语义与实例分割特征感知融合，设计了轻量级门控编码模块进行多尺度全局特征信息交互，并通过语义-实例-全景三重边缘优化算法对边缘分割质量进行针对性优化，保持高效的同时，显著提升了场景分割性能。本方法在驾驶场景分割权威数据集CityScapes上完成了验证，取得了65.0%的PQ精度指标，在精度上超越了现有基于CNN的全景分割模型，同时在效率上优于所有基于Transformer的全景分割模型。本方法兼顾了分割精度与效率的性能需求，在路特斯下一代量产车型智能驾驶感知系统上完成了测试验证。

在CityScapes数据集上BEE-Net达到

基于CNN的全景分割模型最优性能

本研究成果得到了科技部科技创新2030、上海市启明星扬帆计划、中国科学院青促会、上海市优秀学术带头人等项目支持。上海微系统所仿生视觉系统实验室研究生黄心阳、副研究员张广慧为论文共同一作，李嘉茂研究员为通讯作者。

分院系统院所