10. 数据标注
自动标注是一个提高数据闭环效率的重要模块
ü 离线, 非实时,高性能;
ü 服务器/云端(而不是车端);
ü 可以不局限于机器学习或者深度学习模型;
ü 数据输入可以不是单帧(单时间步);
标注工作耗时并且昂贵(某些真值不是人工可以获得)
半自动标注
ü “人在环”的交互
ü 依赖比人工操作更可靠的算法,比如3-D重建
高清地图的制作是其特殊的一部分
仿真数据自带标注
11. 数据标注
BEV模型及其类型
ü BEV是鸟瞰图(Bird’s Eye View)的简称,也被称为上帝视⾓,是⼀种⽤
于描述感知世界的视⾓或坐标系(3D);在自动驾驶的系统中,规划和
控制一般在BEV空间进行。
ü 基于BEV的视觉感知系统即代表⼀种端到端的、由神经⽹络将摄像头透视
投影的视觉信息从图像空间转换到BEV空间的环境理解框架。
ü BEV的视觉感知中关键的部件是视角变换。根据变换的方式,可以将BEV
方法粗分为两个大类,即基于几何和基于网络的方法。
“Delving into the Devils of Bird’s-eye-view Perception”
“Vision-Centric BEV Perception: A Survey”
ü 虽然基于硬平地假设,但基于单应变换的方法具有良好的可解
释性,其中IPM在感知中的图像投影或特征投影中发挥作用;
ü 基于深度的方法通常基于明确的3D表征,即量化体素或点云;
✘ 基于点的方法存在模型复杂、性能低等问题;
✘ 基于体素的方法由于计算效率和灵活性很受欢迎。
ü 由于缺乏深度信息、遮挡等原因,基于MLP的方法不方便;
ü 具有稀疏或密集查询的Transformer,凭借强大的相关建模和数
据依赖特性获得了最佳性能,但效率仍然是一个问题。
ü 数据标注:3-D 特性
ü 感知分辨率:感知距离目标大小
ü 网络架构:主干 (RegNet) /颈部 (FPN)
ü 多头结构: 多头
ü 共享主干?
ü 多任务学习(MTL):
ü 附加任务设计, 多阶段学习
ü 扩展: 感知->预测->规划 & 决策
ü 优化/压缩: 蒸馏
BEV方法比较
BEV方法关注点
16. 模拟仿真
ü 分解场景即其MLP表征;
ü 在稀疏3D网格做缓存,进行体素裁剪和内插,输入以球谐波系
数取代观察方向;
ü 有效地预计算沿光线的部分或全部体积分;
ü 采用网格、稀疏网格、树和哈希等数据结构;
NeRF加速方法
NeRF重打光方法
ü 将场景表征为体密度场、表面法线和BRDF等,以此模拟光透
射的过程,支持任意照明条件下渲染场景。
动态场景的NeRF方法
ü 一是时变表征方法,可以处理一般目标和场景;
ü 二是控制变形状态的技术,使用特定类别的运动模型。
✘ 隐式地在变形上调节辐射场;
✘ 显式地用单独变形MLP去扭曲(warp)空间,回归变形空间
到静态规范空间的偏移。
17. 模拟仿真
NeRF的泛化
ü 一类工作类似于基于图像渲染(IBR);
ü 另一类方法旨在学习场景的整体、全局表征,而不是依赖图像
或其他离散空间数据结构;
ü 还有一个类似方法,把一个备有神经渲染器的3D场景表征嵌入
到生成对抗网络(GAN)中。
NeRF优化摄像头姿态估计
ü Inverting Neural Radiance Fields for Pose Estimation(iNeRF);
ü Bundle-Adjusting Neural Radiance Fields (BARF);
NeRF渲染质量改进方法
ü NeRF-W 引入appearance embedding的优化方法,提出两个浅层
编码(表观嵌入和瞬态嵌入)来建模静止+暂态(不确定)效果;
ü 引入ISP来进一步优化表观特征,即ADOP;
ü Mip-NeRF 渲染抗锯齿conical frustums而不是NeRF的射线 ;
ü Mip-NeRF360 继续优化图像采样和混叠,合成无边界感的场景;
ü Raw-NeRF在原图像进行训练,保持场景HDR特性;
ü Block-NeRF:将大场景分解为小场景,每个单独训练NeRF。
18. 模拟仿真
EPE(Enhancing Photorealistic Enhancement)
ü 卷积网络利用传统渲染流水线生成中间表征G-buffers,提供景深、
形状、光照、透明度、材质等特征信息;
ü 通过对抗目标训练,在多个感知层提供监督信号,用GAN的鉴别器
评估增强图像的真实性;
ü 在训练过程中对图像块进行采样,以消除图像伪影;
ü 改进1: 普通卷积取代strided convolution;
ü 改进2: 渲染-觉察非规范化(rendering-aware denormalization, RAD)
模块,取代BN层。
G-buffer encoder
Image enhancement network
Perceptual discriminator
LPIPS = Learned Perceptual Image Patch Similarity
Intel