iMAP — Implicit Mapping and Positioning
- Description:iMAP 论文笔记 (读 arXiv 全文后所写) — 首个用单个 MLP 做场景表征的实时 RGB-D 神经 SLAM;联合优化网络 + 位姿、信息引导采样、信息增益选关键帧
- Paper:Sucar, E., Liu, S., Ortiz, J., & Davison, A. J. (2021). iMAP: Implicit Mapping and Positioning in Real-Time. ICCV. arXiv:2103.12352
- K2E-B ID:[K2E-B-G5-1]
- Max3 PDF:
[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-1][2021] iMAP Implicit Mapping and Positioning in Real-Time.pdf - Notion ID:(待创建)
- Created:2024-03-31
- Updated:2026-06-02
- License:转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文
Table of Contents
1. iMAP 概述
iMAP (Sucar et al. 2021, ICCV, 帝国理工 Davison 组) — 首个用单个 MLP 作为唯一场景表征的实时 RGB-D 神经 SLAM。把 NeRF 式的隐式表示在线训练 + 用于跟踪。
核心:传统稠密 SLAM 用占用栅格 / TSDF 存场景,内存大。iMAP 用一个 MLP 表示整个场景的体密度 (volume density) + 颜色 → room-scale 只需 1 MB 参数 (比 TSDF 省 60×),还能平滑填补未观测区域。
NeRF 表示基础见 NeRF 那篇;本笔记是 iMAP 这篇论文 (读 arXiv 全文)。
2. MLP 场景表征
单个 MLP $F_\theta: \mathbf{p} \to (\mathbf{c}, \rho)$:
- 输入 3D 点 $\mathbf{p}$ (经 Gaussian/Fourier 位置嵌入,帮 MLP 学高频)
- 输出 颜色 $\mathbf{c}$ + 体密度 $\rho$
与 NeRF 不同:iMAP 在线训练,无预训练,边跑边学;且无视角方向输入 (室内 RGB-D,简化)。
3. 渲染
沿光线采样点,体渲染深度 + 颜色 (类似 NeRF,见 NeRF §3)。每个采样点权重 $w_i$ 来自占用累积,渲染深度:
$$ \hat{D} = \sum_i w_i d_i, \quad \hat{C} = \sum_i w_i \mathbf{c}_i $$
还算深度方差 → 作归一化因子放在分母 ($\div\sqrt{\hat{D}_{var}}$),对不确定区域 (深度方差大,如物体边缘) 降低 loss 权重 (鲁棒于遮挡边缘)。
4. 联合优化 (跟踪 + 建图)
光度 + 几何 (深度) loss 联合优化网络 $\theta$ + 关键帧位姿 $T_i$:
$$ \mathcal{L} = \mathcal{L}{\text{photo}} + \lambda \mathcal{L}{\text{geo}} $$
- $\mathcal{L}_{\text{photo}}$ — 渲染颜色 vs RGB 观测
- $\mathcal{L}_{\text{geo}}$ — 渲染深度 vs 深度图观测 (按深度方差归一化,方差大的区域降权)
5. 信息引导采样
不渲染所有像素 (太慢)。iMAP 动态信息引导采样:
- 图像分成区域 (如 8×8)
- 每区域按重建 loss 高低分配采样数 (loss 高的区域多采)
- 把算力集中在信息量大的像素 → 加速
6. 关键帧选择
信息增益 (information gain) 选关键帧:新帧若有显著未观测区域 (归一化深度误差超阈值) → 加入关键帧集。
room-scale 场景只需 10-20 个关键帧。
7. 双进程实时系统
多进程并行 (类似 PTAM/ORB-SLAM 的跟踪/建图分离):
- 跟踪 (~10 Hz) — 固定网络,只优化当前帧位姿
- 建图 (2 Hz) — 联合优化网络权重 + 关键帧位姿
8. 贡献与局限
- 首个 MLP-only 实时神经 SLAM — 开创 NeRF-SLAM 方向
- 极省内存 (1 MB)、平滑补全未观测区
- Replica 上完整度 (completion ratio) 平均比 TSDF fusion 高 4% (79.06% vs 75.09%;office-3 高达 11%)
- 局限 (后续 NICE-SLAM 解决,见 NICE-SLAM 那篇):
- 单 MLP 容量有限 → 大场景灾难性遗忘 (catastrophic forgetting)
- 重建过平滑,丢高频细节
- 每帧全局更新效率低
References
- Sucar, E., Liu, S., Ortiz, J., & Davison, A. J. (2021). iMAP: Implicit Mapping and Positioning in Real-Time. ICCV. arXiv:2103.12352 — 论文 (本笔记读 arXiv 全文整理)
- 项目页: edgarsucar.github.io/iMAP
- NeRF 表示见 NeRF;改进版见 NICE-SLAM (G5-2)