Vox-Fusion
- Description:Vox-Fusion 论文笔记 (读 arXiv 全文后所写) — 稀疏体素 + 八叉树动态分配的神经隐式 SLAM,每体素一个隐编码解码 SDF,支持场景增量扩展
- Paper:Yang, X., Li, H., Zhai, H., Ming, Y., Liu, Y., & Zhang, G. (2022). Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation. ISMAR 2022. arXiv:2210.15858
- K2E-B ID:[K2E-B-G5-4]
- Max3 PDF:
[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-4][2022] Vox-Fusion Voxel-based Neural Implicit Representation.pdf - Notion ID:(待创建)
- Created:2024-03-31
- Updated:2026-06-02
- License:转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文
Table of Contents
1. 概述
Vox-Fusion (Yang et al. 2022, 浙大 CAD&CG, ISMAR) — 神经隐式 SLAM,用稀疏体素 + 八叉树动态管理场景,每个体素挂一个隐编码 (latent code) 经共享 MLP 解码 SDF。
核心创新:动态体素分配 — 不像 NICE-SLAM 预设固定边界网格,Vox-Fusion 边走边按观测增量分配体素 → 支持未知/可扩展场景。
NeRF/SDF 基础见 NeRF;NICE-SLAM 见 NICE-SLAM (G5-2)。本笔记读 arXiv 全文。
2. 稀疏体素 + 八叉树
- 场景表示为稀疏体素集合,仅在观测到表面处分配
- 八叉树 (octree) 管理体素,自顶向下遍历定位含查询点的体素;Morton 码 (Z-order) 编码体素坐标,并通过位移 (bit-shifting) 快速定位相邻体素 → 共享角点 embedding 查找 (基于八叉树,非 Instant-NGP 那种哈希表查找)
- 新观测落在未分配区 → 动态新增体素 (增量扩展,不遗忘)
- 体素角点存可学习特征向量 (embedding),相邻体素共享公共角点的 embedding
3. 体素隐编码解码 SDF
任意点 $\mathbf{p}$ 落入某体素:
- 取体素 8 角的 embedding,按 $\mathbf{p}$ 相对位置三线性插值 → 特征 $\mathbf{f}$
- 共享 MLP 解码器 输入 $\mathbf{f}$ → 输出 SDF 值 + 颜色
- SDF → 经可微转换为渲染权重 (采用 Azinović 2022 Neural RGB-D 方案:$w_i = \sigma(s_i/tr)\cdot\sigma(-s_i/tr)$,$tr$ 截断距离) 做体渲染;非 NeuS 那套 SDF→density (NeuS 仅作对比)
用 SDF (有符号距离) 而非占用/密度 → 表面定义更清晰,利于提网格。
4. 渲染与优化
- 沿光线在分配的体素内采样 (跳过空体素,省算力)
- 体渲染累积颜色 + 深度,与观测算 光度 + 深度 loss
- 跟踪:固定地图,优化当前帧位姿 (可微渲染反传)
- 建图:滑窗关键帧 + 体素特征 + 解码器联合 BA
5. 对比 NICE-SLAM
| NICE-SLAM | Vox-Fusion | |
|---|---|---|
| 空间结构 | 预设固定分辨率密集网格 | 动态稀疏体素 + 八叉树 |
| 场景边界 | 需预知 | 增量扩展,未知场景友好 |
| 几何量 | 占用概率 (occupancy) | SDF |
| 查找 | 网格索引 | 八叉树遍历 (Morton 码编码) |
动态体素让它对未知尺度场景更鲁棒;八叉树稀疏存储省内存。属神经隐式 SLAM 中"显式空间结构 + 隐式解码"路线。
References
- Yang, X., Li, H., Zhai, H., Ming, Y., Liu, Y., & Zhang, G. (2022). Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation. ISMAR 2022. arXiv:2210.15858 — 论文 (本笔记读 arXiv 全文整理)
- 对比对象见 NICE-SLAM (G5-2);SDF/体渲染基础见 NeRF