Nerfies
- Description:Nerfies 论文笔记 (读 arXiv 全文后所写) — 可形变 NeRF,用 per-frame SE(3) 形变场把观测坐标 warp 到 canonical 模板,弹性正则 + coarse-to-fine 形变正则,从手机自拍视频重建可变形场景
- Paper:Park, K., Sinha, U., Barron, J. T., Bouaziz, S., Goldman, D. B., Seitz, S. M., & Martin-Brualla, R. (2021). Nerfies: Deformable Neural Radiance Fields. ICCV 2021. arXiv:2011.12948
- K2E-B ID:[K2E-B-G6-4]
- Max3 PDF:
[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G6] Radiance Field Foundations/[K2E-B-G6-4][2020] Nerfies Deformable Neural Radiance Fields.pdf - Notion ID:(待创建)
- Created:2024-03-31
- Updated:2026-06-02
- License:转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文
Table of Contents
1. 概述
Nerfies (Park et al. 2021, Google/UW, ICCV) — 把 NeRF 推广到非刚性形变场景 (人脸/头发等),能从手机随手拍的自拍视频重建可自由换视角的"nerfie"。
核心:场景分解为 canonical 模板 NeRF + 每帧形变场 — 渲染前先把观测空间坐标 warp 回 canonical 空间再查模板。
NeRF 基础见 NeRF (G6-1)。本笔记读 arXiv 全文整理。
2. canonical 模板 + 形变场
观测空间辐射场 = 形变 + 模板:
$$ G(\mathbf{x}, \mathbf{d}, \psi_i, \omega_i) = F(T(\mathbf{x}, \omega_i), \mathbf{d}, \psi_i) $$
- $T$:观测→canonical 的形变,条件于 per-frame latent code $\omega_i$
- $F$:canonical 模板 NeRF (见 NeRF)
- $\psi_i$:per-frame 外观 latent (处理曝光等变化)
3. SE(3) 形变场
不用简单平移场,而用 SE(3) 刚体运动场 (screw axis 编码):
$$ \mathbf{x}' = e^{[\mathbf{r}]_\times}\mathbf{x} + \mathbf{p} $$
($\mathbf{r}$ 旋转向量经 Rodrigues 出旋转,$\mathbf{p}=G\mathbf{v}$ 由螺旋轴平移分量 $\mathbf{v}$ 经 $G(\mathbf{r})$ 恢复 — 非自由平移)。优势:远处点的旋转可共享同一组参数 → 比逐点平移更高效、更符合真实运动。(SE(3)/指数映射见 Lie Group and Lie Algebra)
4. 正则化
弹性正则 (防不合理形变):对形变场 Jacobian $\mathbf{J}_T$ 的奇异值惩罚,鼓励局部刚性:
$$ \mathcal{L}_{elastic}(\mathbf{x}) = |\log \Sigma|_F^2 $$
($\Sigma$ = $\mathbf{J}_T$ 的奇异值对角阵)。用 Geman-McClure 鲁棒核容忍人脸表情等大形变;按射线贡献加权 (空区域自由动)。
背景正则 (锚定 SfM 静态点):
$$ \mathcal{L}_{bg} = \frac{1}{K}\sum_k |T(\mathbf{x}_k) - \mathbf{x}_k|_2 $$
让 SfM 三角化的静态点在形变后不动 → 固定 canonical 与观测系的关系。
5. coarse-to-fine 形变正则
难点:高频位置编码一上来就开 → 形变陷局部极小 (大小运动难权衡)。对策 windowed 位置编码,按 $\alpha \in [0, m]$ 渐进引入高频:
$$ w_j(\alpha) = \frac{1 - \cos(\pi,\text{clamp}(\alpha - j, 0, 1))}{2} $$
滑动 Hann 窗:先学低频平滑形变,再渐进加细 → 类多分辨率优化,避免局部极小。
6. 数据与结果
- 相机位姿用 COLMAP SfM (自拍需前景分割避免在动的人上做匹配);Laplacian 方差滤模糊帧;20 秒 ~600 帧
- 用双相机验证 rig 测 LPIPS/PSNR
- 能重建发丝、眼镜等细节,LPIPS 优于全部 baseline (含 Neural Volumes);NSFF 额外用了时序/深度/光流监督,Nerfies 在此劣势下仍具竞争力;难处:拓扑变化 + 快速运动
属辐射场基础里动态/可形变 NeRF 方向的代表 (静态 NeRF → 动态场景的关键一步)。
References
- Park, K., et al. (2021). Nerfies: Deformable Neural Radiance Fields. ICCV 2021. arXiv:2011.12948 — 论文 (本笔记读 arXiv 全文整理)
- 项目页: nerfies.github.io
- 静态 NeRF 见 NeRF (G6-1);SE(3)/指数映射见 Lie Group and Lie Algebra