Neural Body 原理

Motivation

论文希望生成动态人体的自由视角视频,这有很多应用,包括电影工业,体育直播和远程视频会议 现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文,但他们有两个问题:

  1. 需要非常稠密视角来训练视角合成网络。比如NeRF论文中,一般用了100多个视角来训练网络。
  2. NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络,对于动态场景,上百帧需要训上百个网络,这成本很高

Method

一共有 5 个基本的 steps。

1.论文定义了一组离散的local latent codes。为了摆放这些latent codes,需要对这一帧预测一个人的粗糙的human mesh,比如SMPL模型。

首先补充一下 SMPL 这个前置知识:SMPL是一个基于皮肤顶点的模型,它是由形状参数、姿势参数和相对于SMPL坐标系统的刚性变换的函数定义的。为了通过人体姿势控制潜在编码的空间位置,我们将这些潜在编码锚定到一个可变形的人体模型(SMPL)。具体而言,我们在SMPL模型的顶点上定义了一组潜在编码Z = {z1, z2, …, z6890}。

那么把编码嵌入在 SMPL 的顶点里,就有了 structured latent codes

然后再为这个SMPL指定 shape 和 post参数 St

2.因为上一步的 latent code 是非常稀疏的,只有6890,直接线性插值会导致很多 zero vectors。

作者想到的解决办法是:使用稀疏卷积神经网络,提取不同尺度下的 latent code 特征,有了特征向量 feature_volume

把空间直角坐标系下的坐标转成体素坐标系下的坐标,非空体素的特征取为体素块内所有非零 latent code 的均值

3.有了 feature_volume,给定空间内任意一个点的坐标,先把它转成体素坐标系下的坐标后,都可以通过插值来算出它的 latent code 值

把任意点的 latent code 输入 MLP 里回归 \(\sigma, RGB\)

4.Render

同 NeRF

5.Train

loss function 同 NeRF

Experiment

Dataset

Results on the ZJU-MoCap dataset(sparse multi-view video) Results on monocular videos(monocular video)

Task

Novel view synthesis

Metrics

  • PSNR(峰值信噪比)
  • SSIM(结构相似性指数)

这两个指标都较之前的 sota 方法有较大提升

3D reconstruction

Metrics

  • 只提供定性结果,因为没有真实的人体3D数据

读论文

经历

论文一共看了差不多三遍。

  • 第一遍是三周前(?),快速浏览了一遍全文,估计看懂了 30% (几乎跳过了 Method)
  • 第二遍看是汇报前两周,仔细看了整篇文章,把看不懂的地方标注了出来。后续有针对问题进行资料查找。看懂 70%
  • 第三遍看是汇报前一周,主要看了文章的 Method,感觉还是理解不了细节,特别是 Code Diffusion,遂看了代码。感觉对细节也基本理解,看懂 90% (不懂的地方在于 3D 重建部分,这是通过后续做 PPT 和汇报才意识到的)

思考

看论文一般分为粗看精看,个人认为,粗看主要看思路和图;精看能够说清楚文章所有细节,提炼出文章的 Key idea。

这篇论文显然属于精看,但我看这篇论文所花费的时间还是太多了(几乎可以说看了三周),我觉得效率高的话其实三四天就很够很够了。

分析原因的话,我认为主要有以下几点:

  1. 对新视角合成领域还不够了解,看论文过程中发现很多知识都是 NeRF 中涉及的,遂又去看 NeRF、查找各种资料。
  2. 时间跨度长,对于看过的内容没有及时做笔记和整理,导致后面再看时产生了遗忘。

对于以上原因,我想到的解决方法有:

  1. 多看几篇 新视角合成 / 三维重建 领域的文章,熟悉这一块的文章的常见知识
  2. 看文献的时候及时做笔记记录

做PPT

PPT 我也做了非常非常久。。。从汇报前一天早上 10 点 做到了半夜 1 点半。。。。

一个原因是第一次做组会 PPT,不是很熟练,此外感觉自己有点完美主义了。像 xwj 所说,做 PPT 是一件和自己对抗的任务,由自己找出问题并解决。

那么看看我的成果吧:

1

给自己的 PPT 本身打80分(但是讲的质量hhhh一言难尽)

汇报

其实我有提前准备一个讲稿,不算逐字稿,提醒自己每一页该讲啥(因为 PPT 大部分内容是英文,怕自己讲不出来)

然而我讲的时候,不看稿子的时候用自己的语言讲,非常的口语化 TAT

看稿子的时候,我往往不知道该看哪,哪一部分是我该讲的 TAT

磕磕绊绊的讲完了,然后被师兄师姐们提问拷打。。。感觉我也回答得不是很好,让师兄师姐们产生了一种“再问就不礼貌了”的感觉 TAT

导师最后给我的评价是 “准备的很扎实” (?)

讲完后问室友,我的汇报听起来感觉如何。她说 内容她听不懂 但是很多语气词 类似 “嗯…”、 “那个”、 “就是”。。。。

总结,所以结果很寄

TAT

高情商:汇报论文方面还有很大的提升空间