第一次组会汇报：Neural Body 复盘

Neural Body 原理

Motivation

论文希望生成动态人体的自由视角视频，这有很多应用，包括电影工业，体育直播和远程视频会议现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文，但他们有两个问题：

需要非常稠密视角来训练视角合成网络。比如NeRF论文中，一般用了100多个视角来训练网络。
NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络，对于动态场景，上百帧需要训上百个网络，这成本很高

Method

一共有 5 个基本的 steps。

1.论文定义了一组离散的local latent codes。为了摆放这些latent codes，需要对这一帧预测一个人的粗糙的human mesh，比如SMPL模型。

首先补充一下 SMPL 这个前置知识：SMPL是一个基于皮肤顶点的模型，它是由形状参数、姿势参数和相对于SMPL坐标系统的刚性变换的函数定义的。为了通过人体姿势控制潜在编码的空间位置，我们将这些潜在编码锚定到一个可变形的人体模型（SMPL）。具体而言，我们在SMPL模型的顶点上定义了一组潜在编码Z = {z1, z2, …, z6890}。

那么把编码嵌入在 SMPL 的顶点里，就有了 structured latent codes

然后再为这个SMPL指定 shape 和 post参数 St

2.因为上一步的 latent code 是非常稀疏的，只有6890，直接线性插值会导致很多 zero vectors。

作者想到的解决办法是：使用稀疏卷积神经网络，提取不同尺度下的 latent code 特征，有了特征向量 feature_volume

把空间直角坐标系下的坐标转成体素坐标系下的坐标，非空体素的特征取为体素块内所有非零 latent code 的均值

3.有了 feature_volume，给定空间内任意一个点的坐标，先把它转成体素坐标系下的坐标后，都可以通过插值来算出它的 latent code 值

把任意点的 latent code 输入 MLP 里回归 \(\sigma, RGB\)

4.Render

同 NeRF

5.Train

loss function 同 NeRF

Experiment

Dataset

Results on the ZJU-MoCap dataset(sparse multi-view video) Results on monocular videos(monocular video)

Task

Novel view synthesis

Metrics

PSNR(峰值信噪比)
SSIM(结构相似性指数)

这两个指标都较之前的 sota 方法有较大提升

3D reconstruction

Metrics

只提供定性结果，因为没有真实的人体3D数据

读论文

经历

论文一共看了差不多三遍。

第一遍是三周前(?)，快速浏览了一遍全文，估计看懂了 30% （几乎跳过了 Method）
第二遍看是汇报前两周，仔细看了整篇文章，把看不懂的地方标注了出来。后续有针对问题进行资料查找。看懂 70%
第三遍看是汇报前一周，主要看了文章的 Method，感觉还是理解不了细节，特别是 Code Diffusion，遂看了代码。感觉对细节也基本理解，看懂 90% (不懂的地方在于 3D 重建部分，这是通过后续做 PPT 和汇报才意识到的)

思考

看论文一般分为粗看和精看，个人认为，粗看主要看思路和图；精看能够说清楚文章所有细节，提炼出文章的 Key idea。

这篇论文显然属于精看，但我看这篇论文所花费的时间还是太多了（几乎可以说看了三周），我觉得效率高的话其实三四天就很够很够了。

分析原因的话，我认为主要有以下几点：

对新视角合成领域还不够了解，看论文过程中发现很多知识都是 NeRF 中涉及的，遂又去看 NeRF、查找各种资料。
时间跨度长，对于看过的内容没有及时做笔记和整理，导致后面再看时产生了遗忘。

对于以上原因，我想到的解决方法有：

多看几篇新视角合成 / 三维重建领域的文章，熟悉这一块的文章的常见知识
看文献的时候及时做笔记记录

做PPT

PPT 我也做了非常非常久。。。从汇报前一天早上 10 点做到了半夜 1 点半。。。。

一个原因是第一次做组会 PPT，不是很熟练，此外感觉自己有点完美主义了。像 xwj 所说，做 PPT 是一件和自己对抗的任务，由自己找出问题并解决。

那么看看我的成果吧：

给自己的 PPT 本身打80分（但是讲的质量hhhh一言难尽）

汇报

其实我有提前准备一个讲稿，不算逐字稿，提醒自己每一页该讲啥（因为 PPT 大部分内容是英文，怕自己讲不出来）

然而我讲的时候，不看稿子的时候用自己的语言讲，非常的口语化 TAT

看稿子的时候，我往往不知道该看哪，哪一部分是我该讲的 TAT

磕磕绊绊的讲完了，然后被师兄师姐们提问拷打。。。感觉我也回答得不是很好，让师兄师姐们产生了一种“再问就不礼貌了”的感觉 TAT

导师最后给我的评价是 “准备的很扎实” （？）

讲完后问室友，我的汇报听起来感觉如何。她说内容她听不懂但是很多语气词类似 “嗯…”、 “那个”、 “就是”。。。。

总结，所以结果很寄

TAT

高情商：汇报论文方面还有很大的提升空间