第一次组会汇报:Neural Body 复盘
Neural Body 原理
Motivation
论文希望生成动态人体的自由视角视频,这有很多应用,包括电影工业,体育直播和远程视频会议 现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文,但他们有两个问题:
- 需要非常稠密视角来训练视角合成网络。比如NeRF论文中,一般用了100多个视角来训练网络。
- NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络,对于动态场景,上百帧需要训上百个网络,这成本很高
Method
一共有 5 个基本的 steps。
1.论文定义了一组离散的local latent codes。为了摆放这些latent codes,需要对这一帧预测一个人的粗糙的human mesh,比如SMPL模型。
首先补充一下 SMPL 这个前置知识:SMPL是一个基于皮肤顶点的模型,它是由形状参数、姿势参数和相对于SMPL坐标系统的刚性变换的函数定义的。为了通过人体姿势控制潜在编码的空间位置,我们将这些潜在编码锚定到一个可变形的人体模型(SMPL)。具体而言,我们在SMPL模型的顶点上定义了一组潜在编码Z = {z1, z2, …, z6890}。
那么把编码嵌入在 SMPL 的顶点里,就有了 structured latent codes
然后再为这个SMPL指定 shape 和 post参数 St
2.因为上一步的 latent code 是非常稀疏的,只有6890,直接线性插值会导致很多 zero vectors。
作者想到的解决办法是:使用稀疏卷积神经网络,提取不同尺度下的 latent code 特征,有了特征向量 feature_volume
把空间直角坐标系下的坐标转成体素坐标系下的坐标,非空体素的特征取为体素块内所有非零 latent code 的均值
3.有了 feature_volume,给定空间内任意一个点的坐标,先把它转成体素坐标系下的坐标后,都可以通过插值来算出它的 latent code 值
把任意点的 latent code 输入 MLP 里回归 \(\sigma, RGB\)
4.Render
同 NeRF
5.Train
loss function 同 NeRF
Experiment
Dataset
Results on the ZJU-MoCap dataset(sparse multi-view video) Results on monocular videos(monocular video)
Task
Novel view synthesis
Metrics
- PSNR(峰值信噪比)
- SSIM(结构相似性指数)
这两个指标都较之前的 sota 方法有较大提升
3D reconstruction
Metrics
- 只提供定性结果,因为没有真实的人体3D数据
读论文
经历
论文一共看了差不多三遍。
- 第一遍是三周前(?),快速浏览了一遍全文,估计看懂了 30% (几乎跳过了 Method)
- 第二遍看是汇报前两周,仔细看了整篇文章,把看不懂的地方标注了出来。后续有针对问题进行资料查找。看懂 70%
- 第三遍看是汇报前一周,主要看了文章的 Method,感觉还是理解不了细节,特别是 Code Diffusion,遂看了代码。感觉对细节也基本理解,看懂 90% (不懂的地方在于 3D 重建部分,这是通过后续做 PPT 和汇报才意识到的)
思考
看论文一般分为粗看和精看,个人认为,粗看主要看思路和图;精看能够说清楚文章所有细节,提炼出文章的 Key idea。
这篇论文显然属于精看,但我看这篇论文所花费的时间还是太多了(几乎可以说看了三周),我觉得效率高的话其实三四天就很够很够了。
分析原因的话,我认为主要有以下几点:
- 对新视角合成领域还不够了解,看论文过程中发现很多知识都是 NeRF 中涉及的,遂又去看 NeRF、查找各种资料。
- 时间跨度长,对于看过的内容没有及时做笔记和整理,导致后面再看时产生了遗忘。
对于以上原因,我想到的解决方法有:
- 多看几篇 新视角合成 / 三维重建 领域的文章,熟悉这一块的文章的常见知识
- 看文献的时候及时做笔记记录
做PPT
PPT 我也做了非常非常久。。。从汇报前一天早上 10 点 做到了半夜 1 点半。。。。
一个原因是第一次做组会 PPT,不是很熟练,此外感觉自己有点完美主义了。像 xwj 所说,做 PPT 是一件和自己对抗的任务,由自己找出问题并解决。
那么看看我的成果吧:
给自己的 PPT 本身打80分(但是讲的质量hhhh一言难尽)
汇报
其实我有提前准备一个讲稿,不算逐字稿,提醒自己每一页该讲啥(因为 PPT 大部分内容是英文,怕自己讲不出来)
然而我讲的时候,不看稿子的时候用自己的语言讲,非常的口语化 TAT
看稿子的时候,我往往不知道该看哪,哪一部分是我该讲的 TAT
磕磕绊绊的讲完了,然后被师兄师姐们提问拷打。。。感觉我也回答得不是很好,让师兄师姐们产生了一种“再问就不礼貌了”的感觉 TAT
导师最后给我的评价是 “准备的很扎实” (?)
讲完后问室友,我的汇报听起来感觉如何。她说 内容她听不懂 但是很多语气词 类似 “嗯…”、 “那个”、 “就是”。。。。
总结,所以结果很寄
TAT
高情商:汇报论文方面还有很大的提升空间