《基于激光雷达点云的远距离无标记三维人体动作捕捉》笔记

这篇论文看了一个月了，3.1 才看完 = =

名词解释

多模态：多种模态/形式（的人体的观测数据）

相较单模态（例如图片、文字）能表达更丰富的信息

三维人体动作捕捉：整合传感器对人体的观测结果，恢复出真实的人体动作

Abstract

提出基于 LiDAR(Light Detection and Ranging) 激光雷达 的数据集 & 人体动作捕捉框架

LiDAR: 激光探测与测距（设备）

创新点

提出多模态数据集： RGB + LiDAR + IMU(传感器，可测量运动，受磁场影响)
提出无标记、远距离人体动作捕捉框架

动作捕捉

将人体或者其他物体的动作以数字化的方式进行记录和存储

具体来说是输出一些表示 shape 和 pose 的参数，加到参数化模型上得到真实人体动作

LiDAR

LiDAR作用：采集点云（深度数据）

动捕

数据集

（有真实的三维动作的：）

Human3.6M、HumanEva、MPI-INF-3DHP：室内 & 基于标记

3DPW：室外 & 基于标记 & SMPL

动捕方法

1.基于标记：人体穿戴标记，采集动作

分为被动光学动捕（穿戴反光设备，再由摄像机捕捉）、主动光学动捕（穿戴发射光源的设备）、惯性动捕方法（穿戴IMU记录动作数据）

缺点：

成本高昂、复杂
影响动作真实性

2.无标记：仅由传感器的观测和算法分析推导出人体的运动情况

例如 HMR(使用SMPL模型)、VIBE(输入是RGB视频)

缺点：远距离导致图像质量退化

LiDAR 激光雷达

目标追踪任务

指给你一个物体的图像，需要在视频里追踪这个目标物体

方法一：使用滤波器生成下一时刻的物体位置，但是存在被遮挡的问题

方法二：输入相邻的两帧点云，算法能追踪到物体的变化

场景流任务

描述了源点云中的每个点到目标点云中对应点的位移，即动态环境中点的三维运动信息。

三维点云深度特征学习

静态

点云分类、分割

动态

追踪点云

多模态人体动作捕捉标准数据集制备

采集系统

时间同步：同步 LiDAR、动作捕捉系统和相机的时钟源，使用 PTP (Precision Time Protocol) 协议。

数据预处理

点云预处理：去除人体以外的背景噪声干扰
图像预处理：运用一些变化矩阵使点云和图像对齐
IMU 预处理：参数化模型；使点云与 LiDAR 采集的点云对齐

注：多模态指的是数据集的制备上；算法模块的输入是动态点云，仅来自 LiDAR。

标准数据集描述

多模态数据集包括 LiDAR，RGB 视频以及由 IMU 动作捕捉系统提供的真实三维人体动作

提供了 深度信息

基于点云的三维人体动作捕捉框架

动态点云编码

因为收集到的数据形式是点云，需要将点云转换成高维的 vector 作为神经网络的输入。

神经网络的输出就是 SMPL 模型的参数：poses (N, 24, 3)

PointNet

输入是点云，输出是表征这个点云的特征的 1024-dim vector

PointNet++

输入输出同 PointNet，不同之处在于网络结构

算法

引入了 SMPL 模型，从点云编码先回归出关节位置，后回归出关节的旋转角度

深度学习网络的输入是动态点云编码的高维 vector，输出是人体模型参数(SMPL)。可以依据这个输出恢复出真实的三维人体

对比与评估

与基于图像的方法对比(这是首个在人体动捕方法中加入 LiDAR 数据的paper)，评价指标上更好

Ques

LiDAR 属于无标记？

LiDAR 不属于有标记的（人体动作捕捉方法）先例

LiDAR 收集到的数据是什么形式的？

点云

时间同步具体是怎么做的？

？