-
研究生手册
关于作者 看了wiki上的作者介绍(感觉作者还是一个比较有争议的人物): 学历上来看,国立清华大学机械硕士,剑桥控制博士,国立清华大学教授,在如何培养研究生方面的确比较有话语权。 有一些关于作者的争论,其中包括发表了核有关的言论后,被该领域专业人士指出原则性问题后表示该人士乃利益相关者而不予理会。 可是还得看这本书。所以“研究”真的很重要,要学会自己筛选信息,找到一堆信息里面正确的那一个,产生自己的思考。 一、研究所学什么 典型的研究(research)工作有兩種,其一是為一個重要的問題尋找嚴謹而可靠的答案(answer to a problem),其次是為現存或未來的問題尋找更好的解決方案(solution to a problem)。 了解到回顾文献是很有必要... Read More
-
记录周报_大四下
3月 2.29 - 3.10 《基于 LiDAR 的多模态人体动作捕捉》论文学习 + blog笔记 磨刀不误砍柴工,知道了人体动作捕捉这一套流程(虽然知道的有限),便于之后的毕设工作开展 跑通 LiDARCap 代码 代码在 【/data/liumengyin/forder1/lidarcap_1】目录下 训练 200 个 epoch 需要 10h 左右 可视化工具尝试(aitviewer, o3d_server) aitviewer比较复杂,可以对齐SMPL模型和图像,看文档花了很长时间,还知道了 3DPW 数据集 后一个是实验室学长写的,只能显示SMPL模型 DINO-v2 tutorial 3.11 - 3.24 ... Read More
-
本科毕业设计命令汇总
本科毕业论文中已经对算法各个模块进行了详细的拆解和讲述,本文主要用于记录服务器上执行的命令,包括数据预处理和执行python程序。 Data Preprocessing 制作特定格式数据集: 在更换数据集在 ImmFusion 代码上运行时,需要制作符合 ImmFusion dataloader 格式的数据集。 ---LiDARCap |---train |---sequence_1 |---image_0 |---image |---img_feat |---img_feat_1 |---img_feat_2 |---mesh |---radar |---..... |---test 每... Read More
-
训练模型时遇到的问题
Q1: cuda out of memory cuda memory 和什么有关: 模型参数量 输入数据量(batch_size大小,相当于一次性把这么多数据放入cuda memory) 所以一般来说,只需要: 调小 batch size 把网络参数量降低 Q2: 多 GPU 加速训练【没整明白】 了解到了一种方法,实际上是一块 GPU,多个子进程。但是好像是各自处理任务,而不是合作处理整个任务 不知道怎么使用 多GPU 训练,报错: ***************************************** Setting OMP_NUM_THREADS environment variable for each process to be... Read More
-
SMPL 笔记
原理(已有 shape、pose 参数版) 根据 shape、pose 参数,得到 T-pose 下的 vertices,joints。(根据参数产生相应的形变) 根据 pose 参数求得每个关节相对其父节点的偏移量,产生一个关于点的 global transformation 将 transformation 应用到 vertices 上,根据施加动作的 vertices 产生 human mesh 参考 原理、代码: https://khanhha.github.io/posts/SMPL-model-introduction/ 模型训练(其实仅仅可视化是用不着的): https://www.cnblogs... Read More
-
多模态三维人体动作捕捉
跑通了代码 理了理人体动捕大致实验流程 尝试了几种可视化工具 Train loss 是人体 3D 关节点的位置和旋转矩阵一起计算的 代码路径 ../forder1/lidarcap_1/train.py,需要在配置文件里修改 data 的路径dddd 训练 250 个 epochs 大概需要 14 h 训练(with 验证集)完后得到了 model 的参数,在 debuged_model 文件夹里 Test 代码路径 ../forder1/lidarcap_1/eval.py 测试非常快,可能只有10+s 输出是一组 SMPL 模型的 poses 参数(也有 joints 位置) 可视化⭐ 得到了 S... Read More
-
PyTorch 环境配置
不需要从零开始装 cuda,各种包。。。 装 cuda 打开 terminal 发现 usr 的最前面没有 (base),表明没有安装 cuda cuda 是无法 conda install xx 这样安装的,一种方法是从官网上下 torch 和 torchvision 另一种是引用已经安装好的 cuda 环境 在 .bashrc (shell 配置文件) 里加入 # >>> conda initialize >>> # !! Contents within this block are managed by 'conda init' !! __conda_setup="$('/data/xxxx/anaconda3/bin/conda'... Read More
-
《基于激光雷达点云的远距离无标记三维人体动作捕捉》笔记
这篇论文看了一个月了,3.1 才看完 = = 名词解释 多模态:多种模态/形式(的人体的观测数据) 相较单模态(例如图片、文字)能表达更丰富的信息 三维人体动作捕捉:整合传感器对人体的观测结果,恢复出真实的人体动作 Abstract 提出基于 LiDAR(Light Detection and Ranging) 激光雷达 的数据集 & 人体动作捕捉框架 LiDAR: 激光探测与测距(设备) 创新点 提出多模态数据集: RGB + LiDAR + IMU(传感器,可测量运动,受磁场影响) 提出无标记、远距离人体动作捕捉框架 动作捕捉 将人体或者其他物体的动作以数字化的方式进行记录和存储 具体来说是输出一些表示 shap... Read More
-
【3DGS 三维表达之争】记录
3DGS 优点 训练、渲染快,好验证实验结果 鲁棒性好 3DGS 缺点 存在很多 artifacts 需要调更多的超参 问题 模拟了物理世界的表面,但是内部还是空的;或者说无法从这个倒推回物理世界 给初学者的建议 短时间内卷出很多成果不太可能,都是需要积累的 不要因为比手速而失去科研本身的乐趣 把 NeRF 的东西重新用 3DGS 做一遍还是有意义的,更深入了解 3DGS & 拓宽领域边界。 Read More
-
EECS498笔记
目标检测 https://blog.csdn.net/yegeli/article/details/109861867 任务:找出 image 中的 instance, 并用 bounding box 包起来。 原理:分为 one-stage 和 two-stage,区别是前者一次性检测出 multi-object 的 class 和 bounding box 的位置,后者先预先找出一些 bounding-box,再对它们做分类。 R-CNN Stage One 第一步,得到候选框。 Sliding Window 暴力的正确做法,需要枚举每一个可能的边框,时间复杂度 \(\frac{H(H+1)}{2}\frac{W(W+1)}{2}\),太慢 Heur... Read More
-
生成模型笔记
生成模型 Generative models 概述 分类 监督 无监督 自监督 无监督 including: PCA Auto Encoder 学习数据的压缩表示 生成任务的模型 自监督 是无监督的一个子集。它不需要标注的数据,能生成伪标签。 生成模型和判别模型 判别式(discriminative): 需要 annotation 数据 模型需要根据输入的 x 产生标签 y,或者学习输入数据的 latent structure 缺点:存在 adversarial attack,不能区分不合理的类别的图像 Eg. Classification, regression, … 生成式(generative): 不需要 annotation 数据 ... Read More
-
第一次组会汇报:Neural Body 复盘
Neural Body 原理 Motivation 论文希望生成动态人体的自由视角视频,这有很多应用,包括电影工业,体育直播和远程视频会议 现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文,但他们有两个问题: 需要非常稠密视角来训练视角合成网络。比如NeRF论文中,一般用了100多个视角来训练网络。 NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络,对于动态场景,上百帧需要训上百个网络,这成本很高 Method 一共有 5 个基本的 steps。 1.论文定义了一组离散的local latent codes。为了摆放这些latent codes,需要对这一帧预测一个人的粗糙的human mesh,比如SMPL模型。 首先补充... Read More
-
NeRF:原理篇
一篇文章清楚如何从 图片数据集 得到 最终视频。 前置知识 NeRF 曾获得 ECCV2020 Best Paper Honorable Mention. 其核心是使用二维图像隐式重建三维场景,可以根据静态场景渲染出任意角度的清晰图像。 pipeline如图所示: 了解了 NeRF 能从输入 (\(x,y,z, \theta, \phi\)) 通过神经网络映射到 (\(\sigma, RGB\)),但其实还有很多细节不清楚: 从上传图片数据集开始,图片是二维的数据,是怎么产生三维格式的输入,又是如何得到表示方向的量的呢? 怎么从网络的输出得到最后展示出来的视频的? 这个模型是怎么样训练的?损失函数是什么,如何优化? ... Read More
-
从零开始的科研:远程连接Linux服务器跑深度学习任务
我使用的编辑器是 pycharm。 远程连接服务器 获取渠道 自己购买 eg. AutoDL链接 使用分配的账号 使用方式 在 pycharm 的 terminal 中输入登录命令和登录密码 step1: step2: 这里也需要切换到远程服务器的环境: step3: 如果想看远程服务器的文件树 需要进行如下配置: 点击 tools -> deployment(部署) -> browse remote host 一件非常重要的事:虚拟环境 程序想要运行,需要 code 和 python interpreter。 这里的 interpreter 是需要限定的。有一个全局范围的 interpreter。而一... Read More
-
综述:恢复 3D 人体网格
从单目图像/视频恢复 3D 人体网格的综述。 人体建模 对人体的建模分为基于几何的方法和 3D 扫描的办法。 1.基于几何 把人体看成小的几何体组成的集合,例如SCAPE、SMPL等模型。缩小了解空间,估计参数即可,问题是这些模型都没有考虑衣服和头发的影响。 2.3D 扫描(点云 -> human mesh) 配准 (把多组、多模态数据对应起人的哪个部位) 骨架识别 蒙皮 Image 主要分为 基于优化的方法 以及 基于回归的方法 基于优化 主要思想:应用 model,拟合参数,加入了数据terms、正则化项。 代表方法:SMPL、SMPL-X。 eg. Bogo et al. 的方法里: 目标函数 = data term + 姿态先验 * 2 + ... Read More
-
使用 Github Pages + jekyll 模板 搭建的个人博客
之前一直想要比较 Geek 的博客,很早就了解到了 Github Pages。因为各种原因从大二鸽到了大四。。。。 总之这是这个网站上的第一篇博文~ Github Pages? 是一个静态网站,优点是可以通过编写 markdown 文件展示博文,自己定制页面的布局和风格。简洁又好看。 1. Github 上新建 repository 新建一个 repository,起名为 【xxx.github.io】 (xxx为任意字符串,eg.”tem.github.io”) 现在就可以从浏览器输入 eg.https://starlightlmy/tem.github.io 来访问你的博客~ (注:默认访问的是 https://starlightlmy/tem.github.io/inde... Read More
-
Table example
Table example as below For now, these extended features are provided: Cells spanning multiple columns Cells spanning multiple rows Cells text align separately Table header not required Grouped table header rows or data rows Rowspan and Colspan ^^ in a cell indicates it should be merged with the cell above. This feature is contribu... Read More