Home | s t a r l i g h t

Light

Dark

vanilla 3DGS 学习笔记

Mar 29, 2025 About 1 min

原理算法流程实现从输入数据（multi view images）得到 SfM 初始化点云。从 SfM 初始化点云得到初始 3D 高斯椭球。预测和优化 3D 高斯椭球各属性的 network。从 3D 高斯投影产生特定视角下的 renders。代码代码包括四个部分： A PyTorch-based optimizer to produce a 3D Gaussian model from SfM inputs. A network viewer that allows to connect to and visualize the optimization process. An OpenGL-based real-time vie... Read More

#3DGS
ReID基础知识

Dec 03, 2024 About 1 min

任务描述和哈利波特地图一样，可以输入想寻找的一个人的照片，检索所有摄像头拍摄的这个人，寻找到他在哪些地方出现过。数据集训练集（手工标记/检测算法）验证集（手工标记/检测算法） query gallery 给定一个query，需要从gallery中寻找到最像这个query的k个图片。用于测试。 train 和 test 数据集中出现的人互不相同。自建数据集毫无疑问 train + test 组成了全部的数据集。 train再分成 train + val, 其中 val 每个人只放一张图片；test 分成 query + gallery，其中 query 每个人只放一张图图片，其余放在 gallery。解决方法 1.对每个query，对... Read More

#ReID #行人重识别
GPU编程技术

Aug 26, 2024 About 1 min

常使用 C / C++ 作为编程语言做法是，把CPU上的数据复制到GPU上，进行计算后返回 GPU计算更快大致的原理：利用线程，把一个复杂的计算任务拆解成小的子任务，分配给每一个线程去计算，同时它们是并行的，因此能够大幅节约计算时间 Read More

#GPU编程
Notes for Experiment

Aug 21, 2024 About 1 min

运行代码 cuda:x 不需要在代码中修改 cuda:x，在命令行中写入以下语句： export CUDA_VISIBLE_DEVICES=x1,x2,.. 作用是把cuda的逻辑id（比如默认是0）映射到实际物理id上（改成的x）可视化 tensorboard 进入 events.out.tfevents 所在的forder tensorboard --logdir ./ --port 22223 --host 59.77.18.21 Read More

#experiment #visualization
研究生手册

Jul 05, 2024 About 1 min

关于作者看了wiki上的作者介绍（感觉作者还是一个比较有争议的人物）：学历上来看，国立清华大学机械硕士，剑桥控制博士，国立清华大学教授，在如何培养研究生方面的确比较有话语权。有一些关于作者的争论，其中包括发表了核有关的言论后，被该领域专业人士指出原则性问题后表示该人士乃利益相关者而不予理会。可是还得看这本书。所以“研究”真的很重要，要学会自己筛选信息，找到一堆信息里面正确的那一个，产生自己的思考。一、研究所学什么典型的研究（research）工作有兩種，其一是為一個重要的問題尋找嚴謹而可靠的答案（answer to a problem），其次是為現存或未來的問題尋找更好的解決方案（solution to a problem）。了解到回顾文献是很有必要... Read More

#研究生
记录周报_大四下

Jun 08, 2024 About 1 min

3月 2.29 - 3.10 《基于 LiDAR 的多模态人体动作捕捉》论文学习 + blog笔记磨刀不误砍柴工，知道了人体动作捕捉这一套流程（虽然知道的有限），便于之后的毕设工作开展跑通 LiDARCap 代码代码在【/data/liumengyin/forder1/lidarcap_1】目录下训练 200 个 epoch 需要 10h 左右可视化工具尝试（aitviewer, o3d_server） aitviewer比较复杂，可以对齐SMPL模型和图像，看文档花了很长时间，还知道了 3DPW 数据集后一个是实验室学长写的，只能显示SMPL模型 DINO-v2 tutorial 3.11 - 3.24 ... Read More

#周报
本科毕业设计命令汇总

Jun 01, 2024 About 3 mins

本科毕业论文中已经对算法各个模块进行了详细的拆解和讲述，本文主要用于记录服务器上执行的命令，包括数据预处理和执行python程序。 Data Preprocessing 制作特定格式数据集: 在更换数据集在 ImmFusion 代码上运行时，需要制作符合 ImmFusion dataloader 格式的数据集。 ---LiDARCap |---train |---sequence_1 |---image_0 |---image |---img_feat |---img_feat_1 |---img_feat_2 |---mesh |---radar |---..... |---test 每... Read More

#人体动作捕捉 #3D Human Mesh Recovery
训练模型时遇到的问题

Apr 09, 2024 About 1 min

Q1: cuda out of memory cuda memory 和什么有关：模型参数量输入数据量（batch_size大小，相当于一次性把这么多数据放入cuda memory）所以一般来说，只需要：调小 batch size 把网络参数量降低 Q2: 多 GPU 加速训练【没整明白】了解到了一种方法，实际上是一块 GPU，多个子进程。但是好像是各自处理任务，而不是合作处理整个任务不知道怎么使用多GPU 训练，报错： ***************************************** Setting OMP_NUM_THREADS environment variable for each process to be... Read More

#env #server
SMPL 笔记

Mar 16, 2024 About 4 mins

原理（已有 shape、pose 参数版）根据 shape、pose 参数，得到 T-pose 下的 vertices，joints。（根据参数产生相应的形变）根据 pose 参数求得每个关节相对其父节点的偏移量，产生一个关于点的 global transformation 将 transformation 应用到 vertices 上，根据施加动作的 vertices 产生 human mesh 参考原理、代码： https://khanhha.github.io/posts/SMPL-model-introduction/ 模型训练（其实仅仅可视化是用不着的）： https://www.cnblogs... Read More

#SMPL #human #可视化
多模态三维人体动作捕捉

Mar 05, 2024 About 3 mins

跑通了代码理了理人体动捕大致实验流程尝试了几种可视化工具 Train loss 是人体 3D 关节点的位置和旋转矩阵一起计算的代码路径 ../forder1/lidarcap_1/train.py，需要在配置文件里修改 data 的路径dddd 训练 250 个 epochs 大概需要 14 h 训练(with 验证集)完后得到了 model 的参数，在 debuged_model 文件夹里 Test 代码路径 ../forder1/lidarcap_1/eval.py 测试非常快，可能只有10+s 输出是一组 SMPL 模型的 poses 参数（也有 joints 位置）可视化⭐ 得到了 S... Read More

#pytorch #环境 #可视化
PyTorch 环境配置

Mar 02, 2024 About 1 min

不需要从零开始装 cuda，各种包。。。装 cuda 打开 terminal 发现 usr 的最前面没有 (base)，表明没有安装 cuda cuda 是无法 conda install xx 这样安装的，一种方法是从官网上下 torch 和 torchvision 另一种是引用已经安装好的 cuda 环境在 .bashrc (shell 配置文件) 里加入 # >>> conda initialize >>> # !! Contents within this block are managed by 'conda init' !! __conda_setup="$('/data/xxxx/anaconda3/bin/conda'... Read More

#pytorch #环境
《基于激光雷达点云的远距离无标记三维人体动作捕捉》笔记

Jan 30, 2024 About 1 min

这篇论文看了一个月了，3.1 才看完 = = 名词解释多模态：多种模态/形式（的人体的观测数据）相较单模态（例如图片、文字）能表达更丰富的信息三维人体动作捕捉：整合传感器对人体的观测结果，恢复出真实的人体动作 Abstract 提出基于 LiDAR(Light Detection and Ranging) 激光雷达的数据集 & 人体动作捕捉框架 LiDAR: 激光探测与测距（设备）创新点提出多模态数据集： RGB + LiDAR + IMU(传感器，可测量运动，受磁场影响) 提出无标记、远距离人体动作捕捉框架动作捕捉将人体或者其他物体的动作以数字化的方式进行记录和存储具体来说是输出一些表示 shap... Read More

#文献 #LiDAR #人体动作捕捉
【3DGS 三维表达之争】记录

Jan 27, 2024 About 1 min

3DGS 优点训练、渲染快，好验证实验结果鲁棒性好 3DGS 缺点存在很多 artifacts 需要调更多的超参问题模拟了物理世界的表面，但是内部还是空的；或者说无法从这个倒推回物理世界给初学者的建议短时间内卷出很多成果不太可能，都是需要积累的不要因为比手速而失去科研本身的乐趣把 NeRF 的东西重新用 3DGS 做一遍还是有意义的，更深入了解 3DGS & 拓宽领域边界。 Read More

#3DGS
EECS498笔记

Jan 12, 2024 About 1 min

目标检测 https://blog.csdn.net/yegeli/article/details/109861867 任务：找出 image 中的 instance, 并用 bounding box 包起来。原理：分为 one-stage 和 two-stage，区别是前者一次性检测出 multi-object 的 class 和 bounding box 的位置，后者先预先找出一些 bounding-box，再对它们做分类。 R-CNN Stage One 第一步，得到候选框。 Sliding Window 暴力的正确做法，需要枚举每一个可能的边框，时间复杂度 \(\frac{H(H+1)}{2}\frac{W(W+1)}{2}\)，太慢 Heur... Read More

#目标检测 #风格迁移 #可视化 #图像分割 #3D视觉
生成模型笔记

Jan 06, 2024 About 7 mins

生成模型 Generative models 概述分类监督无监督自监督无监督 including: PCA Auto Encoder 学习数据的压缩表示生成任务的模型自监督是无监督的一个子集。它不需要标注的数据，能生成伪标签。生成模型和判别模型判别式（discriminative）：需要 annotation 数据模型需要根据输入的 x 产生标签 y，或者学习输入数据的 latent structure 缺点：存在 adversarial attack，不能区分不合理的类别的图像 Eg. Classification, regression, … 生成式（generative）：不需要 annotation 数据 ... Read More

#Diffusion #DDPM #VAE #GAN #Flow
第一次组会汇报：Neural Body 复盘

Dec 26, 2023 About 1 min

Neural Body 原理 Motivation 论文希望生成动态人体的自由视角视频，这有很多应用，包括电影工业，体育直播和远程视频会议现在效果最好的视角合成方法主要是NeRF [3] 这个方向的论文，但他们有两个问题：需要非常稠密视角来训练视角合成网络。比如NeRF论文中，一般用了100多个视角来训练网络。 NeRF只能处理静态场景。现在大部分视角合成工作是对于每个静态场景训一个网络，对于动态场景，上百帧需要训上百个网络，这成本很高 Method 一共有 5 个基本的 steps。 1.论文定义了一组离散的local latent codes。为了摆放这些latent codes，需要对这一帧预测一个人的粗糙的human mesh，比如SMPL模型。首先补充... Read More

#Neural Body
NeRF：原理篇

Dec 23, 2023 About 1 min

一篇文章清楚如何从图片数据集得到最终视频。前置知识 NeRF 曾获得 ECCV2020 Best Paper Honorable Mention. 其核心是使用二维图像隐式重建三维场景，可以根据静态场景渲染出任意角度的清晰图像。 pipeline如图所示：了解了 NeRF 能从输入 (\(x,y,z, \theta, \phi\)) 通过神经网络映射到 (\(\sigma, RGB\))，但其实还有很多细节不清楚：从上传图片数据集开始，图片是二维的数据，是怎么产生三维格式的输入，又是如何得到表示方向的量的呢？怎么从网络的输出得到最后展示出来的视频的？这个模型是怎么样训练的？损失函数是什么，如何优化？ ... Read More

#NeRF
从零开始的科研：远程连接Linux服务器跑深度学习任务

Dec 07, 2023 About 1 min

我使用的编辑器是 pycharm。远程连接服务器获取渠道自己购买 eg. AutoDL链接使用分配的账号使用方式在 pycharm 的 terminal 中输入登录命令和登录密码 step1： step2: 这里也需要切换到远程服务器的环境: step3: 如果想看远程服务器的文件树需要进行如下配置：点击 tools -> deployment（部署） -> browse remote host 一件非常重要的事：虚拟环境程序想要运行，需要 code 和 python interpreter。这里的 interpreter 是需要限定的。有一个全局范围的 interpreter。而一... Read More

#服务器 #pycharm
综述：恢复 3D 人体网格

Dec 05, 2023 About 1 min

从单目图像/视频恢复 3D 人体网格的综述。人体建模对人体的建模分为基于几何的方法和 3D 扫描的办法。 1.基于几何把人体看成小的几何体组成的集合，例如SCAPE、SMPL等模型。缩小了解空间，估计参数即可，问题是这些模型都没有考虑衣服和头发的影响。 2.3D 扫描（点云 -> human mesh）配准（把多组、多模态数据对应起人的哪个部位）骨架识别蒙皮 Image 主要分为基于优化的方法以及基于回归的方法基于优化主要思想：应用 model，拟合参数，加入了数据terms、正则化项。代表方法：SMPL、SMPL-X。 eg. Bogo et al. 的方法里：目标函数 = data term + 姿态先验 * 2 + ... Read More

#3D Human Mesh Recovery
使用 Github Pages + jekyll 模板搭建的个人博客

Dec 05, 2023 About 1 min

之前一直想要比较 Geek 的博客，很早就了解到了 Github Pages。因为各种原因从大二鸽到了大四。。。。总之这是这个网站上的第一篇博文~ Github Pages？是一个静态网站，优点是可以通过编写 markdown 文件展示博文，自己定制页面的布局和风格。简洁又好看。 1. Github 上新建 repository 新建一个 repository，起名为【xxx.github.io】（xxx为任意字符串，eg.”tem.github.io”）现在就可以从浏览器输入 eg.https://starlightlmy/tem.github.io 来访问你的博客~ （注：默认访问的是 https://starlightlmy/tem.github.io/inde... Read More

#Github Pages #jekyll
Table example

Dec 15, 2017 About 4 mins

Table example as below For now, these extended features are provided: Cells spanning multiple columns Cells spanning multiple rows Cells text align separately Table header not required Grouped table header rows or data rows Rowspan and Colspan ^^ in a cell indicates it should be merged with the cell above. This feature is contribu... Read More

#table