목록공부 (21)
Trikang
3D-GS 계열 전체에 걸쳐 쓸 수 있는 FPS 측정 스크립트를 야매로 구성해봤다. EAGLES의 코드를 많이 참고함.사용법은 3dgs 코드의 render.py와 거의 유사하다 아래 소스코드를 복사한 후, 3d-gs 디렉토리에 새로운 python 파일 하나 붙여넣은 다음에 사용하면 된다. 나는 measure_fps.py로 이름 짓고 사용 중.import osimport jsonimport torchimport numpy as npimport subprocess as spfrom gaussian_renderer import renderimport torch.utils.benchmark as benchmarkfrom gaussian_renderer import GaussianModelfrom argparse..
TMI코드 실행 중 문제가 생겨 문제 수정 후 pull request 보냈는데, 승인되어 해당 논문 코드의 Contributors의 명단에 이름을 올리게 되었다. 간단한 코드 수정을 통해 얻은 결과라 크게 성취감을 느끼진 않지만, 신기해서 공유해본다.1. Introduction"NeRFs have also been successfully extended to other sensor modalities"Depth viewsMultimodal Neural Radiance Field(2023 ICRA)Near-infrared and multi-spectral imagesCrossSpectral Neural Radiance Fields(2022 3DV)LiDAR point cloudsNeRF-LiDAR: Gen..
찾아도 잘 안나와서 몰랐는데, 이번 CVPR 2024에서 Accept 된듯하다.1. Introduction일반적으로 Reconstruction을 수행하기 위해서는 카메라의 intrinsic, extrinsic 파라미터를 구해야 했다. 이는 일반적으로 지루하고 번거로운 작업이지만, 모든 최고 성능의 MVS 알고리즘의 핵심인 3D 공간에서 해당 픽셀을 삼각 측량하는 데 필수적이다. 해당 논문에서는 camera calibration이나 viewpoint pose에 대한 prior information\(사전 정보\)이 없이 작동하는, 근본적으로 새로운 패러다임인 Dense and Unconstrained Stereo 3D Reconstruction\(DUSt3R\)를 소개한다. 해당 논문에서는 일반적인 pro..
문제데이터 셋을 준비하고 CamP를 돌리기 이전에 ZipNeRF를 먼저 돌리려고 시도하면 10,000번 마다 checkpoint를 저장하는 코드에서 아래와 같은 이슈 발생 "TypeError: PyTreeCheckpointHandler.__init__() got an unexpected keyword argument 'restore_with_serialized_types'"...I0602 16:26:44.424313 140658210706048 train.py:360] 9800/200000: loss=0.00852, psnr=32.213, lr=7.77e-04 | data=0.00726,dist=1.5e-06, inte=1.7e-05, inte=1.5e-05, regu=6.7e-06, regu=3...
https://youtu.be/oJEPQoE-_Rg?si=Zn37Efr4BlaPFmRD&t=23
knn 함수를 수정할 필요가 있어서 simple-knn 모듈 내의 spatial.h, spatial.cu에 knn2 함수를 추가해줬다. // spatial.h #include torch::Tensor distCUDA2(const torch::Tensor& points); torch::Tensor knn2(const torch::Tensor& points); 그리고 이를 빌드하기 위해 ext.cpp를 아래처럼 수정했다 #include #include "spatial.h" PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) { m.def("distCUDA2", &distCUDA2); m.def("knn2", &knn2); // 추가 } 이후 gaussian-splatting 루트 디렉토..
train.py의 main 함수 전체 구조 if __name__ == "__main__": # Set up command line argument parser parser = ArgumentParser(description="Training script parameters") lp = ModelParams(parser) op = OptimizationParams(parser) pp = PipelineParams(parser) parser.add_argument('--ip', type=str, default="127.0.0.1") parser.add_argument('--port', type=int, default=6009) parser.add_argument('--debug_from', type=int,..
MiniGPT-4는 처음에 4개의 A100 GPU에서 256 배치 크기를 사용하여 20,000 번의 학습을 진행하며, LAION, Conceptual Captions, SBU의 이미지를 포함하는 combined image captioning dataset을 활용하여 visual features를 Vicuna language model과 align한다. 그럼에도 불구하고, 단지 LLM과 visual features를 align하는 것으로는 챗봇처럼 강력한 visual conversation(시각적 대화) 기능을 보장하기에는 불충분하다. raw 이미지-텍스트 쌍에 기본 노이즈가 있으면 언어 출력이 수준 이하로 떨어질 수 있다. 따라서 생성된 언어의 자연스러움과 사용성을 개선하기 위해 3,500개의 상세한..