3dgs的技术原理

3D Gaussian Splatting (3DGS) 是近年来计算机图形学和计算机视觉领域的一项突破性技术。它结合了显式几何表示（点云/粒子）和体积渲染的优点，实现了实时的渲染速度和照片级的重建质量。

下面我将分两部分为你详细拆解：3DGS的训练与渲染流程，以及3D重建的深层意义。

简单来说，3DGS 不使用网格（Mesh）或神经网络（如 NeRF 中的 MLP）来表示物体，而是使用成千上万个3D 高斯椭球（3D Gaussians）。你可以把它们想象成无数个半透明的发光小云团，它们叠加在一起就组成了物体。

这是展示结果的过程，也是训练中计算 Loss 的基础。3DGS 的渲染速度之所以极快（100+ FPS），是因为它采用了类似传统图形学的**光栅化（Rasterization）**管线。

输入： 一组 3D 高斯球。每个球包含属性：
- 位置 (Position): $x, y, z$
- 形状 (Covariance): 由缩放 (Scale) 和旋转 (Rotation/Quaternion) 决定。
- 颜色 (Color): 使用球谐函数 (Spherical Harmonics) 表示，支持随视角变化的反射光泽。
- 不透明度 (Opacity): $\alpha$，决定这个球有多“实”。
步骤 1：投影 (Projection)
- 将 3D 空间中的椭球投影到 2D 屏幕（摄像机平面）。
- 这个过程就像把一个气球压扁在纸上，3D 椭球变成了 2D 平面上的高斯分布（类似于一个模糊的圆斑）。
步骤 2：排序 (Sorting)
- 关键步骤：将屏幕上所有的 2D 高斯斑点按照深度（离摄像机的距离）进行排序。通常是从远到近（Back-to-Front）。
- 3DGS 使用了非常高效的 GPU 基数排序（Radix Sort）。
步骤 3：基于图块的光栅化 (Tile-based Rasterization)
- 为了并行加速，屏幕被划分成 $16 \times 16$ 的小方块（Tiles）。
- 对每个像素，按顺序叠加高斯斑点的颜色。使用Alpha Blending 公式：
  $$C = \sum_{i} c_i \alpha_i T_i$$
  （$T_i$ 代表前面所有层剩余的透明度，即“还没被挡住的光”）。
- 当不透明度累积到饱和（完全不透光）时，该像素停止计算，节省资源。

训练的目标是：调整这几百万个高斯球的属性，使得它们渲染出来的图和真实照片一模一样。

初始化 (Initialization):
- 通常从稀疏点云（SfM，如 COLMAP 生成的点）开始。每个点初始化为一个小的 3D 高斯球。
迭代优化循环 (Optimization Loop):
1. 渲染：从当前视角渲染图像。
2. 计算 Loss：对比渲染图和真实照片（L1 Loss + D-SSIM），计算误差。
3. 反向传播 (Backpropagation)：计算梯度，更新每个高斯球的位置、形状、颜色和不透明度。
自适应密度控制 (Adaptive Density Control) - 3DGS 的核心魔法:
单纯的梯度下降是不够的，3DGS 会动态地增加或删除高斯球：
- 克隆 (Clone): 如果一个高斯球很小，但梯度很大（说明这里细节不够），就把它复制一份，填补空缺（用于填充细节）。
- 分裂 (Split): 如果一个高斯球很大，且梯度很大（说明它试图覆盖形状复杂的区域，导致甚至出现了伪影），就把它切分成两个小球（用于精细化几何）。
- 剪枝 (Prune): 如果一个高斯球的不透明度 $\alpha$ 变得非常低（几乎透明），或者形状变得极其巨大/极其细长（异常值），直接删除。
结果： 经过几万次迭代，从最初稀疏的点云，演变成数百万个精细分布的高斯球，完美拟合场景。

3D 重建（3D Reconstruction）不仅仅是“把照片变成模型”，它是连接物理世界与数字世界的桥梁。我们可以从以下四个维度来理解它的意义：

超越照片的维度： 照片是二维的切片，丢失了深度和空间感。3D 重建是对物理空间的完整“克隆”。
应用： 巴黎圣母院大火后，正是依靠之前的激光扫描和 3D 重建数据，修复工作才有了精确的蓝图。文物的数字化让后人即使在实物损毁后，也能在数字世界永恒地观察其细节。

6DoF (六自由度) 体验： 看视频是被动的（摄像机怎么动你就怎么看）。但有了 3D 重建，用户可以在场景中自由行走（VR/AR）。
空间计算时代： 随着 Apple Vision Pro 等设备的出现，屏幕不再局限于显示器，而是整个空间。3DGS 这种技术让把现实世界搬进头显成为可能，实现了远程旅游、远程看房的真实感（Telepresence）。

机器的眼睛： 自动驾驶汽车和机器人不仅需要看到“图片”，更需要理解“空间”。
SLAM 与导航： 3D 重建帮助机器人理解“我在哪里”、“前面有什么障碍物”、“这个物体的形状是什么”。
具身智能 (Embodied AI)： 如果我们要训练一个机器人去拿杯子，它必须在一个物理准确的 3D 环境中模拟训练。3DGS 可以快速构建这种高保真的模拟环境。

降低门槛： 以前做 3D 场景需要专业的建模师用 Maya/Blender 耗时数周。
AIGC 3D： 现在的技术（如 3DGS）允许普通人用手机拍一段视频，几分钟内就生成电影级的 3D 场景。这极大地解放了游戏开发、电影特效（VFX）和元宇宙内容的生产力。

3DGS 是一种显式、高效、可微的渲染技术，它通过“泼溅”数百万个微小的椭球来欺骗我们的眼睛，让我们看到连续的物体。

而 3D 重建 的意义在于**“空间化”**信息。它将人类对世界的感知从 2D 图像升级为 3D 空间，不仅让人类能更真实地回溯记忆，也让 AI 能够真正地理解和操作物理世界。

#3dgs

3dgs的技术原理

http://cathylove47.github.io/2025/11/19/3dgs随想/

作者

cathy

发布于

2025年11月19日

许可协议