扩散模型和3dgs论文检索
深度生成模型与可微分渲染在医学影像及3D动态场景中的前沿进展研究报告 (2023–2026)
引言与技术范式演进
在2023至2026年的计算机视觉与医学影像分析研究周期中,我们见证了一场深刻且不可逆转的技术范式转换。这一跨越式的演进主要由两大核心生成与表示技术的爆发所驱动:其一是扩散概率模型(Diffusion Probabilistic Models, DPMs)在高质量三维体积生成、复杂拓扑结构合成以及医学逆问题求解中确立了绝对的统治地位;其二是3D高斯溅射(3D Gaussian Splatting, 3DGS)及其四维动态变体作为一种显式、高效且完全可微的辐射场表示方法,彻底颠覆了以往以神经辐射场(NeRF)为代表的隐式渲染技术。
医学影像领域长期以来饱受数据稀缺、标注成本高昂、成像模态多样以及物理设备固有的辐射剂量与成像时间限制的困扰。传统的生成对抗网络(GAN)在面对高维、高分辨率的三维医学体积时,常常陷入模式崩溃(Mode Collapse)的困境,难以生成具有高度解剖学一致性的连续切片。而基于多层感知机(MLP)的隐式神经表示方法虽然在静态三维重建中取得了成功,但其庞大的计算开销和隐式几何特征使得在需要极高实时性与精确物理形变追踪的手术导航、内窥镜动态重建等场景中显得力不从心。
正是为了突破这些长期的行业瓶颈,学术界顶尖会议(如MICCAI, CVPR, ICCV, ECCV, ICLR等)及权威期刊(如IEEE TMI, MedIA)在过去三年中涌现出大量将扩散模型、3D高斯表示与可微分渲染深度融合的开创性工作。扩散模型通过在隐空间(Latent Space)内构建平滑的数据流形,极大地缓解了多模态数据生成中的维度灾难问题;而3DGS凭借其显式的点云级操作能力、各向异性的高斯椭球数学建模以及基于瓦片(Tile-based)的极速光栅化渲染,为高动态、弱纹理的临床环境提供了前所未有的三维重建精度与帧率。
本研究报告将系统性地梳理并深度剖析这些位于技术最前沿的开源学术成果。报告按照技术路线与临床应用场景,分为三大核心板块展开论述:首先,探讨扩散模型在三维医学影像生成、疾病时空演变建模及复杂逆问题中的突破;其次,深究3D Gaussian Splatting与可微分渲染在稀疏视角医学成像及极端动态内窥镜重建中的前沿拓展;最后,解析扩散先验与三维显式表示相融合的生成式渲染工作在零样本生成与临床条件约束下的场景编辑能力。通过细致入微的底层逻辑分析与横向对比,本报告旨在为该领域的专业研究人员提供一份详尽、深入且具有前瞻性的学术参考指南。
第一部分:扩散模型在三维医学影像生成、重建与运动建模中的突破
扩散模型通过模拟热力学中的扩散过程,利用逐步加噪与去噪的马尔可夫链,展现出了极其优异的复杂数据分布拟合能力。在医学影像分析中,从二维切片跃升至三维甚至包含时间维度的四维时空建模,一直是生成模型面临的终极挑战。近期的顶会工作通过引入隐空间压缩、多阶段去噪策略以及局部掩码控制,成功将扩散模型引入到疾病预测、拓扑图生成及医学逆问题求解的最前沿。
1.1 疾病时空演变建模与超高分辨率 3D 体积生成
在神经退行性疾病(如阿尔茨海默病)的纵向医学研究中,预测疾病如何随着时间轴在复杂的三维脑部解剖结构上蔓延与发展,具有极高的临床诊断与药物研发价值。传统的方法往往依赖于宏观的统计形态学模型或受限于固定维度的常微分方程网络,这些方法难以捕捉到高频的解剖结构形变,且无法直接生成具有真实临床纹理的未来时刻预测影像。
在MICCAI 2024会议上,由Lemuel Puglisi, Daniel C. Alexander与Daniele Ravì共同提出的脑部潜在演变模型(Brain Latent Progression, 简称BrLP)为这一难题提供了革命性的解决方案 。该工作被评选为MICCAI 2024的Oral论文(排名前4%),其核心突破在于将疾病进展模拟(Disease Progression Modeling, DPM)从传统的标量空间转移到了基于潜在扩散(Latent Diffusion)的高维流形空间。BrLP的架构设计极为精巧,主要分为三个协同运作的训练阶段。首先,研究团队利用海量的纵向脑部MRI数据(整合自BLSA, ADNI, OASIS 3及AIBL等著名队列),训练了一个强大的三维自编码器,将庞大且冗余的原始3D MRI数据无损压缩至一个紧凑的隐空间中 。随后,一个定制化的Diffusion UNet被部署在此隐空间中,用于学习健康与病理状态下大脑隐式表示的无条件生成过程。然而,预测疾病的演变需要强有力的时空条件约束。为此,BrLP创新性地引入了ControlNet架构的变体。不同于常规的文本到图像控制,此处的ControlNet被训练用于接收个体化的时间跨度(年龄差)、疾病分期以及基线扫描数据,从而精确引导隐变量随时间轴发生符合生理与病理学规律的演变 。更为强大的是,该框架展现出了极高的开放性,它允许接入任何能够预测局部体积变化的辅助离散选择模型(Discrete Choice Model, DCM)作为先验物理约束,从而保证生成的未来时刻3D MRI不仅在视觉纹理上逼真,在脑室扩张、海马体萎缩等具体体积定量指标上也严丝合缝 。相较于纯粹的回归网络,BrLP真正实现了个体化、时空一致的高分辨率脑萎缩预测及可视化。
与此同时,在基础的3D医学影像生成领域,面临的最大技术鸿沟是“维度灾难”带来的显存溢出问题。标准扩散模型在处理高于128x128x128分辨率的医学体积时,其注意力机制的计算复杂度将呈指数级爆炸。针对这一全行业的痛点,Haoshen Wang, Zhentao Liu, Zhiming Cui等人在IEEE Transactions on Medical Imaging (TMI) 2025上发表了极具里程碑意义的3D MedDiffusion模型 。该工作致力于打造一个可控且具备普适性的高质量3D医学图像生成基础框架。其核心技术创新在于设计了一种极其高效的斑块-体积自编码器(Patch-Volume Autoencoder, PVA)。在数据压缩阶段,PVA采用基于分块的编码策略(Patch-wise encoding),有效规避了单次吞吐完整三维体积带来的显存耗尽风险;而在图像重建阶段,则采用基于完整体积的解码策略(Volume-wise decoding),从根本上消除了分块生成经常导致的边界拼接伪影与全局结构断裂 。为了进一步提升压缩质量,研究团队引入了从区域到全局的两步向量量化(VQ-VAE)策略,在大幅压缩数据的同时完美保留了诸如大视野MRI等影像的宽泛上下文信息。在扩散去噪网络的设计上,3D MedDiffusion舍弃了传统的UNet,转而开发了名为BiFlowNet的新型噪声估计器,该结构在反向去噪的每一步中,能够同时关注局部的病灶纹理细节与全局的器官解剖结构 。得益于这一系列底层架构的革新,该模型在覆盖从头部到腿部的多模态(CT与MRI)大规模数据集上展现出了惊人的泛化能力,成功实现了高达512x512x512像素级别的精细三维医疗图像生成。在下游的稀疏视图CT重建、快速MRI重建以及数据增强任务中,3D MedDiffusion生成的合成数据显著提升了罕见疾病分类与肿瘤分割的准确率,例如在乳腺肿瘤分割任务中,将Dice相似系数从0.91大幅推升至0.95,彻底证明了其作为生成式基础模型的巨大临床价值 。
1.2 医学成像逆问题求解与复杂拓扑生成
除了纯粹的图像生成,医学影像领域存在大量典型的病态逆问题(Ill-posed Inverse Problems),例如由于辐射剂量限制导致的稀疏视角CT重建,以及为加快扫描速度而进行的欠采样MRI恢复。传统基于总变分(Total Variation)的迭代算法或基于CNN的监督学习方法,往往在面临训练数据与测试数据分布不一致(Out-Of-Distribution, OOD)时发生严重的性能坍塌。
在ECCV 2024会议上,Hyungjin Chung与Jong Chul Ye深入探讨了扩散先验在医学逆问题中的泛化能力,并提出了深具理论深度的DDIP3D(Deep Diffusion Image Prior for 3D Inverse Problems)算法 。该研究的出发点在于,获取成对的高质量金标准(Gold Standard)医学数据在许多前沿成像模态中是极其昂贵甚至不可能的。DDIP3D的突破在于它建立在深度图像先验(Deep Image Prior)的理论基础上,并与强大的无条件扩散模型先验相结合。针对3D测量数据的独特性,作者开发了定制化的D3IP加速自适应算法。该算法允许使用完全由非真实、分布外的数据(例如人工合成的几何体模Phantom图像)训练出来的扩散模型,作为正则化器无缝嵌入到3D逆问题求解器中。在推理阶段,通过元学习(Meta-learning)技术的辅助,模型能够在无需任何目标患者真实配对数据的情况下,迅速适应当前受损的测量数据分布,驱动迭代重建过程收敛到具有高度解剖结构一致性的三维图像。这一工作相比于传统的监督式深度学习逆问题求解器,展现出了无与伦比的鲁棒性,并在保持超高重建质量的同时,将基于扩散的推断速度提升了数个数量级,为极端条件下的临床医学成像开辟了新的道路 。
扩散模型在捕捉连续像素强度方面的卓越表现已被广泛证实,但如何将其应用于生成具有离散性质的复杂图拓扑结构(如血管网络系统),一直是一个未解之谜。MICCAI 2024上,由Chinmay Prabhakar, Suprosanna Shit等人发表的工作《3D Vessel Graph Generation Using Denoising Diffusion》首次成功攻克了这一难题 。该论文针对微观毛细血管(如Vessap数据集)和主要脑血管(如CoW数据集)的图生成任务,摒弃了传统生物力学仿真中僵化且缺乏病理多样性的L-Systems或规则生成算法。作者创新性地设计了一个基于图神经网络的双阶段扩散去噪框架:在第一阶段,模型专注于连续空间中的节点坐标(Node Coordinates)去噪,确保血管分叉点与端点在三维空间中遵循真实的解剖分布;在第二阶段,模型专门针对节点间的离散边缘连接性(Edge Connectivity)进行扩散生成 。为了使离散的边连接变得可微分从而能够进行梯度反向传播,该工作巧妙地引入了Gumbel-Softmax重参数化技巧。此外,为了防止生成违背生物学常理的悬空血管或异常循环回路,研究中特别引入了度损失(Degree Loss)约束。实验证明,该模型不仅能够生成高度多样化、独一无二的全新血管图,且生成的血管网络在分叉角度、连通性和整体拓扑统计量上与真实人体的生理构造惊人地吻合,为下游的血流动力学仿真、血管介入手术规划及植入医疗器械的优化提供了近乎无限的、高质量的虚拟测试图谱 。
在另一项关注特定病灶增强的MICCAI 2024研究《Myocardial Scar Enhancement in LGE Cardiac MRI using Localized Diffusion》中,HMS-CardiacMR团队展示了扩散模型在图像条件翻译中的精细控制力 。晚期钆增强(LGE)心脏MRI是评估心肌瘢痕(如心梗后遗症)的金标准。然而,低对比度的图像往往导致瘢痕区域难以与健康的血池或心肌组织区分。传统的全局直方图均衡化或去噪算法在提升对比度的同时,极易导致健康组织的边缘模糊甚至引入伪影。该团队巧妙地开发了一个基于感兴趣区域(ROI)的局部扩散增强框架。系统首先利用预训练的U-Net网络在切片上生成二值化的ROI掩码(其中瘢痕可能存在的区域标记为1,明确的健康背景标记为0)。在随后的扩散前向加噪与反向去噪过程中,网络被严格限制仅在掩码区域内执行概率采样与特征变换,而将背景区域的数据原封不动地保留。为了适应不同设备采集的对比度分布差异,框架中还融合了自适应的伽马校正技术。通过设定特定的加噪步数(控制增强的幅度)并执行多次随机推理以生成平均图像(Mean Image),该局部扩散策略在完美保留心脏整体复杂解剖结构真实性的同时,犹如数字显微镜般精确、犀利地增强了病灶区域的视觉对比度,极大降低了心内科医师的诊断难度 。
表1:扩散模型在3D医学生成与逆问题中的核心突破 (2023-2026)
| 论文题目 | 作者团队 | 发表会议/年份 | 核心任务与应用场景 | 架构设计与开源状态 |
|---|---|---|---|---|
| BrLP: Enhancing Spatiotemporal Disease Progression Models… | L. Puglisi, D. Alexander, D. Ravì | MICCAI 2024 (Oral) | 纵向脑部MRI时空疾病演变预测 | Latent Diffusion + ControlNet + DCM先验。 |
| 3D MedDiffusion: A 3D Medical Diffusion Model… | H. Wang, Z. Liu, Z. Cui 等 | IEEE TMI 2025 | 3D超高分辨率(512³)多模态医疗影像生成 | Patch-Volume Autoencoder + BiFlowNet噪声估计。 |
| DDIP3D: Deep Diffusion Image Prior for Efficient OOD Adaptation… | H. Chung, J. C. Ye | ECCV 2024 | 3D医学逆问题(稀疏CT/MRI)的分布外自适应 | 无条件扩散图像先验 + 元学习零样本适应。 |
| 3D Vessel Graph Generation Using Denoising Diffusion | C. Prabhakar, S. Shit 等 | MICCAI 2024 | 3D解剖血管拓扑图(循环与分叉)扩散生成 | 连续节点与离散边缘双阶段去噪 + Gumbel-Softmax。 \[Code: Github/chinmay5/vessel\_diffuse\] |
| Myocardial Scar Enhancement in LGE Cardiac MRI… | HMS-CardiacMR 团队 | MICCAI 2024 | 心脏MRI心肌瘢痕的局部对比度增强 | 基于U-Net二值掩码约束的局部条件扩散。 |
导出到 Google 表格
第二部分:3D Gaussian Splatting 与可微渲染在医学动态重建中的拓展
如果说扩散模型解决了“如何无中生有地生成符合分布的医学数据”这一难题,那么3D Gaussian Splatting (3DGS)及其可微分渲染生态的崛起,则彻底解答了“如何实时、精确、显式地重建复杂三维医疗场景”的诉求。不同于基于多层感知机(MLP)通过光线投射(Ray Marching)隐式查询密度的NeRF模型,3DGS利用大量的具有中心点、缩放矩阵(Scale)、旋转四元数(Rotation)、不透明度(Opacity)和球谐函数(Spherical Harmonics)的高斯椭球来显式地填满三维空间。配合高度优化的Tile-based并行光栅化器,3DGS不仅避免了多频特征编码的计算瓶颈,还自然地支持了场景的编辑、剪枝与实时物理碰撞检测。在医学领域,这一特性的威力在极稀疏视角层析成像以及高动态且缺乏纹理的内窥镜手术重建中得到了淋漓尽致的展现。
2.1 稀疏视图医学层析成像与多模态体积融合
在CT或数字减影血管造影(DSA)的临床采集中,减少X射线的投射视角是降低患者辐射吸收剂量的最直接手段。然而,由于视角的极度匮乏,传统的滤波反投影(FBP)算法会在重建的体积中产生严重的条纹伪影和结构缺失。尽管基于NeRF的方法展现出了强大的抗混叠能力,但其数小时的训练收敛时间使其根本无法应用于需要即时反馈的临床诊断。
为了彻底跨越这一鸿沟,来自上海科技大学的Zhentao Liu, Zhiming Cui等人在IPMI 2025上发表了基于口头报告(Oral)形式的开创性工作《4DRGS: 4D Radiative Gaussian Splatting for Efficient 3D Vessel Reconstruction from Sparse-View Dynamic DSA Images》 。该研究首次将高斯溅射框架扩展到了动态DSA造影序列的4D血管重建任务中。研究团队敏锐地指出,传统的3DGS设计初衷是合成自然场景的RGB颜色,这在物理上根本不适用于基于射线穿透衰减原理的医学成像。因此,4DRGS彻底重构了高斯的属性,提出了“辐射高斯内核”(Radiative Gaussian kernels)的概念。每一个辐射高斯椭球不再包含颜色信息,而是被赋予了一个表示中心物理衰减系数的标量参数 。在可微渲染过程中,模型摒弃了Alpha Blending,转而开发了一种专门定制的X射线光栅化器,沿着射线路径精确累加高斯核的衰减值,从而严格遵循比尔-朗伯定律(Beer-Lambert law)合成2D的DSA投影图 。考虑到动态造影过程中血管逐渐被造影剂充盈的四维时变特性,研究还融合了隐式的特征场来调节高斯随时间的演化。为了抑制稀疏视角带来的过拟合和形状发散,模型巧妙地引入了基于边界的缩放激活机制(Bounded Scaling Activation)以限制高斯椭球变得过度扁长,并采用累积衰减剪枝(Accumulated Attenuation Pruning)策略不断剔除对射线衰减贡献极小的无效高斯 。结合底层的tiny-cuda-nn即时编译加速,4DRGS在仅提供30个极端稀疏视角的动态DSA数据下,仅需区区5分钟即可输出细节惊人的高保真3D动态血管体积。相较于同等精度的NeRF变体,其重建速度飙升了近32倍,一举将深度学习断层重建推向了术中实时临床应用的新纪元 。
针对锥形束CT(CBCT),MICCAI 2024会议上也出现了类似方向的杰出贡献。Yiqun Lin与Xiaomeng Li团队发表的《DIF-Gaussian: Learning 3D Gaussians for Extremely Sparse-View Cone-Beam CT Reconstruction》同样证实了高斯显式表示在处理严重病态逆问题时的优势 。通过将体积渲染与医学射线的物理过程融合,并对高斯原语的密度与协方差矩阵施加严格的空间约束,DIF-Gaussian有效地抑制了极稀疏视角重建中常见的噪声放大现象,在牙科及骨科的微小病灶细节恢复上显著优于传统的隐式神经渲染方法 。
不仅限于X射线成像,多模态数据的融合与重建同样受益于高斯表示。在ArXiv 2025上公开的一项来自GMUM机构的研究《MedGS: Gaussian Splatting for Multi-Modal 3D Medical Imaging》,展示了如何利用高斯溅射处理超声(USG)、MRI和CT等异构数据 。医学影像经常存在层间距过大或扫描不连续的问题。传统的插值方法容易产生阶梯伪影,而隐式神经网络则容易被超声图像中强烈的散斑噪声(Speckle Noise)所误导。MedGS框架创造性地将二维医学切片嵌入到三维物理空间中,并利用特殊的折叠高斯分布(Folded-Gaussian components)对其进行参数化建模。在执行多模态数据的帧插值时,框架不依赖简单的线性插值,而是通过高阶多项式函数在潜变量层面对高斯参数进行平滑过渡 。更重要的是,得益于高斯的显式边界属性,MedGS配合Marching Cubes算法,能够直接、精确地从分段渲染帧中提取出高质量的3D网格(Mesh),并在提取过程中自动根据NIfTI文件中的体素间距(Voxel Spacing)完成物理尺度的精准缩放校正 。这种显式特征使得重构出的器官模型天然具备了直观可编辑和噪声鲁棒的特性,为跨模态图像融合及手术模拟提供了一个稳定、统一的3D表示底层架构。
2.2 无SfM依赖与极端动态的手术内窥镜 4D 重建
内窥镜与腹腔镜手术场景被公认为计算机视觉领域最难攻克的堡垒之一。在微创手术期间,软组织会发生极具弹性和塑性的复杂形变(切割、缝合、牵拉);湿润的器官表面会产生强烈的镜面高光与反射;持续的出血或烟雾会导致大面积的纹理缺失;而频繁进出的手术器械则造成了严重的视野遮挡。在这些严苛条件下,传统的3DGS管道所依赖的运动恢复结构(Structure-from-Motion, SfM,如著名的COLMAP软件)几乎必定会因为特征点匹配失败而崩溃,导致高斯溅射无法获得关键的初始点云和精确的相机位姿,整个重建流程在第一步便宣告破产。
香港中文大学的Yun-hui Liu团队在MICCAI 2024上发表的《Free-SurGS: SfM-Free 3D Gaussian Splatting for Surgical Scene Reconstruction》精准地击中了这一行业痛点,提出了国际上首个完全摆脱SfM依赖的内窥镜3DGS重建范式 。该研究的破局思路在于将静态预计算的相机位姿转化为在渲染过程中与场景几何联合优化的可变参数。由于手术环境缺乏可靠的静态特征点,传统仅依赖像素级光度损失(Photometric Loss)的优化很容易陷入局部最优,导致相机轨迹漂移。Free-SurGS创新性地挖掘了手术视频序列中连续的瞬时光流先验(Optical Flow Priors)。在联合优化阶段,模型强行要求由3D高斯反向投影到2D屏幕上形成的人工投影流,必须与基于深度学习方法提取的真实帧间光流保持高度一致 。为了进一步过滤由于内窥镜反光和器械快速移动造成的错误光流匹配,作者引入了基于极线几何(Epipolar Geometry)的一致性检查机制,精准甄别并剔除违反刚性运动规律的不可靠噪点 。这一无SfM的策略不仅赋予了系统从零开始、稳健生长的能力,还在SCARED等真实内窥镜数据集上证明了其即使在极端缺乏纹理和光照剧烈变化的手术切口处,依然能合成具有极高空间一致性的新视角图像。
然而,即便解决了位姿初始化的问题,当3DGS被拓展至四维(加入时间维度以模拟组织形变)时,高斯原语的数量将呈指数级增长,随之而来的海量高斯属性与四维形变场的巨大显存开销,使得该技术几乎不可能部署在算力受限的临床手术推车终端上。针对此算力瓶颈,同样来自港中大的Yixuan Yuan团队在MICCAI 2024及IEEE TMI 2025上连续推出了一系列重磅工作,代表作包括《LGS: A Light-weight 4D Gaussian Splatting for Efficient Surgical Scene Reconstruction》与《EndoGaussian: Gaussian Splatting for Deformable Surgical Scene Reconstruction》 。
在LGS框架中,为了彻底实现4D模型的轻量化,作者深入剖析了内窥镜视频的时空冗余性,并独创了三大极致的剪枝与压缩算法。首先是形变感知剪枝(Deformation-Aware Pruning, DAP)。手术中大部分背景组织处于相对静止或刚性运动状态,LGS通过动态评估每一个高斯椭球对局部非刚性形变的贡献度,大刀阔斧地剔除那些冗余的高斯单元,大幅降低了原语数量基数 。其次是高斯属性剪枝(Gaussian-Attribute Pruning, GAP),针对非核心手术区域(如远离器械操作的深处组织),算法主动降低其球谐函数等表达光照和颜色属性的维度,进一步压缩单体内存占用。最后是特征场凝聚(Feature Field Condensation, FFC),传统的4DGS往往需要一个极高分辨率的神经时空编码器来建模形变场,LGS通过特征凝聚机制消除了时空网格中的低频冗余 。通过这一系列精巧的“瘦身”手术,LGS在保持视觉保真度与实时渲染效率丝毫未减的前提下,实现了令人惊叹的超过9倍的模型压缩率,为高级混合现实(MR)导航技术进入基层手术室扫清了硬件障碍。
在其姊妹篇TMI 2025工作EndoGaussian中,研究团队将实时形变追踪推向了极致 。为了对抗软组织的剧烈形变(如大面积的牵拉),框架深度集成了基础模型(Foundation Model)的先验指导。通过融合诸如SAM(Segment Anything Model)的语义掩码与高精度的深度估计模型,EndoGaussian在可微分光栅化器(depth-diff-gaussian-rasterization)中直接引入了深度层面的正则化约束,辅以近邻搜索(KNN)优化高斯群的局部拓扑分布 。这些显式的几何先验像“锚点”一样牢牢抓住了快速形变的软组织表面。在EndoNeRF和Hamlyn等极具挑战性的真实手术数据集上,EndoGaussian创下了惊人的性能纪录:在保持38.55 dB超高PSNR重建质量的同时,其渲染速度飙升至168 FPS(Frames Per Second),且单场景的完整训练开销被极其恐怖地压缩至2分钟以内 。这一速度相比以往需要数小时甚至数天训练的NeRF隐式模型,意味着外科医生在手术进行中即可瞬间建立当前创口的四维高精度数字孪生,真正实现了即查即用的实时三维手术引导。
表2:3DGS与可微分渲染在临床重建中的前沿拓展 (2023-2026)
| 论文题目 | 作者团队 | 发表会议/年份 | 核心突破场景 | 3DGS 技术架构与优化机制 |
|---|---|---|---|---|
| 4DRGS: 4D Radiative Gaussian Splatting… | Z. Liu, R. Zha, Z. Cui 等 | IPMI 2025 (Oral) | 极稀疏视角的DSA动态血管重建 | 摒弃颜色,定制辐射衰减高斯核 + 射线光栅化与累积衰减剪枝。 |
| MedGS: Gaussian Splatting for Multi-Modal… | K. Marzol, I. Kolton 等 | ArXiv 2025 | 强噪声环境的多模态切片插值与Mesh提取 | 折叠高斯参数化表示 + 潜空间多项式平滑 + 物理间距感知的网格化。 |
| Free-SurGS: SfM-Free 3D Gaussian Splatting… | J. Guo, J. Wang, Y. Liu 等 | MICCAI 2024 | 无需COLMAP初始化的弱纹理内窥镜重建 | 将光流先验与极线几何一致性融入位姿与场景的联合可微优化。 |
| LGS: A Light-weight 4D Gaussian Splatting… | H. Liu, Y. Liu, Y. Yuan 等 | MICCAI 2024 | 边缘设备上的外科手术大视场动态重建 | 形变感知剪枝(DAP) + 属性降维(GAP) + 时空特征场凝聚,实现9倍压缩。 |
| EndoGaussian: Gaussian Splatting for Deformable… | Y. Liu, C. Li, Y. Yuan 等 | IEEE TMI 2025 | 手术软组织的实时(168 FPS)形变追踪与孪生 | 基础模型(深度/语义)引导 + 定制深度可微光栅化,训练耗时压缩至2分钟。 \[Code: Github/CUHK-AIM-Group/EndoGaussian\] |
导出到 Google 表格
第三部分:扩散模型与三维显式表示(3DGS/可微渲染)的生成式融合
当我们在医学空间中既需要扩散模型天马行空的“生成想象力”,又需要3DGS精准无误的“物理几何显式表达”时,两者的深度融合(可微分渲染 + 深度生成模型)便成为了通向下一代医疗AI的终极路径。这种生成式渲染范式,使得从零样本的单视角/文本合成复杂3D解剖结构成为现实,并且赋予了数字孪生场景极其细腻且保持视角一致性的局部语义编辑能力,这在医学教学模拟、罕见病理数据合成以及术前规划中具有不可估量的价值。
3.1 基于扩散先验的 3D 零样本生成与视角一致性场景编辑
从缺乏深度的2D图像或纯文本描述中凭空“捏造”出一个具备严格三维几何的一致性模型,其难点在于解决由于多视角约束缺失而导致的“多头伪影”(Janus Problem,例如生成的器官在各个视角下看起来都像正面)。
华中科技大学Xinggang Wang团队在CVPR 2024上展示的GaussianDreamer框架,为这一难题提供了一个优雅且极速的解法 。在GaussianDreamer中,研究人员构建了一座直接连接2D基础扩散大模型与3D高斯溅射表示的桥梁。其核心生成策略分为两大步:首先,利用具备基础几何认知的3D扩散模型,在空间中粗略地生成点云,以此作为高斯椭球的几何先验分布与初始化锚点 ;随后,利用极其强大的2D扩散模型(例如Stable Diffusion),通过得分蒸馏采样(Score Distillation Sampling, SDS)技术,引导初始化的3DGS在各个可微渲染的随机视角下,向符合文本描述或图像特征的二维流形方向进行梯度优化,从而极大地丰富了3D表面极其复杂的纹理与细节凹凸 。为了打破SDS优化过程中极其容易陷入的局部次优解(表现为生成的几何体平滑且缺乏细节),模型中创新性地引入了噪声点生长(Noisy point growing)和颜色扰动(Color perturbation)操作,持续为高斯系统注入寻找更优解的动能 。相较于早期依赖NeRF的隐式生成方案(通常需要单卡渲染优化数小时),GaussianDreamer利用高斯显式可微渲染的高效特性,将逼真3D实例的生成时间剧烈压缩至单张GPU上的15分钟以内,且生成完毕后资产可直接拔插进入实时渲染管线,为快速构建沉浸式医疗培训环境提供了强大的资产合成工具。
一旦我们拥有了重建好或生成的3D手术场景,接下来的核心需求便是能够根据临床意图对其进行编辑(例如在重建的真实患者腹腔中“虚拟”添加一个止血钳,或改变某处肿瘤组织的病理纹理以用于教学)。常规的2D图像编辑技术如果强行应用于3D场景渲染的每一帧,会由于缺乏三维空间约束而导致严重的视角闪烁和撕裂。
在CVPR 2025即将登场的EditSplat框架完美地解决了这一困境 。该研究专门针对预训练好的3DGS模型,提出了一种基于纯文本指令驱动的视角一致性3D场景局部编辑系统。系统的基石在于其独创的多视角融合引导(Multi-view Fusion Guidance, MFG)模块。在利用Text-to-Image扩散模型对渲染视角进行去噪编辑时,MFG不仅依赖当前视角的无分类器引导(Classifier-free guidance),更通过3DGS固有的底层几何结构,将周围相邻视角的特征信息强行拉扯融合进当前的扩散过程中,从而在源头上锁死了编辑过程的空间一致性 。更具独创性的是,针对3DGS局部编辑中“旧特征顽固不化”的问题(预训练的高斯椭球由于保留了过量的源信息,严重阻碍了向新指令纹理的梯度优化),框架设计了注意力引导修剪(Attention-Guided Trimming, AGT)机制。AGT利用大模型的注意力热力图作为手术刀,精准地定位到需要被编辑的语义区域,并利用3DGS的显式特性直接修剪和“软化”该区域的高斯原语,极大提升了局部细节(如在面部精确修改瞳孔颜色,或在医学场景中修改特定器官表面的病灶属性)的优化效率和语义丰满度 。相较于Instruct-NeRF2NeRF等需要对全场景网络进行漫长重训练的笨重方案,EditSplat通过这种注意力修剪实现了指哪打哪的轻量级、高保真精准语义修改,确立了3DGS场景文本驱动编辑的新标杆。
3.2 结合临床生物力学先验的条件生成渲染
在诸如口腔正畸、骨科植入物设计等高度数字化的医疗分支中,直接利用无约束的扩散大模型生成的三维结果往往存在灾难性的物理常识错误(例如牙齿发生空间重叠与穿模),这是因为通用模型缺乏专业的生物力学与物理空间互斥性先验。因此,将严格的临床医学规则编码为生成模型的微调条件,是推动生成式渲染落地的关键一跃。
在医学图像分析顶级期刊MedIA 2025上,来自上海科技大学的Yulong Dou, Zhiming Cui等学者联合发表的《CLIK-Diffusion: Clinical Knowledge-informed Diffusion Model for Tooth Alignment》提供了解决这一冲突的范本 。该系统旨在解决全数字化正畸流程中最核心也最耗时的步骤:自动牙齿排列。研究团队首先进行了一次降维打击,巧妙地将极其复杂的3D牙齿不规则网格模型的碰撞与对齐问题,重新表述为具有严格拓扑意义的“地标变换(Landmark Transformation)”问题,进而将这一变换过程映射为扩散模型在连续空间中的“地标坐标生成任务” 。 然而,这仅仅是算法的基础。该工作的核心灵魂在于其向扩散网络的生成推理过程中,强行注入了严格遵循临床医学指南的分层约束知识(Hierarchical Constraints)。在可微渲染与地标坐标更新的每一次反向传播中,扩散流必须同时满足三个维度的物理审查:第一是牙弓级别(Dental-arch level),约束生成的整体牙齿排列必须贴合人类标准牙弓曲线的宏观拓扑形状,防止畸形颌面特征的产生;第二是牙间级别(Inter-tooth level),这是一个严格的物理排斥场约束,精密控制相邻牙齿间的近中-远中距离,绝对禁止任何微小的三维网格碰撞穿透(Collisions)或产生过大而不合生理规律的牙缝分离;第三是单牙级别(Individual-tooth level),约束并微调每一颗牙齿作为独立刚体的三维旋转矩阵与空间倾角姿态(如转矩、冠倾角等正畸参数) 。 为了兼顾临床实际应用中口内扫描仪(IOS)经常无法完整扫描牙根部位的数据残缺问题,该代码库不仅支持完整牙齿的三维预测,还特别提供了专门针对真实截断数据的“仅牙冠(Crown-only)”推断模式 。相较于过往依赖于试错式的启发式(Heuristic)几何碰撞检测或简单的贪心迭代算法,CLIK-Diffusion能够在短短数秒内,利用扩散先验直接生成具备高阶非线性动力学排列规律、且完美契合严苛正畸临床标准的牙列终态三维排布,将生成模型与严肃物理空间约束的结合推向了新的高度。
表3:扩散模型与3DGS及临床先验融合的生成式渲染工作 (2023-2026)
| 论文题目 | 作者团队 | 发表会议/年份 | 核心生成与编辑任务 | 扩散+3DGS/渲染结合技术与创新点 |
|---|---|---|---|---|
| GaussianDreamer: Fast Generation from Text to 3D Gaussians… | T. Yi, J. Fang, L. Xie 等 | CVPR 2024 | 从纯文本零样本极速生成3D场景与解剖实例 | 3D扩散几何初始先验 + 2D SDS扩散雕刻纹理 + 噪声点生长机制。 |
| EditSplat: Multi-View Fusion and Attention-Guided Optimization… | D. I. Lee 等 | CVPR 2025 | 基于预训练3DGS的文本指令级局部语义编辑 | Attention引导的3DGS原语修剪 + 融入极线几何的多视角融合扩散引导。 \[Code: Github/kuai-lab/editsplat2024\] |
| CLIK-Diffusion: Clinical Knowledge-informed Diffusion Model… | Y. Dou, H. Wu, Z. Cui 等 | MedIA 2025 | 3D正畸牙模的数字孪生自动无碰撞排列 | 扩散网络生成地标坐标 + 强行注入牙弓/牙间/单牙的三层临床物理排斥约束。 |
导出到 Google 表格
结论与未来展望
通过对2023至2026年这一黄金周期内全球顶级计算机视觉与医学影像会议(MICCAI, CVPR, ECCV, TMI, MedIA等)的系统性挖掘与深度剖析,我们可以清晰地勾勒出“可微分渲染+生成模型”在这四大维度下交织演进的恢弘技术图谱。这一领域的底层叙事逻辑已经发生了根本性的转移:
首先是三维表示范式的物理化与显式化转变。以NeRF为代表的纯隐式神经网络正在逐步退出极端需要实时性与物理交互的医学舞台。取而代之的是,以EndoGaussian、Free-SurGS、LGS为代表的3D Gaussian Splatting及其变体,凭借其点云级别的显式物理可操作性和可微光栅化的超高渲染帧率(高达168 FPS),彻底打破了微创内窥镜场景中拓扑形变追踪与术中实时渲染的算力死锁。通过引入光学流动先验消除SfM初始化依赖,以及利用极智的形变剪枝策略压缩四维特征场,医疗边缘设备的部署屏障已被实质性摧毁。
其次是生成维度的跨越与“维度灾难”的降维打击。纯粹在庞大的三维体素空间中直接操作扩散模型已被证明是死胡同。学术界(如BrLP、3D MedDiffusion)通过引入极其强大的压缩自编码器,将错综复杂的脑部时空演变序列与超高分辨率(512³)的全身多模态扫描数据映射到紧凑的潜在低维流形(Latent Manifold)中进行扩散去噪。这种降维打击不仅突破了传统算力对生成清晰度的封锁,更使得如ControlNet等条件控制器能够精确干预疾病的发展轨迹,开启了个体化三维医学时空预测的元年。
再次,“去监督化”与零样本泛化能力的觉醒大幅降低了医学AI在真实临床场景落地的阵痛。医学成像中的严重逆问题(如稀疏视角衰减或运动伪影)不再死板地依赖庞大的、极其昂贵的配对患者数据进行端到端监督。诸如DDIP3D等深度扩散先验框架,通过元学习在单次推理阶段即可完成自适应分布匹配,使得纯物理合成的体模先验能够完美拯救真实病患严重受损的扫描图像;而扩散模型在血管网络双阶去噪(节点与边缘分离)上的成功应用,更为生物力学仿真提供了源源不断的合法结构图谱。
最终,所有技术分支汇流于**“生成与严谨物理边界的深度约束融合”**。这正是GaussianDreamer、EditSplat乃至CLIK-Diffusion所揭示的未来范式:单纯的数据驱动扩散模型必须戴上物理与医学指南的“镣铐”才能真正在临床起舞。通过在可微分渲染的反向传播路径上,硬核植入X射线辐射衰减物理定律(如4DRGS)、多视角极线几何一致性限制以及严格的器质性防穿模与碰撞力学排斥场(如正畸对齐),模型兼具了扩散网络肆意生长的“想象力”与医学科学冷酷严谨的“底线”。可以预见,这种具备物理感知属性的神经生成式渲染引擎,必将成为主导下一代沉浸式医疗仿真培训、全息远程手术演练及高精度动态增强现实(AR)导航的唯一底层基石。