Pixel to Gaussian论文

1. 研究背景与目的：打破“重采样”的效率枷锁

背景：
在计算机视觉领域，任意尺度超分辨率（Arbitrary-Scale Super-Resolution, ASSR） 旨在通过单一模型将低分辨率（Low-Resolution, LR）图像重建为任意放大倍数的高分辨率（High-Resolution, HR）图像。当前主流方法多采用隐式神经表示（Implicit Neural Representation, INR）（如 LIIF、CiaoSR），通过坐标查询映射至像素值。

问题：

效率低下： INR 方法需对每个目标像素进行独立坐标查询与解码计算，推理时间随放大倍数呈平方级增长。
性能局限： 基于坐标的连续函数难以精准建模高频细节，易导致边缘模糊或伪影。
内存瓶颈： 超大尺度放大（如 16× 以上）时，传统方法常因显存溢出（Out of Memory, OOM）而失效。

目的：
提出 “像素到高斯（Pixel-to-Gaussian）” 新范式，借助 2D 高斯溅射（Gaussian Splatting） 技术构建连续 HR 信号场，实现极速、高质量、显存友好的任意尺度超分辨率。

2. 核心研究方法：ContinuousSR 架构

将图像重建从“逐点查询”转向“高斯场显式渲染”。

(1) 关键概念通俗化解析

2D 高斯溅射（Gaussian Splatting）： 每个像素视为带颜色、尺度与朝向的“椭圆形高斯核”，通过叠加（Splatting）生成平滑连续的无限分辨率图像场。
DGP（深度高斯先验，Deep Gaussian Prior）： 基于 4 万张自然图像统计，归纳高斯参数（如轴比、方向）的分布规律，为模型提供符合真实图像结构的先验知识。

(2) 三大创新模块

DGP 驱动的协方差加权（DDCW）： 从 DGP 构建的参数字典中加权组合高斯形状，规避直接优化协方差矩阵的不稳定性。
自适应位置漂移（APD）： 允许高斯核中心根据局部结构（如边缘）微调位置，提升几何对齐精度。
颜色高斯映射（CGM）： 轻量 MLP 模块，预测每个高斯核的 RGB 颜色值。

(3) 工作流程

LR 图像 → 编码器提取特征 → (DDCW + APD + CGM) 预测高斯参数 → 构建连续 HR 高斯场 → 快速微分渲染 → 输出任意尺度 HR 图像

3. 主要发现与数据：速度与质量的双重突破

推理速度： 相比 CiaoSR 等 SOTA 方法提速 19.5 倍；高斯场构建后，单尺度渲染仅需 ~1 ms。
重建质量： 在 Urban100、DIV2K、Manga109 等基准上 PSNR（峰值信噪比）全面领先，Manga109 数据集提升达 0.90 dB。
显存效率： 传统方法在 16× 放大时常遇 OOM，ContinuousSR 在 48× 放大下仍稳定运行（显存占用见原论文 Table 3）。
视觉效果： 边缘锐利度与纹理自然度显著提升（可视化对比见原论文 Figure 4, 8, 9）。

4. 结论

ContinuousSR 首次将 3D 高斯溅射技术 成功迁移至 2D ASSR 任务，验证了 “显式高斯场建模” 相较隐式坐标映射在效率与精度上的双重优势，为超分辨率模型在移动端、实时视频等资源受限场景的部署提供了可行路径。

5. 客观评价与未来方向

优势（Pros）

范式创新： 开辟 Pixel-to-Gaussian 新思路，启发跨领域技术迁移。
工程友好： 毫秒级渲染 + 低显存占用，具备终端设备落地潜力。
理论扎实： DGP 有效约束高斯参数优化，提升训练稳定性。

局限与挑战（Cons）

泛化边界： 对极度稀疏或非自然纹理图像（如工程图纸）的适应性需进一步验证。
编码器依赖： 前端特征提取器性能仍显著影响最终效果。

未来方向

任务拓展： 延伸至图像去噪、去模糊、视频超分辨率等连续重建任务。
语义增强： 融合扩散模型等生成式先验，在极高倍率下补充合理细节。
动态资源分配： 按图像区域复杂度自适应调整高斯核密度，优化计算效率。

解读专家点评：
本工作是“跨领域技术迁移”的典范——巧妙借力图形学中成熟的高斯溅射渲染管线，绕过 INR 的坐标查询瓶颈，以显式建模实现效率与质量的协同突破。其核心价值不仅在于 ASSR 任务的性能提升，更在于为“连续信号重建”类问题提供了可复用的新范式，值得关注与借鉴。 📚✨

Pixel to Gaussian论文

http://cathylove47.github.io/2026/02/07/pixel-to-gaussian/

作者

cathy

发布于

2026年2月7日

许可协议

读论文prompt 下一篇