Lingshu论文
摘要
多模态大语言模型(MLLMs)在理解常见视觉元素(如风景、家居物品和公共事件)方面展现出令人瞩目的能力,这主要得益于其大规模数据集和先进的训练策略。然而,在医疗应用领域,由于医疗场景与通用领域在数据和任务上存在固有差异,这些模型的实际效能仍显不足。
具体而言,现有医疗MLLMs面临以下关键局限:
(1)对影像之外的医学知识覆盖有限;
(2)因数据整理流程欠佳而更易产生幻觉;
(3)缺乏针对复杂医疗场景的推理能力。
为应对这些挑战,我们首先提出一套综合数据整理流程,该流程能够:
(1)高效获取丰富的医学知识数据,不仅涵盖医学影像,还包括海量医学文本与通用领域数据;
(2)合成精准的医学描述、视觉问答及推理样本。基于此,我们构建了富含广博医学知识的多模态数据集。依托整理后的数据,我们推出了医疗专用MLLM——灵枢。灵枢通过多阶段训练逐步内化医学专业知识并提升任务解决能力。
此外,我们初步探索了采用可验证奖励的强化学习范式来增强灵枢医学推理能力的潜力。
同时,我们开发了MedEvalKit统一评估框架,整合主流多模态与文本医疗基准,以实现标准化、公平且高效的模型评估。我们在三项基础医疗任务(多模态问答、文本问答及医疗报告生成)上评估灵枢的表现。
结果显示,灵枢在多数任务中持续超越现有开源多模态模型。进一步,我们开展了五项紧密贴合真实场景的案例研究,展现了灵枢在医疗实践中实际应用的潜力。
介绍
视觉理解强不等于医疗视觉理解强
现有方法的核心问题:
- 医学知识覆盖不够广
- 容易产生幻觉
- 缺少复杂的医疗推理能力
作者先搭建一套高质量数据体系,再用多阶段训练把医学知识和推理能力注入模型,
最后再用统一框架评测它。
数据准备
第 2 节提出了一套系统的数据工程方法,通过多源收集 + 高质量清洗 + 结构化合成(caption / VQA / OCR / CoT),构建了一个支持医学理解与推理的多模态数据体系。
模型训练
通过“逐步解锁能力”的训练策略,把医学能力分阶段注入模型
⭐ 四阶段本质:
| 阶段 | 本质 |
|---|---|
| Stage 1 | 学视觉 |
| Stage 2 | 学医学知识 |
| Stage 3 | 学任务 |
| Stage 4 | 学推理 |