腾讯混元&清华开源15M高质量多模态训练数据，全面开放MLLM迎来质变时刻

魔搭ModelScope社区

238人浏览 · 2025-11-17 09:29:45

魔搭ModelScope社区 · 2025-11-17 09:29:45 发布

腾讯混元团队与清华大学联手推出了Bee项目，以解决全开源多模态大模型（MLLM）在监督微调（SFT）阶段的“数据质量鸿沟”。Bee 不只是一个模型，而是一套“以数据为中心”的全栈开源方案。其核心理念是：与其盲目扩充数据量，不如系统性提升数据质量，从而根本上缩小全开源与闭源/半开源模型之间的能力差距。

Bee项目的三大核心贡献：

Honey-Data-15M：一个1500万规模、经过多重精细清洗和创新的双层CoT（思维链）扩充的高质量SFT数据集。
HoneyPipe & DataStudio：开源了从数据清洗到CoT增强的“全栈数据增强管线”，提供了一套透明、可复现的方法论。
Bee-8B：基于Honey-Data-15M训练的全新8B模型，在多项基准上刷新了全开源MLLM的SOTA纪录，性能匹敌甚至超越了主流半开源模型。

背景与动机：打破“三层结构”的数据壁垒

当前的MLLM领域呈现出明显的三层结构：(1) 顶尖的闭源模型（如Gemini 2.5、GPT-5），(2) 权重开放但数据私有的半开源模型（如Qwen2.5-VL、InternVL），以及 (3) 性能远远落后的全开源模型。

如上图所示（分数为MMMU、Mathvista等五个数据集平均的结果），在Bee项目之前，全开源（Fully Open）模型在性能上与闭源（Closed Source）和半开源（Semi-Open）模型存在巨大鸿沟。

Bee团队认为，这种差距的根源在于SFT阶段的数据质量。

现有开源数据集普遍存在两大顽疾：

普遍的噪声：充斥着事实错误、图文不匹配、格式混乱和低质量图像。
复杂推理数据匮乏：极度缺乏高级能力（如长链条思维链CoT）所需的数据。

因此，Bee项目明确指出，全开源社区最可行的路径不是盲目追求数据“数量”，而是聚焦于“数据质量”。

HoneyPipe：授人以渔的全栈数据增强管线

为了系统性地解决上述数据问题，团队构建了HoneyPipe，一个基于DataStudio框架的、自动化的数据增强流程。

HoneyPipe的核心价值在于其透明可复现的三阶段增强过程：

噪声与无关性过滤 (Stage 1)：结合规则过滤（如剔除小尺寸/极端宽高比图像）和模型过滤（使用Qwen2.5-VL-72B等强模型），确保图文的语义一致性（例如，过滤掉“在只有橘子的图像上提问函数问题”的样本）。
短CoT增强与验证 (Stage 2)：此阶段是双层CoT策略的基础层。使用Qwen2.5-VL等模型将原始的简短回答，扩充为包含明确步骤的“短CoT”响应。随后，引入“LLM-as-a-Judge”进行保真度验证，检查新CoT的最终结论是否与原始答案一致（事实性问题需精确匹配，开放性问题需语义一致）。
长CoT增强循环 (Stage 3)：对于(1) 在上一阶段保真度验证失败的样本（通常意味着问题更复杂），或(2) 天生复杂的数据源（如VisualWebInstruct），将它们路由到此循环。团队使用顶尖的专有MLLM来生成深度、多步骤的“长CoT”解题过程。

这一套“过滤-循环增强-验证”的精细流程，最终产出了高质量的数据集。