智源RoboCOIN重磅开源！全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

魔搭ModelScope社区

239人浏览 · 2025-12-08 09:33:29

魔搭ModelScope社区 · 2025-12-08 09:33:29 发布

在具身智能迈向真实世界应用的关键阶段，大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈：一方面，双臂操作作为最贴近人类行为的“刚需”形态，正成为行业主流趋势，但受限于高昂的采集成本与复杂的标注难度，相关数据极度稀缺；另一方面，现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题，且大多仅适配特定或有限种类的机器人本体与构型，缺乏跨平台、跨本体的通用性。

为破解这一难题，北京智源人工智能研究院牵头，联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋，以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量，共同打造并发布了RoboCOIN（Bimanual Robotic Data COllection for INtegrated Manipulation） ——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集。

📎0bc3dqadgaaafmafverftruvahgdgmoaamya.f10002.mp4

🔍 破局三大挑战：格式混乱、质量参差、使用门槛高

当前具身智能数据正面临“标准缺失、质控薄弱、工具分散”三大核心痛点，严重制约行业发展：

标准缺失导致“数据孤岛”林立：不同机器人平台的数据格式互不兼容，坐标系定义、量纲单位缺乏统一规范，元信息完整度参差不齐，大量数据无法直接复用，需投入高额成本进行预处理。
质控薄弱造成数据质量堪忧：人工遥操作采集的数据常伴随多种问题，既包括丢帧、卡顿、花屏、噪点、静止帧、黑白帧等记录层面的缺陷，也存在数采员动作过快/过慢、操作抖动等行为层面的偏差，直接影响模型训练效果。
工具分散严重抬高研发门槛：数据采集、处理、标注、管理等环节的工具链分散独立、不成体系，不仅增加了技术使用难度，还导致研发流程割裂、效率低下，难以实现规模化数据采集的高效产出。

为系统性解决这些问题，智源研究院研发了“面向异构本体、规范操作流程、提高研发效率”的具身数据软件框架CoRobot，实现了“定标准、保质量、提效率”三大目标，并以此作为构建RoboCOIN数据集的技术基座。

🌐 全球最多元化的双臂真机数据集：15平台 × 18万轨迹 × 421任务

RoboCOIN 数据集具备三大核心优势：

✅ 多本体、末端执行器：涵盖 15款异构机器人平台，包括双臂机械臂（如 Agilex Cobot Magic）、半人形（如 Realman RMC-AIDA-L）和全人形机器人（如 Unitree G1edu-u3），涉及夹爪与灵巧手两类末端执行器，本体和末端执行器的形态多样。

✅ 真实场景、丰富任务：覆盖 16类现实环境（家庭、办公室、工厂、餐厅、超市等），包含 432种物体（刚性、铰接、可变形）和 36种双臂操作技能，构建了从简单到复杂的渐进式任务体系。

✅ 数据规模大、质量高：通过人类遥操作采集超过18万条真实轨迹，每条均配备多视角图像、关节状态、末端位姿，并严格对齐时间戳，统一坐标系和量纲，确保数据物理一致性与语义完整性。

🧠 首创“能力金字塔”：三层结构化标注，赋能多粒度学习

RoboCOIN 首次提出 “层级能力金字塔”（Hierarchical Capability Pyramid），实现从宏观任务理解到微观动作控制的全栈式标注：

轨迹层（Trajectory-level）：描述整体场景、物体属性（颜色、材质、形状等），支持全局规划；
片段层（Segment-level）：将任务分解为可执行子步骤（如“右手抓篮子”“左手放桃子”），支持时序推理与错误恢复；
帧层（Frame-level）：逐帧标注运动状态（速度、加速度、夹爪开合），支撑精准闭环控制。

这种多分辨率标注体系，不仅显著提升了数据的信息密度和教学价值，还使模型能够同时学习“做什么”“怎么做”和“如何做准”，从而增强泛化能力、训练效率与系统可解释性，为通用具身智能的发展提供了关键支撑。

⚙️ CoRobot框架：一站式数据处理与训练基础设施

为支撑 RoboCOIN 的高效构建与广泛应用，团队同步开源具身数据软件框架CoRobot1.0，包含三大核心组件：

RTML（Robot Trajectory Markup Language）首创机器人轨迹标记语言，通过 YAML 定义运动约束（速度、加速度、工作空间等），自动评估并过滤低质量轨迹，显著提升数据可靠性。
自动化标注工具链融合视觉语言模型（VLM）与规则引擎，实现场景描述、子任务分割、运动语义标签的半自动标注，大幅降低人工成本。
统一多本体管理平台基于 LeRobot 扩展，支持跨平台控制、原子化存储、按需组合下载，调用数据集使用工具链只需敲入一行代码"pip install robocoin"，真正做到“开箱即用”。