在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:一方面,双臂操作作为最贴近人类行为的“刚需”形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;另一方面,现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。

 

为破解这一难题,北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation) ——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集

📎0bc3dqadgaaafmafverftruvahgdgmoaamya.f10002.mp4

 

🔍 破局三大挑战:格式混乱、质量参差、使用门槛高

当前具身智能数据正面临“标准缺失、质控薄弱、工具分散”三大核心痛点,严重制约行业发展:

  • 标准缺失导致“数据孤岛”林立:不同机器人平台的数据格式互不兼容,坐标系定义、量纲单位缺乏统一规范,元信息完整度参差不齐,大量数据无法直接复用,需投入高额成本进行预处理。
  • 质控薄弱造成数据质量堪忧:人工遥操作采集的数据常伴随多种问题,既包括丢帧、卡顿、花屏、噪点、静止帧、黑白帧等记录层面的缺陷,也存在数采员动作过快/过慢、操作抖动等行为层面的偏差,直接影响模型训练效果。
  • 工具分散严重抬高研发门槛:数据采集、处理、标注、管理等环节的工具链分散独立、不成体系,不仅增加了技术使用难度,还导致研发流程割裂、效率低下,难以实现规模化数据采集的高效产出。

为系统性解决这些问题,智源研究院研发了“面向异构本体、规范操作流程、提高研发效率”的具身数据软件框架CoRobot,实现了“定标准、保质量、提效率”三大目标,并以此作为构建RoboCOIN数据集的技术基座。

🌐 全球最多元化的双臂真机数据集:15平台 × 18万轨迹 × 421任务

RoboCOIN 数据集具备三大核心优势:

多本体、末端执行器:涵盖 15款异构机器人平台,包括双臂机械臂(如 Agilex Cobot Magic)、半人形(如 Realman RMC-AIDA-L)和全人形机器人(如 Unitree G1edu-u3),涉及夹爪与灵巧手两类末端执行器,本体和末端执行器的形态多样。

 

真实场景、丰富任务:覆盖 16类现实环境(家庭、办公室、工厂、餐厅、超市等),包含 432种物体(刚性、铰接、可变形)和 36种双臂操作技能,构建了从简单到复杂的渐进式任务体系。

 

数据规模大、质量高:通过人类遥操作采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。

🧠 首创“能力金字塔”:三层结构化标注,赋能多粒度学习

RoboCOIN 首次提出 “层级能力金字塔”(Hierarchical Capability Pyramid),实现从宏观任务理解到微观动作控制的全栈式标注:

  • 轨迹层(Trajectory-level):描述整体场景、物体属性(颜色、材质、形状等),支持全局规划;
  • 片段层(Segment-level):将任务分解为可执行子步骤(如“右手抓篮子”“左手放桃子”),支持时序推理与错误恢复;
  • 帧层(Frame-level):逐帧标注运动状态(速度、加速度、夹爪开合),支撑精准闭环控制。

这种多分辨率标注体系,不仅显著提升了数据的信息密度和教学价值,还使模型能够同时学习“做什么”“怎么做”和“如何做准”,从而增强泛化能力、训练效率与系统可解释性,为通用具身智能的发展提供了关键支撑。

⚙️ CoRobot框架:一站式数据处理与训练基础设施

为支撑 RoboCOIN 的高效构建与广泛应用,团队同步开源具身数据软件框架CoRobot1.0,包含三大核心组件:

  1. RTML(Robot Trajectory Markup Language)首创机器人轨迹标记语言,通过 YAML 定义运动约束(速度、加速度、工作空间等),自动评估并过滤低质量轨迹,显著提升数据可靠性。
  2. 自动化标注工具链融合视觉语言模型(VLM)与规则引擎,实现场景描述、子任务分割、运动语义标签的半自动标注,大幅降低人工成本。
  3. 统一多本体管理平台基于 LeRobot 扩展,支持跨平台控制、原子化存储、按需组合下载,调用数据集使用工具链只需敲入一行代码"pip install robocoin",真正做到“开箱即用”。

 

📈 实测有效:显著提升主流VLA模型性能

在 Realman 与 Unitree 真机平台上,对 π0、GR00T-N1.5 等先进视觉语言动作(VLA)模型的实验表明:

  • 引入 RoboCOIN 的层级标注后,复杂任务(如“将桃子放入抽屉并关闭”)成功率从 20% 提升至 70%

 

  • 使用 RTML 过滤后的高质量数据训练,模型平均成功率提升 23%,验证了“质量优于数量”的数据范式。

 

🤝 开源共建,聚力前行

智源研究院具身数据负责人姚国才介绍:该数据集之所以取名为RoboCOIN,是寓意每一份高质量数据都如同一枚闪闪发光的“金币”,然而一枚金币的面值是微小的,需要大家都往“存钱罐”里投入更多“金币”,若全行业能够齐心协力,就有希望积少成多,换取到一张通向物理AGI的船票。

 

💡 项目已全面开源:

  • RoboCOIN数据集主页:https://flagopen.github.io/RoboCOIN/
  • CoRobot软件框架主页:https://github.com/FlagOpen/CoRobot

 

以开源生态为基,聚产业创新之力,促具身智能落地。RoboCOIN,让机器人真正学会“双手协作”!

 

点击即可跳转数据集合集

ModelScope 魔搭社区modelscope.cn/organization/RoboCOIN

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐