Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型
近日,蚂蚁百灵团队正式开源 Ring-2.6-1T,将这款面向真实复杂任务场景打造的万亿级旗舰思考模型开放给开发者、研究者与企业场景进行验证、适配和二次开发。
Ring-2.6-1T 的目标并不是单纯追求更大的参数规模或更高的单点分数,而是面向大模型正在进入的真实生产环境:Agent 工作流、工程开发、科研分析、复杂业务系统与企业自动化流程。在这些场景中,模型需要的不只是“回答问题”,还要能够理解上下文、规划步骤、调用工具、持续执行,并在长链路任务中保持稳定。
围绕这一目标,Ring-2.6-1T 在三个方向实现了核心突破:
- Agent 执行能力全面增强:
从“能回答”进一步走向“能执行”,在多步任务、工具协作、上下文规划与复杂工作流推进中表现更加稳定。
- 多档位 Reasoning Effort 机制:
支持 high 与 xhigh 两种推理强度,开发者可以根据任务复杂度灵活调节思考深度,在效果、速度与成本之间取得更优平衡。
- 异步强化学习训练范式创新:
通过 Async RL 架构结合棒冰算法,提升万亿级模型长周期强化学习的训练效率与稳定性,为 Agent 能力和复杂推理能力提供底层支撑。

Agent 能力:从“理解任务”到“持续执行任务”
在真实业务系统中,模型面对的往往不是孤立问答,而是需要理解复杂上下文、精准调用工具、在多步骤工作流中持续推进,并根据反馈自主修正的长程任务。这对模型的任务规划、工具适配、错误恢复和执行一致性提出了更高要求。
Ring-2.6-1T 针对 Agent 场景进行了重点强化,不只是提升单次回答质量,而是围绕真实工作流中的完整执行链路进行优化:从任务拆解、步骤规划,到工具调用、上下文保持,再到执行过程中的反馈修正与持续推进。
Ring-2.6-1T 在多个核心 Agent 评测基准上实现了显著提升:
-
在评估 OpenClaw 框架适配能力的 PinchBench 和 ClawEval 上达到开源 SOTA;
-
在考察长程任务自主推进能力的 TAU2-Bench 和通用 AI 助手综合能力的 GAIA2-search 上达到第一梯队;
-
在衡量真实软件工程缺陷修复能力的 SWE-Bench 系列榜单上进一步缩小了与领先模型的差距。
这意味着,Ring-2.6-1T 不再只是“理解任务”的模型,而是更接近一个能够端到端推进任务的执行引擎。无论是搭配 OpenClaw、Hermes Agent 等个人助理 Agent 框架,还是接入 Claude Code、OpenCode 等 AI Coding 工作流,Ring-2.6-1T 都能在任务拆解、工具调用、代码生成、工程协同和多轮修正中提供更稳定的使用体验。
Reasoning Effort:high 与 xhigh 配置,该快则快,该深则深
在实际使用中,并非所有任务都需要同等级别的推理资源。一次格式转换、一次信息整理,和一道数学竞赛题、一次复杂系统分析,对模型思考深度的要求完全不同。
因此,Ring-2.6-1T 引入了可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。
high 面向高频 Agent 工作流
-
适合多轮交互、工具协作、任务拆解和生产级默认调用。在保持较高任务完成率的同时,减少不必要的推理 Token 开销,让模型在真实工作流中更快、更稳、更经济。
-
在真实任务执行类评测中,Ring-2.6-1T high 展现出面向生产任务的执行效率与稳定性:PinchBench 得分 87.60,显著高于 GPT-5.4 xHigh、Gemini-3.1-Pro high;ClawEval 得分 63.82,在可比模型中位居前列;Tau2-Bench Telecom 达到 95.32,与最高分模型差距不足 1 分,体现出其在复杂业务流程、工具协作与行业任务中的稳定执行能力。
xhigh 面向高难复杂推理
-
适合数学、科研、复杂逻辑分析与多路径探索等任务,为模型释放更充分的思考空间。
-
在高难推理任务上,Ring-2.6-1T xhigh 展现出更高能力上限。AIME 26 得分 95.83,接近多家头部模型水平;GPQA Diamond 达到 88.27,体现出稳健的科学知识理解与复杂推理能力。模型既能处理数学竞赛类问题,也能完成专业知识问答和抽象泛化类任务。
通过 high 与 xhigh 两档配置,开发者可以根据任务特性动态分配推理资源:日常工作流用 high 获得更高效率,复杂推理任务切换 xhigh 释放能力上限。
异步 Async RL 训练 + 棒冰算法:支撑万亿级模型稳定强化学习
在万亿参数模型上进行强化学习训练,本身就是一个巨大的工程挑战。传统同步 RL 训练中,策略生成(rollout)与梯度更新紧耦合,导致:
-
GPU 等待:GPU 资源利用率低,大量算力浪费在等待同步上;
-
训练吞吐不足:训练周期被拉长,迭代速度受限;
-
长周期训练不稳定:长周期训练中容易出现策略崩溃或奖励信号退化。
Ring-2.6-1T 采用异步(Async)强化学习训练架构,将策略采样与参数更新解耦为独立流水线,实现:
-
训练吞吐与资源利用率大幅提升:采样与更新并行执行,GPU 利用率显著提高,训练效率提升数倍;
-
支持更长的训练周期:解耦架构天然适配大规模、长时间的持续训练,避免同步瓶颈导致的训练中断。
在此基础上,研究团队将 Ring-1T 中的棒冰算法应用到异步 RL 训练中,解决训练不稳定问题。这一训练范式的创新,使得能够在万亿级模型上进行充分、稳定的强化学习优化,将 Agent 执行能力和推理能力推向新的上限。官方会在后面的技术报告中放出棒冰算法与 Async 结合的细节。
实战演示
代码生成

在 Pi Coding Agent 中,指示 Ring-2.6-1T 搜索互联网上的 Web 设计风格,并生成大量符合不同风格的交互式介绍,以验证其工具调用、任务规划和代码生成能力。
代码仓库问题修复

在 OpenCode 中使用 Ring-2.6-1T, 在真实项目仓库中,定位并修复一系列样式适配相关的 bug,并产出相关文档,以验证其在代码项目中的探索、分析和问题解决能力。
3D 生成和游戏任务

在 Pi Coding Agent 中让 Ring-2.6-1T 检索了典型的 3D 框架和游戏场景,并生成这些场景和游戏 Idea,来验证模型在此类包含空间和大量数学计算任务上的能力。
元工具生成和Skill使用

在 Agentic 能力中,「生成基于 Web 的工具」和「使用基于文件系统的 Agent Skill」是让模型在办公和生产力场景发挥效果的催化剂。让 Ring-2.6-1T 生成用于提升其他任务效能的 Web 工具,并使用 Agent Skill 优化这类工具的表现。
财务分析和统计任务

在 Kilo Code 中让 Ring-2.6-1T 编写脚本,综合运营 macos 的 OCR 能力、脚本执行和模型推理能力,全自动分析家庭财务账单,从发票图片到可交互分析演示。
综合深度研究

Ring-2.6-1T 在深度研究场景中表现优秀:通过 Agent Skill 编写深度研究 Agentic Workflow。模型可以严格遵循通过 Skill 文档定义的 Workflow,研究上百个来源,综述成为一份风险调研和投资相关的建议书。
复杂工作流执行和个性化学习助手

「让模型结合能力教自己学东西」是 2026 年广泛被市场应用的场景之一。让 Ring 自行开发个性化学习助手,检索和规划学习内容、知识图结构,并根据用户反馈自行调整介绍难度和方式。
局限性与未来计划
Ring-2.6-1T 在跨 Agent 产品适配、复杂工具调用的指令遵循以及 Long-Horizon 长程性能方面仍存在不足,面对更真实、更复杂的任务场景,泛化能力与长程交付稳定性仍有较大的优化空间。研究团队将在后续版本中持续改进上述能力,并非常期待来自社区的使用反馈与建议。
使用与体验
开发者反馈
在 OpenRouter 限时一周免费的 API 体验期间,已有不少开发者分享了对 Ring-2.6-1T 的真实调用反馈。
相比单纯追求参数规模或单次生成效果,开发者更关注到它在真实任务中的规划与执行能力:从会议纪要整理、内容计划生成,到 React 管理后台重构、复杂状态处理、代码生成和 Three.js 交互页面开发,Ring-2.6-1T 能够主动拆解任务、规划步骤,并根据上下文持续推进。
多位开发者也提到,high / xhigh 两档 Reasoning Effort 让模型更适合生产使用:日常 Agent 工作流可用 high 获得更快响应和更低 Token 开销;复杂逻辑、算法推理和高质量代码任务则可切换 xhigh,释放更充分的推理能力。
这些反馈也进一步印证了 Ring-2.6-1T 的定位:面向真实复杂任务,在推理深度、执行效率与工程可用性之间取得平衡,帮助开发者将模型能力转化为可持续推进的工作流。










开源权重和本地部署
Ring-2.6-1T 希望解决的不只是“模型是否足够聪明”,更是“模型能否以合理推理成本,在真实复杂工作流中稳定、高效地完成任务”。此次开源,也希望让更多开发者能够在 Agent、Coding、科研分析和企业工作流等场景中,验证并扩展 Ring-2.6-1T 的能力边界。
欢迎大家试用、反馈和交流
🤖 ModelScope
https://modelscope.cn/models/inclusionAI/Ring-2.6-1T
🌐 Ling Studio(Ring-2.6-1T Chat 体验现已开放,API 服务即将上线)
点击模型地址
更多推荐




所有评论(0)