阶跃星辰开源321B参数大模型Step3：MoE架构实现多模态推理效率突破

近日，人工智能企业阶跃星辰对外发布重磅消息，正式宣布开源其新一代基础大模型Step3。该模型采用当前行业前沿的专家混合（MoE）架构，总参数量达到3210亿，而实际激活参数量则优化至380亿，通过这种设计策略，旨在为广大企业用户和开发者群体提供一套性能表现与部署成本实现极致平衡的推理解决方案。Step3模型在技术路线上着重强化多模态推理能力，通过端到端的全链路优化设计，最大限度降低模型解码过程..

胡唯隽

434人浏览 · 2025-10-29 02:12:49

胡唯隽 · 2025-10-29 02:12:49 发布

阶跃星辰开源321B参数大模型Step3：MoE架构实现多模态推理效率突破

近日，人工智能企业阶跃星辰对外发布重磅消息，正式宣布开源其新一代基础大模型Step3。该模型采用当前行业前沿的专家混合（MoE）架构，总参数量达到3210亿，而实际激活参数量则优化至380亿，通过这种设计策略，旨在为广大企业用户和开发者群体提供一套性能表现与部署成本实现极致平衡的推理解决方案。

Step3模型在技术路线上着重强化多模态推理能力，通过端到端的全链路优化设计，最大限度降低模型解码过程中的计算成本，尤其在视觉语言推理相关任务中展现出卓越性能。为支撑这一核心优势，研发团队在技术层面进行了多项创新：自主研发的MFA（Multi-matrix Factorization Attention）注意力机制，有效降低了KV缓存的内存开销和整体计算消耗；同步推出的AFD（Attention-FFN Disaggregation）系统架构，则将传统Transformer结构中紧密耦合的Attention和FFN计算模块解耦为两个独立子系统，通过精细化的流水线并行调度策略，显著提升了模型整体的吞吐效率。

为充分发挥AFD架构的技术潜力，阶跃星辰同步开源了专用的通信库StepMesh，该库针对大模型分布式训练与推理场景深度优化，能够实现跨GPU卡的低延迟、高带宽数据传输，为模型的高效分布式部署提供了关键技术支撑。

如上图所示，该黑白二维码图片为用户提供了访问Step3模型fp8格式相关资源的便捷入口。这一资源获取方式充分体现了项目的开源特性与用户友好设计，为开发者快速获取和部署低精度优化版本的模型提供了直接路径。

在性能评测环节，Step3模型在MMMU、MathVision等主流多模态评测基准，以及AIME 2025等专业数学推理任务中，均取得了超越同级别开源模型的优异成绩。社区测试反馈显示，该模型在指令遵循度和文本生成质量方面也达到了较高水准。值得关注的是，知名高性能推理框架vLLM已宣布对Step3模型提供支持，并在官方测试报告中指出，在Hopper架构GPU上，该模型可实现单卡每秒4039 tokens的吞吐量，这一数据标志着Step3在高性能推理领域已具备较强的实用价值。

目前，Step3模型的权重文件已在Hugging Face和魔搭（ModelScope）两大开源社区同步发布，提供bf16和block-fp8两种精度格式供用户选择。此外，用户还可通过阶跃星辰开放平台（platform.stepfun.com）访问与特定AI服务兼容的服务接口，该接口支持64K上下文长度，现阶段正推出优惠定价方案，输入token单价为每百万1.5元，输出token单价为每百万4元。

综合来看，Step3模型的开源不仅为大模型技术社区贡献了一项具有竞争力的基础设施，其创新的AFD架构和MFA注意力机制也为行业在高效能大模型设计方向提供了重要参考。随着该模型在各行业应用场景的深入落地，预计将推动多模态AI技术在成本敏感型业务场景中的规模化应用。