Qwen3

Qwen3的发布与模型系列构成

2025年4月29日,阿里巴巴发布了Qwen3(通义千问3),这是其新一代开源大模型。Qwen3提供了一系列模型,包括2款混合专家(MoE)模型和6款稠密模型,参数规模覆盖0.6B到235B,能满足不同场景和设备的需求,如手机端(4B)、汽车端(8B)及企业级(32B)部署。

Qwen3的技术特点

  • 架构与参数

    • 混合专家架构(MoE):Qwen3的MoE模型采用Transformer架构,如Qwen3-235B-A22B总参数2350亿,其中220亿参数在任何给定时间是活跃的;Qwen3-30B-A3B总参数305亿,活跃参数33亿。这种架构通过动态激活参数,大大提高了效率,是传统稠密模型的10倍。例如,Qwen3-30B-A3B激活3B参数时性能媲美Qwen2.5-32B,推理成本降低90%。并且仅需4张H20显卡就能部署满血版Qwen3-235B,显存占用为同类性能模型的三分之一,企业部署成本降低60%。

    • 稠密架构:稠密模型同样基于Transformer,参数有32亿、14亿、8亿、4亿、1.7亿、0.6亿等不同规模。

  • 训练数据:训练数据量达36万亿token,是Qwen2.5的两倍。数据来源广泛,包括从网页生成和抓取的内容,涵盖教科书、PDF文档、问答对、数学问题、代码等,丰富的数据源强化了模型在推理与专业领域的能力。

  • 多语言能力:支持119种语言和方言,覆盖全球90%以上人口,有助于小语种地区的AI本地化应用,提升了模型的全球适用性。

  • 推理模式:Qwen3首创“混合推理模型”,有“快思考”(非思考模式)和“慢思考”(思考模式)两种。“快思考”针对简单的问答、指令执行等问题,直接调用预训练知识快速响应,延迟低至毫秒级,适合实时交互场景;“慢思考”用于数学推理、代码生成等复杂任务,启用多步推理链,通过自我事实核查和逻辑推导提升准确性。用户还可通过API设置“思考预算”,在成本与质量间实现平衡。

  • 强化学习与Agent能力:通过多阶段强化学习,Qwen3在工具调用、指令遵循、格式解析等Agent任务中表现卓越。在BFCL评测中得70.8分,超越Gemini2.5Pro和OpenAIo1,降低了智能体开发门槛。同时原生支持MCP协议,结合Qwen-Agent框架,简化了工具调用模板与解析流程。

Qwen3的性能表现

  • 在阿里巴巴进行的测试中,Qwen3-235B-A22B和Qwen3-30B-A3B表现出色,与领先的开放权重模型相比不逊色甚至更优,Qwen3-4B也能与比自身参数大很多倍的模型竞争。例如,在编码挑战LiveCodeBench和Codeforces中,Qwen3-235B-A22B的成绩分别为70.7%和2056Elo,超过了OpenAIo1、DeepSeek-R1和Gemini2.5Pro,不过在高难度设置下落后于OpenAIo4-mini。在BFCL评测中也超越了相关模型。Qwen3-30B-A3B在阿里巴巴强调的所有基准测试中优于GoogleGemma-3-27B-IT和DeepSeek-V3,仅在BFCL上略逊于OpenAIGPT-4o。Qwen3-4B在Codeforces和LiveBench上也超过了DeepSeek-V3。

Qwen3的开源与使用

  • 模型遵循Apache2.0许可,通过HuggingFace和ModelScope免费提供给非商业和商业用户使用。Qwen3-235B-A22B的API价格为每百万输入/输出token0.22-0.88美元,Qwen3-30B-A3B为每百万输入/输出token0.15-0.60美元,通过Fireworks.ai平台提供。

DeepSeek-R1相关介绍

  • DeepSeek-R1是由DeepSeek推出的模型,其前身为DeepSeek-R1-Zero,通过大规模强化学习训练,没有监督微调作为初步步骤,在推理方面表现出色,但存在无休止重复、可读性差和语言混合等问题。为解决这些问题并进一步提升推理性能,引入了包含冷启动数据的DeepSeek-R1。该模型在数学、代码和推理任务方面实现了与OpenAI-o1相当的性能。DeepSeek开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen的DeepSeek-R1提炼的六个密集模型,以支持研究界。

Qwen3对DeepSeek-R1的超越

  • 性能方面:在AIME25奥数测评中,Qwen3-235B取得81.5分刷新开源纪录,而DeepSeek-R1未公布具体得分。在代码生成的LiveCodeBench评测中,Qwen3突破70分,超越DeepSeek-R1。在人类偏好对齐的ArenaHard测评中,Qwen3-235B得95.6分,优于DeepSeek-R1。

  • 成本与资源方面:Qwen3-235B参数量为DeepSeek-R1的1/3,但性能达到同一梯队。相同硬件资源下,Qwen3推理成本仅为DeepSeek-R1的1/3,显存占用减少66%。

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐