Qwen3.5 中等规模模型系列正式开源：更强智能，更低算力

魔搭ModelScope社区

2944人浏览 · 2026-02-26 09:37:45

魔搭ModelScope社区 · 2026-02-26 09:37:45 发布

更好的架构、更高质量的数据、更大规模的强化学习，才是推动智能进步的真正引擎。

🚀 一句话读懂 Qwen3.5

今天，Qwen团队正式发布 Qwen3.5 中等规模模型系列，包含四款各有侧重的模型：

模型	定位
Qwen3.5-Flash	生产级托管版，对应 35B-A3B，默认 100 万上下文
Qwen3.5-35B-A3B	小体积，超强能力，已超越 Qwen3-235B-A22B
Qwen3.5-122B-A10B	旗舰开源版，对标前沿模型
Qwen3.5-27B	均衡型，在复杂 Agent 场景表现出色

所有模型均支持视觉-语言多模态输入，原生上下文长度 256K tokens，最高可扩展至 1M tokens

模型链接：https://modelscope.cn/collections/Qwen/Qwen35

✨ 四大技术亮点

1. 统一视觉语言基础（Unified Vision-Language Foundation）

Qwen3.5 采用早期融合训练（Early Fusion），将视觉 token 和文本 token 统一训练，不再是"文字模型 + 外挂视觉模块"的拼接方案。在推理、编程、Agent 任务和视觉理解等基准测试上，整体性能对齐甚至超越上一代专门的视觉模型 Qwen3-VL。

2. 高效混合架构（Gated Delta Network + MoE）

Qwen3.5 引入 Gated Delta Networks 与稀疏 Mixture-of-Experts（MoE） 的组合架构。以 35B-A3B 为例，总参数量 350 亿，每次推理仅激活约 30 亿参数，实现了高吞吐、低延迟、低成本的三重平衡——这正是"用中等规模做出旗舰效果"的核心秘密。

3. 百万 Agent 规模的强化学习

训练过程中，RL 框架在数百万个 Agent 环境中并行运行，通过递进式任务分布持续提升模型的真实世界泛化能力，使模型在复杂多步 Agent 任务中的鲁棒性大幅提升。

4. 201 种语言覆盖

Qwen3.5 将多语言支持扩展至 201 种语言与方言，包含对中文、粤语等多种方言的细粒度理解能力。

📊 基准测试：小模型，大成绩

Qwen3.5-35B-A3B 在知识（MMLU-Pro: 85.3）、指令跟随（IFEval: 91.9）、数学推理（MATH-500: 97.6）等核心榜单上，已全面超越参数量是其 6 倍以上的旧版旗舰模型 Qwen3-235B-A22B，印证了"更少激活参数 + 更好架构 + 更充分训练 > 单纯堆参数"的技术路线。

Qwen3.5-122B-A10B 在 MMLU-Pro（86.7）、C-Eval（91.9）等知识类任务上进一步刷新记录，在复杂 Agent 场景中与顶级前沿模型的差距持续缩小。

🛠️ 最佳实践

一、选择合适的推理模式

Qwen3.5 支持两种模式：思考模式（Thinking Mode） 适用于需要深度推理的任务；指令模式（Instruct Mode） 适用于直接对话和快速响应。

推荐采样参数配置：

思考模式（通用任务）：

temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5
思考模式（精确编码任务，如 Web 开发）：

temperature=0.6, top_p=0.95, top_k=20
指令模式（通用任务）：

temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5
指令模式（推理任务）：

temperature=1.0, top_p=1.0, top_k=40, presence_penalty=2.0

💡 presence_penalty 在 0～2 之间调整可有效减少重复输出，但过高时可能引发语言混淆，请按需调节。

二、合理设置输出长度

常规任务：建议 max_tokens=32768
数学竞赛、复杂编程题等高难度任务：建议设置为 81920，给模型留出充分的推理空间

三、标准化输出格式

在 Prompt 中明确要求格式，可显著提升输出质量：

数学题：在 Prompt 末尾加入 "请逐步推理，并将最终答案写在 \boxed{} 内。"
选择题：要求模型用 JSON 格式仅输出选项字母，例如 {"answer": "C"}

四、多轮对话的历史管理

在多轮对话中，历史消息只保留最终输出，不需要包含思考过程（thinking content）。这一点在直接使用 Jinja2 模板时已自动处理，使用第三方框架时需开发者手动确认是否正确过滤。

五、本地部署：SGLang / vLLM 推理服务

Qwen3.5 兼容 SGLang、vLLM、KTransformers、Hugging Face Transformers 等主流推理框架。生产环境或高并发场景强烈推荐 SGLang 或 vLLM。

⚠️ 注意：模型默认上下文长度 262,144 tokens，若遇到 OOM，可适当降低；但建议保持至少 128K 以确保思考能力完整。

SGLang（推荐）

先安装最新版 SGLang：

uv pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python&egg=sglang[all]'

标准启动（8 卡 TP 并行）：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

开启工具调用（Tool Use）：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder

开启多 Token 预测（MTP 加速推理）：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

vLLM

先安装最新版 vLLM：

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

标准启动（8 卡 TP 并行）：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

开启工具调用：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

仅文本模式（节省显存给 KV Cache）：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-122B-A10B \
  --port 8000 --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

服务启动后，两者均在 http://localhost:8000/v1 提供 OpenAI 兼容 API，可直接接入任何支持 OpenAI 格式的客户端。

六、调用 API：OpenAI SDK 示例

配置环境变量后，即可用标准 OpenAI Python SDK 调用：

pip install -U openai
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

文本对话（思考模式）：

from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
    model="Qwen/Qwen3.5-122B-A10B",
    messages=[{"role": "user", "content": "用一句话解释相对论"}],
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={"top_k": 20},
)
print(response.choices[0].message.content)

关闭思考模式（直接回答）：

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-122B-A10B",
    messages=[{"role": "user", "content": "今天天气怎么样？"}],
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False},
    },
)

💡 注意：Qwen3.5 不支持 Qwen3 的软切换指令（/think 和 /nothink），需通过 API 参数显式控制。

图片输入：

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-122B-A10B",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://your-image-url.jpg"}},
            {"type": "text", "text": "请描述这张图片"},
        ]
    }],
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={"top_k": 20},
)

七、超长文本处理（百万 Token）

原生支持 262,144 tokens。如需处理更长内容（如长视频、超长文档），可通过 YaRN 扩展至约 100 万 tokens。

SGLang 超长上下文启动：

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-122B-A10B \
  --json-model-override-args '{"text_config": {"rope_parameters": {"rope_type": "yarn", "factor": 4.0, "original_max_position_embeddings": 262144}}}' \
  --context-length 1010000

vLLM 超长上下文启动：

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3.5-122B-A10B \
  --hf-overrides '{"text_config": {"rope_parameters": {"rope_type": "yarn", "factor": 4.0, "original_max_position_embeddings": 262144}}}' \
  --max-model-len 1010000

⚠️ factor 参数建议按实际场景调整：若常用长度约为 52 万 tokens，将 factor 设为 2.0 比 4.0 效果更佳。

八、长视频理解

为获得更高帧率采样和更优的小时级视频理解效果，建议在 video_preprocessor_config.json 中将 longest_edge 设置为 469762048（对应约 22.4 万视频 tokens）。

🔗 API Inference 快速体验

魔搭社区的API Inference已经支持Qwen3.5最新的模型的推理API接口，示例代码如下：

from openai import OpenAI
client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1',
    api_key='<MODELSCOPE_TOKEN>', # ModelScope Token
)
response = client.chat.completions.create(
    model='Qwen/Qwen3.5-35B-A3B', # ModelScope Model-Id, required
    messages=[{
        'role':
            'user',
        'content': [{
            'type': 'text',
            'text': '描述这幅图',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                    'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg',
            },
        }],
    }],
    stream=True
)
for chunk in response:
    if chunk.choices:
        print(chunk.choices[0].delta.content, end='', flush=True)

🔗 MS-Swift微调

ms-swift已支持Qwen3.5系列模型的训练。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址：https://github.com/modelscope/ms-swift

在开始微调之前，请确保您的环境已准备妥当。

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install "transformers>=5.2.0"

下面展示可运行的微调demo，并给出自定义数据集的格式。（训练时指定--dataset xxx.jsonl即可）

{"messages": [{"role": "user", "content": "浙江的省会在哪？"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image><image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫，后一张是小狗"}], "images": ["/xxx/x.jpg", "/xxx/x.png"]}
{"messages": [{"role": "system", "content": "你是个有用无害的助手"}, {"role": "user", "content": "<image>图片中是什么，<video>视频中是什么"}, {"role": "assistant", "content": "图片中是一个大象，视频中是一只小狗在草地上奔跑"}], "images": ["/xxx/x.jpg"], "videos": ["/xxx/x.mp4"]}

使用transformers训练：

# 4 * 30GiB
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
NPROC_PER_NODE=4 \
MAX_PIXELS=1003520 \
VIDEO_MAX_PIXELS=50176 \
FPS_MAX_FRAMES=12 \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model Qwen/Qwen3.5-35B-A3B \
    --tuner_type lora \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite#2000' \
    --load_from_cache_file true \
    --add_non_thinking_prefix true \
    --split_dataset_ratio 0.01 \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --experts_impl grouped_mm \
    --router_aux_loss_coef 1e-3 \
    --gradient_accumulation_steps 1 \
    --group_by_length true \
    --output_dir output/Qwen3.5-35B-A3B \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --deepspeed zero3
# 训练后对验证集推理
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
MAX_PIXELS=1003520 \
VIDEO_MAX_PIXELS=50176 \
FPS_MAX_FRAMES=12 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --experts_impl grouped_mm \
    --enable_thinking false \
    --load_data_args true

使用megatron训练：

# 4 * 40GiB
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
NPROC_PER_NODE=4 \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
MAX_PIXELS=1003520 \
VIDEO_MAX_PIXELS=50176 \
FPS_MAX_FRAMES=12 \
megatron sft \
    --model Qwen/Qwen3.5-35B-A3B \
    --save_safetensors true \
    --merge_lora true \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
              'AI-ModelScope/alpaca-gpt4-data-en#500' \
              'swift/self-cognition#500' \
              'AI-ModelScope/LaTeX_OCR:human_handwrite#2000' \
    --load_from_cache_file true \
    --add_non_thinking_prefix true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --expert_model_parallel_size 4 \
    --moe_permute_fusion true \
    --moe_grouped_gemm true \
    --moe_shared_expert_overlap true \
    --moe_aux_loss_coeff 1e-6 \
    --micro_batch_size 4 \
    --global_batch_size 16 \
    --recompute_granularity full \
    --recompute_method uniform \
    --recompute_num_layers 1 \
    --num_train_epochs 1 \
    --group_by_length true \
    --finetune true \
    --freeze_llm false \
    --freeze_vit true \
    --freeze_aligner true \
    --cross_entropy_loss_fusion true \
    --lr 1e-4 \
    --lr_warmup_fraction 0.05 \
    --min_lr 1e-5 \
    --output_dir megatron_output/Qwen3.5-35B-A3B \
    --eval_steps 200 \
    --save_steps 200 \
    --max_length 2048 \
    --dataloader_num_workers 8 \
    --dataset_num_proc 8 \
    --no_save_optim true \
    --no_save_rng true \
    --sequence_parallel true \
    --attention_backend unfused \
    --padding_free false \
    --model_author swift \
    --model_name swift-robot
# 训练后对验证集推理
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
MAX_PIXELS=1003520 \
VIDEO_MAX_PIXELS=50176 \
FPS_MAX_FRAMES=12 \
swift infer \
    --model megatron_output/vx-xxx/checkpoint-xxx-merged \
    --stream true \
    --experts_impl grouped_mm \
    --enable_thinking false \
    --load_data_args true

Qwen3.5 系列给行业传递了一个清晰的信号：在架构创新、数据质量和强化学习规模上下功夫，效果可以超越单纯增大参数规模的旧范式。对于资源有限的团队和开发者来说，35B-A3B（仅激活 3B 参数）以极低的推理成本达到旗舰级性能，是当前部署性价比最高的选择之一。

点击即可跳转模型链接

https://modelscope.cn/collections/Qwen/Qwen35

魔搭社区176 搭子 · 113 讨论圈子