大模型推理太慢、显存不够用?腾讯混元团队开源的 AngelSlim,一套工具解决量化、加速、剪枝三大难题。

为什么需要模型压缩?

近年来,大语言模型(LLM)和多模态大模型(MLM)的能力发展速度很快——复杂推理、零样本泛化、跨模态理解,样样精通。但这些能力的背后,是一道绕不过去的"推理墙"(Inference Wall):

  • 自注意力机制的计算复杂度是 O(n²),序列越长,消耗越大;
  • 数十亿参数意味着巨大的显存带宽需求,对 GPU 要求很高;
  • 长上下文、实时多模态交互对硬件的要求越来越高,和实际可用的消费级硬件之间的鸿沟越来越大。

已有的研究提出了量化、稀疏化、投机解码等解法,但它们大多以"孤岛"形式存在,单打独斗,难以形成一套完整的端到端压缩部署流水线。

AngelSlim 正是为了解决这个问题——一个由腾讯混元 AI Infra 团队打造的、统一的大模型压缩与加速工具包,已在 GitHub 完全开源。

 

项目地址:https://github.com/Tencent/AngelSlim

ModelScope 模型库:https://modelscope.cn/organization/AngelSlim

技术报告:https://arxiv.org/abs/2602.21233



AngelSlim 能做什么?

AngelSlim 将四大核心压缩技术整合进一套统一框架:

技术方向 代表算法 核心收益
极低比特量化 2-bit QAT、三值量化 Tequila/Sherry 6× 压缩,边缘设备 4× 提速
训练后量化 FP8/INT8/INT4 PTQ + LeptoQuant 近无损压缩,单卡量化 DeepSeek-R1
投机解码 Eagle3 + SpecExit 吞吐提升 1.8–2.0×,无需修改目标模型
稀疏注意力 / Token 剪枝 Stem、IDPruner、Samp 长文 TTFT 大幅下降,多模态冗余 Token 消除

下面逐一介绍。



极低比特量化:把大模型塞进手机

3.1 HY-1.8B-2Bit:业界首个可工业落地的 2-bit 大模型

一句话概括:把 1.8B 参数的混元模型压缩到等效 0.3B 大小(6× 压缩),同时平均精度损失仅 3.97%,推理速度在苹果 M4 芯片上最高提升 8×。

 

怎么做到的?

传统 2-bit 量化(如 {-2, -1, 0, 1})动态范围受限,极容易精度崩塌。HY-1.8B-2Bit 采用了 Stretched Elastic Quantization (SEQ),将量化映射改为对称方案 {-1.5, -0.5, 0.5, 1.5},消除零点,扩展动态范围,同时配合 QAT(量化感知训练):

  • 指令微调权重而非预训练权重初始化,加速收敛;
  • 89B 精选 token(侧重数学、科学、长文本)弥补低比特推理损失;
  • 仅用 BitNet-2B 10% token 量完成训练,极其高效。

 

与同体量模型对比的实测数据:

模型 平均精度 相比 FP16 差距
HY-1.8B-FP16(基准) 67.15% 0%
HY-0.5B-FP16(同体量) 45.28% -21.87%
HY-1.8B-INT4 63.31% -3.84%
HY-1.8B-2Bit 63.18% -3.97%

2-bit 模型和 INT4 模型精度几乎相同,但只用了一半的权重精度,在 BBH 和 LiveCodeBench 等推理任务上甚至超过了 INT4 基线。

它还继承了混元 A13B 的 Dual-CoT(双链式思维) 架构,是业界最小的支持复杂推理路径的模型——短思维快速响应,长思维处理复杂任务,灵活切换。

模型链接:https://modelscope.cn/models/AngelSlim/HY-1.8B-2Bit

 

3.2 三值量化:Tequila 和 Sherry

三值量化将权重限定在 {-1, 0, +1},用查表代替浮点乘法,硬件友好。但传统方案有两个顽疾:

Tequila(1.58-bit):解决"死区陷阱"问题。权重落入 [-Δ, Δ] 区间时,传统 STE 梯度失效,训练停滞。Tequila 将这些"死权重"重新激活为可微分的动态偏置,训练结束后离线合并,零推理开销。

 

Sherry(1.25-bit):通过 3:4 细粒度结构稀疏解决硬件对齐问题——每 4 个权重中恰好 3 个非零,打包为 5-bit,完美匹配 SIMD 向量指令。相比 2-bit 方案体积缩小约 20%,推理速度在 Intel i7 上达到 148 tokens/s(2-bit BitNet 为 132 tokens/s)。



训练后量化(PTQ):生产级一键压缩

4.1 统一 PTQ 框架

AngelSlim 的 PTQ 框架覆盖 FP8、INT8、INT4 全精度谱,一键调用:

# 只需一个 YAML 配置文件
model: Qwen3-1.7B
compress:
  method: fp8_static
dataset: ...

 

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

 

或者用 Python API 三行搞定:

from angelslim.engine import Engine
slim_engine = Engine()
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B")
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
slim_engine.run()
slim_engine.save("./output")

核心亮点:Low-Memory 校准模式,通过 CPU-GPU 智能按需换页,让 DeepSeek-R1 这样的超大模型用一张 GPU 完成全量化流程,无需多卡。

 

4.2 LeptoQuant:搞定 FP8 精度陷阱

标准 FP8 量化有个问题:权重分布往往是尖峰拉普拉斯型(大量数据密集在 0 附近,少量异常值跑得很远)。传统按最大绝对值缩放,会把密集区域平移到 FP8 精度最差的范围,导致数学推理和格式化任务精度显著下降。

LeptoQuant 的解法是:隔离异常值,把主体分布压缩到高精度区间。通过网格搜索找到最优缩放因子 α,最小化量化误差。

实测效果(Hunyuan-4B-Instruct,AIME 2025):

量化方式 得分
BF16 基准 66.50
标准 FP8 46.70(下降近 20 分)
FP8 + LeptoQuant 60.70(恢复大半精度)



投机解码:让模型「提前预判」,吞吐翻倍

5.1 原理一句话

用一个轻量草稿模型"猜"接下来几个 token,目标模型"验证"这批猜测,一次前向通过就能接受多个 token。等效于 token 并行生成,吞吐显著提升。

 

5.2 AngelSlim 的 Eagle3 训练框架

现有方案的问题在于,草稿模型训练缺乏对目标模型的对齐,导致接受率低。AngelSlim 将投机解码作为一等公民训练目标,设计了专门的框架:

  • 全模态统一训练:LLM、视觉语言模型(VLM)、语音模型(ASR/TTS)共用同一套训练抽象;
  • 直接部署:训练完的 Eagle3 草稿模型可以直接接入 vLLM、SGLang,无需二次转换;
  • 支持在线/离线两种训练模式,适配不同显存环境。

 

Qwen3 系列实测(vLLM,单卡):

模型 原始吞吐 (TPS) Eagle3 吞吐 (TPS) 平均接受长度
Qwen3-1.7B 381 643 2.17
Qwen3-8B 152 258 1.99
Qwen3-32B 43 74 1.91

多模态和语音任务同样显著受益。Qwen2-Audio 在 LibriSpeech 上吞吐从 78.76 → 146.66 TPS,平均接受长度达 3.51。

5.3 SpecExit:让推理模型"适时停止"

大推理模型(Reasoning LRM)有个通病:哪怕简单问题也要绕一大圈思维链,造成无效计算。SpecExit 的思路是:把早退决策内嵌进草稿模型的隐状态,让模型同时输出 token 和"我够了/还没够"的置信信号。

  • 生成长度可缩减 54–66%;
  • 端到端延迟相比 EAGLE3 基线再降 2× 以上;
  • 精度几乎无损。



稀疏注意力 + Token 剪枝:给长文和多模态提速

6.1 Stem:重新理解因果信息流

长文推理的核心痛点是 TTFT(首 token 时延)过高。AngelSlim 的 Stem 模块提出两个创新:

  • Token Position Decay(位置衰减预算):序列开头的 token 被更多后续 token 依赖,给它们分配更高的保留优先级,后面的 token 逐渐降低预算;
  • Output-Aware Metric(输出感知度量):选 token 时不只看注意力得分,还考虑对应 Value 向量的贡献大小,避免"注意力高但实际没用"的 token 浪费计算。

实测在 Qwen3-8B 上,Stem 的长文准确率在多项 LongBench 子任务上高于其他稀疏方案,同时大幅降低 TTFT。

 

6.2 IDPruner:视觉 Token 的极致精简

多模态模型中,图片生成的大量 token 存在空间冗余。IDPruner 用 MMR(最大边际相关性) 同时优化两个目标:

  • 重要性:每个 token 对任务的贡献度;
  • 多样性:已选 token 集合的语义覆盖范围。

在 Qwen2.5-VL-7B 上,**保留 10% Token(90% 压缩比)**时,IDPruner 综合性能依然达到 86.47%,显著领先其他所有基线方法。

 

6.3 Samp:音频 Token 的合并+剪枝

语音 token 天然有时间冗余。Samp 分两阶段处理:

  1. 相似度阈值合并:相邻 token 相似度超过阈值 λ 就合并为一个聚类,加权平均保留最重要信息;
  2. 注意力引导剪枝:基于重要性分数,从合并后的 token 池中再剪掉冗余的。

在 Qwen2-Audio 上,40% 压缩率下 Samp 的平均 WER 仍保持 5.39%,同类方法最低,部分方法同条件下 WER 高达 11.22%。

 

快速上手:五分钟跑起来
安装

pip install angelslim

 

LLM 量化(以 Qwen3-1.7B FP8 为例)

一键式(推荐):

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

Python API:

from angelslim.engine import Engine
slim_engine = Engine()
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B")
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
slim_engine.run()
slim_engine.save("./output")

投机解码训练(Eagle3)

# 第一步:启动目标模型 vLLM server
bash scripts/speculative/run_vllm_server.sh

# 第二步:生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh

# 第三步:Eagle3 在线训练
bash scripts/speculative/train_eagle3_online.sh

 

Diffusion 模型量化(以 FLUX.1-schnell 为例)

python scripts/diffusion/run_diffusion.py \
  --model-name-or-path black-forest-labs/FLUX.1-schnell \
  --quant-type fp8-per-tensor \
  --prompt "A cat holding a sign that says hello world" \
  --height 1024 --width 1024 --steps 4 --seed 0

量化后部署(vLLM)

bash scripts/deploy/run_vllm.sh \
  --model-path ./output \
  --port 8080 \
  -d 0,1,2,3 -t 4 -g 0.8 \
  --max-model-len 4096




最佳实践建议

实践建议:

量化策略选择

  • 追求极致压缩(端侧/边缘设备)→ 选 2-bit QAT 或三值量化(Sherry 1.25-bit)
  • 追求近无损精度(服务器部署)→ 首选 FP8-Static;精度要求极高时用 LeptoQuant 修复
  • 大模型单卡压缩(DeepSeek-R1 级别)→ 开启 Low-Memory Calibration 模式 + W4A8-FP8

 

投机解码建议

  • 文本模型设 num_speculative_tokens=2;多模态和语音模型设 num_speculative_tokens=4
  • 推理模型(如 DeepSeek-R1-Distill)额外搭配 SpecExit,可再降 50%+ 延迟

 

多模态 Token 剪枝建议

  • 视觉任务(保留 25% Token):直接使用 IDPruner,精度基本维持在 95%+ baseline
  • 语音 ASR 任务:优先 Samp,40% 压缩下 WER 几乎不变

 

评测验证

  • 量化后务必用 lm-evaluation-harness 跑一遍核心 benchmark(ceval、mmlu、gsm8k)
  • 启用 Scale Analysis 工具检测异常值分布,决定是否需要 LeptoQuant




支持的模型与资源

AngelSlim 目前已开源以下 Eagle3 和量化权重:

  • Qwen3 全系列(1.7B / 4B / 8B / 14B / 32B / 30B-A3B)的 Eagle3 权重
  • Qwen3-VL 多模态系列 Eagle3 权重
  • Qwen3-235B-A22B-NVFP4 / Qwen3-32B-NVFP4 量化权重
  • HY-1.8B-2Bit 端侧 2-bit 模型权重
  • DeepSeek-R1-0528 的 W4A8-FP8 量化权重

所有权重可在 Hugging Face(AngelSlim 主页)和 ModelScope 下载。



总结

AngelSlim 的核心价值在于体系化整合:它不是某一个压缩技巧的实现,而是把量化、投机解码、稀疏注意力、Token 剪枝这四条技术路线统一进一个框架,让算法研究者和工程落地者都能各取所需。

如果你是… AngelSlim 能给你带来…
端侧 AI 开发者 2-bit / 1.25-bit 模型,苹果 M4 上 8× 加速
服务端推理工程师 Eagle3 吞吐翻倍,FP8 近无损部署
多模态应用开发者 视觉/语音 Token 剪枝,省算力不掉精度
算法研究者 统一框架,算法策略与模型架构完全解耦

 

点击即可跳转模型链接https://modelscope.cn/models/AngelSlim/HY-1.8B-2Bit

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐