AngelSlim：腾讯混元开源的大模型压缩神器，让大模型飞速跑在你的手机

魔搭ModelScope社区

269人浏览 · 2026-03-02 10:16:31

魔搭ModelScope社区 · 2026-03-02 10:16:31 发布

大模型推理太慢、显存不够用？腾讯混元团队开源的 AngelSlim，一套工具解决量化、加速、剪枝三大难题。

为什么需要模型压缩？

近年来，大语言模型（LLM）和多模态大模型（MLM）的能力发展速度很快——复杂推理、零样本泛化、跨模态理解，样样精通。但这些能力的背后，是一道绕不过去的"推理墙"（Inference Wall）：

自注意力机制的计算复杂度是 O(n²)，序列越长，消耗越大；
数十亿参数意味着巨大的显存带宽需求，对 GPU 要求很高；
长上下文、实时多模态交互对硬件的要求越来越高，和实际可用的消费级硬件之间的鸿沟越来越大。

已有的研究提出了量化、稀疏化、投机解码等解法，但它们大多以"孤岛"形式存在，单打独斗，难以形成一套完整的端到端压缩部署流水线。

AngelSlim 正是为了解决这个问题——一个由腾讯混元 AI Infra 团队打造的、统一的大模型压缩与加速工具包，已在 GitHub 完全开源。

项目地址：https://github.com/Tencent/AngelSlim

ModelScope 模型库：https://modelscope.cn/organization/AngelSlim

技术报告：https://arxiv.org/abs/2602.21233

AngelSlim 能做什么？

AngelSlim 将四大核心压缩技术整合进一套统一框架：

技术方向	代表算法	核心收益
极低比特量化	2-bit QAT、三值量化 Tequila/Sherry	6× 压缩，边缘设备 4× 提速
训练后量化	FP8/INT8/INT4 PTQ + LeptoQuant	近无损压缩，单卡量化 DeepSeek-R1
投机解码	Eagle3 + SpecExit	吞吐提升 1.8–2.0×，无需修改目标模型
稀疏注意力 / Token 剪枝	Stem、IDPruner、Samp	长文 TTFT 大幅下降，多模态冗余 Token 消除

下面逐一介绍。

极低比特量化：把大模型塞进手机

3.1 HY-1.8B-2Bit：业界首个可工业落地的 2-bit 大模型

一句话概括：把 1.8B 参数的混元模型压缩到等效 0.3B 大小（6× 压缩），同时平均精度损失仅 3.97%，推理速度在苹果 M4 芯片上最高提升 8×。

怎么做到的？

传统 2-bit 量化（如 {-2, -1, 0, 1}）动态范围受限，极容易精度崩塌。HY-1.8B-2Bit 采用了 Stretched Elastic Quantization (SEQ)，将量化映射改为对称方案 {-1.5, -0.5, 0.5, 1.5}，消除零点，扩展动态范围，同时配合 QAT（量化感知训练）：

用指令微调权重而非预训练权重初始化，加速收敛；
用 89B 精选 token（侧重数学、科学、长文本）弥补低比特推理损失；
仅用 BitNet-2B 10% 的 token 量完成训练，极其高效。

与同体量模型对比的实测数据：

模型	平均精度	相比 FP16 差距
HY-1.8B-FP16（基准）	67.15%	0%
HY-0.5B-FP16（同体量）	45.28%	-21.87%
HY-1.8B-INT4	63.31%	-3.84%
HY-1.8B-2Bit	63.18%	-3.97%

2-bit 模型和 INT4 模型精度几乎相同，但只用了一半的权重精度，在 BBH 和 LiveCodeBench 等推理任务上甚至超过了 INT4 基线。

它还继承了混元 A13B 的 Dual-CoT（双链式思维）架构，是业界最小的支持复杂推理路径的模型——短思维快速响应，长思维处理复杂任务，灵活切换。

模型链接：https://modelscope.cn/models/AngelSlim/HY-1.8B-2Bit

3.2 三值量化：Tequila 和 Sherry

三值量化将权重限定在 {-1, 0, +1}，用查表代替浮点乘法，硬件友好。但传统方案有两个顽疾：

Tequila（1.58-bit）：解决"死区陷阱"问题。权重落入 [-Δ, Δ] 区间时，传统 STE 梯度失效，训练停滞。Tequila 将这些"死权重"重新激活为可微分的动态偏置，训练结束后离线合并，零推理开销。

Sherry（1.25-bit）：通过 3:4 细粒度结构稀疏解决硬件对齐问题——每 4 个权重中恰好 3 个非零，打包为 5-bit，完美匹配 SIMD 向量指令。相比 2-bit 方案体积缩小约 20%，推理速度在 Intel i7 上达到 148 tokens/s（2-bit BitNet 为 132 tokens/s）。

训练后量化（PTQ）：生产级一键压缩

4.1 统一 PTQ 框架

AngelSlim 的 PTQ 框架覆盖 FP8、INT8、INT4 全精度谱，一键调用：

# 只需一个 YAML 配置文件
model: Qwen3-1.7B
compress:
  method: fp8_static
dataset: ...

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

或者用 Python API 三行搞定：

from angelslim.engine import Engine
slim_engine = Engine()
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B")
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
slim_engine.run()
slim_engine.save("./output")

核心亮点：Low-Memory 校准模式，通过 CPU-GPU 智能按需换页，让 DeepSeek-R1 这样的超大模型用一张 GPU 完成全量化流程，无需多卡。

4.2 LeptoQuant：搞定 FP8 精度陷阱

标准 FP8 量化有个问题：权重分布往往是尖峰拉普拉斯型（大量数据密集在 0 附近，少量异常值跑得很远）。传统按最大绝对值缩放，会把密集区域平移到 FP8 精度最差的范围，导致数学推理和格式化任务精度显著下降。

LeptoQuant 的解法是：隔离异常值，把主体分布压缩到高精度区间。通过网格搜索找到最优缩放因子 α，最小化量化误差。

实测效果（Hunyuan-4B-Instruct，AIME 2025）：

量化方式	得分
BF16 基准	66.50
标准 FP8	46.70（下降近 20 分）
FP8 + LeptoQuant	60.70（恢复大半精度）

投机解码：让模型「提前预判」，吞吐翻倍

5.1 原理一句话

用一个轻量草稿模型"猜"接下来几个 token，目标模型"验证"这批猜测，一次前向通过就能接受多个 token。等效于 token 并行生成，吞吐显著提升。

5.2 AngelSlim 的 Eagle3 训练框架

现有方案的问题在于，草稿模型训练缺乏对目标模型的对齐，导致接受率低。AngelSlim 将投机解码作为一等公民训练目标，设计了专门的框架：

全模态统一训练：LLM、视觉语言模型（VLM）、语音模型（ASR/TTS）共用同一套训练抽象；
直接部署：训练完的 Eagle3 草稿模型可以直接接入 vLLM、SGLang，无需二次转换；
支持在线/离线两种训练模式，适配不同显存环境。

Qwen3 系列实测（vLLM，单卡）：

模型	原始吞吐 (TPS)	Eagle3 吞吐 (TPS)	平均接受长度
Qwen3-1.7B	381	643	2.17
Qwen3-8B	152	258	1.99
Qwen3-32B	43	74	1.91

多模态和语音任务同样显著受益。Qwen2-Audio 在 LibriSpeech 上吞吐从 78.76 → 146.66 TPS，平均接受长度达 3.51。

5.3 SpecExit：让推理模型"适时停止"

大推理模型（Reasoning LRM）有个通病：哪怕简单问题也要绕一大圈思维链，造成无效计算。SpecExit 的思路是：把早退决策内嵌进草稿模型的隐状态，让模型同时输出 token 和"我够了/还没够"的置信信号。

生成长度可缩减 54–66%；
端到端延迟相比 EAGLE3 基线再降 2× 以上；
精度几乎无损。

稀疏注意力 + Token 剪枝：给长文和多模态提速

6.1 Stem：重新理解因果信息流

长文推理的核心痛点是 TTFT（首 token 时延）过高。AngelSlim 的 Stem 模块提出两个创新：

Token Position Decay（位置衰减预算）：序列开头的 token 被更多后续 token 依赖，给它们分配更高的保留优先级，后面的 token 逐渐降低预算；
Output-Aware Metric（输出感知度量）：选 token 时不只看注意力得分，还考虑对应 Value 向量的贡献大小，避免"注意力高但实际没用"的 token 浪费计算。

实测在 Qwen3-8B 上，Stem 的长文准确率在多项 LongBench 子任务上高于其他稀疏方案，同时大幅降低 TTFT。

6.2 IDPruner：视觉 Token 的极致精简

多模态模型中，图片生成的大量 token 存在空间冗余。IDPruner 用 MMR（最大边际相关性） 同时优化两个目标：

重要性：每个 token 对任务的贡献度；
多样性：已选 token 集合的语义覆盖范围。

在 Qwen2.5-VL-7B 上，**保留 10% Token（90% 压缩比）**时，IDPruner 综合性能依然达到 86.47%，显著领先其他所有基线方法。

6.3 Samp：音频 Token 的合并+剪枝

语音 token 天然有时间冗余。Samp 分两阶段处理：

相似度阈值合并：相邻 token 相似度超过阈值 λ 就合并为一个聚类，加权平均保留最重要信息；
注意力引导剪枝：基于重要性分数，从合并后的 token 池中再剪掉冗余的。

在 Qwen2-Audio 上，40% 压缩率下 Samp 的平均 WER 仍保持 5.39%，同类方法最低，部分方法同条件下 WER 高达 11.22%。

快速上手：五分钟跑起来
安装

pip install angelslim

LLM 量化（以 Qwen3-1.7B FP8 为例）

一键式（推荐）：

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

Python API：

from angelslim.engine import Engine
slim_engine = Engine()
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B")
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
slim_engine.run()
slim_engine.save("./output")

投机解码训练（Eagle3）

# 第一步：启动目标模型 vLLM server
bash scripts/speculative/run_vllm_server.sh

# 第二步：生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh

# 第三步：Eagle3 在线训练
bash scripts/speculative/train_eagle3_online.sh

Diffusion 模型量化（以 FLUX.1-schnell 为例）

python scripts/diffusion/run_diffusion.py \
  --model-name-or-path black-forest-labs/FLUX.1-schnell \
  --quant-type fp8-per-tensor \
  --prompt "A cat holding a sign that says hello world" \
  --height 1024 --width 1024 --steps 4 --seed 0

量化后部署（vLLM）

bash scripts/deploy/run_vllm.sh \
  --model-path ./output \
  --port 8080 \
  -d 0,1,2,3 -t 4 -g 0.8 \
  --max-model-len 4096

最佳实践建议

实践建议：

量化策略选择

追求极致压缩（端侧/边缘设备）→ 选 2-bit QAT 或三值量化（Sherry 1.25-bit）
追求近无损精度（服务器部署）→ 首选 FP8-Static；精度要求极高时用 LeptoQuant 修复
大模型单卡压缩（DeepSeek-R1 级别）→ 开启 Low-Memory Calibration 模式 + W4A8-FP8

投机解码建议

文本模型设 num_speculative_tokens=2；多模态和语音模型设 num_speculative_tokens=4
推理模型（如 DeepSeek-R1-Distill）额外搭配 SpecExit，可再降 50%+ 延迟

多模态 Token 剪枝建议

视觉任务（保留 25% Token）：直接使用 IDPruner，精度基本维持在 95%+ baseline
语音 ASR 任务：优先 Samp，40% 压缩下 WER 几乎不变

评测验证

量化后务必用 lm-evaluation-harness 跑一遍核心 benchmark（ceval、mmlu、gsm8k）
启用 Scale Analysis 工具检测异常值分布，决定是否需要 LeptoQuant

支持的模型与资源

AngelSlim 目前已开源以下 Eagle3 和量化权重：

Qwen3 全系列（1.7B / 4B / 8B / 14B / 32B / 30B-A3B）的 Eagle3 权重
Qwen3-VL 多模态系列 Eagle3 权重
Qwen3-235B-A22B-NVFP4 / Qwen3-32B-NVFP4 量化权重
HY-1.8B-2Bit 端侧 2-bit 模型权重
DeepSeek-R1-0528 的 W4A8-FP8 量化权重

所有权重可在 Hugging Face（AngelSlim 主页）和 ModelScope 下载。

总结

AngelSlim 的核心价值在于体系化整合：它不是某一个压缩技巧的实现，而是把量化、投机解码、稀疏注意力、Token 剪枝这四条技术路线统一进一个框架，让算法研究者和工程落地者都能各取所需。

如果你是…	AngelSlim 能给你带来…
端侧 AI 开发者	2-bit / 1.25-bit 模型，苹果 M4 上 8× 加速
服务端推理工程师	Eagle3 吞吐翻倍，FP8 近无损部署
多模态应用开发者	视觉/语音 Token 剪枝，省算力不掉精度
算法研究者	统一框架，算法策略与模型架构完全解耦