5 月 11 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型:MiniCPM-V 4.6。

这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。

尤其在内存价格飞涨的当下,MiniCPM-V 4.6 只需 6G 内存即可在端侧流畅运行,真正实现了「低内存、极速跑」。这不仅极大降低了多模态大模型在各类智能终端上的落地门槛,也让面壁智能「智周万物」(AGI for Lives)的愿景离我们更近了一步。

 

开源地址:

本次开源同时提供 Testflight 测试版本,可以在 iOS、Android、HarmonyOS 系统的手机端使用。

➤ GitHub

🔗 https://github.com/OpenBMB/MiniCPM-V

➤ ModelScope

🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

➤ APP Demo

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps

性能拔群,1.3B 实现同尺寸最佳

根据多个权威基准评测,MiniCPM-V 4.6 的两个版本(Instruct 与 Thinking)多模态综合能力均表现卓越,实现了全维度领跑。

  • Instruct 版本:在通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务上,全面超越 Qwen3.5-0.8B、Gemma4-E2B-it 等模型。

 

  • Thinking 版本:在多图像关联推理、幻觉抑制等高阶任务中,同样几乎全面领先。

 

在最新的 Artificial Analysis(AA)榜单评测中,MiniCPM-V 4.6 更是以 13 分 的优异成绩跻身前列,超越了包括 Mistral 3-3B、Qwen 3.5-0.8B 在内的一众模型,成绩逼近 Qwen 3.5-2B,成为 1B 级开源模型中当之无愧的性能标杆。

 

效率反超,重新定义「智能密度」

除了性能惊艳,MiniCPM-V 4.6 在效率上也取得了堪称「反常识」的突破。

尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超

  • 推理吞吐量:基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍;
  • 计算成本:在 AA 评测中,仅用 2.5% 的 token 消耗(5.4M vs 233M)就超越了 Qwen3.5-0.8B。

这意味着 MiniCPM-V 4.6 以极小的计算成本,撬动了极高的智能水平,是面壁智能「密度定律」的又一实践。

由此,用同样的硬件,开发者可以承载数倍的线上流量,或在端侧实现更极致的响应速度。

这一飞跃,让市面上几乎所有的个人设备(手机、电脑)都可以将 MiniCPM-V 4.6 高效地跑起来。

极致背后的硬核创新

惊人的性能与效率背后,是两大底层技术的硬核创新。

ViT 架构重构:图像编码计算量锐减 50%

视觉编码器(ViT)是多模态模型处理图像信息的核心组件,也是计算开销最集中的环节之一。

MiniCPM-V 4.6 采用了面壁智能与清华大学联合研发的最新 LLaVA-UHD v4 技术,通过创新的 「ViT 内部视觉 token 早压缩」,在保证性能不掉点的前提下,大幅降低了视觉 token 的数量和计算量,相比传统 ViT 将图像编码开销锐减了 50%

针对模型在处理高分辨率图像时的视觉编码效率问题,LLaVA-UHD v4 提出了一种高效的编码范式,可以在超越原有性能的同时,将视觉编码阶段的浮点运算量降低 55.8%

 

LLaVA-UHD v4 论文链接:

https://www.modelscope.cn/papers/2605.08985

 

LLaVA-UHD v4 主要包含两个核心设计:

  • 高效切片编码:替代传统的全局编码,将高分辨率图像切分为多个区块处理,结构性地避免了注意力计算量随分辨率二次方增长的瓶颈。
  • ViT 内早期压缩:在 ViT 的浅层就引入压缩模块,让后续绝大部分 ViT 层只需处理极少量 Token,从根源上降低了计算量。

这一改造,与 16倍 token 压缩协同工作,协同实现了极致的轻量化推理——用更少的计算资源,完成同等质量的图像理解任务。这也造就了 MiniCPM-V 4.6「参数更大,但跑得更快」的效率奇迹。

4倍/16倍混合 Token 压缩:性能与速度,按需切换

业界多模态基座模型普遍采用固定的 4 倍视觉 token 压缩率,而 MiniCPM-V 4.6 则打破常规,提供了业界领先的双模式切换

  • 4 倍压缩模式(性能优先):适合高要求的文档解析、密集文字识别等细节敏感型任务;
  • 16 倍压缩模式(速度优先):适合实时交互、低算力环境、高并发部署等场景。

同一个模型,两种选择,开发者无需在性能和速度之间艰难取舍。

视觉 token 压缩率会影响到显存占用、首响延迟、推理吞吐、功耗等众多关键效率指标,压缩率越高、响应速度越快。MiniCPM-V 多模态大模型从 2024 年就推出了 16 倍压缩率,在行业内领先。

值得一提的是,面壁智能开创性的 16 倍压缩技术早已在产业界得到验证,例如快手在 2025 年发布的推荐大模型 OneRec,在处理海量视频多模态特征时便应用了 MiniCPM-V 系列模型,成功支撑了主场景 25% 的巨大流量请求。

得益于 16 倍视觉 Token 压缩这一核心技术,MiniCPM-V 4.6 在推理效率的两大关键维度上同时建立起显著优势:

1)在单并发首响延迟(TTFT)上,它把“分辨率—延迟”曲线压得几乎平坦,3136² 高清大图的 TTFT 仅 75.7 ms,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍

 

2)在高并发吞吐上,单卡可达 7013 token/s、54.79 张/s 的 1344² 图片处理能力,是 Qwen3.5-0.8B 的 1.5 倍,意味着同样的硬件可以承载数倍的线上流量

 

这两个维度的数值指标,共同指向同一结论:

MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度

根据 AA 榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行仅消耗 5.4M token 量,仅为 Qwen3.5-0.8B(非推理版本,101M)的 1/19 与 Qwen 3.5-0.8B(推理版本,233M)的 1/43,模型智能密度为同尺寸模型范围内最高

 

 

模型微调

MiniCPM-V4.6官方原生支持 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。开发者只需准备好场景数据,和一张 RTX 4090 等常见的消费级显卡,修改几行配置,一键即可拉起专属模型的训练。

 

1、ms-swift 微调

ms-swift day0 支持了 MiniCPM-V-4.6 系列模型的微调,包括文本、图像、视频模态。ms-swift是魔搭社区官方提供的大模型训练框架,开源地址:https://github.com/modelscope/ms-swift

 

环境准备:

# pip install git+https://github.com/modelscope/ms-swift.git
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install transformers -U

可直接运行训练脚本如下:

# 10GiB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model OpenBMB/MiniCPM-V-4.6 \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite#20000' \
    --load_from_cache_file true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --freeze_vit true \
    --freeze_aligner true \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataset_num_proc 4 \
    --dataloader_num_workers 4

对验证集进行推理:

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --load_data_args true \
    --enable_thinking false

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式:

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫,后一张是小狗。"}], "images": ["/xxx/x.jpg"]}
{"messages": [{"role": "user", "content": "<video>视频中是什么"}, {"role": "assistant", "content": "视频中是一只小狗在草地上奔跑。"}], "videos": ["/xxx/x.mp4"]}

推送微调后的模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

2、LLaMA-Factory 微调

以图片计数任务作为微调任务,使用LLaMA-Factory微调请参考以下步骤:

环境安装:

conda create -n "MiniCPM-V-4.6-Counting" python=3.11 -y
conda activate "MiniCPM-V-4.6-Counting"
pip install torch==2.8.0 torchvision==0.23.0
pip install \
  transformers==5.7.0 accelerate==1.13.0 \
  deepspeed==0.18.3 peft==0.18.1 trl==0.24.0 \
  wandb ninja einops safetensors tokenizers sentencepiece
MAX_JOBS=32 NVCC_THREADS=4 pip install --no-build-isolation flash-attn==2.8.3
git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt -r requirements/deepspeed.txt

数据准备:

数据格式参考

{
    "messages": [
        {
            "content": "<image>\nCarefully observe the image. Are there any people in the image? If yes, please list their respective coordinates and provide the total count. If no, answer 0.",
            "role": "user"
        },
        {
            "content": "<think>\n\n</think>\n\nThe respective coordinates of people: <point>236 469</point>, <point>307 232</point>, <point>362 434</point>, <point>485 521</point>, <point>487 340</point>, <point>615 386</point>, <point>735 441</point>, <point>870 615</point>. So the total count is 8.",
            "role": "assistant"
        }
    ],
    "images": [
        "/path/to/images/*.jpg"
    ],
    "source_file": "pixmo-count",
    "orig_index": 1,
    "channel": "pixmo-count"
}

模型训练:

在train.yaml中配置好模型路径、训练集路径、验证集路径和输出目录后,执行以下脚本即可以开始训练。

#!/bin/bash
set -euo pipefail
export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
export NPROC_PER_NODE="${NPROC_PER_NODE:-8}"
export MASTER_PORT="${MASTER_PORT:-29632}"
export WANDB_API_KEY="${WANDB_API_KEY:-}"
export WANDB_PROJECT="${WANDB_PROJECT:-MiniCPMV46-Counting}"
export WANDB_RUN_NAME="${WANDB_RUN_NAME:-mcpmv46_count}"
export WANDB_NAME="${WANDB_NAME:-mcpmv46_count}"
# MiniCPMV 4.6 downsample mode: 4x for high-resolution, 16x for default
export DOWNSAMPLE_MODE="${DOWNSAMPLE_MODE:-4x}"
export DISABLE_VERSION_CHECK=1
# Activate the lfv46 conda environment
# IMPORTANT: Unset USE_V1 to use the v2 launcher
unset USE_V1
CONFIG_FILE="$(dirname "$0")/train.yaml"
OUTPUT_DIR="${OUTPUT_DIR:-/path/to/output_dir}"
echo "Training with config: $CONFIG_FILE"
echo "Output dir: $OUTPUT_DIR"
llamafactory-cli train "$CONFIG_FILE"

模型部署

官方适配了 vLLM、SGLang、llama.cpp、Ollama 等顶级高性能推理框架,请参考以下链接:

1、vLLM

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm.md

 

2、SGLang

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang.md

 

3、llama.cpp

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp_zh.md

 

4、Ollama

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama.md

 

端侧部署保姆级教程

OpenBMB官方同时提供了详尽的端侧部署指南,助你轻松上手:

➤ 英文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md

➤ 中文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐