MiniCPM-V 4.6 开源：1.3B 多模态模型登顶同尺寸榜单，6G 内存跑通手机端

魔搭ModelScope社区

38人浏览 · 2026-05-14 09:29:48

魔搭ModelScope社区 · 2026-05-14 09:29:48 发布

5 月 11 日，面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型：MiniCPM-V 4.6。

这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模，实现了性能与效率的双重突破，在全球同尺寸模型中登顶，全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。

尤其在内存价格飞涨的当下，MiniCPM-V 4.6 只需 6G 内存即可在端侧流畅运行，真正实现了「低内存、极速跑」。这不仅极大降低了多模态大模型在各类智能终端上的落地门槛，也让面壁智能「智周万物」（AGI for Lives）的愿景离我们更近了一步。

开源地址：

本次开源同时提供 Testflight 测试版本，可以在 iOS、Android、HarmonyOS 系统的手机端使用。

➤ GitHub

🔗 https://github.com/OpenBMB/MiniCPM-V

➤ ModelScope

🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

➤ APP Demo

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps

性能拔群，1.3B 实现同尺寸最佳

根据多个权威基准评测，MiniCPM-V 4.6 的两个版本（Instruct 与 Thinking）多模态综合能力均表现卓越，实现了全维度领跑。

Instruct 版本：在通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务上，全面超越 Qwen3.5-0.8B、Gemma4-E2B-it 等模型。

Thinking 版本：在多图像关联推理、幻觉抑制等高阶任务中，同样几乎全面领先。

在最新的 Artificial Analysis（AA）榜单评测中，MiniCPM-V 4.6 更是以 13 分 的优异成绩跻身前列，超越了包括 Mistral 3-3B、Qwen 3.5-0.8B 在内的一众模型，成绩逼近 Qwen 3.5-2B，成为 1B 级开源模型中当之无愧的性能标杆。

效率反超，重新定义「智能密度」

除了性能惊艳，MiniCPM-V 4.6 在效率上也取得了堪称「反常识」的突破。

尽管参数规模比 Qwen3.5-0.8B 更大，但 MiniCPM-V 4.6 的运行效率却更快，实现了惊人的反超：

推理吞吐量：基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍；
计算成本：在 AA 评测中，仅用 2.5% 的 token 消耗（5.4M vs 233M）就超越了 Qwen3.5-0.8B。

这意味着 MiniCPM-V 4.6 以极小的计算成本，撬动了极高的智能水平，是面壁智能「密度定律」的又一实践。

由此，用同样的硬件，开发者可以承载数倍的线上流量，或在端侧实现更极致的响应速度。

这一飞跃，让市面上几乎所有的个人设备（手机、电脑）都可以将 MiniCPM-V 4.6 高效地跑起来。

极致背后的硬核创新

惊人的性能与效率背后，是两大底层技术的硬核创新。

ViT 架构重构：图像编码计算量锐减 50%

视觉编码器（ViT）是多模态模型处理图像信息的核心组件，也是计算开销最集中的环节之一。

MiniCPM-V 4.6 采用了面壁智能与清华大学联合研发的最新 LLaVA-UHD v4 技术，通过创新的「ViT 内部视觉 token 早压缩」，在保证性能不掉点的前提下，大幅降低了视觉 token 的数量和计算量，相比传统 ViT 将图像编码开销锐减了 50%。

针对模型在处理高分辨率图像时的视觉编码效率问题，LLaVA-UHD v4 提出了一种高效的编码范式，可以在超越原有性能的同时，将视觉编码阶段的浮点运算量降低 55.8%。

LLaVA-UHD v4 论文链接：

https://www.modelscope.cn/papers/2605.08985

LLaVA-UHD v4 主要包含两个核心设计：

高效切片编码：替代传统的全局编码，将高分辨率图像切分为多个区块处理，结构性地避免了注意力计算量随分辨率二次方增长的瓶颈。
ViT 内早期压缩：在 ViT 的浅层就引入压缩模块，让后续绝大部分 ViT 层只需处理极少量 Token，从根源上降低了计算量。

这一改造，与 16倍 token 压缩协同工作，协同实现了极致的轻量化推理——用更少的计算资源，完成同等质量的图像理解任务。这也造就了 MiniCPM-V 4.6「参数更大，但跑得更快」的效率奇迹。

4倍/16倍混合 Token 压缩：性能与速度，按需切换

业界多模态基座模型普遍采用固定的 4 倍视觉 token 压缩率，而 MiniCPM-V 4.6 则打破常规，提供了业界领先的双模式切换：

4 倍压缩模式（性能优先）：适合高要求的文档解析、密集文字识别等细节敏感型任务；
16 倍压缩模式（速度优先）：适合实时交互、低算力环境、高并发部署等场景。

同一个模型，两种选择，开发者无需在性能和速度之间艰难取舍。

视觉 token 压缩率会影响到显存占用、首响延迟、推理吞吐、功耗等众多关键效率指标，压缩率越高、响应速度越快。MiniCPM-V 多模态大模型从 2024 年就推出了 16 倍压缩率，在行业内领先。

值得一提的是，面壁智能开创性的 16 倍压缩技术早已在产业界得到验证，例如快手在 2025 年发布的推荐大模型 OneRec，在处理海量视频多模态特征时便应用了 MiniCPM-V 系列模型，成功支撑了主场景 25% 的巨大流量请求。

得益于 16 倍视觉 Token 压缩这一核心技术，MiniCPM-V 4.6 在推理效率的两大关键维度上同时建立起显著优势：

1）在单并发首响延迟（TTFT）上，它把“分辨率—延迟”曲线压得几乎平坦，3136² 高清大图的 TTFT 仅 75.7 ms，较同基座规模的 Qwen3.5-0.8B 快 2.2 倍；

2）在高并发吞吐上，单卡可达 7013 token/s、54.79 张/s 的 1344² 图片处理能力，是 Qwen3.5-0.8B 的 1.5 倍，意味着同样的硬件可以承载数倍的线上流量。

这两个维度的数值指标，共同指向同一结论：

MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache，把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。

根据 AA 榜单评测，MiniCPM-V 4.6 1.3B（非推理版本）的运行仅消耗 5.4M token 量，仅为 Qwen3.5-0.8B（非推理版本，101M）的 1/19 与 Qwen 3.5-0.8B（推理版本，233M）的 1/43，模型智能密度为同尺寸模型范围内最高：

模型微调

MiniCPM-V4.6官方原生支持 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。开发者只需准备好场景数据，和一张 RTX 4090 等常见的消费级显卡，修改几行配置，一键即可拉起专属模型的训练。

1、ms-swift 微调

ms-swift day0 支持了 MiniCPM-V-4.6 系列模型的微调，包括文本、图像、视频模态。ms-swift是魔搭社区官方提供的大模型训练框架，开源地址：https://github.com/modelscope/ms-swift

环境准备：

# pip install git+https://github.com/modelscope/ms-swift.git
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install transformers -U

可直接运行训练脚本如下：

# 10GiB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model OpenBMB/MiniCPM-V-4.6 \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite#20000' \
    --load_from_cache_file true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --freeze_vit true \
    --freeze_aligner true \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataset_num_proc 4 \
    --dataloader_num_workers 4

对验证集进行推理：

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --load_data_args true \
    --enable_thinking false

如果您需要自定义数据集微调模型，你可以将数据准备成以下格式：

{"messages": [{"role": "user", "content": "浙江的省会在哪？"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫，后一张是小狗。"}], "images": ["/xxx/x.jpg"]}
{"messages": [{"role": "user", "content": "<video>视频中是什么"}, {"role": "assistant", "content": "视频中是一只小狗在草地上奔跑。"}], "videos": ["/xxx/x.mp4"]}

推送微调后的模型到ModelScope：

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

2、LLaMA-Factory 微调

以图片计数任务作为微调任务，使用LLaMA-Factory微调请参考以下步骤：

环境安装：

conda create -n "MiniCPM-V-4.6-Counting" python=3.11 -y
conda activate "MiniCPM-V-4.6-Counting"
pip install torch==2.8.0 torchvision==0.23.0
pip install \
  transformers==5.7.0 accelerate==1.13.0 \
  deepspeed==0.18.3 peft==0.18.1 trl==0.24.0 \
  wandb ninja einops safetensors tokenizers sentencepiece
MAX_JOBS=32 NVCC_THREADS=4 pip install --no-build-isolation flash-attn==2.8.3
git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt -r requirements/deepspeed.txt

数据准备：

数据格式参考

{
    "messages": [
        {
            "content": "<image>\nCarefully observe the image. Are there any people in the image? If yes, please list their respective coordinates and provide the total count. If no, answer 0.",
            "role": "user"
        },
        {
            "content": "<think>\n\n</think>\n\nThe respective coordinates of people: <point>236 469</point>, <point>307 232</point>, <point>362 434</point>, <point>485 521</point>, <point>487 340</point>, <point>615 386</point>, <point>735 441</point>, <point>870 615</point>. So the total count is 8.",
            "role": "assistant"
        }
    ],
    "images": [
        "/path/to/images/*.jpg"
    ],
    "source_file": "pixmo-count",
    "orig_index": 1,
    "channel": "pixmo-count"
}

模型训练：

在train.yaml中配置好模型路径、训练集路径、验证集路径和输出目录后，执行以下脚本即可以开始训练。

#!/bin/bash
set -euo pipefail
export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
export NPROC_PER_NODE="${NPROC_PER_NODE:-8}"
export MASTER_PORT="${MASTER_PORT:-29632}"
export WANDB_API_KEY="${WANDB_API_KEY:-}"
export WANDB_PROJECT="${WANDB_PROJECT:-MiniCPMV46-Counting}"
export WANDB_RUN_NAME="${WANDB_RUN_NAME:-mcpmv46_count}"
export WANDB_NAME="${WANDB_NAME:-mcpmv46_count}"
# MiniCPMV 4.6 downsample mode: 4x for high-resolution, 16x for default
export DOWNSAMPLE_MODE="${DOWNSAMPLE_MODE:-4x}"
export DISABLE_VERSION_CHECK=1
# Activate the lfv46 conda environment
# IMPORTANT: Unset USE_V1 to use the v2 launcher
unset USE_V1
CONFIG_FILE="$(dirname "$0")/train.yaml"
OUTPUT_DIR="${OUTPUT_DIR:-/path/to/output_dir}"
echo "Training with config: $CONFIG_FILE"
echo "Output dir: $OUTPUT_DIR"
llamafactory-cli train "$CONFIG_FILE"