四款国产VLM OCR模型横评

魔搭ModelScope社区

801人浏览 · 2026-02-25 10:27:27

魔搭ModelScope社区 · 2026-02-25 10:27:27 发布

春节前，AI界迎来一场中国OCR小模型的开源爆发：DeepSeek、智谱、百度飞桨、腾讯优图四大团队相继发布新一代OCR模型。

四款模型全部采用视觉语言模型（VLM）架构，彻底抛弃了沿用数十年的“检测→矫正→识别→结构化”流水线设计。OCR技术，正从“字符数字化”迈入“语义结构化”的新纪元。

范式革命：从光栅扫描到视觉因果流

传统OCR像一条僵化的装配线：先框出文字区域，再矫正倾斜，接着逐字识别，最后拼装成结构化数据。这套流程在规整文档上尚可，但遇到双栏排版、弯曲扫描件等真实场景时便频频“掉链子”——一个环节出错，整体准确率急速下降。

而新一代VLM OCR则像一位真正的“人类阅读者”：它不再机械扫描像素，而是直接理解图像中的语义关系。其中，DeepSeek-OCR2提出的“视觉因果流”（Visual Causal Flow）最具代表性——模型在编码阶段就学会像人类一样“先看标题、再扫正文、最后精读表格”，用了带双向+因果注意力的特殊Transformer，能够动态重排图像token顺序，而非按固定光栅顺序死记硬背。

基于这样的架构，在OmniDocBench v1.5基准上提升上，也得到了很好的验证，比前代提升了3.73%。尤其在“阅读顺序理解”这种考验逻辑的指标上，新模型的表现显著更好（编辑距离从0.085降至0.057）。这说明它更擅长理解文档版面的先后关系，不会再像以前的OCR那样傻乎乎地按位置顺序读错段落。另外，在实际应用中，它的稳定性也提高了：比如处理用户上传的大批量PDF时，重复输出率下降了约2个百分点

核心技术点在于DeepEncoder V2架构：视觉Token之间采用双向注意力保持全局感知，而一组可学习的“查询Token”则通过因果注意力机制，按语义逻辑对视觉信息重新排序。结果？仅用256个视觉Token（竞品需1120个），阅读顺序编辑距离从0.085降至0.057，提升32.9%。

技术拆解：小模型的“降维打击”

GLM-OCR：0.9B参数的极致效率

GLM-OCR选择了一条“精炼之路”：总参数仅0.9B（CogViT视觉编码器400M + GLM解码器0.5B）。其技术亮点在于Multi-Token Prediction（MTP）——模型在预测当前字符时，同步考虑未来多个Token的概率分布，大幅提升长文档逻辑连贯性。配合全任务强化学习策略，它在公式识别、表格解析等复杂任务上表现稳健，推理速度达PDF文档1.86页/秒，API成本仅为传统方案的1/10。

PaddleOCR-VL-1.5：读懂真实的世界

PaddleOCR发现：实验室高清文档≠真实世界。PaddleOCR-VL-1.5针对Real5物理退化场景做了优化——如弯曲书页、屏幕反光、扫描噪点、倾斜拍摄、光照不均。其两阶段解耦设计（PP-DocLayoutV3版面分析 + NaViT动态分辨率编码）支持不规则多边形检测，有效规避端到端模型的“幻觉问题”。在Real5测试中，它在弯曲文档（91.25%）和光照变化（92.16%）场景均超越Gemini-3 Pro，成为真实场景的鲁棒性标杆。

Youtu-Parsing：5-22倍的推理加速

腾讯优图将重点放在高并行解码：Token Parallelism（每步生成64个候选Token）+ Query Parallelism（同时预测5个边界框内容），实现5-22倍推理加速。更惊艳的是基于3B的Youtu-LLM提供了结构化输出能力——统计图表转Markdown表格、流程图/思维导图直接输出Mermaid代码，为知识工作者提供“开箱即用”的生产力工具。

模型总结如下👇

模型	发布时间	参数量	架构特点	核心创新
DeepSeek-OCR2	2026.1.27	3B（激活570M）	MoE + 因果流编码器	视觉因果流、token压缩
GLM-OCR	2026.2.3	0.9B	CogViT + GLM-0.5B	MTP损失、全任务RL
PaddleOCR-VL-1.5	2026.1.29	0.9B	两阶段解耦	多边形布局检测、NaViT
Youtu-Parsing	2026.1.28	3B	高并行解码器	22倍推理加速

效果分析：小模型为何能赢大模型？

在OmniDocBench v1.5权威测试中，0.9B参数的GLM-OCR 和 PaddleOCR-VL-1.5以94.62分和94.5分的成绩，超越了Qwen3-VL，Gemini3等通用模型。

其中，GLM-OCR凭借精巧的架构和训练技巧，在OmniDocBench v1.5文档解析榜上，以94.62的总分排名全球第一！不仅全面刷新文本识别、公式识别、表格理解、信息抽取等子任务的SOTA记录，而且在其它基准如OCRBench、PubTabNet等上也都是名列前茅。更难得的是，它做到SOTA的同时，参数量只有0.9B参数，推理速度快又省资源。

而关键原因在于“专家模型优势”：通用大模型需兼顾图像理解、对话、推理等多重任务，而专用VLM OCR将全部算力聚焦于文档解析。就像专业运动员与全能选手的对决——在特定赛道上，深度优化的小模型反而更具爆发力。

专注在各种细分场景：

公式识别：PaddleOCR-VL-1.5以93.04%的Formula-CDM得分领先；
表格处理：TableTEDS达90.97%，复杂合并单元格表现稳健；
多语言支持：PaddleOCR-VL-1.5覆盖111种语言，新增藏语、孟加拉语等少数民族语言；
推理效率：Youtu-Parsing在高并发场景下实现5-22倍加速，适合生产环境大规模部署。

OCR模型选型指北

面对四款优秀模型，企业该如何选择适合自己场景的OCR模型？

场景需求	推荐模型	核心理由
学术论文、多栏排版、高压缩文档	DeepSeek-OCR2	视觉因果流保障阅读顺序准确性，Token压缩效率提升5-60倍
商业票据、综合性能、成本敏感	GLM-OCR	0.9B参数登顶榜单，API成本仅为传统方案1/10，支持vLLM/Ollama快速部署
手机拍照、弯曲扫描、低质量图像	PaddleOCR-VL-1.5	Real5全场景SOTA，多边形检测专治物理形变，国产芯片适配完善
高并发解析、图表转代码、流程图处理	Youtu-Parsing	并行解码5-22倍加速，Mermaid输出直接赋能知识管理

同时需注意的是，在高密度纯文本（如教材、标准税表）场景，传统PP-OCRv5等方案仍具竞争力——技术选型永远需匹配具体场景。

OCR的未来趋势前瞻

2026年年初这四款开源模型的集中发布，也引发了文档AI的更加深层变革趋势探讨：

视觉分词智能化：DeepSeek-OCR2证明，与其堆砌视觉Token数量，不如在编码阶段赋予逻辑顺序，显著降低显存消耗并提升长文档处理效率；
模型规模“降维打击”：0.9B专用模型超越百亿通用模型，标志着文档解析从“大的通用模型”转向“小的专家模型”；
端到端可解释性增强：Youtu-Parsing的区域引导解码、PaddleOCR的多边形定位，让模型推理过程透明化，为金融、医疗等高敏感场景提供可信保障。

对开发者而言，2026年将是VLM OCR替代传统方案的关键窗口期。四款模型全部开源，结合开源生态的力量，以及配合好的微调技术，技术成熟度、部署便利性与场景可定制已达到商业化临界点。

当OCR不再只是“识别文字”，而是“理解文档结构”，它便从工具升维为生产力引擎。这场由国产团队引领的OCR革命，或许正是中国AI在垂直领域实现“换道超车”的缩影——不盲目追逐参数规模，而是在架构创新与场景深耕中，找到适合的大规模业务场景，并产生更高的价值。

模型均在魔搭开源，附开源地址

DeepSeek-OCR2：https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR-2
GLM-OCR：https://modelscope.cn/models/ZhipuAI/GLM-OCR
PaddleOCR-VL-1.5：https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
Youtu-Parsing：https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-Parsing

技术终将回归本质：不是更大的模型，而更是符合场景，更贴近人类习惯的聪明的更高效率的小专家模型。