PP-OCRv6正式发布,精度全面跃升,本地浏览器单图预测轰出97ms
百度飞桨 PaddleOCR 团队正式开源 PP-OCRv6,PP-OCR 系列第六代文本检测识别模型。本次首次推出 Tiny(1.5M)、Small(7.7M)、Medium(34.5M)三档模型,覆盖浏览器端、嵌入式设备到服务器的全算力平台。相比 PP-OCRv5 同级别模型,文字检测精度提升 4.9%、识别精度提升 5.1%;其中 Medium 档在 Intel Xeon CPU 上端到端时延 1.40s,达到 PP-OCRv5_Server 的 5.2 倍速度,Tiny 档在浏览器端单图最低仅 97ms。单模型支持语言从 4 种扩展到 50 种,并新增电路板、数码管、CAD 图纸、喷码点阵字符等工业场景。

开源地址:
- PaddleOCR官网:https://paddleocr.com/
- Github:https://github.com/PaddlePaddle/PaddleOCR
- ModelScope:https://modelscope.cn/collections/PaddlePaddle/PP-OCRv6
01 PP-OCRv6特性速览
1. 首次三档模型,全算力覆盖:PP-OCR系列首次推出三档模型:Tiny(1.5M)、small(7.7M)、medium(34.5M)。从浏览器端、嵌入式设备到服务器,三档模型覆盖几乎所有主流算力平台,按需选择,开箱即用。
*2. 精度跨越式提升:*文字检测精度较PP-OCRv5同级别模型提升4.9%,文字识别精度较PP-OCRv5同级别模型提升5.1%。不是微调级别的涨点,而是跨越式的代际提升。
*3. CPU推理速度显著提升:*在同级别模型中,PP-OCRv6_medium的端到端时延仅为1.40s(基于 Intel Xeon 与 OpenVINO 优化),推理速度达到了前代PP-OCRv5_Server的5.2倍!而超轻量级的tiny档表现更为炸裂,在纯前端浏览器环境的极低算力下,直接轰出了单图97ms的惊人成绩!
*4. 场景覆盖大幅扩展:*单模型支持50种语言,远超PP-OCRv5单模型的4种语言。此外,新增电路板、数码管、CAD图纸、喷码点阵字符等多种工业场景的文字检测与识别,真实复杂场景适用性大幅增强。
*5. 鲁棒性史上最高:*在文字检测多尺寸预测上,预测一致性方差仅5.19%,较PP-OCRv5降低35%;在文字识别边缘尺寸扰动评估集上,预测一致性较PP-OCRv5提升20.5%。
02 效果预览
1.文本检测(与PP-OCRv5和部分大模型的对比)

2. 端到端识别(与PP-OCRv5的对比)
























03 核心指标
研究团队构建了多场景高质量的文本检测和文本识别的In-house评估集,在该评估集上,PP-OCRv6在文本检测和文本识别上,大幅领先之前的模型。
1. 文本检测
在文本检测任务上,PP-OCRv6的三档模型几乎全面领先上一代PP-OCRv5模型,并且断档式领先通用大模型。

2. 文本识别
在文本识别任务上,PP-OCRv6的三档模型同样领先上一代PP-OCRv5模型和通用大模型。

3. 推理速度
在多款主流硬件测试中,PP-OCRv6均展现出对PP-OCRv5的全面碾压态势。具体而言,PP-OCRv6_medium在Intel Xeon 8350C CPU上的单张图片推理时延仅为1.4s,达到了同级别 PP-OCRv5-Server 的5.2 倍速度。在移动端与边缘端,PP-OCRv6_small在多种主流推理后端上,均对 PP-OCRv5-Mobile 实现了几乎全方位的性能超越。而极致轻量化的PP-OCRv6_tiny表现更为惊艳,不仅在Intel Xeon 8350C CPU上的耗时缩短至0.2s,在本地M4芯片的浏览器环境测试常规图片时,端到端延迟甚至只有97 ms。这种在各类算力平台上实现的指数级性能飞跃,无疑是广大端侧及全栈 OCR 开发者的绝佳福音!

04 快速开始
安装飞桨框架与 PaddleOCR(3.7.0 及以上版本):
python -m pip install paddlepaddle==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
python -m pip install "paddleocr>=3.7.0"
在命令行快速体验 PP-OCRv6 能力(3.7.0 及以上版本的默认PP-OCR模型已切换到v6版本):
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--use_textline_orientation False
也可以调用 Python API,将 PP-OCRv6 能力集成到下游应用中:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
# 指定模型档位
# ocr = PaddleOCR(
# text_detection_model_name="PP-OCRv6_tiny_det",
# text_recognition_model_name="PP-OCRv6_tiny_rec",
# use_doc_orientation_classify=False,
# use_doc_unwarping=False,
# use_textline_orientation=False,
# )
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
滑动查看更多
此外,在 v3.7版本中,模型的推理已经广泛兼容 onnxruntime、transformers后端,你可以根据你的当前实际环境,通过指定engine来指定特定的推理后端。如使用onnxruntime来推理,只需要增加engine参数,并指定为”onnxruntime”即可。如:
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--use_textline_orientation False \
--engine onnxruntime
05 FAQ
Q1:PP-OCRv6 与 PaddleOCR-VL 系列模型是什么关系?
A: 两者定位不同,在落地场景上形成完美互补:
• PP-OCRv6:作为PP-OCR系列的第六代演进,主打极致轻量化与普适性。它几乎兼容所有算力平台,核心聚焦于自然场景、文档场景及通用工业场景下文本行的高精度、高速度检测与识别。
• PaddleOCR-VL 系列:则专为复杂文档解析而生。它具备强大的多模态解析能力,能够一站式地识别和结构化提取文字、表格、公式、图表、印章等全要素。
Q2:在现有的业务流程中,是否可以将PP-OCRv5 “一键平替”到PP-OCRv6?
A:完全可以,建议直接升级。 PP-OCRv6实现了架构与数据的双重跃升,展现出极强的优势,在同等耗时下精度大幅领先,在同等精度下推理延迟显著降低。同时,PP-OCRv6在设计上严格规避了复杂、非通用的算子,保持了极佳的硬件亲和力,绝大多数现有管线均可实现无缝平滑替换。
Q3:PP-OCRv6 与PP-OCRv5的模型矩阵是如何对应的?
A: PP-OCRv6针对不同的算力,推出了三档模型,与前代的对应和跨越关系如下:
• PP-OCRv6_medium: 参数34.5M,在推理速度上对标PP-OCRv5_server,但精度实现大幅反超。
• PP-OCRv6_small: 参数量7.7M,在速度上对标PP-OCRv5_mobile,作为移动端/嵌入式设备的主力升级款,性价比极高。
• PP-OCRv6_tiny: 参数量1.5M,主打极致吞吐与超低延迟,专为资源极度受限的极端边缘设备打造,无前代直接对标模型。
关于PP-OCRv6的更多端侧部署参考文档:
- 安卓:
- IOS:
- 浏览器:
https://www.paddleocr.ai/latest/version3.x/inference/_deployment/cross/_platform/browser.html
06 结语
安装飞桨框架与 PaddleOCR(3.7.0 及以上版本):
从 2020 年的 PP-OCRv1 到今天的 PP-OCRv6,PP-OCR 系列已成为大模型时代被广泛使用的 OCR 数据引擎,在 UmiOCR、MinerU、TurboOCR 等工具链中作为底层引擎集成。PP-OCRv6 在精度、速度与场景覆盖上实现代际提升,并保持良好的硬件亲和力,绝大多数现有管线可从 PP-OCRv5 无缝平替升级。欢迎下载使用并反馈。
更多推荐




所有评论(0)