在ModelScope上实现模型评测与压测服务化：PivotEval

魔搭ModelScope社区

28人浏览 · 2026-04-29 10:18:26

魔搭ModelScope社区 · 2026-04-29 10:18:26 发布

评测大模型，绕不开两个问题：模型效果好不好？推理服务性能够不够？但回答这两个问题的前置成本不低，搭建评测环境、下载和处理数据集、对齐评测标准、编写压测脚本……每一步都不算难，但每一步都需要时间。尤其当你想在多个基准上系统评测、或者在不同并发档位下压测 API 性能时，重复劳动会迅速累积。

为了将模型的评测门槛降低，魔搭推出了 PivotEval 模型评测服务，基于这一全新服务，评测链路能实现大幅度的简化：你提供模型 API 地址，并选择评测内容，剩下的都交给平台。不用在本地安装评测框架，不用自己准备数据集，评测完成后自动生成可交互的可视化报告，还能直接实现在线分享。

如何开始

1. 在ModelScope上进入PivotEval评测服务页面：

此外，你也可以直接从支持评测的模型详情页一键跳转：

2. 创建一个评测任务

你需要填写模型API的接口信息：PivotEval 支持 OpenAI 兼容和 Anthropic 兼容两种模型 API 协议。填入你的 BaseUrl（模型服务地址）和模型名称即可。例如，如果选用魔搭的 API-Provider 来接入外部模型API，按照下图所示填写即可（API-Provider的文档可参见https://modelscope.cn/docs/model-service/API-Inference/api-provider%EF%BC%89%E3%80%82

3. 选择”模型评估”或”性能测试”

4. 配置评测参数

选择评测数据集：系统内置 30+个业界主流基准，包括 MMLU、CMMLU、C-Eval、GSM8K 等，更多基准benchmark还在接入中。对于内置的benchmark，无需额外下载和处理。如深入了解特定基准数据，点击“详情”就有详细的解释。

配置模型生成参数（可选）：输出长度调节max_tokens、控制温度temperature、采样系数top_p等核心参数都支持。

5. 点击“开始评测”！

评测完成后，你会拿到什么

评测结束后会输出一份 Markdown 格式的结构化结果，指标清晰，方便存档和横向对比。同时还有一份交互式 HTML 报告，内嵌动态图表，支持点击交互、按不同维度拆开看。这方便您直接分享针对性的评测报告，不用再手动整理数据做图。

可视化评测报告

同时每一步的执行记录都有完整日志留存，支持评测运行过程中通过进度看板随时了解任务状态，以及通过log更好理解评测的过程以及进行可能的问题调查。

两大核心能力

模型评估

适用于模型选型、能力分析、跨模型对比等场景。

评测报告不只给出一个准确率数字。系统会按题目难度梯度拆解模型表现——从基础认知题到复杂推理题，差距一目了然。还会给出知识领域分布分析，哪些领域强、哪些领域需要补强，也很清楚。

评测覆盖 30 多个标准基准，文本理解和多模态场景都有。生成参数（temperature、top_p、max_tokens 等）可以自行配置，有特殊评测需求的话，也支持通过扩展接口自行定制。

性能测试

适用于验证推理服务能扛多大并发、响应速度够不够快。

支持阶梯式自动加压，例如从 1 并发递增到 2、4、8，一次配置即可完成多组并发测试，结果自动对比，不必重复创建任务。也支持通过速率控制来做稳定的流量注入。

核心性能指标覆盖：

底层开源，评测可复现

PivotEval 评测服务基于ModelScope社区开源的 EvalScope 框架构建。评测流程完全透明，所有评测结果，都可以使用 EvalScope 在本地复现。

如果你有定制化的评测需求，比如自定义数据集或评分逻辑，也可以直接基于 EvalScope 进行开发：

GitHub：https://github.com/modelscope/evalscope
文档：https://evalscope.readthedocs.io/

PivotEval服务将持续跟进 EvalScope 的最新评测能力，更多功能正在迭代中。

常见问题

1. 所有模型都支持评测吗？

并非所有模型都支持评测，当前仅支持评测文本生成（LLM）模型及多模态理解（VLM）模型，且需要您自行准备OpenAI兼容或Anthropic兼容的API。

用户可通过在模型库列表页左上角筛选项，发现平台推荐的可评测模型，进入具体模型详情页通过右上角评测按钮快速发起。

2. 性能测试和模型评测有什么区别？

模型评测关注模型的能力表现（如准确率、F1 分数等），使用标准数据集进行评估；性能测试关注推理服务的性能指标（如吞吐量、延迟等），通过并发请求模拟真实负载场景。

3. 评测任务失败后如何处理？

首先查看任务日志了解失败原因。如果是临时性错误（如网络波动），可使用”从失败处继续”功能从中断位置恢复。如果是配置错误，需修正配置后重新创建任务。

使用过程中有任何建议或问题，欢迎随时反馈给团队。

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

cover

蚂蚁百灵双响开源：万亿旗舰 Ling-2.6-1T 与高效 Agent 主力 Ling-2.6-flash

ModelScope魔搭社区

cover

腾讯混元开源手机端离线翻译模型，仅0.4G，支持33种语言

ModelScope魔搭社区

cover

从成功率到能力画像：上海AI Lab推出具身操作仿真评测基座EBench

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献957条内容