评测大模型,绕不开两个问题:模型效果好不好?推理服务性能够不够?但回答这两个问题的前置成本不低,搭建评测环境、下载和处理数据集、对齐评测标准、编写压测脚本……每一步都不算难,但每一步都需要时间。尤其当你想在多个基准上系统评测、或者在不同并发档位下压测 API 性能时,重复劳动会迅速累积。

为了将模型的评测门槛降低,魔搭推出了 PivotEval 模型评测服务,基于这一全新服务,评测链路能实现大幅度的简化:你提供模型 API 地址,并选择评测内容,剩下的都交给平台。不用在本地安装评测框架,不用自己准备数据集,评测完成后自动生成可交互的可视化报告,还能直接实现在线分享。

如何开始

1. 在ModelScope上进入PivotEval评测服务页面:

此外,你也可以直接从支持评测的模型详情页一键跳转:

2. 创建一个评测任务

你需要填写模型API的接口信息:PivotEval 支持 OpenAI 兼容和 Anthropic 兼容两种模型 API 协议。填入你的 BaseUrl(模型服务地址)和模型名称即可。例如,如果选用魔搭的 API-Provider 来接入外部模型API,按照下图所示填写即可(API-Provider的文档可参见https://modelscope.cn/docs/model-service/API-Inference/api-provider%EF%BC%89%E3%80%82

3. 选择”模型评估”或”性能测试”

4. 配置评测参数

  • 选择评测数据集:系统内置 30+个业界主流基准,包括 MMLU、CMMLU、C-Eval、GSM8K 等,更多基准benchmark还在接入中。对于内置的benchmark,无需额外下载和处理。如深入了解特定基准数据,点击“详情”就有详细的解释。

  • 配置模型生成参数(可选):输出长度调节max_tokens、控制温度temperature、采样系数top_p等核心参数都支持。

5. 点击“开始评测”!

评测完成后,你会拿到什么

评测结束后会输出一份 Markdown 格式的结构化结果,指标清晰,方便存档和横向对比。同时还有一份交互式 HTML 报告,内嵌动态图表,支持点击交互、按不同维度拆开看。这方便您直接分享针对性的评测报告,不用再手动整理数据做图。

可视化评测报告

同时每一步的执行记录都有完整日志留存,支持评测运行过程中通过进度看板随时了解任务状态,以及通过log更好理解评测的过程以及进行可能的问题调查。

两大核心能力

模型评估

适用于模型选型、能力分析、跨模型对比等场景。

评测报告不只给出一个准确率数字。系统会按题目难度梯度拆解模型表现——从基础认知题到复杂推理题,差距一目了然。还会给出知识领域分布分析,哪些领域强、哪些领域需要补强,也很清楚。

评测覆盖 30 多个标准基准,文本理解和多模态场景都有。生成参数(temperature、top_p、max_tokens 等)可以自行配置,有特殊评测需求的话,也支持通过扩展接口自行定制。

性能测试

适用于验证推理服务能扛多大并发、响应速度够不够快。

支持阶梯式自动加压,例如从 1 并发递增到 2、4、8,一次配置即可完成多组并发测试,结果自动对比,不必重复创建任务。也支持通过速率控制来做稳定的流量注入。

核心性能指标覆盖:

底层开源,评测可复现

PivotEval 评测服务基于ModelScope社区开源的 EvalScope 框架构建。评测流程完全透明,所有评测结果,都可以使用 EvalScope 在本地复现。

如果你有定制化的评测需求,比如自定义数据集或评分逻辑,也可以直接基于 EvalScope 进行开发:

PivotEval服务将持续跟进 EvalScope 的最新评测能力,更多功能正在迭代中。

常见问题

1. 所有模型都支持评测吗?

并非所有模型都支持评测,当前仅支持评测文本生成(LLM)模型及多模态理解(VLM)模型,且需要您自行准备OpenAI兼容或Anthropic兼容的API。

用户可通过在模型库列表页左上角筛选项,发现平台推荐的可评测模型,进入具体模型详情页通过右上角评测按钮快速发起。

2. 性能测试和模型评测有什么区别?

模型评测关注模型的能力表现(如准确率、F1 分数等),使用标准数据集进行评估;性能测试关注推理服务的性能指标(如吞吐量、延迟等),通过并发请求模拟真实负载场景。

3. 评测任务失败后如何处理?

首先查看任务日志了解失败原因。如果是临时性错误(如网络波动),可使用”从失败处继续”功能从中断位置恢复。如果是配置错误,需修正配置后重新创建任务。

使用过程中有任何建议或问题,欢迎随时反馈给团队。

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐