魔搭社区模型速递（7.12-7.19）

魔搭ModelScope社区

16人浏览 · 2025-07-21 10:42:28

魔搭ModelScope社区 · 2025-07-21 10:42:28 发布

🙋魔搭ModelScope本期社区进展：

📟3072个模型：Voxtral系列、Kimi-K2-Instruct-GGUF、HiDream-E1-1等；

📁193个数据集：AF-Chat、AudioSkills、LongAudio等；

🎨121个创新应用：Qwen-TTS-Demo、7daysfoodHelperV3.0、MNNChat排行榜等；

📄 8 篇内容：

通义WebSailor开源，首个挑战BrowseComp基准的开源网络智能体！
Kimi Playground与ModelScope MCP合作，共建更智能的Agent
2025·全球AI攻防挑战赛启动选手招募：图、视、音三赛道逐鹿，推动AI安全技术进化
ModelScope魔搭25年7月发布月报
AI 加速科学发现丨Al For Science 专场直播
10分钟，用 EvalScope 让文生图模型评估“有理有据”
OpenCSG中文数据集助推CMU无分词器模型登顶SOTA
RM-Gallery: 一站式奖励模型平台

01.模型推荐

Voxtral系列

Voxtral是Mistral AI近期发布的其首个开放式音频模型。在 Mistral Small 3 的基础上增加了强大的音频理解能力。

专用转录模式：可以在纯语音转录模式下运行，以最大化性能。默认情况下，Voxtral 会自动预测源音频的语言并相应地进行转录；
长篇内容：具有 32k token的上下文长度，可处理长达 30 分钟的音频转录，或 40 分钟的理解；
内置问答和摘要：支持直接通过音频提问。分析音频并生成结构化的摘要，无需单独的 ASR 和语言模型；
多语言原生支持：自动语言检测和在全球最广泛使用的语言（英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语）中的领先性能；
从语音直接调用函数：根据用户的语音意图直接触发后端功能、工作流或 API 调用；
文本理解能力强：保留了其语言模型基础 Mistral Small 3.1 的文本理解能力

模型链接：

Voxtral-Small-24B-2507：

https://modelscope.cn/models/mistralai/Voxtral-Small-24B-2507

Voxtral-Mini-3B-2507：

https://www.modelscope.cn/models/mistralai/Voxtral-Mini-3B-2507

代码示例：

vLLM (推荐)

安装：确保从 "main" 安装 vllm，建议使用 uv

uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

这样做应该会自动安装 mistral_common >= 1.8.1。

检查：

python -c "import mistral_common; print(mistral_common.__version__)"

离线

可以通过克隆 vLLM 仓库来测试 vLLM 设置是否正常工作：

git clone https://github.com/vllm-project/vllm && cd vllm

然后运行：

python examples/offline_inference/audio_language.py --num-audios 2 --model-type voxtral

服务

建议在服务器/客户端设置中使用 Voxtral-Small-24B-2507

启动一个服务器：

VLLM_USE_MODELSCOPE=true vllm serve mistralai/Voxtral-Small-24B-2507 --tokenizer_mode mistral --config_format mistral --load_format mistral --tensor-parallel-size 2 --tool-call-parser mistral --enable-auto-tool-choice

注意：在 GPU 上运行 Voxtral-Small-24B-2507 需要约 55 GB 的 GPU 内存（bf16 或 fp16）。

HiDream-E1-1

智象未来HiDream团队在近期开源了最新迭代的图像编辑模型 HiDream-E1.1，支持动态分辨率，在图像质量和编辑精度方面相比上一代HiDream-E1-Full 有显著提升，评估指标如下：

模型链接：

https://www.modelscope.cn/models/HiDream-ai/HiDream-E1-1

示例代码：

先安装 Flash Attention 和最新版本的 Diffusers，官方推荐手动安装CUDA 12.4版本

pip install -r requirements.txt
pip install -U flash-attn --no-build-isolation
pip install -U git+https://github.com/huggingface/diffusers.git

python ./inference_e1_1.py

Kimi-K2-Instruct-GGUF

Moonshot AI 近日开源的 Kimi K2 系列模型，采用 1T 参数混合专家（MoE）架构，通过稀疏激活机制将实际运算参数压缩至 320 亿，却在代码生成、工具调用等任务中展现出对标顶尖闭源模型的能力，开源后迅速引发社区关注与好评。但同时因原始模型 1.1TB 的存储需求对开发者部署应用构成挑战，开源发布仅一周内，开源社区即推出多个轻量化方案，包括：

Unsloth AI 通过1.8-bit量化将Kimi K2模型体积从1.1TB压缩至245GB，提供UD_IQ1至UD-Q5_K_XL多级方案，Q2_K_XL版本可实现Flappy Bird代码生成等复杂任务；
KVCache.AI则推出Ktransformers支持Kimi K2，Q4_K_M量化版本在单路CPU+消费级GPU场景下实现10 TPS推理，双路CPU启用NUMA优化后性能提升至14 TPS，需约600GB内存及14GB GPU显存支撑384专家并行。

模型链接：

Unsloth：

https://www.modelscope.cn/models/unsloth/Kimi-K2-Instruct-GGUF

KVCache：

https://www.modelscope.cn/models/KVCache.AI/Kimi-K2-Instruct-GGUF

02.数据集推荐

AF-Chat

AF-Chat 是一个对话数据集，主要用于训练和优化自然语言处理模型中的对话功能。该数据集包含丰富的对话样本，能够帮助模型更好地理解和生成自然流畅的对话内容。

数据集链接：

https://modelscope.cn/datasets/nv-community/AF-Chat

AudioSkills

AudioSkills-XL 是一个大规模的音频问答（AQA）数据集，旨在通过短音频片段（≤30秒）开发（大型）音频-语言模型在专家级推理和问题解决任务上的能力。它在原始的 AudioSkills 集合基础上增加了大约 450万新的问答对，总共达到了约1000万多样化的示例。此次发布包括完整的数据集，包括 AudioSkills 和 AudioSkills-XL。

数据集链接：

https://modelscope.cn/datasets/nv-community/AudioSkills

LongAudio

LongAudio-XL是一个大规模长音频问答 (AQA) 数据集，旨在开发针对长音频片段（30 秒 - 10 分钟）进行长音频推理和问题解决任务的（大型）音频语言模型。它在原有的 LongAudio 数据集上进行了扩展，新增了约100 万个长语音 QA 对，总计约125 万个多样化示例。此次发布包含完整的数据集，包括 LongAudio 和 LongAudio-XL。

数据集链接：

https://modelscope.cn/datasets/nv-community/LongAudio

03.创空间

Qwen-TTS-Demo

Qwen-TTS-Demo 可广泛应用于有声读物制作、语音播报、智能客服、语音助手、教育、多媒体创作、辅助阅读、语音导航、社交媒体、广告、游戏和企业报告等场景，帮助用户高效获取和传递信息，提升体验和效率。

体验链接：

https://modelscope.cn/studios/Qwen/Qwen-TTS-Demo

7daysfoodHelperV3.0

7daysfoodHelperV3.0 是一款在线饮食规划工具，适用于个人健康管理、营养师咨询、家庭饮食规划、健身饮食管理、餐饮企业菜单规划、健康管理应用集成、老年人和儿童饮食管理、素食者饮食规划、特殊饮食需求管理、旅行饮食规划以及企业员工健康计划等多种场景，帮助用户高效制定和管理一周饮食计划，促进健康生活方式。

体验链接：

https://modelscope.cn/studios/harykali/7daysfoodHelperV3.0