魔搭社区模型速递（8.2-8.8）

魔搭ModelScope社区

131人浏览 · 2025-08-12 18:35:59

魔搭ModelScope社区 · 2025-08-12 18:35:59 发布

🙋魔搭ModelScope本期社区进展：

📟2268个模型：gpt-oss系列、Qwen-Image、腾讯混元Dense模型系列、MiniCPM-V4.0、小红书dots.vlm1、kitten-tts-nano-0.1等；

📁165个数据集：HunyuanWorld-panoramas、Udio-24MX1、SPB-2508等；

🎨78个创新应用：AI论文阅读器、AI 3D模型生成器、青萌心动等；

📄 13篇内容：

小红书 hi lab开源最强多模态大模型dots.vlm1，性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
利用OpenVINO™ 快速部署端侧可用的MiniCPM-V4.0视觉大模型
把「想法」编译成「现实」：魔搭&AMD开发者实践专场完整回顾
从搜索到执行，全自动｜AutoHub重塑ModelScope使用体验
MiniCPM-V4.0开源，多模态能力进化，手机可用，还有最全CookBook！
OpenAI 重返开源！gpt-oss系列社区推理、微调实战教程到！
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能
能写会画的开源Qwen-Image来咯！魔搭社区提供免费推理微调模型服务！
小体积，大潜力 - 腾讯混元Dense模型多尺寸正式开源
IROS 2025 |从数字智能走向物理智能，“桃源”与真实世界机器人学习挑战赛启动，2大赛道等你来战
万相妙思+创意视频大赛开赛啦！双重赛道，奖励叠加！10万奖金池 + 新模型内测资格！
代码人生，不止0和1 | 搭友故事征集令启动！
OceanBase × 魔搭社区 “SQL 遇上 AI” 城市交流会杭州站即将启动！

01.模型推荐

gpt-oss系列OpenAI 正式开源gpt-oss-120b / 20b 系列大模型，专为强大的推理、代理任务和多用途开发场景设计，单卡 H100 或 16 GB 内存可实现本地部署，支持可调推理深度、完整思维链、函数调用、网页浏览及 LoRA 微调，两款模型情况如下：


gpt-oss-120b —— 适用于生产环境、通用目的和高推理需求的场景，可以装入单个 H100 GPU（117B 参数，其中 5.1B 激活参数）

gpt-oss-20b —— 适用于低延迟以及本地或特定用途的场景（21B 参数，其中 3.6B 激活参数）


模型链接：
gpt-oss-120b：
https://modelscope.cn/models/openai-mirror/gpt-oss-120b


gpt-oss-20b：
https://modelscope.cn/models/openai-mirror/gpt-oss-20b


示例代码：
Transformers推理示例，请安装必要的依赖项以设置环境：


pip install -U transformers kernels torch 


设置完成后，可以通过运行以下代码片段来运行模型：


from modelscope import pipelineimport torchmodel_id = "openai-mirror/gpt-oss-120b"pipe = pipeline(    "text-generation",    model=model_id,    torch_dtype="auto",    device_map="auto",)messages = [    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},]outputs = pipe(    messages,    max_new_tokens=256,)print(outputs[0]["generated_text"][-1])
更多推理、微调教程详见：
OpenAI 重返开源！gpt-oss系列社区推理、微调实战教程到！

Qwen-Image

通义千问团队开源了首个图像生成基础模型 Qwen-Image，一个20B的MMDiT模型，展示其在复杂文本渲染和精确图像编辑方面取得的显著进展，模型主要特性包括：


卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出；

一致性的图像编辑能力（即将推出）: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性；

强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。
目前魔搭社区AIGC专区已支持Qwen-Image的在线推理、训练


模型链接：
https://www.modelscope.cn/models/Qwen/Qwen-Image


更多本地部署推理教程：
能写会画的开源Qwen-Image来咯！魔搭社区提供免费推理微调模型服务！

MiniCPM-V4.0

面壁小钢炮开源了新一代多模态模型 MiniCPM-V 4.0，依靠 4B 参数，取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩，且 实现了在手机上稳定、丝滑运行。在 Apple M4 Metal 上正常运行 MiniCPM-V 4.0 模型，显存占用仅为 3.33 GB。

官方还正式开源了 推理部署工具 MiniCPM-V CookBook，支持 MiniCPM-V 4.0 本地部署的 IOS App 已开源，开发者可在 CookBook 中下载使用，帮助开发者面向不同需求、不同场景、不同设备，均可实现开箱即用的轻量、简易部署。

模型链接：

https://modelscope.cn/models/OpenBMB/MiniCPM-V-4

CookBook：

https://github.com/OpenSQZ/MiniCPM-V-CookBook

示例代码

pip install -U transformers kernels torch

设置完成后，可以通过运行以下代码片段来运行模型：

from modelscope import pipeline
import torch
model_id = "openai-mirror/gpt-oss-120b"
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)
messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

MiniCPM-V4.0开源，多模态能力进化，手机可用，还有最全CookBook！

混元Dense模型系列

腾讯开源了一系列混元Dense模型，包括Pretrain和Instruct版本，参数规模分别为0.5B、1.8B、4B和7B，消费级显卡即可运行，适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景，且支持垂直领域低成本微调。这模型沿用了与Hunyuan-A13B相似的训练策略，继承了其强大的性能特点：

混合推理支持：支持快速和慢速思考模式，允许用户根据需要灵活选择。
超长上下文理解：原生支持256K上下文窗口，在长文本任务上保持稳定性能。
增强的Agent能力：针对Agent类任务进行了优化，在BFCL-v3、τ-Bench和C3-Bench等基准测试中取得了领先的结果。
高效的推理：利用GQA并支持多种量化格式，实现高效的推理。

模型合集：

https://modelscope.cn/collections/Hunyuan-Dense-202508-2425ecde988c45

示例代码：

官方提供了如何使用 transformers 库来加载和应用模型，演示了如何启用和禁用推理模式，以及如何解析推理过程及其最终输出。以 tencent/Hunyuan-7B-Instruct 为例：

from modelscope import AutoModelForCausalLM, AutoTokenizer
import os
import re
model_name_or_path = "Tencent-Hunyuan/Hunyuan-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Write a short summary of the benefits of regular exercise"},
]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True,return_tensors="pt",
                                                enable_thinking=True # Toggle thinking mode (default: True)
                                                )
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
print("output_text=",output_text)
think_pattern = r'<think>(.*?)</think>'
think_matches = re.findall(think_pattern, output_text, re.DOTALL)
answer_pattern = r'<answer>(.*?)</answer>'
answer_matches = re.findall(answer_pattern, output_text, re.DOTALL)
think_content = [match.strip() for match in think_matches][0]
answer_content = [match.strip() for match in answer_matches][0]
print(f"thinking_content:{think_content}\n\n")
print(f"answer_content:{answer_content}\n\n")

官方建议使用以下一组参数进行推理。请注意，模型没有默认的系统提示。


{
  "do_sample": true,
  "top_k": 20,
  "top_p": 0.8,
  "repetition_penalty": 1.05,
  "temperature": 0.7
}

更多微调教程

小体积，大潜力 - 腾讯混元Dense模型多尺寸正式开源

02.数据集推荐

HunyuanWorld-panoramas

一个用于生成或理解全景图像（360° panoramas）的多模态数据集，结合了：

高分辨率全景图像（如球形或等距柱状投影的环境图）
对应的文本描述（自然语言标注，描述场景内容、氛围、风格等）
可能包含元数据（如拍摄地点、时间、光照条件、风格标签等）

数据集链接：

https://modelscope.cn/datasets/multimodalart/HunyuanWorld-panoramas

Udio-24MX1

该数据集可用于训练高质量的音乐生成模型，支持多流派、多乐器的音乐创作与音频合成任务。适用于AI音乐创作、自动配乐、虚拟音效设计等多媒体内容生成场景。

数据集链接：

https://modelscope.cn/datasets/sleeping-ai/Udio-24MX1

SPB-2508

该数据集可用于训练和评估语音分离与说话人识别模型，适用于复杂语音环境下的多说话人分离任务。适用于智能会议记录、语音助手、安防监听等需要高精度语音处理的场景。

数据集链接：

https://modelscope.cn/datasets/AI-ModelScope/SPB-2508

03.创空间

AI论文阅读器

“PDF 论文秒变知识卡片 + 随问随答的智能助教”，适合科研人员在读文献、写综述、做汇报时快速抓住重点、减少机械阅读时间。

体验链接：

https://modelscope.cn/studios/adadfdsafsfv/AIReader

AI 3D模型生成器

这是一个把文字或单张图片一键变成可下载 3D 模型（GLB/OBJ）的在线工具，支持纹理、法线自动补全。无需安装软件，浏览器里 30 秒即可生成并预览，适合快速原型、游戏素材和 AR 内容创作。

体验链接：

https://modelscope.cn/studios/hajiyang/p_ai_3d_generator

青萌心动

青萌心动是一款 AI 恋爱模拟器，通过文字与语音互动培养“专属虚拟伴侣”。支持记忆回溯、情绪识别与剧情分支，让你在手机里体验持续升温的沉浸式恋爱。

体验链接：

https://modelscope.cn/studios/xhhaAI/BuddyBloom

04.社区精选文章

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

Nex-AGI 开源 Nex-N2：基于 Qwen3.5 后训练，智能体能力比肩 Opus 4.7

ModelScope魔搭社区

Gemma 4 12B 开源：无编码器统一多模态架构，16GB 笔记本本地运行，性能逼近 26B

ModelScope魔搭社区

不用地图也能规划公交路线？| TransitLM：首个大规模端到端公交路线生成数据集与基准

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献985条内容

魔搭社区模型速递（8.2-8.8）

魔搭ModelScope社区

01.模型推荐

Qwen-Image

MiniCPM-V4.0

混元Dense模型系列

02.数据集推荐

HunyuanWorld-panoramas

Udio-24MX1

SPB-2508

数据集链接：

03.创空间

AI论文阅读器

体验链接：

04.社区精选文章

所有评论(0)

温馨提示：您尚未绑定手机号

魔搭ModelScope社区