魔搭社区模型速递（8.17-8.23）

魔搭ModelScope社区

47人浏览 · 2025-08-25 13:18:09

魔搭ModelScope社区 · 2025-08-25 13:18:09 发布

🙋魔搭ModelScope本期社区进展：

📟1652个模型：DeepSeek-V3.1、Seed-OSS系列、Qwen-Image-Edit、Intern-S1-mini、InfiniteTalk、Ovis2.5系列等；

📁216个数据集：WAFER-QA、Meeseeks、AI-ModelScope/hle等；

🎨54个创新应用：数字签名红章生成器、missBackend、OpenOCR-UniRec-Demo等；

📄 4篇内容：

轻量高效，8B 性能强劲书生科学多模态模型Intern-S1-mini开源
DeepSeek-V3.1 发布，迈向 Agent 时代的第一步
Qwen-Image-Edit：全能图像编辑，驱动内容创作提质增效
代码人生，不止0和1 | 搭友故事征集令启动！

01.模型推荐

DeepSeek-V3.1

DeepSeek-V3.1在本周正式开源，DeepSeek-V3.1 是一个支持思考模式和非思考模式的混合模型。与此前版本相比，此次升级在多个方面进行改进：

混合思考模式：通过更改聊天模板，一个模型可以同时支持思考模式和非思考模式；

更智能的工具调用：通过后训练优化，模型在工具使用和代理任务中的表现显著提升；

更高的思考效率：DeepSeek-V3.1-Think 在回答质量上与 DeepSeek-R1-0528 相当，但响应速度更快。

DeepSeek-V3.1 是在 DeepSeek-V3.1-Base 基础上进行后训练得到的模型，其基座 checkpoint 通过两阶段长上下文扩展方法构建（遵循原版 DeepSeek-V3 报告所述方法论）。

`模型链接：`

Bace模型：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base

后训练模型：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1

`Seed-OSS系列`

近日，字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型，使用12T token进行训练，在多个主流开源基准测试中表现出色。Seed-OSS 系列提供强大的长上下文、推理、代理和通用功能，以及对开发者友好的多功能特性：

灵活控制思考预算：允许用户根据需要灵活调整推理长度，这种动态控制推理长度的能力在实际应用场景中提高了推理效率；
增强的推理能力：特别针对推理任务进行了优化，同时保持了平衡且出色的通用能力；
代理智能：在工具使用和问题解决等代理任务中表现卓越；
研究友好：考虑到预训练中包含合成指令数据可能会影响后训练研究，发布了带有和不带指令数据的预训练模型，为研究界提供了更多样化的选择；
原生长上下文：使用长达512K的长上下文进行训练。

`模型链接：`

Seed-OSS-36B-Base（含合成数据）：

https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Base

Seed-OSS-36B-Base-woSyn（不含合成数据）：https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Base-woSyn
Seed-OSS-36B-Instruct

https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Instruct

示例代码：

使用transformer，以Seed-OSS-36B-Instruct为例

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

from modelscope import AutoModelForCausalLM, AutoTokenizer
import os
import re
model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "How to make pasta?"},
]
tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True, 
  add_generation_prompt=True, 
  return_tensors="pt", 
  thinking_budget=512 # control the thinking budget
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

`Qwen-Image-Edit`

继近期开源Qwen-Image后，通义千问Qwen团队进一步开源发布其图像编辑模型Qwen-Image-Edit。Qwen-Image-Edit基于20B的Qwen-Image模型进一步训练，成功将Qwen-Image的文本渲染特色能力拓展到编辑任务上，以支持精准的文字编辑。此外，Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL（获取视觉语义控制）和VAE Encoder（获得视觉外观控制），以同时获得语义/外观双重编辑能力。主要特性包括：

语义/外观双重编辑: Qwen-Image-Edit不仅支持low-level的视觉外观编辑（例如增删改等，需要保持图片部分区域完全不变），也支持high-level的视觉语义编辑（例如IP制作，物体旋转，风格迁移等，整体像素值可以变化，但需要保持语义不变）
精准文字编辑: Qwen-Image-Edit支持中英双语文字编辑，可以在保留文字大小/字体/风格的前提下，直接编辑图片中文字，进行增删改。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image-Edit 在编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

模型链接：

https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit

示例代码：

安装最新版本的 diffusers

pip install git+https://github.com/huggingface/diffusers

以下包含一个代码片段，说明如何使用该模型根据文本提示生成图像：

import os
from PIL import Image
import torch
from modelscope import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
pipeline.set_progress_bar_config(disable=None)
image = Image.open("./input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
inputs = {
    "image": image,
    "prompt": prompt,
    "generator": torch.manual_seed(0),
    "true_cfg_scale": 4.0,
    "negative_prompt": " ",
    "num_inference_steps": 50,
}
with torch.inference_mode():
    output = pipeline(**inputs)
    output_image = output.images[0]
    output_image.save("output_image_edit.png")
    print("image saved at", os.path.abspath("output_image_edit.png"))

更多推理、微调教程详见：

Qwen-Image-Edit：全能图像编辑，驱动内容创作提质增效

InfiniteTalk

InfiniteTalk是由MeiGen-AI团队开源的一种创新的稀疏帧视频配音框架，只要给定输入视频和音频轨道，InfiniteTalk就会合成一个新的视频，该视频不仅具有准确的唇形同步，同时还会将头部动作、身体姿势和面部表情与音频对齐。与仅关注嘴唇的传统配音方法不同，InfiniteTalk 支持无限长度的视频生成，并保持准确的唇形同步和一致的身份保留。此外，InfiniteTalk 还可以作为一个图像-音频到视频的模型，以一张图像和一段音频作为输入。

模型链接：

https://www.modelscope.cn/models/MeiGen-AI/InfiniteTalk

Github:

https://github.com/MeiGen-AI/InfiniteTalk

Ovis2.5系列

阿里国际发布了最新的多模态大模型Ovis2.5，这是 Ovis2 的继任者，专为原生分辨率视觉感知和增强的多模态推理设计。为了加强推理能力，Ovis2.5 不仅在链式思维（CoT）上进行训练，还进行了反思性推理训练，包括自我检查和修正。这种高级功能在推理时作为可选的思考模式提供，使用户能够在复杂输入上以延迟换取更高的准确性。
Ovis2.5-9B 在 OpenCompass 多模态评估套件中取得了平均 78.3 分的成绩（在参数少于 40B 的开源 MLLM 中处于领先地位），而轻量级的 Ovis2.5-2B 得分为 73.9，继续延续了“小模型，大性能”的理念，适用于资源受限的场景。

模型链接：

Ovis2.5-9B

https://www.modelscope.cn/models/AIDC-AI/Ovis2.5-9B

Ovis2.5-2B

https://www.modelscope.cn/models/AIDC-AI/Ovis2.5-2B

示例代码：

以Ovis2.5-9B为例，首先，安装所需的依赖项：

pip install torch==2.4.0 transformers==4.51.3 numpy==1.25.0 pillow==10.3.0 moviepy==1.0.3
pip install flash-attn==2.7.0.post2 --no-build-isolation

运行以下代码：

import torch
import requests
from PIL import Image
from modelscope import AutoModelForCausalLM
MODEL_PATH = "AIDC-AI/Ovis2.5-9B"
# Thinking mode & budget
enable_thinking = True
enable_thinking_budget = True  # Only effective if enable_thinking is True.
# Total tokens for thinking + answer. Ensure: max_new_tokens > thinking_budget + 25
max_new_tokens = 3072
thinking_budget = 2048
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
).cuda()
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": Image.open(requests.get("https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/TIlymOb86R6_Mez3bpmcB.png", stream=True).raw)},
        {"type": "text", "text": "Calculate the sum of the numbers in the middle box in figure (c)."},
    ],
}]
input_ids, pixel_values, grid_thws = model.preprocess_inputs(
    messages=messages,
    add_generation_prompt=True,
    enable_thinking=enable_thinking
)
input_ids = input_ids.cuda()
pixel_values = pixel_values.cuda() if pixel_values is not None else None
grid_thws = grid_thws.cuda() if grid_thws is not None else None
outputs = model.generate(
    inputs=input_ids,
    pixel_values=pixel_values,
    grid_thws=grid_thws,
    enable_thinking=enable_thinking,
    enable_thinking_budget=enable_thinking_budget,
    max_new_tokens=max_new_tokens,
    thinking_budget=thinking_budget,
)
response = model.text_tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

思考和思考预算逻辑可以以相同的方式应用于多张图片、视频和纯文本场景。

02.数据集推荐

WAFER-QA

WAFER-QA 是 Salesforce 在 ModelScope 开源的中文半导体晶圆缺陷问答数据集。它以真实晶圆缺陷图像为核心，提供了 1 万+ 张高分辨率图片，并针对每张图片配有多条中文问答对（总计 3 万+ 组）。问题覆盖缺陷类型、位置、尺寸、成因等 8 个维度，标注采用半自动+人工复核流程，确保工业级准确性。该数据集可直接用于训练和评测中文多模态大模型在工业视觉问答（VQA）任务中的表现，是目前少有的面向半导体制造场景的中文 QA 数据资源。

数据集链接：

https://www.modelscope.cn/datasets/Salesforce/WAFER-QA