🙋魔搭ModelScope本期社区进展:

📟1652个模型:DeepSeek-V3.1、Seed-OSS系列、Qwen-Image-Edit、Intern-S1-mini、InfiniteTalk、Ovis2.5系列

📁216个数据集:WAFER-QA、Meeseeks、AI-ModelScope/hle等;

🎨54个创新应用数字签名红章生成器、missBackend、OpenOCR-UniRec-Demo

📄 4篇内容:

  • 轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
  • DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
  • Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
  • 代码人生,不止0和1 | 搭友故事征集令启动!

01.模型推荐

DeepSeek-V3.1

DeepSeek-V3.1在本周正式开源,DeepSeek-V3.1 是一个支持思考模式和非思考模式的混合模型。与此前版本相比,此次升级在多个方面进行改进:

混合思考模式:通过更改聊天模板,一个模型可以同时支持思考模式和非思考模式;

更智能的工具调用:通过后训练优化,模型在工具使用和代理任务中的表现显著提升;

更高的思考效率:DeepSeek-V3.1-Think 在回答质量上与 DeepSeek-R1-0528 相当,但响应速度更快。

DeepSeek-V3.1 是在 DeepSeek-V3.1-Base 基础上进行后训练得到的模型,其基座 checkpoint 通过两阶段长上下文扩展方法构建(遵循原版 DeepSeek-V3 报告所述方法论)。

模型链接:

  • Bace模型:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base

  • 后训练模型:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1

Seed-OSS系列

近日,字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,使用12T token进行训练,在多个主流开源基准测试中表现出色。Seed-OSS 系列提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性:

  • 灵活控制思考预算:允许用户根据需要灵活调整推理长度,这种动态控制推理长度的能力在实际应用场景中提高了推理效率;
  • 增强的推理能力:特别针对推理任务进行了优化,同时保持了平衡且出色的通用能力;
  • 代理智能:在工具使用和问题解决等代理任务中表现卓越;
  • 研究友好:考虑到预训练中包含合成指令数据可能会影响后训练研究,发布了带有和不带指令数据的预训练模型,为研究界提供了更多样化的选择;
  • 原生长上下文:使用长达512K的长上下文进行训练。

模型链接:

  • Seed-OSS-36B-Base(含合成数据):

https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Base

  • Seed-OSS-36B-Base-woSyn(不含合成数据):https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Base-woSyn
  • Seed-OSS-36B-Instruct

https://modelscope.cn/models/ByteDance-Seed/Seed-OSS-36B-Instruct

 

示例代码:

使用transformer,以Seed-OSS-36B-Instruct为例

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss
from modelscope import AutoModelForCausalLM, AutoTokenizer
import os
import re
model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "How to make pasta?"},
]
tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True, 
  add_generation_prompt=True, 
  return_tensors="pt", 
  thinking_budget=512 # control the thinking budget
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

Qwen-Image-Edit

继近期开源Qwen-Image后,通义千问Qwen团队进一步开源发布其图像编辑模型Qwen-Image-Edit。Qwen-Image-Edit基于20B的Qwen-Image模型进一步训练,成功将Qwen-Image的文本渲染特色能力拓展到编辑任务上,以支持精准的文字编辑。此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(获取视觉语义控制)和VAE Encoder(获得视觉外观控制),以同时获得语义/外观双重编辑能力。主要特性包括:

  • 语义/外观 双重编辑: Qwen-Image-Edit不仅支持low-level的视觉外观编辑(例如增删改等,需要保持图片部分区域完全不变),也支持high-level的视觉语义编辑(例如IP制作,物体旋转,风格迁移等,整体像素值可以变化,但需要保持语义不变)
  • 精准文字编辑: Qwen-Image-Edit支持中英双语文字编辑,可以在保留文字大小/字体/风格的前提下,直接编辑图片中文字,进行增删改。
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

模型链接:

https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit

示例代码:

安装最新版本的 diffusers

pip install git+https://github.com/huggingface/diffusers

以下包含一个代码片段,说明如何使用该模型根据文本提示生成图像:

import os
from PIL import Image
import torch
from modelscope import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
pipeline.set_progress_bar_config(disable=None)
image = Image.open("./input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
inputs = {
    "image": image,
    "prompt": prompt,
    "generator": torch.manual_seed(0),
    "true_cfg_scale": 4.0,
    "negative_prompt": " ",
    "num_inference_steps": 50,
}
with torch.inference_mode():
    output = pipeline(**inputs)
    output_image = output.images[0]
    output_image.save("output_image_edit.png")
    print("image saved at", os.path.abspath("output_image_edit.png"))

更多推理、微调教程详见:

Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效

InfiniteTalk

InfiniteTalk是由MeiGen-AI团队开源的一种创新的稀疏帧视频配音框架,只要给定输入视频和音频轨道,InfiniteTalk就会合成一个新的视频,该视频不仅具有准确的唇形同步,同时还会将头部动作、身体姿势和面部表情与音频对齐。与仅关注嘴唇的传统配音方法不同,InfiniteTalk 支持无限长度的视频生成,并保持准确的唇形同步和一致的身份保留。此外,InfiniteTalk 还可以作为一个图像-音频到视频的模型,以一张图像和一段音频作为输入。
 

模型链接:

https://www.modelscope.cn/models/MeiGen-AI/InfiniteTalk

 

Github:

https://github.com/MeiGen-AI/InfiniteTalk

 

Ovis2.5系列

阿里国际发布了最新的多模态大模型Ovis2.5,这是 Ovis2 的继任者,专为原生分辨率视觉感知和增强的多模态推理设计。为了加强推理能力,Ovis2.5 不仅在链式思维(CoT)上进行训练,还进行了反思性推理训练,包括自我检查和修正。 这种高级功能在推理时作为可选的 思考模式 提供,使用户能够在复杂输入上以延迟换取更高的准确性。
Ovis2.5-9B 在 OpenCompass 多模态评估套件中取得了平均 78.3 分的成绩(在参数少于 40B 的开源 MLLM 中处于领先地位),而轻量级的 Ovis2.5-2B 得分为 73.9,继续延续了“小模型,大性能”的理念,适用于资源受限的场景。

模型链接:

  • Ovis2.5-9B

https://www.modelscope.cn/models/AIDC-AI/Ovis2.5-9B

  • Ovis2.5-2B

https://www.modelscope.cn/models/AIDC-AI/Ovis2.5-2B

示例代码:

Ovis2.5-9B为例,首先,安装所需的依赖项:

pip install torch==2.4.0 transformers==4.51.3 numpy==1.25.0 pillow==10.3.0 moviepy==1.0.3
pip install flash-attn==2.7.0.post2 --no-build-isolation

运行以下代码:

import torch
import requests
from PIL import Image
from modelscope import AutoModelForCausalLM
MODEL_PATH = "AIDC-AI/Ovis2.5-9B"
# Thinking mode & budget
enable_thinking = True
enable_thinking_budget = True  # Only effective if enable_thinking is True.
# Total tokens for thinking + answer. Ensure: max_new_tokens > thinking_budget + 25
max_new_tokens = 3072
thinking_budget = 2048
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
).cuda()
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": Image.open(requests.get("https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/TIlymOb86R6_Mez3bpmcB.png", stream=True).raw)},
        {"type": "text", "text": "Calculate the sum of the numbers in the middle box in figure (c)."},
    ],
}]
input_ids, pixel_values, grid_thws = model.preprocess_inputs(
    messages=messages,
    add_generation_prompt=True,
    enable_thinking=enable_thinking
)
input_ids = input_ids.cuda()
pixel_values = pixel_values.cuda() if pixel_values is not None else None
grid_thws = grid_thws.cuda() if grid_thws is not None else None
outputs = model.generate(
    inputs=input_ids,
    pixel_values=pixel_values,
    grid_thws=grid_thws,
    enable_thinking=enable_thinking,
    enable_thinking_budget=enable_thinking_budget,
    max_new_tokens=max_new_tokens,
    thinking_budget=thinking_budget,
)
response = model.text_tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

思考和思考预算逻辑可以以相同的方式应用于多张图片、视频和纯文本场景。

02.数据集推荐

WAFER-QA

WAFER-QA 是 Salesforce 在 ModelScope 开源的中文半导体晶圆缺陷问答数据集。它以真实晶圆缺陷图像为核心,提供了 1 万+ 张高分辨率图片,并针对每张图片配有多条中文问答对(总计 3 万+ 组)。问题覆盖缺陷类型、位置、尺寸、成因等 8 个维度,标注采用半自动+人工复核流程,确保工业级准确性。该数据集可直接用于训练和评测中文多模态大模型在工业视觉问答(VQA)任务中的表现,是目前少有的面向半导体制造场景的中文 QA 数据资源。


数据集链接:

https://www.modelscope.cn/datasets/Salesforce/WAFER-QA

 

 

Meeseeks

Meeseeks 是一个 指令跟随基准测试,旨在评估模型在 多轮对话场景 中遵循用户指令的能力。

Meeseeks 的一个关键特点是其 自我纠正循环,模型会收到结构化的反馈,并必须根据反馈改进它们的响应。
 

数据集链接:

https://www.modelscope.cn/datasets/meituan/Meeseeks

 

 

03.创空间

数字签名红章生成器

数字签名红章生成器适用于远程办公、线上政务、教育、商务等场景,可快速为电子文档添加红章和签名,提升文件处理效率并满足合规要求。

 

体验链接:

https://www.modelscope.cn/studios/dugubuyan/Red-Stamp-Gennerato-With_Signature

 

情侣思念 API 服务

missBackend 是一站式 AI 后端服务 Demo,内置“情侣思念 API”——输入双方昵称、纪念日或当下心情,即可秒回定制情话、语音或带签名的浪漫卡片,1 分钟把大模型能力集成进 App、小程序或网站。

 

体验链接:

https://www.modelscope.cn/studios/kris1997/missBackend

 

OpenOCR-UniRec-Demo

OpenOCR-UniRec-Demo 是一个一键调用的高精度多场景 OCR+通用文字识别在线体验:上传任意图片或 PDF,即可秒出结构化文字、表格、票据、卡证内容,支持中英混排、竖排、手写、印章,可直接嵌入 App / 小程序 / RPA 流程做票据、证件、文档自动化录入。


体验链接:

https://www.modelscope.cn/studios/topdktu/OpenOCR-UniRec-Demo

 

04.社区精选文章


 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐