🙋魔搭ModelScope本期社区进展:

📟1498个模型:GLM-4.5系列、Qwen3-30B-A3B系列、wan2.2系列、Qwen3-Coder-30B-A3B-InstructFLUX.1 Krea dev、step3等;

📁130个数据集:agibot_world_beta、Atlas-Think-Cot-12M、chempile-paper-100m、ScreenSpot-v2等;

🎨85个创新应用GLM-4.5-Demo、通义万相2.2-TI2V-5B demo、AI视频魔法变身器等;

📄 7 篇内容:

  • 黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制
  • 阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
  • 从支撑英伟达GR00T到登陆魔搭社区,智元AgiBot World打通具身智能全球数据生态
  • Qwen3-30B-A3B新版本发布,更轻更好用,提升指令遵循与长上下文理解能力!
  • 智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源SOTA模型
  • 直播预告 | ROLL: 高效且用户友好的大模型RL训练框架
  • 通义万相2.2开源!可一键生成电影感视频


 

01.模型推荐

GLM-4.5系列

GLM-4.5 系列模型是智谱最新开源发布的专为智能体设计的基础模型,拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求。GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。
 

研究团队已开源了 GLM-4.5 和 GLM-4.5-Air 的基础模型、混合推理模型以及混合推理模型的FP8版本。它们采用MIT开源许可证发布,可用于商业用途和二次开发。在研究团队对12项行业标准基准的全面评估中,GLM-4.5表现卓越,得分 63.2,在所有专有和开源模型中排名第3 。值得注意的是,GLM-4.5-Air在保持优异效率的同时,仍取得了 59.8 的竞争性成绩。

 

模型链接:

GLM-4.5:

https://modelscope.cn/models/ZhipuAI/GLM-4.5

 

GLM-4.5-Air:

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air

 

GLM-4.5-FP8:

https://modelscope.cn/models/ZhipuAI/GLM-4.5-FP8

 

GLM-4.5-Air-FP8:

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air-FP8

 

GLM-4.5-Base:

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Base

 

GLM-4.5-Air-Base:

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air-Base

 

示例代码:

详情参考 智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源SOTA模型!

 

 

wan2.2系列

通义万相团队正式开源推出Wan2.2,这是Wan系列视频生成模型家族的最新成员。最新的Wan2.2模型是业界首个使用MoE架构的视频生成基础模型,两个专家模型分别关注生成视频的整体布局和画面细节的完善,在同参数规模下,可节省约50%的计算资源消耗。Wan2.2模型首创「电影级美学控制系统」,将‘光影密码’、‘构图法则’、‘色彩心理学’编码成了这60多个直观的参数,将光影、色彩、镜头语言装进生成模型,实现电影级质感视频生成。


 

此次共开源三个版本的模型:

  • 文生视频:Wan2.2-T2V-A14B
  • 图生视频:Wan2.2-I2V-A14B
  • 统一视频生成:Wan2.2-TI2V-5B


模型合集:

https://modelscope.cn/collections/tongyiwanxiang-22--shipinshengcheng-2bb5b1adef2840
 

示例代码:

使用GitHub官方代码,以Wan2.2-TI2V-5B模型为例


# 1、安装代码
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

# 2、安装依赖
# Ensure torch >= 2.4.0
pip install -r requirements.txt

# 3、下载模型
pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-T2V-A14B

# 4、运行脚本
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

显存占用:

图生视频I2V-A14B和文生视频T2V-A14B模型需要80G显存。统一视频生成TI2V-5B只需要22G显存,可在魔搭notebook的免费资源推理。

 

更多详情请见教程

通义万相2.2开源!可一键生成电影感视频

Step3系列

阶跃星辰开源最新一代基础大模型 Step 3 ,MoE架构的多模态模型,参数量321B,激活参数32B,重点解决多模态协同、系统解码成本与推理效率问题,实现了资源利用与推理效率的平衡,在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05) 等评测集上对 Step 3 进行了测试,在同类型开源模型中,Step 3 成绩行业领先。


 

Step 3通过 MFA(Multi-matrix Factorization Attention) & AFD(Attention-FFN Disaggregation) 的优化,在各类芯片上推理效率均大幅提升。面向 AFD 场景的 StepMesh 通信库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。


 

模型链接:

  • https://www.modelscope.cn/models/stepfun-ai/step3
  • https://www.modelscope.cn/models/stepfun-ai/step3-fp8


 

示例代码

使用transformers推理,官方建议使用 python=3.10, torch>=2.1.0 和 transformers=4.54.0 作为开发环境,目前仅支持 bf16 推理,默认情况下支持图像预处理的多补丁

from modelscope import AutoProcessor, AutoModelForCausalLM
key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_downsampler": "model.vit_downsampler",
    "vit_downsampler2": "model.vit_downsampler2",
    "vit_large_projector": "model.vit_large_projector",
}
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, 
                device_map="auto", torch_dtype="auto",trust_remote_code=True, 
                key_mapping=key_mapping)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
print(decoded)


 

FLUX.1 Krea dev

FLUX.1 Krea dev是黑森林(Black Forest Labs,BFL)与Krea合作开发的先进开放权重模型,用于文本到图像生成。模型参数量12B, Rectified Flow Transformer架构,与 FLUX.1 [dev] 生态系统兼容,可作为灵活的基础模型。这个模型性能强劲,最大的特点是拥有独特的美感和非凡的真实感,在人类偏好评估上的表现优于以往的开源文本生图像模型,与 FLUX1.1 [pro] 等闭源解决方案不相上下。

 

模型链接:

https://www.modelscope.cn/models/black-forest-labs/FLUX.1-Krea-dev

 

示例代码:

安装:

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理:

from diffsynth.pipelines.flux_image_new import FluxImagePipeline, ModelConfig
pipe = FluxImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="black-forest-labs/FLUX.1-Krea-dev", origin_file_pattern="flux1-krea-dev.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder/model.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder_2/"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="ae.safetensors"),
    ],
)
image = pipe(prompt="a cat", seed=0)
image.save("image.jpg")

更多模型训练、应用教程详见

黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制

Qwen3系列轻量专辑

通义千问Qwen团队宣布本周进入“Flash week”,针对最新开源的更新版本的通用模型、thinking模型、coder模型 均推出了轻量版。

 

模型链接:

Qwen3-30B-A3B-Instruct-2507:

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Thinking-2507:

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

Qwen3-Coder-30B-A3B-Instruct:

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct-FP8:

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8

Qwen3-Coder-480B-A35B-Instruct-FP8:

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8

Qwen3-30B-A3B-Instruct-2507-FP8:

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

Qwen3-30B-A3B-Thinking-2507-FP8:

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

Qwen3-235B-A22B-Thinking-2507-FP8

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8


02.数据集推荐

agibot_world_beta

由智元机器人开源的agibot_world_beta数据集,涵盖超过1百万来自100个机器人的轨迹,总时长为2976.4小时,包括

  • 100多个真实场景跨越5个目标领域;
  • 尖端硬件: 视觉触觉传感器 / 6自由度灵巧手 / 移动双臂机器人
  • 200多种任务类型:、接触操控、长期规划、多机器人协作
  • 87种原子技能, 包括系、开罐、剥皮、清扫等。

数据集链接:

https://modelscope.cn/datasets/agibot_world/agibot_world_beta

Atlas-Think-Cot-12M

该数据集(Atlas-Think-Cot-12M)适用于训练和优化大语言模型在复杂推理任务中的思维链(Chain-of-Thought)能力,广泛应用于自然语言理解、逻辑推理、数学解题和多步骤问题求解等场景。

数据集链接:

https://www.modelscope.cn/datasets/prithivMLmods/Atlas-Think-Cot-12M

NuminaMath-LEAN

适用于训练和评估大模型在形式化数学推理与定理证明中的能力,特别适用于结合LEAN证明器的数学逻辑推理、形式化方法验证和高难度数学问题求解等场景。

数据集链接:

https://www.modelscope.cn/datasets/AI-MO/NuminaMath-LEAN

SynthChartNet

适用于训练和评估模型在合成图表理解与生成任务中的表现,广泛应用于图表信息提取、视觉问答、数据可视化理解和文档智能分析等场景。

数据集链接:

https://www.modelscope.cn/datasets/ds4sd/SynthChartNet

03.创空间

GLM-4.5-Demo

可模型进行对话、问答、创作、编程等多场景交互,直观感受GLM-4.5在语言理解、生成能力和任务推理等方面的强大性能,适用于AI爱好者、开发者和研究人员快速体验和探索大模型能力。

 

体验链接:

https://www.modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

 

通义万相2.2-TI2V-5B demo

支持对话、创作、问答等交互,展现Wan-2.2-5B模型在中文生成与理解方面的性能,适合快速体验国产大模型能力。

体验链接:

https://www.modelscope.cn/studios/Wan-AI/Wan-2.2-5B

 

AI视频魔法变身器

支持文本到视频、图像到视频等生成任务,用户可直观体验AI在视频创作、动态内容生成和视觉艺术转换等场景的应用,适合视频生成技术爱好者和开发者探索使用。

体验链接:

https://www.modelscope.cn/studios/wuyonghui0810/VIDEO-MAGIC-TRANSFORMER

 

04.社区精选文章

 

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐