魔搭社区模型速递（7.26-8.2）

魔搭ModelScope社区

87人浏览 · 2025-08-04 13:29:59

魔搭ModelScope社区 · 2025-08-04 13:29:59 发布

🙋魔搭ModelScope本期社区进展：

📟1498个模型：GLM-4.5系列、Qwen3-30B-A3B系列、wan2.2系列、Qwen3-Coder-30B-A3B-Instruct、FLUX.1 Krea dev、step3等；

📁130个数据集：agibot_world_beta、Atlas-Think-Cot-12M、chempile-paper-100m、ScreenSpot-v2等；

🎨85个创新应用：GLM-4.5-Demo、通义万相2.2-TI2V-5B demo、AI视频魔法变身器等；

📄 7 篇内容：

黑森林开源Flux.1 Krea Dev！魔搭AIGC专区Day1支持，提供生图与训练定制
阶跃星辰开源！ Step 3 ：最新一代基础大模型，多模推理，极致效率
从支撑英伟达GR00T到登陆魔搭社区，智元AgiBot World打通具身智能全球数据生态
Qwen3-30B-A3B新版本发布，更轻更好用，提升指令遵循与长上下文理解能力！
智谱发布新一代旗舰模型 GLM-4.5，面向推理、代码与智能体的开源SOTA模型
直播预告 | ROLL: 高效且用户友好的大模型RL训练框架
通义万相2.2开源！可一键生成电影感视频

01.模型推荐

GLM-4.5系列

GLM-4.5 系列模型是智谱最新开源发布的专为智能体设计的基础模型，拥有 3550 亿总参数量，其中 320 亿活跃参数；GLM-4.5-Air 采用更紧凑的设计，拥有 1060 亿总参数量，其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力，以满足智能体应用的复杂需求。GLM-4.5 和 GLM-4.5-Air 都是混合推理模型，提供两种模式：用于复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。

研究团队已开源了 GLM-4.5 和 GLM-4.5-Air 的基础模型、混合推理模型以及混合推理模型的FP8版本。它们采用MIT开源许可证发布，可用于商业用途和二次开发。在研究团队对12项行业标准基准的全面评估中，GLM-4.5表现卓越，得分 63.2，在所有专有和开源模型中排名第3 。值得注意的是，GLM-4.5-Air在保持优异效率的同时，仍取得了 59.8 的竞争性成绩。

模型链接：

GLM-4.5：

https://modelscope.cn/models/ZhipuAI/GLM-4.5

GLM-4.5-Air：

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air

GLM-4.5-FP8：

https://modelscope.cn/models/ZhipuAI/GLM-4.5-FP8

GLM-4.5-Air-FP8：

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air-FP8

GLM-4.5-Base：

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Base

GLM-4.5-Air-Base：

https://modelscope.cn/models/ZhipuAI/GLM-4.5-Air-Base

示例代码：

详情参考智谱发布新一代旗舰模型 GLM-4.5，面向推理、代码与智能体的开源SOTA模型！

wan2.2系列

通义万相团队正式开源推出Wan2.2，这是Wan系列视频生成模型家族的最新成员。最新的Wan2.2模型是业界首个使用MoE架构的视频生成基础模型，两个专家模型分别关注生成视频的整体布局和画面细节的完善，在同参数规模下，可节省约50%的计算资源消耗。Wan2.2模型首创「电影级美学控制系统」，将‘光影密码’、‘构图法则’、‘色彩心理学’编码成了这60多个直观的参数，将光影、色彩、镜头语言装进生成模型，实现电影级质感视频生成。

此次共开源三个版本的模型：

文生视频：Wan2.2-T2V-A14B
图生视频：Wan2.2-I2V-A14B
统一视频生成：Wan2.2-TI2V-5B

模型合集：

https://modelscope.cn/collections/tongyiwanxiang-22--shipinshengcheng-2bb5b1adef2840

示例代码：

使用GitHub官方代码，以Wan2.2-TI2V-5B模型为例


# 1、安装代码
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

# 2、安装依赖
# Ensure torch >= 2.4.0
pip install -r requirements.txt

# 3、下载模型
pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-T2V-A14B

# 4、运行脚本
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

显存占用：

图生视频I2V-A14B和文生视频T2V-A14B模型需要80G显存。统一视频生成TI2V-5B只需要22G显存，可在魔搭notebook的免费资源推理。

更多详情请见教程

通义万相2.2开源！可一键生成电影感视频

Step3系列

阶跃星辰开源最新一代基础大模型 Step 3 ，MoE架构的多模态模型，参数量321B，激活参数32B，重点解决多模态协同、系统解码成本与推理效率问题，实现了资源利用与推理效率的平衡，在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench （2024.08-2025.05）等评测集上对 Step 3 进行了测试，在同类型开源模型中，Step 3 成绩行业领先。

Step 3通过 MFA（Multi-matrix Factorization Attention） & AFD（Attention-FFN Disaggregation）的优化，在各类芯片上推理效率均大幅提升。面向 AFD 场景的 StepMesh 通信库已随模型一同开源，提供可跨硬件的标准部署接口，支持关键性能在实际服务中的稳定复现。

模型链接：

https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8

示例代码

使用transformers推理，官方建议使用 python=3.10, torch>=2.1.0 和 transformers=4.54.0 作为开发环境，目前仅支持 bf16 推理，默认情况下支持图像预处理的多补丁

from modelscope import AutoProcessor, AutoModelForCausalLM
key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_downsampler": "model.vit_downsampler",
    "vit_downsampler2": "model.vit_downsampler2",
    "vit_large_projector": "model.vit_large_projector",
}
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, 
                device_map="auto", torch_dtype="auto",trust_remote_code=True, 
                key_mapping=key_mapping)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
print(decoded)

FLUX.1 Krea dev

FLUX.1 Krea dev是黑森林（Black Forest Labs，BFL）与Krea合作开发的先进开放权重模型，用于文本到图像生成。模型参数量12B, Rectified Flow Transformer架构，与 FLUX.1 [dev] 生态系统兼容，可作为灵活的基础模型。这个模型性能强劲，最大的特点是拥有独特的美感和非凡的真实感，在人类偏好评估上的表现优于以往的开源文本生图像模型，与 FLUX1.1 [pro] 等闭源解决方案不相上下。

模型链接：

https://www.modelscope.cn/models/black-forest-labs/FLUX.1-Krea-dev

示例代码：

安装：

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理：

from diffsynth.pipelines.flux_image_new import FluxImagePipeline, ModelConfig
pipe = FluxImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="black-forest-labs/FLUX.1-Krea-dev", origin_file_pattern="flux1-krea-dev.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder/model.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder_2/"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="ae.safetensors"),
    ],
)
image = pipe(prompt="a cat", seed=0)
image.save("image.jpg")

更多模型训练、应用教程详见

黑森林开源Flux.1 Krea Dev！魔搭AIGC专区Day1支持，提供生图与训练定制

Qwen3系列轻量专辑

通义千问Qwen团队宣布本周进入“Flash week”，针对最新开源的更新版本的通用模型、thinking模型、coder模型均推出了轻量版。

模型链接：

Qwen3-30B-A3B-Instruct-2507：

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Thinking-2507：

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

Qwen3-Coder-30B-A3B-Instruct：

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct-FP8：

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8

Qwen3-Coder-480B-A35B-Instruct-FP8：

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8

Qwen3-30B-A3B-Instruct-2507-FP8：

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

Qwen3-30B-A3B-Thinking-2507-FP8：

https://www.modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

Qwen3-235B-A22B-Thinking-2507-FP8

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

02.数据集推荐

agibot_world_beta

由智元机器人开源的agibot_world_beta数据集，涵盖超过1百万来自100个机器人的轨迹，总时长为2976.4小时，包括

100多个真实场景跨越5个目标领域；
尖端硬件：视觉触觉传感器 / 6自由度灵巧手 / 移动双臂机器人
200多种任务类型：、接触操控、长期规划、多机器人协作
87种原子技能，包括系、开罐、剥皮、清扫等。

数据集链接：

https://modelscope.cn/datasets/agibot_world/agibot_world_beta

Atlas-Think-Cot-12M

该数据集（Atlas-Think-Cot-12M）适用于训练和优化大语言模型在复杂推理任务中的思维链（Chain-of-Thought）能力，广泛应用于自然语言理解、逻辑推理、数学解题和多步骤问题求解等场景。

数据集链接：

https://www.modelscope.cn/datasets/prithivMLmods/Atlas-Think-Cot-12M

NuminaMath-LEAN

适用于训练和评估大模型在形式化数学推理与定理证明中的能力，特别适用于结合LEAN证明器的数学逻辑推理、形式化方法验证和高难度数学问题求解等场景。

数据集链接：

https://www.modelscope.cn/datasets/AI-MO/NuminaMath-LEAN

SynthChartNet

适用于训练和评估模型在合成图表理解与生成任务中的表现，广泛应用于图表信息提取、视觉问答、数据可视化理解和文档智能分析等场景。

数据集链接：

https://www.modelscope.cn/datasets/ds4sd/SynthChartNet

03.创空间

GLM-4.5-Demo

可模型进行对话、问答、创作、编程等多场景交互，直观感受GLM-4.5在语言理解、生成能力和任务推理等方面的强大性能，适用于AI爱好者、开发者和研究人员快速体验和探索大模型能力。

体验链接：

https://www.modelscope.cn/studios/ZhipuAI/GLM-4.5-Demo

通义万相2.2-TI2V-5B demo

支持对话、创作、问答等交互，展现Wan-2.2-5B模型在中文生成与理解方面的性能，适合快速体验国产大模型能力。

体验链接：

https://www.modelscope.cn/studios/Wan-AI/Wan-2.2-5B

AI视频魔法变身器

支持文本到视频、图像到视频等生成任务，用户可直观体验AI在视频创作、动态内容生成和视觉艺术转换等场景的应用，适合视频生成技术爱好者和开发者探索使用。

体验链接：

https://www.modelscope.cn/studios/wuyonghui0810/VIDEO-MAGIC-TRANSFORMER

04.社区精选文章

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

科大讯飞开源星火化学大模型、文生音效模型

ModelScope魔搭社区

腾讯自研 FastMTP 重磅开源：推理速度暴涨 203%，消费级显卡也能跑出无损速度翻倍！

ModelScope魔搭社区

LongCat-Flash-Thinking 正式发布，更强、更专业，保持极速！

近日，美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时，全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示，LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的最先进水平（SOTA）。