🙋魔搭ModelScope本期社区进展:

📟3361个模型:Kimi-K2-Instruct-0905LongCat-Flash-Chat、HunyuanWorld-VoyagerStep-Audio-2-miniHunyuan-MT-7B

📁313个数据集:voicebench、arabic-audio-dataset、CENSUS-NER-Name-Email-Address-Phone等;

🎨73个创新应用荣耀GUI、MolScribe、VibeVoice等

📄 8篇内容:

  • Kimi K2 模型更新,带来更强的代码能力、更快的 API
  • 移动端MagicGUI开源:会使用手机APP的AI!支持中英双语
  • 腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游
  • 美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s
  • 魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!
  • 拿下30个第1名的腾讯混元翻译模型,开源!
  • 告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
  • 开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

 

01.模型推荐

Kimi-K2-Instruct-0905

Kimi K2-Instruct-0905 是 Kimi K2 的最新、最强大的版本。它是一个最先进的混合专家(MoE)语言模型,具有 320 亿激活参数和总共 1 万亿参数,主要特点:

  • 增强的智能代理编码能力:Kimi K2-Instruct-0905 在公共基准测试和实际编码代理任务中表现出显著的性能提升。
  • 改进的前端编码体验:Kimi K2-Instruct-0905 在前端编程的美观性和实用性方面都有所改进。
  • 扩展的上下文长度:Kimi K2-Instruct-0905 的上下文窗口从 128k 扩展到 256k 个标记,为长时任务提供了更好的支持。

 

模型链接:

https://modelscope.cn/models/moonshotai/Kimi-K2-Instruct-0905

 

使用说明:

开发者当前可通过魔搭免费API-Inference进行API试用
 

 

LongCat-Flash-Chat

美团开源的一个强大的高效语言模型,总参数量为 5600 亿,采用创新的专家混合(MoE)架构。该模型结合了动态计算机制,根据上下文需求激活 186 亿至 313 亿个参数(平均约 270 亿),从而优化了计算效率和性能。为了实现先进的训练和推理效率,我们采用了缩短连接架构,扩展了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理,全面训练和扩展策略确保了稳定高效的训练,而定制的数据策略增强了模型性能。
 

模型链接:

https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Chat
 

示例代码:

官方提供了分别基于 SGLang 和 vLLM 的两种高效部署方案,助您轻松部署、快速体验模型效果,以下为使用SGLang进行单机部署的示例:

SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server \    
  --model meituan-longcat/LongCat-Flash-Chat-FP8 \    
  --trust-remote-code \    
  --attention-backend flashinfer \    
  --enable-ep-moe \    
  --tp 8

其他更为详细的部署指导请参阅 LongCat-Flash-Chat 仓库:

https://github.com/meituan-longcat/LongCat-Flash-Chat
 

更多微调实战教程详见:

美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s

 

Hunyuan-MT-7B

腾讯混元带来一个在国际机器翻译比赛拿下30个第1名的翻译模型Hunyuan-MT-7B,它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型,具备以下核心特性与优势:

  • 在WMT25参赛的31种语言中,有30种语言获得了第一名的成绩;
  • Hunyuan-MT-7B在业界同尺寸模型中效果最优;
  • Hunyuan-MT-Chimera-7B是业界首个开源翻译集成模型,可以进一步提升翻译效果;
  • 提出了一个完整的翻译模型训练范式,从预训练->CPT->SFT->翻译强化->集成强化,翻译效果达到同尺寸SOTA。

 

模型链接:

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-MT-7B
 

示例代码:

使用 transformers 推理,需要安装最新版本的transformers,推荐v4.56.0

pip install transformers==4.56.0

推理代码

from modelscope import AutoModelForCausalLM, AutoTokenizer
import os
model_name_or_path = "Tencent-Hunyuan/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nGet something off your chest"},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
print(output_text)


 

Step-Audio-2-mini

阶跃星辰开源发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。它将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。
 

Step-Audio 2 mini 在多个关键基准测试中取得 SOTA 成绩,在音频理解、语音识别、翻译和对话场景中表现突出,综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型,并在大部分任务上超越 GPT-4o Audio。

 

模型链接:

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

 

HunyuanWorld-Voyager

腾讯混元于9月2日正式发布开源其3D世界模型系列最新成员——HunyuanWorld-Voyager(混元Voyager),这是业界首个支持原生3D重建的超长漫游世界模型。它突破传统视频生成在空间一致性与探索范围上的限制,可基于单张图像和自定义相机路径,生成世界一致的3D点云序列与长距离漫游视频,并支持直接导出为3D格式。模型具备“3D输入-3D输出”特性,与混元1.0高度兼容,可扩展漫游范围、提升复杂场景质量,并支持风格化编辑与多任务应用,如3D纹理生成、深度估计、场景重建等,全面赋能虚拟现实、游戏开发与物理仿真等领域。

在权威评测中,混元Voyager荣登斯坦福大学李飞飞团队发布的WorldScore世界模型排行榜综合能力榜首,超越所有现有开源方案,在视频生成与3D重建两大核心任务中均表现最优。

模型链接:

https://modelscope.cn/models/Tencent-Hunyuan/HunyuanWorld-Voyager

更多详情教程请见:

腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游

02.数据集推荐

Voicebench

VoiceBench 数据集主要用于评测基于大语言模型的语音助手在真实复杂语音场景下的综合表现,涵盖多说话人、多环境、多内容变化等维度。其应用场景包括语音助手鲁棒性测试、指令理解能力评估、安全性检测以及多模态语音交互系统研发。
 

数据集链接:

https://modelscope.cn/datasets/lmms-lab/voicebench

CENSUS-NER-Name-Email-Address-Phone

该数据集包含姓名、邮箱、地址、电话四类实体,专用于训练与评估中文敏感信息脱敏与命名实体识别模型。 适用于政务数据开放、客服记录清洗、隐私合规审计等场景,可一键识别并遮蔽公民关键个人信息。

数据集链接:

https://modelscope.cn/datasets/Josephgflowers/CENSUS-NER-Name-Email-Address-P


 

arabic-audio-dataset

Kratos-AI/arabic-audio-dataset 专为阿拉伯语语音识别、语音合成及方言适配设计,覆盖 10 大主流方言与 300+ 小时高清朗读语音。 可直接服务于中东与北非市场的智能语音助手、车载语音、教育评测、字幕自动生成等场景,帮助开发者快速落地阿拉伯语 AI 语音产品。


 

数据集链接:

https://modelscope.cn/datasets/Kratos-AI/arabic-audio-dataset

 

 

03.创空间

荣耀GUI

MagicGUI 是一个基于大模型的图形界面生成工具,用户只需输入一句话,即可快速生成可交互的图形界面,适用于原型设计、应用开发和教育演示等场景。
 

体验链接:

https://modelscope.cn/studios/FudanNLP/MagicGUI

 

MolScribe

MolScribe 是一个在线化学分子结构识别与生成工具,用户可通过手绘或文本输入快速生成分子结构图,适用于化学教学、科研绘图及药物设计等场景。

体验链接:

https://modelscope.cn/studios/studio-test/MolScribe

 

VibeVoice

VibeVoice 是即开即用的 AI 语音克隆与配音工作室,上传 10 秒原声即可复刻音色,秒级为视频、广告、播客生成多语种、多情绪的配音,适合内容创作者、跨境营销与无障碍语音需求。

体验链接:

https://modelscope.cn/studios/xmccln/VibeVoice

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐