登录社区云,与社区用户共同成长
邀请您加入社区
近期,阶跃星辰发布了全球首个开源 LLM 级音频编辑大模型 —— Step-Audio-EditX。 该模型能够通过语言指令或迭代方式,精准控制音频的情感、说话风格和副语言特征,并实现 零样本文本转语音(Zero-Shot TTS)。 不同于以往依赖多模块拼接的方案,Step-Audio-EditX 采用统一的 LLM 框架,让“文字驱动音频创作”真正变为现实。 开源信息 开源协议:Apache
在大语言模型训练领域,Megatron以其卓越的训练效率和先进的并行技术而备受瞩目。然而,其高性能背后的技术复杂性——依赖环境难安装、权重格式需转换、参数配置复杂,让众多研究者和工程师望而却步。 为破解这一困境,魔搭社区先后推出了Megatron-SWIFT和Mcore-Bridge两大利器:支持通过命令行一键启动、基于safetensors模型权重直接训练、无需手动权重转换,让Megatron
自今年4月份ChatPPT发布了MCP服务版,不仅陆续在百度千帆、阿里百炼、腾讯云、火山等云平台作为首批特邀服务上线,还同包括华为小艺、oppo等端侧平台接入使用,累计上线平台超过20+,目前接入开发者/企业超过300+。 今天,我们联合国内头部开源模型社区--魔搭ModelScope,正式发布ChatPPT MCP2.0,即云端智能体服务版 01功能矩阵,重磅体验 此处为语雀视频卡片,点击链接
前一段时间 Qwen3 发布了,它支持动态推理,而且其小参数量模型也取得了相当优秀的成绩。恰巧参与华为的活动,有昇腾910B3的算力时长资助,这就拿来试试水。 所用环境 昇腾 910B3(64GB 显存) 昇腾开发包(ascend-toolkit) 8.2.RC1.alpha002 Python 3.10.14 mindspore 2.7.0mindnlp 0.5.0llamafactory 0.
超长序列的训练一直在大模型训练中是一个重要的方向。在实际推理过程中,尤其是Agent链路中,模型对长序列、复杂场景的泛化性代表着模型在实际应用时的可信度。长序列的场景,对于大模型训练也提出了更高的需求。由于Attention计算的O(N²)复杂度特性,使实际输入序列在增长时,显存使用会呈现指数型爆炸。这对于显存不宽裕的卡型,在长序列训练练场景中的可用性,提出了巨大的挑战。 序列并行(Sequen
8月28日,腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley,通过多模态扩散技术实现电影级音效自动生成,彻底改变传统视频创作中"画面易成,音效难配"的行业痛点。## 行业现状:AI视频生成的"无声"困境2025年全球音频AI工具市场规模已达12.58亿美元,预计2031年将突破26亿美元,年复合增长率11%。然而当前AI视频创作链中,音效生成仍存在三大行业痛点:专...
阿里云通义千问团队推出的Qwen-Image模型,以200亿参数规模实现复杂中英文文本渲染与精准图像编辑的双重突破,为中文内容创作提供专业级AI工具支持。## 行业现状:中文生成的技术突围2025年全球AI图像生成器市场规模已达110.36亿美元,预计2031年将突破458亿美元,年复合增长率26.8%。在这一快速增长的赛道中,中文文本渲染长期是行业痛点——传统模型中文生成准确率普遍低于50...
# 阿里Wan2.2开源:MoE架构重构视频生成,消费级显卡实现电影级创作## 导语阿里云通义万相团队7月28日正式开源Wan2.2视频生成模型,首次将混合专家(MoE)架构引入扩散模型,在消费级显卡上实现720P@24fps高清视频生成,重新定义开源视频生成技术标准。## 行业现状:视频生成的"三重困境"2025年AI视频生成市场正以20%的年复合增速扩张(据Fortune Busi...
你是否在为大模型部署成本高企而发愁?是否因上下文长度限制无法处理超长文档?阿里通义千问最新发布的Qwen3-30B-A3B模型,以305亿总参数、33亿激活参数的混合专家架构,实现了性能超越72B模型、成本降低60%的突破。本文将揭秘其技术创新、应用案例与部署指南,帮你快速落地企业级AI能力。读完本文你将获得:- 理解MoE架构如何实现"小参数大能力"的核心原理- 掌握长文本处理突破13万...
**导语**:阿里巴巴通义实验室2025年2月开源的Wan2.1-I2V-14B-720P模型,以140亿参数实现720P高清视频生成,性能超越Sora等闭源方案,同时将硬件门槛降至消费级GPU,彻底重构视频AIGC行业格局。## 行业困局:视频生成的"双轨制"鸿沟2025年的AI视频生成领域正陷入**"贵族化"与"草根化"的割裂**:OpenAI Sora虽能生成电影级1080P视频,但...