混元开源又+1:视频音效可以自动生成了
AI生成的视频音效,已经可以用于视频制作了。
我们来重温一段《猫和老鼠》的名场面:
📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4
你能听出这个视频的音效全是 AI 生成的吗?
这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR,体验“听觉爽感”,解压效果直接拉满。
8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能为视频匹配电影级音效。
比如,输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”
就会得到一个声色俱佳的视频:
HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。
即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。
三大核心亮点,攻克视频音效生成难题
当前AI生成视频的能力越来越强,但视频音效生成仍然跟不上节奏,现有的音频生成技术主要面临三大痛点:
- 痛点一:泛化能力不足。现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。
- 痛点二:语义响应不均衡。音频严重依赖文本语义,忽略视频语义,导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音,完全忽略视频里的人群喧闹、海鸥鸣叫,最终生成的音频与场景脱节,影响观看体验。
- 痛点三:音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。
HunyuanVideo-Foley 通过针对性技术创新,全面破解上述痛点。
亮点一:泛化能力好
HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。
比如通过文本描述:“Splash of water and loud thud as person hits the surface.”得到下面这个视频:
文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.
文本描述:Creaking of old wooden windmill
文本描述:Electric guitar power chords ringing out loudly and resonating.
这种业内领先的文本-视频驱动音频(TV2A)生成能力,得益于腾讯混元构建的大规模高质量TV2A(文本-视频-音频)数据集。
为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。
亮点二:多模态语义均衡响应
针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。
得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。
例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应,避免了 “顾文失画” 的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。
文本描述:The sound of waves crashing.
亮点三:专业级音频保真度
研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。
无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。
文字描述:A car drives over the wet road
HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。
文字描述:Engine revving loudly and accelerating.
性能指标全面领先,助力创作者精品内容打造
在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。
在权威评测基准 MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley 的核心指标相对当前最先进的MMAudio模型实现显著提升:
- 音频质量指标 PQ(AudioBox-Aesthetics)从 6.17提升至 6.59
- 视觉语义对齐指标 IB 从 0.27 提升至 0.35
- 在时序对齐指标 DeSync上从 0.80 优化至 0.74,均达到当前 SOTA 水平
在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。
作为开源框架,HunyuanVideo-Foley 不仅为行业提供了可复用的技术范式,更将加速多模态 AI 在内容创作领域的落地,短视频创作者可一键生成场景化音效,电影团队能快速完成环境音设计,游戏开发者可高效构建沉浸式听觉体验。
附项目相关链接
- 体验地址: https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary
- 项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
- 代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
- 技术报告:https://arxiv.org/abs/2508.16930
- 模型地址: https://modelscope.cn/models/Tencent-Hunyuan/HunyuanVideo-Foley
点击链接, 即可跳转体验~
https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary
更多推荐
所有评论(0)