AI生成的视频音效,已经可以用于视频制作了。

我们来重温一段《猫和老鼠》的名场面:

📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4

你能听出这个视频的音效全是 AI 生成的吗?

这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR,体验“听觉爽感”,解压效果直接拉满。

📎video_with_audio_2 (1).mp4

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能视频匹配电影级音效

比如,输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”

就会得到一个声色俱佳的视频:

📎003.mp4

HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。
 

即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。


 

三大核心亮点,攻克视频音效生成难题

当前AI生成视频的能力越来越强,但视频音效生成仍然跟不上节奏,现有的音频生成技术主要面临三大痛点:

  • 痛点一:泛化能力不足。现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。
  • 痛点二:语义响应不均衡。音频严重依赖文本语义,忽略视频语义,导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音,完全忽略视频里的人群喧闹、海鸥鸣叫,最终生成的音频与场景脱节,影响观看体验。
  • 痛点三:音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。


 

HunyuanVideo-Foley 通过针对性技术创新,全面破解上述痛点。

亮点一:泛化能力好

HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。

比如通过文本描述:“Splash of water and loud thud as person hits the surface.”得到下面这个视频:

📎004.mp4

文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

📎005.mp4

文本描述:Creaking of old wooden windmill

📎006.mp4

文本描述:Electric guitar power chords ringing out loudly and resonating.

📎007.mp4

这种业内领先的文本-视频驱动音频(TV2A)生成能力,得益于腾讯混元构建的大规模高质量TV2A(文本-视频-音频)数据集。

为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

亮点二:多模态语义均衡响应

针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应,避免了 “顾文失画” 的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

📎008.mp4
 

亮点三:专业级音频保真度

研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。

文字描述:A car drives over the wet road

📎009.mp4

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:Engine revving loudly and accelerating.

📎010.mp4

性能指标全面领先,助力创作者精品内容打造

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

在权威评测基准 MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley 的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标 PQ(AudioBox-Aesthetics)从 6.17提升至 6.59
  • 视觉语义对齐指标 IB 从 0.27 提升至 0.35
  • 在时序对齐指标 DeSync上从 0.80 优化至 0.74,均达到当前 SOTA 水平


 

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

作为开源框架,HunyuanVideo-Foley 不仅为行业提供了可复用的技术范式,更将加速多模态 AI 在内容创作领域的落地,短视频创作者可一键生成场景化音效,电影团队能快速完成环境音设计,游戏开发者可高效构建沉浸式听觉体验。

📎011.mp4
 

附项目相关链接

  • 体验地址: https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary
  • 项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
  • 代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
  • 技术报告:https://arxiv.org/abs/2508.16930
  • 模型地址: https://modelscope.cn/models/Tencent-Hunyuan/HunyuanVideo-Foley


 

点击链接, 即可跳转体验~

https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐