魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

魔搭ModelScope社区

530人浏览 · 2026-02-24 13:31:29

魔搭ModelScope社区 · 2026-02-24 13:31:29 发布

继魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战后，紧锣密鼓安排上Qwen3-ASR 的实战教程。

Qwen3-ASR 系列模型也是通义千问团队在春节前发布的音频理解方向最新成果，包含 1.7B 和 0.6B 两个版本。作为 Qwen 语音家族的最新成员，它在多语言识别和处理复杂声学环境方面展现了卓越的性能。

开源资源：

Qwen3-ASR官方仓库: https://github.com/QwenLM/Qwen3-ASR
魔搭社区地址：https://modelscope.cn/collections/Qwen/Qwen3-ASR
OpenVINO™官方文档: https://docs.openvino.ai/
Notebooks: https://modelscope.cn/gallery/Cherrytest/31572716-e08a-47b8-bf58-e3f81dd63f41
Qwen3-ASR技术论文: https://modelscope.cn/papers/2601.21337

模型特性

All-in-one（全能型）：支持52 种语言和方言的语种识别（LID）与自动语音识别（ASR），包括 30 种语言、22 种中国方言以及来自多个国家和地区的英语口音。

Excellent and Fast（卓越且高效）：在复杂声学环境和挑战性文本模式下保持高鲁棒性。1.7B 版本在开源 ASR 模型中达到了 SOTA 水平；而 0.6B 版本在保证精度的同时，在 128 并发下实现了2000 倍吞吐量，支持流式与离线统一推理及长音频转写。
核心优势：利用大规模语音训练数据和 Qwen3-Omni 基础模型的强大音频理解能力，在多项公开和内部基准测试中表现强劲。

模型部署实战

魔搭社区和 Intel® OpenVINO™ 工具套件合作，通过原生转换方式在 Intel 平台上实现 Qwen3-ASR 的极致加速。

第一步：环境准备

为了确保与 Qwen3-ASR 架构兼容，我们需要安装特定版本的依赖库并克隆官方仓库。

# 1. 基础环境安装（要求 OpenVINO >= 2025.4）
pip install "openvino>=2025.4.0"
pip install "gradio>=4.0"
pip install qwen-asr
# 2. 克隆并安装 Qwen3-ASR 官方代码库
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
cd ..
# 3. 安装OpenVINO相关依赖
!git clone https://github.com/openvino-dev-samples/openvino_notebooks.git
%cd openvino_notebooks
!git checkout 69b0f57

第二步：模型下载与转换

OpenVINO™ IR (Intermediate Representation)是OpenVINO™的中间表示格式,针对推理进行了深度优化。Qwen3-ASR模型包含4个子模块,需要分别转换:

1. Audio Conv Model (openvino_thinker_audio_model.xml): 音频特征提取的Conv2D前端

2. Audio Encoder Model (openvino_thinker_audio_encoder_model.xml): Transformer编码器层

3. Embedding Model (openvino_thinker_embedding_model.xml): 文本token嵌入层

4. Language Model (openvino_thinker_language_model.xml): 主LLM解码器,支持KV-cache

模型下载

下载命令：

modelscope download --model Qwen/Qwen3-ASR-0.6B

使用OpenVINO提供的helper函数进行转换:

from pathlib import Path
from qwen_3_asr_helper import convert_qwen3_asr_model
# 配置参数
model_id = "Your_PATH/Qwen3-ASR-0.6B"
model_name = model_id.split("/")[-1]
ov_model_dir = Path(f"{model_name}-OV")
# 执行转换：将 PyTorch 模型导出为 OpenVINO IR 格式
# 如果需要量化，可以在 quantization_config 中配置 NNCF 参数
print(f"🚀 正在转换 Qwen3-ASR 模型...")
convert_qwen3_asr_model(
    model_id=model_id,
    output_dir=ov_model_dir,
    quantization_config=None 
)
print(f"✅ 转换完成，模型保存至: {ov_model_dir}")

也可以将model_id通过以下方式替换成原始模型的本地路径进行转换：

convert_qwen3_asr_model(
    model_id=local_model_dir,
    output_dir=ov_model_dir,
    quantization_config=None, # 可选：设置 NNCF 配置进行 INT8 量化
    use_local_dir=True,# 可选：设置使用本地模型
)

第三步：模型部署与推理

在部署阶段，使用 OVQwen3ASRModel 加载转换后的组件。该类封装了 OpenVINO™ 推理引擎，并针对 Intel 硬件（如 CPU/GPU/NPU）进行了优化。

1. 基础推理示例

from qwen_3_asr_helper import OVQwen3ASRModel
# 1. 初始化 OpenVINO 模型
device = "CPU" # 可改为 "GPU"
ov_model = OVQwen3ASRModel.from_pretrained(
    model_dir=str(ov_model_dir),
    device=device,
    max_inference_batch_size=32
)
# 2. 准备音频推理
# 官方示例音频：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav
audio_path = "asr_en.wav" 
print("🎙️ 正在进行语音识别...")
results = ov_model.transcribe(
    audio=audio_path,
    language=None # 自动检测语种
)
# 3. 输出结果
print(f"【检测语种】: {results[0].language}")
print(f"【识别文本】: {results[0].text}")

输出示例:

Detected Language: English Transcription: Oh yeah, yeah, he wasn't that bad when I started listening to him. But his solo music didn't do overly well, but he did very well when started writing for other people.

2. 搭建交互式 Demo

借助 OpenVINO™ Notebooks 提供的辅助工具，几行代码即可启动一个支持声音克隆功能的 Web 界面。

from gradio_helper import make_demo
# 创建并启动 Gradio 演示界面
demo = make_demo(ov_model, example_dir=None)
demo.launch()

通过 OpenVINO™ 的原生转换方案，成功地在 Intel 平台上部署了最新的 Qwen3-ASR 模型。这种方式不仅保留了官方模型的完整能力，更通过 OpenVINO™ 的图优化技术大幅提升了 0.6B 和 1.7B 模型的推理效率，为边缘侧的高性能语音应用提供了坚实基础。

点击即可跳转模型合集：

https://modelscope.cn/collections/Qwen/Qwen3-ASR

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

不用地图也能规划公交路线？| TransitLM：首个大规模端到端公交路线生成数据集与基准

ModelScope魔搭社区

96.33% 新SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

ModelScope魔搭社区

自变量开源Wall-OSS-0.5：预训练即可部署的具身智能大模型，17个零样本任务验证泛化能力

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献983条内容

魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战

魔搭ModelScope社区

所有评论(0)

温馨提示：您尚未绑定手机号

魔搭ModelScope社区