一文彻底搞定从0到1手把手教你部署Qwen3大模型

本文提供了在Autodl平台部署Qwen3-8B大模型的详细教程。首先需租用4090GPU服务器，配置Python3.12和CUDA12.4环境。教程包含五个步骤：1)安装Python基础环境；2)通过modelscope下载模型文件；3)安装Transformers和accelerate框架；4)下载项目Demo文件；5)运行Python脚本调用大模型。重点介绍了如何通过终端命令安装依赖库、下载

亵渎了神灵

1650人浏览 · 2025-08-12 17:34:53

亵渎了神灵 · 2025-08-12 17:34:53 发布

都是自己的操作截图，手把手教学，零基础也20分钟可以部署Qwen3大模型！！！

如果对您有帮助请点个赞，谢谢。

本次使用 Autodl 服务器，租用一张 4090 GPU，配置基础镜像 CUDA 12.4，部署 Qwen3 8B 模型

环境搭建选择本地或者服务器均可，新手尝试可使用 Autodl 平台服务器，相较于阿里云，腾讯云费用较低，缺点是端口开放有限制。

一、Python基础环境

浏览器搜索“Autodl”，登录后点击“算力市场”，选择一张4090GPU

尽量选择版本较新的 Cuda 环境，例如这里使用 PyTorch -> 2.5.1 ->3.12Python ->12.4CUDA ，（4090暂不支持更高版本的CUDA）

二、下载模型文件

1.点击"JupyterLab"进入控制台界面，点击新建“终端”

2.下载 modelscope 模块

pip install modelscope

3.下载Qwen3 模型文件

modelscope download --model Qwen/Qwen3-8B --local_dir ./autodl-tmp/Qwen/Qwen3-8B

三、下载Transformers和accelerrate

1.下载Transformers框架

pip install transformers

2.下载accelerrate模块

pip install accelerate

四、下载项目Demo

1.开启学术加速

source /etc/network_turbo

2.下载Git文件

cd autodl-tmp

git clone https://github.com/QwenLM/Qwen3.git

3.关闭学术加速

unset http_proxy && unset https_proxy

五、使用大模型

1.进入Qwen3 demo目录（刚刚Git下载的文件）

cd Qwen3

2.新建Python脚本

3.复制下面代码到Python脚本

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "/root/autodl-tmp/Qwen/Qwen3-8B"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "介绍一下怎么在Autodl平台租用4090显卡部署Qwen3 -8B大模型"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)