Qwen3-0.6B实战笔记：从安装到输出结果全过程

本文介绍了基于星图GPU平台自动化部署Qwen3-0.6B镜像的完整实践流程。通过该平台可快速搭建GPU环境，结合LangChain与ms-swift框架实现模型微调，显著提升信息抽取任务准确率至98%。典型应用于物流地址结构化解析等轻量级AI推理场景，支持高效部署为RESTful API服务。

侯昂

573人浏览 · 2026-01-20 04:40:31

侯昂 · 2026-01-20 04:40:31 发布

Qwen3-0.6B实战笔记：从安装到输出结果全过程

1. 环境准备与镜像启动

1.1 启动Qwen3-0.6B镜像并进入Jupyter环境

在使用Qwen3-0.6B模型前，首先需要正确配置运行环境。推荐通过GPU云服务器实例部署该模型，以确保推理效率和稳定性。

建议选择预装NVIDIA GPU驱动的Ubuntu镜像（如Ubuntu 22.04 + NVIDIA驱动550.90.07），避免手动安装CUDA、cuDNN等复杂依赖。创建实例时可选用ecs.gn7i-c8g1.2xlarge或更高规格的GPU机型，并分配至少50GiB ESSD云盘用于存储模型文件。

完成实例创建后，通过Workbench远程连接登录服务器，在终端执行以下命令进入工作目录：

cd /root

随后启动Jupyter Notebook服务，可通过浏览器访问指定端口进行交互式开发调试。

2. 使用LangChain调用Qwen3-0.6B模型

2.1 配置LangChain接口参数

LangChain为大语言模型集成提供了统一抽象层，便于快速接入不同模型。以下是基于langchain_openai模块调用Qwen3-0.6B的具体实现方式。

from langchain_openai import ChatOpenAI
import os

chat_model = ChatOpenAI(
    model="Qwen-0.6B",
    temperature=0.5,
    base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1",  # 替换为实际Jupyter服务地址，注意端口8000
    api_key="EMPTY",  # 当前环境无需认证
    extra_body={
        "enable_thinking": True,
        "return_reasoning": True,
    },
    streaming=True,
)

关键参数说明：

base_url：指向本地部署的vLLM或FastChat后端服务地址。

api_key="EMPTY"：表示不启用API密钥验证。

extra_body中启用思维链（CoT）功能，提升复杂任务推理能力。

streaming=True：开启流式输出，降低响应延迟。

2.2 执行模型推理请求

调用invoke()方法发送用户输入并获取回复：

response = chat_model.invoke("你是谁？")
print(response.content)

预期输出将包含模型自我介绍信息，例如：“我是通义千问系列中的小型版本Qwen3-0.6B，适用于轻量级自然语言处理任务。”

3. 模型微调全流程实践

3.1 数据准备：构建SFT训练集

高质量监督微调（Supervised Fine-Tuning, SFT）数据是提升小模型性能的关键。本案例目标是从非结构化文本中提取结构化物流信息（省、市、区、详细地址、姓名、电话）。

原始数据格式示例如下：

长沙市岳麓区桃花岭路189号润丰园B座1202室 | 电话021-17613435 | 联系人江雨桐

期望输出JSON格式：

{
  "province": "湖南省",
  "city": "长沙市",
  "district": "岳麓区",
  "specific_location": "桃花岭路189号润丰园B座1202室",
  "name": "江雨桐",
  "phone": "021-17613435"
}

由于真实业务数据涉及隐私，可采用“模型蒸馏”策略：利用Qwen3-235B-A22B作为教师模型生成标注数据。执行以下命令下载已准备好的训练集：

cd /root && \
curl -f -o train.jsonl "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250610/azvmpb/train_with_system.jsonl"

每条样本遵循对话格式：

{
  "messages": [
    {
      "role": "system",
      "content": "你是一个专业的信息抽取助手..."
    },
    {
      "role": "user",
      "content": "原始地址字符串"
    },
    {
      "role": "assistant",
      "content": "{\"province\": \"...\"}"
    }
  ]
}

3.2 安装微调框架ms-swift

为简化微调流程，采用魔搭社区提供的ms-swift工具包，支持一键完成模型下载、LoRA微调、权重合并等操作。

安装必要依赖：

pip3 install vllm==0.9.0.1 ms-swift==3.5.0

该过程约耗时5分钟，完成后即可开始微调任务。

3.3 执行LoRA微调脚本

运行以下命令自动执行完整微调流程：

cd /root && \
curl -f -o sft.sh "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250623/cggwpz/sft.sh" && \
bash sft.sh

sft.sh核心配置如下：

swift sft \
  --model Qwen/Qwen3-0.6B \
  --train_type lora \
  --dataset 'train.jsonl' \
  --torch_dtype bfloat16 \
  --num_train_epochs 10 \
  --per_device_train_batch_size 20 \
  --learning_rate 1e-4 \
  --lora_rank 8 \
  --lora_alpha 32 \
  --target_modules all-linear \
  --gradient_accumulation_steps 16 \
  --max_length 2048 \
  --output_dir output \
  --warmup_ratio 0.05

参数解析：

--train_type lora：使用低秩适配（LoRA）进行高效微调。

--lora_rank 8：控制新增参数维度，平衡表达力与过拟合风险。

--num_train_epochs 10：训练轮次，需结合损失曲线判断是否收敛。

--gradient_accumulation_steps 16：累积梯度以模拟更大批量。

微调成功后将在output/目录生成checkpoint，并自动执行权重合并，最终模型路径形如output/checkpoint-50-merged。

4. 效果验证与评估

4.1 准备独立测试集

为客观评估泛化能力，应使用未参与训练的新样本进行测试。下载测试数据集：

cd /root && \
curl -o test.jsonl "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250610/mhxmdw/test_with_system.jsonl"

测试集同样采用标准JSONL格式，每行一条对话记录。

4.2 编写评测逻辑

定义函数比较预测结果与真实标签的一致性：

def compare_address_info(actual_address_str, predicted_address_str):
    """比较两个JSON字符串表示的地址信息是否相同"""
    try:
        actual_json = json.loads(actual_address_str) if actual_address_str else {}
        pred_json = json.loads(predicted_address_str) if predicted_address_str else {}
        is_same = actual_json == pred_json
        
        return {
            "is_same": is_same,
            "actual_parsed": actual_json,
            "predicted_parsed": pred_json,
            "error": None
        }
    except json.JSONDecodeError as e:
        return {"is_same": False, "error": f"JSON解析错误: {str(e)}"}
    except Exception as e:
        return {"is_same": False, "error": f"其他错误: {str(e)}"}

4.3 对比微调前后性能差异

基线模型表现（未微调）

使用优化后的系统提示词对原始Qwen3-0.6B进行测试：

你是一个专业的信息抽取助手...
请严格按照JSON格式输出...

执行评测脚本：

bash evaluate_without_sft.sh

结果表明准确率仅为 14%（400条样本中仅56条正确），说明零样本推理能力有限。

微调后模型表现

对合并后的模型重新评估：

bash evaluate.sh

即使使用更简洁的提示词：

“你是一个专业的信息抽取助手，专门负责从中文文本中提取收件人的JSON信息…”

微调模型准确率达到 98%（392/400），显著优于基线。

5. 部署为API服务

5.1 使用vLLM部署高性能推理服务

将微调后的模型发布为RESTful API，供业务系统调用：

curl -o deploy.sh "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250613/hbojjv/deploy.sh" && \
bash deploy.sh

部署成功后输出提示：

API密钥: sk-xxx
服务地址: http://0.0.0.0:8000
日志查看: tail -f vllm.log

安全建议：若需公网访问，请在ECS安全组中开放8000端口，并限制源IP范围。

5.2 调用API示例

Python客户端

from openai import OpenAI
from pydantic import BaseModel

class Labels(BaseModel):
    province: str
    city: str
    district: str
    specific_location: str
    name: str
    phone: str

JSON_SCHEMA = Labels.model_json_schema()

def main(user_message: str):
    client = OpenAI(
        api_key="sk-xxx",
        base_url="http://xx.xx.xx.xx:8000/v1",  # 替换为公网IP
    )

    completion = client.chat.completions.create(
        model="Qwen3-0.6B-SFT",
        messages=[
            {"role": "system", "content": "你是一个专业的信息抽取助手..."},
            {"role": "user", "content": user_message},
        ],
        extra_body={
            "chat_template_kwargs": {"enable_thinking": False},
            "guided_json": JSON_SCHEMA,
        },
    )
    print(completion.choices[0].message.content)

if __name__ == "__main__":
    main("号码021-3439592西宁市城东区昆仑东路289号海湖新区万新广场3号楼18层索南扎西")

curl调用方式

curl -X POST http://xx.xx.xx.xx:8000/v1/chat/completions \
  -H "Authorization: Bearer sk-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3-0.6B-SFT",
    "messages": [
      {"role": "system", "content": "你是一个专业的信息抽取助手..."},
      {"role": "user", "content": "原始输入文本"}
    ],
    "guided_json": {...}  # JSON Schema定义
  }'