大模型相关🔥

Jack Zheng 2025/9/30 pythonAILLM大模型

Sglang 部署模型

# 清华源：https://pypi.tuna.tsinghua.edu.cn/simple

# 豆瓣源：http://pypi.douban.com/simple

# 阿里源：http://mirrors.aliyun.com/pypi/simple/

# 安装 sglang
pip install "sglang[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple

1
2
3
4
5
6
7
8

# 下载 Qwen2.5-0.5B-Instruct 模型
from huggingface_hub import snapshot_download

# 下载整个模型到本地目录
snapshot_download(
    repo_id="Qwen/Qwen3-4B-Instruct-2507",
    local_dir="./Qwen3-4B-Instruct-2507",
    resume_download=True,   # 断点续传
    local_dir_use_symlinks=False,
    cache_dir="./hf_cache",
    repo_type="model"
)
# 如果你在中国大陆/Colab 里，建议替换 镜像地址： export HF_ENDPOINT=https://hf-mirror.com

# 或者使用 ModelScope 下载
from modelscope import snapshot_download
model_dir = snapshot_download("Qwen/Qwen2.5-0.5B-Instruct-GGUF", local_dir='../models/Qwen2.5-0.5B-Instruct-GGUF')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

# 单个GPU 启动示例
## 环境变量统一用 export 设置
export CUDA_VISIBLE_DEVICES=1        # 指定使用 GPU 1
export TORCH_CUDA_ARCH_LIST="8.0"      # 只编译 A100 需要的算力架构

python -m sglang.launch_server \
    --model-path ./Qwen2.5-0.5B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16

1
2
3
4
5
6
7
8
9
10

# 多GPU 启动示例
## 环境变量统一用 export 设置
export CUDA_VISIBLE_DEVICES=1,2        # 指定使用 GPU 1 和 2
export TORCH_CUDA_ARCH_LIST="8.0"      # 只编译 A100 需要的算力架构

python -m sglang.launch_server \
    --model-path ./Qwen2.5-0.5B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --tensor-parallel-size 2

1
2
3
4
5
6
7
8
9
10
11

# SGLang 多模型部署方案对比

SGLang 支持多模型部署，根据模型大小和显存占用，可以选择不同方案。下面给出三种主要部署模式的对比。

| 部署方式 | 特点 | 优点 | 缺点 | 适用场景 |
|----------|------|------|------|----------|
| **单实例多模型** | 同一个 SGLang 服务实例加载多个模型，通过请求参数切换模型 | 统一端口访问；管理简单 | 显存占用高时无法同时加载所有模型；动态 load/unload 增加延迟 | 模型较小、显存充足、希望统一端口管理 |
| **多实例部署** | 每个模型启动一个独立 SGLang 实例，占用不同 GPU 或张量并行分配多卡 | 模型独立，显存互不干扰；稳定性高；可为每个模型单独优化参数 | 端口数量多；GPU 分配需规划 | 模型较大、显存占用高、需要高稳定性 |
| **混合部署** | 大模型使用单实例动态 load/unload，小模型独立部署实例；可通过 API 网关统一接口 | 灵活管理不同大小模型；兼顾稳定性与显存优化；对外统一接口 | 部署复杂度较高；需额外 API 网关或路由服务 | 多模型混合场景，大模型显存高，小模型数量多 |

---

### 💡 推荐实践
- 大模型（如 Qwen-2.5B/7B）建议 **单独实例** 或 **动态 load/unload**  
- 小模型（如微调模型或量化模型）可以 **统一部署在同一实例**  
- 使用 **API 网关** 或 **反向代理** 对外提供统一接口，方便管理和访问  
- 注意 GPU 显存分配，避免多个实例争用同一显卡  

---

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Jack Zheng的博客

Choose mode

大模型相关🔥

大模型相关🔥