大模型相关🔥

2025/9/30 pythonAILLM大模型

Sglang 部署模型

# 清华源:https://pypi.tuna.tsinghua.edu.cn/simple

# 豆瓣源:http://pypi.douban.com/simple

# 阿里源:http://mirrors.aliyun.com/pypi/simple/

# 安装 sglang
pip install "sglang[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
1
2
3
4
5
6
7
8
# 下载 Qwen2.5-0.5B-Instruct 模型
from huggingface_hub import snapshot_download

# 下载整个模型到本地目录
snapshot_download(
    repo_id="Qwen/Qwen3-4B-Instruct-2507",
    local_dir="./Qwen3-4B-Instruct-2507",
    resume_download=True,   # 断点续传
    local_dir_use_symlinks=False,
    cache_dir="./hf_cache",
    repo_type="model"
)
# 如果你在中国大陆/Colab 里,建议替换 镜像地址: export HF_ENDPOINT=https://hf-mirror.com

# 或者使用 ModelScope 下载
from modelscope import snapshot_download
model_dir = snapshot_download("Qwen/Qwen2.5-0.5B-Instruct-GGUF", local_dir='../models/Qwen2.5-0.5B-Instruct-GGUF')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 单个GPU 启动示例
## 环境变量统一用 export 设置
export CUDA_VISIBLE_DEVICES=1        # 指定使用 GPU 1
export TORCH_CUDA_ARCH_LIST="8.0"      # 只编译 A100 需要的算力架构

python -m sglang.launch_server \
    --model-path ./Qwen2.5-0.5B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16
1
2
3
4
5
6
7
8
9
10
# 多GPU 启动示例
## 环境变量统一用 export 设置
export CUDA_VISIBLE_DEVICES=1,2        # 指定使用 GPU 1 和 2
export TORCH_CUDA_ARCH_LIST="8.0"      # 只编译 A100 需要的算力架构

python -m sglang.launch_server \
    --model-path ./Qwen2.5-0.5B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --tensor-parallel-size 2
1
2
3
4
5
6
7
8
9
10
11
# SGLang 多模型部署方案对比

SGLang 支持多模型部署,根据模型大小和显存占用,可以选择不同方案。下面给出三种主要部署模式的对比。

| 部署方式 | 特点 | 优点 | 缺点 | 适用场景 |
|----------|------|------|------|----------|
| **单实例多模型** | 同一个 SGLang 服务实例加载多个模型,通过请求参数切换模型 | 统一端口访问;管理简单 | 显存占用高时无法同时加载所有模型;动态 load/unload 增加延迟 | 模型较小、显存充足、希望统一端口管理 |
| **多实例部署** | 每个模型启动一个独立 SGLang 实例,占用不同 GPU 或张量并行分配多卡 | 模型独立,显存互不干扰;稳定性高;可为每个模型单独优化参数 | 端口数量多;GPU 分配需规划 | 模型较大、显存占用高、需要高稳定性 |
| **混合部署** | 大模型使用单实例动态 load/unload,小模型独立部署实例;可通过 API 网关统一接口 | 灵活管理不同大小模型;兼顾稳定性与显存优化;对外统一接口 | 部署复杂度较高;需额外 API 网关或路由服务 | 多模型混合场景,大模型显存高,小模型数量多 |

---

### 💡 推荐实践
- 大模型(如 Qwen-2.5B/7B)建议 **单独实例****动态 load/unload**  
- 小模型(如微调模型或量化模型)可以 **统一部署在同一实例**  
- 使用 **API 网关****反向代理** 对外提供统一接口,方便管理和访问  
- 注意 GPU 显存分配,避免多个实例争用同一显卡  

---
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
    等一分钟 Wait One Minute
    徐誉滕