commit from phpcool
Browse files
README.md
ADDED
@@ -0,0 +1,100 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
|
2 |
+
|
3 |
+
## 模型简介
|
4 |
+
|
5 |
+
`DeepSeek-R1-Distill-SRE-Qwen-32B-INT8` 是一个基于 `DeepSeek-R1-Distill-Qwen-32B` 模型进一步微调的专业化混合精度的 8-bit 量化大语言模型,专为 **DevOps** 与 **站点可靠性工程(SRE)** 场景优化。该模型继承了 DeepSeek-R1 系列强大的推理能力,通过使用 [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM) 数据集进行领域微调,显著提升了在以下任务中的实用性:
|
6 |
+
|
7 |
+
- 自动化脚本生成
|
8 |
+
- 系统监控分析
|
9 |
+
- 故障排查与根因定位
|
10 |
+
|
11 |
+
该模型适用于企业级系统管理、云原生运维平台开发等场景,为智能运维领域提供了兼顾性能与成本的高效解决方案。当前版本采用 8-bit 量化(INT8),通过 `bitsandbytes` 实现混合精度优化,线性层权重存储为 `torch.int8`,其他部分(如 Embeddings 和 LayerNorm)保持 `torch.float16`。
|
12 |
+
|
13 |
+
我们欢迎社区用户测试并分享使用经验,共同完善模型文档和应用场景!
|
14 |
+
|
15 |
+
---
|
16 |
+
|
17 |
+
## 模型文件和权重
|
18 |
+
|
19 |
+
- **模型文件**:
|
20 |
+
模型权重以 huggingface 支持的标准格式存储(如 `.safetensors` 或 `.bin`),位于此仓库的根目录。
|
21 |
+
示例文件结构:
|
22 |
+
```
|
23 |
+
├── config.json
|
24 |
+
├── model.safetensors
|
25 |
+
├── tokenizer.json
|
26 |
+
└── ...
|
27 |
+
```
|
28 |
+
|
29 |
+
- **量化信息**:
|
30 |
+
该模型采用 8-bit 量化(INT8),线性层权重为 `torch.int8`,非量化部分(如 Embeddings、LayerNorm)为 `torch.float16`,通过 `bitsandbytes` 实现混合精度优化。
|
31 |
+
|
32 |
+
---
|
33 |
+
|
34 |
+
## 如何使用模型进行推理
|
35 |
+
|
36 |
+
本模型支持高效推理,已验证兼容 `vLLM` 和 `SGLang` 框架,以下提供SGLang使用示例(推荐)。
|
37 |
+
---
|
38 |
+
|
39 |
+
### 1. 使用 SGLang 进行推理
|
40 |
+
`SGLang` 是一个高性能服务框架,适合复杂运维任务的快速推理。
|
41 |
+
|
42 |
+
#### 环境准备
|
43 |
+
```bash
|
44 |
+
pip install sglang
|
45 |
+
```
|
46 |
+
|
47 |
+
#### 启动 SGLang 服务
|
48 |
+
```bash
|
49 |
+
python -m sglang.launch_server --model-path [你的用户名]/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8 --quant bitsandbytes --port 30000
|
50 |
+
```
|
51 |
+
|
52 |
+
#### Python 推理示例
|
53 |
+
```python
|
54 |
+
import openai
|
55 |
+
client = openai.Client(
|
56 |
+
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
|
57 |
+
# Chat completion
|
58 |
+
response = client.chat.completions.create(
|
59 |
+
model="default",
|
60 |
+
messages=[
|
61 |
+
{"role": "system", "content": "你是一位资深运维专家"},
|
62 |
+
{"role": "user", "content": "分析以下日志并定位可能的故障原因:'2023-10-10 12:00:00 ERROR: Disk I/O timeout'。"},
|
63 |
+
],
|
64 |
+
temperature=0,
|
65 |
+
max_tokens=2048,
|
66 |
+
)
|
67 |
+
print(response.choices[0].message.content)
|
68 |
+
```
|
69 |
+
|
70 |
+
---
|
71 |
+
|
72 |
+
## 模型细节
|
73 |
+
|
74 |
+
- **基础模型**: `DeepSeek-R1-Distill-Qwen-32B`
|
75 |
+
- **微调数据集**: [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM)
|
76 |
+
- **量化**: 8-bit INT8(线性层权重),FP16(Embeddings、LayerNorm 等)
|
77 |
+
- **兼容框架**: `bitsandbytes`、`vLLM`、`SGLang`
|
78 |
+
- **推荐硬件**: NVIDIA GPU(支持 CUDA),推荐建议 48GB*2+ VRAM 以加载完整模型
|
79 |
+
|
80 |
+
---
|
81 |
+
|
82 |
+
## 使用场景
|
83 |
+
|
84 |
+
- **自动化运维**: 生成脚本、配置管理。
|
85 |
+
- **系统监控**: 分析指标、生成告警规则。
|
86 |
+
- **故障排查**: 日志解析、根因分析。
|
87 |
+
|
88 |
+
该模型在 SRE 和 DevOps 场景中表现出色,尤其适合需要快速响应和资源优化的企业级应用。
|
89 |
+
|
90 |
+
---
|
91 |
+
|
92 |
+
## 社区贡献
|
93 |
+
|
94 |
+
由于当前文档信息有限,我们鼓励社区参与:
|
95 |
+
- 在 huggingface 中的【community】提出问题、使用案例或改进建议。
|
96 |
+
- 提交 Pull Request 以补充模型细节、优化推理代码或分享运维相关的 Prompt 示例。
|
97 |
+
|
98 |
+
感谢你的使用与支持!如果有任何问题,请随时联系,微信:yorkoliu。
|
99 |
+
|
100 |
+
---
|