Phpcool commited on
Commit
3cee877
·
1 Parent(s): 4e28a75

commit from phpcool

Browse files
Files changed (1) hide show
  1. README.md +100 -0
README.md ADDED
@@ -0,0 +1,100 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
2
+
3
+ ## 模型简介
4
+
5
+ `DeepSeek-R1-Distill-SRE-Qwen-32B-INT8` 是一个基于 `DeepSeek-R1-Distill-Qwen-32B` 模型进一步微调的专业化混合精度的 8-bit 量化大语言模型,专为 **DevOps** 与 **站点可靠性工程(SRE)** 场景优化。该模型继承了 DeepSeek-R1 系列强大的推理能力,通过使用 [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM) 数据集进行领域微调,显著提升了在以下任务中的实用性:
6
+
7
+ - 自动化脚本生成
8
+ - 系统监控分析
9
+ - 故障排查与根因定位
10
+
11
+ 该模型适用于企业级系统管理、云原生运维平台开发等场景,为智能运维领域提供了兼顾性能与成本的高效解决方案。当前版本采用 8-bit 量化(INT8),通过 `bitsandbytes` 实现混合精度优化,线性层权重存储为 `torch.int8`,其他部分(如 Embeddings 和 LayerNorm)保持 `torch.float16`。
12
+
13
+ 我们欢迎社区用户测试并分享使用经验,共同完善模型文档和应用场景!
14
+
15
+ ---
16
+
17
+ ## 模型文件和权重
18
+
19
+ - **模型文件**:
20
+ 模型权重以 huggingface 支持的标准格式存储(如 `.safetensors` 或 `.bin`),位于此仓库的根目录。
21
+ 示例文件结构:
22
+ ```
23
+ ├── config.json
24
+ ├── model.safetensors
25
+ ├── tokenizer.json
26
+ └── ...
27
+ ```
28
+
29
+ - **量化信息**:
30
+ 该模型采用 8-bit 量化(INT8),线性层权重为 `torch.int8`,非量化部分(如 Embeddings、LayerNorm)为 `torch.float16`,通过 `bitsandbytes` 实现混合精度优化。
31
+
32
+ ---
33
+
34
+ ## 如何使用模型进行推理
35
+
36
+ 本模型支持高效推理,已验证兼容 `vLLM` 和 `SGLang` 框架,以下提供SGLang使用示例(推荐)。
37
+ ---
38
+
39
+ ### 1. 使用 SGLang 进行推理
40
+ `SGLang` 是一个高性能服务框架,适合复杂运维任务的快速推理。
41
+
42
+ #### 环境准备
43
+ ```bash
44
+ pip install sglang
45
+ ```
46
+
47
+ #### 启动 SGLang 服务
48
+ ```bash
49
+ python -m sglang.launch_server --model-path [你的用户名]/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8 --quant bitsandbytes --port 30000
50
+ ```
51
+
52
+ #### Python 推理示例
53
+ ```python
54
+ import openai
55
+ client = openai.Client(
56
+ base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
57
+ # Chat completion
58
+ response = client.chat.completions.create(
59
+ model="default",
60
+ messages=[
61
+ {"role": "system", "content": "你是一位资深运维专家"},
62
+ {"role": "user", "content": "分析以下日志并定位可能的故障原因:'2023-10-10 12:00:00 ERROR: Disk I/O timeout'。"},
63
+ ],
64
+ temperature=0,
65
+ max_tokens=2048,
66
+ )
67
+ print(response.choices[0].message.content)
68
+ ```
69
+
70
+ ---
71
+
72
+ ## 模型细节
73
+
74
+ - **基础模型**: `DeepSeek-R1-Distill-Qwen-32B`
75
+ - **微调数据集**: [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM)
76
+ - **量化**: 8-bit INT8(线性层权重),FP16(Embeddings、LayerNorm 等)
77
+ - **兼容框架**: `bitsandbytes`、`vLLM`、`SGLang`
78
+ - **推荐硬件**: NVIDIA GPU(支持 CUDA),推荐建议 48GB*2+ VRAM 以加载完整模型
79
+
80
+ ---
81
+
82
+ ## 使用场景
83
+
84
+ - **自动化运维**: 生成脚本、配置管理。
85
+ - **系统监控**: 分析指标、生成告警规则。
86
+ - **故障排查**: 日志解析、根因分析。
87
+
88
+ 该模型在 SRE 和 DevOps 场景中表现出色,尤其适合需要快速响应和资源优化的企业级应用。
89
+
90
+ ---
91
+
92
+ ## 社区贡献
93
+
94
+ 由于当前文档信息有限,我们鼓励社区参与:
95
+ - 在 huggingface 中的【community】提出问题、使用案例或改进建议。
96
+ - 提交 Pull Request 以补充模型细节、优化推理代码或分享运维相关的 Prompt 示例。
97
+
98
+ 感谢你的使用与支持!如果有任何问题,请随时联系,微信:yorkoliu。
99
+
100
+ ---