Phpcool
/

DeepSeek-R1-Distill-SRE-Qwen-32B-INT8

+# DeepSeek-R1-Distill-SRE-Qwen-32B-INT8
+## 模型简介
+`DeepSeek-R1-Distill-SRE-Qwen-32B-INT8` 是一个基于 `DeepSeek-R1-Distill-Qwen-32B` 模型进一步微调的专业化混合精度的 8-bit 量化大语言模型，专为 **DevOps** 与 **站点可靠性工程（SRE）** 场景优化。该模型继承了 DeepSeek-R1 系列强大的推理能力，通过使用 [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM) 数据集进行领域微调，显著提升了在以下任务中的实用性：
+- 自动化脚本生成
+- 系统监控分析
+- 故障排查与根因定位
+该模型适用于企业级系统管理、云原生运维平台开发等场景，为智能运维领域提供了兼顾性能与成本的高效解决方案。当前版本采用 8-bit 量化（INT8），通过 `bitsandbytes` 实现混合精度优化，线性层权重存储为 `torch.int8`，其他部分（如 Embeddings 和 LayerNorm）保持 `torch.float16`。
+我们欢迎社区用户测试并分享使用经验，共同完善模型文档和应用场景！
+---
+## 模型文件和权重
+- **模型文件**:
+  模型权重以 huggingface 支持的标准格式存储（如 `.safetensors` 或 `.bin`），位于此仓库的根目录。
+  示例文件结构：
+  ```
+  ├── config.json
+  ├── model.safetensors
+  ├── tokenizer.json
+  └── ...
+  ```
+- **量化信息**:
+  该模型采用 8-bit 量化（INT8），线性层权重为 `torch.int8`，非量化部分（如 Embeddings、LayerNorm）为 `torch.float16`，通过 `bitsandbytes` 实现混合精度优化。
+---
+## 如何使用模型进行推理
+本模型支持高效推理，已验证兼容 `vLLM` 和 `SGLang` 框架，以下提供SGLang使用示例(推荐)。
+---
+### 1. 使用 SGLang 进行推理
+`SGLang` 是一个高性能服务框架，适合复杂运维任务的快速推理。
+#### 环境准备
+```bash
+pip install sglang
+```
+#### 启动 SGLang 服务
+```bash
+python -m sglang.launch_server --model-path [你的用户名]/DeepSeek-R1-Distill-SRE-Qwen-32B-INT8 --quant bitsandbytes --port 30000
+```
+#### Python 推理示例
+```python
+import openai
+client = openai.Client(
+    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
+# Chat completion
+response = client.chat.completions.create(
+    model="default",
+    messages=[
+        {"role": "system", "content": "你是一位资深运维专家"},
+        {"role": "user", "content": "分析以下日志并定位可能的故障原因：'2023-10-10 12:00:00 ERROR: Disk I/O timeout'。"},
+    ],
+    temperature=0,
+    max_tokens=2048,
+)
+print(response.choices[0].message.content)
+```
+---
+## 模型细节
+- **基础模型**: `DeepSeek-R1-Distill-Qwen-32B`
+- **微调数据集**: [ahmedgongi/Devops_LLM](https://huggingface.co/datasets/ahmedgongi/Devops_LLM)
+- **量化**: 8-bit INT8（线性层权重），FP16（Embeddings、LayerNorm 等）
+- **兼容框架**: `bitsandbytes`、`vLLM`、`SGLang`
+- **推荐硬件**: NVIDIA GPU（支持 CUDA），推荐建议 48GB*2+ VRAM 以加载完整模型
+---
+## 使用场景
+- **自动化运维**: 生成脚本、配置管理。
+- **系统监控**: 分析指标、生成告警规则。
+- **故障排查**: 日志解析、根因分析。
+该模型在 SRE 和 DevOps 场景中表现出色，尤其适合需要快速响应和资源优化的企业级应用。
+---
+## 社区贡献
+由于当前文档信息有限，我们鼓励社区参与：
+- 在 huggingface 中的【community】提出问题、使用案例或改进建议。
+- 提交 Pull Request 以补充模型细节、优化推理代码或分享运维相关的 Prompt 示例。
+感谢你的使用与支持！如果有任何问题，请随时联系，微信：yorkoliu。
+---