hate_speech_model / README.md
tetianamohorian's picture
Update README.md
ef4743b verified
---
license: mit
datasets:
- TUKE-KEMT/hate_speech_slovak
language:
- sk
metrics:
- precision
- recall
- f1
base_model:
- TUKE-KEMT/slovak-t5-base
pipeline_tag: text-classification
library_name: transformers
tags:
- hate-speech
---
# Slovak Hate Speech Classifier 🇸🇰🛡️
Tento model je doladený na úlohu rozpoznávania nenávistnej reči v slovenskom jazyku,
vychádzajúc z architektúry [`SlovakT5-base`](https://huggingface.co/UKE-KEMT/slovak-t5-base).
---
## 📌 Základné informácie
- **Tréningové dáta:** [`TUKE-KEMT/hate_speech_slovak`](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak)
- **Jazyk:** Slovenský (sk)
- **Úloha:** Binárna klasifikácia nenávistnej reči (0 = neutrálne, 1 = nenávistné)
- **Prístup:** Few-shot + LoRA (PEFT)
- **Modelová architektúra:** T5
---
## 🧪 Výsledky (few-shot eval)
| Model | Precision | Recall | F1 Score |
|--------------------|-----------|--------|----------|
| SlovakT5-base | 0.6689 | 0.6082 | 0.6386 |
| SlovakT5-base LoRA | 0.7113 | 0.7859 | 0.7486 |
---
## 🛠️ Použitie
### ✅ Prompt štýl:
```
Text: "Nenávidím ťa a všetkých ako ty."
Obsahuje text nenávistnú reč?
```
### ❌ Výstupy:
- `Áno` → ak je toxický
- `Nie` → ak nie je
---
## 📦 Použitie v kóde (HuggingFace `transformers`)
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("tetianamohorian/hate_speech_model")
model = AutoModelForSeq2SeqLM.from_pretrained("tetianamohorian/hate_speech_model")
inputs = tokenizer('Text: "Nenávidím ťa.\nObsahuje text nenávistnú reč?"', return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # Áno
```
---
## 🧠 Tréning
- Použitá knižnica: `peft`, `transformers`
- Adaptácia: LoRA (`r=8`, `alpha=16`)
- Tréningová konfigurácia: 3 epochy, batch size 16, learning rate 5e-5
---
## 📜 Licencia
MIT
---
## 💬 Kontakt / autor
Model vytvorený ako súčasť bakalárskej práce na TUKE, 2025.
Kontakt: [GitHub](https://github.com/tetianamohorian)