Slovak Hate Speech Classifier 🇸🇰🛡️
Tento model je doladený na úlohu rozpoznávania nenávistnej reči v slovenskom jazyku,
vychádzajúc z architektúry SlovakT5-base
.
📌 Základné informácie
- Tréningové dáta:
TUKE-KEMT/hate_speech_slovak
- Jazyk: Slovenský (sk)
- Úloha: Binárna klasifikácia nenávistnej reči (0 = neutrálne, 1 = nenávistné)
- Prístup: Few-shot + LoRA (PEFT)
- Modelová architektúra: T5
🧪 Výsledky (few-shot eval)
Model | Precision | Recall | F1 Score |
---|---|---|---|
SlovakT5-base | 0.6689 | 0.6082 | 0.6386 |
SlovakT5-base LoRA | 0.7113 | 0.7859 | 0.7486 |
🛠️ Použitie
✅ Prompt štýl:
Text: "Nenávidím ťa a všetkých ako ty."
Obsahuje text nenávistnú reč?
❌ Výstupy:
Áno
→ ak je toxickýNie
→ ak nie je
📦 Použitie v kóde (HuggingFace transformers
)
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("tetianamohorian/hate_speech_model")
model = AutoModelForSeq2SeqLM.from_pretrained("tetianamohorian/hate_speech_model")
inputs = tokenizer('Text: "Nenávidím ťa.\nObsahuje text nenávistnú reč?"', return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # Áno
🧠 Tréning
- Použitá knižnica:
peft
,transformers
- Adaptácia: LoRA (
r=8
,alpha=16
) - Tréningová konfigurácia: 3 epochy, batch size 16, learning rate 5e-5
📜 Licencia
MIT
💬 Kontakt / autor
Model vytvorený ako súčasť bakalárskej práce na TUKE, 2025.
Kontakt: GitHub
- Downloads last month
- 4
Model tree for tetianamohorian/hate_speech_model
Base model
TUKE-KEMT/slovak-t5-base