Slovak Hate Speech Classifier 🇸🇰🛡️

Tento model je doladený na úlohu rozpoznávania nenávistnej reči v slovenskom jazyku, vychádzajúc z architektúry SlovakT5-base.


📌 Základné informácie

  • Tréningové dáta: TUKE-KEMT/hate_speech_slovak
  • Jazyk: Slovenský (sk)
  • Úloha: Binárna klasifikácia nenávistnej reči (0 = neutrálne, 1 = nenávistné)
  • Prístup: Few-shot + LoRA (PEFT)
  • Modelová architektúra: T5

🧪 Výsledky (few-shot eval)

Model Precision Recall F1 Score
SlovakT5-base 0.6689 0.6082 0.6386
SlovakT5-base LoRA 0.7113 0.7859 0.7486

🛠️ Použitie

✅ Prompt štýl:

Text: "Nenávidím ťa a všetkých ako ty."
Obsahuje text nenávistnú reč?

❌ Výstupy:

  • Áno → ak je toxický
  • Nie → ak nie je

📦 Použitie v kóde (HuggingFace transformers)

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("tetianamohorian/hate_speech_model")
model = AutoModelForSeq2SeqLM.from_pretrained("tetianamohorian/hate_speech_model")

inputs = tokenizer('Text: "Nenávidím ťa.\nObsahuje text nenávistnú reč?"', return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))  # Áno

🧠 Tréning

  • Použitá knižnica: peft, transformers
  • Adaptácia: LoRA (r=8, alpha=16)
  • Tréningová konfigurácia: 3 epochy, batch size 16, learning rate 5e-5

📜 Licencia

MIT


💬 Kontakt / autor

Model vytvorený ako súčasť bakalárskej práce na TUKE, 2025.
Kontakt: GitHub

Downloads last month
4
Safetensors
Model size
60.8M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tetianamohorian/hate_speech_model

Finetuned
(1)
this model

Dataset used to train tetianamohorian/hate_speech_model