InclusioCheck - Detector de Lenguaje de Odio en Español
📋 Descripción del Modelo
InclusioCheck es un modelo de clasificación de texto fine-tuned desde BETO para detectar lenguaje de odio (hate speech) en textos en español.
🚀 Uso Rápido
from transformers import pipeline
# Cargar el clasificador
classifier = pipeline("text-classification", model="antonn-dromundo/InclusioCheck-BETO-HateSpeech")
# Predecir
resultado = classifier("Texto a analizar")
print(resultado)
💻 Uso Avanzado
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")
model = AutoModelForSequenceClassification.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")
# Función de predicción
def predecir(texto):
inputs = tokenizer(texto, return_tensors="pt", truncation=True, max_length=128)
with torch.no_grad():
outputs = model(**inputs)
prediccion = outputs.logits.argmax(-1).item()
probabilidad = torch.softmax(outputs.logits, dim=-1)[0][prediccion].item()
label = "Hate Speech" if prediccion == 1 else "No Hate Speech"
return {"label": label, "confidence": probabilidad}
# Ejemplo
print(predecir("Los inmigrantes son bienvenidos"))
📊 Métricas de Rendimiento
| Métrica | Valor |
|---|---|
| Accuracy | 0.816 |
| F1 Score | 0.827 |
| Precision | 0.777 |
| Recall | 0.884 |
📚 Dataset de Entrenamiento
- Fuente: Spanish Hate Speech Superset
- Ejemplos de entrenamiento: 12,350
- Ejemplos de test: 2,180
- Clases: 2 (No Hate / Hate Speech)
- Balanceo: Sí (undersampling de clase mayoritaria)
🎯 Casos de Uso
- ✅ Moderación automática de contenido
- ✅ Filtrado de comentarios en redes sociales
- ✅ Auditoría de lenguaje inclusivo
- ✅ Herramienta de apoyo para redacción
⚠️ Limitaciones
- El modelo está entrenado específicamente para español
- Puede tener sesgos inherentes al dataset de entrenamiento
- Recomendado como herramienta de apoyo, no como única fuente de decisión
- El contexto cultural y la intención deben considerarse en casos ambiguos
👤 Autoría
Antonio Dromundo.
Creado como parte del proyecto InclusioCheck para promover la detección de lenguaje excluyente.
De Mexico para el mundo
📄 Licencia
Apache 2.0
🔗 Enlaces
- Downloads last month
- 18