antonn-dromundo's picture
Update README.md
ab7c771 verified
metadata
language: es
license: apache-2.0
tags:
  - spanish
  - hate-speech-detection
  - text-classification
  - beto
  - inclusivity
datasets:
  - manueltonneau/spanish-hate-speech-superset
metrics:
  - accuracy
  - f1
  - precision
  - recall
widget:
  - text: Me encanta este país, la gente es muy amable
  - text: Todos los inmigrantes son delincuentes

InclusioCheck - Detector de Lenguaje de Odio en Español

📋 Descripción del Modelo

InclusioCheck es un modelo de clasificación de texto fine-tuned desde BETO para detectar lenguaje de odio (hate speech) en textos en español.

🚀 Uso Rápido

from transformers import pipeline

# Cargar el clasificador
classifier = pipeline("text-classification", model="antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Predecir
resultado = classifier("Texto a analizar")
print(resultado)

💻 Uso Avanzado

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")
model = AutoModelForSequenceClassification.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Función de predicción
def predecir(texto):
    inputs = tokenizer(texto, return_tensors="pt", truncation=True, max_length=128)
    with torch.no_grad():
        outputs = model(**inputs)
    prediccion = outputs.logits.argmax(-1).item()
    probabilidad = torch.softmax(outputs.logits, dim=-1)[0][prediccion].item()
    
    label = "Hate Speech" if prediccion == 1 else "No Hate Speech"
    return {"label": label, "confidence": probabilidad}

# Ejemplo
print(predecir("Los inmigrantes son bienvenidos"))

📊 Métricas de Rendimiento

Métrica Valor
Accuracy 0.816
F1 Score 0.827
Precision 0.777
Recall 0.884

📚 Dataset de Entrenamiento

  • Fuente: Spanish Hate Speech Superset
  • Ejemplos de entrenamiento: 12,350
  • Ejemplos de test: 2,180
  • Clases: 2 (No Hate / Hate Speech)
  • Balanceo: Sí (undersampling de clase mayoritaria)

🎯 Casos de Uso

  • ✅ Moderación automática de contenido
  • ✅ Filtrado de comentarios en redes sociales
  • ✅ Auditoría de lenguaje inclusivo
  • ✅ Herramienta de apoyo para redacción

⚠️ Limitaciones

  • El modelo está entrenado específicamente para español
  • Puede tener sesgos inherentes al dataset de entrenamiento
  • Recomendado como herramienta de apoyo, no como única fuente de decisión
  • El contexto cultural y la intención deben considerarse en casos ambiguos

👤 Autoría

Antonio Dromundo.

Creado como parte del proyecto InclusioCheck para promover la detección de lenguaje excluyente.

De Mexico para el mundo

📄 Licencia

Apache 2.0

🔗 Enlaces