InclusioCheck - Detector de Lenguaje de Odio en Español

📋 Descripción del Modelo

InclusioCheck es un modelo de clasificación de texto fine-tuned desde BETO para detectar lenguaje de odio (hate speech) en textos en español.

🚀 Uso Rápido

from transformers import pipeline

# Cargar el clasificador
classifier = pipeline("text-classification", model="antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Predecir
resultado = classifier("Texto a analizar")
print(resultado)

💻 Uso Avanzado

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")
model = AutoModelForSequenceClassification.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Función de predicción
def predecir(texto):
    inputs = tokenizer(texto, return_tensors="pt", truncation=True, max_length=128)
    with torch.no_grad():
        outputs = model(**inputs)
    prediccion = outputs.logits.argmax(-1).item()
    probabilidad = torch.softmax(outputs.logits, dim=-1)[0][prediccion].item()
    
    label = "Hate Speech" if prediccion == 1 else "No Hate Speech"
    return {"label": label, "confidence": probabilidad}

# Ejemplo
print(predecir("Los inmigrantes son bienvenidos"))

📊 Métricas de Rendimiento

Métrica Valor
Accuracy 0.816
F1 Score 0.827
Precision 0.777
Recall 0.884

📚 Dataset de Entrenamiento

  • Fuente: Spanish Hate Speech Superset
  • Ejemplos de entrenamiento: 12,350
  • Ejemplos de test: 2,180
  • Clases: 2 (No Hate / Hate Speech)
  • Balanceo: Sí (undersampling de clase mayoritaria)

🎯 Casos de Uso

  • ✅ Moderación automática de contenido
  • ✅ Filtrado de comentarios en redes sociales
  • ✅ Auditoría de lenguaje inclusivo
  • ✅ Herramienta de apoyo para redacción

⚠️ Limitaciones

  • El modelo está entrenado específicamente para español
  • Puede tener sesgos inherentes al dataset de entrenamiento
  • Recomendado como herramienta de apoyo, no como única fuente de decisión
  • El contexto cultural y la intención deben considerarse en casos ambiguos

👤 Autoría

Antonio Dromundo.

Creado como parte del proyecto InclusioCheck para promover la detección de lenguaje excluyente.

De Mexico para el mundo

📄 Licencia

Apache 2.0

🔗 Enlaces

Downloads last month
18
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train antonn-dromundo/InclusioCheck-BETO-HateSpeech

Space using antonn-dromundo/InclusioCheck-BETO-HateSpeech 1