distilbert-review_classification
Este modelo es una variante de DistilBERT entrenada para la clasificación de reseñas de Amazon en español. Está basado en distilbert-base-multilingual y ha sido afinado para predecir calificaciones de estrellas (1-5) a partir del texto de la reseña.
Modelo
Arquitectura base: DistilBERT (distilbert-base-multilingual)
Tarea: Clasificación de texto (5 clases)
Idioma: Español
Caso de uso: Análisis de sentimiento y clasificación de reseñas
Rendimiento
El modelo fue evaluado en un conjunto de datos balanceado con 1000 muestras para cada clase (calificación de 1 a 5 estrellas):
| Métrica | Valor | 
|---|---|
| Exactitud (Accuracy) | 0.5808 | 
| F1 Score (macro promedio) | 0.58158 | 
| Precisión (macro promedio) | 0.58303 | 
| Recall (macro promedio) | 0.5808 | 
Rendimiento por clase
| Clase | Precisión | Recall | F1 Score | Soporte | 
|---|---|---|---|---|
| 1 ⭐ | 0.72069 | 0.707 | 0.71378 | 1000 | 
| 2 ⭐ | 0.50409 | 0.554 | 0.52787 | 1000 | 
| 3 ⭐ | 0.48916 | 0.474 | 0.48146 | 1000 | 
| 4 ⭐ | 0.51613 | 0.512 | 0.51406 | 1000 | 
| 5 ⭐ | 0.68509 | 0.657 | 0.67075 | 1000 | 
Detalles de entrenamiento
- Epochs: 1
- Pasos de entrenamiento: 50,000
- Tiempo de entrenamiento: ~8.2 horas (29,486 segundos)
- Loss final: 0.9721
Uso
from transformers import pipeline
# Crear el pipeline de clasificación
clasificador = pipeline(
    "text-classification",
    model="polodealvarado/distilbert-review_classification",
    tokenizer="polodealvarado/distilbert-review_classification",
    top_k=1,  # Solo la clase más probable
)
# Texto de entrada
texto = "Este producto superó mis expectativas, lo recomiendo totalmente."
# Realizar predicción
output = clasificador(texto)
# Extraer la clase predicha (por ejemplo, 'LABEL_0', 'LABEL_1', ...)
etiqueta = output[0][0]["label"]
indice = int(etiqueta.replace("LABEL_", ""))  # 'LABEL_0' → 0
estrellas_predichas = indice + 1
print(f"Predicción: {estrellas_predichas} estrellas")
Limitaciones
- El modelo fue entrenado con datos de reseñas de Amazon, por lo que puede tener un rendimiento reducido en otros dominios.
- El rendimiento es más alto para reseñas claramente positivas (5 estrellas) o claramente negativas (1 estrella), mientras que las clasificaciones intermedias (2-4 estrellas) muestran un rendimiento más modesto.
- Downloads last month
- 13
Dataset used to train polodealvarado/distilbert-review_classification
Evaluation results
- accuracy on amazon_reviews_multi (español)self-reported0.581
- f1 on amazon_reviews_multi (español)self-reported0.582
