LLM Course documentation
Tokenizadores, listo!
0. Setup
1. Modelos de Transformadores
2. Usando Transformers 🤗
3. Ajuste (fine-tuning) de un modelo preentrenado
5. La librería 🤗 Datasets
6. La librería 🤗 Tokenizers
IntroducciónEntrenar un nuevo tokenizador a partir de uno existenteLos poderes especiales de los Tokenizadores Rápidos (Fast tokenizers)Tokenizadores Rápidos en un Pipeline de Question-AnsweringNormalización y pre-tokenizaciónTokenización por Codificación Byte-PairTokenización WordPieceTokenización UnigramConstruir un tokenizador, bloque por bloqueTokenizadores, listo!Quiz de final de capítulo
8. ¿Cómo solicitar ayuda?
Glosario
Tokenizadores, listo!
Gran trabajo terminando este capítulo!
Luego de esta profundizacion en los tokenizadores, deberías:
- Ser capaz de entrenar un nuevo tokenizador usando un existente como plantilla
- Entender como usar los offsets para mapear las posiciones de los tokens a sus trozos de texto original
- Conocer las diferencias entre BPE, WordPiece y Unigram
- Ser capaz de mezclar y combinar los bloques provistos por la librería 🤗 Tokenizers para construir tu propio tokenizador
- Ser capaz de usar el tokenizador dentro de la librería 🤗 Transformers.