LLM Course

0. Configurare

1. Modele Transformer

2. Folosirea 🤗 Transformers

3. Fine-tuning unui model preantrenat

4. Partajarea modelelor și a tokenizatoarelor

5. Biblioteca 🤗 Datasets

6. Biblioteca 🤗 Tokenizers

Introducere Antrenarea unui nou tokenizer dintr-unul vechi Superputerile tokenizerilor rapizi Tokenizerii rapizi în pipeline-ul de QA Normalizare și pre-tokenizare Tokenizare Byte-Pair Encoding Tokenizare WordPiece Tokenizare Unigram Construirea unui tokenizer, bloc cu bloc Tokenizeri, verificare!Quiz de sfârșit de capitol

7. Sarcini clasice NLP

8. Cum să ceri ajutor

9. Construirea și partajarea demo-urilor

10. Curățați seturi de date de înaltă calitate

11. Fine-tuning pentru modele mari de limbaj

12. Construiește Modele de Raționament new

Evenimente Curs

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Quiz de sfârșit de capitol

Hai să testăm ceea ce ai învățat în acest capitol!

1. Când ar trebui să antrenezi un nou tokenizer?

2. Care este avantajul utilizării unui generator de liste de texte în comparație cu o listă de liste de texte atunci când utilizați train_new_from_iterator() ?

3. Care sunt avantajele utilizării unui tokenizer “rapid”?

4. Cum tratează pipelineul token-classification entitățile care se întind pe mai mulți tokeni?

5. Cum gestionează pipelineul question-answering contextele lungi?

6. Ce este normalizarea?

7. Ce este pre-tokenizarea pentru un subword tokenizer?

8. Selectați propozițiile care se aplică modelului de tokenizare BPE.

BPE este un algoritm de tokenizare a subcuvintelor care începe cu un vocabular mic și învață reguli de merge. BPE este un algoritm de tokenizare a subcuvintelor care începe cu un vocabular mare și elimină progresiv tokenii din acesta. Tokenizerele BPE învață regulile de merge prin mergeul perechii de tokeni care este cea mai frecventă. Un tokenizer BPE învață o regulă de merge prin mergeul perechii de tokeni care maximizează un scor care privilegiază perechile frecvente cu părți individuale mai puțin frecvente. BPE tokenizează cuvintele în subcuvinte prin divizarea lor în caractere și apoi prin aplicarea regulilor de merge. BPE tokenizează cuvintele în subcuvinte prin găsirea celui mai lung subcuvânt de la început care se află în vocabular, apoi repetă procesul pentru restul textului.

9. Selectați propozițiile care se aplică modelului de tokenizare WordPiece.

WordPiece este un algoritm de tokenizare a subcuvintelor care începe cu un vocabular mic și învață reguli de merge. WordPiece este un algoritm de tokenizare a subcuvintelor care începe cu un vocabular mare și elimină progresiv tokenii din acesta. Tokenizerele WordPiece învață regulile de merge prin mergeul perechii de tokeni care este cea mai frecventă. Un tokenizer WordPiece învață o regulă de merge prin mergeul perechii de tokeni care maximizează un scor care privilegiază perechile frecvente cu părți individuale mai puțin frecvente. WordPiece tokenizează cuvintele în subcuvinte prin găsirea celei mai probabile segmentări în tokeni, în conformitate cu modelul. WordPiece tokenizează cuvintele în subcuvinte prin găsirea celui mai lung subcuvânt de la început care se află în vocabular, apoi repetă procesul pentru restul textului.

10. Selectați propozițiile care se aplică modelului de tokenizare Unigram.

Update on GitHub

←Tokenizeri, verificare!