lgris
/

portuguese-accent-classifier

accent-classification

Model card Files Files and versions

Metrics Training metrics Community

lgris commited on Aug 30

Commit

040fe03

·

verified ·

1 Parent(s): 1d5a757

Update README.md

Files changed (1) hide show

README.md +1 -3

README.md CHANGED Viewed

@@ -48,14 +48,12 @@ O modelo foi treinado usando fine-tuning a partir do [`lgris/w2v_podcasts_base_4
 O modelo foi treinado utilizando uma combinação balanceada de três datasets públicos principais:
 ### 1. CORAA (Corpus of Annotated Audios)
-- **Descrição**: Corpus brasileiro de áudios anotados com foco em português brasileiro
-- **Contribuição**: Dados de português brasileiro (pt_br)
 - **Processamento**: Scripts utilizados para extração e balanceamento dos dados
 ### 2. CML-TTS Portuguese
 - **Dataset**: [`freds0/BRSpeech-TTS`](https://huggingface.co/datasets/freds0/BRSpeech-TTS)
 - **Descrição**: Dataset brasileiro para síntese de fala
-- **Contribuição**: Dados adicionais de português brasileiro (pt_br)
 - **Características**: Áudios de alta qualidade com transcrições
 ### 3. Mozilla Common Voice 17.0

 O modelo foi treinado utilizando uma combinação balanceada de três datasets públicos principais:
 ### 1. CORAA (Corpus of Annotated Audios)
+- **Descrição**: Corpus brasileiro de áudios anotados com foco em português brasileiro. **Foi utilizado apenas o subset do TED, que contém amostras em português brasileiro e europeu.**
 - **Processamento**: Scripts utilizados para extração e balanceamento dos dados
 ### 2. CML-TTS Portuguese
 - **Dataset**: [`freds0/BRSpeech-TTS`](https://huggingface.co/datasets/freds0/BRSpeech-TTS)
 - **Descrição**: Dataset brasileiro para síntese de fala
 - **Características**: Áudios de alta qualidade com transcrições
 ### 3. Mozilla Common Voice 17.0