Update README.md
Browse files
README.md
CHANGED
|
@@ -48,14 +48,12 @@ O modelo foi treinado usando fine-tuning a partir do [`lgris/w2v_podcasts_base_4
|
|
| 48 |
O modelo foi treinado utilizando uma combinação balanceada de três datasets públicos principais:
|
| 49 |
|
| 50 |
### 1. CORAA (Corpus of Annotated Audios)
|
| 51 |
-
- **Descrição**: Corpus brasileiro de áudios anotados com foco em português brasileiro
|
| 52 |
-
- **Contribuição**: Dados de português brasileiro (pt_br)
|
| 53 |
- **Processamento**: Scripts utilizados para extração e balanceamento dos dados
|
| 54 |
|
| 55 |
### 2. CML-TTS Portuguese
|
| 56 |
- **Dataset**: [`freds0/BRSpeech-TTS`](https://huggingface.co/datasets/freds0/BRSpeech-TTS)
|
| 57 |
- **Descrição**: Dataset brasileiro para síntese de fala
|
| 58 |
-
- **Contribuição**: Dados adicionais de português brasileiro (pt_br)
|
| 59 |
- **Características**: Áudios de alta qualidade com transcrições
|
| 60 |
|
| 61 |
### 3. Mozilla Common Voice 17.0
|
|
|
|
| 48 |
O modelo foi treinado utilizando uma combinação balanceada de três datasets públicos principais:
|
| 49 |
|
| 50 |
### 1. CORAA (Corpus of Annotated Audios)
|
| 51 |
+
- **Descrição**: Corpus brasileiro de áudios anotados com foco em português brasileiro. **Foi utilizado apenas o subset do TED, que contém amostras em português brasileiro e europeu.**
|
|
|
|
| 52 |
- **Processamento**: Scripts utilizados para extração e balanceamento dos dados
|
| 53 |
|
| 54 |
### 2. CML-TTS Portuguese
|
| 55 |
- **Dataset**: [`freds0/BRSpeech-TTS`](https://huggingface.co/datasets/freds0/BRSpeech-TTS)
|
| 56 |
- **Descrição**: Dataset brasileiro para síntese de fala
|
|
|
|
| 57 |
- **Características**: Áudios de alta qualidade com transcrições
|
| 58 |
|
| 59 |
### 3. Mozilla Common Voice 17.0
|