--- license: apache-2.0 language: - en - de - es - fr - it - pt - pl - nl - tr - sv - cs - el - hu - ro - fi - uk - sl - sk - da - lt - lv - et - bg - 'no' - ca - hr - ga - mt - gl - zh - ru - ko - ja - ar - hi library_name: mlx pipeline_tag: text-generation tags: - mlx --- # Modelo Zion 1.0 - **Developed by:** Next AI Solutions. - **Model type:** 9B transfomer LLM. ### Model Description O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão: - Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante. - Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido. - Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante. - Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto. Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo: | | | |--------------------------------------|----------------------| | Comprimento da Sequência | 4.096 | | Número de Camadas | 42 | | Tamanho de Incorporação | 4.096 | | Tamanho Oculto FFN | 12.288 | | Número de Cabeças | 32 | | Número de Cabeças KV (GQA) | 8 | | Função de Ativação | SwiGLU | | Codificações de Posição | RoPE (\Theta=10.000) | | Norma da Camada | RMSNorm | | Incorporações Amarradas | Não | | Parâmetros de Incorporação | 0,524B | | Parâmetros da Cabeça LM | 0,524B | | Parâmetros Não Incorporantes | 8,105B | | Parâmetros Totais | 9,154B |