🧠 Mattimax/DATA-AI_Chat_4.1_0.5B
DATA-AI Chat 4.1 (0.5B) è un modello di linguaggio di tipo instruction-following fine-tuned sulla base di Qwen/Qwen2.5-0.5B-Instruct, specializzato per generazione, conversazione e risoluzione di compiti in lingua italiana.
È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.
📌 Modello di Partenza
- Base model: 
Qwen/Qwen2.5-0.5B-Instruct - Architettura: Causal Language Model (decoder-only)
 - Parametri: 0.5 miliardi
 - Licenza originale: Qwen License
 
🎯 Obiettivo del Fine-tuning
Il fine-tuning ha mirato a:
- Ottimizzare il comportamento instruction-following in italiano
 - Migliorare l’interazione in stile chatbot
 - Aumentare le performance in domande a scelta multipla e contenuti accademici
 - Integrare capacità generative con robustezza nei task di comprensione
 
🗂️ Dataset utilizzati
Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse. Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.
| Dataset | Fonte | Tipo | Note | 
|---|---|---|---|
Mattimax/DATA-AI_Conversation_ITA | 
Conversazionale | Prompt + Risposta | Chat generative | 
teelinsan/camoscio | 
Instruction-based | Prompt + Risposta | Domande dirette | 
efederici/alpaca-gpt4-it | 
Instruction tuning | Prompt + Output | Tradotto da Alpaca | 
s-conia/arc_italian (ARC Challenge) | 
QA a scelta multipla | Tradotto | Task di ragionamento | 
alexandrainst/m_mmlu (it) | 
QA accademico | Tradotto | MMLU versione italiana | 
Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.
🌍 Lingue
- Lingua di addestramento principale: 🇮🇹 Italiano
 
Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.
⚙️ Dettagli del Training
| Parametro | Valore | 
|---|---|
| Max sequence length | 1024 | 
| Batch size effettivo | 32 (2 per device x 16 grad. accum.) | 
| Learning rate | 2e-5 | 
| Max steps | 5000 | 
| Validation split | 5% | 
| Precisione | BF16 | 
| Gradient checkpointing | ✅ Abilitato | 
📄 Licenza
Il modello eredita la licenza del modello di partenza: Qwen License. Assicurati di rispettare i termini di utilizzo e distribuzione.
🚀 Come usare il modello
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📊 Valutazione qualitativa
Durante il fine-tuning, il modello ha dimostrato:
- Migliore coerenza nelle risposte lunghe
 - Comprensione semantica di prompt complessi
 - Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano)
 - Fluidità e naturalezza nei contesti di chat
 
Benchmark quantitativi estesi possono essere eseguiti successivamente.
👤 Autore e contatti
Fine-tuning eseguito da Mattimax 📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face.
- Downloads last month
 - 3