🧠 Mattimax/DATA-AI_Chat_4.1_0.5B

DATA-AI Chat 4.1 (0.5B) è un modello di linguaggio di tipo instruction-following fine-tuned sulla base di Qwen/Qwen2.5-0.5B-Instruct, specializzato per generazione, conversazione e risoluzione di compiti in lingua italiana.

È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.

📌 Modello di Partenza

Base model: Qwen/Qwen2.5-0.5B-Instruct
Architettura: Causal Language Model (decoder-only)
Parametri: 0.5 miliardi
Licenza originale: Qwen License

🎯 Obiettivo del Fine-tuning

Il fine-tuning ha mirato a:

Ottimizzare il comportamento instruction-following in italiano
Migliorare l’interazione in stile chatbot
Aumentare le performance in domande a scelta multipla e contenuti accademici
Integrare capacità generative con robustezza nei task di comprensione

🗂️ Dataset utilizzati

Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse. Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.

Dataset	Fonte	Tipo	Note
`Mattimax/DATA-AI_Conversation_ITA`	Conversazionale	Prompt + Risposta	Chat generative
`teelinsan/camoscio`	Instruction-based	Prompt + Risposta	Domande dirette
`efederici/alpaca-gpt4-it`	Instruction tuning	Prompt + Output	Tradotto da Alpaca
`s-conia/arc_italian` (ARC Challenge)	QA a scelta multipla	Tradotto	Task di ragionamento
`alexandrainst/m_mmlu` (`it`)	QA accademico	Tradotto	MMLU versione italiana

Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.

🌍 Lingue

Lingua di addestramento principale: 🇮🇹 Italiano

Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.

⚙️ Dettagli del Training

Parametro	Valore
Max sequence length	1024
Batch size effettivo	32 (2 per device x 16 grad. accum.)
Learning rate	2e-5
Max steps	5000
Validation split	5%
Precisione	BF16
Gradient checkpointing	✅ Abilitato

📄 Licenza

Il modello eredita la licenza del modello di partenza: Qwen License. Assicurati di rispettare i termini di utilizzo e distribuzione.

🚀 Come usare il modello

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))