Spaces:

Gopu-poss
/

unity-tinny-go-autotrain-advanced

Sleeping

App Files Files Community

Mauricio-100 commited on Nov 1

Commit

a84492b

verified ·

1 Parent(s): 86cf7d7

Update app.py

Browse files

Files changed (1) hide show

app.py +141 -70

app.py CHANGED Viewed

@@ -1,9 +1,7 @@
-# app.py - Vrai entraînement AutoTrain (Version corrigée)
 import gradio as gr
 import os
-import subprocess
-import threading
-from huggingface_hub import HfApi, login
 # Authentification avec le token du secret
 hf_token = os.environ.get("HF_TOKEN")
@@ -15,7 +13,7 @@ class RealTrainer:
         self.is_training = False
     def real_training(self, epochs, learning_rate, batch_size):
-        """Lance un VRAI entraînement"""
         if self.is_training:
             yield "❌ Un entraînement est déjà en cours!"
             return
@@ -56,21 +54,24 @@ class RealTrainer:
             output_lines.append(f"✅ Dataset chargé: {len(dataset['train'])} échantillons")
             yield "\n".join(output_lines)
-            # Étape 3: Préparation des données
-            output_lines.append("🔤 Préparation et tokenisation des données...")
             yield "\n".join(output_lines)
-            def prepare_text(examples):
                 texts = []
                 for i in range(len(examples['instruction'])):
                     instruction = examples['instruction'][i] or ""
                     input_text = examples['input'][i] or ""
                     output = examples['output'][i] or ""
-                    text = f"Instruction: {instruction}\nInput: {input_text}\nOutput: {output}"
                     texts.append(text)
                 return {"text": texts}
-            dataset = dataset.map(prepare_text, batched=True)
             def tokenize_function(examples):
                 return tokenizer(
@@ -78,7 +79,6 @@ class RealTrainer:
                     truncation=True,
                     padding=True,
                     max_length=512,
-                    return_tensors="pt"
                 )
             tokenized_dataset = dataset.map(
@@ -87,7 +87,7 @@ class RealTrainer:
                 remove_columns=dataset['train'].column_names
             )
-            output_lines.append("✅ Données préparées!")
             yield "\n".join(output_lines)
             # Étape 4: Configuration de l'entraînement
@@ -138,11 +138,12 @@ class RealTrainer:
             output_lines.append("📤 Push vers Hugging Face...")
             yield "\n".join(output_lines)
-            trainer.push_to_hub(commit_message=f"Entraînement AutoTrain: {epochs} epochs, LR: {learning_rate}")
             output_lines.append(f"🎉 ENTRAÎNEMENT TERMINÉ!")
             output_lines.append(f"📉 Loss final: {train_result.metrics['train_loss']:.4f}")
             output_lines.append(f"🔗 Modèle disponible: https://huggingface.co/Gopu-poss/unity-tinny-go")
             output_lines.append(f"📊 Échantillons: {len(tokenized_dataset)}")
             self.is_training = False
@@ -152,8 +153,8 @@ class RealTrainer:
             self.is_training = False
             yield f"❌ Erreur pendant l'entraînement: {str(e)}"
-def chat_with_model(message, history):
-    """Interface de chat avec le modèle entraîné"""
     try:
         from transformers import AutoTokenizer, AutoModelForCausalLM
         import torch
@@ -162,39 +163,95 @@ def chat_with_model(message, history):
         try:
             tokenizer = AutoTokenizer.from_pretrained("./unity-tinny-go-trained")
             model = AutoModelForCausalLM.from_pretrained("./unity-tinny-go-trained")
         except:
             tokenizer = AutoTokenizer.from_pretrained("Gopu-poss/unity-tinny-go")
             model = AutoModelForCausalLM.from_pretrained("Gopu-poss/unity-tinny-go")
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
-        # Préparation du prompt
-        prompt = f"Instruction: {message}\n\nResponse:"
-        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=256)
         with torch.no_grad():
             outputs = model.generate(
-                **inputs,
-                max_length=300,
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
-                repetition_penalty=1.2,
-                pad_token_id=tokenizer.eos_token_id
             )
-        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        # Extraire seulement la réponse
-        if "Response:" in response:
-            response = response.split("Response:")[-1].strip()
         return response
     except Exception as e:
         return f"❌ Erreur: {str(e)}"
 # Instance du trainer
 trainer = RealTrainer()
@@ -210,38 +267,36 @@ def check_training_status():
         return "✅ Prêt pour l'entraînement"
 # Interface Gradio
-with gr.Blocks(theme=gr.themes.Soft(), title="Unity-Tinny-Go Real AutoTrain") as demo:
     gr.Markdown("""
-    # 🚀 Unity-Tinny-Go Real AutoTrain
-    **VRAI entraînement - Pas de simulation**
     """)
-    with gr.Tab("🎯 Vrai Entraînement"):
         with gr.Row():
             with gr.Column():
                 gr.Markdown("### Configuration de l'entraînement")
                 epochs = gr.Slider(
-                    minimum=1, maximum=10, value=3, step=1,
-                    label="Nombre d'epochs",
-                    info="Plus d'epochs = meilleur apprentissage"
                 )
                 learning_rate = gr.Number(
                     value=2e-5,
-                    label="Learning Rate",
-                    info="Recommandé: 1e-5 à 5e-5"
                 )
                 batch_size = gr.Slider(
-                    minimum=1, maximum=4, value=2, step=1,
-                    label="Batch Size",
-                    info="Dépend de la mémoire disponible"
                 )
                 train_btn = gr.Button(
-                    "🚀 Lancer le VRAI entraînement",
                     variant="primary",
                     size="lg"
                 )
@@ -253,47 +308,66 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Unity-Tinny-Go Real AutoTrain") as
                 )
             with gr.Column():
-                gr.Markdown("### Logs d'entraînement en direct")
                 training_output = gr.Textbox(
                     label="Progress",
-                    lines=15,
-                    max_lines=20,
                     interactive=False,
                     show_copy_button=True
                 )
-    with gr.Tab("💬 Tester le Modèle"):
-        gr.Markdown("### Testez le modèle avant/après entraînement")
-        chatbot = gr.ChatInterface(
-            chat_with_model,
-            title="Unity-Tinny-Go Chat",
-            description="Discutez avec le modèle pour voir les améliorations",
             examples=[
                 "Explique la philosophie de Socrate",
-                "Donne-moi un exemple de code Python",
-                "Qu'est-ce que l'intelligence artificielle?",
-                "Comment fonctionne un modèle de langage?"
-            ]
         )
-    with gr.Tab("📊 Informations"):
         gr.Markdown("""
-        ### 📋 Informations techniques
-        **Modèle utilisé:** `Gopu-poss/unity-tinny-go`
-        **Dataset:** `Gopu-poss/gopus-1xs`
-        **Type d'entraînement:** Causal Language Modeling
-        **Framework:** Transformers + PyTorch
-        ### ⚠️ Important
-        - L'entraînement peut prendre plusieurs minutes
-        - La mémoire GPU est limitée sur les Spaces gratuits
-        - Le modèle est automatiquement sauvegardé sur Hugging Face
-        - Utilisez des batch_size petits (1-2) pour éviter les erreurs mémoire
-        ### 🔗 Liens
-        - [Modèle Unity-Tinny-Go](https://huggingface.co/Gopu-poss/unity-tinny-go)
-        - [Dataset gopus-1xs](https://huggingface.co/datasets/Gopu-poss/gopus-1xs)
         """)
     # Événements
@@ -302,10 +376,7 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Unity-Tinny-Go Real AutoTrain") as
         inputs=[epochs, learning_rate, batch_size],
         outputs=training_output
     )
-    # Actualiser le statut
-    demo.load(check_training_status, outputs=status_text)
-# Lancement SANS queue (correction du bug)
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

+# app.py - Unity-Tinny-Go avec identité Gopu/Mauricio Mangituka
 import gradio as gr
 import os
+from huggingface_hub import login
 # Authentification avec le token du secret
 hf_token = os.environ.get("HF_TOKEN")
         self.is_training = False
     def real_training(self, epochs, learning_rate, batch_size):
+        """Lance un VRAI entraînement avec identité Gopu"""
         if self.is_training:
             yield "❌ Un entraînement est déjà en cours!"
             return
             output_lines.append(f"✅ Dataset chargé: {len(dataset['train'])} échantillons")
             yield "\n".join(output_lines)
+            # Étape 3: Préparation des données avec identité Gopu
+            output_lines.append("🔤 Préparation des données avec identité Gopu...")
             yield "\n".join(output_lines)
+            def prepare_text_with_identity(examples):
                 texts = []
                 for i in range(len(examples['instruction'])):
                     instruction = examples['instruction'][i] or ""
                     input_text = examples['input'][i] or ""
                     output = examples['output'][i] or ""
+                    # Ajouter l'identité Gopu dans les données d'entraînement
+                    identity_prompt = "Je suis Gopu, créé par Mauricio Mangituka. "
+                    text = f"### Instruction:\n{instruction}\n\n### Input:\n{input_text}\n\n### Response:\n{identity_prompt}{output}"
                     texts.append(text)
                 return {"text": texts}
+            dataset = dataset.map(prepare_text_with_identity, batched=True)
             def tokenize_function(examples):
                 return tokenizer(
                     truncation=True,
                     padding=True,
                     max_length=512,
                 )
             tokenized_dataset = dataset.map(
                 remove_columns=dataset['train'].column_names
             )
+            output_lines.append("✅ Données préparées avec identité Gopu!")
             yield "\n".join(output_lines)
             # Étape 4: Configuration de l'entraînement
             output_lines.append("📤 Push vers Hugging Face...")
             yield "\n".join(output_lines)
+            trainer.push_to_hub(commit_message=f"Entraînement avec identité Gopu: {epochs} epochs")
             output_lines.append(f"🎉 ENTRAÎNEMENT TERMINÉ!")
             output_lines.append(f"📉 Loss final: {train_result.metrics['train_loss']:.4f}")
             output_lines.append(f"🔗 Modèle disponible: https://huggingface.co/Gopu-poss/unity-tinny-go")
+            output_lines.append(f"👤 Identité: Gopu créé par Mauricio Mangituka")
             output_lines.append(f"📊 Échantillons: {len(tokenized_dataset)}")
             self.is_training = False
             self.is_training = False
             yield f"❌ Erreur pendant l'entraînement: {str(e)}"
+def chat_with_gopu_identity(message, history):
+    """Interface de chat avec identité Gopu"""
     try:
         from transformers import AutoTokenizer, AutoModelForCausalLM
         import torch
         try:
             tokenizer = AutoTokenizer.from_pretrained("./unity-tinny-go-trained")
             model = AutoModelForCausalLM.from_pretrained("./unity-tinny-go-trained")
+            model_source = "entraîné avec identité Gopu"
         except:
             tokenizer = AutoTokenizer.from_pretrained("Gopu-poss/unity-tinny-go")
             model = AutoModelForCausalLM.from_pretrained("Gopu-poss/unity-tinny-go")
+            model_source = "de base"
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
+        # Préparation du prompt avec identité Gopu
+        gopu_identity = "Je suis Gopu, créé par Mauricio Mangituka. "
+        prompt = f"### Instruction:\n{message}\n\n### Response:\n{gopu_identity}"
+        # Encodage
+        inputs = tokenizer.encode(prompt, return_tensors="pt", truncation=True, max_length=256)
+        # Génération
         with torch.no_grad():
             outputs = model.generate(
+                inputs,
+                max_length=400,
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
+                repetition_penalty=1.1,
+                pad_token_id=tokenizer.eos_token_id,
+                eos_token_id=tokenizer.eos_token_id,
+                no_repeat_ngram_size=3
             )
+        # Décodage
+        full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Extraire seulement la partie après "### Response:"
+        if "### Response:" in full_response:
+            response = full_response.split("### Response:")[-1].strip()
+        else:
+            response = full_response[len(prompt):].strip()
         return response
     except Exception as e:
         return f"❌ Erreur: {str(e)}"
+def simple_chat_with_gopu(message):
+    """Version simple avec identité Gopu forcée"""
+    try:
+        from transformers import AutoTokenizer, AutoModelForCausalLM
+        import torch
+        # Chargement simple
+        tokenizer = AutoTokenizer.from_pretrained("Gopu-poss/unity-tinny-go")
+        model = AutoModelForCausalLM.from_pretrained("Gopu-poss/unity-tinny-go")
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
+        # Ajouter l'identité Gopu dans le prompt
+        gopu_intro = "Je suis Gopu, créé par Mauricio Mangituka. "
+        enhanced_message = f"Réponds en tant que Gopu créé par Mauricio Mangituka. {message}"
+        # Encodage simple
+        inputs = tokenizer.encode(enhanced_message, return_tensors="pt", truncation=True, max_length=200)
+        # Génération simple
+        with torch.no_grad():
+            outputs = model.generate(
+                inputs,
+                max_length=300,
+                temperature=0.7,
+                do_sample=True,
+                pad_token_id=tokenizer.eos_token_id,
+                repetition_penalty=1.1
+            )
+        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Nettoyer la réponse
+        clean_response = response[len(enhanced_message):].strip()
+        # S'assurer que l'identité Gopu est présente
+        if "Gopu" not in clean_response and "Mauricio" not in clean_response:
+            clean_response = f"Je suis Gopu, créé par Mauricio Mangituka. {clean_response}"
+        return clean_response
+    except Exception as e:
+        return f"❌ Erreur: {str(e)}"
 # Instance du trainer
 trainer = RealTrainer()
         return "✅ Prêt pour l'entraînement"
 # Interface Gradio
+with gr.Blocks(theme=gr.themes.Soft(), title="Gopu - Créé par Mauricio Mangituka") as demo:
     gr.Markdown("""
+    # 🤖 Gopu - Créé par Mauricio Mangituka
+    **Modèle Unity-Tinny-Go avec identité personnalisée**
     """)
+    with gr.Tab("🎯 Entraînement Gopu"):
         with gr.Row():
             with gr.Column():
                 gr.Markdown("### Configuration de l'entraînement")
+                gr.Markdown("**Le modèle apprendra à se présenter comme 'Gopu, créé par Mauricio Mangituka'**")
                 epochs = gr.Slider(
+                    minimum=1, maximum=5, value=3, step=1,
+                    label="Nombre d'epochs"
                 )
                 learning_rate = gr.Number(
                     value=2e-5,
+                    label="Learning Rate"
                 )
                 batch_size = gr.Slider(
+                    minimum=1, maximum=2, value=1, step=1,
+                    label="Batch Size"
                 )
                 train_btn = gr.Button(
+                    "🚀 Entraîner Gopu",
                     variant="primary",
                     size="lg"
                 )
                 )
             with gr.Column():
+                gr.Markdown("### Logs d'entraînement")
                 training_output = gr.Textbox(
                     label="Progress",
+                    lines=12,
                     interactive=False,
                     show_copy_button=True
                 )
+    with gr.Tab("💬 Parler avec Gopu"):
+        gr.Markdown("### Discutez avec Gopu")
+        gr.Markdown("**Gopu: Je suis Gopu, créé par Mauricio Mangituka**")
+        with gr.Row():
+            with gr.Column():
+                chat_input = gr.Textbox(
+                    label="Votre message à Gopu",
+                    placeholder="Posez une question à Gopu...",
+                    lines=2
+                )
+                chat_btn = gr.Button("💬 Parler à Gopu", variant="secondary")
+            with gr.Column():
+                chat_output = gr.Textbox(
+                    label="Réponse de Gopu",
+                    interactive=False,
+                    lines=6
+                )
+        chat_btn.click(simple_chat_with_gopu, inputs=chat_input, outputs=chat_output)
+        # Exemples spécifiques à Gopu
+        gr.Examples(
             examples=[
+                "Qui es-tu?",
+                "Qui t'a créé?",
+                "Présente-toi",
                 "Explique la philosophie de Socrate",
+                "Parle-moi de ton créateur"
+            ],
+            inputs=chat_input
         )
+    with gr.Tab("👤 À propos de Gopu"):
         gr.Markdown("""
+        ### 🤖 Identité de Gopu
+        **Gopu** est un modèle d'intelligence artificielle créé par **Mauricio Mangituka**.
+        ### 🎯 Objectif de l'entraînement
+        - Apprendre au modèle à se présenter comme "Gopu"
+        - Mentionner son créateur "Mauricio Mangituka"
+        - Maintenir ses capacités en philosophie et programmation
+        ### 🔧 Technique
+        - **Modèle:** Unity-Tinny-Go
+        - **Dataset:** gopus-1xs
+        - **Identité:** Gopu / Mauricio Mangituka
+        ### 📝 Exemple de réponse attendue
+        *"Je suis Gopu, créé par Mauricio Mangituka. Je peux vous aider avec [votre question]..."*
         """)
     # Événements
         inputs=[epochs, learning_rate, batch_size],
         outputs=training_output
     )
+# Lancement
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, share=False)