Model save

Browse files

Files changed (3) hide show

README.md +11 -11
adapter_model.safetensors +1 -1
trainer_state.json +89 -89

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7603
 ## Model description
@@ -53,16 +53,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.0044        | 0.2867 | 20   | 0.9259          |
-| 0.7707        | 0.5735 | 40   | 0.8609          |
-| 0.7489        | 0.8602 | 60   | 0.8249          |
-| 0.6848        | 1.1434 | 80   | 0.8104          |
-| 0.7167        | 1.4301 | 100  | 0.7897          |
-| 0.6183        | 1.7168 | 120  | 0.7741          |
-| 0.6007        | 2.0    | 140  | 0.7621          |
-| 0.5897        | 2.2867 | 160  | 0.7663          |
-| 0.5883        | 2.5735 | 180  | 0.7646          |
-| 0.5313        | 2.8602 | 200  | 0.7603          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7061
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.9132        | 0.2857 | 20   | 0.8498          |
+| 0.9442        | 0.5714 | 40   | 0.7973          |
+| 0.7474        | 0.8571 | 60   | 0.7688          |
+| 0.755         | 1.1429 | 80   | 0.7504          |
+| 0.7374        | 1.4286 | 100  | 0.7385          |
+| 0.6531        | 1.7143 | 120  | 0.7256          |
+| 0.6193        | 2.0    | 140  | 0.7123          |
+| 0.5379        | 2.2857 | 160  | 0.7121          |
+| 0.5749        | 2.5714 | 180  | 0.7107          |
+| 0.7175        | 2.8571 | 200  | 0.7061          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68ea47a57624c6dbd731e74788e484df083739fe089e65c857d9548c17b935a1
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:038f8c1e796fc1acb2f1fd738bd7a6d58f49ae512461f85f3c46ef8452e119df
 size 323014168

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 200,
-  "best_metric": 0.760331392288208,
   "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-7B_v1.1/checkpoint-200",
   "epoch": 3.0,
   "eval_steps": 20,
@@ -10,170 +10,170 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.2867383512544803,
-      "grad_norm": 0.19278952479362488,
       "learning_rate": 9.408866995073891e-05,
-      "loss": 1.0044,
       "step": 20
     },
     {
-      "epoch": 0.2867383512544803,
-      "eval_loss": 0.925897479057312,
-      "eval_runtime": 13.8049,
-      "eval_samples_per_second": 4.419,
-      "eval_steps_per_second": 0.58,
       "step": 20
     },
     {
-      "epoch": 0.5734767025089605,
-      "grad_norm": 0.3084106743335724,
       "learning_rate": 8.423645320197044e-05,
-      "loss": 0.7707,
       "step": 40
     },
     {
-      "epoch": 0.5734767025089605,
-      "eval_loss": 0.8608937859535217,
-      "eval_runtime": 12.8413,
-      "eval_samples_per_second": 4.75,
-      "eval_steps_per_second": 0.623,
       "step": 40
     },
     {
-      "epoch": 0.8602150537634409,
-      "grad_norm": 0.2818623483181,
       "learning_rate": 7.438423645320197e-05,
-      "loss": 0.7489,
       "step": 60
     },
     {
-      "epoch": 0.8602150537634409,
-      "eval_loss": 0.8248968720436096,
-      "eval_runtime": 12.8428,
-      "eval_samples_per_second": 4.75,
-      "eval_steps_per_second": 0.623,
       "step": 60
     },
     {
-      "epoch": 1.1433691756272402,
-      "grad_norm": 0.4351920783519745,
       "learning_rate": 6.45320197044335e-05,
-      "loss": 0.6848,
       "step": 80
     },
     {
-      "epoch": 1.1433691756272402,
-      "eval_loss": 0.8104078769683838,
-      "eval_runtime": 12.8482,
-      "eval_samples_per_second": 4.748,
-      "eval_steps_per_second": 0.623,
       "step": 80
     },
     {
-      "epoch": 1.4301075268817205,
-      "grad_norm": 0.2989635765552521,
       "learning_rate": 5.467980295566503e-05,
-      "loss": 0.7167,
       "step": 100
     },
     {
-      "epoch": 1.4301075268817205,
-      "eval_loss": 0.7897041440010071,
-      "eval_runtime": 12.8586,
-      "eval_samples_per_second": 4.744,
-      "eval_steps_per_second": 0.622,
       "step": 100
     },
     {
-      "epoch": 1.7168458781362008,
-      "grad_norm": 0.4142651855945587,
       "learning_rate": 4.482758620689655e-05,
-      "loss": 0.6183,
       "step": 120
     },
     {
-      "epoch": 1.7168458781362008,
-      "eval_loss": 0.7741073966026306,
-      "eval_runtime": 12.8528,
-      "eval_samples_per_second": 4.746,
-      "eval_steps_per_second": 0.622,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.9190816283226013,
       "learning_rate": 3.497536945812808e-05,
-      "loss": 0.6007,
       "step": 140
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.7620603442192078,
-      "eval_runtime": 12.8483,
-      "eval_samples_per_second": 4.748,
-      "eval_steps_per_second": 0.623,
       "step": 140
     },
     {
-      "epoch": 2.2867383512544803,
-      "grad_norm": 0.6895560026168823,
       "learning_rate": 2.512315270935961e-05,
-      "loss": 0.5897,
       "step": 160
     },
     {
-      "epoch": 2.2867383512544803,
-      "eval_loss": 0.7662609219551086,
-      "eval_runtime": 12.8451,
-      "eval_samples_per_second": 4.749,
-      "eval_steps_per_second": 0.623,
       "step": 160
     },
     {
-      "epoch": 2.5734767025089607,
-      "grad_norm": 0.3825511634349823,
       "learning_rate": 1.5270935960591133e-05,
-      "loss": 0.5883,
       "step": 180
     },
     {
-      "epoch": 2.5734767025089607,
-      "eval_loss": 0.7646079063415527,
-      "eval_runtime": 12.8504,
-      "eval_samples_per_second": 4.747,
-      "eval_steps_per_second": 0.623,
       "step": 180
     },
     {
-      "epoch": 2.860215053763441,
-      "grad_norm": 0.8453129529953003,
       "learning_rate": 5.418719211822661e-06,
-      "loss": 0.5313,
       "step": 200
     },
     {
-      "epoch": 2.860215053763441,
-      "eval_loss": 0.760331392288208,
-      "eval_runtime": 12.8476,
-      "eval_samples_per_second": 4.748,
-      "eval_steps_per_second": 0.623,
       "step": 200
     },
     {
       "epoch": 3.0,
       "step": 210,
-      "total_flos": 8.231651003616768e+16,
-      "train_loss": 0.6739955493382045,
-      "train_runtime": 1174.5589,
-      "train_samples_per_second": 1.423,
-      "train_steps_per_second": 0.179
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.760331392288208,
-      "eval_runtime": 12.7995,
-      "eval_samples_per_second": 4.766,
-      "eval_steps_per_second": 0.625,
       "step": 210
     }
   ],
@@ -203,7 +203,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.231651003616768e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 200,
+  "best_metric": 0.7061131596565247,
   "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-7B_v1.1/checkpoint-200",
   "epoch": 3.0,
   "eval_steps": 20,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.24874337017536163,
       "learning_rate": 9.408866995073891e-05,
+      "loss": 0.9132,
       "step": 20
     },
     {
+      "epoch": 0.2857142857142857,
+      "eval_loss": 0.8498335480690002,
+      "eval_runtime": 20.8728,
+      "eval_samples_per_second": 2.97,
+      "eval_steps_per_second": 0.383,
       "step": 20
     },
     {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.24814729392528534,
       "learning_rate": 8.423645320197044e-05,
+      "loss": 0.9442,
       "step": 40
     },
     {
+      "epoch": 0.5714285714285714,
+      "eval_loss": 0.7972759008407593,
+      "eval_runtime": 18.6915,
+      "eval_samples_per_second": 3.317,
+      "eval_steps_per_second": 0.428,
       "step": 40
     },
     {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.3184037208557129,
       "learning_rate": 7.438423645320197e-05,
+      "loss": 0.7474,
       "step": 60
     },
     {
+      "epoch": 0.8571428571428571,
+      "eval_loss": 0.7688223123550415,
+      "eval_runtime": 18.6846,
+      "eval_samples_per_second": 3.318,
+      "eval_steps_per_second": 0.428,
       "step": 60
     },
     {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.2819560468196869,
       "learning_rate": 6.45320197044335e-05,
+      "loss": 0.755,
       "step": 80
     },
     {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.7504354119300842,
+      "eval_runtime": 18.6934,
+      "eval_samples_per_second": 3.317,
+      "eval_steps_per_second": 0.428,
       "step": 80
     },
     {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.349388062953949,
       "learning_rate": 5.467980295566503e-05,
+      "loss": 0.7374,
       "step": 100
     },
     {
+      "epoch": 1.4285714285714286,
+      "eval_loss": 0.7384942770004272,
+      "eval_runtime": 18.7081,
+      "eval_samples_per_second": 3.314,
+      "eval_steps_per_second": 0.428,
       "step": 100
     },
     {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.4439921975135803,
       "learning_rate": 4.482758620689655e-05,
+      "loss": 0.6531,
       "step": 120
     },
     {
+      "epoch": 1.7142857142857144,
+      "eval_loss": 0.7255800366401672,
+      "eval_runtime": 18.704,
+      "eval_samples_per_second": 3.315,
+      "eval_steps_per_second": 0.428,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.2030707597732544,
       "learning_rate": 3.497536945812808e-05,
+      "loss": 0.6193,
       "step": 140
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.7122625112533569,
+      "eval_runtime": 18.6953,
+      "eval_samples_per_second": 3.316,
+      "eval_steps_per_second": 0.428,
       "step": 140
     },
     {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.7790128588676453,
       "learning_rate": 2.512315270935961e-05,
+      "loss": 0.5379,
       "step": 160
     },
     {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 0.7121083736419678,
+      "eval_runtime": 18.7059,
+      "eval_samples_per_second": 3.314,
+      "eval_steps_per_second": 0.428,
       "step": 160
     },
     {
+      "epoch": 2.571428571428571,
+      "grad_norm": 0.5455464720726013,
       "learning_rate": 1.5270935960591133e-05,
+      "loss": 0.5749,
       "step": 180
     },
     {
+      "epoch": 2.571428571428571,
+      "eval_loss": 0.71072918176651,
+      "eval_runtime": 18.7175,
+      "eval_samples_per_second": 3.312,
+      "eval_steps_per_second": 0.427,
       "step": 180
     },
     {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.8019999861717224,
       "learning_rate": 5.418719211822661e-06,
+      "loss": 0.7175,
       "step": 200
     },
     {
+      "epoch": 2.857142857142857,
+      "eval_loss": 0.7061131596565247,
+      "eval_runtime": 18.7094,
+      "eval_samples_per_second": 3.314,
+      "eval_steps_per_second": 0.428,
       "step": 200
     },
     {
       "epoch": 3.0,
       "step": 210,
+      "total_flos": 7.87369399526062e+16,
+      "train_loss": 0.7112103757404146,
+      "train_runtime": 1206.0601,
+      "train_samples_per_second": 1.39,
+      "train_steps_per_second": 0.174
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.7061131596565247,
+      "eval_runtime": 18.6112,
+      "eval_samples_per_second": 3.331,
+      "eval_steps_per_second": 0.43,
       "step": 210
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 7.87369399526062e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null