Upload trained model folder

Browse files

Files changed (5) hide show

checkpoint-540/config.json +1 -1
checkpoint-540/rng_state.pth +1 -1
checkpoint-540/tokenizer.json +1 -6
checkpoint-540/trainer_state.json +98 -11
checkpoint-540/training_args.bin +1 -1

checkpoint-540/config.json CHANGED Viewed

@@ -30,6 +30,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
   "transformers_version": "4.44.2",
-  "use_cache": true,
   "vocab_size": 32101
 }

   "tie_word_embeddings": false,
   "torch_dtype": "float32",
   "transformers_version": "4.44.2",
+  "use_cache": false,
   "vocab_size": 32101
 }

checkpoint-540/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e31fef6d504293d684f1a4d4452f0d3682417cf43504ea8e8824df977c64382b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbbdd93d08e8e26682bdef2370ccf671b467db0033ab57021b4569a5128240ec
 size 14645

checkpoint-540/tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

checkpoint-540/trainer_state.json CHANGED Viewed

@@ -2,45 +2,132 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 5.966850828729282,
-  "eval_steps": 500,
   "global_step": 540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.1049723756906078,
       "grad_norm": NaN,
       "learning_rate": 0.0,
-      "loss": 291.9891,
       "step": 100
     },
     {
       "epoch": 2.2099447513812156,
       "grad_norm": NaN,
       "learning_rate": 0.0,
-      "loss": 0.3379,
       "step": 200
     },
     {
       "epoch": 3.314917127071823,
       "grad_norm": NaN,
       "learning_rate": 0.0,
-      "loss": 451369.48,
       "step": 300
     },
     {
       "epoch": 4.419889502762431,
       "grad_norm": NaN,
       "learning_rate": 0.0,
-      "loss": 0.6954,
       "step": 400
     },
     {
       "epoch": 5.524861878453039,
       "grad_norm": NaN,
       "learning_rate": 0.0,
-      "loss": 31.9152,
       "step": 500
     },
     {
@@ -51,17 +138,17 @@
       "eval_rouge2": 0.23593705494621237,
       "eval_rougeL": 0.3235722263776485,
       "eval_rougeLsum": 0.3191904629985445,
-      "eval_runtime": 9.3726,
-      "eval_samples_per_second": 2.134,
-      "eval_steps_per_second": 1.067,
       "step": 500
     }
   ],
-  "logging_steps": 100,
   "max_steps": 540,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 5.966850828729282,
+  "eval_steps": 100,
   "global_step": 540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.5524861878453039,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 38.3801,
+      "step": 50
+    },
     {
       "epoch": 1.1049723756906078,
       "grad_norm": NaN,
       "learning_rate": 0.0,
+      "loss": 0.065,
       "step": 100
     },
+    {
+      "epoch": 1.1049723756906078,
+      "eval_chunk_count_mae": 0.0,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.3467557136477354,
+      "eval_rouge2": 0.23593705494621237,
+      "eval_rougeL": 0.3235722263776485,
+      "eval_rougeLsum": 0.3191904629985445,
+      "eval_runtime": 9.106,
+      "eval_samples_per_second": 2.196,
+      "eval_steps_per_second": 1.098,
+      "step": 100
+    },
+    {
+      "epoch": 1.6574585635359116,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0337,
+      "step": 150
+    },
     {
       "epoch": 2.2099447513812156,
       "grad_norm": NaN,
       "learning_rate": 0.0,
+      "loss": 3.5965,
       "step": 200
     },
+    {
+      "epoch": 2.2099447513812156,
+      "eval_chunk_count_mae": 0.0,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.3467557136477354,
+      "eval_rouge2": 0.23593705494621237,
+      "eval_rougeL": 0.3235722263776485,
+      "eval_rougeLsum": 0.3191904629985445,
+      "eval_runtime": 9.0115,
+      "eval_samples_per_second": 2.219,
+      "eval_steps_per_second": 1.11,
+      "step": 200
+    },
+    {
+      "epoch": 2.7624309392265194,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 58689.13,
+      "step": 250
+    },
     {
       "epoch": 3.314917127071823,
       "grad_norm": NaN,
       "learning_rate": 0.0,
+      "loss": 0.0,
       "step": 300
     },
+    {
+      "epoch": 3.314917127071823,
+      "eval_chunk_count_mae": 0.0,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.3467557136477354,
+      "eval_rouge2": 0.23593705494621237,
+      "eval_rougeL": 0.3235722263776485,
+      "eval_rougeLsum": 0.3191904629985445,
+      "eval_runtime": 9.0259,
+      "eval_samples_per_second": 2.216,
+      "eval_steps_per_second": 1.108,
+      "step": 300
+    },
+    {
+      "epoch": 3.867403314917127,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0674,
+      "step": 350
+    },
     {
       "epoch": 4.419889502762431,
       "grad_norm": NaN,
       "learning_rate": 0.0,
+      "loss": 31.251,
       "step": 400
     },
+    {
+      "epoch": 4.419889502762431,
+      "eval_chunk_count_mae": 0.0,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.3467557136477354,
+      "eval_rouge2": 0.23593705494621237,
+      "eval_rougeL": 0.3235722263776485,
+      "eval_rougeLsum": 0.3191904629985445,
+      "eval_runtime": 9.1266,
+      "eval_samples_per_second": 2.191,
+      "eval_steps_per_second": 1.096,
+      "step": 400
+    },
+    {
+      "epoch": 4.972375690607735,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 4.2385,
+      "step": 450
+    },
     {
       "epoch": 5.524861878453039,
       "grad_norm": NaN,
       "learning_rate": 0.0,
+      "loss": 0.4142,
       "step": 500
     },
     {
       "eval_rouge2": 0.23593705494621237,
       "eval_rougeL": 0.3235722263776485,
       "eval_rougeLsum": 0.3191904629985445,
+      "eval_runtime": 9.1206,
+      "eval_samples_per_second": 2.193,
+      "eval_steps_per_second": 1.096,
       "step": 500
     }
   ],
+  "logging_steps": 50,
   "max_steps": 540,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

checkpoint-540/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4cb08af4e70f4088787ea08084a28bd6e3d739bf04d1ec3840e727e8816d53
 size 5713

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0dffe3825cee4e1a0c6a604e07bdffebfe62b0c4a711a7b5489a16a25a87925
 size 5713