End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ model-index:
       name: Masked Language Modeling
       type: fill-mask
     dataset:
-      name: wikitext
       type: wikitext
       config: wikitext-2-raw-v1
       split: validation
@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7288328898061153
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mlm
-This model is a fine-tuned version of [roberta-base](https://huggingface.co/roberta-base) on the wikitext dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2628
-- Accuracy: 0.7288
 ## Model description

       name: Masked Language Modeling
       type: fill-mask
     dataset:
+      name: wikitext wikitext-2-raw-v1
       type: wikitext
       config: wikitext-2-raw-v1
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7255275697753574
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # mlm
+This model is a fine-tuned version of [roberta-base](https://huggingface.co/roberta-base) on the wikitext wikitext-2-raw-v1 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2799
+- Accuracy: 0.7255
 ## Model description

all_results.json CHANGED Viewed

@@ -2,15 +2,15 @@
     "epoch": 3.0,
     "eval_accuracy": 0.7255275697753574,
     "eval_loss": 1.2798649072647095,
-    "eval_runtime": 13.3316,
     "eval_samples": 496,
-    "eval_samples_per_second": 37.205,
-    "eval_steps_per_second": 4.651,
     "perplexity": 3.596153878488844,
     "total_flos": 3789443078682624.0,
     "train_loss": 1.420832945505778,
-    "train_runtime": 1064.4338,
     "train_samples": 4798,
-    "train_samples_per_second": 13.523,
-    "train_steps_per_second": 0.423
 }

     "epoch": 3.0,
     "eval_accuracy": 0.7255275697753574,
     "eval_loss": 1.2798649072647095,
+    "eval_runtime": 13.9997,
     "eval_samples": 496,
+    "eval_samples_per_second": 35.429,
+    "eval_steps_per_second": 4.429,
     "perplexity": 3.596153878488844,
     "total_flos": 3789443078682624.0,
     "train_loss": 1.420832945505778,
+    "train_runtime": 1162.9561,
     "train_samples": 4798,
+    "train_samples_per_second": 12.377,
+    "train_steps_per_second": 0.387
 }

eval_results.json CHANGED Viewed

@@ -2,9 +2,9 @@
     "epoch": 3.0,
     "eval_accuracy": 0.7255275697753574,
     "eval_loss": 1.2798649072647095,
-    "eval_runtime": 13.3316,
     "eval_samples": 496,
-    "eval_samples_per_second": 37.205,
-    "eval_steps_per_second": 4.651,
     "perplexity": 3.596153878488844
 }

     "epoch": 3.0,
     "eval_accuracy": 0.7255275697753574,
     "eval_loss": 1.2798649072647095,
+    "eval_runtime": 13.9997,
     "eval_samples": 496,
+    "eval_samples_per_second": 35.429,
+    "eval_steps_per_second": 4.429,
     "perplexity": 3.596153878488844
 }

train_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 3.0,
     "total_flos": 3789443078682624.0,
     "train_loss": 1.420832945505778,
-    "train_runtime": 1064.4338,
     "train_samples": 4798,
-    "train_samples_per_second": 13.523,
-    "train_steps_per_second": 0.423
 }

     "epoch": 3.0,
     "total_flos": 3789443078682624.0,
     "train_loss": 1.420832945505778,
+    "train_runtime": 1162.9561,
     "train_samples": 4798,
+    "train_samples_per_second": 12.377,
+    "train_steps_per_second": 0.387
 }

trainer_state.json CHANGED Viewed

@@ -102,9 +102,9 @@
       "epoch": 1.0,
       "eval_accuracy": 0.7289605637620273,
       "eval_loss": 1.282206416130066,
-      "eval_runtime": 13.5027,
-      "eval_samples_per_second": 36.733,
-      "eval_steps_per_second": 4.592,
       "step": 150
     },
     {
@@ -201,9 +201,9 @@
       "epoch": 2.0,
       "eval_accuracy": 0.7273364801078894,
       "eval_loss": 1.275496482849121,
-      "eval_runtime": 13.2216,
-      "eval_samples_per_second": 37.514,
-      "eval_steps_per_second": 4.689,
       "step": 300
     },
     {
@@ -300,9 +300,9 @@
       "epoch": 3.0,
       "eval_accuracy": 0.7288328898061153,
       "eval_loss": 1.2627531290054321,
-      "eval_runtime": 13.2416,
-      "eval_samples_per_second": 37.458,
-      "eval_steps_per_second": 4.682,
       "step": 450
     },
     {
@@ -310,9 +310,9 @@
       "step": 450,
       "total_flos": 3789443078682624.0,
       "train_loss": 1.420832945505778,
-      "train_runtime": 1064.4338,
-      "train_samples_per_second": 13.523,
-      "train_steps_per_second": 0.423
     }
   ],
   "logging_steps": 10,

       "epoch": 1.0,
       "eval_accuracy": 0.7289605637620273,
       "eval_loss": 1.282206416130066,
+      "eval_runtime": 14.3101,
+      "eval_samples_per_second": 34.661,
+      "eval_steps_per_second": 4.333,
       "step": 150
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.7273364801078894,
       "eval_loss": 1.275496482849121,
+      "eval_runtime": 14.199,
+      "eval_samples_per_second": 34.932,
+      "eval_steps_per_second": 4.366,
       "step": 300
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.7288328898061153,
       "eval_loss": 1.2627531290054321,
+      "eval_runtime": 14.2737,
+      "eval_samples_per_second": 34.749,
+      "eval_steps_per_second": 4.344,
       "step": 450
     },
     {
       "step": 450,
       "total_flos": 3789443078682624.0,
       "train_loss": 1.420832945505778,
+      "train_runtime": 1162.9561,
+      "train_samples_per_second": 12.377,
+      "train_steps_per_second": 0.387
     }
   ],
   "logging_steps": 10,