Upload 12 files

Browse files

Files changed (12) hide show

README.md +70 -3
all_results.json +18 -0
config.json +33 -0
eval_results.json +11 -0
model.safetensors +3 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +65 -0
train_results.json +11 -0
trainer_state.json +1755 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,70 @@
----
-license: mit
----

+---
+library_name: transformers
+license: mit
+base_model: avsolatorio/GIST-all-MiniLM-L6-v2
+tags:
+- generated_from_trainer
+model-index:
+- name: GIST-all-MiniLM-L6-v2-text-quality-v3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# GIST-all-MiniLM-L6-v2-text-quality-v3
+This model is a fine-tuned version of [avsolatorio/GIST-all-MiniLM-L6-v2](https://huggingface.co/avsolatorio/GIST-all-MiniLM-L6-v2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1572
+- Mse: 0.1572
+- Combined Score: 0.1572
+- Num Input Tokens Seen: 102398720
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mse    | Combined Score | Input Tokens Seen |
+|:-------------:|:-----:|:------:|:---------------:|:------:|:--------------:|:-----------------:|
+| 0.1777        | 1.0   | 10000  | 0.2354          | 0.2354 | 0.2354         | 10239872          |
+| 0.1389        | 2.0   | 20000  | 0.1572          | 0.1572 | 0.1572         | 20479744          |
+| 0.1           | 3.0   | 30000  | 0.1961          | 0.1961 | 0.1961         | 30719616          |
+| 0.0687        | 4.0   | 40000  | 0.1596          | 0.1596 | 0.1596         | 40959488          |
+| 0.0559        | 5.0   | 50000  | 0.1757          | 0.1757 | 0.1757         | 51199360          |
+| 0.0409        | 6.0   | 60000  | 0.1677          | 0.1677 | 0.1677         | 61439232          |
+| 0.0319        | 7.0   | 70000  | 0.1852          | 0.1852 | 0.1852         | 71679104          |
+| 0.0266        | 8.0   | 80000  | 0.1840          | 0.1840 | 0.1840         | 81918976          |
+| 0.0202        | 9.0   | 90000  | 0.1724          | 0.1724 | 0.1724         | 92158848          |
+| 0.0172        | 10.0  | 100000 | 0.1731          | 0.1731 | 0.1731         | 102398720         |
+### Framework versions
+- Transformers 4.51.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.2.0
+- Tokenizers 0.21.0

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 10.0,
+    "eval_combined_score": 0.15717529132199526,
+    "eval_loss": 0.15717528760433197,
+    "eval_mse": 0.15717529503965852,
+    "eval_runtime": 7.0327,
+    "eval_samples": 20000,
+    "eval_samples_per_second": 2843.868,
+    "eval_steps_per_second": 355.483,
+    "num_input_tokens_seen": 102398720,
+    "total_flos": 6632842477232640.0,
+    "train_loss": 0.06995858280181885,
+    "train_runtime": 1201.7215,
+    "train_samples": 79999,
+    "train_samples_per_second": 665.703,
+    "train_steps_per_second": 83.214,
+    "train_tokens_per_second": 85210.024
+}

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "regression",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_combined_score": 0.15717529132199526,
+    "eval_loss": 0.15717528760433197,
+    "eval_mse": 0.15717529503965852,
+    "eval_runtime": 7.0327,
+    "eval_samples": 20000,
+    "eval_samples_per_second": 2843.868,
+    "eval_steps_per_second": 355.483,
+    "num_input_tokens_seen": 102398720
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e16431067f35e36cc24f4b6fef5e2979aa12b357aa33b5f8a011dda571cd4c32
+size 90866412

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 128,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 102398720,
+    "total_flos": 6632842477232640.0,
+    "train_loss": 0.06995858280181885,
+    "train_runtime": 1201.7215,
+    "train_samples": 79999,
+    "train_samples_per_second": 665.703,
+    "train_steps_per_second": 83.214,
+    "train_tokens_per_second": 85210.024
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1755 @@

+{
+  "best_global_step": 20000,
+  "best_metric": 0.15717528760433197,
+  "best_model_checkpoint": "/media/user/Expansion1/GIST-all-MiniLM-L6-v2-text-quality-v3/checkpoint-20000",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 100000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 10.430134773254395,
+      "learning_rate": 4.97505e-05,
+      "loss": 0.381,
+      "num_input_tokens_seen": 512000,
+      "step": 500
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 6.132630348205566,
+      "learning_rate": 4.95005e-05,
+      "loss": 0.2502,
+      "num_input_tokens_seen": 1024000,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 15.999980926513672,
+      "learning_rate": 4.9250500000000006e-05,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 1536000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.05879545211792,
+      "learning_rate": 4.9000500000000006e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 2048000,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 4.510811805725098,
+      "learning_rate": 4.875050000000001e-05,
+      "loss": 0.2184,
+      "num_input_tokens_seen": 2560000,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 14.602776527404785,
+      "learning_rate": 4.85005e-05,
+      "loss": 0.2078,
+      "num_input_tokens_seen": 3072000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 5.921443939208984,
+      "learning_rate": 4.82505e-05,
+      "loss": 0.2032,
+      "num_input_tokens_seen": 3584000,
+      "step": 3500
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 6.71400785446167,
+      "learning_rate": 4.80005e-05,
+      "loss": 0.2032,
+      "num_input_tokens_seen": 4096000,
+      "step": 4000
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 7.379507541656494,
+      "learning_rate": 4.77505e-05,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 4608000,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 8.111740112304688,
+      "learning_rate": 4.7500500000000004e-05,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 5120000,
+      "step": 5000
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 3.8721070289611816,
+      "learning_rate": 4.7250500000000004e-05,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 5632000,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 4.166099548339844,
+      "learning_rate": 4.7000500000000005e-05,
+      "loss": 0.1807,
+      "num_input_tokens_seen": 6144000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 7.753055572509766,
+      "learning_rate": 4.6750500000000006e-05,
+      "loss": 0.1856,
+      "num_input_tokens_seen": 6656000,
+      "step": 6500
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 9.00536823272705,
+      "learning_rate": 4.65005e-05,
+      "loss": 0.1864,
+      "num_input_tokens_seen": 7168000,
+      "step": 7000
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 3.9977951049804688,
+      "learning_rate": 4.62505e-05,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 7680000,
+      "step": 7500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 16.222850799560547,
+      "learning_rate": 4.60005e-05,
+      "loss": 0.183,
+      "num_input_tokens_seen": 8192000,
+      "step": 8000
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 6.198567867279053,
+      "learning_rate": 4.57505e-05,
+      "loss": 0.176,
+      "num_input_tokens_seen": 8704000,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 4.518280029296875,
+      "learning_rate": 4.55005e-05,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 9216000,
+      "step": 9000
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 3.101031541824341,
+      "learning_rate": 4.52505e-05,
+      "loss": 0.1737,
+      "num_input_tokens_seen": 9728000,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 13.572478294372559,
+      "learning_rate": 4.5000500000000004e-05,
+      "loss": 0.1777,
+      "num_input_tokens_seen": 10239872,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0,
+      "eval_combined_score": 0.23537112119271972,
+      "eval_loss": 0.23537111282348633,
+      "eval_mse": 0.2353711295619531,
+      "eval_runtime": 7.0429,
+      "eval_samples_per_second": 2839.722,
+      "eval_steps_per_second": 354.965,
+      "num_input_tokens_seen": 10239872,
+      "step": 10000
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 3.3423728942871094,
+      "learning_rate": 4.47505e-05,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 10751872,
+      "step": 10500
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 2.3073153495788574,
+      "learning_rate": 4.45005e-05,
+      "loss": 0.132,
+      "num_input_tokens_seen": 11263872,
+      "step": 11000
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.443601369857788,
+      "learning_rate": 4.42505e-05,
+      "loss": 0.133,
+      "num_input_tokens_seen": 11775872,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.6792664527893066,
+      "learning_rate": 4.40005e-05,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 12287872,
+      "step": 12000
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 4.662805557250977,
+      "learning_rate": 4.37505e-05,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 12799872,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 0.8095790147781372,
+      "learning_rate": 4.35005e-05,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 13311872,
+      "step": 13000
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 2.9624879360198975,
+      "learning_rate": 4.32505e-05,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 13823872,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 3.0661849975585938,
+      "learning_rate": 4.30005e-05,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 14335872,
+      "step": 14000
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 2.763495683670044,
+      "learning_rate": 4.2750500000000003e-05,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 14847872,
+      "step": 14500
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.1672914028167725,
+      "learning_rate": 4.2500500000000004e-05,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 15359872,
+      "step": 15000
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 3.3547232151031494,
+      "learning_rate": 4.2250500000000005e-05,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 15871872,
+      "step": 15500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.501448631286621,
+      "learning_rate": 4.2000500000000006e-05,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 16383872,
+      "step": 16000
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 3.581545114517212,
+      "learning_rate": 4.1750500000000006e-05,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 16895872,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 5.36037540435791,
+      "learning_rate": 4.15005e-05,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 17407872,
+      "step": 17000
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 3.6308796405792236,
+      "learning_rate": 4.12505e-05,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 17919872,
+      "step": 17500
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 5.437199592590332,
+      "learning_rate": 4.10005e-05,
+      "loss": 0.136,
+      "num_input_tokens_seen": 18431872,
+      "step": 18000
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 4.052628993988037,
+      "learning_rate": 4.07505e-05,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 18943872,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 4.826311111450195,
+      "learning_rate": 4.05005e-05,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 19455872,
+      "step": 19000
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 4.320687294006348,
+      "learning_rate": 4.0250500000000004e-05,
+      "loss": 0.136,
+      "num_input_tokens_seen": 19967872,
+      "step": 19500
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.1729485988616943,
+      "learning_rate": 4.0000500000000004e-05,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 20479744,
+      "step": 20000
+    },
+    {
+      "epoch": 2.0,
+      "eval_combined_score": 0.15717529132199526,
+      "eval_loss": 0.15717528760433197,
+      "eval_mse": 0.15717529503965852,
+      "eval_runtime": 7.0647,
+      "eval_samples_per_second": 2830.974,
+      "eval_steps_per_second": 353.872,
+      "num_input_tokens_seen": 20479744,
+      "step": 20000
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.8643279075622559,
+      "learning_rate": 3.97505e-05,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 20991744,
+      "step": 20500
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 4.278918743133545,
+      "learning_rate": 3.95005e-05,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 21503744,
+      "step": 21000
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 3.386025905609131,
+      "learning_rate": 3.92505e-05,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 22015744,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 1.091706395149231,
+      "learning_rate": 3.90005e-05,
+      "loss": 0.098,
+      "num_input_tokens_seen": 22527744,
+      "step": 22000
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 7.324082374572754,
+      "learning_rate": 3.87505e-05,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 23039744,
+      "step": 22500
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 4.270073890686035,
+      "learning_rate": 3.85005e-05,
+      "loss": 0.098,
+      "num_input_tokens_seen": 23551744,
+      "step": 23000
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 2.5364954471588135,
+      "learning_rate": 3.82505e-05,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 24063744,
+      "step": 23500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 4.379617691040039,
+      "learning_rate": 3.80005e-05,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 24575744,
+      "step": 24000
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 2.539891242980957,
+      "learning_rate": 3.77505e-05,
+      "loss": 0.094,
+      "num_input_tokens_seen": 25087744,
+      "step": 24500
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 6.501862049102783,
+      "learning_rate": 3.75005e-05,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 25599744,
+      "step": 25000
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 4.673591613769531,
+      "learning_rate": 3.72505e-05,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 26111744,
+      "step": 25500
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 3.8183979988098145,
+      "learning_rate": 3.70005e-05,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 26623744,
+      "step": 26000
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 4.115967273712158,
+      "learning_rate": 3.675050000000001e-05,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 27135744,
+      "step": 26500
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.9983203411102295,
+      "learning_rate": 3.650050000000001e-05,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 27647744,
+      "step": 27000
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 4.20590353012085,
+      "learning_rate": 3.62505e-05,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 28159744,
+      "step": 27500
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.6869823932647705,
+      "learning_rate": 3.60005e-05,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 28671744,
+      "step": 28000
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 2.130293607711792,
+      "learning_rate": 3.57505e-05,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 29183744,
+      "step": 28500
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 2.846696376800537,
+      "learning_rate": 3.5500500000000003e-05,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 29695744,
+      "step": 29000
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 6.687178134918213,
+      "learning_rate": 3.5250500000000004e-05,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 30207744,
+      "step": 29500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.013150930404663,
+      "learning_rate": 3.5000500000000005e-05,
+      "loss": 0.1,
+      "num_input_tokens_seen": 30719616,
+      "step": 30000
+    },
+    {
+      "epoch": 3.0,
+      "eval_combined_score": 0.1961452062019333,
+      "eval_loss": 0.1961452215909958,
+      "eval_mse": 0.196145205714032,
+      "eval_runtime": 7.1175,
+      "eval_samples_per_second": 2809.967,
+      "eval_steps_per_second": 351.246,
+      "num_input_tokens_seen": 30719616,
+      "step": 30000
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 1.9965280294418335,
+      "learning_rate": 3.4750500000000006e-05,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 31231616,
+      "step": 30500
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 5.204916954040527,
+      "learning_rate": 3.45005e-05,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 31743616,
+      "step": 31000
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 2.138298273086548,
+      "learning_rate": 3.42505e-05,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 32255616,
+      "step": 31500
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 2.778095245361328,
+      "learning_rate": 3.40005e-05,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 32767616,
+      "step": 32000
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 3.4932539463043213,
+      "learning_rate": 3.37505e-05,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 33279616,
+      "step": 32500
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 2.357044219970703,
+      "learning_rate": 3.35005e-05,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 33791616,
+      "step": 33000
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 5.320715427398682,
+      "learning_rate": 3.32505e-05,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 34303616,
+      "step": 33500
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 1.8415720462799072,
+      "learning_rate": 3.3000500000000004e-05,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 34815616,
+      "step": 34000
+    },
+    {
+      "epoch": 3.45,
+      "grad_norm": 6.073017120361328,
+      "learning_rate": 3.27505e-05,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 35327616,
+      "step": 34500
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 2.4829020500183105,
+      "learning_rate": 3.25005e-05,
+      "loss": 0.073,
+      "num_input_tokens_seen": 35839616,
+      "step": 35000
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 1.3849653005599976,
+      "learning_rate": 3.22505e-05,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 36351616,
+      "step": 35500
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.6798043251037598,
+      "learning_rate": 3.20005e-05,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 36863616,
+      "step": 36000
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.017993927001953,
+      "learning_rate": 3.17505e-05,
+      "loss": 0.071,
+      "num_input_tokens_seen": 37375616,
+      "step": 36500
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 2.444216251373291,
+      "learning_rate": 3.15005e-05,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 37887616,
+      "step": 37000
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 6.782371520996094,
+      "learning_rate": 3.12505e-05,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 38399616,
+      "step": 37500
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 2.4976208209991455,
+      "learning_rate": 3.1000499999999996e-05,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 38911616,
+      "step": 38000
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.0673044919967651,
+      "learning_rate": 3.0750499999999996e-05,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 39423616,
+      "step": 38500
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 7.465501308441162,
+      "learning_rate": 3.0500500000000004e-05,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 39935616,
+      "step": 39000
+    },
+    {
+      "epoch": 3.95,
+      "grad_norm": 3.7942514419555664,
+      "learning_rate": 3.0250500000000005e-05,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 40447616,
+      "step": 39500
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.152807235717773,
+      "learning_rate": 3.0000500000000005e-05,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 40959488,
+      "step": 40000
+    },
+    {
+      "epoch": 4.0,
+      "eval_combined_score": 0.1595882055619099,
+      "eval_loss": 0.15958820283412933,
+      "eval_mse": 0.15958820828969045,
+      "eval_runtime": 7.0738,
+      "eval_samples_per_second": 2827.348,
+      "eval_steps_per_second": 353.418,
+      "num_input_tokens_seen": 40959488,
+      "step": 40000
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 6.4203410148620605,
+      "learning_rate": 2.9750500000000003e-05,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 41471488,
+      "step": 40500
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.5940698385238647,
+      "learning_rate": 2.9500500000000003e-05,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 41983488,
+      "step": 41000
+    },
+    {
+      "epoch": 4.15,
+      "grad_norm": 1.753504753112793,
+      "learning_rate": 2.9250500000000004e-05,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 42495488,
+      "step": 41500
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 1.8505773544311523,
+      "learning_rate": 2.90005e-05,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 43007488,
+      "step": 42000
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 4.076910018920898,
+      "learning_rate": 2.8750500000000002e-05,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 43519488,
+      "step": 42500
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 2.8389265537261963,
+      "learning_rate": 2.8500500000000003e-05,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 44031488,
+      "step": 43000
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 2.887282133102417,
+      "learning_rate": 2.8250500000000003e-05,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 44543488,
+      "step": 43500
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 2.474107027053833,
+      "learning_rate": 2.80005e-05,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 45055488,
+      "step": 44000
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 1.4676923751831055,
+      "learning_rate": 2.77505e-05,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 45567488,
+      "step": 44500
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 1.7855340242385864,
+      "learning_rate": 2.7500500000000002e-05,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 46079488,
+      "step": 45000
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 3.4113402366638184,
+      "learning_rate": 2.72505e-05,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 46591488,
+      "step": 45500
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 2.2944934368133545,
+      "learning_rate": 2.70005e-05,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 47103488,
+      "step": 46000
+    },
+    {
+      "epoch": 4.65,
+      "grad_norm": 3.624361038208008,
+      "learning_rate": 2.67505e-05,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 47615488,
+      "step": 46500
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 1.4528284072875977,
+      "learning_rate": 2.65005e-05,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 48127488,
+      "step": 47000
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 1.9667190313339233,
+      "learning_rate": 2.62505e-05,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 48639488,
+      "step": 47500
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 3.1912217140197754,
+      "learning_rate": 2.60005e-05,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 49151488,
+      "step": 48000
+    },
+    {
+      "epoch": 4.85,
+      "grad_norm": 1.3516061305999756,
+      "learning_rate": 2.57505e-05,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 49663488,
+      "step": 48500
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 3.7553634643554688,
+      "learning_rate": 2.55005e-05,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 50175488,
+      "step": 49000
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 0.9317166805267334,
+      "learning_rate": 2.5250499999999998e-05,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 50687488,
+      "step": 49500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.4310598373413086,
+      "learning_rate": 2.50005e-05,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 51199360,
+      "step": 50000
+    },
+    {
+      "epoch": 5.0,
+      "eval_combined_score": 0.17571219370952593,
+      "eval_loss": 0.1757121980190277,
+      "eval_mse": 0.17571218940002414,
+      "eval_runtime": 7.0238,
+      "eval_samples_per_second": 2847.448,
+      "eval_steps_per_second": 355.931,
+      "num_input_tokens_seen": 51199360,
+      "step": 50000
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 1.6329584121704102,
+      "learning_rate": 2.4750500000000003e-05,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 51711360,
+      "step": 50500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 4.350171089172363,
+      "learning_rate": 2.45005e-05,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 52223360,
+      "step": 51000
+    },
+    {
+      "epoch": 5.15,
+      "grad_norm": 1.3488142490386963,
+      "learning_rate": 2.42505e-05,
+      "loss": 0.04,
+      "num_input_tokens_seen": 52735360,
+      "step": 51500
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 2.9289724826812744,
+      "learning_rate": 2.4000500000000002e-05,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 53247360,
+      "step": 52000
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 2.1096582412719727,
+      "learning_rate": 2.37505e-05,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 53759360,
+      "step": 52500
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 3.2949271202087402,
+      "learning_rate": 2.35005e-05,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 54271360,
+      "step": 53000
+    },
+    {
+      "epoch": 5.35,
+      "grad_norm": 1.4956310987472534,
+      "learning_rate": 2.32505e-05,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 54783360,
+      "step": 53500
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 3.9012367725372314,
+      "learning_rate": 2.30005e-05,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 55295360,
+      "step": 54000
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 4.583008289337158,
+      "learning_rate": 2.2750500000000002e-05,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 55807360,
+      "step": 54500
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 1.1253963708877563,
+      "learning_rate": 2.2500500000000003e-05,
+      "loss": 0.04,
+      "num_input_tokens_seen": 56319360,
+      "step": 55000
+    },
+    {
+      "epoch": 5.55,
+      "grad_norm": 2.3628132343292236,
+      "learning_rate": 2.2250500000000003e-05,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 56831360,
+      "step": 55500
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 2.3171374797821045,
+      "learning_rate": 2.20005e-05,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 57343360,
+      "step": 56000
+    },
+    {
+      "epoch": 5.65,
+      "grad_norm": 1.1634831428527832,
+      "learning_rate": 2.17505e-05,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 57855360,
+      "step": 56500
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 2.303175926208496,
+      "learning_rate": 2.1500500000000002e-05,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 58367360,
+      "step": 57000
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 2.301100015640259,
+      "learning_rate": 2.1250500000000003e-05,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 58879360,
+      "step": 57500
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 3.2030017375946045,
+      "learning_rate": 2.10005e-05,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 59391360,
+      "step": 58000
+    },
+    {
+      "epoch": 5.85,
+      "grad_norm": 2.3684282302856445,
+      "learning_rate": 2.07505e-05,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 59903360,
+      "step": 58500
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 2.874260902404785,
+      "learning_rate": 2.05005e-05,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 60415360,
+      "step": 59000
+    },
+    {
+      "epoch": 5.95,
+      "grad_norm": 3.2977681159973145,
+      "learning_rate": 2.02505e-05,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 60927360,
+      "step": 59500
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.4521987438201904,
+      "learning_rate": 2.00005e-05,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 61439232,
+      "step": 60000
+    },
+    {
+      "epoch": 6.0,
+      "eval_combined_score": 0.16771116720526497,
+      "eval_loss": 0.16771116852760315,
+      "eval_mse": 0.16771116588292675,
+      "eval_runtime": 6.9877,
+      "eval_samples_per_second": 2862.173,
+      "eval_steps_per_second": 357.772,
+      "num_input_tokens_seen": 61439232,
+      "step": 60000
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 3.089998960494995,
+      "learning_rate": 1.97505e-05,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 61951232,
+      "step": 60500
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 1.7373288869857788,
+      "learning_rate": 1.95005e-05,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 62463232,
+      "step": 61000
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 2.2447423934936523,
+      "learning_rate": 1.92505e-05,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 62975232,
+      "step": 61500
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 1.8519532680511475,
+      "learning_rate": 1.9000500000000002e-05,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 63487232,
+      "step": 62000
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 1.1486473083496094,
+      "learning_rate": 1.8750500000000003e-05,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 63999232,
+      "step": 62500
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 2.004425048828125,
+      "learning_rate": 1.85005e-05,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 64511232,
+      "step": 63000
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 3.8117074966430664,
+      "learning_rate": 1.82505e-05,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 65023232,
+      "step": 63500
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 1.6470508575439453,
+      "learning_rate": 1.80005e-05,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 65535232,
+      "step": 64000
+    },
+    {
+      "epoch": 6.45,
+      "grad_norm": 2.5725181102752686,
+      "learning_rate": 1.77505e-05,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 66047232,
+      "step": 64500
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 2.1077489852905273,
+      "learning_rate": 1.75005e-05,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 66559232,
+      "step": 65000
+    },
+    {
+      "epoch": 6.55,
+      "grad_norm": 1.4315509796142578,
+      "learning_rate": 1.72505e-05,
+      "loss": 0.033,
+      "num_input_tokens_seen": 67071232,
+      "step": 65500
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 1.7525889873504639,
+      "learning_rate": 1.70005e-05,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 67583232,
+      "step": 66000
+    },
+    {
+      "epoch": 6.65,
+      "grad_norm": 1.3063749074935913,
+      "learning_rate": 1.6750499999999998e-05,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 68095232,
+      "step": 66500
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 1.0604239702224731,
+      "learning_rate": 1.6500500000000002e-05,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 68607232,
+      "step": 67000
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 1.3383687734603882,
+      "learning_rate": 1.6250500000000003e-05,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 69119232,
+      "step": 67500
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 1.843859314918518,
+      "learning_rate": 1.60005e-05,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 69631232,
+      "step": 68000
+    },
+    {
+      "epoch": 6.85,
+      "grad_norm": 1.956433653831482,
+      "learning_rate": 1.57505e-05,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 70143232,
+      "step": 68500
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 2.344168186187744,
+      "learning_rate": 1.5500500000000002e-05,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 70655232,
+      "step": 69000
+    },
+    {
+      "epoch": 6.95,
+      "grad_norm": 1.5573519468307495,
+      "learning_rate": 1.52505e-05,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 71167232,
+      "step": 69500
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.1548386812210083,
+      "learning_rate": 1.5000500000000001e-05,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 71679104,
+      "step": 70000
+    },
+    {
+      "epoch": 7.0,
+      "eval_combined_score": 0.18516436754953325,
+      "eval_loss": 0.18516436219215393,
+      "eval_mse": 0.1851643729069126,
+      "eval_runtime": 7.0539,
+      "eval_samples_per_second": 2835.299,
+      "eval_steps_per_second": 354.412,
+      "num_input_tokens_seen": 71679104,
+      "step": 70000
+    },
+    {
+      "epoch": 7.05,
+      "grad_norm": 1.4887698888778687,
+      "learning_rate": 1.47505e-05,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 72191104,
+      "step": 70500
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 1.1770190000534058,
+      "learning_rate": 1.45005e-05,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 72703104,
+      "step": 71000
+    },
+    {
+      "epoch": 7.15,
+      "grad_norm": 0.8513312339782715,
+      "learning_rate": 1.42505e-05,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 73215104,
+      "step": 71500
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.743748664855957,
+      "learning_rate": 1.40005e-05,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 73727104,
+      "step": 72000
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 2.1001296043395996,
+      "learning_rate": 1.37505e-05,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 74239104,
+      "step": 72500
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 2.2133898735046387,
+      "learning_rate": 1.3500499999999999e-05,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 74751104,
+      "step": 73000
+    },
+    {
+      "epoch": 7.35,
+      "grad_norm": 1.5228677988052368,
+      "learning_rate": 1.3250500000000001e-05,
+      "loss": 0.026,
+      "num_input_tokens_seen": 75263104,
+      "step": 73500
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 1.042326807975769,
+      "learning_rate": 1.3000500000000002e-05,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 75775104,
+      "step": 74000
+    },
+    {
+      "epoch": 7.45,
+      "grad_norm": 2.952548027038574,
+      "learning_rate": 1.2750500000000001e-05,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 76287104,
+      "step": 74500
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 3.490576982498169,
+      "learning_rate": 1.2500500000000002e-05,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 76799104,
+      "step": 75000
+    },
+    {
+      "epoch": 7.55,
+      "grad_norm": 1.804547905921936,
+      "learning_rate": 1.22505e-05,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 77311104,
+      "step": 75500
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.1144022941589355,
+      "learning_rate": 1.2000500000000001e-05,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 77823104,
+      "step": 76000
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 1.1987674236297607,
+      "learning_rate": 1.17505e-05,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 78335104,
+      "step": 76500
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 2.3036508560180664,
+      "learning_rate": 1.15005e-05,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 78847104,
+      "step": 77000
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 0.9033938050270081,
+      "learning_rate": 1.12505e-05,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 79359104,
+      "step": 77500
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 1.7020654678344727,
+      "learning_rate": 1.10005e-05,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 79871104,
+      "step": 78000
+    },
+    {
+      "epoch": 7.85,
+      "grad_norm": 3.093097448348999,
+      "learning_rate": 1.0750500000000002e-05,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 80383104,
+      "step": 78500
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 1.5874762535095215,
+      "learning_rate": 1.05005e-05,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 80895104,
+      "step": 79000
+    },
+    {
+      "epoch": 7.95,
+      "grad_norm": 1.178058385848999,
+      "learning_rate": 1.0250500000000001e-05,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 81407104,
+      "step": 79500
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 2.111694097518921,
+      "learning_rate": 1.00005e-05,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 81918976,
+      "step": 80000
+    },
+    {
+      "epoch": 8.0,
+      "eval_combined_score": 0.18399447017391748,
+      "eval_loss": 0.18399447202682495,
+      "eval_mse": 0.18399446832101002,
+      "eval_runtime": 7.0282,
+      "eval_samples_per_second": 2845.677,
+      "eval_steps_per_second": 355.71,
+      "num_input_tokens_seen": 81918976,
+      "step": 80000
+    },
+    {
+      "epoch": 8.05,
+      "grad_norm": 1.775572419166565,
+      "learning_rate": 9.7505e-06,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 82430976,
+      "step": 80500
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 2.352768659591675,
+      "learning_rate": 9.500500000000002e-06,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 82942976,
+      "step": 81000
+    },
+    {
+      "epoch": 8.15,
+      "grad_norm": 1.497861623764038,
+      "learning_rate": 9.2505e-06,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 83454976,
+      "step": 81500
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 2.0861403942108154,
+      "learning_rate": 9.000500000000001e-06,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 83966976,
+      "step": 82000
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 2.6044728755950928,
+      "learning_rate": 8.7505e-06,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 84478976,
+      "step": 82500
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 1.7525115013122559,
+      "learning_rate": 8.5005e-06,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 84990976,
+      "step": 83000
+    },
+    {
+      "epoch": 8.35,
+      "grad_norm": 5.014759540557861,
+      "learning_rate": 8.2505e-06,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 85502976,
+      "step": 83500
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.2806963920593262,
+      "learning_rate": 8.0005e-06,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 86014976,
+      "step": 84000
+    },
+    {
+      "epoch": 8.45,
+      "grad_norm": 1.6682835817337036,
+      "learning_rate": 7.750500000000001e-06,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 86526976,
+      "step": 84500
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 2.586468458175659,
+      "learning_rate": 7.5005000000000004e-06,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 87038976,
+      "step": 85000
+    },
+    {
+      "epoch": 8.55,
+      "grad_norm": 1.1163995265960693,
+      "learning_rate": 7.2505e-06,
+      "loss": 0.021,
+      "num_input_tokens_seen": 87550976,
+      "step": 85500
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 1.3840800523757935,
+      "learning_rate": 7.0005e-06,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 88062976,
+      "step": 86000
+    },
+    {
+      "epoch": 8.65,
+      "grad_norm": 2.503617763519287,
+      "learning_rate": 6.7505e-06,
+      "loss": 0.021,
+      "num_input_tokens_seen": 88574976,
+      "step": 86500
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.9129466414451599,
+      "learning_rate": 6.5005e-06,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 89086976,
+      "step": 87000
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.9430443644523621,
+      "learning_rate": 6.2505000000000005e-06,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 89598976,
+      "step": 87500
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 1.8605977296829224,
+      "learning_rate": 6.0005e-06,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 90110976,
+      "step": 88000
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 1.7093037366867065,
+      "learning_rate": 5.7505e-06,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 90622976,
+      "step": 88500
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 1.1300668716430664,
+      "learning_rate": 5.5005e-06,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 91134976,
+      "step": 89000
+    },
+    {
+      "epoch": 8.95,
+      "grad_norm": 1.529173493385315,
+      "learning_rate": 5.250500000000001e-06,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 91646976,
+      "step": 89500
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 2.0707693099975586,
+      "learning_rate": 5.000500000000001e-06,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 92158848,
+      "step": 90000
+    },
+    {
+      "epoch": 9.0,
+      "eval_combined_score": 0.17236512670393594,
+      "eval_loss": 0.17236514389514923,
+      "eval_mse": 0.17236512441388385,
+      "eval_runtime": 7.0087,
+      "eval_samples_per_second": 2853.589,
+      "eval_steps_per_second": 356.699,
+      "num_input_tokens_seen": 92158848,
+      "step": 90000
+    },
+    {
+      "epoch": 9.05,
+      "grad_norm": 2.7466800212860107,
+      "learning_rate": 4.7505000000000005e-06,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 92670848,
+      "step": 90500
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 2.3883421421051025,
+      "learning_rate": 4.5005e-06,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 93182848,
+      "step": 91000
+    },
+    {
+      "epoch": 9.15,
+      "grad_norm": 2.6846847534179688,
+      "learning_rate": 4.2505e-06,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 93694848,
+      "step": 91500
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 1.8421474695205688,
+      "learning_rate": 4.0005e-06,
+      "loss": 0.018,
+      "num_input_tokens_seen": 94206848,
+      "step": 92000
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 1.388693928718567,
+      "learning_rate": 3.7505e-06,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 94718848,
+      "step": 92500
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 1.4700050354003906,
+      "learning_rate": 3.5005e-06,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 95230848,
+      "step": 93000
+    },
+    {
+      "epoch": 9.35,
+      "grad_norm": 0.908022940158844,
+      "learning_rate": 3.2505e-06,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 95742848,
+      "step": 93500
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 1.2627387046813965,
+      "learning_rate": 3.0005000000000003e-06,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 96254848,
+      "step": 94000
+    },
+    {
+      "epoch": 9.45,
+      "grad_norm": 0.44914329051971436,
+      "learning_rate": 2.7505e-06,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 96766848,
+      "step": 94500
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.689420223236084,
+      "learning_rate": 2.5005e-06,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 97278848,
+      "step": 95000
+    },
+    {
+      "epoch": 9.55,
+      "grad_norm": 1.2363290786743164,
+      "learning_rate": 2.2505000000000003e-06,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 97790848,
+      "step": 95500
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.676801323890686,
+      "learning_rate": 2.0004999999999997e-06,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 98302848,
+      "step": 96000
+    },
+    {
+      "epoch": 9.65,
+      "grad_norm": 0.6555656790733337,
+      "learning_rate": 1.7505e-06,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 98814848,
+      "step": 96500
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 0.6341429948806763,
+      "learning_rate": 1.5005e-06,
+      "loss": 0.018,
+      "num_input_tokens_seen": 99326848,
+      "step": 97000
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 0.9721384644508362,
+      "learning_rate": 1.2505000000000001e-06,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 99838848,
+      "step": 97500
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 1.3599611520767212,
+      "learning_rate": 1.0005e-06,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 100350848,
+      "step": 98000
+    },
+    {
+      "epoch": 9.85,
+      "grad_norm": 1.1056464910507202,
+      "learning_rate": 7.505000000000001e-07,
+      "loss": 0.017,
+      "num_input_tokens_seen": 100862848,
+      "step": 98500
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 1.6119426488876343,
+      "learning_rate": 5.005e-07,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 101374848,
+      "step": 99000
+    },
+    {
+      "epoch": 9.95,
+      "grad_norm": 1.2073465585708618,
+      "learning_rate": 2.5049999999999997e-07,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 101886848,
+      "step": 99500
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.7742397785186768,
+      "learning_rate": 5e-10,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000
+    },
+    {
+      "epoch": 10.0,
+      "eval_combined_score": 0.17306020632561403,
+      "eval_loss": 0.17306020855903625,
+      "eval_mse": 0.1730602040921918,
+      "eval_runtime": 7.0331,
+      "eval_samples_per_second": 2843.716,
+      "eval_steps_per_second": 355.465,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000,
+      "total_flos": 6632842477232640.0,
+      "train_loss": 0.06995858280181885,
+      "train_runtime": 1201.7215,
+      "train_samples_per_second": 665.703,
+      "train_steps_per_second": 83.214,
+      "train_tokens_per_second": 85210.024
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 102398720,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6632842477232640.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f18daaeb0283bb83b1225fbc87dd8f7828a3b5524a0331d6e110ca4f9f22158
+size 5432

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff