{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 169,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "grad_norm": 0.0,
      "learning_rate": 1.1764705882352942e-05,
      "loss": 0.0,
      "step": 1
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.0,
      "learning_rate": 5.882352941176471e-05,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.0,
      "learning_rate": 0.00011764705882352942,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.0,
      "learning_rate": 0.00017647058823529413,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.0,
      "learning_rate": 0.00019980782984658683,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.0,
      "learning_rate": 0.00019863613034027224,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.0,
      "learning_rate": 0.00019641197940012137,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.0,
      "learning_rate": 0.0001931591088051279,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.0,
      "learning_rate": 0.00018891222681391851,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0,
      "learning_rate": 0.00018371664782625287,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.0,
      "learning_rate": 0.00017762780887657574,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.0,
      "learning_rate": 0.00017071067811865476,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.0,
      "learning_rate": 0.0001630390616127955,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.0,
      "learning_rate": 0.00015469481581224272,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.0,
      "learning_rate": 0.00014576697415156817,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.0,
      "learning_rate": 0.00013635079705638298,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.0,
      "learning_rate": 0.00012654675551080724,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.0,
      "learning_rate": 0.00011645945902807341,
      "loss": 0.0,
      "step": 85
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.0,
      "learning_rate": 0.00010619653946285947,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.0,
      "learning_rate": 9.586750257511867e-05,
      "loss": 0.0,
      "step": 95
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.0,
      "learning_rate": 8.558255959926533e-05,
      "loss": 0.0,
      "step": 100
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.12880966827007057,
      "learning_rate": 7.54514512859201e-05,
      "loss": 1.0027,
      "step": 105
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.14001392203512125,
      "learning_rate": 6.558227696373616e-05,
      "loss": 0.9444,
      "step": 110
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.12257540700873092,
      "learning_rate": 5.608034111526298e-05,
      "loss": 0.9391,
      "step": 115
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.10258883604180073,
      "learning_rate": 4.704702977392914e-05,
      "loss": 0.9445,
      "step": 120
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.09966688521531793,
      "learning_rate": 3.857872873103322e-05,
      "loss": 0.9297,
      "step": 125
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.1035526819388082,
      "learning_rate": 3.076579509551703e-05,
      "loss": 0.9057,
      "step": 130
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.11002875944900231,
      "learning_rate": 2.3691593180019366e-05,
      "loss": 0.9289,
      "step": 135
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.1027152936441796,
      "learning_rate": 1.7431605000344432e-05,
      "loss": 0.9144,
      "step": 140
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.10255020728392107,
      "learning_rate": 1.2052624879351104e-05,
      "loss": 0.9387,
      "step": 145
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.09518319981765283,
      "learning_rate": 7.612046748871327e-06,
      "loss": 0.91,
      "step": 150
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09123485986396436,
      "learning_rate": 4.1572517541747294e-06,
      "loss": 0.9117,
      "step": 155
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08918631551036811,
      "learning_rate": 1.725102695264058e-06,
      "loss": 0.9036,
      "step": 160
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.0885021056473718,
      "learning_rate": 3.415506993330153e-07,
      "loss": 0.9128,
      "step": 165
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.1359375715255737,
      "eval_runtime": 199.43,
      "eval_samples_per_second": 11.583,
      "eval_steps_per_second": 0.727,
      "step": 169
    },
    {
      "epoch": 1.0,
      "step": 169,
      "total_flos": 2113310740709376.0,
      "train_loss": 0.3776494539701022,
      "train_runtime": 1381.9799,
      "train_samples_per_second": 15.625,
      "train_steps_per_second": 0.122
    }
  ],
  "logging_steps": 5,
  "max_steps": 169,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 2113310740709376.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}