{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0896,
  "eval_steps": 500,
  "global_step": 280,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0032,
      "grad_norm": 4.78125,
      "learning_rate": 0.0002,
      "loss": 1.6865,
      "mean_token_accuracy": 0.7141881015151739,
      "step": 10
    },
    {
      "epoch": 0.0064,
      "grad_norm": 2.484375,
      "learning_rate": 0.0002,
      "loss": 0.2383,
      "mean_token_accuracy": 0.9389770030975342,
      "step": 20
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002,
      "loss": 0.1771,
      "mean_token_accuracy": 0.9514472480863333,
      "step": 30
    },
    {
      "epoch": 0.0128,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002,
      "loss": 0.1385,
      "mean_token_accuracy": 0.9621186684817076,
      "step": 40
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0002,
      "loss": 0.1472,
      "mean_token_accuracy": 0.959737740084529,
      "step": 50
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002,
      "loss": 0.1239,
      "mean_token_accuracy": 0.9676816973835229,
      "step": 60
    },
    {
      "epoch": 0.0224,
      "grad_norm": 8.4375,
      "learning_rate": 0.0002,
      "loss": 0.1692,
      "mean_token_accuracy": 0.9596517980098724,
      "step": 70
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002,
      "loss": 0.1695,
      "mean_token_accuracy": 0.955390990152955,
      "step": 80
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002,
      "loss": 0.1952,
      "mean_token_accuracy": 0.951576828211546,
      "step": 90
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002,
      "loss": 0.1916,
      "mean_token_accuracy": 0.9542262557893991,
      "step": 100
    },
    {
      "epoch": 0.0352,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002,
      "loss": 0.1783,
      "mean_token_accuracy": 0.9507110416889191,
      "step": 110
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002,
      "loss": 0.1992,
      "mean_token_accuracy": 0.9558953423053026,
      "step": 120
    },
    {
      "epoch": 0.0416,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002,
      "loss": 0.1534,
      "mean_token_accuracy": 0.9608125623315573,
      "step": 130
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002,
      "loss": 0.1754,
      "mean_token_accuracy": 0.9582266382873058,
      "step": 140
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002,
      "loss": 0.1612,
      "mean_token_accuracy": 0.9624919727444649,
      "step": 150
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002,
      "loss": 0.1369,
      "mean_token_accuracy": 0.9629792932420969,
      "step": 160
    },
    {
      "epoch": 0.0544,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.1268,
      "mean_token_accuracy": 0.9662946160882712,
      "step": 170
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002,
      "loss": 0.1519,
      "mean_token_accuracy": 0.958920207619667,
      "step": 180
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002,
      "loss": 0.148,
      "mean_token_accuracy": 0.9597034122794866,
      "step": 190
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002,
      "loss": 0.14,
      "mean_token_accuracy": 0.9626606646925211,
      "step": 200
    },
    {
      "epoch": 0.0672,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002,
      "loss": 0.1439,
      "mean_token_accuracy": 0.9604123305529356,
      "step": 210
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002,
      "loss": 0.1418,
      "mean_token_accuracy": 0.9620478328317403,
      "step": 220
    },
    {
      "epoch": 0.0736,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002,
      "loss": 0.1349,
      "mean_token_accuracy": 0.9651719588786364,
      "step": 230
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002,
      "loss": 0.14,
      "mean_token_accuracy": 0.9625752348452806,
      "step": 240
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002,
      "loss": 0.1432,
      "mean_token_accuracy": 0.9653844181448221,
      "step": 250
    },
    {
      "epoch": 0.0832,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002,
      "loss": 0.1681,
      "mean_token_accuracy": 0.9573917351663113,
      "step": 260
    },
    {
      "epoch": 0.0864,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002,
      "loss": 0.1754,
      "mean_token_accuracy": 0.9602566070854663,
      "step": 270
    },
    {
      "epoch": 0.0896,
      "grad_norm": 7.1875,
      "learning_rate": 0.0002,
      "loss": 0.1525,
      "mean_token_accuracy": 0.9619421176612377,
      "step": 280
    }
  ],
  "logging_steps": 10,
  "max_steps": 3125,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9.313354959706829e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}