{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 100.0,
  "global_step": 1100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0018203883495145632,
      "grad_norm": 3.6015546321868896,
      "learning_rate": 1.5151515151515152e-07,
      "loss": 0.5787061452865601,
      "memory(GiB)": 40.37,
      "step": 1,
      "token_acc": 0.8690476190476191,
      "train_speed(iter/s)": 0.029162
    },
    {
      "epoch": 0.009101941747572815,
      "grad_norm": 3.435741424560547,
      "learning_rate": 7.575757575757576e-07,
      "loss": 0.5881168842315674,
      "memory(GiB)": 40.37,
      "step": 5,
      "token_acc": 0.8701684836471755,
      "train_speed(iter/s)": 0.06174
    },
    {
      "epoch": 0.01820388349514563,
      "grad_norm": 3.448568105697632,
      "learning_rate": 1.5151515151515152e-06,
      "loss": 0.5851926326751709,
      "memory(GiB)": 40.39,
      "step": 10,
      "token_acc": 0.8622327790973872,
      "train_speed(iter/s)": 0.067399
    },
    {
      "epoch": 0.027305825242718445,
      "grad_norm": 3.405535936355591,
      "learning_rate": 2.2727272727272728e-06,
      "loss": 0.6001698970794678,
      "memory(GiB)": 40.39,
      "step": 15,
      "token_acc": 0.8716323296354992,
      "train_speed(iter/s)": 0.068625
    },
    {
      "epoch": 0.03640776699029126,
      "grad_norm": 3.6892027854919434,
      "learning_rate": 3.0303030303030305e-06,
      "loss": 0.5676679611206055,
      "memory(GiB)": 40.39,
      "step": 20,
      "token_acc": 0.8715305313243458,
      "train_speed(iter/s)": 0.069219
    },
    {
      "epoch": 0.04550970873786408,
      "grad_norm": 3.9115183353424072,
      "learning_rate": 3.7878787878787882e-06,
      "loss": 0.5411659717559815,
      "memory(GiB)": 40.39,
      "step": 25,
      "token_acc": 0.8685669041963578,
      "train_speed(iter/s)": 0.071459
    },
    {
      "epoch": 0.05461165048543689,
      "grad_norm": 3.357640027999878,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 0.4885613441467285,
      "memory(GiB)": 40.39,
      "step": 30,
      "token_acc": 0.8682539682539683,
      "train_speed(iter/s)": 0.072567
    },
    {
      "epoch": 0.06371359223300971,
      "grad_norm": 3.3015964031219482,
      "learning_rate": 4.999956654935265e-06,
      "loss": 0.4215705871582031,
      "memory(GiB)": 40.39,
      "step": 35,
      "token_acc": 0.8692551505546752,
      "train_speed(iter/s)": 0.07282
    },
    {
      "epoch": 0.07281553398058252,
      "grad_norm": 2.447498321533203,
      "learning_rate": 4.999469040218251e-06,
      "loss": 0.2957149982452393,
      "memory(GiB)": 40.39,
      "step": 40,
      "token_acc": 0.8690476190476191,
      "train_speed(iter/s)": 0.074291
    },
    {
      "epoch": 0.08191747572815535,
      "grad_norm": 0.8801060914993286,
      "learning_rate": 4.9984397354824345e-06,
      "loss": 0.21340658664703369,
      "memory(GiB)": 40.39,
      "step": 45,
      "token_acc": 0.9135606661379857,
      "train_speed(iter/s)": 0.074508
    },
    {
      "epoch": 0.09101941747572816,
      "grad_norm": 0.7226303815841675,
      "learning_rate": 4.996868963800831e-06,
      "loss": 0.1777859926223755,
      "memory(GiB)": 40.39,
      "step": 50,
      "token_acc": 0.9239904988123515,
      "train_speed(iter/s)": 0.075304
    },
    {
      "epoch": 0.10012135922330097,
      "grad_norm": 0.7329442501068115,
      "learning_rate": 4.99475706559428e-06,
      "loss": 0.17081427574157715,
      "memory(GiB)": 40.39,
      "step": 55,
      "token_acc": 0.9238699444885012,
      "train_speed(iter/s)": 0.075664
    },
    {
      "epoch": 0.10922330097087378,
      "grad_norm": 0.48636820912361145,
      "learning_rate": 4.992104498557657e-06,
      "loss": 0.15634163618087768,
      "memory(GiB)": 40.39,
      "step": 60,
      "token_acc": 0.9262490087232356,
      "train_speed(iter/s)": 0.076641
    },
    {
      "epoch": 0.1183252427184466,
      "grad_norm": 0.44267499446868896,
      "learning_rate": 4.988911837560691e-06,
      "loss": 0.1444383144378662,
      "memory(GiB)": 40.39,
      "step": 65,
      "token_acc": 0.9350237717908082,
      "train_speed(iter/s)": 0.074923
    },
    {
      "epoch": 0.12742718446601942,
      "grad_norm": 0.4311356544494629,
      "learning_rate": 4.985179774523375e-06,
      "loss": 0.14677078723907472,
      "memory(GiB)": 40.39,
      "step": 70,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 0.075087
    },
    {
      "epoch": 0.13652912621359223,
      "grad_norm": 0.3981742858886719,
      "learning_rate": 4.980909118266006e-06,
      "loss": 0.13511970043182372,
      "memory(GiB)": 40.39,
      "step": 75,
      "token_acc": 0.9484944532488114,
      "train_speed(iter/s)": 0.074414
    },
    {
      "epoch": 0.14563106796116504,
      "grad_norm": 0.4317033290863037,
      "learning_rate": 4.976100794333903e-06,
      "loss": 0.12185637950897217,
      "memory(GiB)": 40.39,
      "step": 80,
      "token_acc": 0.9627279936558287,
      "train_speed(iter/s)": 0.074464
    },
    {
      "epoch": 0.15473300970873785,
      "grad_norm": 0.3179706335067749,
      "learning_rate": 4.970755844796817e-06,
      "loss": 0.12840776443481444,
      "memory(GiB)": 40.39,
      "step": 85,
      "token_acc": 0.9492063492063492,
      "train_speed(iter/s)": 0.074996
    },
    {
      "epoch": 0.1638349514563107,
      "grad_norm": 0.3189823031425476,
      "learning_rate": 4.964875428023093e-06,
      "loss": 0.12376663684844971,
      "memory(GiB)": 40.39,
      "step": 90,
      "token_acc": 0.957936507936508,
      "train_speed(iter/s)": 0.075144
    },
    {
      "epoch": 0.1729368932038835,
      "grad_norm": 0.33377909660339355,
      "learning_rate": 4.958460818428627e-06,
      "loss": 0.11574116945266724,
      "memory(GiB)": 40.39,
      "step": 95,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 0.075617
    },
    {
      "epoch": 0.1820388349514563,
      "grad_norm": 0.4928111433982849,
      "learning_rate": 4.951513406200667e-06,
      "loss": 0.1149444341659546,
      "memory(GiB)": 40.39,
      "step": 100,
      "token_acc": 0.9508716323296355,
      "train_speed(iter/s)": 0.075828
    },
    {
      "epoch": 0.19114077669902912,
      "grad_norm": 0.3134707808494568,
      "learning_rate": 4.944034696996534e-06,
      "loss": 0.11119295358657837,
      "memory(GiB)": 40.39,
      "step": 105,
      "token_acc": 0.9595238095238096,
      "train_speed(iter/s)": 0.075066
    },
    {
      "epoch": 0.20024271844660194,
      "grad_norm": 0.2365858554840088,
      "learning_rate": 4.936026311617316e-06,
      "loss": 0.11442217826843262,
      "memory(GiB)": 40.39,
      "step": 110,
      "token_acc": 0.9588281868566905,
      "train_speed(iter/s)": 0.075061
    },
    {
      "epoch": 0.20934466019417475,
      "grad_norm": 0.3145173490047455,
      "learning_rate": 4.927489985656591e-06,
      "loss": 0.10322239398956298,
      "memory(GiB)": 40.39,
      "step": 115,
      "token_acc": 0.9658730158730159,
      "train_speed(iter/s)": 0.074479
    },
    {
      "epoch": 0.21844660194174756,
      "grad_norm": 0.33202633261680603,
      "learning_rate": 4.918427569124302e-06,
      "loss": 0.10661822557449341,
      "memory(GiB)": 40.39,
      "step": 120,
      "token_acc": 0.9556259904912837,
      "train_speed(iter/s)": 0.074637
    },
    {
      "epoch": 0.2275485436893204,
      "grad_norm": 0.3093946874141693,
      "learning_rate": 4.908841026045809e-06,
      "loss": 0.10065805912017822,
      "memory(GiB)": 40.39,
      "step": 125,
      "token_acc": 0.9540412044374009,
      "train_speed(iter/s)": 0.074905
    },
    {
      "epoch": 0.2366504854368932,
      "grad_norm": 0.39363232254981995,
      "learning_rate": 4.8987324340362445e-06,
      "loss": 0.114447021484375,
      "memory(GiB)": 40.39,
      "step": 130,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 0.075072
    },
    {
      "epoch": 0.24575242718446602,
      "grad_norm": 0.37065446376800537,
      "learning_rate": 4.888103983850245e-06,
      "loss": 0.10610785484313964,
      "memory(GiB)": 40.39,
      "step": 135,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 0.075167
    },
    {
      "epoch": 0.25485436893203883,
      "grad_norm": 0.542117714881897,
      "learning_rate": 4.876957978907176e-06,
      "loss": 0.0954114019870758,
      "memory(GiB)": 40.39,
      "step": 140,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.075346
    },
    {
      "epoch": 0.26395631067961167,
      "grad_norm": 0.3225058913230896,
      "learning_rate": 4.865296834791918e-06,
      "loss": 0.0959049105644226,
      "memory(GiB)": 40.39,
      "step": 145,
      "token_acc": 0.9587955625990491,
      "train_speed(iter/s)": 0.075467
    },
    {
      "epoch": 0.27305825242718446,
      "grad_norm": 0.3421016037464142,
      "learning_rate": 4.853123078731363e-06,
      "loss": 0.09874246120452881,
      "memory(GiB)": 40.39,
      "step": 150,
      "token_acc": 0.9650793650793651,
      "train_speed(iter/s)": 0.075618
    },
    {
      "epoch": 0.2821601941747573,
      "grad_norm": 0.3102968633174896,
      "learning_rate": 4.8404393490467085e-06,
      "loss": 0.09461469650268554,
      "memory(GiB)": 40.39,
      "step": 155,
      "token_acc": 0.9547977795400476,
      "train_speed(iter/s)": 0.075855
    },
    {
      "epoch": 0.2912621359223301,
      "grad_norm": 0.4729763865470886,
      "learning_rate": 4.827248394581672e-06,
      "loss": 0.10038878917694091,
      "memory(GiB)": 40.39,
      "step": 160,
      "token_acc": 0.9650793650793651,
      "train_speed(iter/s)": 0.075945
    },
    {
      "epoch": 0.3003640776699029,
      "grad_norm": 0.3695836365222931,
      "learning_rate": 4.813553074106761e-06,
      "loss": 0.09139147400856018,
      "memory(GiB)": 40.39,
      "step": 165,
      "token_acc": 0.9627279936558287,
      "train_speed(iter/s)": 0.075756
    },
    {
      "epoch": 0.3094660194174757,
      "grad_norm": 0.47110962867736816,
      "learning_rate": 4.799356355699708e-06,
      "loss": 0.09496045112609863,
      "memory(GiB)": 40.39,
      "step": 170,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.075898
    },
    {
      "epoch": 0.31856796116504854,
      "grad_norm": 0.3773088753223419,
      "learning_rate": 4.784661316102229e-06,
      "loss": 0.09658662080764771,
      "memory(GiB)": 40.4,
      "step": 175,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.075914
    },
    {
      "epoch": 0.3276699029126214,
      "grad_norm": 0.3394829034805298,
      "learning_rate": 4.769471140053221e-06,
      "loss": 0.08639374971389771,
      "memory(GiB)": 40.4,
      "step": 180,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.076076
    },
    {
      "epoch": 0.33677184466019416,
      "grad_norm": 0.4525506794452667,
      "learning_rate": 4.753789119598563e-06,
      "loss": 0.09742268323898315,
      "memory(GiB)": 40.4,
      "step": 185,
      "token_acc": 0.9587301587301588,
      "train_speed(iter/s)": 0.076177
    },
    {
      "epoch": 0.345873786407767,
      "grad_norm": 0.3789404332637787,
      "learning_rate": 4.737618653377651e-06,
      "loss": 0.09391134977340698,
      "memory(GiB)": 40.4,
      "step": 190,
      "token_acc": 0.9651070578905631,
      "train_speed(iter/s)": 0.07649
    },
    {
      "epoch": 0.3549757281553398,
      "grad_norm": 0.5464370250701904,
      "learning_rate": 4.720963245886846e-06,
      "loss": 0.0969527006149292,
      "memory(GiB)": 40.4,
      "step": 195,
      "token_acc": 0.9659270998415214,
      "train_speed(iter/s)": 0.076513
    },
    {
      "epoch": 0.3640776699029126,
      "grad_norm": 0.3459813892841339,
      "learning_rate": 4.703826506719964e-06,
      "loss": 0.08732333183288574,
      "memory(GiB)": 40.4,
      "step": 200,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.076587
    },
    {
      "epoch": 0.3731796116504854,
      "grad_norm": 0.3549191653728485,
      "learning_rate": 4.686212149786007e-06,
      "loss": 0.08515737056732178,
      "memory(GiB)": 40.4,
      "step": 205,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.076344
    },
    {
      "epoch": 0.38228155339805825,
      "grad_norm": 0.7434160709381104,
      "learning_rate": 4.668123992504267e-06,
      "loss": 0.09526927471160888,
      "memory(GiB)": 40.4,
      "step": 210,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.076513
    },
    {
      "epoch": 0.3913834951456311,
      "grad_norm": 0.464631587266922,
      "learning_rate": 4.649565954977015e-06,
      "loss": 0.09264343380928039,
      "memory(GiB)": 40.4,
      "step": 215,
      "token_acc": 0.9620253164556962,
      "train_speed(iter/s)": 0.076143
    },
    {
      "epoch": 0.40048543689320387,
      "grad_norm": 0.5145648121833801,
      "learning_rate": 4.630542059139923e-06,
      "loss": 0.09688866138458252,
      "memory(GiB)": 40.4,
      "step": 220,
      "token_acc": 0.9667458432304038,
      "train_speed(iter/s)": 0.076292
    },
    {
      "epoch": 0.4095873786407767,
      "grad_norm": 0.33657485246658325,
      "learning_rate": 4.611056427890428e-06,
      "loss": 0.09414277076721192,
      "memory(GiB)": 40.4,
      "step": 225,
      "token_acc": 0.9587301587301588,
      "train_speed(iter/s)": 0.076275
    },
    {
      "epoch": 0.4186893203883495,
      "grad_norm": 0.47585147619247437,
      "learning_rate": 4.5911132841942e-06,
      "loss": 0.08656486272811889,
      "memory(GiB)": 40.4,
      "step": 230,
      "token_acc": 0.9698651863600317,
      "train_speed(iter/s)": 0.076342
    },
    {
      "epoch": 0.42779126213592233,
      "grad_norm": 0.3516729176044464,
      "learning_rate": 4.570716950169944e-06,
      "loss": 0.08657894730567932,
      "memory(GiB)": 40.4,
      "step": 235,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 0.076493
    },
    {
      "epoch": 0.4368932038834951,
      "grad_norm": 0.48757559061050415,
      "learning_rate": 4.5498718461526895e-06,
      "loss": 0.09453780055046082,
      "memory(GiB)": 40.4,
      "step": 240,
      "token_acc": 0.9643705463182898,
      "train_speed(iter/s)": 0.07656
    },
    {
      "epoch": 0.44599514563106796,
      "grad_norm": 0.5283713936805725,
      "learning_rate": 4.528582489735818e-06,
      "loss": 0.08740494847297668,
      "memory(GiB)": 40.4,
      "step": 245,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 0.07663
    },
    {
      "epoch": 0.4550970873786408,
      "grad_norm": 0.3577844500541687,
      "learning_rate": 4.506853494791992e-06,
      "loss": 0.08014656901359558,
      "memory(GiB)": 40.4,
      "step": 250,
      "token_acc": 0.971473851030111,
      "train_speed(iter/s)": 0.076543
    },
    {
      "epoch": 0.4641990291262136,
      "grad_norm": 0.5026013851165771,
      "learning_rate": 4.484689570473232e-06,
      "loss": 0.08635783195495605,
      "memory(GiB)": 40.4,
      "step": 255,
      "token_acc": 0.9682791435368755,
      "train_speed(iter/s)": 0.076578
    },
    {
      "epoch": 0.4733009708737864,
      "grad_norm": 0.45232078433036804,
      "learning_rate": 4.462095520190336e-06,
      "loss": 0.08593440055847168,
      "memory(GiB)": 40.4,
      "step": 260,
      "token_acc": 0.9699367088607594,
      "train_speed(iter/s)": 0.076538
    },
    {
      "epoch": 0.4824029126213592,
      "grad_norm": 0.47390663623809814,
      "learning_rate": 4.43907624057188e-06,
      "loss": 0.08747667074203491,
      "memory(GiB)": 40.4,
      "step": 265,
      "token_acc": 0.9619047619047619,
      "train_speed(iter/s)": 0.076588
    },
    {
      "epoch": 0.49150485436893204,
      "grad_norm": 0.43587085604667664,
      "learning_rate": 4.415636720403005e-06,
      "loss": 0.08902972340583801,
      "memory(GiB)": 40.4,
      "step": 270,
      "token_acc": 0.9619349722442506,
      "train_speed(iter/s)": 0.076484
    },
    {
      "epoch": 0.5006067961165048,
      "grad_norm": 0.41671204566955566,
      "learning_rate": 4.391782039544239e-06,
      "loss": 0.08426393270492553,
      "memory(GiB)": 40.4,
      "step": 275,
      "token_acc": 0.9603489294210944,
      "train_speed(iter/s)": 0.076586
    },
    {
      "epoch": 0.5097087378640777,
      "grad_norm": 0.3852890133857727,
      "learning_rate": 4.367517367830581e-06,
      "loss": 0.08224607706069946,
      "memory(GiB)": 40.4,
      "step": 280,
      "token_acc": 0.9730372720063442,
      "train_speed(iter/s)": 0.0767
    },
    {
      "epoch": 0.5188106796116505,
      "grad_norm": 0.5980095863342285,
      "learning_rate": 4.342847963951085e-06,
      "loss": 0.09114923477172851,
      "memory(GiB)": 40.4,
      "step": 285,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 0.076804
    },
    {
      "epoch": 0.5279126213592233,
      "grad_norm": 0.5370866656303406,
      "learning_rate": 4.317779174309179e-06,
      "loss": 0.09176770448684693,
      "memory(GiB)": 40.4,
      "step": 290,
      "token_acc": 0.9595879556259905,
      "train_speed(iter/s)": 0.076902
    },
    {
      "epoch": 0.5370145631067961,
      "grad_norm": 0.5857056975364685,
      "learning_rate": 4.292316431863991e-06,
      "loss": 0.08232347965240479,
      "memory(GiB)": 40.4,
      "step": 295,
      "token_acc": 0.9635210150674068,
      "train_speed(iter/s)": 0.076861
    },
    {
      "epoch": 0.5461165048543689,
      "grad_norm": 0.45398032665252686,
      "learning_rate": 4.2664652549528995e-06,
      "loss": 0.0860186755657196,
      "memory(GiB)": 40.4,
      "step": 300,
      "token_acc": 0.9603174603174603,
      "train_speed(iter/s)": 0.076918
    },
    {
      "epoch": 0.5552184466019418,
      "grad_norm": 0.4008013904094696,
      "learning_rate": 4.240231246095593e-06,
      "loss": 0.08663930892944335,
      "memory(GiB)": 40.4,
      "step": 305,
      "token_acc": 0.9698651863600317,
      "train_speed(iter/s)": 0.076723
    },
    {
      "epoch": 0.5643203883495146,
      "grad_norm": 0.6199547052383423,
      "learning_rate": 4.213620090779877e-06,
      "loss": 0.08223216533660889,
      "memory(GiB)": 40.4,
      "step": 310,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.076805
    },
    {
      "epoch": 0.5734223300970874,
      "grad_norm": 0.37448298931121826,
      "learning_rate": 4.186637556229508e-06,
      "loss": 0.08296606540679932,
      "memory(GiB)": 40.4,
      "step": 315,
      "token_acc": 0.9666931007137193,
      "train_speed(iter/s)": 0.076708
    },
    {
      "epoch": 0.5825242718446602,
      "grad_norm": 0.4003507196903229,
      "learning_rate": 4.159289490154305e-06,
      "loss": 0.07931501269340516,
      "memory(GiB)": 40.4,
      "step": 320,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 0.076845
    },
    {
      "epoch": 0.591626213592233,
      "grad_norm": 0.49439844489097595,
      "learning_rate": 4.1315818194828196e-06,
      "loss": 0.08067693710327148,
      "memory(GiB)": 40.4,
      "step": 325,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.076875
    },
    {
      "epoch": 0.6007281553398058,
      "grad_norm": 0.584017813205719,
      "learning_rate": 4.1035205490778505e-06,
      "loss": 0.09277031421661378,
      "memory(GiB)": 40.4,
      "step": 330,
      "token_acc": 0.9595879556259905,
      "train_speed(iter/s)": 0.076692
    },
    {
      "epoch": 0.6098300970873787,
      "grad_norm": 0.47020280361175537,
      "learning_rate": 4.075111760435045e-06,
      "loss": 0.07749168276786804,
      "memory(GiB)": 40.4,
      "step": 335,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.076884
    },
    {
      "epoch": 0.6189320388349514,
      "grad_norm": 0.4876089096069336,
      "learning_rate": 4.046361610364913e-06,
      "loss": 0.07796428203582764,
      "memory(GiB)": 40.4,
      "step": 340,
      "token_acc": 0.9691699604743083,
      "train_speed(iter/s)": 0.076913
    },
    {
      "epoch": 0.6280339805825242,
      "grad_norm": 0.5511714220046997,
      "learning_rate": 4.017276329658506e-06,
      "loss": 0.08419817090034484,
      "memory(GiB)": 40.4,
      "step": 345,
      "token_acc": 0.9707278481012658,
      "train_speed(iter/s)": 0.07696
    },
    {
      "epoch": 0.6371359223300971,
      "grad_norm": 0.5659735798835754,
      "learning_rate": 3.987862221737072e-06,
      "loss": 0.0797402322292328,
      "memory(GiB)": 40.4,
      "step": 350,
      "token_acc": 0.9659270998415214,
      "train_speed(iter/s)": 0.076995
    },
    {
      "epoch": 0.6462378640776699,
      "grad_norm": 0.5157150030136108,
      "learning_rate": 3.958125661285959e-06,
      "loss": 0.0838176965713501,
      "memory(GiB)": 40.4,
      "step": 355,
      "token_acc": 0.9690721649484536,
      "train_speed(iter/s)": 0.076909
    },
    {
      "epoch": 0.6553398058252428,
      "grad_norm": 0.5069080591201782,
      "learning_rate": 3.928073092873088e-06,
      "loss": 0.07343612313270569,
      "memory(GiB)": 40.4,
      "step": 360,
      "token_acc": 0.9746233148295004,
      "train_speed(iter/s)": 0.076991
    },
    {
      "epoch": 0.6644417475728155,
      "grad_norm": 0.49923259019851685,
      "learning_rate": 3.897711029552264e-06,
      "loss": 0.07626074552536011,
      "memory(GiB)": 40.4,
      "step": 365,
      "token_acc": 0.9683544303797469,
      "train_speed(iter/s)": 0.076983
    },
    {
      "epoch": 0.6735436893203883,
      "grad_norm": 0.35883885622024536,
      "learning_rate": 3.8670460514516615e-06,
      "loss": 0.08405499458312989,
      "memory(GiB)": 40.4,
      "step": 370,
      "token_acc": 0.9635499207606973,
      "train_speed(iter/s)": 0.077013
    },
    {
      "epoch": 0.6826456310679612,
      "grad_norm": 0.4520786702632904,
      "learning_rate": 3.836084804347763e-06,
      "loss": 0.07998884916305542,
      "memory(GiB)": 40.4,
      "step": 375,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.07694
    },
    {
      "epoch": 0.691747572815534,
      "grad_norm": 0.47654658555984497,
      "learning_rate": 3.8048339982250705e-06,
      "loss": 0.08119775056838989,
      "memory(GiB)": 40.4,
      "step": 380,
      "token_acc": 0.9667194928684627,
      "train_speed(iter/s)": 0.077002
    },
    {
      "epoch": 0.7008495145631068,
      "grad_norm": 0.5640057325363159,
      "learning_rate": 3.773300405821908e-06,
      "loss": 0.08841820359230042,
      "memory(GiB)": 40.4,
      "step": 385,
      "token_acc": 0.9595559080095163,
      "train_speed(iter/s)": 0.077061
    },
    {
      "epoch": 0.7099514563106796,
      "grad_norm": 0.42381900548934937,
      "learning_rate": 3.7414908611626162e-06,
      "loss": 0.08166542053222656,
      "memory(GiB)": 40.4,
      "step": 390,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.077092
    },
    {
      "epoch": 0.7190533980582524,
      "grad_norm": 0.510867714881897,
      "learning_rate": 3.709412258076471e-06,
      "loss": 0.08081957101821899,
      "memory(GiB)": 40.4,
      "step": 395,
      "token_acc": 0.9699129057798892,
      "train_speed(iter/s)": 0.077233
    },
    {
      "epoch": 0.7281553398058253,
      "grad_norm": 0.5211343169212341,
      "learning_rate": 3.6770715487036413e-06,
      "loss": 0.08312466740608215,
      "memory(GiB)": 40.4,
      "step": 400,
      "token_acc": 0.9611419508326725,
      "train_speed(iter/s)": 0.077264
    },
    {
      "epoch": 0.7372572815533981,
      "grad_norm": 0.46672672033309937,
      "learning_rate": 3.644475741988499e-06,
      "loss": 0.08163590431213379,
      "memory(GiB)": 40.4,
      "step": 405,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.07706
    },
    {
      "epoch": 0.7463592233009708,
      "grad_norm": 0.4190872013568878,
      "learning_rate": 3.6116319021606345e-06,
      "loss": 0.08278034925460816,
      "memory(GiB)": 40.4,
      "step": 410,
      "token_acc": 0.9603803486529319,
      "train_speed(iter/s)": 0.077071
    },
    {
      "epoch": 0.7554611650485437,
      "grad_norm": 0.4177815318107605,
      "learning_rate": 3.5785471472038784e-06,
      "loss": 0.07709290385246277,
      "memory(GiB)": 40.4,
      "step": 415,
      "token_acc": 0.9714512291831879,
      "train_speed(iter/s)": 0.077076
    },
    {
      "epoch": 0.7645631067961165,
      "grad_norm": 0.7115554213523865,
      "learning_rate": 3.545228647313679e-06,
      "loss": 0.08126543164253235,
      "memory(GiB)": 40.4,
      "step": 420,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.07706
    },
    {
      "epoch": 0.7736650485436893,
      "grad_norm": 0.43985486030578613,
      "learning_rate": 3.5116836233431616e-06,
      "loss": 0.08477982282638549,
      "memory(GiB)": 40.4,
      "step": 425,
      "token_acc": 0.9628164556962026,
      "train_speed(iter/s)": 0.077154
    },
    {
      "epoch": 0.7827669902912622,
      "grad_norm": 0.48275941610336304,
      "learning_rate": 3.477919345238213e-06,
      "loss": 0.07978797554969788,
      "memory(GiB)": 40.4,
      "step": 430,
      "token_acc": 0.9627279936558287,
      "train_speed(iter/s)": 0.077173
    },
    {
      "epoch": 0.7918689320388349,
      "grad_norm": 0.5005500912666321,
      "learning_rate": 3.4439431304619207e-06,
      "loss": 0.07624109983444213,
      "memory(GiB)": 40.4,
      "step": 435,
      "token_acc": 0.9659270998415214,
      "train_speed(iter/s)": 0.077238
    },
    {
      "epoch": 0.8009708737864077,
      "grad_norm": 0.5146210789680481,
      "learning_rate": 3.4097623424087196e-06,
      "loss": 0.080259507894516,
      "memory(GiB)": 40.4,
      "step": 440,
      "token_acc": 0.9706582077716098,
      "train_speed(iter/s)": 0.077241
    },
    {
      "epoch": 0.8100728155339806,
      "grad_norm": 0.558778703212738,
      "learning_rate": 3.3753843888085806e-06,
      "loss": 0.07813260555267335,
      "memory(GiB)": 40.4,
      "step": 445,
      "token_acc": 0.9658730158730159,
      "train_speed(iter/s)": 0.077226
    },
    {
      "epoch": 0.8191747572815534,
      "grad_norm": 0.574676513671875,
      "learning_rate": 3.340816720121597e-06,
      "loss": 0.0761204183101654,
      "memory(GiB)": 40.4,
      "step": 450,
      "token_acc": 0.9691699604743083,
      "train_speed(iter/s)": 0.077059
    },
    {
      "epoch": 0.8282766990291263,
      "grad_norm": 0.5359216332435608,
      "learning_rate": 3.3060668279232964e-06,
      "loss": 0.07063559293746949,
      "memory(GiB)": 40.4,
      "step": 455,
      "token_acc": 0.9746233148295004,
      "train_speed(iter/s)": 0.077103
    },
    {
      "epoch": 0.837378640776699,
      "grad_norm": 0.5926820635795593,
      "learning_rate": 3.2711422432810624e-06,
      "loss": 0.07327613830566407,
      "memory(GiB)": 40.4,
      "step": 460,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.077136
    },
    {
      "epoch": 0.8464805825242718,
      "grad_norm": 0.4923359155654907,
      "learning_rate": 3.236050535121976e-06,
      "loss": 0.0849435031414032,
      "memory(GiB)": 40.4,
      "step": 465,
      "token_acc": 0.9628164556962026,
      "train_speed(iter/s)": 0.077175
    },
    {
      "epoch": 0.8555825242718447,
      "grad_norm": 0.5079782605171204,
      "learning_rate": 3.2007993085924694e-06,
      "loss": 0.07131590843200683,
      "memory(GiB)": 40.4,
      "step": 470,
      "token_acc": 0.9603489294210944,
      "train_speed(iter/s)": 0.077219
    },
    {
      "epoch": 0.8646844660194175,
      "grad_norm": 0.47359853982925415,
      "learning_rate": 3.165396203410121e-06,
      "loss": 0.08230514526367187,
      "memory(GiB)": 40.4,
      "step": 475,
      "token_acc": 0.9603489294210944,
      "train_speed(iter/s)": 0.077276
    },
    {
      "epoch": 0.8737864077669902,
      "grad_norm": 0.5094448328018188,
      "learning_rate": 3.1298488922079597e-06,
      "loss": 0.07572669386863709,
      "memory(GiB)": 40.4,
      "step": 480,
      "token_acc": 0.9683042789223455,
      "train_speed(iter/s)": 0.077301
    },
    {
      "epoch": 0.8828883495145631,
      "grad_norm": 0.6144260764122009,
      "learning_rate": 3.094165078871634e-06,
      "loss": 0.07770437002182007,
      "memory(GiB)": 40.4,
      "step": 485,
      "token_acc": 0.9674603174603175,
      "train_speed(iter/s)": 0.077291
    },
    {
      "epoch": 0.8919902912621359,
      "grad_norm": 0.7166838049888611,
      "learning_rate": 3.0583524968698176e-06,
      "loss": 0.07593016624450684,
      "memory(GiB)": 40.4,
      "step": 490,
      "token_acc": 0.9706582077716098,
      "train_speed(iter/s)": 0.077337
    },
    {
      "epoch": 0.9010922330097088,
      "grad_norm": 0.5843172073364258,
      "learning_rate": 3.0224189075781886e-06,
      "loss": 0.0753251850605011,
      "memory(GiB)": 40.4,
      "step": 495,
      "token_acc": 0.9675889328063241,
      "train_speed(iter/s)": 0.077398
    },
    {
      "epoch": 0.9101941747572816,
      "grad_norm": 0.4273771643638611,
      "learning_rate": 2.9863720985973697e-06,
      "loss": 0.07616569995880126,
      "memory(GiB)": 40.4,
      "step": 500,
      "token_acc": 0.9746031746031746,
      "train_speed(iter/s)": 0.077368
    },
    {
      "epoch": 0.9192961165048543,
      "grad_norm": 0.5440679788589478,
      "learning_rate": 2.9502198820651903e-06,
      "loss": 0.07991842031478882,
      "memory(GiB)": 40.4,
      "step": 505,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 0.077195
    },
    {
      "epoch": 0.9283980582524272,
      "grad_norm": 0.6545736789703369,
      "learning_rate": 2.9139700929636134e-06,
      "loss": 0.07855194211006164,
      "memory(GiB)": 40.4,
      "step": 510,
      "token_acc": 0.9587301587301588,
      "train_speed(iter/s)": 0.077178
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.5470529794692993,
      "learning_rate": 2.8776305874207305e-06,
      "loss": 0.07507063150405884,
      "memory(GiB)": 40.4,
      "step": 515,
      "token_acc": 0.9675376088677752,
      "train_speed(iter/s)": 0.077176
    },
    {
      "epoch": 0.9466019417475728,
      "grad_norm": 0.5262081623077393,
      "learning_rate": 2.8412092410081645e-06,
      "loss": 0.08568469285964966,
      "memory(GiB)": 40.4,
      "step": 520,
      "token_acc": 0.9659270998415214,
      "train_speed(iter/s)": 0.077164
    },
    {
      "epoch": 0.9557038834951457,
      "grad_norm": 0.48101773858070374,
      "learning_rate": 2.804713947034254e-06,
      "loss": 0.07408897280693054,
      "memory(GiB)": 40.4,
      "step": 525,
      "token_acc": 0.9715189873417721,
      "train_speed(iter/s)": 0.077248
    },
    {
      "epoch": 0.9648058252427184,
      "grad_norm": 0.7088754773139954,
      "learning_rate": 2.7681526148334074e-06,
      "loss": 0.07859846353530883,
      "memory(GiB)": 40.4,
      "step": 530,
      "token_acc": 0.9651070578905631,
      "train_speed(iter/s)": 0.077348
    },
    {
      "epoch": 0.9739077669902912,
      "grad_norm": 0.5357980728149414,
      "learning_rate": 2.73153316805197e-06,
      "loss": 0.07618768811225891,
      "memory(GiB)": 40.4,
      "step": 535,
      "token_acc": 0.9683042789223455,
      "train_speed(iter/s)": 0.077388
    },
    {
      "epoch": 0.9830097087378641,
      "grad_norm": 0.4719216823577881,
      "learning_rate": 2.6948635429309984e-06,
      "loss": 0.08283294439315796,
      "memory(GiB)": 40.4,
      "step": 540,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.077404
    },
    {
      "epoch": 0.9921116504854369,
      "grad_norm": 0.4105032980442047,
      "learning_rate": 2.6581516865863006e-06,
      "loss": 0.07635112404823304,
      "memory(GiB)": 40.4,
      "step": 545,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.077461
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4639950096607208,
      "learning_rate": 2.6214055552861213e-06,
      "loss": 0.07352917194366455,
      "memory(GiB)": 40.4,
      "step": 550,
      "token_acc": 0.9652014652014652,
      "train_speed(iter/s)": 0.077567
    },
    {
      "epoch": 1.0091019417475728,
      "grad_norm": 0.5708960294723511,
      "learning_rate": 2.5846331127268432e-06,
      "loss": 0.06939817667007446,
      "memory(GiB)": 40.4,
      "step": 555,
      "token_acc": 0.9746634996041171,
      "train_speed(iter/s)": 0.077516
    },
    {
      "epoch": 1.0182038834951457,
      "grad_norm": 0.5500112771987915,
      "learning_rate": 2.5478423283070797e-06,
      "loss": 0.08004761338233948,
      "memory(GiB)": 40.4,
      "step": 560,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.077461
    },
    {
      "epoch": 1.0273058252427185,
      "grad_norm": 0.6031087040901184,
      "learning_rate": 2.5110411754005277e-06,
      "loss": 0.07369757890701294,
      "memory(GiB)": 40.4,
      "step": 565,
      "token_acc": 0.9675118858954042,
      "train_speed(iter/s)": 0.077479
    },
    {
      "epoch": 1.0364077669902914,
      "grad_norm": 0.6123142242431641,
      "learning_rate": 2.4742376296279656e-06,
      "loss": 0.07673358917236328,
      "memory(GiB)": 40.4,
      "step": 570,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.077492
    },
    {
      "epoch": 1.045509708737864,
      "grad_norm": 0.4750412404537201,
      "learning_rate": 2.437439667128757e-06,
      "loss": 0.07482797503471375,
      "memory(GiB)": 40.4,
      "step": 575,
      "token_acc": 0.9722222222222222,
      "train_speed(iter/s)": 0.077462
    },
    {
      "epoch": 1.0546116504854368,
      "grad_norm": 0.6936323642730713,
      "learning_rate": 2.4006552628322495e-06,
      "loss": 0.07669172286987305,
      "memory(GiB)": 40.4,
      "step": 580,
      "token_acc": 0.9698890649762282,
      "train_speed(iter/s)": 0.077497
    },
    {
      "epoch": 1.0637135922330097,
      "grad_norm": 0.5415986180305481,
      "learning_rate": 2.3638923887294252e-06,
      "loss": 0.07764337062835694,
      "memory(GiB)": 40.4,
      "step": 585,
      "token_acc": 0.9722662440570523,
      "train_speed(iter/s)": 0.077534
    },
    {
      "epoch": 1.0728155339805825,
      "grad_norm": 0.5562268495559692,
      "learning_rate": 2.3271590121452034e-06,
      "loss": 0.07850711941719055,
      "memory(GiB)": 40.4,
      "step": 590,
      "token_acc": 0.9627575277337559,
      "train_speed(iter/s)": 0.077312
    },
    {
      "epoch": 1.0819174757281553,
      "grad_norm": 0.5438592433929443,
      "learning_rate": 2.2904630940117383e-06,
      "loss": 0.07206880450248718,
      "memory(GiB)": 40.4,
      "step": 595,
      "token_acc": 0.9706582077716098,
      "train_speed(iter/s)": 0.077329
    },
    {
      "epoch": 1.0910194174757282,
      "grad_norm": 0.7570096254348755,
      "learning_rate": 2.253812587143113e-06,
      "loss": 0.07922015190124512,
      "memory(GiB)": 40.4,
      "step": 600,
      "token_acc": 0.9675632911392406,
      "train_speed(iter/s)": 0.077373
    },
    {
      "epoch": 1.100121359223301,
      "grad_norm": 0.44248196482658386,
      "learning_rate": 2.2172154345117896e-06,
      "loss": 0.07421438097953796,
      "memory(GiB)": 40.4,
      "step": 605,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.077227
    },
    {
      "epoch": 1.1092233009708738,
      "grad_norm": 0.8693225383758545,
      "learning_rate": 2.18067956752719e-06,
      "loss": 0.07179425954818726,
      "memory(GiB)": 40.4,
      "step": 610,
      "token_acc": 0.9738302934179223,
      "train_speed(iter/s)": 0.077227
    },
    {
      "epoch": 1.1183252427184467,
      "grad_norm": 0.6093197464942932,
      "learning_rate": 2.1442129043167877e-06,
      "loss": 0.07261105179786682,
      "memory(GiB)": 40.4,
      "step": 615,
      "token_acc": 0.972244250594766,
      "train_speed(iter/s)": 0.077265
    },
    {
      "epoch": 1.1274271844660193,
      "grad_norm": 0.47732552886009216,
      "learning_rate": 2.1078233480100708e-06,
      "loss": 0.07763968706130982,
      "memory(GiB)": 40.4,
      "step": 620,
      "token_acc": 0.9746233148295004,
      "train_speed(iter/s)": 0.077083
    },
    {
      "epoch": 1.1365291262135921,
      "grad_norm": 0.6436070799827576,
      "learning_rate": 2.0715187850257645e-06,
      "loss": 0.07869491577148438,
      "memory(GiB)": 40.4,
      "step": 625,
      "token_acc": 0.9675632911392406,
      "train_speed(iter/s)": 0.077031
    },
    {
      "epoch": 1.145631067961165,
      "grad_norm": 0.6669154167175293,
      "learning_rate": 2.0353070833626684e-06,
      "loss": 0.07925596237182617,
      "memory(GiB)": 40.4,
      "step": 630,
      "token_acc": 0.964314036478985,
      "train_speed(iter/s)": 0.077048
    },
    {
      "epoch": 1.1547330097087378,
      "grad_norm": 0.6365996599197388,
      "learning_rate": 1.999196090894485e-06,
      "loss": 0.06456078886985779,
      "memory(GiB)": 40.4,
      "step": 635,
      "token_acc": 0.9667194928684627,
      "train_speed(iter/s)": 0.077101
    },
    {
      "epoch": 1.1638349514563107,
      "grad_norm": 0.5614244341850281,
      "learning_rate": 1.963193633669018e-06,
      "loss": 0.07243520021438599,
      "memory(GiB)": 40.4,
      "step": 640,
      "token_acc": 0.9666931007137193,
      "train_speed(iter/s)": 0.077155
    },
    {
      "epoch": 1.1729368932038835,
      "grad_norm": 0.8191459774971008,
      "learning_rate": 1.927307514212089e-06,
      "loss": 0.0762752890586853,
      "memory(GiB)": 40.4,
      "step": 645,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.077153
    },
    {
      "epoch": 1.1820388349514563,
      "grad_norm": 0.523980438709259,
      "learning_rate": 1.8915455098365651e-06,
      "loss": 0.0773351550102234,
      "memory(GiB)": 40.4,
      "step": 650,
      "token_acc": 0.9675118858954042,
      "train_speed(iter/s)": 0.077211
    },
    {
      "epoch": 1.1911407766990292,
      "grad_norm": 0.5650423169136047,
      "learning_rate": 1.8559153709568393e-06,
      "loss": 0.07858687043190002,
      "memory(GiB)": 40.4,
      "step": 655,
      "token_acc": 0.9635499207606973,
      "train_speed(iter/s)": 0.077253
    },
    {
      "epoch": 1.200242718446602,
      "grad_norm": 0.3905327022075653,
      "learning_rate": 1.8204248194091429e-06,
      "loss": 0.07570682168006897,
      "memory(GiB)": 40.4,
      "step": 660,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077222
    },
    {
      "epoch": 1.2093446601941746,
      "grad_norm": 0.6456849575042725,
      "learning_rate": 1.7850815467780616e-06,
      "loss": 0.06978952884674072,
      "memory(GiB)": 40.4,
      "step": 665,
      "token_acc": 0.976984126984127,
      "train_speed(iter/s)": 0.077238
    },
    {
      "epoch": 1.2184466019417475,
      "grad_norm": 0.49169182777404785,
      "learning_rate": 1.7498932127295892e-06,
      "loss": 0.06932756900787354,
      "memory(GiB)": 40.4,
      "step": 670,
      "token_acc": 0.9674603174603175,
      "train_speed(iter/s)": 0.077305
    },
    {
      "epoch": 1.2275485436893203,
      "grad_norm": 0.8174545764923096,
      "learning_rate": 1.7148674433511176e-06,
      "loss": 0.07247714400291443,
      "memory(GiB)": 40.4,
      "step": 675,
      "token_acc": 0.9785714285714285,
      "train_speed(iter/s)": 0.077358
    },
    {
      "epoch": 1.2366504854368932,
      "grad_norm": 0.5874563455581665,
      "learning_rate": 1.6800118294986936e-06,
      "loss": 0.08156619668006897,
      "memory(GiB)": 40.4,
      "step": 680,
      "token_acc": 0.9619952494061758,
      "train_speed(iter/s)": 0.077379
    },
    {
      "epoch": 1.245752427184466,
      "grad_norm": 0.7023929357528687,
      "learning_rate": 1.645333925151908e-06,
      "loss": 0.0740778088569641,
      "memory(GiB)": 40.4,
      "step": 685,
      "token_acc": 0.9643423137876387,
      "train_speed(iter/s)": 0.077282
    },
    {
      "epoch": 1.2548543689320388,
      "grad_norm": 0.6284681558609009,
      "learning_rate": 1.610841245776789e-06,
      "loss": 0.07937963008880615,
      "memory(GiB)": 40.4,
      "step": 690,
      "token_acc": 0.9682791435368755,
      "train_speed(iter/s)": 0.077267
    },
    {
      "epoch": 1.2639563106796117,
      "grad_norm": 0.4900761544704437,
      "learning_rate": 1.5765412666970302e-06,
      "loss": 0.07481481432914734,
      "memory(GiB)": 40.4,
      "step": 695,
      "token_acc": 0.9714512291831879,
      "train_speed(iter/s)": 0.077241
    },
    {
      "epoch": 1.2730582524271845,
      "grad_norm": 0.7159978747367859,
      "learning_rate": 1.5424414214739258e-06,
      "loss": 0.07213735580444336,
      "memory(GiB)": 40.4,
      "step": 700,
      "token_acc": 0.9738302934179223,
      "train_speed(iter/s)": 0.077237
    },
    {
      "epoch": 1.2821601941747574,
      "grad_norm": 0.6261754631996155,
      "learning_rate": 1.5085491002953535e-06,
      "loss": 0.07179176211357116,
      "memory(GiB)": 40.4,
      "step": 705,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.077083
    },
    {
      "epoch": 1.29126213592233,
      "grad_norm": 0.9063695073127747,
      "learning_rate": 1.4748716483741562e-06,
      "loss": 0.07754602432250976,
      "memory(GiB)": 40.4,
      "step": 710,
      "token_acc": 0.96513470681458,
      "train_speed(iter/s)": 0.077061
    },
    {
      "epoch": 1.300364077669903,
      "grad_norm": 0.6574028134346008,
      "learning_rate": 1.4414163643562755e-06,
      "loss": 0.07884335517883301,
      "memory(GiB)": 40.4,
      "step": 715,
      "token_acc": 0.9675376088677752,
      "train_speed(iter/s)": 0.077069
    },
    {
      "epoch": 1.3094660194174756,
      "grad_norm": 0.5524230599403381,
      "learning_rate": 1.4081904987389701e-06,
      "loss": 0.07660083174705505,
      "memory(GiB)": 40.4,
      "step": 720,
      "token_acc": 0.9635210150674068,
      "train_speed(iter/s)": 0.077072
    },
    {
      "epoch": 1.3185679611650485,
      "grad_norm": 0.5381263494491577,
      "learning_rate": 1.375201252299479e-06,
      "loss": 0.07187164425849915,
      "memory(GiB)": 40.4,
      "step": 725,
      "token_acc": 0.9690966719492868,
      "train_speed(iter/s)": 0.077084
    },
    {
      "epoch": 1.3276699029126213,
      "grad_norm": 0.6094266176223755,
      "learning_rate": 1.3424557745344508e-06,
      "loss": 0.07152368426322937,
      "memory(GiB)": 40.4,
      "step": 730,
      "token_acc": 0.9690966719492868,
      "train_speed(iter/s)": 0.07712
    },
    {
      "epoch": 1.3367718446601942,
      "grad_norm": 0.37662273645401,
      "learning_rate": 1.3099611621104875e-06,
      "loss": 0.07852091193199158,
      "memory(GiB)": 40.4,
      "step": 735,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.077111
    },
    {
      "epoch": 1.345873786407767,
      "grad_norm": 0.8660151958465576,
      "learning_rate": 1.2777244573261479e-06,
      "loss": 0.0761515736579895,
      "memory(GiB)": 40.4,
      "step": 740,
      "token_acc": 0.9650793650793651,
      "train_speed(iter/s)": 0.077083
    },
    {
      "epoch": 1.3549757281553398,
      "grad_norm": 0.8635317087173462,
      "learning_rate": 1.245752646585719e-06,
      "loss": 0.07429265975952148,
      "memory(GiB)": 40.4,
      "step": 745,
      "token_acc": 0.9706582077716098,
      "train_speed(iter/s)": 0.077017
    },
    {
      "epoch": 1.3640776699029127,
      "grad_norm": 0.6921953558921814,
      "learning_rate": 1.214052658885113e-06,
      "loss": 0.08055119514465332,
      "memory(GiB)": 40.4,
      "step": 750,
      "token_acc": 0.9659000793021412,
      "train_speed(iter/s)": 0.07705
    },
    {
      "epoch": 1.3731796116504853,
      "grad_norm": 0.512025773525238,
      "learning_rate": 1.182631364310199e-06,
      "loss": 0.07414981126785278,
      "memory(GiB)": 40.4,
      "step": 755,
      "token_acc": 0.9738095238095238,
      "train_speed(iter/s)": 0.077125
    },
    {
      "epoch": 1.3822815533980584,
      "grad_norm": 0.47374847531318665,
      "learning_rate": 1.1514955725479057e-06,
      "loss": 0.07829545140266418,
      "memory(GiB)": 40.4,
      "step": 760,
      "token_acc": 0.9675118858954042,
      "train_speed(iter/s)": 0.077061
    },
    {
      "epoch": 1.391383495145631,
      "grad_norm": 0.5193628072738647,
      "learning_rate": 1.1206520314104083e-06,
      "loss": 0.06979748606681824,
      "memory(GiB)": 40.4,
      "step": 765,
      "token_acc": 0.9730799683293745,
      "train_speed(iter/s)": 0.077097
    },
    {
      "epoch": 1.4004854368932038,
      "grad_norm": 0.5398116707801819,
      "learning_rate": 1.0901074253727338e-06,
      "loss": 0.07316485643386841,
      "memory(GiB)": 40.4,
      "step": 770,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077134
    },
    {
      "epoch": 1.4095873786407767,
      "grad_norm": 0.9198482036590576,
      "learning_rate": 1.0598683741240861e-06,
      "loss": 0.0778656005859375,
      "memory(GiB)": 40.4,
      "step": 775,
      "token_acc": 0.9714512291831879,
      "train_speed(iter/s)": 0.077187
    },
    {
      "epoch": 1.4186893203883495,
      "grad_norm": 0.5479600429534912,
      "learning_rate": 1.0299414311332107e-06,
      "loss": 0.0758398413658142,
      "memory(GiB)": 40.4,
      "step": 780,
      "token_acc": 0.9706582077716098,
      "train_speed(iter/s)": 0.077204
    },
    {
      "epoch": 1.4277912621359223,
      "grad_norm": 0.562239944934845,
      "learning_rate": 1.0003330822281188e-06,
      "loss": 0.08118345737457275,
      "memory(GiB)": 40.4,
      "step": 785,
      "token_acc": 0.9658730158730159,
      "train_speed(iter/s)": 0.077197
    },
    {
      "epoch": 1.4368932038834952,
      "grad_norm": 0.608139157295227,
      "learning_rate": 9.710497441904614e-07,
      "loss": 0.07277892231941223,
      "memory(GiB)": 40.4,
      "step": 790,
      "token_acc": 0.9739130434782609,
      "train_speed(iter/s)": 0.077169
    },
    {
      "epoch": 1.445995145631068,
      "grad_norm": 0.6108372807502747,
      "learning_rate": 9.420977633648739e-07,
      "loss": 0.0743071436882019,
      "memory(GiB)": 40.4,
      "step": 795,
      "token_acc": 0.9651070578905631,
      "train_speed(iter/s)": 0.077195
    },
    {
      "epoch": 1.4550970873786409,
      "grad_norm": 0.5900782346725464,
      "learning_rate": 9.134834142835794e-07,
      "loss": 0.07513993978500366,
      "memory(GiB)": 40.4,
      "step": 800,
      "token_acc": 0.9738302934179223,
      "train_speed(iter/s)": 0.07724
    },
    {
      "epoch": 1.4641990291262137,
      "grad_norm": 0.5346866846084595,
      "learning_rate": 8.852128983065653e-07,
      "loss": 0.07092651724815369,
      "memory(GiB)": 40.4,
      "step": 805,
      "token_acc": 0.9722662440570523,
      "train_speed(iter/s)": 0.077133
    },
    {
      "epoch": 1.4733009708737863,
      "grad_norm": 0.504199743270874,
      "learning_rate": 8.572923422776055e-07,
      "loss": 0.07900516986846924,
      "memory(GiB)": 40.4,
      "step": 810,
      "token_acc": 0.9524564183835182,
      "train_speed(iter/s)": 0.077129
    },
    {
      "epoch": 1.4824029126213591,
      "grad_norm": 0.5348660349845886,
      "learning_rate": 8.297277971964443e-07,
      "loss": 0.07192928791046142,
      "memory(GiB)": 40.4,
      "step": 815,
      "token_acc": 0.9706349206349206,
      "train_speed(iter/s)": 0.077153
    },
    {
      "epoch": 1.491504854368932,
      "grad_norm": 0.7142664194107056,
      "learning_rate": 8.025252369074077e-07,
      "loss": 0.07966341972351074,
      "memory(GiB)": 40.4,
      "step": 820,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 0.077158
    },
    {
      "epoch": 1.5006067961165048,
      "grad_norm": 0.670011579990387,
      "learning_rate": 7.756905568047393e-07,
      "loss": 0.07460339069366455,
      "memory(GiB)": 40.4,
      "step": 825,
      "token_acc": 0.9698412698412698,
      "train_speed(iter/s)": 0.077072
    },
    {
      "epoch": 1.5097087378640777,
      "grad_norm": 0.9091220498085022,
      "learning_rate": 7.492295725549423e-07,
      "loss": 0.07916736602783203,
      "memory(GiB)": 40.4,
      "step": 830,
      "token_acc": 0.9714512291831879,
      "train_speed(iter/s)": 0.077125
    },
    {
      "epoch": 1.5188106796116505,
      "grad_norm": 0.5154448747634888,
      "learning_rate": 7.231480188363906e-07,
      "loss": 0.07609822750091552,
      "memory(GiB)": 40.4,
      "step": 835,
      "token_acc": 0.9619047619047619,
      "train_speed(iter/s)": 0.077151
    },
    {
      "epoch": 1.5279126213592233,
      "grad_norm": 0.5767259001731873,
      "learning_rate": 6.974515480965038e-07,
      "loss": 0.07642306089401245,
      "memory(GiB)": 40.4,
      "step": 840,
      "token_acc": 0.9635499207606973,
      "train_speed(iter/s)": 0.077169
    },
    {
      "epoch": 1.537014563106796,
      "grad_norm": 0.559921145439148,
      "learning_rate": 6.721457293267344e-07,
      "loss": 0.07739580273628235,
      "memory(GiB)": 40.4,
      "step": 845,
      "token_acc": 0.9659540775930324,
      "train_speed(iter/s)": 0.077202
    },
    {
      "epoch": 1.546116504854369,
      "grad_norm": 0.5525022745132446,
      "learning_rate": 6.472360468556419e-07,
      "loss": 0.07661284804344178,
      "memory(GiB)": 40.4,
      "step": 850,
      "token_acc": 0.9690966719492868,
      "train_speed(iter/s)": 0.077223
    },
    {
      "epoch": 1.5552184466019416,
      "grad_norm": 0.7156991958618164,
      "learning_rate": 6.227278991603239e-07,
      "loss": 0.07607601881027222,
      "memory(GiB)": 40.4,
      "step": 855,
      "token_acc": 0.9738924050632911,
      "train_speed(iter/s)": 0.077263
    },
    {
      "epoch": 1.5643203883495147,
      "grad_norm": 0.578790009021759,
      "learning_rate": 5.986265976964412e-07,
      "loss": 0.07703717947006225,
      "memory(GiB)": 40.4,
      "step": 860,
      "token_acc": 0.9627575277337559,
      "train_speed(iter/s)": 0.077321
    },
    {
      "epoch": 1.5734223300970873,
      "grad_norm": 0.41067153215408325,
      "learning_rate": 5.749373657471127e-07,
      "loss": 0.07262166738510131,
      "memory(GiB)": 40.4,
      "step": 865,
      "token_acc": 0.9666931007137193,
      "train_speed(iter/s)": 0.077313
    },
    {
      "epoch": 1.5825242718446602,
      "grad_norm": 0.6594594120979309,
      "learning_rate": 5.516653372909142e-07,
      "loss": 0.07546203732490539,
      "memory(GiB)": 40.4,
      "step": 870,
      "token_acc": 0.9730799683293745,
      "train_speed(iter/s)": 0.077321
    },
    {
      "epoch": 1.591626213592233,
      "grad_norm": 0.6693688035011292,
      "learning_rate": 5.28815555889228e-07,
      "loss": 0.07242462635040284,
      "memory(GiB)": 40.4,
      "step": 875,
      "token_acc": 0.9714964370546318,
      "train_speed(iter/s)": 0.077315
    },
    {
      "epoch": 1.6007281553398058,
      "grad_norm": 0.5314414501190186,
      "learning_rate": 5.063929735931985e-07,
      "loss": 0.07621661424636841,
      "memory(GiB)": 40.4,
      "step": 880,
      "token_acc": 0.9746634996041171,
      "train_speed(iter/s)": 0.077305
    },
    {
      "epoch": 1.6098300970873787,
      "grad_norm": 0.39022502303123474,
      "learning_rate": 4.844024498705072e-07,
      "loss": 0.07379111647605896,
      "memory(GiB)": 40.4,
      "step": 885,
      "token_acc": 0.9770023790642347,
      "train_speed(iter/s)": 0.077319
    },
    {
      "epoch": 1.6189320388349513,
      "grad_norm": 0.5611955523490906,
      "learning_rate": 4.6284875055222415e-07,
      "loss": 0.07641223073005676,
      "memory(GiB)": 40.4,
      "step": 890,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.07736
    },
    {
      "epoch": 1.6280339805825244,
      "grad_norm": 0.5914463996887207,
      "learning_rate": 4.4173654679994543e-07,
      "loss": 0.07118785977363587,
      "memory(GiB)": 40.4,
      "step": 895,
      "token_acc": 0.9666931007137193,
      "train_speed(iter/s)": 0.077387
    },
    {
      "epoch": 1.637135922330097,
      "grad_norm": 0.6131768226623535,
      "learning_rate": 4.2107041409344686e-07,
      "loss": 0.06656063199043274,
      "memory(GiB)": 40.4,
      "step": 900,
      "token_acc": 0.9730586370839936,
      "train_speed(iter/s)": 0.077393
    },
    {
      "epoch": 1.64623786407767,
      "grad_norm": 0.6083477139472961,
      "learning_rate": 4.00854831239082e-07,
      "loss": 0.07548041343688965,
      "memory(GiB)": 40.4,
      "step": 905,
      "token_acc": 0.9706814580031695,
      "train_speed(iter/s)": 0.07732
    },
    {
      "epoch": 1.6553398058252426,
      "grad_norm": 0.5123993158340454,
      "learning_rate": 3.8109417939912044e-07,
      "loss": 0.07632001638412475,
      "memory(GiB)": 40.4,
      "step": 910,
      "token_acc": 0.9651070578905631,
      "train_speed(iter/s)": 0.07734
    },
    {
      "epoch": 1.6644417475728155,
      "grad_norm": 0.6305170655250549,
      "learning_rate": 3.617927411422584e-07,
      "loss": 0.07312512397766113,
      "memory(GiB)": 40.4,
      "step": 915,
      "token_acc": 0.9675376088677752,
      "train_speed(iter/s)": 0.077345
    },
    {
      "epoch": 1.6735436893203883,
      "grad_norm": 0.5339434742927551,
      "learning_rate": 3.4295469951548894e-07,
      "loss": 0.06849889755249024,
      "memory(GiB)": 40.4,
      "step": 920,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077349
    },
    {
      "epoch": 1.6826456310679612,
      "grad_norm": 0.532629132270813,
      "learning_rate": 3.24584137137543e-07,
      "loss": 0.07681695818901062,
      "memory(GiB)": 40.4,
      "step": 925,
      "token_acc": 0.9722222222222222,
      "train_speed(iter/s)": 0.077356
    },
    {
      "epoch": 1.691747572815534,
      "grad_norm": 0.4466962516307831,
      "learning_rate": 3.0668503531409876e-07,
      "loss": 0.06994915008544922,
      "memory(GiB)": 40.4,
      "step": 930,
      "token_acc": 0.9714964370546318,
      "train_speed(iter/s)": 0.077371
    },
    {
      "epoch": 1.7008495145631068,
      "grad_norm": 0.586765706539154,
      "learning_rate": 2.892612731749414e-07,
      "loss": 0.07494070529937744,
      "memory(GiB)": 40.4,
      "step": 935,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.077342
    },
    {
      "epoch": 1.7099514563106797,
      "grad_norm": 0.5412377715110779,
      "learning_rate": 2.723166268332733e-07,
      "loss": 0.07770473957061767,
      "memory(GiB)": 40.4,
      "step": 940,
      "token_acc": 0.9676145339652449,
      "train_speed(iter/s)": 0.077329
    },
    {
      "epoch": 1.7190533980582523,
      "grad_norm": 0.911586582660675,
      "learning_rate": 2.55854768567346e-07,
      "loss": 0.07914371490478515,
      "memory(GiB)": 40.4,
      "step": 945,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077298
    },
    {
      "epoch": 1.7281553398058254,
      "grad_norm": 0.6137750148773193,
      "learning_rate": 2.3987926602459465e-07,
      "loss": 0.08327807188034057,
      "memory(GiB)": 40.4,
      "step": 950,
      "token_acc": 0.9706349206349206,
      "train_speed(iter/s)": 0.077305
    },
    {
      "epoch": 1.737257281553398,
      "grad_norm": 0.576627790927887,
      "learning_rate": 2.2439358144845464e-07,
      "loss": 0.08012324571609497,
      "memory(GiB)": 40.4,
      "step": 955,
      "token_acc": 0.9643423137876387,
      "train_speed(iter/s)": 0.077328
    },
    {
      "epoch": 1.7463592233009708,
      "grad_norm": 0.6456671953201294,
      "learning_rate": 2.09401070928012e-07,
      "loss": 0.06627861261367798,
      "memory(GiB)": 40.4,
      "step": 960,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 0.077243
    },
    {
      "epoch": 1.7554611650485437,
      "grad_norm": 0.6002473831176758,
      "learning_rate": 1.9490498367066817e-07,
      "loss": 0.071403968334198,
      "memory(GiB)": 40.4,
      "step": 965,
      "token_acc": 0.9682791435368755,
      "train_speed(iter/s)": 0.077258
    },
    {
      "epoch": 1.7645631067961165,
      "grad_norm": 0.7518230080604553,
      "learning_rate": 1.8090846129796586e-07,
      "loss": 0.07573525905609131,
      "memory(GiB)": 40.4,
      "step": 970,
      "token_acc": 0.9722222222222222,
      "train_speed(iter/s)": 0.077252
    },
    {
      "epoch": 1.7736650485436893,
      "grad_norm": 0.41464531421661377,
      "learning_rate": 1.6741453716472677e-07,
      "loss": 0.07870721817016602,
      "memory(GiB)": 40.4,
      "step": 975,
      "token_acc": 0.9627870150435471,
      "train_speed(iter/s)": 0.077259
    },
    {
      "epoch": 1.7827669902912622,
      "grad_norm": 0.7254371643066406,
      "learning_rate": 1.5442613570165993e-07,
      "loss": 0.08646805882453919,
      "memory(GiB)": 40.4,
      "step": 980,
      "token_acc": 0.9611419508326725,
      "train_speed(iter/s)": 0.077274
    },
    {
      "epoch": 1.791868932038835,
      "grad_norm": 0.7164713740348816,
      "learning_rate": 1.4194607178157237e-07,
      "loss": 0.07055433988571166,
      "memory(GiB)": 40.4,
      "step": 985,
      "token_acc": 0.9706349206349206,
      "train_speed(iter/s)": 0.077341
    },
    {
      "epoch": 1.8009708737864076,
      "grad_norm": 0.5821430087089539,
      "learning_rate": 1.2997705010932394e-07,
      "loss": 0.07743188142776489,
      "memory(GiB)": 40.4,
      "step": 990,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077362
    },
    {
      "epoch": 1.8100728155339807,
      "grad_norm": 0.766345739364624,
      "learning_rate": 1.1852166463565767e-07,
      "loss": 0.07668507099151611,
      "memory(GiB)": 40.4,
      "step": 995,
      "token_acc": 0.9770023790642347,
      "train_speed(iter/s)": 0.077362
    },
    {
      "epoch": 1.8191747572815533,
      "grad_norm": 0.5379170179367065,
      "learning_rate": 1.0758239799503412e-07,
      "loss": 0.06778880357742309,
      "memory(GiB)": 40.4,
      "step": 1000,
      "token_acc": 0.9746233148295004,
      "train_speed(iter/s)": 0.077358
    },
    {
      "epoch": 1.8282766990291264,
      "grad_norm": 0.587326169013977,
      "learning_rate": 9.716162096759019e-08,
      "loss": 0.07784827947616577,
      "memory(GiB)": 40.4,
      "step": 1005,
      "token_acc": 0.9770206022187005,
      "train_speed(iter/s)": 0.077289
    },
    {
      "epoch": 1.837378640776699,
      "grad_norm": 0.5790999531745911,
      "learning_rate": 8.726159196533718e-08,
      "loss": 0.07364106178283691,
      "memory(GiB)": 40.4,
      "step": 1010,
      "token_acc": 0.9730372720063442,
      "train_speed(iter/s)": 0.077306
    },
    {
      "epoch": 1.8464805825242718,
      "grad_norm": 0.5765237808227539,
      "learning_rate": 7.788445654271532e-08,
      "loss": 0.07042239308357238,
      "memory(GiB)": 40.4,
      "step": 1015,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 0.077338
    },
    {
      "epoch": 1.8555825242718447,
      "grad_norm": 0.4627252221107483,
      "learning_rate": 6.903224693160348e-08,
      "loss": 0.06837155222892762,
      "memory(GiB)": 40.4,
      "step": 1020,
      "token_acc": 0.9754358161648178,
      "train_speed(iter/s)": 0.077366
    },
    {
      "epoch": 1.8646844660194175,
      "grad_norm": 0.5963551998138428,
      "learning_rate": 6.070688160088961e-08,
      "loss": 0.0674078106880188,
      "memory(GiB)": 40.4,
      "step": 1025,
      "token_acc": 0.9659270998415214,
      "train_speed(iter/s)": 0.077385
    },
    {
      "epoch": 1.8737864077669903,
      "grad_norm": 0.6391610503196716,
      "learning_rate": 5.291016484069683e-08,
      "loss": 0.07277075052261353,
      "memory(GiB)": 40.4,
      "step": 1030,
      "token_acc": 0.9659540775930324,
      "train_speed(iter/s)": 0.077401
    },
    {
      "epoch": 1.882888349514563,
      "grad_norm": 0.5019727945327759,
      "learning_rate": 4.564378637135408e-08,
      "loss": 0.0752260446548462,
      "memory(GiB)": 40.4,
      "step": 1035,
      "token_acc": 0.9682791435368755,
      "train_speed(iter/s)": 0.077434
    },
    {
      "epoch": 1.891990291262136,
      "grad_norm": 0.4186345040798187,
      "learning_rate": 3.890932097719624e-08,
      "loss": 0.06725120544433594,
      "memory(GiB)": 40.4,
      "step": 1040,
      "token_acc": 0.9730799683293745,
      "train_speed(iter/s)": 0.077451
    },
    {
      "epoch": 1.9010922330097086,
      "grad_norm": 0.6359046697616577,
      "learning_rate": 3.270822816527325e-08,
      "loss": 0.07682465314865113,
      "memory(GiB)": 40.4,
      "step": 1045,
      "token_acc": 0.969047619047619,
      "train_speed(iter/s)": 0.077498
    },
    {
      "epoch": 1.9101941747572817,
      "grad_norm": 0.5813617706298828,
      "learning_rate": 2.7041851849043678e-08,
      "loss": 0.0773731827735901,
      "memory(GiB)": 40.4,
      "step": 1050,
      "token_acc": 0.9674861221252974,
      "train_speed(iter/s)": 0.077486
    },
    {
      "epoch": 1.9192961165048543,
      "grad_norm": 0.4645262062549591,
      "learning_rate": 2.1911420057117994e-08,
      "loss": 0.07277056574821472,
      "memory(GiB)": 40.4,
      "step": 1055,
      "token_acc": 0.9690721649484536,
      "train_speed(iter/s)": 0.077447
    },
    {
      "epoch": 1.9283980582524272,
      "grad_norm": 0.8828046917915344,
      "learning_rate": 1.7318044667119226e-08,
      "loss": 0.07312785387039185,
      "memory(GiB)": 40.4,
      "step": 1060,
      "token_acc": 0.9675118858954042,
      "train_speed(iter/s)": 0.077476
    },
    {
      "epoch": 1.9375,
      "grad_norm": 0.8438335657119751,
      "learning_rate": 1.3262721164712667e-08,
      "loss": 0.07410634756088257,
      "memory(GiB)": 40.4,
      "step": 1065,
      "token_acc": 0.9698651863600317,
      "train_speed(iter/s)": 0.077482
    },
    {
      "epoch": 1.9466019417475728,
      "grad_norm": 0.6822603344917297,
      "learning_rate": 9.746328427863993e-09,
      "loss": 0.0720213532447815,
      "memory(GiB)": 40.4,
      "step": 1070,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 0.077488
    },
    {
      "epoch": 1.9557038834951457,
      "grad_norm": 0.5685479640960693,
      "learning_rate": 6.769628536364981e-09,
      "loss": 0.07333976030349731,
      "memory(GiB)": 40.4,
      "step": 1075,
      "token_acc": 0.973015873015873,
      "train_speed(iter/s)": 0.077502
    },
    {
      "epoch": 1.9648058252427183,
      "grad_norm": 0.5445531606674194,
      "learning_rate": 4.333266606676711e-09,
      "loss": 0.07253679037094116,
      "memory(GiB)": 40.4,
      "step": 1080,
      "token_acc": 0.9730586370839936,
      "train_speed(iter/s)": 0.077494
    },
    {
      "epoch": 1.9739077669902914,
      "grad_norm": 0.6113319993019104,
      "learning_rate": 2.4377706521164224e-09,
      "loss": 0.07309662699699401,
      "memory(GiB)": 40.4,
      "step": 1085,
      "token_acc": 0.9722222222222222,
      "train_speed(iter/s)": 0.077475
    },
    {
      "epoch": 1.983009708737864,
      "grad_norm": 0.5483999252319336,
      "learning_rate": 1.0835514684262583e-09,
      "loss": 0.07428893446922302,
      "memory(GiB)": 40.4,
      "step": 1090,
      "token_acc": 0.9690966719492868,
      "train_speed(iter/s)": 0.077464
    },
    {
      "epoch": 1.992111650485437,
      "grad_norm": 0.6084752082824707,
      "learning_rate": 2.7090254474421154e-10,
      "loss": 0.07023123502731324,
      "memory(GiB)": 40.4,
      "step": 1095,
      "token_acc": 0.9786223277909739,
      "train_speed(iter/s)": 0.077453
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5853410363197327,
      "learning_rate": 0.0,
      "loss": 0.0724187433719635,
      "memory(GiB)": 40.4,
      "step": 1100,
      "token_acc": 0.9679780420860018,
      "train_speed(iter/s)": 0.077495
    }
  ],
  "logging_steps": 5,
  "max_steps": 1100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.488531281539498e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}