behemoth-1.2-distill / trainer_state.json

Upload 6 files

9ddbf48 verified 8 months ago

76.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 0,
	"global_step": 452,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004424778761061947,
	"grad_norm": 0.057373046875,
	"learning_rate": 0.00039911504424778763,
	"loss": 1.3739,
	"step": 1
	},
	{
	"epoch": 0.008849557522123894,
	"grad_norm": 0.1201171875,
	"learning_rate": 0.00039823008849557525,
	"loss": 1.4091,
	"step": 2
	},
	{
	"epoch": 0.01327433628318584,
	"grad_norm": 0.0751953125,
	"learning_rate": 0.00039734513274336286,
	"loss": 1.2628,
	"step": 3
	},
	{
	"epoch": 0.017699115044247787,
	"grad_norm": 0.064453125,
	"learning_rate": 0.0003964601769911505,
	"loss": 1.1101,
	"step": 4
	},
	{
	"epoch": 0.022123893805309734,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.0003955752212389381,
	"loss": 1.344,
	"step": 5
	},
	{
	"epoch": 0.02654867256637168,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.00039469026548672565,
	"loss": 1.1884,
	"step": 6
	},
	{
	"epoch": 0.030973451327433628,
	"grad_norm": 0.0625,
	"learning_rate": 0.0003938053097345133,
	"loss": 1.1329,
	"step": 7
	},
	{
	"epoch": 0.035398230088495575,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.0003929203539823009,
	"loss": 1.138,
	"step": 8
	},
	{
	"epoch": 0.03982300884955752,
	"grad_norm": 0.0625,
	"learning_rate": 0.00039203539823008855,
	"loss": 1.0113,
	"step": 9
	},
	{
	"epoch": 0.04424778761061947,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.0003911504424778761,
	"loss": 1.087,
	"step": 10
	},
	{
	"epoch": 0.048672566371681415,
	"grad_norm": 0.046630859375,
	"learning_rate": 0.0003902654867256637,
	"loss": 1.1459,
	"step": 11
	},
	{
	"epoch": 0.05309734513274336,
	"grad_norm": 0.03662109375,
	"learning_rate": 0.00038938053097345134,
	"loss": 1.1421,
	"step": 12
	},
	{
	"epoch": 0.05752212389380531,
	"grad_norm": 0.035888671875,
	"learning_rate": 0.00038849557522123895,
	"loss": 1.175,
	"step": 13
	},
	{
	"epoch": 0.061946902654867256,
	"grad_norm": 0.037109375,
	"learning_rate": 0.00038761061946902657,
	"loss": 1.2099,
	"step": 14
	},
	{
	"epoch": 0.06637168141592921,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0003867256637168142,
	"loss": 1.1295,
	"step": 15
	},
	{
	"epoch": 0.07079646017699115,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.00038584070796460174,
	"loss": 1.0737,
	"step": 16
	},
	{
	"epoch": 0.0752212389380531,
	"grad_norm": 0.037109375,
	"learning_rate": 0.0003849557522123894,
	"loss": 1.1563,
	"step": 17
	},
	{
	"epoch": 0.07964601769911504,
	"grad_norm": 0.039306640625,
	"learning_rate": 0.000384070796460177,
	"loss": 1.1061,
	"step": 18
	},
	{
	"epoch": 0.084070796460177,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.00038318584070796464,
	"loss": 1.1052,
	"step": 19
	},
	{
	"epoch": 0.08849557522123894,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.00038230088495575226,
	"loss": 1.0009,
	"step": 20
	},
	{
	"epoch": 0.09292035398230089,
	"grad_norm": 0.041015625,
	"learning_rate": 0.0003814159292035398,
	"loss": 0.9805,
	"step": 21
	},
	{
	"epoch": 0.09734513274336283,
	"grad_norm": 0.03173828125,
	"learning_rate": 0.0003805309734513275,
	"loss": 1.1098,
	"step": 22
	},
	{
	"epoch": 0.10176991150442478,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.00037964601769911505,
	"loss": 1.0691,
	"step": 23
	},
	{
	"epoch": 0.10619469026548672,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00037876106194690266,
	"loss": 1.2944,
	"step": 24
	},
	{
	"epoch": 0.11061946902654868,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.0003778761061946903,
	"loss": 1.0819,
	"step": 25
	},
	{
	"epoch": 0.11504424778761062,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0003769911504424779,
	"loss": 1.215,
	"step": 26
	},
	{
	"epoch": 0.11946902654867257,
	"grad_norm": 0.041015625,
	"learning_rate": 0.0003761061946902655,
	"loss": 1.0624,
	"step": 27
	},
	{
	"epoch": 0.12389380530973451,
	"grad_norm": 0.03271484375,
	"learning_rate": 0.0003752212389380531,
	"loss": 1.0258,
	"step": 28
	},
	{
	"epoch": 0.12831858407079647,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00037433628318584073,
	"loss": 1.0544,
	"step": 29
	},
	{
	"epoch": 0.13274336283185842,
	"grad_norm": 0.035400390625,
	"learning_rate": 0.00037345132743362835,
	"loss": 1.0203,
	"step": 30
	},
	{
	"epoch": 0.13716814159292035,
	"grad_norm": 0.05810546875,
	"learning_rate": 0.0003725663716814159,
	"loss": 1.1584,
	"step": 31
	},
	{
	"epoch": 0.1415929203539823,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0003716814159292036,
	"loss": 0.9215,
	"step": 32
	},
	{
	"epoch": 0.14601769911504425,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.0003707964601769912,
	"loss": 1.1255,
	"step": 33
	},
	{
	"epoch": 0.1504424778761062,
	"grad_norm": 0.053466796875,
	"learning_rate": 0.00036991150442477875,
	"loss": 1.3504,
	"step": 34
	},
	{
	"epoch": 0.15486725663716813,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.0003690265486725664,
	"loss": 1.0819,
	"step": 35
	},
	{
	"epoch": 0.1592920353982301,
	"grad_norm": 0.041259765625,
	"learning_rate": 0.000368141592920354,
	"loss": 1.2328,
	"step": 36
	},
	{
	"epoch": 0.16371681415929204,
	"grad_norm": 0.04345703125,
	"learning_rate": 0.00036725663716814165,
	"loss": 1.1783,
	"step": 37
	},
	{
	"epoch": 0.168141592920354,
	"grad_norm": 0.044189453125,
	"learning_rate": 0.0003663716814159292,
	"loss": 1.105,
	"step": 38
	},
	{
	"epoch": 0.17256637168141592,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.0003654867256637168,
	"loss": 1.1757,
	"step": 39
	},
	{
	"epoch": 0.17699115044247787,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00036460176991150444,
	"loss": 1.1601,
	"step": 40
	},
	{
	"epoch": 0.18141592920353983,
	"grad_norm": 0.04296875,
	"learning_rate": 0.00036371681415929205,
	"loss": 0.9869,
	"step": 41
	},
	{
	"epoch": 0.18584070796460178,
	"grad_norm": 0.05419921875,
	"learning_rate": 0.00036283185840707967,
	"loss": 1.0769,
	"step": 42
	},
	{
	"epoch": 0.1902654867256637,
	"grad_norm": 0.0361328125,
	"learning_rate": 0.0003619469026548673,
	"loss": 1.015,
	"step": 43
	},
	{
	"epoch": 0.19469026548672566,
	"grad_norm": 0.03564453125,
	"learning_rate": 0.00036106194690265484,
	"loss": 0.9435,
	"step": 44
	},
	{
	"epoch": 0.19911504424778761,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.0003601769911504425,
	"loss": 1.1832,
	"step": 45
	},
	{
	"epoch": 0.20353982300884957,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.00035929203539823007,
	"loss": 1.1826,
	"step": 46
	},
	{
	"epoch": 0.2079646017699115,
	"grad_norm": 0.0625,
	"learning_rate": 0.00035840707964601774,
	"loss": 1.02,
	"step": 47
	},
	{
	"epoch": 0.21238938053097345,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.0003575221238938053,
	"loss": 1.0803,
	"step": 48
	},
	{
	"epoch": 0.2168141592920354,
	"grad_norm": 0.041015625,
	"learning_rate": 0.0003566371681415929,
	"loss": 1.021,
	"step": 49
	},
	{
	"epoch": 0.22123893805309736,
	"grad_norm": 0.041015625,
	"learning_rate": 0.0003557522123893806,
	"loss": 1.0058,
	"step": 50
	},
	{
	"epoch": 0.22566371681415928,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.00035486725663716814,
	"loss": 1.0489,
	"step": 51
	},
	{
	"epoch": 0.23008849557522124,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.0003539823008849558,
	"loss": 0.986,
	"step": 52
	},
	{
	"epoch": 0.2345132743362832,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.00035309734513274337,
	"loss": 1.0928,
	"step": 53
	},
	{
	"epoch": 0.23893805309734514,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.000352212389380531,
	"loss": 1.0037,
	"step": 54
	},
	{
	"epoch": 0.24336283185840707,
	"grad_norm": 0.035888671875,
	"learning_rate": 0.0003513274336283186,
	"loss": 1.0165,
	"step": 55
	},
	{
	"epoch": 0.24778761061946902,
	"grad_norm": 0.046630859375,
	"learning_rate": 0.0003504424778761062,
	"loss": 0.9856,
	"step": 56
	},
	{
	"epoch": 0.252212389380531,
	"grad_norm": 0.0390625,
	"learning_rate": 0.00034955752212389383,
	"loss": 1.0988,
	"step": 57
	},
	{
	"epoch": 0.25663716814159293,
	"grad_norm": 0.035400390625,
	"learning_rate": 0.00034867256637168145,
	"loss": 0.9983,
	"step": 58
	},
	{
	"epoch": 0.2610619469026549,
	"grad_norm": 0.0390625,
	"learning_rate": 0.000347787610619469,
	"loss": 1.0727,
	"step": 59
	},
	{
	"epoch": 0.26548672566371684,
	"grad_norm": 0.0380859375,
	"learning_rate": 0.0003469026548672567,
	"loss": 0.9617,
	"step": 60
	},
	{
	"epoch": 0.26991150442477874,
	"grad_norm": 0.04638671875,
	"learning_rate": 0.00034601769911504423,
	"loss": 1.1435,
	"step": 61
	},
	{
	"epoch": 0.2743362831858407,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.0003451327433628319,
	"loss": 1.0895,
	"step": 62
	},
	{
	"epoch": 0.27876106194690264,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00034424778761061946,
	"loss": 1.0823,
	"step": 63
	},
	{
	"epoch": 0.2831858407079646,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.0003433628318584071,
	"loss": 1.1119,
	"step": 64
	},
	{
	"epoch": 0.28761061946902655,
	"grad_norm": 0.0576171875,
	"learning_rate": 0.00034247787610619475,
	"loss": 1.2428,
	"step": 65
	},
	{
	"epoch": 0.2920353982300885,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.0003415929203539823,
	"loss": 0.9943,
	"step": 66
	},
	{
	"epoch": 0.29646017699115046,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.0003407079646017699,
	"loss": 1.3215,
	"step": 67
	},
	{
	"epoch": 0.3008849557522124,
	"grad_norm": 0.03515625,
	"learning_rate": 0.00033982300884955754,
	"loss": 0.9997,
	"step": 68
	},
	{
	"epoch": 0.3053097345132743,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.00033893805309734515,
	"loss": 0.9796,
	"step": 69
	},
	{
	"epoch": 0.30973451327433627,
	"grad_norm": 0.044677734375,
	"learning_rate": 0.00033805309734513277,
	"loss": 1.1079,
	"step": 70
	},
	{
	"epoch": 0.3141592920353982,
	"grad_norm": 0.041259765625,
	"learning_rate": 0.0003371681415929204,
	"loss": 1.0242,
	"step": 71
	},
	{
	"epoch": 0.3185840707964602,
	"grad_norm": 0.04638671875,
	"learning_rate": 0.000336283185840708,
	"loss": 1.0227,
	"step": 72
	},
	{
	"epoch": 0.3230088495575221,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.0003353982300884956,
	"loss": 0.9375,
	"step": 73
	},
	{
	"epoch": 0.3274336283185841,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.00033451327433628317,
	"loss": 1.0104,
	"step": 74
	},
	{
	"epoch": 0.33185840707964603,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.00033362831858407084,
	"loss": 1.1685,
	"step": 75
	},
	{
	"epoch": 0.336283185840708,
	"grad_norm": 0.051513671875,
	"learning_rate": 0.0003327433628318584,
	"loss": 1.2954,
	"step": 76
	},
	{
	"epoch": 0.3407079646017699,
	"grad_norm": 0.0517578125,
	"learning_rate": 0.000331858407079646,
	"loss": 0.9816,
	"step": 77
	},
	{
	"epoch": 0.34513274336283184,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.00033097345132743363,
	"loss": 1.0791,
	"step": 78
	},
	{
	"epoch": 0.3495575221238938,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.00033008849557522124,
	"loss": 1.0989,
	"step": 79
	},
	{
	"epoch": 0.35398230088495575,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00032920353982300886,
	"loss": 1.1164,
	"step": 80
	},
	{
	"epoch": 0.3584070796460177,
	"grad_norm": 0.0400390625,
	"learning_rate": 0.00032831858407079647,
	"loss": 1.2053,
	"step": 81
	},
	{
	"epoch": 0.36283185840707965,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.0003274336283185841,
	"loss": 1.0322,
	"step": 82
	},
	{
	"epoch": 0.3672566371681416,
	"grad_norm": 0.064453125,
	"learning_rate": 0.0003265486725663717,
	"loss": 0.9184,
	"step": 83
	},
	{
	"epoch": 0.37168141592920356,
	"grad_norm": 0.037353515625,
	"learning_rate": 0.0003256637168141593,
	"loss": 1.0874,
	"step": 84
	},
	{
	"epoch": 0.37610619469026546,
	"grad_norm": 0.04638671875,
	"learning_rate": 0.00032477876106194693,
	"loss": 1.0051,
	"step": 85
	},
	{
	"epoch": 0.3805309734513274,
	"grad_norm": 0.052001953125,
	"learning_rate": 0.00032389380530973454,
	"loss": 1.1232,
	"step": 86
	},
	{
	"epoch": 0.38495575221238937,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.0003230088495575221,
	"loss": 0.9745,
	"step": 87
	},
	{
	"epoch": 0.3893805309734513,
	"grad_norm": 0.037353515625,
	"learning_rate": 0.0003221238938053098,
	"loss": 0.9092,
	"step": 88
	},
	{
	"epoch": 0.3938053097345133,
	"grad_norm": 0.04931640625,
	"learning_rate": 0.00032123893805309733,
	"loss": 1.0712,
	"step": 89
	},
	{
	"epoch": 0.39823008849557523,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.000320353982300885,
	"loss": 1.0908,
	"step": 90
	},
	{
	"epoch": 0.4026548672566372,
	"grad_norm": 0.04150390625,
	"learning_rate": 0.00031946902654867256,
	"loss": 1.0897,
	"step": 91
	},
	{
	"epoch": 0.40707964601769914,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.0003185840707964602,
	"loss": 0.8939,
	"step": 92
	},
	{
	"epoch": 0.41150442477876104,
	"grad_norm": 0.044677734375,
	"learning_rate": 0.0003176991150442478,
	"loss": 1.0992,
	"step": 93
	},
	{
	"epoch": 0.415929203539823,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0003168141592920354,
	"loss": 0.937,
	"step": 94
	},
	{
	"epoch": 0.42035398230088494,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.000315929203539823,
	"loss": 1.1744,
	"step": 95
	},
	{
	"epoch": 0.4247787610619469,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00031504424778761064,
	"loss": 1.0227,
	"step": 96
	},
	{
	"epoch": 0.42920353982300885,
	"grad_norm": 0.041259765625,
	"learning_rate": 0.00031415929203539825,
	"loss": 1.112,
	"step": 97
	},
	{
	"epoch": 0.4336283185840708,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.00031327433628318586,
	"loss": 0.9122,
	"step": 98
	},
	{
	"epoch": 0.43805309734513276,
	"grad_norm": 0.04931640625,
	"learning_rate": 0.0003123893805309735,
	"loss": 1.0073,
	"step": 99
	},
	{
	"epoch": 0.4424778761061947,
	"grad_norm": 0.040283203125,
	"learning_rate": 0.0003115044247787611,
	"loss": 1.0326,
	"step": 100
	},
	{
	"epoch": 0.4469026548672566,
	"grad_norm": 0.046142578125,
	"learning_rate": 0.0003106194690265487,
	"loss": 1.0014,
	"step": 101
	},
	{
	"epoch": 0.45132743362831856,
	"grad_norm": 0.041015625,
	"learning_rate": 0.00030973451327433627,
	"loss": 1.1081,
	"step": 102
	},
	{
	"epoch": 0.4557522123893805,
	"grad_norm": 0.041015625,
	"learning_rate": 0.00030884955752212394,
	"loss": 1.1268,
	"step": 103
	},
	{
	"epoch": 0.46017699115044247,
	"grad_norm": 0.05078125,
	"learning_rate": 0.0003079646017699115,
	"loss": 1.0382,
	"step": 104
	},
	{
	"epoch": 0.4646017699115044,
	"grad_norm": 0.0576171875,
	"learning_rate": 0.00030707964601769917,
	"loss": 0.9887,
	"step": 105
	},
	{
	"epoch": 0.4690265486725664,
	"grad_norm": 0.0390625,
	"learning_rate": 0.0003061946902654867,
	"loss": 1.0143,
	"step": 106
	},
	{
	"epoch": 0.47345132743362833,
	"grad_norm": 0.06982421875,
	"learning_rate": 0.00030530973451327434,
	"loss": 1.0332,
	"step": 107
	},
	{
	"epoch": 0.4778761061946903,
	"grad_norm": 0.044921875,
	"learning_rate": 0.00030442477876106196,
	"loss": 0.9422,
	"step": 108
	},
	{
	"epoch": 0.4823008849557522,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00030353982300884957,
	"loss": 1.0376,
	"step": 109
	},
	{
	"epoch": 0.48672566371681414,
	"grad_norm": 0.04833984375,
	"learning_rate": 0.0003026548672566372,
	"loss": 1.1175,
	"step": 110
	},
	{
	"epoch": 0.4911504424778761,
	"grad_norm": 0.044189453125,
	"learning_rate": 0.0003017699115044248,
	"loss": 0.9571,
	"step": 111
	},
	{
	"epoch": 0.49557522123893805,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.00030088495575221236,
	"loss": 1.0857,
	"step": 112
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00030000000000000003,
	"loss": 0.9346,
	"step": 113
	},
	{
	"epoch": 0.504424778761062,
	"grad_norm": 0.054443359375,
	"learning_rate": 0.00029911504424778764,
	"loss": 1.0317,
	"step": 114
	},
	{
	"epoch": 0.5088495575221239,
	"grad_norm": 0.0625,
	"learning_rate": 0.00029823008849557526,
	"loss": 1.0535,
	"step": 115
	},
	{
	"epoch": 0.5132743362831859,
	"grad_norm": 0.04150390625,
	"learning_rate": 0.00029734513274336287,
	"loss": 1.0437,
	"step": 116
	},
	{
	"epoch": 0.5176991150442478,
	"grad_norm": 0.046142578125,
	"learning_rate": 0.00029646017699115043,
	"loss": 1.0253,
	"step": 117
	},
	{
	"epoch": 0.5221238938053098,
	"grad_norm": 0.07421875,
	"learning_rate": 0.0002955752212389381,
	"loss": 1.022,
	"step": 118
	},
	{
	"epoch": 0.5265486725663717,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.00029469026548672566,
	"loss": 1.2344,
	"step": 119
	},
	{
	"epoch": 0.5309734513274337,
	"grad_norm": 0.0576171875,
	"learning_rate": 0.0002938053097345133,
	"loss": 0.9828,
	"step": 120
	},
	{
	"epoch": 0.5353982300884956,
	"grad_norm": 0.05078125,
	"learning_rate": 0.0002929203539823009,
	"loss": 0.9207,
	"step": 121
	},
	{
	"epoch": 0.5398230088495575,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.0002920353982300885,
	"loss": 0.9794,
	"step": 122
	},
	{
	"epoch": 0.5442477876106194,
	"grad_norm": 0.05908203125,
	"learning_rate": 0.0002911504424778761,
	"loss": 1.0962,
	"step": 123
	},
	{
	"epoch": 0.5486725663716814,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.00029026548672566373,
	"loss": 1.1614,
	"step": 124
	},
	{
	"epoch": 0.5530973451327433,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00028938053097345135,
	"loss": 0.9082,
	"step": 125
	},
	{
	"epoch": 0.5575221238938053,
	"grad_norm": 0.037353515625,
	"learning_rate": 0.00028849557522123896,
	"loss": 0.9406,
	"step": 126
	},
	{
	"epoch": 0.5619469026548672,
	"grad_norm": 0.039306640625,
	"learning_rate": 0.0002876106194690265,
	"loss": 1.1105,
	"step": 127
	},
	{
	"epoch": 0.5663716814159292,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.0002867256637168142,
	"loss": 0.9679,
	"step": 128
	},
	{
	"epoch": 0.5707964601769911,
	"grad_norm": 0.037109375,
	"learning_rate": 0.00028584070796460175,
	"loss": 0.9529,
	"step": 129
	},
	{
	"epoch": 0.5752212389380531,
	"grad_norm": 0.056396484375,
	"learning_rate": 0.00028495575221238937,
	"loss": 1.0341,
	"step": 130
	},
	{
	"epoch": 0.5796460176991151,
	"grad_norm": 0.039306640625,
	"learning_rate": 0.00028407079646017704,
	"loss": 0.9493,
	"step": 131
	},
	{
	"epoch": 0.584070796460177,
	"grad_norm": 0.06591796875,
	"learning_rate": 0.0002831858407079646,
	"loss": 1.262,
	"step": 132
	},
	{
	"epoch": 0.588495575221239,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00028230088495575226,
	"loss": 0.9412,
	"step": 133
	},
	{
	"epoch": 0.5929203539823009,
	"grad_norm": 0.046875,
	"learning_rate": 0.0002814159292035398,
	"loss": 1.0563,
	"step": 134
	},
	{
	"epoch": 0.5973451327433629,
	"grad_norm": 0.05712890625,
	"learning_rate": 0.00028053097345132744,
	"loss": 1.0201,
	"step": 135
	},
	{
	"epoch": 0.6017699115044248,
	"grad_norm": 0.04052734375,
	"learning_rate": 0.00027964601769911505,
	"loss": 1.0401,
	"step": 136
	},
	{
	"epoch": 0.6061946902654868,
	"grad_norm": 0.05078125,
	"learning_rate": 0.00027876106194690267,
	"loss": 1.0241,
	"step": 137
	},
	{
	"epoch": 0.6106194690265486,
	"grad_norm": 0.05810546875,
	"learning_rate": 0.0002778761061946903,
	"loss": 1.1263,
	"step": 138
	},
	{
	"epoch": 0.6150442477876106,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.0002769911504424779,
	"loss": 1.0869,
	"step": 139
	},
	{
	"epoch": 0.6194690265486725,
	"grad_norm": 0.447265625,
	"learning_rate": 0.0002761061946902655,
	"loss": 0.9944,
	"step": 140
	},
	{
	"epoch": 0.6238938053097345,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0002752212389380531,
	"loss": 0.9675,
	"step": 141
	},
	{
	"epoch": 0.6283185840707964,
	"grad_norm": 0.068359375,
	"learning_rate": 0.0002743362831858407,
	"loss": 1.0227,
	"step": 142
	},
	{
	"epoch": 0.6327433628318584,
	"grad_norm": 0.072265625,
	"learning_rate": 0.00027345132743362836,
	"loss": 1.0381,
	"step": 143
	},
	{
	"epoch": 0.6371681415929203,
	"grad_norm": 0.055908203125,
	"learning_rate": 0.0002725663716814159,
	"loss": 0.9385,
	"step": 144
	},
	{
	"epoch": 0.6415929203539823,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.00027168141592920353,
	"loss": 1.001,
	"step": 145
	},
	{
	"epoch": 0.6460176991150443,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.0002707964601769912,
	"loss": 1.04,
	"step": 146
	},
	{
	"epoch": 0.6504424778761062,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.00026991150442477876,
	"loss": 0.9735,
	"step": 147
	},
	{
	"epoch": 0.6548672566371682,
	"grad_norm": 0.045654296875,
	"learning_rate": 0.00026902654867256643,
	"loss": 1.0873,
	"step": 148
	},
	{
	"epoch": 0.6592920353982301,
	"grad_norm": 0.04638671875,
	"learning_rate": 0.000268141592920354,
	"loss": 1.1032,
	"step": 149
	},
	{
	"epoch": 0.6637168141592921,
	"grad_norm": 0.051513671875,
	"learning_rate": 0.0002672566371681416,
	"loss": 1.0414,
	"step": 150
	},
	{
	"epoch": 0.668141592920354,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.0002663716814159292,
	"loss": 0.892,
	"step": 151
	},
	{
	"epoch": 0.672566371681416,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.00026548672566371683,
	"loss": 0.9048,
	"step": 152
	},
	{
	"epoch": 0.6769911504424779,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00026460176991150445,
	"loss": 1.0745,
	"step": 153
	},
	{
	"epoch": 0.6814159292035398,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00026371681415929206,
	"loss": 1.2796,
	"step": 154
	},
	{
	"epoch": 0.6858407079646017,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.0002628318584070796,
	"loss": 0.9484,
	"step": 155
	},
	{
	"epoch": 0.6902654867256637,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0002619469026548673,
	"loss": 1.0571,
	"step": 156
	},
	{
	"epoch": 0.6946902654867256,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.00026106194690265485,
	"loss": 1.1435,
	"step": 157
	},
	{
	"epoch": 0.6991150442477876,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0002601769911504425,
	"loss": 1.0,
	"step": 158
	},
	{
	"epoch": 0.7035398230088495,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.0002592920353982301,
	"loss": 1.0044,
	"step": 159
	},
	{
	"epoch": 0.7079646017699115,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.0002584070796460177,
	"loss": 1.001,
	"step": 160
	},
	{
	"epoch": 0.7123893805309734,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.0002575221238938053,
	"loss": 1.0643,
	"step": 161
	},
	{
	"epoch": 0.7168141592920354,
	"grad_norm": 0.046630859375,
	"learning_rate": 0.0002566371681415929,
	"loss": 1.2461,
	"step": 162
	},
	{
	"epoch": 0.7212389380530974,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.00025575221238938054,
	"loss": 1.297,
	"step": 163
	},
	{
	"epoch": 0.7256637168141593,
	"grad_norm": 0.349609375,
	"learning_rate": 0.00025486725663716815,
	"loss": 0.9718,
	"step": 164
	},
	{
	"epoch": 0.7300884955752213,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.00025398230088495577,
	"loss": 0.9553,
	"step": 165
	},
	{
	"epoch": 0.7345132743362832,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.0002530973451327434,
	"loss": 1.074,
	"step": 166
	},
	{
	"epoch": 0.7389380530973452,
	"grad_norm": 0.0615234375,
	"learning_rate": 0.000252212389380531,
	"loss": 1.0015,
	"step": 167
	},
	{
	"epoch": 0.7433628318584071,
	"grad_norm": 0.043212890625,
	"learning_rate": 0.0002513274336283186,
	"loss": 1.021,
	"step": 168
	},
	{
	"epoch": 0.7477876106194691,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.0002504424778761062,
	"loss": 1.063,
	"step": 169
	},
	{
	"epoch": 0.7522123893805309,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0002495575221238938,
	"loss": 0.9415,
	"step": 170
	},
	{
	"epoch": 0.7566371681415929,
	"grad_norm": 0.0673828125,
	"learning_rate": 0.00024867256637168145,
	"loss": 1.0556,
	"step": 171
	},
	{
	"epoch": 0.7610619469026548,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.000247787610619469,
	"loss": 1.1345,
	"step": 172
	},
	{
	"epoch": 0.7654867256637168,
	"grad_norm": 0.044189453125,
	"learning_rate": 0.00024690265486725663,
	"loss": 0.9686,
	"step": 173
	},
	{
	"epoch": 0.7699115044247787,
	"grad_norm": 0.18359375,
	"learning_rate": 0.00024601769911504424,
	"loss": 0.8729,
	"step": 174
	},
	{
	"epoch": 0.7743362831858407,
	"grad_norm": 0.04736328125,
	"learning_rate": 0.00024513274336283186,
	"loss": 1.0424,
	"step": 175
	},
	{
	"epoch": 0.7787610619469026,
	"grad_norm": 0.05322265625,
	"learning_rate": 0.00024424778761061947,
	"loss": 1.0317,
	"step": 176
	},
	{
	"epoch": 0.7831858407079646,
	"grad_norm": 0.043212890625,
	"learning_rate": 0.0002433628318584071,
	"loss": 1.1979,
	"step": 177
	},
	{
	"epoch": 0.7876106194690266,
	"grad_norm": 0.0615234375,
	"learning_rate": 0.00024247787610619473,
	"loss": 1.0134,
	"step": 178
	},
	{
	"epoch": 0.7920353982300885,
	"grad_norm": 0.0615234375,
	"learning_rate": 0.00024159292035398232,
	"loss": 1.1044,
	"step": 179
	},
	{
	"epoch": 0.7964601769911505,
	"grad_norm": 0.04443359375,
	"learning_rate": 0.00024070796460176993,
	"loss": 1.0293,
	"step": 180
	},
	{
	"epoch": 0.8008849557522124,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.00023982300884955752,
	"loss": 0.9629,
	"step": 181
	},
	{
	"epoch": 0.8053097345132744,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.00023893805309734516,
	"loss": 0.9511,
	"step": 182
	},
	{
	"epoch": 0.8097345132743363,
	"grad_norm": 0.046142578125,
	"learning_rate": 0.00023805309734513275,
	"loss": 1.0096,
	"step": 183
	},
	{
	"epoch": 0.8141592920353983,
	"grad_norm": 0.0498046875,
	"learning_rate": 0.0002371681415929204,
	"loss": 0.8986,
	"step": 184
	},
	{
	"epoch": 0.8185840707964602,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.00023628318584070798,
	"loss": 0.9618,
	"step": 185
	},
	{
	"epoch": 0.8230088495575221,
	"grad_norm": 0.07177734375,
	"learning_rate": 0.0002353982300884956,
	"loss": 1.0183,
	"step": 186
	},
	{
	"epoch": 0.827433628318584,
	"grad_norm": 0.06982421875,
	"learning_rate": 0.00023451327433628318,
	"loss": 0.9824,
	"step": 187
	},
	{
	"epoch": 0.831858407079646,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.00023362831858407082,
	"loss": 0.9304,
	"step": 188
	},
	{
	"epoch": 0.8362831858407079,
	"grad_norm": 0.04736328125,
	"learning_rate": 0.0002327433628318584,
	"loss": 0.9942,
	"step": 189
	},
	{
	"epoch": 0.8407079646017699,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00023185840707964602,
	"loss": 1.1299,
	"step": 190
	},
	{
	"epoch": 0.8451327433628318,
	"grad_norm": 0.046875,
	"learning_rate": 0.0002309734513274336,
	"loss": 1.0395,
	"step": 191
	},
	{
	"epoch": 0.8495575221238938,
	"grad_norm": 0.04296875,
	"learning_rate": 0.00023008849557522125,
	"loss": 0.9442,
	"step": 192
	},
	{
	"epoch": 0.8539823008849557,
	"grad_norm": 0.05078125,
	"learning_rate": 0.00022920353982300884,
	"loss": 1.0056,
	"step": 193
	},
	{
	"epoch": 0.8584070796460177,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.00022831858407079648,
	"loss": 0.9217,
	"step": 194
	},
	{
	"epoch": 0.8628318584070797,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.0002274336283185841,
	"loss": 0.9522,
	"step": 195
	},
	{
	"epoch": 0.8672566371681416,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00022654867256637168,
	"loss": 0.9525,
	"step": 196
	},
	{
	"epoch": 0.8716814159292036,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.00022566371681415932,
	"loss": 1.0493,
	"step": 197
	},
	{
	"epoch": 0.8761061946902655,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.0002247787610619469,
	"loss": 1.1643,
	"step": 198
	},
	{
	"epoch": 0.8805309734513275,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.00022389380530973453,
	"loss": 0.8968,
	"step": 199
	},
	{
	"epoch": 0.8849557522123894,
	"grad_norm": 0.046875,
	"learning_rate": 0.0002230088495575221,
	"loss": 0.8145,
	"step": 200
	},
	{
	"epoch": 0.8893805309734514,
	"grad_norm": 0.0693359375,
	"learning_rate": 0.00022212389380530975,
	"loss": 1.1892,
	"step": 201
	},
	{
	"epoch": 0.8938053097345132,
	"grad_norm": 0.0673828125,
	"learning_rate": 0.00022123893805309734,
	"loss": 0.9646,
	"step": 202
	},
	{
	"epoch": 0.8982300884955752,
	"grad_norm": 0.046630859375,
	"learning_rate": 0.00022035398230088498,
	"loss": 1.0692,
	"step": 203
	},
	{
	"epoch": 0.9026548672566371,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.00021946902654867257,
	"loss": 0.9034,
	"step": 204
	},
	{
	"epoch": 0.9070796460176991,
	"grad_norm": 0.04150390625,
	"learning_rate": 0.00021858407079646019,
	"loss": 1.1094,
	"step": 205
	},
	{
	"epoch": 0.911504424778761,
	"grad_norm": 0.064453125,
	"learning_rate": 0.00021769911504424777,
	"loss": 1.1966,
	"step": 206
	},
	{
	"epoch": 0.915929203539823,
	"grad_norm": 0.049560546875,
	"learning_rate": 0.00021681415929203541,
	"loss": 1.1902,
	"step": 207
	},
	{
	"epoch": 0.9203539823008849,
	"grad_norm": 0.06884765625,
	"learning_rate": 0.000215929203539823,
	"loss": 1.1077,
	"step": 208
	},
	{
	"epoch": 0.9247787610619469,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00021504424778761064,
	"loss": 0.9293,
	"step": 209
	},
	{
	"epoch": 0.9292035398230089,
	"grad_norm": 0.040283203125,
	"learning_rate": 0.00021415929203539826,
	"loss": 1.0238,
	"step": 210
	},
	{
	"epoch": 0.9336283185840708,
	"grad_norm": 0.046142578125,
	"learning_rate": 0.00021327433628318585,
	"loss": 0.9889,
	"step": 211
	},
	{
	"epoch": 0.9380530973451328,
	"grad_norm": 0.048583984375,
	"learning_rate": 0.0002123893805309735,
	"loss": 1.0614,
	"step": 212
	},
	{
	"epoch": 0.9424778761061947,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.00021150442477876107,
	"loss": 1.0836,
	"step": 213
	},
	{
	"epoch": 0.9469026548672567,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.0002106194690265487,
	"loss": 1.0815,
	"step": 214
	},
	{
	"epoch": 0.9513274336283186,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.00020973451327433628,
	"loss": 1.0021,
	"step": 215
	},
	{
	"epoch": 0.9557522123893806,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.00020884955752212392,
	"loss": 1.0002,
	"step": 216
	},
	{
	"epoch": 0.9601769911504425,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.0002079646017699115,
	"loss": 1.2081,
	"step": 217
	},
	{
	"epoch": 0.9646017699115044,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.00020707964601769915,
	"loss": 1.0711,
	"step": 218
	},
	{
	"epoch": 0.9690265486725663,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.00020619469026548673,
	"loss": 1.0342,
	"step": 219
	},
	{
	"epoch": 0.9734513274336283,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.00020530973451327435,
	"loss": 1.0103,
	"step": 220
	},
	{
	"epoch": 0.9778761061946902,
	"grad_norm": 0.04931640625,
	"learning_rate": 0.00020442477876106194,
	"loss": 0.9692,
	"step": 221
	},
	{
	"epoch": 0.9823008849557522,
	"grad_norm": 0.04296875,
	"learning_rate": 0.00020353982300884958,
	"loss": 0.9639,
	"step": 222
	},
	{
	"epoch": 0.9867256637168141,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.00020265486725663717,
	"loss": 0.9039,
	"step": 223
	},
	{
	"epoch": 0.9911504424778761,
	"grad_norm": 0.049560546875,
	"learning_rate": 0.00020176991150442478,
	"loss": 0.9265,
	"step": 224
	},
	{
	"epoch": 0.995575221238938,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.00020088495575221237,
	"loss": 0.8961,
	"step": 225
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.0625,
	"learning_rate": 0.0002,
	"loss": 1.0299,
	"step": 226
	},
	{
	"epoch": 1.0044247787610618,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.00019911504424778762,
	"loss": 0.8533,
	"step": 227
	},
	{
	"epoch": 1.008849557522124,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00019823008849557524,
	"loss": 0.937,
	"step": 228
	},
	{
	"epoch": 1.0132743362831858,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00019734513274336283,
	"loss": 0.8202,
	"step": 229
	},
	{
	"epoch": 1.0176991150442478,
	"grad_norm": 0.0517578125,
	"learning_rate": 0.00019646017699115044,
	"loss": 0.8976,
	"step": 230
	},
	{
	"epoch": 1.0221238938053097,
	"grad_norm": 0.048828125,
	"learning_rate": 0.00019557522123893806,
	"loss": 0.8791,
	"step": 231
	},
	{
	"epoch": 1.0265486725663717,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.00019469026548672567,
	"loss": 1.0753,
	"step": 232
	},
	{
	"epoch": 1.0309734513274336,
	"grad_norm": 0.05615234375,
	"learning_rate": 0.00019380530973451328,
	"loss": 1.0464,
	"step": 233
	},
	{
	"epoch": 1.0353982300884956,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00019292035398230087,
	"loss": 0.8115,
	"step": 234
	},
	{
	"epoch": 1.0398230088495575,
	"grad_norm": 0.058349609375,
	"learning_rate": 0.0001920353982300885,
	"loss": 0.9851,
	"step": 235
	},
	{
	"epoch": 1.0442477876106195,
	"grad_norm": 0.068359375,
	"learning_rate": 0.00019115044247787613,
	"loss": 0.8867,
	"step": 236
	},
	{
	"epoch": 1.0486725663716814,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00019026548672566374,
	"loss": 0.7882,
	"step": 237
	},
	{
	"epoch": 1.0530973451327434,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00018938053097345133,
	"loss": 1.0028,
	"step": 238
	},
	{
	"epoch": 1.0575221238938053,
	"grad_norm": 0.06103515625,
	"learning_rate": 0.00018849557522123894,
	"loss": 0.9446,
	"step": 239
	},
	{
	"epoch": 1.0619469026548674,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00018761061946902656,
	"loss": 1.0249,
	"step": 240
	},
	{
	"epoch": 1.0663716814159292,
	"grad_norm": 0.053955078125,
	"learning_rate": 0.00018672566371681417,
	"loss": 0.9277,
	"step": 241
	},
	{
	"epoch": 1.0707964601769913,
	"grad_norm": 0.0751953125,
	"learning_rate": 0.0001858407079646018,
	"loss": 0.8228,
	"step": 242
	},
	{
	"epoch": 1.075221238938053,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.00018495575221238938,
	"loss": 0.8757,
	"step": 243
	},
	{
	"epoch": 1.079646017699115,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.000184070796460177,
	"loss": 0.7868,
	"step": 244
	},
	{
	"epoch": 1.084070796460177,
	"grad_norm": 0.07275390625,
	"learning_rate": 0.0001831858407079646,
	"loss": 0.878,
	"step": 245
	},
	{
	"epoch": 1.0884955752212389,
	"grad_norm": 0.05908203125,
	"learning_rate": 0.00018230088495575222,
	"loss": 0.8944,
	"step": 246
	},
	{
	"epoch": 1.092920353982301,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00018141592920353983,
	"loss": 0.8831,
	"step": 247
	},
	{
	"epoch": 1.0973451327433628,
	"grad_norm": 0.060302734375,
	"learning_rate": 0.00018053097345132742,
	"loss": 0.9312,
	"step": 248
	},
	{
	"epoch": 1.1017699115044248,
	"grad_norm": 0.053955078125,
	"learning_rate": 0.00017964601769911504,
	"loss": 0.7488,
	"step": 249
	},
	{
	"epoch": 1.1061946902654867,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00017876106194690265,
	"loss": 0.9677,
	"step": 250
	},
	{
	"epoch": 1.1106194690265487,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.0001778761061946903,
	"loss": 0.8391,
	"step": 251
	},
	{
	"epoch": 1.1150442477876106,
	"grad_norm": 0.061279296875,
	"learning_rate": 0.0001769911504424779,
	"loss": 0.9225,
	"step": 252
	},
	{
	"epoch": 1.1194690265486726,
	"grad_norm": 0.080078125,
	"learning_rate": 0.0001761061946902655,
	"loss": 0.7969,
	"step": 253
	},
	{
	"epoch": 1.1238938053097345,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.0001752212389380531,
	"loss": 0.8957,
	"step": 254
	},
	{
	"epoch": 1.1283185840707965,
	"grad_norm": 0.062255859375,
	"learning_rate": 0.00017433628318584072,
	"loss": 0.9192,
	"step": 255
	},
	{
	"epoch": 1.1327433628318584,
	"grad_norm": 0.1005859375,
	"learning_rate": 0.00017345132743362834,
	"loss": 0.8669,
	"step": 256
	},
	{
	"epoch": 1.1371681415929205,
	"grad_norm": 0.0810546875,
	"learning_rate": 0.00017256637168141595,
	"loss": 0.9332,
	"step": 257
	},
	{
	"epoch": 1.1415929203539823,
	"grad_norm": 0.06689453125,
	"learning_rate": 0.00017168141592920354,
	"loss": 0.8392,
	"step": 258
	},
	{
	"epoch": 1.1460176991150441,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00017079646017699115,
	"loss": 1.1159,
	"step": 259
	},
	{
	"epoch": 1.1504424778761062,
	"grad_norm": 0.0625,
	"learning_rate": 0.00016991150442477877,
	"loss": 0.9649,
	"step": 260
	},
	{
	"epoch": 1.154867256637168,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00016902654867256638,
	"loss": 0.9653,
	"step": 261
	},
	{
	"epoch": 1.1592920353982301,
	"grad_norm": 0.05322265625,
	"learning_rate": 0.000168141592920354,
	"loss": 0.8342,
	"step": 262
	},
	{
	"epoch": 1.163716814159292,
	"grad_norm": 0.109375,
	"learning_rate": 0.00016725663716814158,
	"loss": 0.7385,
	"step": 263
	},
	{
	"epoch": 1.168141592920354,
	"grad_norm": 0.076171875,
	"learning_rate": 0.0001663716814159292,
	"loss": 0.7605,
	"step": 264
	},
	{
	"epoch": 1.1725663716814159,
	"grad_norm": 0.057373046875,
	"learning_rate": 0.00016548672566371681,
	"loss": 0.8457,
	"step": 265
	},
	{
	"epoch": 1.176991150442478,
	"grad_norm": 0.08447265625,
	"learning_rate": 0.00016460176991150443,
	"loss": 0.872,
	"step": 266
	},
	{
	"epoch": 1.1814159292035398,
	"grad_norm": 0.07470703125,
	"learning_rate": 0.00016371681415929204,
	"loss": 1.0322,
	"step": 267
	},
	{
	"epoch": 1.1858407079646018,
	"grad_norm": 0.06640625,
	"learning_rate": 0.00016283185840707966,
	"loss": 1.0532,
	"step": 268
	},
	{
	"epoch": 1.1902654867256637,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00016194690265486727,
	"loss": 0.9205,
	"step": 269
	},
	{
	"epoch": 1.1946902654867257,
	"grad_norm": 0.060546875,
	"learning_rate": 0.0001610619469026549,
	"loss": 0.8789,
	"step": 270
	},
	{
	"epoch": 1.1991150442477876,
	"grad_norm": 0.0654296875,
	"learning_rate": 0.0001601769911504425,
	"loss": 1.0501,
	"step": 271
	},
	{
	"epoch": 1.2035398230088497,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.0001592920353982301,
	"loss": 0.8666,
	"step": 272
	},
	{
	"epoch": 1.2079646017699115,
	"grad_norm": 0.0595703125,
	"learning_rate": 0.0001584070796460177,
	"loss": 0.8761,
	"step": 273
	},
	{
	"epoch": 1.2123893805309733,
	"grad_norm": 0.057373046875,
	"learning_rate": 0.00015752212389380532,
	"loss": 0.8827,
	"step": 274
	},
	{
	"epoch": 1.2168141592920354,
	"grad_norm": 0.07373046875,
	"learning_rate": 0.00015663716814159293,
	"loss": 0.8162,
	"step": 275
	},
	{
	"epoch": 1.2212389380530975,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00015575221238938055,
	"loss": 0.7613,
	"step": 276
	},
	{
	"epoch": 1.2256637168141593,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00015486725663716813,
	"loss": 0.825,
	"step": 277
	},
	{
	"epoch": 1.2300884955752212,
	"grad_norm": 0.061767578125,
	"learning_rate": 0.00015398230088495575,
	"loss": 0.9633,
	"step": 278
	},
	{
	"epoch": 1.2345132743362832,
	"grad_norm": 0.0595703125,
	"learning_rate": 0.00015309734513274336,
	"loss": 0.9036,
	"step": 279
	},
	{
	"epoch": 1.238938053097345,
	"grad_norm": 0.076171875,
	"learning_rate": 0.00015221238938053098,
	"loss": 0.9527,
	"step": 280
	},
	{
	"epoch": 1.2433628318584071,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.0001513274336283186,
	"loss": 0.9089,
	"step": 281
	},
	{
	"epoch": 1.247787610619469,
	"grad_norm": 0.056884765625,
	"learning_rate": 0.00015044247787610618,
	"loss": 0.8911,
	"step": 282
	},
	{
	"epoch": 1.252212389380531,
	"grad_norm": 0.0908203125,
	"learning_rate": 0.00014955752212389382,
	"loss": 0.7871,
	"step": 283
	},
	{
	"epoch": 1.2566371681415929,
	"grad_norm": 0.0771484375,
	"learning_rate": 0.00014867256637168144,
	"loss": 0.8415,
	"step": 284
	},
	{
	"epoch": 1.261061946902655,
	"grad_norm": 0.07177734375,
	"learning_rate": 0.00014778761061946905,
	"loss": 1.0105,
	"step": 285
	},
	{
	"epoch": 1.2654867256637168,
	"grad_norm": 0.0986328125,
	"learning_rate": 0.00014690265486725664,
	"loss": 0.9677,
	"step": 286
	},
	{
	"epoch": 1.2699115044247788,
	"grad_norm": 0.0888671875,
	"learning_rate": 0.00014601769911504425,
	"loss": 0.837,
	"step": 287
	},
	{
	"epoch": 1.2743362831858407,
	"grad_norm": 0.126953125,
	"learning_rate": 0.00014513274336283187,
	"loss": 0.8605,
	"step": 288
	},
	{
	"epoch": 1.2787610619469025,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00014424778761061948,
	"loss": 0.8717,
	"step": 289
	},
	{
	"epoch": 1.2831858407079646,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.0001433628318584071,
	"loss": 1.0469,
	"step": 290
	},
	{
	"epoch": 1.2876106194690267,
	"grad_norm": 0.061767578125,
	"learning_rate": 0.00014247787610619468,
	"loss": 0.9339,
	"step": 291
	},
	{
	"epoch": 1.2920353982300885,
	"grad_norm": 0.072265625,
	"learning_rate": 0.0001415929203539823,
	"loss": 0.7235,
	"step": 292
	},
	{
	"epoch": 1.2964601769911503,
	"grad_norm": 0.087890625,
	"learning_rate": 0.0001407079646017699,
	"loss": 0.8648,
	"step": 293
	},
	{
	"epoch": 1.3008849557522124,
	"grad_norm": 0.062255859375,
	"learning_rate": 0.00013982300884955753,
	"loss": 0.8842,
	"step": 294
	},
	{
	"epoch": 1.3053097345132743,
	"grad_norm": 0.08056640625,
	"learning_rate": 0.00013893805309734514,
	"loss": 0.9593,
	"step": 295
	},
	{
	"epoch": 1.3097345132743363,
	"grad_norm": 0.0771484375,
	"learning_rate": 0.00013805309734513276,
	"loss": 0.9122,
	"step": 296
	},
	{
	"epoch": 1.3141592920353982,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.00013716814159292034,
	"loss": 1.0082,
	"step": 297
	},
	{
	"epoch": 1.3185840707964602,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00013628318584070796,
	"loss": 0.884,
	"step": 298
	},
	{
	"epoch": 1.323008849557522,
	"grad_norm": 0.08349609375,
	"learning_rate": 0.0001353982300884956,
	"loss": 0.8348,
	"step": 299
	},
	{
	"epoch": 1.3274336283185841,
	"grad_norm": 0.0732421875,
	"learning_rate": 0.00013451327433628321,
	"loss": 0.747,
	"step": 300
	},
	{
	"epoch": 1.331858407079646,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.0001336283185840708,
	"loss": 0.8841,
	"step": 301
	},
	{
	"epoch": 1.336283185840708,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.00013274336283185842,
	"loss": 0.8985,
	"step": 302
	},
	{
	"epoch": 1.3407079646017699,
	"grad_norm": 0.068359375,
	"learning_rate": 0.00013185840707964603,
	"loss": 0.9008,
	"step": 303
	},
	{
	"epoch": 1.3451327433628317,
	"grad_norm": 0.076171875,
	"learning_rate": 0.00013097345132743365,
	"loss": 0.8909,
	"step": 304
	},
	{
	"epoch": 1.3495575221238938,
	"grad_norm": 0.09521484375,
	"learning_rate": 0.00013008849557522126,
	"loss": 0.8108,
	"step": 305
	},
	{
	"epoch": 1.3539823008849559,
	"grad_norm": 0.08154296875,
	"learning_rate": 0.00012920353982300885,
	"loss": 0.8546,
	"step": 306
	},
	{
	"epoch": 1.3584070796460177,
	"grad_norm": 0.0771484375,
	"learning_rate": 0.00012831858407079646,
	"loss": 1.0212,
	"step": 307
	},
	{
	"epoch": 1.3628318584070795,
	"grad_norm": 0.06201171875,
	"learning_rate": 0.00012743362831858408,
	"loss": 0.974,
	"step": 308
	},
	{
	"epoch": 1.3672566371681416,
	"grad_norm": 0.095703125,
	"learning_rate": 0.0001265486725663717,
	"loss": 0.7493,
	"step": 309
	},
	{
	"epoch": 1.3716814159292037,
	"grad_norm": 0.09765625,
	"learning_rate": 0.0001256637168141593,
	"loss": 1.0118,
	"step": 310
	},
	{
	"epoch": 1.3761061946902655,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.0001247787610619469,
	"loss": 0.8243,
	"step": 311
	},
	{
	"epoch": 1.3805309734513274,
	"grad_norm": 0.06884765625,
	"learning_rate": 0.0001238938053097345,
	"loss": 0.9024,
	"step": 312
	},
	{
	"epoch": 1.3849557522123894,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.00012300884955752212,
	"loss": 0.9018,
	"step": 313
	},
	{
	"epoch": 1.3893805309734513,
	"grad_norm": 0.09814453125,
	"learning_rate": 0.00012212389380530974,
	"loss": 1.1168,
	"step": 314
	},
	{
	"epoch": 1.3938053097345133,
	"grad_norm": 0.07861328125,
	"learning_rate": 0.00012123893805309736,
	"loss": 0.9847,
	"step": 315
	},
	{
	"epoch": 1.3982300884955752,
	"grad_norm": 0.07080078125,
	"learning_rate": 0.00012035398230088497,
	"loss": 0.9884,
	"step": 316
	},
	{
	"epoch": 1.4026548672566372,
	"grad_norm": 0.07568359375,
	"learning_rate": 0.00011946902654867258,
	"loss": 0.9483,
	"step": 317
	},
	{
	"epoch": 1.407079646017699,
	"grad_norm": 0.06787109375,
	"learning_rate": 0.0001185840707964602,
	"loss": 0.8768,
	"step": 318
	},
	{
	"epoch": 1.411504424778761,
	"grad_norm": 0.0751953125,
	"learning_rate": 0.0001176991150442478,
	"loss": 0.9072,
	"step": 319
	},
	{
	"epoch": 1.415929203539823,
	"grad_norm": 0.0810546875,
	"learning_rate": 0.00011681415929203541,
	"loss": 0.8627,
	"step": 320
	},
	{
	"epoch": 1.420353982300885,
	"grad_norm": 0.07275390625,
	"learning_rate": 0.00011592920353982301,
	"loss": 0.9518,
	"step": 321
	},
	{
	"epoch": 1.424778761061947,
	"grad_norm": 0.0830078125,
	"learning_rate": 0.00011504424778761063,
	"loss": 0.8705,
	"step": 322
	},
	{
	"epoch": 1.4292035398230087,
	"grad_norm": 0.061767578125,
	"learning_rate": 0.00011415929203539824,
	"loss": 0.8535,
	"step": 323
	},
	{
	"epoch": 1.4336283185840708,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.00011327433628318584,
	"loss": 0.8835,
	"step": 324
	},
	{
	"epoch": 1.4380530973451329,
	"grad_norm": 0.09033203125,
	"learning_rate": 0.00011238938053097346,
	"loss": 1.1187,
	"step": 325
	},
	{
	"epoch": 1.4424778761061947,
	"grad_norm": 0.08935546875,
	"learning_rate": 0.00011150442477876106,
	"loss": 0.6991,
	"step": 326
	},
	{
	"epoch": 1.4469026548672566,
	"grad_norm": 0.10546875,
	"learning_rate": 0.00011061946902654867,
	"loss": 0.8172,
	"step": 327
	},
	{
	"epoch": 1.4513274336283186,
	"grad_norm": 0.1015625,
	"learning_rate": 0.00010973451327433629,
	"loss": 0.8526,
	"step": 328
	},
	{
	"epoch": 1.4557522123893805,
	"grad_norm": 0.06640625,
	"learning_rate": 0.00010884955752212389,
	"loss": 0.8048,
	"step": 329
	},
	{
	"epoch": 1.4601769911504425,
	"grad_norm": 0.0693359375,
	"learning_rate": 0.0001079646017699115,
	"loss": 0.9438,
	"step": 330
	},
	{
	"epoch": 1.4646017699115044,
	"grad_norm": 0.08837890625,
	"learning_rate": 0.00010707964601769913,
	"loss": 0.9667,
	"step": 331
	},
	{
	"epoch": 1.4690265486725664,
	"grad_norm": 0.0810546875,
	"learning_rate": 0.00010619469026548674,
	"loss": 1.0007,
	"step": 332
	},
	{
	"epoch": 1.4734513274336283,
	"grad_norm": 0.07470703125,
	"learning_rate": 0.00010530973451327434,
	"loss": 0.971,
	"step": 333
	},
	{
	"epoch": 1.4778761061946903,
	"grad_norm": 0.09033203125,
	"learning_rate": 0.00010442477876106196,
	"loss": 0.8334,
	"step": 334
	},
	{
	"epoch": 1.4823008849557522,
	"grad_norm": 0.06640625,
	"learning_rate": 0.00010353982300884957,
	"loss": 0.7885,
	"step": 335
	},
	{
	"epoch": 1.4867256637168142,
	"grad_norm": 0.0947265625,
	"learning_rate": 0.00010265486725663717,
	"loss": 0.825,
	"step": 336
	},
	{
	"epoch": 1.491150442477876,
	"grad_norm": 0.08154296875,
	"learning_rate": 0.00010176991150442479,
	"loss": 0.9044,
	"step": 337
	},
	{
	"epoch": 1.495575221238938,
	"grad_norm": 0.07763671875,
	"learning_rate": 0.00010088495575221239,
	"loss": 0.7607,
	"step": 338
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.0693359375,
	"learning_rate": 0.0001,
	"loss": 0.966,
	"step": 339
	},
	{
	"epoch": 1.504424778761062,
	"grad_norm": 0.1005859375,
	"learning_rate": 9.911504424778762e-05,
	"loss": 0.7745,
	"step": 340
	},
	{
	"epoch": 1.508849557522124,
	"grad_norm": 0.058837890625,
	"learning_rate": 9.823008849557522e-05,
	"loss": 0.8849,
	"step": 341
	},
	{
	"epoch": 1.5132743362831858,
	"grad_norm": 0.0703125,
	"learning_rate": 9.734513274336283e-05,
	"loss": 0.9905,
	"step": 342
	},
	{
	"epoch": 1.5176991150442478,
	"grad_norm": 0.1025390625,
	"learning_rate": 9.646017699115044e-05,
	"loss": 0.8459,
	"step": 343
	},
	{
	"epoch": 1.5221238938053099,
	"grad_norm": 0.07275390625,
	"learning_rate": 9.557522123893806e-05,
	"loss": 0.8842,
	"step": 344
	},
	{
	"epoch": 1.5265486725663717,
	"grad_norm": 0.083984375,
	"learning_rate": 9.469026548672566e-05,
	"loss": 1.0654,
	"step": 345
	},
	{
	"epoch": 1.5309734513274336,
	"grad_norm": 0.0615234375,
	"learning_rate": 9.380530973451328e-05,
	"loss": 0.8734,
	"step": 346
	},
	{
	"epoch": 1.5353982300884956,
	"grad_norm": 0.0791015625,
	"learning_rate": 9.29203539823009e-05,
	"loss": 0.9752,
	"step": 347
	},
	{
	"epoch": 1.5398230088495575,
	"grad_norm": 0.0751953125,
	"learning_rate": 9.20353982300885e-05,
	"loss": 0.7664,
	"step": 348
	},
	{
	"epoch": 1.5442477876106193,
	"grad_norm": 0.0888671875,
	"learning_rate": 9.115044247787611e-05,
	"loss": 0.8328,
	"step": 349
	},
	{
	"epoch": 1.5486725663716814,
	"grad_norm": 0.0712890625,
	"learning_rate": 9.026548672566371e-05,
	"loss": 0.8581,
	"step": 350
	},
	{
	"epoch": 1.5530973451327434,
	"grad_norm": 0.0888671875,
	"learning_rate": 8.938053097345133e-05,
	"loss": 0.7521,
	"step": 351
	},
	{
	"epoch": 1.5575221238938053,
	"grad_norm": 0.0810546875,
	"learning_rate": 8.849557522123895e-05,
	"loss": 1.1778,
	"step": 352
	},
	{
	"epoch": 1.5619469026548671,
	"grad_norm": 0.08447265625,
	"learning_rate": 8.761061946902655e-05,
	"loss": 0.8007,
	"step": 353
	},
	{
	"epoch": 1.5663716814159292,
	"grad_norm": 0.08544921875,
	"learning_rate": 8.672566371681417e-05,
	"loss": 1.1795,
	"step": 354
	},
	{
	"epoch": 1.5707964601769913,
	"grad_norm": 0.08642578125,
	"learning_rate": 8.584070796460177e-05,
	"loss": 0.9632,
	"step": 355
	},
	{
	"epoch": 1.575221238938053,
	"grad_norm": 0.11572265625,
	"learning_rate": 8.495575221238938e-05,
	"loss": 0.7671,
	"step": 356
	},
	{
	"epoch": 1.579646017699115,
	"grad_norm": 0.1396484375,
	"learning_rate": 8.4070796460177e-05,
	"loss": 0.692,
	"step": 357
	},
	{
	"epoch": 1.584070796460177,
	"grad_norm": 0.10791015625,
	"learning_rate": 8.31858407079646e-05,
	"loss": 0.6548,
	"step": 358
	},
	{
	"epoch": 1.588495575221239,
	"grad_norm": 0.080078125,
	"learning_rate": 8.230088495575221e-05,
	"loss": 0.805,
	"step": 359
	},
	{
	"epoch": 1.592920353982301,
	"grad_norm": 0.06005859375,
	"learning_rate": 8.141592920353983e-05,
	"loss": 0.7988,
	"step": 360
	},
	{
	"epoch": 1.5973451327433628,
	"grad_norm": 0.07861328125,
	"learning_rate": 8.053097345132744e-05,
	"loss": 0.9695,
	"step": 361
	},
	{
	"epoch": 1.6017699115044248,
	"grad_norm": 0.07421875,
	"learning_rate": 7.964601769911504e-05,
	"loss": 1.0397,
	"step": 362
	},
	{
	"epoch": 1.606194690265487,
	"grad_norm": 0.0830078125,
	"learning_rate": 7.876106194690266e-05,
	"loss": 0.9098,
	"step": 363
	},
	{
	"epoch": 1.6106194690265485,
	"grad_norm": 0.07861328125,
	"learning_rate": 7.787610619469027e-05,
	"loss": 0.9249,
	"step": 364
	},
	{
	"epoch": 1.6150442477876106,
	"grad_norm": 0.0615234375,
	"learning_rate": 7.699115044247787e-05,
	"loss": 0.7443,
	"step": 365
	},
	{
	"epoch": 1.6194690265486726,
	"grad_norm": 0.08935546875,
	"learning_rate": 7.610619469026549e-05,
	"loss": 0.8042,
	"step": 366
	},
	{
	"epoch": 1.6238938053097345,
	"grad_norm": 0.0810546875,
	"learning_rate": 7.522123893805309e-05,
	"loss": 0.8271,
	"step": 367
	},
	{
	"epoch": 1.6283185840707963,
	"grad_norm": 0.06884765625,
	"learning_rate": 7.433628318584072e-05,
	"loss": 0.9711,
	"step": 368
	},
	{
	"epoch": 1.6327433628318584,
	"grad_norm": 0.06689453125,
	"learning_rate": 7.345132743362832e-05,
	"loss": 0.8821,
	"step": 369
	},
	{
	"epoch": 1.6371681415929205,
	"grad_norm": 0.0556640625,
	"learning_rate": 7.256637168141593e-05,
	"loss": 0.7417,
	"step": 370
	},
	{
	"epoch": 1.6415929203539823,
	"grad_norm": 0.06591796875,
	"learning_rate": 7.168141592920355e-05,
	"loss": 0.9247,
	"step": 371
	},
	{
	"epoch": 1.6460176991150441,
	"grad_norm": 0.06396484375,
	"learning_rate": 7.079646017699115e-05,
	"loss": 0.9101,
	"step": 372
	},
	{
	"epoch": 1.6504424778761062,
	"grad_norm": 0.091796875,
	"learning_rate": 6.991150442477876e-05,
	"loss": 1.0123,
	"step": 373
	},
	{
	"epoch": 1.6548672566371683,
	"grad_norm": 0.103515625,
	"learning_rate": 6.902654867256638e-05,
	"loss": 0.7791,
	"step": 374
	},
	{
	"epoch": 1.6592920353982301,
	"grad_norm": 0.07275390625,
	"learning_rate": 6.814159292035398e-05,
	"loss": 1.0589,
	"step": 375
	},
	{
	"epoch": 1.663716814159292,
	"grad_norm": 0.058349609375,
	"learning_rate": 6.725663716814161e-05,
	"loss": 0.8401,
	"step": 376
	},
	{
	"epoch": 1.668141592920354,
	"grad_norm": 0.059814453125,
	"learning_rate": 6.637168141592921e-05,
	"loss": 0.8201,
	"step": 377
	},
	{
	"epoch": 1.672566371681416,
	"grad_norm": 0.0927734375,
	"learning_rate": 6.548672566371682e-05,
	"loss": 0.913,
	"step": 378
	},
	{
	"epoch": 1.676991150442478,
	"grad_norm": 0.060302734375,
	"learning_rate": 6.460176991150442e-05,
	"loss": 0.8276,
	"step": 379
	},
	{
	"epoch": 1.6814159292035398,
	"grad_norm": 0.08349609375,
	"learning_rate": 6.371681415929204e-05,
	"loss": 0.7729,
	"step": 380
	},
	{
	"epoch": 1.6858407079646018,
	"grad_norm": 0.0703125,
	"learning_rate": 6.283185840707965e-05,
	"loss": 1.0113,
	"step": 381
	},
	{
	"epoch": 1.6902654867256637,
	"grad_norm": 0.0634765625,
	"learning_rate": 6.194690265486725e-05,
	"loss": 0.8446,
	"step": 382
	},
	{
	"epoch": 1.6946902654867255,
	"grad_norm": 0.0673828125,
	"learning_rate": 6.106194690265487e-05,
	"loss": 0.8878,
	"step": 383
	},
	{
	"epoch": 1.6991150442477876,
	"grad_norm": 0.1103515625,
	"learning_rate": 6.017699115044248e-05,
	"loss": 0.6718,
	"step": 384
	},
	{
	"epoch": 1.7035398230088497,
	"grad_norm": 0.060302734375,
	"learning_rate": 5.92920353982301e-05,
	"loss": 0.8153,
	"step": 385
	},
	{
	"epoch": 1.7079646017699115,
	"grad_norm": 0.0712890625,
	"learning_rate": 5.8407079646017705e-05,
	"loss": 0.9931,
	"step": 386
	},
	{
	"epoch": 1.7123893805309733,
	"grad_norm": 0.0556640625,
	"learning_rate": 5.752212389380531e-05,
	"loss": 0.7466,
	"step": 387
	},
	{
	"epoch": 1.7168141592920354,
	"grad_norm": 0.09033203125,
	"learning_rate": 5.663716814159292e-05,
	"loss": 0.9364,
	"step": 388
	},
	{
	"epoch": 1.7212389380530975,
	"grad_norm": 0.068359375,
	"learning_rate": 5.575221238938053e-05,
	"loss": 0.8851,
	"step": 389
	},
	{
	"epoch": 1.7256637168141593,
	"grad_norm": 0.061279296875,
	"learning_rate": 5.486725663716814e-05,
	"loss": 0.8714,
	"step": 390
	},
	{
	"epoch": 1.7300884955752212,
	"grad_norm": 0.06982421875,
	"learning_rate": 5.398230088495575e-05,
	"loss": 0.8885,
	"step": 391
	},
	{
	"epoch": 1.7345132743362832,
	"grad_norm": 0.06298828125,
	"learning_rate": 5.309734513274337e-05,
	"loss": 0.8724,
	"step": 392
	},
	{
	"epoch": 1.7389380530973453,
	"grad_norm": 0.08056640625,
	"learning_rate": 5.221238938053098e-05,
	"loss": 1.1328,
	"step": 393
	},
	{
	"epoch": 1.7433628318584071,
	"grad_norm": 0.099609375,
	"learning_rate": 5.132743362831859e-05,
	"loss": 0.7735,
	"step": 394
	},
	{
	"epoch": 1.747787610619469,
	"grad_norm": 0.06982421875,
	"learning_rate": 5.0442477876106195e-05,
	"loss": 0.9325,
	"step": 395
	},
	{
	"epoch": 1.752212389380531,
	"grad_norm": 0.07080078125,
	"learning_rate": 4.955752212389381e-05,
	"loss": 0.9273,
	"step": 396
	},
	{
	"epoch": 1.7566371681415929,
	"grad_norm": 0.10009765625,
	"learning_rate": 4.867256637168142e-05,
	"loss": 0.7756,
	"step": 397
	},
	{
	"epoch": 1.7610619469026547,
	"grad_norm": 0.0908203125,
	"learning_rate": 4.778761061946903e-05,
	"loss": 1.0591,
	"step": 398
	},
	{
	"epoch": 1.7654867256637168,
	"grad_norm": 0.09423828125,
	"learning_rate": 4.690265486725664e-05,
	"loss": 0.7867,
	"step": 399
	},
	{
	"epoch": 1.7699115044247788,
	"grad_norm": 0.0888671875,
	"learning_rate": 4.601769911504425e-05,
	"loss": 0.8369,
	"step": 400
	},
	{
	"epoch": 1.7743362831858407,
	"grad_norm": 0.06396484375,
	"learning_rate": 4.5132743362831855e-05,
	"loss": 0.9999,
	"step": 401
	},
	{
	"epoch": 1.7787610619469025,
	"grad_norm": 0.061767578125,
	"learning_rate": 4.4247787610619477e-05,
	"loss": 0.8612,
	"step": 402
	},
	{
	"epoch": 1.7831858407079646,
	"grad_norm": 0.09716796875,
	"learning_rate": 4.3362831858407084e-05,
	"loss": 0.8529,
	"step": 403
	},
	{
	"epoch": 1.7876106194690267,
	"grad_norm": 0.07763671875,
	"learning_rate": 4.247787610619469e-05,
	"loss": 0.8809,
	"step": 404
	},
	{
	"epoch": 1.7920353982300885,
	"grad_norm": 0.07177734375,
	"learning_rate": 4.15929203539823e-05,
	"loss": 0.9739,
	"step": 405
	},
	{
	"epoch": 1.7964601769911503,
	"grad_norm": 0.07568359375,
	"learning_rate": 4.0707964601769914e-05,
	"loss": 0.9416,
	"step": 406
	},
	{
	"epoch": 1.8008849557522124,
	"grad_norm": 0.061767578125,
	"learning_rate": 3.982300884955752e-05,
	"loss": 0.8359,
	"step": 407
	},
	{
	"epoch": 1.8053097345132745,
	"grad_norm": 0.0712890625,
	"learning_rate": 3.893805309734514e-05,
	"loss": 0.9323,
	"step": 408
	},
	{
	"epoch": 1.8097345132743363,
	"grad_norm": 0.0810546875,
	"learning_rate": 3.8053097345132744e-05,
	"loss": 0.8084,
	"step": 409
	},
	{
	"epoch": 1.8141592920353982,
	"grad_norm": 0.06298828125,
	"learning_rate": 3.716814159292036e-05,
	"loss": 0.9237,
	"step": 410
	},
	{
	"epoch": 1.8185840707964602,
	"grad_norm": 0.08447265625,
	"learning_rate": 3.628318584070797e-05,
	"loss": 1.0047,
	"step": 411
	},
	{
	"epoch": 1.823008849557522,
	"grad_norm": 0.0654296875,
	"learning_rate": 3.5398230088495574e-05,
	"loss": 0.9763,
	"step": 412
	},
	{
	"epoch": 1.827433628318584,
	"grad_norm": 0.06201171875,
	"learning_rate": 3.451327433628319e-05,
	"loss": 0.7498,
	"step": 413
	},
	{
	"epoch": 1.831858407079646,
	"grad_norm": 0.087890625,
	"learning_rate": 3.3628318584070804e-05,
	"loss": 0.8973,
	"step": 414
	},
	{
	"epoch": 1.836283185840708,
	"grad_norm": 0.0966796875,
	"learning_rate": 3.274336283185841e-05,
	"loss": 0.9526,
	"step": 415
	},
	{
	"epoch": 1.8407079646017699,
	"grad_norm": 0.061767578125,
	"learning_rate": 3.185840707964602e-05,
	"loss": 0.9184,
	"step": 416
	},
	{
	"epoch": 1.8451327433628317,
	"grad_norm": 0.0673828125,
	"learning_rate": 3.097345132743363e-05,
	"loss": 0.9124,
	"step": 417
	},
	{
	"epoch": 1.8495575221238938,
	"grad_norm": 0.056884765625,
	"learning_rate": 3.008849557522124e-05,
	"loss": 0.8303,
	"step": 418
	},
	{
	"epoch": 1.8539823008849559,
	"grad_norm": 0.0703125,
	"learning_rate": 2.9203539823008852e-05,
	"loss": 0.9533,
	"step": 419
	},
	{
	"epoch": 1.8584070796460177,
	"grad_norm": 0.064453125,
	"learning_rate": 2.831858407079646e-05,
	"loss": 0.8822,
	"step": 420
	},
	{
	"epoch": 1.8628318584070795,
	"grad_norm": 0.072265625,
	"learning_rate": 2.743362831858407e-05,
	"loss": 0.911,
	"step": 421
	},
	{
	"epoch": 1.8672566371681416,
	"grad_norm": 0.060546875,
	"learning_rate": 2.6548672566371686e-05,
	"loss": 0.8209,
	"step": 422
	},
	{
	"epoch": 1.8716814159292037,
	"grad_norm": 0.072265625,
	"learning_rate": 2.5663716814159294e-05,
	"loss": 0.8294,
	"step": 423
	},
	{
	"epoch": 1.8761061946902655,
	"grad_norm": 0.061279296875,
	"learning_rate": 2.4778761061946905e-05,
	"loss": 0.7602,
	"step": 424
	},
	{
	"epoch": 1.8805309734513274,
	"grad_norm": 0.0810546875,
	"learning_rate": 2.3893805309734516e-05,
	"loss": 0.8862,
	"step": 425
	},
	{
	"epoch": 1.8849557522123894,
	"grad_norm": 0.06494140625,
	"learning_rate": 2.3008849557522124e-05,
	"loss": 0.8715,
	"step": 426
	},
	{
	"epoch": 1.8893805309734515,
	"grad_norm": 0.06982421875,
	"learning_rate": 2.2123893805309738e-05,
	"loss": 0.9235,
	"step": 427
	},
	{
	"epoch": 1.893805309734513,
	"grad_norm": 0.07958984375,
	"learning_rate": 2.1238938053097346e-05,
	"loss": 0.8975,
	"step": 428
	},
	{
	"epoch": 1.8982300884955752,
	"grad_norm": 0.08935546875,
	"learning_rate": 2.0353982300884957e-05,
	"loss": 1.0014,
	"step": 429
	},
	{
	"epoch": 1.9026548672566372,
	"grad_norm": 0.05712890625,
	"learning_rate": 1.946902654867257e-05,
	"loss": 0.8397,
	"step": 430
	},
	{
	"epoch": 1.907079646017699,
	"grad_norm": 0.0859375,
	"learning_rate": 1.858407079646018e-05,
	"loss": 1.0832,
	"step": 431
	},
	{
	"epoch": 1.911504424778761,
	"grad_norm": 0.09375,
	"learning_rate": 1.7699115044247787e-05,
	"loss": 0.7726,
	"step": 432
	},
	{
	"epoch": 1.915929203539823,
	"grad_norm": 0.06884765625,
	"learning_rate": 1.6814159292035402e-05,
	"loss": 0.936,
	"step": 433
	},
	{
	"epoch": 1.920353982300885,
	"grad_norm": 0.062255859375,
	"learning_rate": 1.592920353982301e-05,
	"loss": 1.0048,
	"step": 434
	},
	{
	"epoch": 1.924778761061947,
	"grad_norm": 0.08349609375,
	"learning_rate": 1.504424778761062e-05,
	"loss": 0.864,
	"step": 435
	},
	{
	"epoch": 1.9292035398230087,
	"grad_norm": 0.0869140625,
	"learning_rate": 1.415929203539823e-05,
	"loss": 0.9952,
	"step": 436
	},
	{
	"epoch": 1.9336283185840708,
	"grad_norm": 0.06982421875,
	"learning_rate": 1.3274336283185843e-05,
	"loss": 0.8628,
	"step": 437
	},
	{
	"epoch": 1.9380530973451329,
	"grad_norm": 0.060546875,
	"learning_rate": 1.2389380530973452e-05,
	"loss": 0.8487,
	"step": 438
	},
	{
	"epoch": 1.9424778761061947,
	"grad_norm": 0.0634765625,
	"learning_rate": 1.1504424778761062e-05,
	"loss": 0.8495,
	"step": 439
	},
	{
	"epoch": 1.9469026548672566,
	"grad_norm": 0.06689453125,
	"learning_rate": 1.0619469026548673e-05,
	"loss": 0.8815,
	"step": 440
	},
	{
	"epoch": 1.9513274336283186,
	"grad_norm": 0.0634765625,
	"learning_rate": 9.734513274336284e-06,
	"loss": 0.8667,
	"step": 441
	},
	{
	"epoch": 1.9557522123893807,
	"grad_norm": 0.0869140625,
	"learning_rate": 8.849557522123894e-06,
	"loss": 0.7515,
	"step": 442
	},
	{
	"epoch": 1.9601769911504425,
	"grad_norm": 0.07275390625,
	"learning_rate": 7.964601769911505e-06,
	"loss": 0.8048,
	"step": 443
	},
	{
	"epoch": 1.9646017699115044,
	"grad_norm": 0.0625,
	"learning_rate": 7.079646017699115e-06,
	"loss": 0.9373,
	"step": 444
	},
	{
	"epoch": 1.9690265486725664,
	"grad_norm": 0.0859375,
	"learning_rate": 6.194690265486726e-06,
	"loss": 0.7985,
	"step": 445
	},
	{
	"epoch": 1.9734513274336283,
	"grad_norm": 0.1083984375,
	"learning_rate": 5.3097345132743365e-06,
	"loss": 0.9149,
	"step": 446
	},
	{
	"epoch": 1.9778761061946901,
	"grad_norm": 0.05615234375,
	"learning_rate": 4.424778761061947e-06,
	"loss": 0.8296,
	"step": 447
	},
	{
	"epoch": 1.9823008849557522,
	"grad_norm": 0.061767578125,
	"learning_rate": 3.5398230088495575e-06,
	"loss": 0.8539,
	"step": 448
	},
	{
	"epoch": 1.9867256637168142,
	"grad_norm": 0.0625,
	"learning_rate": 2.6548672566371683e-06,
	"loss": 0.8847,
	"step": 449
	},
	{
	"epoch": 1.991150442477876,
	"grad_norm": 0.09033203125,
	"learning_rate": 1.7699115044247788e-06,
	"loss": 0.8814,
	"step": 450
	},
	{
	"epoch": 1.995575221238938,
	"grad_norm": 0.0625,
	"learning_rate": 8.849557522123894e-07,
	"loss": 0.8299,
	"step": 451
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.12451171875,
	"learning_rate": 0.0,
	"loss": 0.8232,
	"step": 452
	}
	],
	"logging_steps": 1.0,
	"max_steps": 452,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 0,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4086515032577802e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}