Qwen-Qwen2.5-Coder-7B-unit-test-lora / trainer_state.json

Upload folder using huggingface_hub

57953ae verified about 2 months ago

239 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9983597594313833,
	"eval_steps": 500,
	"global_step": 1371,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002186987424822307,
	"grad_norm": 0.11989043653011322,
	"learning_rate": 2.1739130434782607e-06,
	"loss": 0.7588,
	"step": 1
	},
	{
	"epoch": 0.004373974849644614,
	"grad_norm": 0.08302941918373108,
	"learning_rate": 4.347826086956521e-06,
	"loss": 0.8145,
	"step": 2
	},
	{
	"epoch": 0.0065609622744669215,
	"grad_norm": 0.15307161211967468,
	"learning_rate": 6.521739130434782e-06,
	"loss": 0.8127,
	"step": 3
	},
	{
	"epoch": 0.008747949699289229,
	"grad_norm": 0.13161885738372803,
	"learning_rate": 8.695652173913043e-06,
	"loss": 0.6707,
	"step": 4
	},
	{
	"epoch": 0.010934937124111536,
	"grad_norm": 0.09451252222061157,
	"learning_rate": 1.0869565217391303e-05,
	"loss": 0.7497,
	"step": 5
	},
	{
	"epoch": 0.013121924548933843,
	"grad_norm": 0.0813838317990303,
	"learning_rate": 1.3043478260869564e-05,
	"loss": 1.0007,
	"step": 6
	},
	{
	"epoch": 0.01530891197375615,
	"grad_norm": 0.12192627787590027,
	"learning_rate": 1.5217391304347826e-05,
	"loss": 0.6703,
	"step": 7
	},
	{
	"epoch": 0.017495899398578457,
	"grad_norm": 0.14730937778949738,
	"learning_rate": 1.7391304347826085e-05,
	"loss": 0.9552,
	"step": 8
	},
	{
	"epoch": 0.019682886823400764,
	"grad_norm": 0.13510680198669434,
	"learning_rate": 1.9565217391304346e-05,
	"loss": 0.9591,
	"step": 9
	},
	{
	"epoch": 0.02186987424822307,
	"grad_norm": 0.11157332360744476,
	"learning_rate": 2.1739130434782607e-05,
	"loss": 0.9358,
	"step": 10
	},
	{
	"epoch": 0.02405686167304538,
	"grad_norm": 0.11157120019197464,
	"learning_rate": 2.3913043478260864e-05,
	"loss": 0.8377,
	"step": 11
	},
	{
	"epoch": 0.026243849097867686,
	"grad_norm": 0.13191162049770355,
	"learning_rate": 2.6086956521739128e-05,
	"loss": 0.8974,
	"step": 12
	},
	{
	"epoch": 0.028430836522689993,
	"grad_norm": 0.14399488270282745,
	"learning_rate": 2.826086956521739e-05,
	"loss": 0.778,
	"step": 13
	},
	{
	"epoch": 0.0306178239475123,
	"grad_norm": 0.11593582481145859,
	"learning_rate": 3.0434782608695653e-05,
	"loss": 0.9507,
	"step": 14
	},
	{
	"epoch": 0.03280481137233461,
	"grad_norm": 0.16411006450653076,
	"learning_rate": 3.260869565217391e-05,
	"loss": 0.6949,
	"step": 15
	},
	{
	"epoch": 0.034991798797156914,
	"grad_norm": 0.13450156152248383,
	"learning_rate": 3.478260869565217e-05,
	"loss": 0.8162,
	"step": 16
	},
	{
	"epoch": 0.037178786221979225,
	"grad_norm": 0.12586522102355957,
	"learning_rate": 3.695652173913043e-05,
	"loss": 0.8776,
	"step": 17
	},
	{
	"epoch": 0.03936577364680153,
	"grad_norm": 0.10510208457708359,
	"learning_rate": 3.913043478260869e-05,
	"loss": 0.7852,
	"step": 18
	},
	{
	"epoch": 0.04155276107162384,
	"grad_norm": 0.12737107276916504,
	"learning_rate": 4.130434782608695e-05,
	"loss": 0.9647,
	"step": 19
	},
	{
	"epoch": 0.04373974849644614,
	"grad_norm": 0.1500634402036667,
	"learning_rate": 4.3478260869565214e-05,
	"loss": 0.7532,
	"step": 20
	},
	{
	"epoch": 0.045926735921268454,
	"grad_norm": 0.16161426901817322,
	"learning_rate": 4.5652173913043474e-05,
	"loss": 0.811,
	"step": 21
	},
	{
	"epoch": 0.04811372334609076,
	"grad_norm": 0.1249527782201767,
	"learning_rate": 4.782608695652173e-05,
	"loss": 0.795,
	"step": 22
	},
	{
	"epoch": 0.05030071077091307,
	"grad_norm": 0.1505545973777771,
	"learning_rate": 4.9999999999999996e-05,
	"loss": 0.9194,
	"step": 23
	},
	{
	"epoch": 0.05248769819573537,
	"grad_norm": 0.13624198734760284,
	"learning_rate": 5.2173913043478256e-05,
	"loss": 0.97,
	"step": 24
	},
	{
	"epoch": 0.05467468562055768,
	"grad_norm": 0.15684515237808228,
	"learning_rate": 5.434782608695652e-05,
	"loss": 0.6862,
	"step": 25
	},
	{
	"epoch": 0.056861673045379986,
	"grad_norm": 0.14302442967891693,
	"learning_rate": 5.652173913043478e-05,
	"loss": 0.8062,
	"step": 26
	},
	{
	"epoch": 0.0590486604702023,
	"grad_norm": 0.23029306530952454,
	"learning_rate": 5.869565217391304e-05,
	"loss": 0.9101,
	"step": 27
	},
	{
	"epoch": 0.0612356478950246,
	"grad_norm": 0.24247854948043823,
	"learning_rate": 6.0869565217391306e-05,
	"loss": 0.8779,
	"step": 28
	},
	{
	"epoch": 0.0634226353198469,
	"grad_norm": 0.1507425308227539,
	"learning_rate": 6.304347826086956e-05,
	"loss": 0.7181,
	"step": 29
	},
	{
	"epoch": 0.06560962274466922,
	"grad_norm": 0.18965087831020355,
	"learning_rate": 6.521739130434782e-05,
	"loss": 0.8163,
	"step": 30
	},
	{
	"epoch": 0.06779661016949153,
	"grad_norm": 0.2104681432247162,
	"learning_rate": 6.739130434782608e-05,
	"loss": 0.9495,
	"step": 31
	},
	{
	"epoch": 0.06998359759431383,
	"grad_norm": 0.21606619656085968,
	"learning_rate": 6.956521739130434e-05,
	"loss": 0.9565,
	"step": 32
	},
	{
	"epoch": 0.07217058501913615,
	"grad_norm": 0.2107428014278412,
	"learning_rate": 7.17391304347826e-05,
	"loss": 0.7743,
	"step": 33
	},
	{
	"epoch": 0.07435757244395845,
	"grad_norm": 0.3160182535648346,
	"learning_rate": 7.391304347826086e-05,
	"loss": 1.0056,
	"step": 34
	},
	{
	"epoch": 0.07654455986878075,
	"grad_norm": 0.2970617115497589,
	"learning_rate": 7.608695652173912e-05,
	"loss": 0.8122,
	"step": 35
	},
	{
	"epoch": 0.07873154729360306,
	"grad_norm": 0.17866499722003937,
	"learning_rate": 7.826086956521738e-05,
	"loss": 0.7953,
	"step": 36
	},
	{
	"epoch": 0.08091853471842538,
	"grad_norm": 0.32111942768096924,
	"learning_rate": 8.043478260869566e-05,
	"loss": 0.9121,
	"step": 37
	},
	{
	"epoch": 0.08310552214324768,
	"grad_norm": 0.20938844978809357,
	"learning_rate": 8.26086956521739e-05,
	"loss": 0.887,
	"step": 38
	},
	{
	"epoch": 0.08529250956806998,
	"grad_norm": 0.27339646220207214,
	"learning_rate": 8.478260869565217e-05,
	"loss": 0.7808,
	"step": 39
	},
	{
	"epoch": 0.08747949699289229,
	"grad_norm": 0.19005413353443146,
	"learning_rate": 8.695652173913043e-05,
	"loss": 0.6723,
	"step": 40
	},
	{
	"epoch": 0.0896664844177146,
	"grad_norm": 0.19314634799957275,
	"learning_rate": 8.913043478260869e-05,
	"loss": 0.8384,
	"step": 41
	},
	{
	"epoch": 0.09185347184253691,
	"grad_norm": 0.21565446257591248,
	"learning_rate": 9.130434782608695e-05,
	"loss": 0.7402,
	"step": 42
	},
	{
	"epoch": 0.09404045926735921,
	"grad_norm": 0.3733920753002167,
	"learning_rate": 9.347826086956521e-05,
	"loss": 0.9476,
	"step": 43
	},
	{
	"epoch": 0.09622744669218151,
	"grad_norm": 0.3119434714317322,
	"learning_rate": 9.565217391304346e-05,
	"loss": 0.7324,
	"step": 44
	},
	{
	"epoch": 0.09841443411700383,
	"grad_norm": 0.20734310150146484,
	"learning_rate": 9.782608695652173e-05,
	"loss": 0.6521,
	"step": 45
	},
	{
	"epoch": 0.10060142154182614,
	"grad_norm": 0.2809116840362549,
	"learning_rate": 9.999999999999999e-05,
	"loss": 0.7374,
	"step": 46
	},
	{
	"epoch": 0.10278840896664844,
	"grad_norm": 0.2248832732439041,
	"learning_rate": 0.00010217391304347825,
	"loss": 0.7822,
	"step": 47
	},
	{
	"epoch": 0.10497539639147074,
	"grad_norm": 0.26310572028160095,
	"learning_rate": 0.00010434782608695651,
	"loss": 0.844,
	"step": 48
	},
	{
	"epoch": 0.10716238381629306,
	"grad_norm": 0.20629820227622986,
	"learning_rate": 0.00010652173913043477,
	"loss": 0.9024,
	"step": 49
	},
	{
	"epoch": 0.10934937124111536,
	"grad_norm": 0.40926942229270935,
	"learning_rate": 0.00010869565217391303,
	"loss": 0.8497,
	"step": 50
	},
	{
	"epoch": 0.11153635866593767,
	"grad_norm": 0.34393706917762756,
	"learning_rate": 0.00011086956521739128,
	"loss": 0.8326,
	"step": 51
	},
	{
	"epoch": 0.11372334609075997,
	"grad_norm": 0.25371822714805603,
	"learning_rate": 0.00011304347826086956,
	"loss": 1.0089,
	"step": 52
	},
	{
	"epoch": 0.11591033351558229,
	"grad_norm": 0.3484710454940796,
	"learning_rate": 0.00011521739130434782,
	"loss": 0.7667,
	"step": 53
	},
	{
	"epoch": 0.1180973209404046,
	"grad_norm": 0.5894125699996948,
	"learning_rate": 0.00011739130434782608,
	"loss": 0.7977,
	"step": 54
	},
	{
	"epoch": 0.1202843083652269,
	"grad_norm": 0.29829731583595276,
	"learning_rate": 0.00011956521739130434,
	"loss": 0.7545,
	"step": 55
	},
	{
	"epoch": 0.1224712957900492,
	"grad_norm": 0.4180648922920227,
	"learning_rate": 0.00012173913043478261,
	"loss": 0.9833,
	"step": 56
	},
	{
	"epoch": 0.12465828321487152,
	"grad_norm": 0.24174439907073975,
	"learning_rate": 0.00012391304347826086,
	"loss": 0.5948,
	"step": 57
	},
	{
	"epoch": 0.1268452706396938,
	"grad_norm": 0.253364235162735,
	"learning_rate": 0.00012608695652173912,
	"loss": 0.7528,
	"step": 58
	},
	{
	"epoch": 0.12903225806451613,
	"grad_norm": 0.31262415647506714,
	"learning_rate": 0.00012826086956521738,
	"loss": 0.7635,
	"step": 59
	},
	{
	"epoch": 0.13121924548933844,
	"grad_norm": 0.2893831729888916,
	"learning_rate": 0.00013043478260869564,
	"loss": 0.7426,
	"step": 60
	},
	{
	"epoch": 0.13340623291416073,
	"grad_norm": 0.26717469096183777,
	"learning_rate": 0.0001326086956521739,
	"loss": 0.7747,
	"step": 61
	},
	{
	"epoch": 0.13559322033898305,
	"grad_norm": 0.3445766270160675,
	"learning_rate": 0.00013478260869565216,
	"loss": 0.802,
	"step": 62
	},
	{
	"epoch": 0.13778020776380537,
	"grad_norm": 0.3893512487411499,
	"learning_rate": 0.00013695652173913042,
	"loss": 1.0112,
	"step": 63
	},
	{
	"epoch": 0.13996719518862766,
	"grad_norm": 0.2807013988494873,
	"learning_rate": 0.00013913043478260868,
	"loss": 0.832,
	"step": 64
	},
	{
	"epoch": 0.14215418261344998,
	"grad_norm": 0.3300040662288666,
	"learning_rate": 0.00014130434782608694,
	"loss": 0.8425,
	"step": 65
	},
	{
	"epoch": 0.1443411700382723,
	"grad_norm": 0.3051323890686035,
	"learning_rate": 0.0001434782608695652,
	"loss": 0.7218,
	"step": 66
	},
	{
	"epoch": 0.14652815746309458,
	"grad_norm": 0.25623396039009094,
	"learning_rate": 0.00014565217391304347,
	"loss": 0.7398,
	"step": 67
	},
	{
	"epoch": 0.1487151448879169,
	"grad_norm": 0.3793390989303589,
	"learning_rate": 0.00014782608695652173,
	"loss": 0.7293,
	"step": 68
	},
	{
	"epoch": 0.1509021323127392,
	"grad_norm": 0.3046607971191406,
	"learning_rate": 0.00015,
	"loss": 0.7507,
	"step": 69
	},
	{
	"epoch": 0.1530891197375615,
	"grad_norm": 0.23061273992061615,
	"learning_rate": 0.00015217391304347825,
	"loss": 0.6682,
	"step": 70
	},
	{
	"epoch": 0.15527610716238383,
	"grad_norm": 0.3328089714050293,
	"learning_rate": 0.00015434782608695648,
	"loss": 0.6736,
	"step": 71
	},
	{
	"epoch": 0.15746309458720611,
	"grad_norm": 0.4419778287410736,
	"learning_rate": 0.00015652173913043477,
	"loss": 0.8789,
	"step": 72
	},
	{
	"epoch": 0.15965008201202843,
	"grad_norm": 0.3310529291629791,
	"learning_rate": 0.00015869565217391303,
	"loss": 0.8108,
	"step": 73
	},
	{
	"epoch": 0.16183706943685075,
	"grad_norm": 0.4529496729373932,
	"learning_rate": 0.00016086956521739132,
	"loss": 1.0239,
	"step": 74
	},
	{
	"epoch": 0.16402405686167304,
	"grad_norm": 0.3741857707500458,
	"learning_rate": 0.00016304347826086955,
	"loss": 0.7601,
	"step": 75
	},
	{
	"epoch": 0.16621104428649536,
	"grad_norm": 0.2660742700099945,
	"learning_rate": 0.0001652173913043478,
	"loss": 0.7989,
	"step": 76
	},
	{
	"epoch": 0.16839803171131765,
	"grad_norm": 0.28130316734313965,
	"learning_rate": 0.00016739130434782607,
	"loss": 0.8459,
	"step": 77
	},
	{
	"epoch": 0.17058501913613996,
	"grad_norm": 0.3322678804397583,
	"learning_rate": 0.00016956521739130433,
	"loss": 0.7567,
	"step": 78
	},
	{
	"epoch": 0.17277200656096228,
	"grad_norm": 0.30039381980895996,
	"learning_rate": 0.0001717391304347826,
	"loss": 0.7353,
	"step": 79
	},
	{
	"epoch": 0.17495899398578457,
	"grad_norm": 0.30451035499572754,
	"learning_rate": 0.00017391304347826085,
	"loss": 0.7913,
	"step": 80
	},
	{
	"epoch": 0.1771459814106069,
	"grad_norm": 0.30815356969833374,
	"learning_rate": 0.00017608695652173914,
	"loss": 0.7766,
	"step": 81
	},
	{
	"epoch": 0.1793329688354292,
	"grad_norm": 0.5257038474082947,
	"learning_rate": 0.00017826086956521738,
	"loss": 0.7486,
	"step": 82
	},
	{
	"epoch": 0.1815199562602515,
	"grad_norm": 0.22373591363430023,
	"learning_rate": 0.00018043478260869564,
	"loss": 0.79,
	"step": 83
	},
	{
	"epoch": 0.18370694368507381,
	"grad_norm": 0.21466179192066193,
	"learning_rate": 0.0001826086956521739,
	"loss": 0.6091,
	"step": 84
	},
	{
	"epoch": 0.1858939311098961,
	"grad_norm": 0.3204774558544159,
	"learning_rate": 0.00018478260869565216,
	"loss": 1.015,
	"step": 85
	},
	{
	"epoch": 0.18808091853471842,
	"grad_norm": 0.272977739572525,
	"learning_rate": 0.00018695652173913042,
	"loss": 0.7317,
	"step": 86
	},
	{
	"epoch": 0.19026790595954074,
	"grad_norm": 0.32803332805633545,
	"learning_rate": 0.00018913043478260868,
	"loss": 0.7552,
	"step": 87
	},
	{
	"epoch": 0.19245489338436303,
	"grad_norm": 0.308023065328598,
	"learning_rate": 0.0001913043478260869,
	"loss": 0.7058,
	"step": 88
	},
	{
	"epoch": 0.19464188080918535,
	"grad_norm": 0.2604801654815674,
	"learning_rate": 0.0001934782608695652,
	"loss": 0.6967,
	"step": 89
	},
	{
	"epoch": 0.19682886823400766,
	"grad_norm": 0.3489021062850952,
	"learning_rate": 0.00019565217391304346,
	"loss": 0.7518,
	"step": 90
	},
	{
	"epoch": 0.19901585565882995,
	"grad_norm": 0.6137279272079468,
	"learning_rate": 0.00019782608695652172,
	"loss": 0.635,
	"step": 91
	},
	{
	"epoch": 0.20120284308365227,
	"grad_norm": 0.41480115056037903,
	"learning_rate": 0.00019999999999999998,
	"loss": 0.8928,
	"step": 92
	},
	{
	"epoch": 0.2033898305084746,
	"grad_norm": 0.22284042835235596,
	"learning_rate": 0.00020217391304347824,
	"loss": 0.5862,
	"step": 93
	},
	{
	"epoch": 0.20557681793329688,
	"grad_norm": 0.233658567070961,
	"learning_rate": 0.0002043478260869565,
	"loss": 0.8148,
	"step": 94
	},
	{
	"epoch": 0.2077638053581192,
	"grad_norm": 0.21716511249542236,
	"learning_rate": 0.00020652173913043474,
	"loss": 0.6474,
	"step": 95
	},
	{
	"epoch": 0.2099507927829415,
	"grad_norm": 0.506393551826477,
	"learning_rate": 0.00020869565217391303,
	"loss": 0.7149,
	"step": 96
	},
	{
	"epoch": 0.2121377802077638,
	"grad_norm": 0.3504016697406769,
	"learning_rate": 0.00021086956521739129,
	"loss": 0.647,
	"step": 97
	},
	{
	"epoch": 0.21432476763258612,
	"grad_norm": 0.28688108921051025,
	"learning_rate": 0.00021304347826086955,
	"loss": 0.6584,
	"step": 98
	},
	{
	"epoch": 0.2165117550574084,
	"grad_norm": 0.35572630167007446,
	"learning_rate": 0.0002152173913043478,
	"loss": 0.8177,
	"step": 99
	},
	{
	"epoch": 0.21869874248223073,
	"grad_norm": 0.30645623803138733,
	"learning_rate": 0.00021739130434782607,
	"loss": 0.7421,
	"step": 100
	},
	{
	"epoch": 0.22088572990705305,
	"grad_norm": 0.480013370513916,
	"learning_rate": 0.00021956521739130433,
	"loss": 0.7542,
	"step": 101
	},
	{
	"epoch": 0.22307271733187534,
	"grad_norm": 0.23101027309894562,
	"learning_rate": 0.00022173913043478256,
	"loss": 0.81,
	"step": 102
	},
	{
	"epoch": 0.22525970475669765,
	"grad_norm": 0.37322309613227844,
	"learning_rate": 0.00022391304347826085,
	"loss": 0.8879,
	"step": 103
	},
	{
	"epoch": 0.22744669218151994,
	"grad_norm": 1.5672107934951782,
	"learning_rate": 0.0002260869565217391,
	"loss": 0.7838,
	"step": 104
	},
	{
	"epoch": 0.22963367960634226,
	"grad_norm": 0.5281320810317993,
	"learning_rate": 0.0002282608695652174,
	"loss": 0.7246,
	"step": 105
	},
	{
	"epoch": 0.23182066703116458,
	"grad_norm": 0.597309947013855,
	"learning_rate": 0.00023043478260869563,
	"loss": 0.6229,
	"step": 106
	},
	{
	"epoch": 0.23400765445598687,
	"grad_norm": 0.29928773641586304,
	"learning_rate": 0.0002326086956521739,
	"loss": 0.779,
	"step": 107
	},
	{
	"epoch": 0.2361946418808092,
	"grad_norm": 0.3042626678943634,
	"learning_rate": 0.00023478260869565215,
	"loss": 0.6647,
	"step": 108
	},
	{
	"epoch": 0.2383816293056315,
	"grad_norm": 0.3099993169307709,
	"learning_rate": 0.00023695652173913041,
	"loss": 0.8173,
	"step": 109
	},
	{
	"epoch": 0.2405686167304538,
	"grad_norm": 0.21835339069366455,
	"learning_rate": 0.00023913043478260867,
	"loss": 0.7145,
	"step": 110
	},
	{
	"epoch": 0.2427556041552761,
	"grad_norm": 0.2737351357936859,
	"learning_rate": 0.00024130434782608694,
	"loss": 0.754,
	"step": 111
	},
	{
	"epoch": 0.2449425915800984,
	"grad_norm": 0.2737314999103546,
	"learning_rate": 0.00024347826086956522,
	"loss": 0.6692,
	"step": 112
	},
	{
	"epoch": 0.24712957900492072,
	"grad_norm": 0.369526743888855,
	"learning_rate": 0.00024565217391304343,
	"loss": 0.7039,
	"step": 113
	},
	{
	"epoch": 0.24931656642974304,
	"grad_norm": 0.2262083888053894,
	"learning_rate": 0.0002478260869565217,
	"loss": 0.6004,
	"step": 114
	},
	{
	"epoch": 0.25150355385456535,
	"grad_norm": 0.42596694827079773,
	"learning_rate": 0.00025,
	"loss": 0.8972,
	"step": 115
	},
	{
	"epoch": 0.2536905412793876,
	"grad_norm": 0.4870564043521881,
	"learning_rate": 0.00025217391304347824,
	"loss": 0.7305,
	"step": 116
	},
	{
	"epoch": 0.25587752870420993,
	"grad_norm": 0.3326433598995209,
	"learning_rate": 0.00025434782608695647,
	"loss": 0.7079,
	"step": 117
	},
	{
	"epoch": 0.25806451612903225,
	"grad_norm": 0.3588925004005432,
	"learning_rate": 0.00025652173913043476,
	"loss": 0.7682,
	"step": 118
	},
	{
	"epoch": 0.26025150355385457,
	"grad_norm": 0.2966621518135071,
	"learning_rate": 0.00025869565217391305,
	"loss": 0.8244,
	"step": 119
	},
	{
	"epoch": 0.2624384909786769,
	"grad_norm": 0.2213324010372162,
	"learning_rate": 0.0002608695652173913,
	"loss": 0.841,
	"step": 120
	},
	{
	"epoch": 0.2646254784034992,
	"grad_norm": 0.28340932726860046,
	"learning_rate": 0.00026304347826086957,
	"loss": 0.7646,
	"step": 121
	},
	{
	"epoch": 0.26681246582832147,
	"grad_norm": 0.3026011884212494,
	"learning_rate": 0.0002652173913043478,
	"loss": 0.8269,
	"step": 122
	},
	{
	"epoch": 0.2689994532531438,
	"grad_norm": 0.3213091194629669,
	"learning_rate": 0.00026739130434782604,
	"loss": 0.7456,
	"step": 123
	},
	{
	"epoch": 0.2711864406779661,
	"grad_norm": 0.24254000186920166,
	"learning_rate": 0.0002695652173913043,
	"loss": 0.786,
	"step": 124
	},
	{
	"epoch": 0.2733734281027884,
	"grad_norm": 0.22490260004997253,
	"learning_rate": 0.0002717391304347826,
	"loss": 0.8288,
	"step": 125
	},
	{
	"epoch": 0.27556041552761074,
	"grad_norm": 0.2039777934551239,
	"learning_rate": 0.00027391304347826085,
	"loss": 0.7204,
	"step": 126
	},
	{
	"epoch": 0.277747402952433,
	"grad_norm": 0.2281191200017929,
	"learning_rate": 0.0002760869565217391,
	"loss": 0.5744,
	"step": 127
	},
	{
	"epoch": 0.2799343903772553,
	"grad_norm": 0.33240583539009094,
	"learning_rate": 0.00027826086956521737,
	"loss": 0.6398,
	"step": 128
	},
	{
	"epoch": 0.28212137780207763,
	"grad_norm": 0.38755086064338684,
	"learning_rate": 0.00028043478260869565,
	"loss": 0.6739,
	"step": 129
	},
	{
	"epoch": 0.28430836522689995,
	"grad_norm": 0.5284032821655273,
	"learning_rate": 0.0002826086956521739,
	"loss": 1.0215,
	"step": 130
	},
	{
	"epoch": 0.28649535265172227,
	"grad_norm": 0.8248558044433594,
	"learning_rate": 0.0002847826086956521,
	"loss": 0.6937,
	"step": 131
	},
	{
	"epoch": 0.2886823400765446,
	"grad_norm": 0.264347106218338,
	"learning_rate": 0.0002869565217391304,
	"loss": 0.6745,
	"step": 132
	},
	{
	"epoch": 0.29086932750136685,
	"grad_norm": 0.24335810542106628,
	"learning_rate": 0.00028913043478260864,
	"loss": 0.8085,
	"step": 133
	},
	{
	"epoch": 0.29305631492618917,
	"grad_norm": 0.2641212046146393,
	"learning_rate": 0.00029130434782608693,
	"loss": 0.6991,
	"step": 134
	},
	{
	"epoch": 0.2952433023510115,
	"grad_norm": 0.2698618769645691,
	"learning_rate": 0.0002934782608695652,
	"loss": 0.7643,
	"step": 135
	},
	{
	"epoch": 0.2974302897758338,
	"grad_norm": 0.24988499283790588,
	"learning_rate": 0.00029565217391304345,
	"loss": 0.8905,
	"step": 136
	},
	{
	"epoch": 0.2996172772006561,
	"grad_norm": 0.2180056869983673,
	"learning_rate": 0.0002978260869565217,
	"loss": 0.7743,
	"step": 137
	},
	{
	"epoch": 0.3018042646254784,
	"grad_norm": 0.23834429681301117,
	"learning_rate": 0.0003,
	"loss": 0.6164,
	"step": 138
	},
	{
	"epoch": 0.3039912520503007,
	"grad_norm": 0.33471837639808655,
	"learning_rate": 0.00029975669099756687,
	"loss": 0.9367,
	"step": 139
	},
	{
	"epoch": 0.306178239475123,
	"grad_norm": 0.22311441600322723,
	"learning_rate": 0.0002995133819951338,
	"loss": 0.8235,
	"step": 140
	},
	{
	"epoch": 0.30836522689994533,
	"grad_norm": 0.16766682267189026,
	"learning_rate": 0.0002992700729927007,
	"loss": 0.6212,
	"step": 141
	},
	{
	"epoch": 0.31055221432476765,
	"grad_norm": 0.21076077222824097,
	"learning_rate": 0.0002990267639902676,
	"loss": 0.7472,
	"step": 142
	},
	{
	"epoch": 0.3127392017495899,
	"grad_norm": 0.33612027764320374,
	"learning_rate": 0.0002987834549878345,
	"loss": 0.7475,
	"step": 143
	},
	{
	"epoch": 0.31492618917441223,
	"grad_norm": 0.2724473476409912,
	"learning_rate": 0.0002985401459854014,
	"loss": 0.7422,
	"step": 144
	},
	{
	"epoch": 0.31711317659923455,
	"grad_norm": 0.23170293867588043,
	"learning_rate": 0.0002982968369829683,
	"loss": 0.7233,
	"step": 145
	},
	{
	"epoch": 0.31930016402405687,
	"grad_norm": 0.2461654394865036,
	"learning_rate": 0.00029805352798053527,
	"loss": 0.6717,
	"step": 146
	},
	{
	"epoch": 0.3214871514488792,
	"grad_norm": 0.2988247573375702,
	"learning_rate": 0.00029781021897810217,
	"loss": 0.8926,
	"step": 147
	},
	{
	"epoch": 0.3236741388737015,
	"grad_norm": 0.18185736238956451,
	"learning_rate": 0.00029756690997566907,
	"loss": 0.6663,
	"step": 148
	},
	{
	"epoch": 0.32586112629852376,
	"grad_norm": 0.276687890291214,
	"learning_rate": 0.000297323600973236,
	"loss": 0.6903,
	"step": 149
	},
	{
	"epoch": 0.3280481137233461,
	"grad_norm": 0.3481093645095825,
	"learning_rate": 0.0002970802919708029,
	"loss": 0.7468,
	"step": 150
	},
	{
	"epoch": 0.3302351011481684,
	"grad_norm": 0.21930567920207977,
	"learning_rate": 0.0002968369829683698,
	"loss": 0.6268,
	"step": 151
	},
	{
	"epoch": 0.3324220885729907,
	"grad_norm": 0.18267425894737244,
	"learning_rate": 0.0002965936739659367,
	"loss": 0.7194,
	"step": 152
	},
	{
	"epoch": 0.33460907599781303,
	"grad_norm": 0.7277535200119019,
	"learning_rate": 0.0002963503649635036,
	"loss": 0.7393,
	"step": 153
	},
	{
	"epoch": 0.3367960634226353,
	"grad_norm": 0.3378921151161194,
	"learning_rate": 0.0002961070559610705,
	"loss": 0.7413,
	"step": 154
	},
	{
	"epoch": 0.3389830508474576,
	"grad_norm": 0.20400595664978027,
	"learning_rate": 0.00029586374695863746,
	"loss": 0.7604,
	"step": 155
	},
	{
	"epoch": 0.34117003827227993,
	"grad_norm": 0.3428679406642914,
	"learning_rate": 0.00029562043795620436,
	"loss": 0.6905,
	"step": 156
	},
	{
	"epoch": 0.34335702569710225,
	"grad_norm": 0.25741925835609436,
	"learning_rate": 0.00029537712895377126,
	"loss": 0.8333,
	"step": 157
	},
	{
	"epoch": 0.34554401312192456,
	"grad_norm": 0.2198708951473236,
	"learning_rate": 0.00029513381995133816,
	"loss": 0.7183,
	"step": 158
	},
	{
	"epoch": 0.3477310005467469,
	"grad_norm": 0.2663215696811676,
	"learning_rate": 0.0002948905109489051,
	"loss": 0.6736,
	"step": 159
	},
	{
	"epoch": 0.34991798797156914,
	"grad_norm": 0.26539289951324463,
	"learning_rate": 0.000294647201946472,
	"loss": 0.7691,
	"step": 160
	},
	{
	"epoch": 0.35210497539639146,
	"grad_norm": 0.21398472785949707,
	"learning_rate": 0.0002944038929440389,
	"loss": 0.7259,
	"step": 161
	},
	{
	"epoch": 0.3542919628212138,
	"grad_norm": 0.27584224939346313,
	"learning_rate": 0.0002941605839416058,
	"loss": 0.7451,
	"step": 162
	},
	{
	"epoch": 0.3564789502460361,
	"grad_norm": 0.27322661876678467,
	"learning_rate": 0.0002939172749391727,
	"loss": 0.7429,
	"step": 163
	},
	{
	"epoch": 0.3586659376708584,
	"grad_norm": 0.3097633421421051,
	"learning_rate": 0.0002936739659367396,
	"loss": 0.7925,
	"step": 164
	},
	{
	"epoch": 0.3608529250956807,
	"grad_norm": 0.235543355345726,
	"learning_rate": 0.00029343065693430656,
	"loss": 0.6892,
	"step": 165
	},
	{
	"epoch": 0.363039912520503,
	"grad_norm": 0.34558114409446716,
	"learning_rate": 0.00029318734793187345,
	"loss": 0.8239,
	"step": 166
	},
	{
	"epoch": 0.3652268999453253,
	"grad_norm": 0.5169651508331299,
	"learning_rate": 0.00029294403892944035,
	"loss": 0.5348,
	"step": 167
	},
	{
	"epoch": 0.36741388737014763,
	"grad_norm": 0.4853683412075043,
	"learning_rate": 0.0002927007299270073,
	"loss": 0.7482,
	"step": 168
	},
	{
	"epoch": 0.36960087479496995,
	"grad_norm": 0.3244207203388214,
	"learning_rate": 0.0002924574209245742,
	"loss": 0.6755,
	"step": 169
	},
	{
	"epoch": 0.3717878622197922,
	"grad_norm": 0.3096265494823456,
	"learning_rate": 0.0002922141119221411,
	"loss": 0.8395,
	"step": 170
	},
	{
	"epoch": 0.3739748496446145,
	"grad_norm": 0.21022038161754608,
	"learning_rate": 0.000291970802919708,
	"loss": 0.7376,
	"step": 171
	},
	{
	"epoch": 0.37616183706943684,
	"grad_norm": 0.23877666890621185,
	"learning_rate": 0.0002917274939172749,
	"loss": 0.7051,
	"step": 172
	},
	{
	"epoch": 0.37834882449425916,
	"grad_norm": 0.4041813015937805,
	"learning_rate": 0.0002914841849148418,
	"loss": 0.6341,
	"step": 173
	},
	{
	"epoch": 0.3805358119190815,
	"grad_norm": 0.45476263761520386,
	"learning_rate": 0.00029124087591240875,
	"loss": 0.6939,
	"step": 174
	},
	{
	"epoch": 0.3827227993439038,
	"grad_norm": 0.3100184202194214,
	"learning_rate": 0.00029099756690997565,
	"loss": 0.6321,
	"step": 175
	},
	{
	"epoch": 0.38490978676872606,
	"grad_norm": 0.31327834725379944,
	"learning_rate": 0.00029075425790754255,
	"loss": 0.623,
	"step": 176
	},
	{
	"epoch": 0.3870967741935484,
	"grad_norm": 0.23366397619247437,
	"learning_rate": 0.0002905109489051095,
	"loss": 0.6799,
	"step": 177
	},
	{
	"epoch": 0.3892837616183707,
	"grad_norm": 0.312284380197525,
	"learning_rate": 0.0002902676399026764,
	"loss": 0.6979,
	"step": 178
	},
	{
	"epoch": 0.391470749043193,
	"grad_norm": 0.39591529965400696,
	"learning_rate": 0.0002900243309002433,
	"loss": 0.8571,
	"step": 179
	},
	{
	"epoch": 0.39365773646801533,
	"grad_norm": 0.22407367825508118,
	"learning_rate": 0.0002897810218978102,
	"loss": 0.7724,
	"step": 180
	},
	{
	"epoch": 0.3958447238928376,
	"grad_norm": 0.41758400201797485,
	"learning_rate": 0.0002895377128953771,
	"loss": 0.5597,
	"step": 181
	},
	{
	"epoch": 0.3980317113176599,
	"grad_norm": 0.22731241583824158,
	"learning_rate": 0.000289294403892944,
	"loss": 0.7618,
	"step": 182
	},
	{
	"epoch": 0.4002186987424822,
	"grad_norm": 0.24491345882415771,
	"learning_rate": 0.00028905109489051094,
	"loss": 0.6777,
	"step": 183
	},
	{
	"epoch": 0.40240568616730454,
	"grad_norm": 0.2861243188381195,
	"learning_rate": 0.00028880778588807784,
	"loss": 0.8928,
	"step": 184
	},
	{
	"epoch": 0.40459267359212686,
	"grad_norm": 0.30325135588645935,
	"learning_rate": 0.00028856447688564474,
	"loss": 0.6794,
	"step": 185
	},
	{
	"epoch": 0.4067796610169492,
	"grad_norm": 0.22165870666503906,
	"learning_rate": 0.0002883211678832117,
	"loss": 0.7288,
	"step": 186
	},
	{
	"epoch": 0.40896664844177144,
	"grad_norm": 0.265067994594574,
	"learning_rate": 0.0002880778588807786,
	"loss": 0.6641,
	"step": 187
	},
	{
	"epoch": 0.41115363586659376,
	"grad_norm": 0.3085087835788727,
	"learning_rate": 0.0002878345498783455,
	"loss": 0.7916,
	"step": 188
	},
	{
	"epoch": 0.4133406232914161,
	"grad_norm": 0.30947744846343994,
	"learning_rate": 0.0002875912408759124,
	"loss": 0.834,
	"step": 189
	},
	{
	"epoch": 0.4155276107162384,
	"grad_norm": 0.2581535875797272,
	"learning_rate": 0.0002873479318734793,
	"loss": 0.6255,
	"step": 190
	},
	{
	"epoch": 0.4177145981410607,
	"grad_norm": 0.24718667566776276,
	"learning_rate": 0.0002871046228710462,
	"loss": 0.7883,
	"step": 191
	},
	{
	"epoch": 0.419901585565883,
	"grad_norm": 0.2618321180343628,
	"learning_rate": 0.00028686131386861314,
	"loss": 0.6922,
	"step": 192
	},
	{
	"epoch": 0.4220885729907053,
	"grad_norm": 0.24760881066322327,
	"learning_rate": 0.00028661800486618004,
	"loss": 0.7304,
	"step": 193
	},
	{
	"epoch": 0.4242755604155276,
	"grad_norm": 0.27126792073249817,
	"learning_rate": 0.00028637469586374693,
	"loss": 0.5676,
	"step": 194
	},
	{
	"epoch": 0.4264625478403499,
	"grad_norm": 0.1799423098564148,
	"learning_rate": 0.00028613138686131383,
	"loss": 0.7223,
	"step": 195
	},
	{
	"epoch": 0.42864953526517224,
	"grad_norm": 0.2653333246707916,
	"learning_rate": 0.0002858880778588808,
	"loss": 0.7486,
	"step": 196
	},
	{
	"epoch": 0.4308365226899945,
	"grad_norm": 0.17445164918899536,
	"learning_rate": 0.0002856447688564477,
	"loss": 0.6661,
	"step": 197
	},
	{
	"epoch": 0.4330235101148168,
	"grad_norm": 0.20842154324054718,
	"learning_rate": 0.0002854014598540146,
	"loss": 0.5784,
	"step": 198
	},
	{
	"epoch": 0.43521049753963914,
	"grad_norm": 0.2216557264328003,
	"learning_rate": 0.0002851581508515815,
	"loss": 0.8205,
	"step": 199
	},
	{
	"epoch": 0.43739748496446146,
	"grad_norm": 0.3524712920188904,
	"learning_rate": 0.0002849148418491484,
	"loss": 0.8784,
	"step": 200
	},
	{
	"epoch": 0.4395844723892838,
	"grad_norm": 0.22435776889324188,
	"learning_rate": 0.0002846715328467153,
	"loss": 0.7975,
	"step": 201
	},
	{
	"epoch": 0.4417714598141061,
	"grad_norm": 0.33707621693611145,
	"learning_rate": 0.00028442822384428223,
	"loss": 0.8767,
	"step": 202
	},
	{
	"epoch": 0.44395844723892836,
	"grad_norm": 0.20236724615097046,
	"learning_rate": 0.00028418491484184913,
	"loss": 0.6695,
	"step": 203
	},
	{
	"epoch": 0.4461454346637507,
	"grad_norm": 0.26543137431144714,
	"learning_rate": 0.000283941605839416,
	"loss": 0.7137,
	"step": 204
	},
	{
	"epoch": 0.448332422088573,
	"grad_norm": 0.21210715174674988,
	"learning_rate": 0.000283698296836983,
	"loss": 0.8809,
	"step": 205
	},
	{
	"epoch": 0.4505194095133953,
	"grad_norm": 0.21614502370357513,
	"learning_rate": 0.0002834549878345499,
	"loss": 0.6771,
	"step": 206
	},
	{
	"epoch": 0.4527063969382176,
	"grad_norm": 0.30795833468437195,
	"learning_rate": 0.0002832116788321168,
	"loss": 0.6966,
	"step": 207
	},
	{
	"epoch": 0.4548933843630399,
	"grad_norm": 0.4060954749584198,
	"learning_rate": 0.0002829683698296837,
	"loss": 0.7059,
	"step": 208
	},
	{
	"epoch": 0.4570803717878622,
	"grad_norm": 0.24772609770298004,
	"learning_rate": 0.00028272506082725057,
	"loss": 0.6992,
	"step": 209
	},
	{
	"epoch": 0.4592673592126845,
	"grad_norm": 0.2909943461418152,
	"learning_rate": 0.00028248175182481747,
	"loss": 0.8624,
	"step": 210
	},
	{
	"epoch": 0.46145434663750684,
	"grad_norm": 0.2036535143852234,
	"learning_rate": 0.0002822384428223844,
	"loss": 0.7753,
	"step": 211
	},
	{
	"epoch": 0.46364133406232916,
	"grad_norm": 0.1994384229183197,
	"learning_rate": 0.0002819951338199513,
	"loss": 0.7294,
	"step": 212
	},
	{
	"epoch": 0.4658283214871515,
	"grad_norm": 0.2482912242412567,
	"learning_rate": 0.0002817518248175182,
	"loss": 0.6213,
	"step": 213
	},
	{
	"epoch": 0.46801530891197374,
	"grad_norm": 0.42890939116477966,
	"learning_rate": 0.0002815085158150851,
	"loss": 0.8935,
	"step": 214
	},
	{
	"epoch": 0.47020229633679606,
	"grad_norm": 0.24268397688865662,
	"learning_rate": 0.000281265206812652,
	"loss": 0.6253,
	"step": 215
	},
	{
	"epoch": 0.4723892837616184,
	"grad_norm": 0.3331579267978668,
	"learning_rate": 0.00028102189781021897,
	"loss": 0.7022,
	"step": 216
	},
	{
	"epoch": 0.4745762711864407,
	"grad_norm": 0.34377002716064453,
	"learning_rate": 0.00028077858880778587,
	"loss": 0.8386,
	"step": 217
	},
	{
	"epoch": 0.476763258611263,
	"grad_norm": 0.2543483078479767,
	"learning_rate": 0.00028053527980535277,
	"loss": 0.6084,
	"step": 218
	},
	{
	"epoch": 0.47895024603608527,
	"grad_norm": 0.30651986598968506,
	"learning_rate": 0.00028029197080291966,
	"loss": 0.7624,
	"step": 219
	},
	{
	"epoch": 0.4811372334609076,
	"grad_norm": 0.3476787209510803,
	"learning_rate": 0.0002800486618004866,
	"loss": 0.822,
	"step": 220
	},
	{
	"epoch": 0.4833242208857299,
	"grad_norm": 0.3727283477783203,
	"learning_rate": 0.0002798053527980535,
	"loss": 0.7416,
	"step": 221
	},
	{
	"epoch": 0.4855112083105522,
	"grad_norm": 0.3289774954319,
	"learning_rate": 0.0002795620437956204,
	"loss": 0.8264,
	"step": 222
	},
	{
	"epoch": 0.48769819573537454,
	"grad_norm": 0.26083284616470337,
	"learning_rate": 0.0002793187347931873,
	"loss": 0.6279,
	"step": 223
	},
	{
	"epoch": 0.4898851831601968,
	"grad_norm": 0.2844780683517456,
	"learning_rate": 0.0002790754257907542,
	"loss": 0.6315,
	"step": 224
	},
	{
	"epoch": 0.4920721705850191,
	"grad_norm": 0.3443123996257782,
	"learning_rate": 0.0002788321167883211,
	"loss": 0.6538,
	"step": 225
	},
	{
	"epoch": 0.49425915800984144,
	"grad_norm": 0.23209474980831146,
	"learning_rate": 0.00027858880778588806,
	"loss": 0.7205,
	"step": 226
	},
	{
	"epoch": 0.49644614543466375,
	"grad_norm": 0.26261788606643677,
	"learning_rate": 0.00027834549878345496,
	"loss": 0.7253,
	"step": 227
	},
	{
	"epoch": 0.4986331328594861,
	"grad_norm": 0.28650718927383423,
	"learning_rate": 0.00027810218978102186,
	"loss": 0.889,
	"step": 228
	},
	{
	"epoch": 0.5008201202843083,
	"grad_norm": 0.2478565275669098,
	"learning_rate": 0.0002778588807785888,
	"loss": 0.7619,
	"step": 229
	},
	{
	"epoch": 0.5030071077091307,
	"grad_norm": 0.17673347890377045,
	"learning_rate": 0.0002776155717761557,
	"loss": 0.8684,
	"step": 230
	},
	{
	"epoch": 0.505194095133953,
	"grad_norm": 0.28806573152542114,
	"learning_rate": 0.0002773722627737226,
	"loss": 0.7499,
	"step": 231
	},
	{
	"epoch": 0.5073810825587752,
	"grad_norm": 0.2507832646369934,
	"learning_rate": 0.0002771289537712895,
	"loss": 0.9297,
	"step": 232
	},
	{
	"epoch": 0.5095680699835976,
	"grad_norm": 0.29228198528289795,
	"learning_rate": 0.0002768856447688564,
	"loss": 0.8578,
	"step": 233
	},
	{
	"epoch": 0.5117550574084199,
	"grad_norm": 0.5378915667533875,
	"learning_rate": 0.0002766423357664233,
	"loss": 0.8647,
	"step": 234
	},
	{
	"epoch": 0.5139420448332422,
	"grad_norm": 0.6002528071403503,
	"learning_rate": 0.0002763990267639902,
	"loss": 0.8368,
	"step": 235
	},
	{
	"epoch": 0.5161290322580645,
	"grad_norm": 0.19659245014190674,
	"learning_rate": 0.00027615571776155715,
	"loss": 0.6983,
	"step": 236
	},
	{
	"epoch": 0.5183160196828869,
	"grad_norm": 0.2815648913383484,
	"learning_rate": 0.00027591240875912405,
	"loss": 0.7741,
	"step": 237
	},
	{
	"epoch": 0.5205030071077091,
	"grad_norm": 0.2534239888191223,
	"learning_rate": 0.00027566909975669095,
	"loss": 0.9392,
	"step": 238
	},
	{
	"epoch": 0.5226899945325314,
	"grad_norm": 0.30477020144462585,
	"learning_rate": 0.0002754257907542579,
	"loss": 0.7839,
	"step": 239
	},
	{
	"epoch": 0.5248769819573538,
	"grad_norm": 0.321443647146225,
	"learning_rate": 0.0002751824817518248,
	"loss": 0.8445,
	"step": 240
	},
	{
	"epoch": 0.527063969382176,
	"grad_norm": 0.3917739689350128,
	"learning_rate": 0.0002749391727493917,
	"loss": 0.6641,
	"step": 241
	},
	{
	"epoch": 0.5292509568069984,
	"grad_norm": 0.2380986511707306,
	"learning_rate": 0.0002746958637469586,
	"loss": 0.8242,
	"step": 242
	},
	{
	"epoch": 0.5314379442318207,
	"grad_norm": 0.1695939153432846,
	"learning_rate": 0.0002744525547445255,
	"loss": 0.7013,
	"step": 243
	},
	{
	"epoch": 0.5336249316566429,
	"grad_norm": 0.24696393311023712,
	"learning_rate": 0.0002742092457420924,
	"loss": 0.8488,
	"step": 244
	},
	{
	"epoch": 0.5358119190814653,
	"grad_norm": 0.2278507500886917,
	"learning_rate": 0.00027396593673965935,
	"loss": 0.7894,
	"step": 245
	},
	{
	"epoch": 0.5379989065062876,
	"grad_norm": 0.41331958770751953,
	"learning_rate": 0.00027372262773722625,
	"loss": 0.8343,
	"step": 246
	},
	{
	"epoch": 0.5401858939311099,
	"grad_norm": 0.29076704382896423,
	"learning_rate": 0.00027347931873479315,
	"loss": 0.995,
	"step": 247
	},
	{
	"epoch": 0.5423728813559322,
	"grad_norm": 0.23243111371994019,
	"learning_rate": 0.0002732360097323601,
	"loss": 0.7456,
	"step": 248
	},
	{
	"epoch": 0.5445598687807545,
	"grad_norm": 0.21154357492923737,
	"learning_rate": 0.000272992700729927,
	"loss": 0.6853,
	"step": 249
	},
	{
	"epoch": 0.5467468562055768,
	"grad_norm": 0.24274934828281403,
	"learning_rate": 0.0002727493917274939,
	"loss": 0.6452,
	"step": 250
	},
	{
	"epoch": 0.5489338436303991,
	"grad_norm": 0.37139129638671875,
	"learning_rate": 0.0002725060827250608,
	"loss": 0.7449,
	"step": 251
	},
	{
	"epoch": 0.5511208310552215,
	"grad_norm": 0.17621925473213196,
	"learning_rate": 0.0002722627737226277,
	"loss": 0.6824,
	"step": 252
	},
	{
	"epoch": 0.5533078184800437,
	"grad_norm": 0.19210177659988403,
	"learning_rate": 0.0002720194647201946,
	"loss": 0.6186,
	"step": 253
	},
	{
	"epoch": 0.555494805904866,
	"grad_norm": 0.21780337393283844,
	"learning_rate": 0.00027177615571776154,
	"loss": 0.663,
	"step": 254
	},
	{
	"epoch": 0.5576817933296884,
	"grad_norm": 0.21192163228988647,
	"learning_rate": 0.00027153284671532844,
	"loss": 0.8801,
	"step": 255
	},
	{
	"epoch": 0.5598687807545106,
	"grad_norm": 0.27523308992385864,
	"learning_rate": 0.00027128953771289534,
	"loss": 0.6769,
	"step": 256
	},
	{
	"epoch": 0.562055768179333,
	"grad_norm": 0.24207553267478943,
	"learning_rate": 0.0002710462287104623,
	"loss": 0.4965,
	"step": 257
	},
	{
	"epoch": 0.5642427556041553,
	"grad_norm": 0.33707237243652344,
	"learning_rate": 0.0002708029197080292,
	"loss": 0.7787,
	"step": 258
	},
	{
	"epoch": 0.5664297430289775,
	"grad_norm": 0.2669321596622467,
	"learning_rate": 0.0002705596107055961,
	"loss": 1.0172,
	"step": 259
	},
	{
	"epoch": 0.5686167304537999,
	"grad_norm": 0.26386845111846924,
	"learning_rate": 0.000270316301703163,
	"loss": 0.6477,
	"step": 260
	},
	{
	"epoch": 0.5708037178786222,
	"grad_norm": 0.304721474647522,
	"learning_rate": 0.0002700729927007299,
	"loss": 0.8301,
	"step": 261
	},
	{
	"epoch": 0.5729907053034445,
	"grad_norm": 0.20255905389785767,
	"learning_rate": 0.0002698296836982968,
	"loss": 0.5643,
	"step": 262
	},
	{
	"epoch": 0.5751776927282668,
	"grad_norm": 0.2723388671875,
	"learning_rate": 0.00026958637469586374,
	"loss": 0.6883,
	"step": 263
	},
	{
	"epoch": 0.5773646801530892,
	"grad_norm": 0.27381351590156555,
	"learning_rate": 0.00026934306569343063,
	"loss": 0.808,
	"step": 264
	},
	{
	"epoch": 0.5795516675779114,
	"grad_norm": 0.25915855169296265,
	"learning_rate": 0.00026909975669099753,
	"loss": 0.722,
	"step": 265
	},
	{
	"epoch": 0.5817386550027337,
	"grad_norm": 0.22392873466014862,
	"learning_rate": 0.0002688564476885645,
	"loss": 0.6744,
	"step": 266
	},
	{
	"epoch": 0.5839256424275561,
	"grad_norm": 0.2078748643398285,
	"learning_rate": 0.0002686131386861314,
	"loss": 0.8127,
	"step": 267
	},
	{
	"epoch": 0.5861126298523783,
	"grad_norm": 0.18671007454395294,
	"learning_rate": 0.0002683698296836983,
	"loss": 0.6276,
	"step": 268
	},
	{
	"epoch": 0.5882996172772007,
	"grad_norm": 0.3014012575149536,
	"learning_rate": 0.0002681265206812652,
	"loss": 0.7543,
	"step": 269
	},
	{
	"epoch": 0.590486604702023,
	"grad_norm": 0.23588421940803528,
	"learning_rate": 0.0002678832116788321,
	"loss": 0.8301,
	"step": 270
	},
	{
	"epoch": 0.5926735921268452,
	"grad_norm": 0.37635311484336853,
	"learning_rate": 0.000267639902676399,
	"loss": 0.8239,
	"step": 271
	},
	{
	"epoch": 0.5948605795516676,
	"grad_norm": 0.23310554027557373,
	"learning_rate": 0.0002673965936739659,
	"loss": 0.8723,
	"step": 272
	},
	{
	"epoch": 0.5970475669764899,
	"grad_norm": 0.47537633776664734,
	"learning_rate": 0.00026715328467153283,
	"loss": 0.7915,
	"step": 273
	},
	{
	"epoch": 0.5992345544013122,
	"grad_norm": 0.2815110981464386,
	"learning_rate": 0.0002669099756690997,
	"loss": 0.8004,
	"step": 274
	},
	{
	"epoch": 0.6014215418261345,
	"grad_norm": 0.19834642112255096,
	"learning_rate": 0.0002666666666666666,
	"loss": 0.7457,
	"step": 275
	},
	{
	"epoch": 0.6036085292509568,
	"grad_norm": 0.5626861453056335,
	"learning_rate": 0.0002664233576642336,
	"loss": 0.6196,
	"step": 276
	},
	{
	"epoch": 0.6057955166757791,
	"grad_norm": 0.2784450054168701,
	"learning_rate": 0.0002661800486618005,
	"loss": 0.6365,
	"step": 277
	},
	{
	"epoch": 0.6079825041006014,
	"grad_norm": 0.23809124529361725,
	"learning_rate": 0.0002659367396593674,
	"loss": 0.7889,
	"step": 278
	},
	{
	"epoch": 0.6101694915254238,
	"grad_norm": 0.25168001651763916,
	"learning_rate": 0.0002656934306569343,
	"loss": 0.6327,
	"step": 279
	},
	{
	"epoch": 0.612356478950246,
	"grad_norm": 0.2970046401023865,
	"learning_rate": 0.00026545012165450117,
	"loss": 0.6913,
	"step": 280
	},
	{
	"epoch": 0.6145434663750683,
	"grad_norm": 0.3090710937976837,
	"learning_rate": 0.00026520681265206807,
	"loss": 0.7131,
	"step": 281
	},
	{
	"epoch": 0.6167304537998907,
	"grad_norm": 0.2775273621082306,
	"learning_rate": 0.000264963503649635,
	"loss": 0.8556,
	"step": 282
	},
	{
	"epoch": 0.6189174412247129,
	"grad_norm": 0.3191220164299011,
	"learning_rate": 0.0002647201946472019,
	"loss": 0.8762,
	"step": 283
	},
	{
	"epoch": 0.6211044286495353,
	"grad_norm": 0.2520481050014496,
	"learning_rate": 0.0002644768856447688,
	"loss": 0.6358,
	"step": 284
	},
	{
	"epoch": 0.6232914160743576,
	"grad_norm": 0.31783685088157654,
	"learning_rate": 0.00026423357664233577,
	"loss": 0.773,
	"step": 285
	},
	{
	"epoch": 0.6254784034991798,
	"grad_norm": 0.33624374866485596,
	"learning_rate": 0.00026399026763990267,
	"loss": 0.963,
	"step": 286
	},
	{
	"epoch": 0.6276653909240022,
	"grad_norm": 0.3576049208641052,
	"learning_rate": 0.00026374695863746957,
	"loss": 0.6658,
	"step": 287
	},
	{
	"epoch": 0.6298523783488245,
	"grad_norm": 0.2659110426902771,
	"learning_rate": 0.00026350364963503647,
	"loss": 0.6662,
	"step": 288
	},
	{
	"epoch": 0.6320393657736468,
	"grad_norm": 0.3657420575618744,
	"learning_rate": 0.00026326034063260337,
	"loss": 0.9873,
	"step": 289
	},
	{
	"epoch": 0.6342263531984691,
	"grad_norm": 0.24509188532829285,
	"learning_rate": 0.00026301703163017026,
	"loss": 0.7795,
	"step": 290
	},
	{
	"epoch": 0.6364133406232915,
	"grad_norm": 0.24286092817783356,
	"learning_rate": 0.0002627737226277372,
	"loss": 0.7611,
	"step": 291
	},
	{
	"epoch": 0.6386003280481137,
	"grad_norm": 0.2804836332798004,
	"learning_rate": 0.0002625304136253041,
	"loss": 0.759,
	"step": 292
	},
	{
	"epoch": 0.640787315472936,
	"grad_norm": 0.3322978615760803,
	"learning_rate": 0.000262287104622871,
	"loss": 0.6943,
	"step": 293
	},
	{
	"epoch": 0.6429743028977584,
	"grad_norm": 0.2114831805229187,
	"learning_rate": 0.00026204379562043797,
	"loss": 0.6729,
	"step": 294
	},
	{
	"epoch": 0.6451612903225806,
	"grad_norm": 0.2177094966173172,
	"learning_rate": 0.00026180048661800486,
	"loss": 0.7916,
	"step": 295
	},
	{
	"epoch": 0.647348277747403,
	"grad_norm": 0.2582005560398102,
	"learning_rate": 0.00026155717761557176,
	"loss": 0.7655,
	"step": 296
	},
	{
	"epoch": 0.6495352651722253,
	"grad_norm": 0.2613639831542969,
	"learning_rate": 0.00026131386861313866,
	"loss": 0.6482,
	"step": 297
	},
	{
	"epoch": 0.6517222525970475,
	"grad_norm": 0.2764948606491089,
	"learning_rate": 0.00026107055961070556,
	"loss": 0.7022,
	"step": 298
	},
	{
	"epoch": 0.6539092400218699,
	"grad_norm": 0.20186789333820343,
	"learning_rate": 0.00026082725060827246,
	"loss": 0.7853,
	"step": 299
	},
	{
	"epoch": 0.6560962274466922,
	"grad_norm": 0.3178173303604126,
	"learning_rate": 0.0002605839416058394,
	"loss": 0.8393,
	"step": 300
	},
	{
	"epoch": 0.6582832148715145,
	"grad_norm": 0.35939186811447144,
	"learning_rate": 0.0002603406326034063,
	"loss": 0.7078,
	"step": 301
	},
	{
	"epoch": 0.6604702022963368,
	"grad_norm": 0.3983876407146454,
	"learning_rate": 0.0002600973236009732,
	"loss": 0.8271,
	"step": 302
	},
	{
	"epoch": 0.6626571897211591,
	"grad_norm": 0.19504043459892273,
	"learning_rate": 0.00025985401459854016,
	"loss": 0.7748,
	"step": 303
	},
	{
	"epoch": 0.6648441771459814,
	"grad_norm": 0.21278342604637146,
	"learning_rate": 0.00025961070559610706,
	"loss": 0.8016,
	"step": 304
	},
	{
	"epoch": 0.6670311645708037,
	"grad_norm": 0.29927191138267517,
	"learning_rate": 0.00025936739659367396,
	"loss": 0.844,
	"step": 305
	},
	{
	"epoch": 0.6692181519956261,
	"grad_norm": 0.22748655080795288,
	"learning_rate": 0.00025912408759124085,
	"loss": 0.6786,
	"step": 306
	},
	{
	"epoch": 0.6714051394204483,
	"grad_norm": 0.21796458959579468,
	"learning_rate": 0.00025888077858880775,
	"loss": 0.8343,
	"step": 307
	},
	{
	"epoch": 0.6735921268452706,
	"grad_norm": 0.26962918043136597,
	"learning_rate": 0.00025863746958637465,
	"loss": 0.8058,
	"step": 308
	},
	{
	"epoch": 0.675779114270093,
	"grad_norm": 0.2169698178768158,
	"learning_rate": 0.00025839416058394155,
	"loss": 0.8341,
	"step": 309
	},
	{
	"epoch": 0.6779661016949152,
	"grad_norm": 0.5226082801818848,
	"learning_rate": 0.0002581508515815085,
	"loss": 0.8038,
	"step": 310
	},
	{
	"epoch": 0.6801530891197376,
	"grad_norm": 0.2540872395038605,
	"learning_rate": 0.0002579075425790754,
	"loss": 0.6485,
	"step": 311
	},
	{
	"epoch": 0.6823400765445599,
	"grad_norm": 0.2758027911186218,
	"learning_rate": 0.0002576642335766423,
	"loss": 0.7258,
	"step": 312
	},
	{
	"epoch": 0.6845270639693821,
	"grad_norm": 0.3712478280067444,
	"learning_rate": 0.00025742092457420925,
	"loss": 1.0087,
	"step": 313
	},
	{
	"epoch": 0.6867140513942045,
	"grad_norm": 0.29959022998809814,
	"learning_rate": 0.00025717761557177615,
	"loss": 0.7344,
	"step": 314
	},
	{
	"epoch": 0.6889010388190268,
	"grad_norm": 0.29603782296180725,
	"learning_rate": 0.00025693430656934305,
	"loss": 0.7633,
	"step": 315
	},
	{
	"epoch": 0.6910880262438491,
	"grad_norm": 0.26212218403816223,
	"learning_rate": 0.00025669099756690995,
	"loss": 0.7762,
	"step": 316
	},
	{
	"epoch": 0.6932750136686714,
	"grad_norm": 0.2501971423625946,
	"learning_rate": 0.00025644768856447685,
	"loss": 0.6449,
	"step": 317
	},
	{
	"epoch": 0.6954620010934938,
	"grad_norm": 0.20236985385417938,
	"learning_rate": 0.00025620437956204374,
	"loss": 0.6661,
	"step": 318
	},
	{
	"epoch": 0.697648988518316,
	"grad_norm": 0.28867748379707336,
	"learning_rate": 0.0002559610705596107,
	"loss": 0.7168,
	"step": 319
	},
	{
	"epoch": 0.6998359759431383,
	"grad_norm": 0.25392022728919983,
	"learning_rate": 0.0002557177615571776,
	"loss": 0.8255,
	"step": 320
	},
	{
	"epoch": 0.7020229633679607,
	"grad_norm": 0.2739144563674927,
	"learning_rate": 0.0002554744525547445,
	"loss": 0.8782,
	"step": 321
	},
	{
	"epoch": 0.7042099507927829,
	"grad_norm": 0.3195747137069702,
	"learning_rate": 0.00025523114355231145,
	"loss": 0.7681,
	"step": 322
	},
	{
	"epoch": 0.7063969382176053,
	"grad_norm": 0.6262739300727844,
	"learning_rate": 0.00025498783454987834,
	"loss": 0.6497,
	"step": 323
	},
	{
	"epoch": 0.7085839256424276,
	"grad_norm": 0.18836063146591187,
	"learning_rate": 0.00025474452554744524,
	"loss": 0.6773,
	"step": 324
	},
	{
	"epoch": 0.7107709130672498,
	"grad_norm": 0.428913950920105,
	"learning_rate": 0.00025450121654501214,
	"loss": 0.6359,
	"step": 325
	},
	{
	"epoch": 0.7129579004920722,
	"grad_norm": 0.2561635375022888,
	"learning_rate": 0.00025425790754257904,
	"loss": 0.6768,
	"step": 326
	},
	{
	"epoch": 0.7151448879168945,
	"grad_norm": 0.2519037425518036,
	"learning_rate": 0.00025401459854014594,
	"loss": 0.941,
	"step": 327
	},
	{
	"epoch": 0.7173318753417168,
	"grad_norm": 0.22086481750011444,
	"learning_rate": 0.0002537712895377129,
	"loss": 0.6448,
	"step": 328
	},
	{
	"epoch": 0.7195188627665391,
	"grad_norm": 0.3844771385192871,
	"learning_rate": 0.0002535279805352798,
	"loss": 0.6043,
	"step": 329
	},
	{
	"epoch": 0.7217058501913614,
	"grad_norm": 0.2547963857650757,
	"learning_rate": 0.0002532846715328467,
	"loss": 0.9912,
	"step": 330
	},
	{
	"epoch": 0.7238928376161837,
	"grad_norm": 0.40474840998649597,
	"learning_rate": 0.00025304136253041364,
	"loss": 0.5905,
	"step": 331
	},
	{
	"epoch": 0.726079825041006,
	"grad_norm": 0.20748649537563324,
	"learning_rate": 0.00025279805352798054,
	"loss": 0.6245,
	"step": 332
	},
	{
	"epoch": 0.7282668124658284,
	"grad_norm": 0.29902809858322144,
	"learning_rate": 0.00025255474452554744,
	"loss": 0.7478,
	"step": 333
	},
	{
	"epoch": 0.7304537998906506,
	"grad_norm": 0.21671514213085175,
	"learning_rate": 0.00025231143552311433,
	"loss": 0.5296,
	"step": 334
	},
	{
	"epoch": 0.7326407873154729,
	"grad_norm": 0.1979508250951767,
	"learning_rate": 0.00025206812652068123,
	"loss": 0.5523,
	"step": 335
	},
	{
	"epoch": 0.7348277747402953,
	"grad_norm": 0.25213825702667236,
	"learning_rate": 0.00025182481751824813,
	"loss": 0.9787,
	"step": 336
	},
	{
	"epoch": 0.7370147621651175,
	"grad_norm": 0.32967931032180786,
	"learning_rate": 0.0002515815085158151,
	"loss": 0.7161,
	"step": 337
	},
	{
	"epoch": 0.7392017495899399,
	"grad_norm": 0.30640098452568054,
	"learning_rate": 0.000251338199513382,
	"loss": 0.9517,
	"step": 338
	},
	{
	"epoch": 0.7413887370147622,
	"grad_norm": 0.1820855438709259,
	"learning_rate": 0.0002510948905109489,
	"loss": 0.6219,
	"step": 339
	},
	{
	"epoch": 0.7435757244395844,
	"grad_norm": 0.29584068059921265,
	"learning_rate": 0.00025085158150851583,
	"loss": 0.7692,
	"step": 340
	},
	{
	"epoch": 0.7457627118644068,
	"grad_norm": 0.3015952408313751,
	"learning_rate": 0.00025060827250608273,
	"loss": 0.812,
	"step": 341
	},
	{
	"epoch": 0.747949699289229,
	"grad_norm": 0.364886611700058,
	"learning_rate": 0.00025036496350364963,
	"loss": 0.7881,
	"step": 342
	},
	{
	"epoch": 0.7501366867140514,
	"grad_norm": 0.2170587182044983,
	"learning_rate": 0.00025012165450121653,
	"loss": 0.6989,
	"step": 343
	},
	{
	"epoch": 0.7523236741388737,
	"grad_norm": 0.23260867595672607,
	"learning_rate": 0.00024987834549878343,
	"loss": 0.6581,
	"step": 344
	},
	{
	"epoch": 0.7545106615636961,
	"grad_norm": 0.36740902066230774,
	"learning_rate": 0.0002496350364963503,
	"loss": 0.9984,
	"step": 345
	},
	{
	"epoch": 0.7566976489885183,
	"grad_norm": 0.6248576641082764,
	"learning_rate": 0.0002493917274939172,
	"loss": 0.9879,
	"step": 346
	},
	{
	"epoch": 0.7588846364133406,
	"grad_norm": 0.44404783844947815,
	"learning_rate": 0.0002491484184914842,
	"loss": 0.616,
	"step": 347
	},
	{
	"epoch": 0.761071623838163,
	"grad_norm": 0.2840265929698944,
	"learning_rate": 0.0002489051094890511,
	"loss": 0.9053,
	"step": 348
	},
	{
	"epoch": 0.7632586112629852,
	"grad_norm": 0.34335142374038696,
	"learning_rate": 0.000248661800486618,
	"loss": 0.7877,
	"step": 349
	},
	{
	"epoch": 0.7654455986878076,
	"grad_norm": 0.28032955527305603,
	"learning_rate": 0.0002484184914841849,
	"loss": 0.5934,
	"step": 350
	},
	{
	"epoch": 0.7676325861126299,
	"grad_norm": 0.35794079303741455,
	"learning_rate": 0.0002481751824817518,
	"loss": 0.736,
	"step": 351
	},
	{
	"epoch": 0.7698195735374521,
	"grad_norm": 0.1937468945980072,
	"learning_rate": 0.0002479318734793187,
	"loss": 0.7268,
	"step": 352
	},
	{
	"epoch": 0.7720065609622745,
	"grad_norm": 0.2442459911108017,
	"learning_rate": 0.0002476885644768856,
	"loss": 0.9092,
	"step": 353
	},
	{
	"epoch": 0.7741935483870968,
	"grad_norm": 0.2178357094526291,
	"learning_rate": 0.0002474452554744525,
	"loss": 0.832,
	"step": 354
	},
	{
	"epoch": 0.7763805358119191,
	"grad_norm": 0.2904297113418579,
	"learning_rate": 0.0002472019464720194,
	"loss": 0.6973,
	"step": 355
	},
	{
	"epoch": 0.7785675232367414,
	"grad_norm": 0.2849595248699188,
	"learning_rate": 0.00024695863746958637,
	"loss": 0.8439,
	"step": 356
	},
	{
	"epoch": 0.7807545106615636,
	"grad_norm": 0.30786654353141785,
	"learning_rate": 0.00024671532846715327,
	"loss": 0.8282,
	"step": 357
	},
	{
	"epoch": 0.782941498086386,
	"grad_norm": 0.2731088697910309,
	"learning_rate": 0.00024647201946472017,
	"loss": 0.7614,
	"step": 358
	},
	{
	"epoch": 0.7851284855112083,
	"grad_norm": 0.2967981696128845,
	"learning_rate": 0.0002462287104622871,
	"loss": 0.7059,
	"step": 359
	},
	{
	"epoch": 0.7873154729360307,
	"grad_norm": 0.2427809238433838,
	"learning_rate": 0.000245985401459854,
	"loss": 0.5235,
	"step": 360
	},
	{
	"epoch": 0.7895024603608529,
	"grad_norm": 0.3543761074542999,
	"learning_rate": 0.0002457420924574209,
	"loss": 0.6882,
	"step": 361
	},
	{
	"epoch": 0.7916894477856752,
	"grad_norm": 0.2084377259016037,
	"learning_rate": 0.0002454987834549878,
	"loss": 0.6333,
	"step": 362
	},
	{
	"epoch": 0.7938764352104976,
	"grad_norm": 0.3653489649295807,
	"learning_rate": 0.0002452554744525547,
	"loss": 0.8776,
	"step": 363
	},
	{
	"epoch": 0.7960634226353198,
	"grad_norm": 0.2806954085826874,
	"learning_rate": 0.0002450121654501216,
	"loss": 0.7464,
	"step": 364
	},
	{
	"epoch": 0.7982504100601422,
	"grad_norm": 0.3652292788028717,
	"learning_rate": 0.00024476885644768856,
	"loss": 0.93,
	"step": 365
	},
	{
	"epoch": 0.8004373974849645,
	"grad_norm": 0.24262574315071106,
	"learning_rate": 0.00024452554744525546,
	"loss": 0.8502,
	"step": 366
	},
	{
	"epoch": 0.8026243849097867,
	"grad_norm": 0.273867666721344,
	"learning_rate": 0.00024428223844282236,
	"loss": 0.9274,
	"step": 367
	},
	{
	"epoch": 0.8048113723346091,
	"grad_norm": 0.21722102165222168,
	"learning_rate": 0.0002440389294403893,
	"loss": 0.8045,
	"step": 368
	},
	{
	"epoch": 0.8069983597594313,
	"grad_norm": 0.19634899497032166,
	"learning_rate": 0.00024379562043795619,
	"loss": 0.7424,
	"step": 369
	},
	{
	"epoch": 0.8091853471842537,
	"grad_norm": 0.27201011776924133,
	"learning_rate": 0.00024355231143552308,
	"loss": 0.797,
	"step": 370
	},
	{
	"epoch": 0.811372334609076,
	"grad_norm": 0.254142165184021,
	"learning_rate": 0.00024330900243309,
	"loss": 0.6142,
	"step": 371
	},
	{
	"epoch": 0.8135593220338984,
	"grad_norm": 0.7009087204933167,
	"learning_rate": 0.0002430656934306569,
	"loss": 0.6703,
	"step": 372
	},
	{
	"epoch": 0.8157463094587206,
	"grad_norm": 0.2147742360830307,
	"learning_rate": 0.0002428223844282238,
	"loss": 0.8446,
	"step": 373
	},
	{
	"epoch": 0.8179332968835429,
	"grad_norm": 0.18214701116085052,
	"learning_rate": 0.00024257907542579076,
	"loss": 0.6536,
	"step": 374
	},
	{
	"epoch": 0.8201202843083653,
	"grad_norm": 0.22022093832492828,
	"learning_rate": 0.00024233576642335766,
	"loss": 0.7452,
	"step": 375
	},
	{
	"epoch": 0.8223072717331875,
	"grad_norm": 0.19220127165317535,
	"learning_rate": 0.00024209245742092456,
	"loss": 0.699,
	"step": 376
	},
	{
	"epoch": 0.8244942591580099,
	"grad_norm": 0.26980119943618774,
	"learning_rate": 0.00024184914841849148,
	"loss": 0.8433,
	"step": 377
	},
	{
	"epoch": 0.8266812465828322,
	"grad_norm": 0.1975000947713852,
	"learning_rate": 0.00024160583941605838,
	"loss": 0.5667,
	"step": 378
	},
	{
	"epoch": 0.8288682340076544,
	"grad_norm": 0.28691354393959045,
	"learning_rate": 0.00024136253041362528,
	"loss": 0.764,
	"step": 379
	},
	{
	"epoch": 0.8310552214324768,
	"grad_norm": 0.23176266252994537,
	"learning_rate": 0.0002411192214111922,
	"loss": 0.5348,
	"step": 380
	},
	{
	"epoch": 0.833242208857299,
	"grad_norm": 0.2583778202533722,
	"learning_rate": 0.0002408759124087591,
	"loss": 0.8583,
	"step": 381
	},
	{
	"epoch": 0.8354291962821214,
	"grad_norm": 0.1877242922782898,
	"learning_rate": 0.000240632603406326,
	"loss": 0.6818,
	"step": 382
	},
	{
	"epoch": 0.8376161837069437,
	"grad_norm": 0.3764333724975586,
	"learning_rate": 0.0002403892944038929,
	"loss": 0.8631,
	"step": 383
	},
	{
	"epoch": 0.839803171131766,
	"grad_norm": 0.30223846435546875,
	"learning_rate": 0.00024014598540145985,
	"loss": 0.7702,
	"step": 384
	},
	{
	"epoch": 0.8419901585565883,
	"grad_norm": 0.43627509474754333,
	"learning_rate": 0.00023990267639902675,
	"loss": 0.8994,
	"step": 385
	},
	{
	"epoch": 0.8441771459814106,
	"grad_norm": 0.2544715404510498,
	"learning_rate": 0.00023965936739659365,
	"loss": 0.6475,
	"step": 386
	},
	{
	"epoch": 0.846364133406233,
	"grad_norm": 0.23747164011001587,
	"learning_rate": 0.00023941605839416057,
	"loss": 0.7199,
	"step": 387
	},
	{
	"epoch": 0.8485511208310552,
	"grad_norm": 0.3392624855041504,
	"learning_rate": 0.00023917274939172747,
	"loss": 0.763,
	"step": 388
	},
	{
	"epoch": 0.8507381082558775,
	"grad_norm": 0.25245627760887146,
	"learning_rate": 0.00023892944038929437,
	"loss": 0.7532,
	"step": 389
	},
	{
	"epoch": 0.8529250956806999,
	"grad_norm": 0.2674003839492798,
	"learning_rate": 0.0002386861313868613,
	"loss": 0.599,
	"step": 390
	},
	{
	"epoch": 0.8551120831055221,
	"grad_norm": 0.27161166071891785,
	"learning_rate": 0.0002384428223844282,
	"loss": 0.9355,
	"step": 391
	},
	{
	"epoch": 0.8572990705303445,
	"grad_norm": 0.18150918185710907,
	"learning_rate": 0.0002381995133819951,
	"loss": 0.6056,
	"step": 392
	},
	{
	"epoch": 0.8594860579551667,
	"grad_norm": 0.22968190908432007,
	"learning_rate": 0.00023795620437956204,
	"loss": 0.767,
	"step": 393
	},
	{
	"epoch": 0.861673045379989,
	"grad_norm": 0.21685199439525604,
	"learning_rate": 0.00023771289537712894,
	"loss": 0.7246,
	"step": 394
	},
	{
	"epoch": 0.8638600328048114,
	"grad_norm": 0.26542550325393677,
	"learning_rate": 0.00023746958637469584,
	"loss": 0.7106,
	"step": 395
	},
	{
	"epoch": 0.8660470202296336,
	"grad_norm": 0.23525013029575348,
	"learning_rate": 0.00023722627737226277,
	"loss": 0.6958,
	"step": 396
	},
	{
	"epoch": 0.868234007654456,
	"grad_norm": 0.20633290708065033,
	"learning_rate": 0.00023698296836982967,
	"loss": 0.643,
	"step": 397
	},
	{
	"epoch": 0.8704209950792783,
	"grad_norm": 0.21550309658050537,
	"learning_rate": 0.00023673965936739656,
	"loss": 0.7449,
	"step": 398
	},
	{
	"epoch": 0.8726079825041007,
	"grad_norm": 0.2124805748462677,
	"learning_rate": 0.0002364963503649635,
	"loss": 0.7398,
	"step": 399
	},
	{
	"epoch": 0.8747949699289229,
	"grad_norm": 0.21294209361076355,
	"learning_rate": 0.0002362530413625304,
	"loss": 0.7934,
	"step": 400
	},
	{
	"epoch": 0.8769819573537452,
	"grad_norm": 0.36196568608283997,
	"learning_rate": 0.00023600973236009729,
	"loss": 0.7848,
	"step": 401
	},
	{
	"epoch": 0.8791689447785676,
	"grad_norm": 0.27596211433410645,
	"learning_rate": 0.0002357664233576642,
	"loss": 0.7286,
	"step": 402
	},
	{
	"epoch": 0.8813559322033898,
	"grad_norm": 0.27594348788261414,
	"learning_rate": 0.00023552311435523114,
	"loss": 0.8247,
	"step": 403
	},
	{
	"epoch": 0.8835429196282122,
	"grad_norm": 0.2970782518386841,
	"learning_rate": 0.00023527980535279804,
	"loss": 0.7548,
	"step": 404
	},
	{
	"epoch": 0.8857299070530344,
	"grad_norm": 0.39152461290359497,
	"learning_rate": 0.00023503649635036496,
	"loss": 0.8263,
	"step": 405
	},
	{
	"epoch": 0.8879168944778567,
	"grad_norm": 0.42587387561798096,
	"learning_rate": 0.00023479318734793186,
	"loss": 0.9905,
	"step": 406
	},
	{
	"epoch": 0.8901038819026791,
	"grad_norm": 0.314147412776947,
	"learning_rate": 0.00023454987834549876,
	"loss": 0.6665,
	"step": 407
	},
	{
	"epoch": 0.8922908693275013,
	"grad_norm": 0.34058940410614014,
	"learning_rate": 0.00023430656934306568,
	"loss": 0.7359,
	"step": 408
	},
	{
	"epoch": 0.8944778567523237,
	"grad_norm": 0.2528778612613678,
	"learning_rate": 0.00023406326034063258,
	"loss": 0.693,
	"step": 409
	},
	{
	"epoch": 0.896664844177146,
	"grad_norm": 0.17990703880786896,
	"learning_rate": 0.00023381995133819948,
	"loss": 0.7565,
	"step": 410
	},
	{
	"epoch": 0.8988518316019682,
	"grad_norm": 0.17062903940677643,
	"learning_rate": 0.0002335766423357664,
	"loss": 0.7891,
	"step": 411
	},
	{
	"epoch": 0.9010388190267906,
	"grad_norm": 0.3442295789718628,
	"learning_rate": 0.0002333333333333333,
	"loss": 0.6173,
	"step": 412
	},
	{
	"epoch": 0.9032258064516129,
	"grad_norm": 0.45662209391593933,
	"learning_rate": 0.0002330900243309002,
	"loss": 0.796,
	"step": 413
	},
	{
	"epoch": 0.9054127938764353,
	"grad_norm": 0.17335475981235504,
	"learning_rate": 0.00023284671532846715,
	"loss": 0.6825,
	"step": 414
	},
	{
	"epoch": 0.9075997813012575,
	"grad_norm": 0.22652967274188995,
	"learning_rate": 0.00023260340632603405,
	"loss": 0.7512,
	"step": 415
	},
	{
	"epoch": 0.9097867687260798,
	"grad_norm": 0.349649041891098,
	"learning_rate": 0.00023236009732360095,
	"loss": 0.8205,
	"step": 416
	},
	{
	"epoch": 0.9119737561509021,
	"grad_norm": 0.18699604272842407,
	"learning_rate": 0.00023211678832116788,
	"loss": 0.6451,
	"step": 417
	},
	{
	"epoch": 0.9141607435757244,
	"grad_norm": 0.2398325353860855,
	"learning_rate": 0.00023187347931873478,
	"loss": 0.6891,
	"step": 418
	},
	{
	"epoch": 0.9163477310005468,
	"grad_norm": 0.22116120159626007,
	"learning_rate": 0.00023163017031630167,
	"loss": 0.6765,
	"step": 419
	},
	{
	"epoch": 0.918534718425369,
	"grad_norm": 0.24642986059188843,
	"learning_rate": 0.00023138686131386857,
	"loss": 0.6119,
	"step": 420
	},
	{
	"epoch": 0.9207217058501913,
	"grad_norm": 0.2329958975315094,
	"learning_rate": 0.0002311435523114355,
	"loss": 0.7286,
	"step": 421
	},
	{
	"epoch": 0.9229086932750137,
	"grad_norm": 0.5355735421180725,
	"learning_rate": 0.0002309002433090024,
	"loss": 0.79,
	"step": 422
	},
	{
	"epoch": 0.9250956806998359,
	"grad_norm": 0.4554167091846466,
	"learning_rate": 0.0002306569343065693,
	"loss": 0.6942,
	"step": 423
	},
	{
	"epoch": 0.9272826681246583,
	"grad_norm": 0.2831968367099762,
	"learning_rate": 0.00023041362530413625,
	"loss": 0.7531,
	"step": 424
	},
	{
	"epoch": 0.9294696555494806,
	"grad_norm": 0.2321235090494156,
	"learning_rate": 0.00023017031630170315,
	"loss": 0.6902,
	"step": 425
	},
	{
	"epoch": 0.931656642974303,
	"grad_norm": 0.4006916880607605,
	"learning_rate": 0.00022992700729927004,
	"loss": 0.6725,
	"step": 426
	},
	{
	"epoch": 0.9338436303991252,
	"grad_norm": 0.3189490735530853,
	"learning_rate": 0.00022968369829683697,
	"loss": 0.769,
	"step": 427
	},
	{
	"epoch": 0.9360306178239475,
	"grad_norm": 0.4294585585594177,
	"learning_rate": 0.00022944038929440387,
	"loss": 0.8656,
	"step": 428
	},
	{
	"epoch": 0.9382176052487698,
	"grad_norm": 0.34347137808799744,
	"learning_rate": 0.00022919708029197077,
	"loss": 0.5948,
	"step": 429
	},
	{
	"epoch": 0.9404045926735921,
	"grad_norm": 0.21789056062698364,
	"learning_rate": 0.0002289537712895377,
	"loss": 0.8035,
	"step": 430
	},
	{
	"epoch": 0.9425915800984145,
	"grad_norm": 0.1835460364818573,
	"learning_rate": 0.0002287104622871046,
	"loss": 0.6128,
	"step": 431
	},
	{
	"epoch": 0.9447785675232367,
	"grad_norm": 0.3390374183654785,
	"learning_rate": 0.0002284671532846715,
	"loss": 0.7788,
	"step": 432
	},
	{
	"epoch": 0.946965554948059,
	"grad_norm": 0.23330353200435638,
	"learning_rate": 0.00022822384428223844,
	"loss": 0.7653,
	"step": 433
	},
	{
	"epoch": 0.9491525423728814,
	"grad_norm": 0.2357734590768814,
	"learning_rate": 0.00022798053527980534,
	"loss": 0.765,
	"step": 434
	},
	{
	"epoch": 0.9513395297977036,
	"grad_norm": 0.2517554759979248,
	"learning_rate": 0.00022773722627737224,
	"loss": 0.7815,
	"step": 435
	},
	{
	"epoch": 0.953526517222526,
	"grad_norm": 0.23417727649211884,
	"learning_rate": 0.00022749391727493916,
	"loss": 0.9801,
	"step": 436
	},
	{
	"epoch": 0.9557135046473483,
	"grad_norm": 0.256149023771286,
	"learning_rate": 0.00022725060827250606,
	"loss": 0.734,
	"step": 437
	},
	{
	"epoch": 0.9579004920721705,
	"grad_norm": 0.31608134508132935,
	"learning_rate": 0.00022700729927007296,
	"loss": 0.707,
	"step": 438
	},
	{
	"epoch": 0.9600874794969929,
	"grad_norm": 0.23100577294826508,
	"learning_rate": 0.00022676399026763989,
	"loss": 0.6734,
	"step": 439
	},
	{
	"epoch": 0.9622744669218152,
	"grad_norm": 0.27026960253715515,
	"learning_rate": 0.00022652068126520678,
	"loss": 0.7884,
	"step": 440
	},
	{
	"epoch": 0.9644614543466375,
	"grad_norm": 0.24245603382587433,
	"learning_rate": 0.00022627737226277368,
	"loss": 0.5405,
	"step": 441
	},
	{
	"epoch": 0.9666484417714598,
	"grad_norm": 0.25354650616645813,
	"learning_rate": 0.00022603406326034064,
	"loss": 0.629,
	"step": 442
	},
	{
	"epoch": 0.9688354291962821,
	"grad_norm": 0.35559025406837463,
	"learning_rate": 0.00022579075425790753,
	"loss": 0.5673,
	"step": 443
	},
	{
	"epoch": 0.9710224166211044,
	"grad_norm": 0.18353384733200073,
	"learning_rate": 0.00022554744525547443,
	"loss": 0.7391,
	"step": 444
	},
	{
	"epoch": 0.9732094040459267,
	"grad_norm": 0.20255619287490845,
	"learning_rate": 0.00022530413625304136,
	"loss": 0.605,
	"step": 445
	},
	{
	"epoch": 0.9753963914707491,
	"grad_norm": 0.24910545349121094,
	"learning_rate": 0.00022506082725060826,
	"loss": 0.7387,
	"step": 446
	},
	{
	"epoch": 0.9775833788955713,
	"grad_norm": 0.30054211616516113,
	"learning_rate": 0.00022481751824817515,
	"loss": 0.7649,
	"step": 447
	},
	{
	"epoch": 0.9797703663203936,
	"grad_norm": 0.2318667322397232,
	"learning_rate": 0.00022457420924574208,
	"loss": 0.6788,
	"step": 448
	},
	{
	"epoch": 0.981957353745216,
	"grad_norm": 0.27025488018989563,
	"learning_rate": 0.00022433090024330898,
	"loss": 0.8761,
	"step": 449
	},
	{
	"epoch": 0.9841443411700382,
	"grad_norm": 0.324431836605072,
	"learning_rate": 0.00022408759124087588,
	"loss": 0.5286,
	"step": 450
	},
	{
	"epoch": 0.9863313285948606,
	"grad_norm": 0.22321289777755737,
	"learning_rate": 0.00022384428223844283,
	"loss": 0.9685,
	"step": 451
	},
	{
	"epoch": 0.9885183160196829,
	"grad_norm": 0.348459929227829,
	"learning_rate": 0.00022360097323600973,
	"loss": 0.9153,
	"step": 452
	},
	{
	"epoch": 0.9907053034445052,
	"grad_norm": 0.24513466656208038,
	"learning_rate": 0.00022335766423357663,
	"loss": 0.7944,
	"step": 453
	},
	{
	"epoch": 0.9928922908693275,
	"grad_norm": 0.296447217464447,
	"learning_rate": 0.00022311435523114355,
	"loss": 0.7568,
	"step": 454
	},
	{
	"epoch": 0.9950792782941498,
	"grad_norm": 0.27960076928138733,
	"learning_rate": 0.00022287104622871045,
	"loss": 0.6744,
	"step": 455
	},
	{
	"epoch": 0.9972662657189721,
	"grad_norm": 0.2234726995229721,
	"learning_rate": 0.00022262773722627735,
	"loss": 0.8226,
	"step": 456
	},
	{
	"epoch": 0.9994532531437944,
	"grad_norm": 0.20796756446361542,
	"learning_rate": 0.00022238442822384425,
	"loss": 0.6815,
	"step": 457
	},
	{
	"epoch": 1.0016402405686167,
	"grad_norm": 0.4041379392147064,
	"learning_rate": 0.00022214111922141117,
	"loss": 0.814,
	"step": 458
	},
	{
	"epoch": 1.003827227993439,
	"grad_norm": 0.2340199053287506,
	"learning_rate": 0.00022189781021897807,
	"loss": 0.9068,
	"step": 459
	},
	{
	"epoch": 1.0060142154182614,
	"grad_norm": 0.24355943500995636,
	"learning_rate": 0.00022165450121654497,
	"loss": 0.8377,
	"step": 460
	},
	{
	"epoch": 1.0082012028430836,
	"grad_norm": 0.27959203720092773,
	"learning_rate": 0.00022141119221411192,
	"loss": 0.6917,
	"step": 461
	},
	{
	"epoch": 1.010388190267906,
	"grad_norm": 0.28080224990844727,
	"learning_rate": 0.00022116788321167882,
	"loss": 0.6356,
	"step": 462
	},
	{
	"epoch": 1.0125751776927283,
	"grad_norm": 0.48801225423812866,
	"learning_rate": 0.00022092457420924572,
	"loss": 0.5904,
	"step": 463
	},
	{
	"epoch": 1.0147621651175505,
	"grad_norm": 0.22513045370578766,
	"learning_rate": 0.00022068126520681264,
	"loss": 1.0814,
	"step": 464
	},
	{
	"epoch": 1.0169491525423728,
	"grad_norm": 0.24892054498195648,
	"learning_rate": 0.00022043795620437954,
	"loss": 0.682,
	"step": 465
	},
	{
	"epoch": 1.0191361399671952,
	"grad_norm": 0.27827882766723633,
	"learning_rate": 0.00022019464720194644,
	"loss": 0.5133,
	"step": 466
	},
	{
	"epoch": 1.0213231273920176,
	"grad_norm": 0.22580872476100922,
	"learning_rate": 0.00021995133819951337,
	"loss": 0.6408,
	"step": 467
	},
	{
	"epoch": 1.0235101148168397,
	"grad_norm": 0.27323248982429504,
	"learning_rate": 0.00021970802919708026,
	"loss": 0.6774,
	"step": 468
	},
	{
	"epoch": 1.025697102241662,
	"grad_norm": 0.2104388028383255,
	"learning_rate": 0.00021946472019464716,
	"loss": 0.7655,
	"step": 469
	},
	{
	"epoch": 1.0278840896664845,
	"grad_norm": 0.26010340452194214,
	"learning_rate": 0.00021922141119221412,
	"loss": 0.6855,
	"step": 470
	},
	{
	"epoch": 1.0300710770913066,
	"grad_norm": 0.22332607209682465,
	"learning_rate": 0.00021897810218978101,
	"loss": 0.8742,
	"step": 471
	},
	{
	"epoch": 1.032258064516129,
	"grad_norm": 0.22284770011901855,
	"learning_rate": 0.0002187347931873479,
	"loss": 0.7075,
	"step": 472
	},
	{
	"epoch": 1.0344450519409514,
	"grad_norm": 0.32503169775009155,
	"learning_rate": 0.00021849148418491484,
	"loss": 0.8198,
	"step": 473
	},
	{
	"epoch": 1.0366320393657737,
	"grad_norm": 0.2516832947731018,
	"learning_rate": 0.00021824817518248174,
	"loss": 0.6606,
	"step": 474
	},
	{
	"epoch": 1.038819026790596,
	"grad_norm": 0.20064838230609894,
	"learning_rate": 0.00021800486618004863,
	"loss": 0.6696,
	"step": 475
	},
	{
	"epoch": 1.0410060142154183,
	"grad_norm": 0.24873629212379456,
	"learning_rate": 0.00021776155717761556,
	"loss": 0.8343,
	"step": 476
	},
	{
	"epoch": 1.0431930016402406,
	"grad_norm": 0.23766379058361053,
	"learning_rate": 0.00021751824817518246,
	"loss": 0.6831,
	"step": 477
	},
	{
	"epoch": 1.0453799890650628,
	"grad_norm": 0.24385926127433777,
	"learning_rate": 0.00021727493917274936,
	"loss": 0.6712,
	"step": 478
	},
	{
	"epoch": 1.0475669764898852,
	"grad_norm": 0.3146672546863556,
	"learning_rate": 0.00021703163017031628,
	"loss": 0.6183,
	"step": 479
	},
	{
	"epoch": 1.0497539639147075,
	"grad_norm": 0.25711727142333984,
	"learning_rate": 0.0002167883211678832,
	"loss": 0.6252,
	"step": 480
	},
	{
	"epoch": 1.0519409513395297,
	"grad_norm": 0.2440115511417389,
	"learning_rate": 0.0002165450121654501,
	"loss": 0.7278,
	"step": 481
	},
	{
	"epoch": 1.054127938764352,
	"grad_norm": 0.2689894735813141,
	"learning_rate": 0.00021630170316301703,
	"loss": 0.8418,
	"step": 482
	},
	{
	"epoch": 1.0563149261891744,
	"grad_norm": 0.2136611044406891,
	"learning_rate": 0.00021605839416058393,
	"loss": 0.6313,
	"step": 483
	},
	{
	"epoch": 1.0585019136139968,
	"grad_norm": 0.2452273964881897,
	"learning_rate": 0.00021581508515815083,
	"loss": 0.8624,
	"step": 484
	},
	{
	"epoch": 1.060688901038819,
	"grad_norm": 0.24893832206726074,
	"learning_rate": 0.00021557177615571775,
	"loss": 0.7416,
	"step": 485
	},
	{
	"epoch": 1.0628758884636413,
	"grad_norm": 0.25064295530319214,
	"learning_rate": 0.00021532846715328465,
	"loss": 0.7699,
	"step": 486
	},
	{
	"epoch": 1.0650628758884637,
	"grad_norm": 0.20812906324863434,
	"learning_rate": 0.00021508515815085155,
	"loss": 0.6415,
	"step": 487
	},
	{
	"epoch": 1.0672498633132859,
	"grad_norm": 0.1655895859003067,
	"learning_rate": 0.00021484184914841848,
	"loss": 0.5422,
	"step": 488
	},
	{
	"epoch": 1.0694368507381082,
	"grad_norm": 0.32013434171676636,
	"learning_rate": 0.00021459854014598537,
	"loss": 0.7758,
	"step": 489
	},
	{
	"epoch": 1.0716238381629306,
	"grad_norm": 0.3376011252403259,
	"learning_rate": 0.00021435523114355227,
	"loss": 0.829,
	"step": 490
	},
	{
	"epoch": 1.0738108255877528,
	"grad_norm": 0.3153345584869385,
	"learning_rate": 0.00021411192214111923,
	"loss": 0.7714,
	"step": 491
	},
	{
	"epoch": 1.0759978130125751,
	"grad_norm": 0.3034818470478058,
	"learning_rate": 0.00021386861313868612,
	"loss": 0.6347,
	"step": 492
	},
	{
	"epoch": 1.0781848004373975,
	"grad_norm": 0.2922978699207306,
	"learning_rate": 0.00021362530413625302,
	"loss": 0.7736,
	"step": 493
	},
	{
	"epoch": 1.0803717878622199,
	"grad_norm": 0.2873200476169586,
	"learning_rate": 0.00021338199513381992,
	"loss": 0.7169,
	"step": 494
	},
	{
	"epoch": 1.082558775287042,
	"grad_norm": 0.19887448847293854,
	"learning_rate": 0.00021313868613138685,
	"loss": 0.591,
	"step": 495
	},
	{
	"epoch": 1.0847457627118644,
	"grad_norm": 0.2438717931509018,
	"learning_rate": 0.00021289537712895374,
	"loss": 0.7372,
	"step": 496
	},
	{
	"epoch": 1.0869327501366868,
	"grad_norm": 0.2844999432563782,
	"learning_rate": 0.00021265206812652064,
	"loss": 0.9492,
	"step": 497
	},
	{
	"epoch": 1.089119737561509,
	"grad_norm": 0.23038767278194427,
	"learning_rate": 0.00021240875912408757,
	"loss": 0.6491,
	"step": 498
	},
	{
	"epoch": 1.0913067249863313,
	"grad_norm": 0.25681063532829285,
	"learning_rate": 0.00021216545012165447,
	"loss": 0.7385,
	"step": 499
	},
	{
	"epoch": 1.0934937124111537,
	"grad_norm": 0.26198524236679077,
	"learning_rate": 0.00021192214111922137,
	"loss": 0.6631,
	"step": 500
	},
	{
	"epoch": 1.095680699835976,
	"grad_norm": 0.2462042272090912,
	"learning_rate": 0.00021167883211678832,
	"loss": 0.6845,
	"step": 501
	},
	{
	"epoch": 1.0978676872607982,
	"grad_norm": 0.4053664803504944,
	"learning_rate": 0.00021143552311435522,
	"loss": 0.8192,
	"step": 502
	},
	{
	"epoch": 1.1000546746856206,
	"grad_norm": 0.1960192620754242,
	"learning_rate": 0.00021119221411192211,
	"loss": 0.654,
	"step": 503
	},
	{
	"epoch": 1.102241662110443,
	"grad_norm": 0.288463294506073,
	"learning_rate": 0.00021094890510948904,
	"loss": 0.845,
	"step": 504
	},
	{
	"epoch": 1.104428649535265,
	"grad_norm": 0.2577453553676605,
	"learning_rate": 0.00021070559610705594,
	"loss": 0.7532,
	"step": 505
	},
	{
	"epoch": 1.1066156369600875,
	"grad_norm": 0.2428467571735382,
	"learning_rate": 0.00021046228710462284,
	"loss": 0.633,
	"step": 506
	},
	{
	"epoch": 1.1088026243849098,
	"grad_norm": 0.2504101097583771,
	"learning_rate": 0.00021021897810218976,
	"loss": 0.7633,
	"step": 507
	},
	{
	"epoch": 1.110989611809732,
	"grad_norm": 0.30137497186660767,
	"learning_rate": 0.00020997566909975666,
	"loss": 0.7516,
	"step": 508
	},
	{
	"epoch": 1.1131765992345544,
	"grad_norm": 0.26197975873947144,
	"learning_rate": 0.00020973236009732356,
	"loss": 0.772,
	"step": 509
	},
	{
	"epoch": 1.1153635866593767,
	"grad_norm": 0.21030549705028534,
	"learning_rate": 0.0002094890510948905,
	"loss": 0.656,
	"step": 510
	},
	{
	"epoch": 1.117550574084199,
	"grad_norm": 0.32491016387939453,
	"learning_rate": 0.0002092457420924574,
	"loss": 0.6437,
	"step": 511
	},
	{
	"epoch": 1.1197375615090213,
	"grad_norm": 0.35852229595184326,
	"learning_rate": 0.0002090024330900243,
	"loss": 0.6878,
	"step": 512
	},
	{
	"epoch": 1.1219245489338436,
	"grad_norm": 0.2437012642621994,
	"learning_rate": 0.00020875912408759123,
	"loss": 0.7602,
	"step": 513
	},
	{
	"epoch": 1.124111536358666,
	"grad_norm": 0.30889564752578735,
	"learning_rate": 0.00020851581508515813,
	"loss": 0.8807,
	"step": 514
	},
	{
	"epoch": 1.1262985237834882,
	"grad_norm": 0.24090994894504547,
	"learning_rate": 0.00020827250608272503,
	"loss": 0.6094,
	"step": 515
	},
	{
	"epoch": 1.1284855112083105,
	"grad_norm": 0.22549685835838318,
	"learning_rate": 0.00020802919708029196,
	"loss": 0.6548,
	"step": 516
	},
	{
	"epoch": 1.130672498633133,
	"grad_norm": 0.21927274763584137,
	"learning_rate": 0.00020778588807785885,
	"loss": 0.5024,
	"step": 517
	},
	{
	"epoch": 1.132859486057955,
	"grad_norm": 0.2773030996322632,
	"learning_rate": 0.00020754257907542575,
	"loss": 0.7162,
	"step": 518
	},
	{
	"epoch": 1.1350464734827774,
	"grad_norm": 0.23646964132785797,
	"learning_rate": 0.0002072992700729927,
	"loss": 0.495,
	"step": 519
	},
	{
	"epoch": 1.1372334609075998,
	"grad_norm": 0.18650543689727783,
	"learning_rate": 0.0002070559610705596,
	"loss": 0.6832,
	"step": 520
	},
	{
	"epoch": 1.1394204483324222,
	"grad_norm": 0.2712174952030182,
	"learning_rate": 0.0002068126520681265,
	"loss": 0.6178,
	"step": 521
	},
	{
	"epoch": 1.1416074357572443,
	"grad_norm": 0.5166855454444885,
	"learning_rate": 0.00020656934306569343,
	"loss": 0.7423,
	"step": 522
	},
	{
	"epoch": 1.1437944231820667,
	"grad_norm": 0.23658710718154907,
	"learning_rate": 0.00020632603406326033,
	"loss": 0.823,
	"step": 523
	},
	{
	"epoch": 1.145981410606889,
	"grad_norm": 0.2502736747264862,
	"learning_rate": 0.00020608272506082722,
	"loss": 0.7652,
	"step": 524
	},
	{
	"epoch": 1.1481683980317112,
	"grad_norm": 0.3579782545566559,
	"learning_rate": 0.00020583941605839415,
	"loss": 0.6607,
	"step": 525
	},
	{
	"epoch": 1.1503553854565336,
	"grad_norm": 0.23584862053394318,
	"learning_rate": 0.00020559610705596105,
	"loss": 0.5478,
	"step": 526
	},
	{
	"epoch": 1.152542372881356,
	"grad_norm": 0.20075763761997223,
	"learning_rate": 0.00020535279805352795,
	"loss": 0.4904,
	"step": 527
	},
	{
	"epoch": 1.1547293603061783,
	"grad_norm": 0.28536489605903625,
	"learning_rate": 0.0002051094890510949,
	"loss": 0.725,
	"step": 528
	},
	{
	"epoch": 1.1569163477310005,
	"grad_norm": 0.2919155955314636,
	"learning_rate": 0.0002048661800486618,
	"loss": 0.7854,
	"step": 529
	},
	{
	"epoch": 1.1591033351558229,
	"grad_norm": 0.2859315574169159,
	"learning_rate": 0.0002046228710462287,
	"loss": 0.7588,
	"step": 530
	},
	{
	"epoch": 1.1612903225806452,
	"grad_norm": 0.2310762107372284,
	"learning_rate": 0.0002043795620437956,
	"loss": 0.7313,
	"step": 531
	},
	{
	"epoch": 1.1634773100054674,
	"grad_norm": 0.37531688809394836,
	"learning_rate": 0.00020413625304136252,
	"loss": 0.7386,
	"step": 532
	},
	{
	"epoch": 1.1656642974302898,
	"grad_norm": 0.2388879358768463,
	"learning_rate": 0.00020389294403892942,
	"loss": 0.6976,
	"step": 533
	},
	{
	"epoch": 1.1678512848551121,
	"grad_norm": 0.35468119382858276,
	"learning_rate": 0.00020364963503649632,
	"loss": 0.7769,
	"step": 534
	},
	{
	"epoch": 1.1700382722799345,
	"grad_norm": 0.35036739706993103,
	"learning_rate": 0.00020340632603406324,
	"loss": 0.7023,
	"step": 535
	},
	{
	"epoch": 1.1722252597047567,
	"grad_norm": 0.22455590963363647,
	"learning_rate": 0.00020316301703163014,
	"loss": 0.6198,
	"step": 536
	},
	{
	"epoch": 1.174412247129579,
	"grad_norm": 0.2568056881427765,
	"learning_rate": 0.00020291970802919704,
	"loss": 0.8131,
	"step": 537
	},
	{
	"epoch": 1.1765992345544014,
	"grad_norm": 0.2159530222415924,
	"learning_rate": 0.000202676399026764,
	"loss": 0.608,
	"step": 538
	},
	{
	"epoch": 1.1787862219792236,
	"grad_norm": 0.3671428859233856,
	"learning_rate": 0.0002024330900243309,
	"loss": 0.7317,
	"step": 539
	},
	{
	"epoch": 1.180973209404046,
	"grad_norm": 0.40387099981307983,
	"learning_rate": 0.0002021897810218978,
	"loss": 0.7829,
	"step": 540
	},
	{
	"epoch": 1.1831601968288683,
	"grad_norm": 0.23750804364681244,
	"learning_rate": 0.00020194647201946471,
	"loss": 0.7261,
	"step": 541
	},
	{
	"epoch": 1.1853471842536905,
	"grad_norm": 0.29545098543167114,
	"learning_rate": 0.0002017031630170316,
	"loss": 0.641,
	"step": 542
	},
	{
	"epoch": 1.1875341716785128,
	"grad_norm": 0.28032809495925903,
	"learning_rate": 0.0002014598540145985,
	"loss": 0.5683,
	"step": 543
	},
	{
	"epoch": 1.1897211591033352,
	"grad_norm": 0.42475053668022156,
	"learning_rate": 0.00020121654501216544,
	"loss": 0.7681,
	"step": 544
	},
	{
	"epoch": 1.1919081465281574,
	"grad_norm": 0.3492116928100586,
	"learning_rate": 0.00020097323600973233,
	"loss": 0.6798,
	"step": 545
	},
	{
	"epoch": 1.1940951339529797,
	"grad_norm": 0.358916699886322,
	"learning_rate": 0.00020072992700729923,
	"loss": 0.7502,
	"step": 546
	},
	{
	"epoch": 1.196282121377802,
	"grad_norm": 0.27878785133361816,
	"learning_rate": 0.00020048661800486619,
	"loss": 0.7625,
	"step": 547
	},
	{
	"epoch": 1.1984691088026245,
	"grad_norm": 0.29086047410964966,
	"learning_rate": 0.00020024330900243308,
	"loss": 0.6944,
	"step": 548
	},
	{
	"epoch": 1.2006560962274466,
	"grad_norm": 0.2969072759151459,
	"learning_rate": 0.00019999999999999998,
	"loss": 0.7105,
	"step": 549
	},
	{
	"epoch": 1.202843083652269,
	"grad_norm": 0.38667795062065125,
	"learning_rate": 0.0001997566909975669,
	"loss": 0.7046,
	"step": 550
	},
	{
	"epoch": 1.2050300710770914,
	"grad_norm": 0.26905378699302673,
	"learning_rate": 0.0001995133819951338,
	"loss": 0.8177,
	"step": 551
	},
	{
	"epoch": 1.2072170585019135,
	"grad_norm": 0.25222644209861755,
	"learning_rate": 0.0001992700729927007,
	"loss": 0.7232,
	"step": 552
	},
	{
	"epoch": 1.209404045926736,
	"grad_norm": 0.23291464149951935,
	"learning_rate": 0.00019902676399026763,
	"loss": 0.6135,
	"step": 553
	},
	{
	"epoch": 1.2115910333515583,
	"grad_norm": 0.24224941432476044,
	"learning_rate": 0.00019878345498783453,
	"loss": 0.6832,
	"step": 554
	},
	{
	"epoch": 1.2137780207763806,
	"grad_norm": 0.2552938759326935,
	"learning_rate": 0.00019854014598540143,
	"loss": 0.7707,
	"step": 555
	},
	{
	"epoch": 1.2159650082012028,
	"grad_norm": 0.3016825318336487,
	"learning_rate": 0.00019829683698296835,
	"loss": 0.6199,
	"step": 556
	},
	{
	"epoch": 1.2181519956260252,
	"grad_norm": 0.2980547547340393,
	"learning_rate": 0.00019805352798053528,
	"loss": 0.7232,
	"step": 557
	},
	{
	"epoch": 1.2203389830508475,
	"grad_norm": 0.3470471203327179,
	"learning_rate": 0.00019781021897810218,
	"loss": 0.6665,
	"step": 558
	},
	{
	"epoch": 1.2225259704756697,
	"grad_norm": 0.2844526171684265,
	"learning_rate": 0.0001975669099756691,
	"loss": 0.5931,
	"step": 559
	},
	{
	"epoch": 1.224712957900492,
	"grad_norm": 0.2751246988773346,
	"learning_rate": 0.000197323600973236,
	"loss": 0.6265,
	"step": 560
	},
	{
	"epoch": 1.2268999453253144,
	"grad_norm": 0.2560863792896271,
	"learning_rate": 0.0001970802919708029,
	"loss": 0.6442,
	"step": 561
	},
	{
	"epoch": 1.2290869327501368,
	"grad_norm": 0.28800928592681885,
	"learning_rate": 0.00019683698296836982,
	"loss": 0.7135,
	"step": 562
	},
	{
	"epoch": 1.231273920174959,
	"grad_norm": 0.44916409254074097,
	"learning_rate": 0.00019659367396593672,
	"loss": 0.654,
	"step": 563
	},
	{
	"epoch": 1.2334609075997813,
	"grad_norm": 0.28822582960128784,
	"learning_rate": 0.00019635036496350362,
	"loss": 0.7907,
	"step": 564
	},
	{
	"epoch": 1.2356478950246037,
	"grad_norm": 0.3168655037879944,
	"learning_rate": 0.00019610705596107055,
	"loss": 0.6821,
	"step": 565
	},
	{
	"epoch": 1.2378348824494259,
	"grad_norm": 0.24087372422218323,
	"learning_rate": 0.00019586374695863744,
	"loss": 0.5753,
	"step": 566
	},
	{
	"epoch": 1.2400218698742482,
	"grad_norm": 0.28054556250572205,
	"learning_rate": 0.00019562043795620434,
	"loss": 0.7782,
	"step": 567
	},
	{
	"epoch": 1.2422088572990706,
	"grad_norm": 0.2647920250892639,
	"learning_rate": 0.00019537712895377127,
	"loss": 0.672,
	"step": 568
	},
	{
	"epoch": 1.2443958447238928,
	"grad_norm": 0.2773146331310272,
	"learning_rate": 0.0001951338199513382,
	"loss": 0.6951,
	"step": 569
	},
	{
	"epoch": 1.2465828321487151,
	"grad_norm": 0.22990505397319794,
	"learning_rate": 0.0001948905109489051,
	"loss": 0.8364,
	"step": 570
	},
	{
	"epoch": 1.2487698195735375,
	"grad_norm": 0.27569764852523804,
	"learning_rate": 0.000194647201946472,
	"loss": 0.7833,
	"step": 571
	},
	{
	"epoch": 1.2509568069983596,
	"grad_norm": 0.2720679044723511,
	"learning_rate": 0.00019440389294403892,
	"loss": 0.6844,
	"step": 572
	},
	{
	"epoch": 1.253143794423182,
	"grad_norm": 0.31944793462753296,
	"learning_rate": 0.00019416058394160581,
	"loss": 0.7761,
	"step": 573
	},
	{
	"epoch": 1.2553307818480044,
	"grad_norm": 0.3249347507953644,
	"learning_rate": 0.0001939172749391727,
	"loss": 0.6429,
	"step": 574
	},
	{
	"epoch": 1.2575177692728268,
	"grad_norm": 0.3601590692996979,
	"learning_rate": 0.00019367396593673964,
	"loss": 0.7387,
	"step": 575
	},
	{
	"epoch": 1.259704756697649,
	"grad_norm": 0.30120986700057983,
	"learning_rate": 0.00019343065693430654,
	"loss": 0.7797,
	"step": 576
	},
	{
	"epoch": 1.2618917441224713,
	"grad_norm": 0.2647385895252228,
	"learning_rate": 0.00019318734793187344,
	"loss": 0.6112,
	"step": 577
	},
	{
	"epoch": 1.2640787315472937,
	"grad_norm": 0.2170192301273346,
	"learning_rate": 0.0001929440389294404,
	"loss": 0.6963,
	"step": 578
	},
	{
	"epoch": 1.2662657189721158,
	"grad_norm": 0.23418468236923218,
	"learning_rate": 0.0001927007299270073,
	"loss": 0.7496,
	"step": 579
	},
	{
	"epoch": 1.2684527063969382,
	"grad_norm": 0.29596206545829773,
	"learning_rate": 0.00019245742092457418,
	"loss": 0.8172,
	"step": 580
	},
	{
	"epoch": 1.2706396938217606,
	"grad_norm": 0.2754702568054199,
	"learning_rate": 0.0001922141119221411,
	"loss": 0.6895,
	"step": 581
	},
	{
	"epoch": 1.272826681246583,
	"grad_norm": 0.2041543573141098,
	"learning_rate": 0.000191970802919708,
	"loss": 0.7623,
	"step": 582
	},
	{
	"epoch": 1.275013668671405,
	"grad_norm": 0.3801957964897156,
	"learning_rate": 0.0001917274939172749,
	"loss": 0.634,
	"step": 583
	},
	{
	"epoch": 1.2772006560962275,
	"grad_norm": 0.39465653896331787,
	"learning_rate": 0.00019148418491484183,
	"loss": 0.6114,
	"step": 584
	},
	{
	"epoch": 1.2793876435210498,
	"grad_norm": 0.36799028515815735,
	"learning_rate": 0.00019124087591240873,
	"loss": 0.757,
	"step": 585
	},
	{
	"epoch": 1.281574630945872,
	"grad_norm": 0.2876284718513489,
	"learning_rate": 0.00019099756690997563,
	"loss": 0.6992,
	"step": 586
	},
	{
	"epoch": 1.2837616183706944,
	"grad_norm": 0.4593120813369751,
	"learning_rate": 0.00019075425790754258,
	"loss": 0.6095,
	"step": 587
	},
	{
	"epoch": 1.2859486057955167,
	"grad_norm": 0.24458545446395874,
	"learning_rate": 0.00019051094890510948,
	"loss": 0.5724,
	"step": 588
	},
	{
	"epoch": 1.288135593220339,
	"grad_norm": 0.22930872440338135,
	"learning_rate": 0.00019026763990267638,
	"loss": 0.5479,
	"step": 589
	},
	{
	"epoch": 1.2903225806451613,
	"grad_norm": 0.32167893648147583,
	"learning_rate": 0.0001900243309002433,
	"loss": 0.7158,
	"step": 590
	},
	{
	"epoch": 1.2925095680699836,
	"grad_norm": 0.2847557067871094,
	"learning_rate": 0.0001897810218978102,
	"loss": 0.6545,
	"step": 591
	},
	{
	"epoch": 1.2946965554948058,
	"grad_norm": 0.24358853697776794,
	"learning_rate": 0.0001895377128953771,
	"loss": 0.7497,
	"step": 592
	},
	{
	"epoch": 1.2968835429196282,
	"grad_norm": 0.26657119393348694,
	"learning_rate": 0.00018929440389294403,
	"loss": 0.6816,
	"step": 593
	},
	{
	"epoch": 1.2990705303444505,
	"grad_norm": 0.3368627727031708,
	"learning_rate": 0.00018905109489051093,
	"loss": 0.613,
	"step": 594
	},
	{
	"epoch": 1.301257517769273,
	"grad_norm": 0.28971466422080994,
	"learning_rate": 0.00018880778588807782,
	"loss": 0.814,
	"step": 595
	},
	{
	"epoch": 1.3034445051940953,
	"grad_norm": 0.3216496706008911,
	"learning_rate": 0.00018856447688564478,
	"loss": 0.7116,
	"step": 596
	},
	{
	"epoch": 1.3056314926189174,
	"grad_norm": 0.25016555190086365,
	"learning_rate": 0.00018832116788321167,
	"loss": 0.7034,
	"step": 597
	},
	{
	"epoch": 1.3078184800437398,
	"grad_norm": 0.2602551579475403,
	"learning_rate": 0.00018807785888077857,
	"loss": 0.6624,
	"step": 598
	},
	{
	"epoch": 1.310005467468562,
	"grad_norm": 0.1847269982099533,
	"learning_rate": 0.0001878345498783455,
	"loss": 0.6645,
	"step": 599
	},
	{
	"epoch": 1.3121924548933843,
	"grad_norm": 0.20593389868736267,
	"learning_rate": 0.0001875912408759124,
	"loss": 0.6471,
	"step": 600
	},
	{
	"epoch": 1.3143794423182067,
	"grad_norm": 0.2651140093803406,
	"learning_rate": 0.0001873479318734793,
	"loss": 0.6743,
	"step": 601
	},
	{
	"epoch": 1.316566429743029,
	"grad_norm": 0.3243972659111023,
	"learning_rate": 0.00018710462287104622,
	"loss": 0.662,
	"step": 602
	},
	{
	"epoch": 1.3187534171678512,
	"grad_norm": 0.24702341854572296,
	"learning_rate": 0.00018686131386861312,
	"loss": 0.746,
	"step": 603
	},
	{
	"epoch": 1.3209404045926736,
	"grad_norm": 0.25382477045059204,
	"learning_rate": 0.00018661800486618002,
	"loss": 0.7115,
	"step": 604
	},
	{
	"epoch": 1.323127392017496,
	"grad_norm": 0.26453620195388794,
	"learning_rate": 0.00018637469586374697,
	"loss": 0.5843,
	"step": 605
	},
	{
	"epoch": 1.3253143794423181,
	"grad_norm": 0.25161460041999817,
	"learning_rate": 0.00018613138686131387,
	"loss": 0.7831,
	"step": 606
	},
	{
	"epoch": 1.3275013668671405,
	"grad_norm": 0.2947143316268921,
	"learning_rate": 0.00018588807785888077,
	"loss": 0.6277,
	"step": 607
	},
	{
	"epoch": 1.3296883542919629,
	"grad_norm": 0.25893881916999817,
	"learning_rate": 0.00018564476885644767,
	"loss": 0.6816,
	"step": 608
	},
	{
	"epoch": 1.3318753417167852,
	"grad_norm": 0.3958803713321686,
	"learning_rate": 0.0001854014598540146,
	"loss": 0.8033,
	"step": 609
	},
	{
	"epoch": 1.3340623291416074,
	"grad_norm": 0.28083765506744385,
	"learning_rate": 0.0001851581508515815,
	"loss": 0.6587,
	"step": 610
	},
	{
	"epoch": 1.3362493165664298,
	"grad_norm": 0.26417723298072815,
	"learning_rate": 0.0001849148418491484,
	"loss": 0.6867,
	"step": 611
	},
	{
	"epoch": 1.3384363039912521,
	"grad_norm": 0.2628178000450134,
	"learning_rate": 0.0001846715328467153,
	"loss": 0.6275,
	"step": 612
	},
	{
	"epoch": 1.3406232914160743,
	"grad_norm": 0.20500022172927856,
	"learning_rate": 0.0001844282238442822,
	"loss": 0.6152,
	"step": 613
	},
	{
	"epoch": 1.3428102788408967,
	"grad_norm": 0.22486689686775208,
	"learning_rate": 0.0001841849148418491,
	"loss": 0.5407,
	"step": 614
	},
	{
	"epoch": 1.344997266265719,
	"grad_norm": 0.3170478641986847,
	"learning_rate": 0.00018394160583941606,
	"loss": 0.7176,
	"step": 615
	},
	{
	"epoch": 1.3471842536905414,
	"grad_norm": 0.34868374466896057,
	"learning_rate": 0.00018369829683698296,
	"loss": 0.5815,
	"step": 616
	},
	{
	"epoch": 1.3493712411153636,
	"grad_norm": 0.2484477013349533,
	"learning_rate": 0.00018345498783454986,
	"loss": 0.6613,
	"step": 617
	},
	{
	"epoch": 1.351558228540186,
	"grad_norm": 0.2799300253391266,
	"learning_rate": 0.00018321167883211678,
	"loss": 0.6685,
	"step": 618
	},
	{
	"epoch": 1.353745215965008,
	"grad_norm": 0.28434398770332336,
	"learning_rate": 0.00018296836982968368,
	"loss": 0.7881,
	"step": 619
	},
	{
	"epoch": 1.3559322033898304,
	"grad_norm": 0.25863373279571533,
	"learning_rate": 0.00018272506082725058,
	"loss": 0.7325,
	"step": 620
	},
	{
	"epoch": 1.3581191908146528,
	"grad_norm": 0.3039908707141876,
	"learning_rate": 0.0001824817518248175,
	"loss": 0.8676,
	"step": 621
	},
	{
	"epoch": 1.3603061782394752,
	"grad_norm": 0.29525163769721985,
	"learning_rate": 0.0001822384428223844,
	"loss": 0.8909,
	"step": 622
	},
	{
	"epoch": 1.3624931656642976,
	"grad_norm": 0.475063294172287,
	"learning_rate": 0.0001819951338199513,
	"loss": 0.6882,
	"step": 623
	},
	{
	"epoch": 1.3646801530891197,
	"grad_norm": 0.22500012814998627,
	"learning_rate": 0.00018175182481751826,
	"loss": 0.6354,
	"step": 624
	},
	{
	"epoch": 1.366867140513942,
	"grad_norm": 0.24890188872814178,
	"learning_rate": 0.00018150851581508515,
	"loss": 0.5322,
	"step": 625
	},
	{
	"epoch": 1.3690541279387642,
	"grad_norm": 0.24399027228355408,
	"learning_rate": 0.00018126520681265205,
	"loss": 0.7255,
	"step": 626
	},
	{
	"epoch": 1.3712411153635866,
	"grad_norm": 0.32299381494522095,
	"learning_rate": 0.00018102189781021898,
	"loss": 0.5199,
	"step": 627
	},
	{
	"epoch": 1.373428102788409,
	"grad_norm": 0.4946720600128174,
	"learning_rate": 0.00018077858880778588,
	"loss": 0.7099,
	"step": 628
	},
	{
	"epoch": 1.3756150902132314,
	"grad_norm": 0.47641122341156006,
	"learning_rate": 0.00018053527980535278,
	"loss": 0.752,
	"step": 629
	},
	{
	"epoch": 1.3778020776380535,
	"grad_norm": 0.3367193937301636,
	"learning_rate": 0.0001802919708029197,
	"loss": 0.7196,
	"step": 630
	},
	{
	"epoch": 1.3799890650628759,
	"grad_norm": 0.27993133664131165,
	"learning_rate": 0.0001800486618004866,
	"loss": 0.7357,
	"step": 631
	},
	{
	"epoch": 1.3821760524876983,
	"grad_norm": 0.27575206756591797,
	"learning_rate": 0.0001798053527980535,
	"loss": 0.6148,
	"step": 632
	},
	{
	"epoch": 1.3843630399125204,
	"grad_norm": 0.33214282989501953,
	"learning_rate": 0.00017956204379562042,
	"loss": 0.771,
	"step": 633
	},
	{
	"epoch": 1.3865500273373428,
	"grad_norm": 0.2970830798149109,
	"learning_rate": 0.00017931873479318735,
	"loss": 0.6882,
	"step": 634
	},
	{
	"epoch": 1.3887370147621652,
	"grad_norm": 0.3435869812965393,
	"learning_rate": 0.00017907542579075425,
	"loss": 0.6992,
	"step": 635
	},
	{
	"epoch": 1.3909240021869875,
	"grad_norm": 0.3328729569911957,
	"learning_rate": 0.00017883211678832117,
	"loss": 0.6594,
	"step": 636
	},
	{
	"epoch": 1.3931109896118097,
	"grad_norm": 0.3031856119632721,
	"learning_rate": 0.00017858880778588807,
	"loss": 0.642,
	"step": 637
	},
	{
	"epoch": 1.395297977036632,
	"grad_norm": 0.2761346399784088,
	"learning_rate": 0.00017834549878345497,
	"loss": 1.0442,
	"step": 638
	},
	{
	"epoch": 1.3974849644614544,
	"grad_norm": 0.34098902344703674,
	"learning_rate": 0.0001781021897810219,
	"loss": 0.9509,
	"step": 639
	},
	{
	"epoch": 1.3996719518862766,
	"grad_norm": 0.4181225299835205,
	"learning_rate": 0.0001778588807785888,
	"loss": 0.6521,
	"step": 640
	},
	{
	"epoch": 1.401858939311099,
	"grad_norm": 0.2533126473426819,
	"learning_rate": 0.0001776155717761557,
	"loss": 0.6221,
	"step": 641
	},
	{
	"epoch": 1.4040459267359213,
	"grad_norm": 0.25691646337509155,
	"learning_rate": 0.00017737226277372262,
	"loss": 0.5691,
	"step": 642
	},
	{
	"epoch": 1.4062329141607437,
	"grad_norm": 0.2649155557155609,
	"learning_rate": 0.00017712895377128952,
	"loss": 0.614,
	"step": 643
	},
	{
	"epoch": 1.4084199015855658,
	"grad_norm": 0.32973209023475647,
	"learning_rate": 0.00017688564476885641,
	"loss": 0.878,
	"step": 644
	},
	{
	"epoch": 1.4106068890103882,
	"grad_norm": 0.3559141755104065,
	"learning_rate": 0.00017664233576642334,
	"loss": 0.7954,
	"step": 645
	},
	{
	"epoch": 1.4127938764352104,
	"grad_norm": 0.2913306653499603,
	"learning_rate": 0.00017639902676399026,
	"loss": 0.735,
	"step": 646
	},
	{
	"epoch": 1.4149808638600327,
	"grad_norm": 0.24183817207813263,
	"learning_rate": 0.00017615571776155716,
	"loss": 0.5965,
	"step": 647
	},
	{
	"epoch": 1.4171678512848551,
	"grad_norm": 0.2638205885887146,
	"learning_rate": 0.00017591240875912406,
	"loss": 0.6843,
	"step": 648
	},
	{
	"epoch": 1.4193548387096775,
	"grad_norm": 0.23057186603546143,
	"learning_rate": 0.000175669099756691,
	"loss": 0.7453,
	"step": 649
	},
	{
	"epoch": 1.4215418261344999,
	"grad_norm": 0.22737360000610352,
	"learning_rate": 0.00017542579075425789,
	"loss": 0.5423,
	"step": 650
	},
	{
	"epoch": 1.423728813559322,
	"grad_norm": 0.25872430205345154,
	"learning_rate": 0.00017518248175182478,
	"loss": 0.7591,
	"step": 651
	},
	{
	"epoch": 1.4259158009841444,
	"grad_norm": 0.2998059391975403,
	"learning_rate": 0.0001749391727493917,
	"loss": 0.6222,
	"step": 652
	},
	{
	"epoch": 1.4281027884089665,
	"grad_norm": 0.21351587772369385,
	"learning_rate": 0.0001746958637469586,
	"loss": 0.7082,
	"step": 653
	},
	{
	"epoch": 1.430289775833789,
	"grad_norm": 0.34969425201416016,
	"learning_rate": 0.0001744525547445255,
	"loss": 0.6319,
	"step": 654
	},
	{
	"epoch": 1.4324767632586113,
	"grad_norm": 0.2845169007778168,
	"learning_rate": 0.00017420924574209246,
	"loss": 0.6965,
	"step": 655
	},
	{
	"epoch": 1.4346637506834337,
	"grad_norm": 0.2735065221786499,
	"learning_rate": 0.00017396593673965936,
	"loss": 0.6866,
	"step": 656
	},
	{
	"epoch": 1.4368507381082558,
	"grad_norm": 0.2701031267642975,
	"learning_rate": 0.00017372262773722626,
	"loss": 0.8098,
	"step": 657
	},
	{
	"epoch": 1.4390377255330782,
	"grad_norm": 0.319159597158432,
	"learning_rate": 0.00017347931873479318,
	"loss": 0.6627,
	"step": 658
	},
	{
	"epoch": 1.4412247129579006,
	"grad_norm": 0.24762673676013947,
	"learning_rate": 0.00017323600973236008,
	"loss": 0.8179,
	"step": 659
	},
	{
	"epoch": 1.4434117003827227,
	"grad_norm": 0.26977255940437317,
	"learning_rate": 0.00017299270072992698,
	"loss": 0.5487,
	"step": 660
	},
	{
	"epoch": 1.445598687807545,
	"grad_norm": 0.25042101740837097,
	"learning_rate": 0.0001727493917274939,
	"loss": 0.9502,
	"step": 661
	},
	{
	"epoch": 1.4477856752323675,
	"grad_norm": 0.28913062810897827,
	"learning_rate": 0.0001725060827250608,
	"loss": 0.7216,
	"step": 662
	},
	{
	"epoch": 1.4499726626571898,
	"grad_norm": 0.3237348198890686,
	"learning_rate": 0.0001722627737226277,
	"loss": 0.7644,
	"step": 663
	},
	{
	"epoch": 1.452159650082012,
	"grad_norm": 0.34338346123695374,
	"learning_rate": 0.00017201946472019465,
	"loss": 0.9851,
	"step": 664
	},
	{
	"epoch": 1.4543466375068343,
	"grad_norm": 0.1985798180103302,
	"learning_rate": 0.00017177615571776155,
	"loss": 0.649,
	"step": 665
	},
	{
	"epoch": 1.4565336249316567,
	"grad_norm": 0.2959745526313782,
	"learning_rate": 0.00017153284671532845,
	"loss": 0.8134,
	"step": 666
	},
	{
	"epoch": 1.4587206123564789,
	"grad_norm": 0.28383585810661316,
	"learning_rate": 0.00017128953771289537,
	"loss": 0.6864,
	"step": 667
	},
	{
	"epoch": 1.4609075997813012,
	"grad_norm": 0.35177820920944214,
	"learning_rate": 0.00017104622871046227,
	"loss": 0.779,
	"step": 668
	},
	{
	"epoch": 1.4630945872061236,
	"grad_norm": 0.27833032608032227,
	"learning_rate": 0.00017080291970802917,
	"loss": 0.7377,
	"step": 669
	},
	{
	"epoch": 1.465281574630946,
	"grad_norm": 0.26814982295036316,
	"learning_rate": 0.0001705596107055961,
	"loss": 0.6367,
	"step": 670
	},
	{
	"epoch": 1.4674685620557681,
	"grad_norm": 0.29226943850517273,
	"learning_rate": 0.000170316301703163,
	"loss": 0.6674,
	"step": 671
	},
	{
	"epoch": 1.4696555494805905,
	"grad_norm": 0.23404401540756226,
	"learning_rate": 0.0001700729927007299,
	"loss": 0.6187,
	"step": 672
	},
	{
	"epoch": 1.4718425369054127,
	"grad_norm": 0.1943274289369583,
	"learning_rate": 0.00016982968369829685,
	"loss": 0.7886,
	"step": 673
	},
	{
	"epoch": 1.474029524330235,
	"grad_norm": 0.2543155550956726,
	"learning_rate": 0.00016958637469586374,
	"loss": 0.8211,
	"step": 674
	},
	{
	"epoch": 1.4762165117550574,
	"grad_norm": 0.34419891238212585,
	"learning_rate": 0.00016934306569343064,
	"loss": 0.7097,
	"step": 675
	},
	{
	"epoch": 1.4784034991798798,
	"grad_norm": 0.3277907371520996,
	"learning_rate": 0.00016909975669099757,
	"loss": 0.6725,
	"step": 676
	},
	{
	"epoch": 1.4805904866047022,
	"grad_norm": 0.21943743526935577,
	"learning_rate": 0.00016885644768856447,
	"loss": 0.6246,
	"step": 677
	},
	{
	"epoch": 1.4827774740295243,
	"grad_norm": 0.6248902678489685,
	"learning_rate": 0.00016861313868613137,
	"loss": 0.8422,
	"step": 678
	},
	{
	"epoch": 1.4849644614543467,
	"grad_norm": 0.3430839478969574,
	"learning_rate": 0.0001683698296836983,
	"loss": 0.7539,
	"step": 679
	},
	{
	"epoch": 1.4871514488791688,
	"grad_norm": 0.25437131524086,
	"learning_rate": 0.0001681265206812652,
	"loss": 0.8793,
	"step": 680
	},
	{
	"epoch": 1.4893384363039912,
	"grad_norm": 0.44833317399024963,
	"learning_rate": 0.0001678832116788321,
	"loss": 0.7591,
	"step": 681
	},
	{
	"epoch": 1.4915254237288136,
	"grad_norm": 0.359467089176178,
	"learning_rate": 0.00016763990267639899,
	"loss": 0.6912,
	"step": 682
	},
	{
	"epoch": 1.493712411153636,
	"grad_norm": 0.3209226429462433,
	"learning_rate": 0.00016739659367396594,
	"loss": 0.6292,
	"step": 683
	},
	{
	"epoch": 1.495899398578458,
	"grad_norm": 0.30807530879974365,
	"learning_rate": 0.00016715328467153284,
	"loss": 0.7619,
	"step": 684
	},
	{
	"epoch": 1.4980863860032805,
	"grad_norm": 0.38420820236206055,
	"learning_rate": 0.00016690997566909974,
	"loss": 0.7212,
	"step": 685
	},
	{
	"epoch": 1.5002733734281026,
	"grad_norm": 0.27499136328697205,
	"learning_rate": 0.00016666666666666666,
	"loss": 0.7246,
	"step": 686
	},
	{
	"epoch": 1.502460360852925,
	"grad_norm": 0.3359529376029968,
	"learning_rate": 0.00016642335766423356,
	"loss": 0.7988,
	"step": 687
	},
	{
	"epoch": 1.5046473482777474,
	"grad_norm": 0.2965240180492401,
	"learning_rate": 0.00016618004866180046,
	"loss": 0.5721,
	"step": 688
	},
	{
	"epoch": 1.5068343357025697,
	"grad_norm": 0.35766786336898804,
	"learning_rate": 0.00016593673965936738,
	"loss": 0.8168,
	"step": 689
	},
	{
	"epoch": 1.5090213231273921,
	"grad_norm": 0.2500085234642029,
	"learning_rate": 0.00016569343065693428,
	"loss": 0.7125,
	"step": 690
	},
	{
	"epoch": 1.5112083105522143,
	"grad_norm": 0.4028027355670929,
	"learning_rate": 0.00016545012165450118,
	"loss": 0.8912,
	"step": 691
	},
	{
	"epoch": 1.5133952979770366,
	"grad_norm": 0.365488737821579,
	"learning_rate": 0.00016520681265206813,
	"loss": 0.8114,
	"step": 692
	},
	{
	"epoch": 1.5155822854018588,
	"grad_norm": 0.2998720109462738,
	"learning_rate": 0.00016496350364963503,
	"loss": 0.7185,
	"step": 693
	},
	{
	"epoch": 1.5177692728266812,
	"grad_norm": 0.31432968378067017,
	"learning_rate": 0.00016472019464720193,
	"loss": 0.6455,
	"step": 694
	},
	{
	"epoch": 1.5199562602515035,
	"grad_norm": 0.23023012280464172,
	"learning_rate": 0.00016447688564476886,
	"loss": 0.5255,
	"step": 695
	},
	{
	"epoch": 1.522143247676326,
	"grad_norm": 0.3279372453689575,
	"learning_rate": 0.00016423357664233575,
	"loss": 0.696,
	"step": 696
	},
	{
	"epoch": 1.5243302351011483,
	"grad_norm": 0.3116084635257721,
	"learning_rate": 0.00016399026763990265,
	"loss": 0.6297,
	"step": 697
	},
	{
	"epoch": 1.5265172225259704,
	"grad_norm": 0.2646781802177429,
	"learning_rate": 0.00016374695863746958,
	"loss": 0.7854,
	"step": 698
	},
	{
	"epoch": 1.5287042099507928,
	"grad_norm": 0.29048752784729004,
	"learning_rate": 0.00016350364963503648,
	"loss": 0.6409,
	"step": 699
	},
	{
	"epoch": 1.530891197375615,
	"grad_norm": 0.2570263743400574,
	"learning_rate": 0.00016326034063260337,
	"loss": 0.6613,
	"step": 700
	},
	{
	"epoch": 1.5330781848004373,
	"grad_norm": 0.3784395456314087,
	"learning_rate": 0.00016301703163017033,
	"loss": 0.5857,
	"step": 701
	},
	{
	"epoch": 1.5352651722252597,
	"grad_norm": 0.3324502110481262,
	"learning_rate": 0.00016277372262773723,
	"loss": 0.7317,
	"step": 702
	},
	{
	"epoch": 1.537452159650082,
	"grad_norm": 0.2623542249202728,
	"learning_rate": 0.00016253041362530412,
	"loss": 0.648,
	"step": 703
	},
	{
	"epoch": 1.5396391470749045,
	"grad_norm": 0.31035107374191284,
	"learning_rate": 0.00016228710462287105,
	"loss": 0.8125,
	"step": 704
	},
	{
	"epoch": 1.5418261344997266,
	"grad_norm": 0.35497644543647766,
	"learning_rate": 0.00016204379562043795,
	"loss": 0.7798,
	"step": 705
	},
	{
	"epoch": 1.544013121924549,
	"grad_norm": 0.4693346321582794,
	"learning_rate": 0.00016180048661800485,
	"loss": 0.7838,
	"step": 706
	},
	{
	"epoch": 1.5462001093493711,
	"grad_norm": 0.2803730368614197,
	"learning_rate": 0.00016155717761557177,
	"loss": 0.9113,
	"step": 707
	},
	{
	"epoch": 1.5483870967741935,
	"grad_norm": 0.3578079342842102,
	"learning_rate": 0.00016131386861313867,
	"loss": 0.6923,
	"step": 708
	},
	{
	"epoch": 1.5505740841990159,
	"grad_norm": 0.29390111565589905,
	"learning_rate": 0.00016107055961070557,
	"loss": 0.8407,
	"step": 709
	},
	{
	"epoch": 1.5527610716238383,
	"grad_norm": 0.32291004061698914,
	"learning_rate": 0.0001608272506082725,
	"loss": 0.8082,
	"step": 710
	},
	{
	"epoch": 1.5549480590486606,
	"grad_norm": 0.2640690803527832,
	"learning_rate": 0.00016058394160583942,
	"loss": 0.6813,
	"step": 711
	},
	{
	"epoch": 1.5571350464734828,
	"grad_norm": 0.32076698541641235,
	"learning_rate": 0.00016034063260340632,
	"loss": 0.8319,
	"step": 712
	},
	{
	"epoch": 1.559322033898305,
	"grad_norm": 0.29734277725219727,
	"learning_rate": 0.00016009732360097324,
	"loss": 0.9649,
	"step": 713
	},
	{
	"epoch": 1.5615090213231273,
	"grad_norm": 0.3353315591812134,
	"learning_rate": 0.00015985401459854014,
	"loss": 0.6102,
	"step": 714
	},
	{
	"epoch": 1.5636960087479497,
	"grad_norm": 0.24924345314502716,
	"learning_rate": 0.00015961070559610704,
	"loss": 0.6868,
	"step": 715
	},
	{
	"epoch": 1.565882996172772,
	"grad_norm": 0.21561355888843536,
	"learning_rate": 0.00015936739659367397,
	"loss": 0.6087,
	"step": 716
	},
	{
	"epoch": 1.5680699835975944,
	"grad_norm": 0.28856387734413147,
	"learning_rate": 0.00015912408759124086,
	"loss": 0.7849,
	"step": 717
	},
	{
	"epoch": 1.5702569710224166,
	"grad_norm": 0.2342023402452469,
	"learning_rate": 0.00015888077858880776,
	"loss": 0.8097,
	"step": 718
	},
	{
	"epoch": 1.572443958447239,
	"grad_norm": 0.27620434761047363,
	"learning_rate": 0.00015863746958637466,
	"loss": 0.6495,
	"step": 719
	},
	{
	"epoch": 1.574630945872061,
	"grad_norm": 0.3575909733772278,
	"learning_rate": 0.00015839416058394159,
	"loss": 0.5667,
	"step": 720
	},
	{
	"epoch": 1.5768179332968835,
	"grad_norm": 0.29075026512145996,
	"learning_rate": 0.00015815085158150848,
	"loss": 0.734,
	"step": 721
	},
	{
	"epoch": 1.5790049207217058,
	"grad_norm": 0.317648321390152,
	"learning_rate": 0.0001579075425790754,
	"loss": 0.6881,
	"step": 722
	},
	{
	"epoch": 1.5811919081465282,
	"grad_norm": 0.2477569282054901,
	"learning_rate": 0.00015766423357664234,
	"loss": 0.7097,
	"step": 723
	},
	{
	"epoch": 1.5833788955713506,
	"grad_norm": 0.2733086347579956,
	"learning_rate": 0.00015742092457420923,
	"loss": 0.4836,
	"step": 724
	},
	{
	"epoch": 1.5855658829961727,
	"grad_norm": 0.32278919219970703,
	"learning_rate": 0.00015717761557177613,
	"loss": 0.6931,
	"step": 725
	},
	{
	"epoch": 1.587752870420995,
	"grad_norm": 0.2804641127586365,
	"learning_rate": 0.00015693430656934306,
	"loss": 0.6908,
	"step": 726
	},
	{
	"epoch": 1.5899398578458173,
	"grad_norm": 0.28953608870506287,
	"learning_rate": 0.00015669099756690996,
	"loss": 0.7086,
	"step": 727
	},
	{
	"epoch": 1.5921268452706396,
	"grad_norm": 0.21297629177570343,
	"learning_rate": 0.00015644768856447685,
	"loss": 0.6663,
	"step": 728
	},
	{
	"epoch": 1.594313832695462,
	"grad_norm": 0.23495450615882874,
	"learning_rate": 0.00015620437956204378,
	"loss": 0.7177,
	"step": 729
	},
	{
	"epoch": 1.5965008201202844,
	"grad_norm": 0.4271846413612366,
	"learning_rate": 0.00015596107055961068,
	"loss": 0.9376,
	"step": 730
	},
	{
	"epoch": 1.5986878075451068,
	"grad_norm": 0.3190995156764984,
	"learning_rate": 0.00015571776155717758,
	"loss": 0.5957,
	"step": 731
	},
	{
	"epoch": 1.600874794969929,
	"grad_norm": 0.3533025085926056,
	"learning_rate": 0.00015547445255474453,
	"loss": 0.8295,
	"step": 732
	},
	{
	"epoch": 1.6030617823947513,
	"grad_norm": 0.48731425404548645,
	"learning_rate": 0.00015523114355231143,
	"loss": 0.7024,
	"step": 733
	},
	{
	"epoch": 1.6052487698195734,
	"grad_norm": 0.2876966595649719,
	"learning_rate": 0.00015498783454987833,
	"loss": 0.6858,
	"step": 734
	},
	{
	"epoch": 1.6074357572443958,
	"grad_norm": 0.2668203115463257,
	"learning_rate": 0.00015474452554744525,
	"loss": 0.7548,
	"step": 735
	},
	{
	"epoch": 1.6096227446692182,
	"grad_norm": 0.3176876902580261,
	"learning_rate": 0.00015450121654501215,
	"loss": 0.7124,
	"step": 736
	},
	{
	"epoch": 1.6118097320940405,
	"grad_norm": 0.3083260655403137,
	"learning_rate": 0.00015425790754257905,
	"loss": 0.682,
	"step": 737
	},
	{
	"epoch": 1.613996719518863,
	"grad_norm": 0.38110706210136414,
	"learning_rate": 0.00015401459854014597,
	"loss": 0.9364,
	"step": 738
	},
	{
	"epoch": 1.616183706943685,
	"grad_norm": 0.2112010270357132,
	"learning_rate": 0.00015377128953771287,
	"loss": 0.6111,
	"step": 739
	},
	{
	"epoch": 1.6183706943685072,
	"grad_norm": 0.320754736661911,
	"learning_rate": 0.00015352798053527977,
	"loss": 0.8463,
	"step": 740
	},
	{
	"epoch": 1.6205576817933296,
	"grad_norm": 0.2661709785461426,
	"learning_rate": 0.00015328467153284672,
	"loss": 0.6922,
	"step": 741
	},
	{
	"epoch": 1.622744669218152,
	"grad_norm": 0.28991788625717163,
	"learning_rate": 0.00015304136253041362,
	"loss": 0.683,
	"step": 742
	},
	{
	"epoch": 1.6249316566429743,
	"grad_norm": 0.23085246980190277,
	"learning_rate": 0.00015279805352798052,
	"loss": 0.6098,
	"step": 743
	},
	{
	"epoch": 1.6271186440677967,
	"grad_norm": 0.3355705440044403,
	"learning_rate": 0.00015255474452554745,
	"loss": 0.7358,
	"step": 744
	},
	{
	"epoch": 1.6293056314926189,
	"grad_norm": 0.2608512341976166,
	"learning_rate": 0.00015231143552311434,
	"loss": 0.6872,
	"step": 745
	},
	{
	"epoch": 1.6314926189174412,
	"grad_norm": 0.28092092275619507,
	"learning_rate": 0.00015206812652068124,
	"loss": 0.7605,
	"step": 746
	},
	{
	"epoch": 1.6336796063422634,
	"grad_norm": 0.3571244776248932,
	"learning_rate": 0.00015182481751824817,
	"loss": 0.5481,
	"step": 747
	},
	{
	"epoch": 1.6358665937670858,
	"grad_norm": 0.30611398816108704,
	"learning_rate": 0.00015158150851581507,
	"loss": 0.6696,
	"step": 748
	},
	{
	"epoch": 1.6380535811919081,
	"grad_norm": 0.32783061265945435,
	"learning_rate": 0.00015133819951338196,
	"loss": 0.8286,
	"step": 749
	},
	{
	"epoch": 1.6402405686167305,
	"grad_norm": 0.2778065502643585,
	"learning_rate": 0.00015109489051094892,
	"loss": 0.6223,
	"step": 750
	},
	{
	"epoch": 1.6424275560415529,
	"grad_norm": 0.2809867262840271,
	"learning_rate": 0.00015085158150851582,
	"loss": 0.4979,
	"step": 751
	},
	{
	"epoch": 1.644614543466375,
	"grad_norm": 0.3469402492046356,
	"learning_rate": 0.00015060827250608271,
	"loss": 0.7277,
	"step": 752
	},
	{
	"epoch": 1.6468015308911974,
	"grad_norm": 0.33360373973846436,
	"learning_rate": 0.00015036496350364964,
	"loss": 0.7133,
	"step": 753
	},
	{
	"epoch": 1.6489885183160196,
	"grad_norm": 0.24966338276863098,
	"learning_rate": 0.00015012165450121654,
	"loss": 0.8344,
	"step": 754
	},
	{
	"epoch": 1.651175505740842,
	"grad_norm": 0.35595226287841797,
	"learning_rate": 0.00014987834549878344,
	"loss": 0.5492,
	"step": 755
	},
	{
	"epoch": 1.6533624931656643,
	"grad_norm": 0.36205926537513733,
	"learning_rate": 0.00014963503649635036,
	"loss": 0.6962,
	"step": 756
	},
	{
	"epoch": 1.6555494805904867,
	"grad_norm": 0.3373574912548065,
	"learning_rate": 0.00014939172749391726,
	"loss": 0.9455,
	"step": 757
	},
	{
	"epoch": 1.657736468015309,
	"grad_norm": 0.2560804486274719,
	"learning_rate": 0.00014914841849148416,
	"loss": 0.6532,
	"step": 758
	},
	{
	"epoch": 1.6599234554401312,
	"grad_norm": 0.3424091339111328,
	"learning_rate": 0.00014890510948905108,
	"loss": 0.7255,
	"step": 759
	},
	{
	"epoch": 1.6621104428649536,
	"grad_norm": 0.3578891456127167,
	"learning_rate": 0.000148661800486618,
	"loss": 0.689,
	"step": 760
	},
	{
	"epoch": 1.6642974302897757,
	"grad_norm": 0.2998923659324646,
	"learning_rate": 0.0001484184914841849,
	"loss": 0.8305,
	"step": 761
	},
	{
	"epoch": 1.666484417714598,
	"grad_norm": 0.29691943526268005,
	"learning_rate": 0.0001481751824817518,
	"loss": 0.5745,
	"step": 762
	},
	{
	"epoch": 1.6686714051394205,
	"grad_norm": 0.26453182101249695,
	"learning_rate": 0.00014793187347931873,
	"loss": 0.6202,
	"step": 763
	},
	{
	"epoch": 1.6708583925642428,
	"grad_norm": 0.24131835997104645,
	"learning_rate": 0.00014768856447688563,
	"loss": 0.8149,
	"step": 764
	},
	{
	"epoch": 1.6730453799890652,
	"grad_norm": 0.5507832169532776,
	"learning_rate": 0.00014744525547445256,
	"loss": 0.7544,
	"step": 765
	},
	{
	"epoch": 1.6752323674138874,
	"grad_norm": 0.3100571930408478,
	"learning_rate": 0.00014720194647201945,
	"loss": 0.6096,
	"step": 766
	},
	{
	"epoch": 1.6774193548387095,
	"grad_norm": 0.40742942690849304,
	"learning_rate": 0.00014695863746958635,
	"loss": 0.8001,
	"step": 767
	},
	{
	"epoch": 1.679606342263532,
	"grad_norm": 0.26272064447402954,
	"learning_rate": 0.00014671532846715328,
	"loss": 0.6614,
	"step": 768
	},
	{
	"epoch": 1.6817933296883543,
	"grad_norm": 0.3485982418060303,
	"learning_rate": 0.00014647201946472018,
	"loss": 0.7596,
	"step": 769
	},
	{
	"epoch": 1.6839803171131766,
	"grad_norm": 0.3311547636985779,
	"learning_rate": 0.0001462287104622871,
	"loss": 0.808,
	"step": 770
	},
	{
	"epoch": 1.686167304537999,
	"grad_norm": 0.28489449620246887,
	"learning_rate": 0.000145985401459854,
	"loss": 0.683,
	"step": 771
	},
	{
	"epoch": 1.6883542919628212,
	"grad_norm": 0.23958906531333923,
	"learning_rate": 0.0001457420924574209,
	"loss": 0.619,
	"step": 772
	},
	{
	"epoch": 1.6905412793876435,
	"grad_norm": 0.2665773034095764,
	"learning_rate": 0.00014549878345498782,
	"loss": 0.7169,
	"step": 773
	},
	{
	"epoch": 1.6927282668124657,
	"grad_norm": 0.33576110005378723,
	"learning_rate": 0.00014525547445255475,
	"loss": 0.7457,
	"step": 774
	},
	{
	"epoch": 1.694915254237288,
	"grad_norm": 0.3103754222393036,
	"learning_rate": 0.00014501216545012165,
	"loss": 0.7083,
	"step": 775
	},
	{
	"epoch": 1.6971022416621104,
	"grad_norm": 0.27746620774269104,
	"learning_rate": 0.00014476885644768855,
	"loss": 0.7648,
	"step": 776
	},
	{
	"epoch": 1.6992892290869328,
	"grad_norm": 0.3597886264324188,
	"learning_rate": 0.00014452554744525547,
	"loss": 0.8173,
	"step": 777
	},
	{
	"epoch": 1.7014762165117552,
	"grad_norm": 0.2408217489719391,
	"learning_rate": 0.00014428223844282237,
	"loss": 0.5872,
	"step": 778
	},
	{
	"epoch": 1.7036632039365773,
	"grad_norm": 0.24239328503608704,
	"learning_rate": 0.0001440389294403893,
	"loss": 0.6311,
	"step": 779
	},
	{
	"epoch": 1.7058501913613997,
	"grad_norm": 0.4606420695781708,
	"learning_rate": 0.0001437956204379562,
	"loss": 0.6742,
	"step": 780
	},
	{
	"epoch": 1.7080371787862219,
	"grad_norm": 0.2773914933204651,
	"learning_rate": 0.0001435523114355231,
	"loss": 0.4933,
	"step": 781
	},
	{
	"epoch": 1.7102241662110442,
	"grad_norm": 0.33102571964263916,
	"learning_rate": 0.00014330900243309002,
	"loss": 0.7694,
	"step": 782
	},
	{
	"epoch": 1.7124111536358666,
	"grad_norm": 0.3455331027507782,
	"learning_rate": 0.00014306569343065692,
	"loss": 0.5662,
	"step": 783
	},
	{
	"epoch": 1.714598141060689,
	"grad_norm": 0.28522560000419617,
	"learning_rate": 0.00014282238442822384,
	"loss": 0.799,
	"step": 784
	},
	{
	"epoch": 1.7167851284855113,
	"grad_norm": 0.3302403688430786,
	"learning_rate": 0.00014257907542579074,
	"loss": 0.8366,
	"step": 785
	},
	{
	"epoch": 1.7189721159103335,
	"grad_norm": 0.2695009410381317,
	"learning_rate": 0.00014233576642335764,
	"loss": 0.5889,
	"step": 786
	},
	{
	"epoch": 1.7211591033351559,
	"grad_norm": 0.2292398363351822,
	"learning_rate": 0.00014209245742092456,
	"loss": 0.519,
	"step": 787
	},
	{
	"epoch": 1.723346090759978,
	"grad_norm": 0.2863897383213043,
	"learning_rate": 0.0001418491484184915,
	"loss": 0.6394,
	"step": 788
	},
	{
	"epoch": 1.7255330781848004,
	"grad_norm": 1.8092900514602661,
	"learning_rate": 0.0001416058394160584,
	"loss": 0.6393,
	"step": 789
	},
	{
	"epoch": 1.7277200656096228,
	"grad_norm": 0.3296603262424469,
	"learning_rate": 0.00014136253041362529,
	"loss": 0.7414,
	"step": 790
	},
	{
	"epoch": 1.7299070530344451,
	"grad_norm": 0.36179548501968384,
	"learning_rate": 0.0001411192214111922,
	"loss": 0.7689,
	"step": 791
	},
	{
	"epoch": 1.7320940404592675,
	"grad_norm": 0.3196108937263489,
	"learning_rate": 0.0001408759124087591,
	"loss": 0.681,
	"step": 792
	},
	{
	"epoch": 1.7342810278840897,
	"grad_norm": 0.3329809010028839,
	"learning_rate": 0.000140632603406326,
	"loss": 0.7421,
	"step": 793
	},
	{
	"epoch": 1.7364680153089118,
	"grad_norm": 0.22216172516345978,
	"learning_rate": 0.00014038929440389293,
	"loss": 0.6421,
	"step": 794
	},
	{
	"epoch": 1.7386550027337342,
	"grad_norm": 0.33266568183898926,
	"learning_rate": 0.00014014598540145983,
	"loss": 0.5699,
	"step": 795
	},
	{
	"epoch": 1.7408419901585566,
	"grad_norm": 0.3858932852745056,
	"learning_rate": 0.00013990267639902676,
	"loss": 0.7368,
	"step": 796
	},
	{
	"epoch": 1.743028977583379,
	"grad_norm": 0.3091468811035156,
	"learning_rate": 0.00013965936739659366,
	"loss": 0.6334,
	"step": 797
	},
	{
	"epoch": 1.7452159650082013,
	"grad_norm": 0.3596084415912628,
	"learning_rate": 0.00013941605839416055,
	"loss": 0.6,
	"step": 798
	},
	{
	"epoch": 1.7474029524330235,
	"grad_norm": 0.2971950173377991,
	"learning_rate": 0.00013917274939172748,
	"loss": 0.6638,
	"step": 799
	},
	{
	"epoch": 1.7495899398578458,
	"grad_norm": 0.36204877495765686,
	"learning_rate": 0.0001389294403892944,
	"loss": 0.6704,
	"step": 800
	},
	{
	"epoch": 1.751776927282668,
	"grad_norm": 0.25178369879722595,
	"learning_rate": 0.0001386861313868613,
	"loss": 0.6057,
	"step": 801
	},
	{
	"epoch": 1.7539639147074904,
	"grad_norm": 0.2541144788265228,
	"learning_rate": 0.0001384428223844282,
	"loss": 0.6294,
	"step": 802
	},
	{
	"epoch": 1.7561509021323127,
	"grad_norm": 0.31337326765060425,
	"learning_rate": 0.0001381995133819951,
	"loss": 0.7991,
	"step": 803
	},
	{
	"epoch": 1.758337889557135,
	"grad_norm": 0.8276956081390381,
	"learning_rate": 0.00013795620437956203,
	"loss": 0.9111,
	"step": 804
	},
	{
	"epoch": 1.7605248769819575,
	"grad_norm": 0.2656904458999634,
	"learning_rate": 0.00013771289537712895,
	"loss": 0.7048,
	"step": 805
	},
	{
	"epoch": 1.7627118644067796,
	"grad_norm": 0.3123759627342224,
	"learning_rate": 0.00013746958637469585,
	"loss": 0.816,
	"step": 806
	},
	{
	"epoch": 1.764898851831602,
	"grad_norm": 0.28710535168647766,
	"learning_rate": 0.00013722627737226275,
	"loss": 0.7998,
	"step": 807
	},
	{
	"epoch": 1.7670858392564242,
	"grad_norm": 0.28171730041503906,
	"learning_rate": 0.00013698296836982967,
	"loss": 0.6835,
	"step": 808
	},
	{
	"epoch": 1.7692728266812465,
	"grad_norm": 0.42397668957710266,
	"learning_rate": 0.00013673965936739657,
	"loss": 0.6875,
	"step": 809
	},
	{
	"epoch": 1.771459814106069,
	"grad_norm": 0.309830904006958,
	"learning_rate": 0.0001364963503649635,
	"loss": 0.7446,
	"step": 810
	},
	{
	"epoch": 1.7736468015308913,
	"grad_norm": 0.3108932375907898,
	"learning_rate": 0.0001362530413625304,
	"loss": 0.6415,
	"step": 811
	},
	{
	"epoch": 1.7758337889557136,
	"grad_norm": 0.34336167573928833,
	"learning_rate": 0.0001360097323600973,
	"loss": 0.688,
	"step": 812
	},
	{
	"epoch": 1.7780207763805358,
	"grad_norm": 0.2871513366699219,
	"learning_rate": 0.00013576642335766422,
	"loss": 0.8814,
	"step": 813
	},
	{
	"epoch": 1.7802077638053582,
	"grad_norm": 0.24412307143211365,
	"learning_rate": 0.00013552311435523115,
	"loss": 0.6767,
	"step": 814
	},
	{
	"epoch": 1.7823947512301803,
	"grad_norm": 0.3574623167514801,
	"learning_rate": 0.00013527980535279804,
	"loss": 0.7016,
	"step": 815
	},
	{
	"epoch": 1.7845817386550027,
	"grad_norm": 0.4434225261211395,
	"learning_rate": 0.00013503649635036494,
	"loss": 0.6373,
	"step": 816
	},
	{
	"epoch": 1.786768726079825,
	"grad_norm": 0.5134851932525635,
	"learning_rate": 0.00013479318734793187,
	"loss": 0.6622,
	"step": 817
	},
	{
	"epoch": 1.7889557135046474,
	"grad_norm": 0.4768081307411194,
	"learning_rate": 0.00013454987834549877,
	"loss": 0.7665,
	"step": 818
	},
	{
	"epoch": 1.7911427009294698,
	"grad_norm": 0.2798459231853485,
	"learning_rate": 0.0001343065693430657,
	"loss": 0.6625,
	"step": 819
	},
	{
	"epoch": 1.793329688354292,
	"grad_norm": 0.27218303084373474,
	"learning_rate": 0.0001340632603406326,
	"loss": 0.6266,
	"step": 820
	},
	{
	"epoch": 1.7955166757791141,
	"grad_norm": 0.287860244512558,
	"learning_rate": 0.0001338199513381995,
	"loss": 0.9758,
	"step": 821
	},
	{
	"epoch": 1.7977036632039365,
	"grad_norm": 0.26204392313957214,
	"learning_rate": 0.00013357664233576641,
	"loss": 0.532,
	"step": 822
	},
	{
	"epoch": 1.7998906506287589,
	"grad_norm": 0.29923009872436523,
	"learning_rate": 0.0001333333333333333,
	"loss": 0.6961,
	"step": 823
	},
	{
	"epoch": 1.8020776380535812,
	"grad_norm": 0.34140443801879883,
	"learning_rate": 0.00013309002433090024,
	"loss": 0.8296,
	"step": 824
	},
	{
	"epoch": 1.8042646254784036,
	"grad_norm": 0.2605873644351959,
	"learning_rate": 0.00013284671532846714,
	"loss": 0.8329,
	"step": 825
	},
	{
	"epoch": 1.8064516129032258,
	"grad_norm": 0.36522653698921204,
	"learning_rate": 0.00013260340632603403,
	"loss": 0.8552,
	"step": 826
	},
	{
	"epoch": 1.8086386003280481,
	"grad_norm": 0.29043689370155334,
	"learning_rate": 0.00013236009732360096,
	"loss": 0.7261,
	"step": 827
	},
	{
	"epoch": 1.8108255877528703,
	"grad_norm": 0.2861742675304413,
	"learning_rate": 0.00013211678832116789,
	"loss": 0.596,
	"step": 828
	},
	{
	"epoch": 1.8130125751776927,
	"grad_norm": 0.34066513180732727,
	"learning_rate": 0.00013187347931873478,
	"loss": 0.8127,
	"step": 829
	},
	{
	"epoch": 1.815199562602515,
	"grad_norm": 0.3166887164115906,
	"learning_rate": 0.00013163017031630168,
	"loss": 0.7491,
	"step": 830
	},
	{
	"epoch": 1.8173865500273374,
	"grad_norm": 0.36282384395599365,
	"learning_rate": 0.0001313868613138686,
	"loss": 0.7511,
	"step": 831
	},
	{
	"epoch": 1.8195735374521598,
	"grad_norm": 0.36424878239631653,
	"learning_rate": 0.0001311435523114355,
	"loss": 0.938,
	"step": 832
	},
	{
	"epoch": 1.821760524876982,
	"grad_norm": 0.3587567210197449,
	"learning_rate": 0.00013090024330900243,
	"loss": 0.8294,
	"step": 833
	},
	{
	"epoch": 1.8239475123018043,
	"grad_norm": 0.3000282049179077,
	"learning_rate": 0.00013065693430656933,
	"loss": 0.7178,
	"step": 834
	},
	{
	"epoch": 1.8261344997266264,
	"grad_norm": 0.2934707999229431,
	"learning_rate": 0.00013041362530413623,
	"loss": 0.7185,
	"step": 835
	},
	{
	"epoch": 1.8283214871514488,
	"grad_norm": 0.26312437653541565,
	"learning_rate": 0.00013017031630170315,
	"loss": 0.6128,
	"step": 836
	},
	{
	"epoch": 1.8305084745762712,
	"grad_norm": 0.27557966113090515,
	"learning_rate": 0.00012992700729927008,
	"loss": 0.6751,
	"step": 837
	},
	{
	"epoch": 1.8326954620010936,
	"grad_norm": 0.296512633562088,
	"learning_rate": 0.00012968369829683698,
	"loss": 0.8259,
	"step": 838
	},
	{
	"epoch": 1.834882449425916,
	"grad_norm": 0.4524163007736206,
	"learning_rate": 0.00012944038929440388,
	"loss": 0.6811,
	"step": 839
	},
	{
	"epoch": 1.837069436850738,
	"grad_norm": 0.32787275314331055,
	"learning_rate": 0.00012919708029197077,
	"loss": 0.6882,
	"step": 840
	},
	{
	"epoch": 1.8392564242755605,
	"grad_norm": 0.26250511407852173,
	"learning_rate": 0.0001289537712895377,
	"loss": 0.6858,
	"step": 841
	},
	{
	"epoch": 1.8414434117003826,
	"grad_norm": 0.32813650369644165,
	"learning_rate": 0.00012871046228710463,
	"loss": 0.5929,
	"step": 842
	},
	{
	"epoch": 1.843630399125205,
	"grad_norm": 0.3023451864719391,
	"learning_rate": 0.00012846715328467152,
	"loss": 0.7795,
	"step": 843
	},
	{
	"epoch": 1.8458173865500274,
	"grad_norm": 0.3112645745277405,
	"learning_rate": 0.00012822384428223842,
	"loss": 0.517,
	"step": 844
	},
	{
	"epoch": 1.8480043739748497,
	"grad_norm": 0.6681469678878784,
	"learning_rate": 0.00012798053527980535,
	"loss": 0.7089,
	"step": 845
	},
	{
	"epoch": 1.850191361399672,
	"grad_norm": 0.2592954933643341,
	"learning_rate": 0.00012773722627737225,
	"loss": 0.7007,
	"step": 846
	},
	{
	"epoch": 1.8523783488244943,
	"grad_norm": 0.31619131565093994,
	"learning_rate": 0.00012749391727493917,
	"loss": 0.4884,
	"step": 847
	},
	{
	"epoch": 1.8545653362493164,
	"grad_norm": 0.3551687002182007,
	"learning_rate": 0.00012725060827250607,
	"loss": 0.5677,
	"step": 848
	},
	{
	"epoch": 1.8567523236741388,
	"grad_norm": 0.32219335436820984,
	"learning_rate": 0.00012700729927007297,
	"loss": 0.6744,
	"step": 849
	},
	{
	"epoch": 1.8589393110989612,
	"grad_norm": 0.28793492913246155,
	"learning_rate": 0.0001267639902676399,
	"loss": 0.6258,
	"step": 850
	},
	{
	"epoch": 1.8611262985237835,
	"grad_norm": 0.382720410823822,
	"learning_rate": 0.00012652068126520682,
	"loss": 0.7977,
	"step": 851
	},
	{
	"epoch": 1.863313285948606,
	"grad_norm": 0.33804479241371155,
	"learning_rate": 0.00012627737226277372,
	"loss": 0.7254,
	"step": 852
	},
	{
	"epoch": 1.865500273373428,
	"grad_norm": 0.3259097635746002,
	"learning_rate": 0.00012603406326034062,
	"loss": 0.8729,
	"step": 853
	},
	{
	"epoch": 1.8676872607982504,
	"grad_norm": 0.3584567606449127,
	"learning_rate": 0.00012579075425790754,
	"loss": 0.7337,
	"step": 854
	},
	{
	"epoch": 1.8698742482230726,
	"grad_norm": 0.336674302816391,
	"learning_rate": 0.00012554744525547444,
	"loss": 0.6829,
	"step": 855
	},
	{
	"epoch": 1.872061235647895,
	"grad_norm": 0.49990177154541016,
	"learning_rate": 0.00012530413625304137,
	"loss": 0.7793,
	"step": 856
	},
	{
	"epoch": 1.8742482230727173,
	"grad_norm": 0.31498992443084717,
	"learning_rate": 0.00012506082725060826,
	"loss": 0.7355,
	"step": 857
	},
	{
	"epoch": 1.8764352104975397,
	"grad_norm": 0.3050641119480133,
	"learning_rate": 0.00012481751824817516,
	"loss": 0.6473,
	"step": 858
	},
	{
	"epoch": 1.878622197922362,
	"grad_norm": 0.27067434787750244,
	"learning_rate": 0.0001245742092457421,
	"loss": 0.6639,
	"step": 859
	},
	{
	"epoch": 1.8808091853471842,
	"grad_norm": 0.29407691955566406,
	"learning_rate": 0.000124330900243309,
	"loss": 0.8002,
	"step": 860
	},
	{
	"epoch": 1.8829961727720066,
	"grad_norm": 0.3786459267139435,
	"learning_rate": 0.0001240875912408759,
	"loss": 0.8694,
	"step": 861
	},
	{
	"epoch": 1.8851831601968287,
	"grad_norm": 0.3678539991378784,
	"learning_rate": 0.0001238442822384428,
	"loss": 0.7188,
	"step": 862
	},
	{
	"epoch": 1.8873701476216511,
	"grad_norm": 0.3660300076007843,
	"learning_rate": 0.0001236009732360097,
	"loss": 0.7348,
	"step": 863
	},
	{
	"epoch": 1.8895571350464735,
	"grad_norm": 0.34265831112861633,
	"learning_rate": 0.00012335766423357663,
	"loss": 0.7046,
	"step": 864
	},
	{
	"epoch": 1.8917441224712959,
	"grad_norm": 0.3664507567882538,
	"learning_rate": 0.00012311435523114356,
	"loss": 0.777,
	"step": 865
	},
	{
	"epoch": 1.8939311098961182,
	"grad_norm": 0.36169371008872986,
	"learning_rate": 0.00012287104622871046,
	"loss": 0.6797,
	"step": 866
	},
	{
	"epoch": 1.8961180973209404,
	"grad_norm": 0.2904834449291229,
	"learning_rate": 0.00012262773722627736,
	"loss": 0.6406,
	"step": 867
	},
	{
	"epoch": 1.8983050847457628,
	"grad_norm": 0.3194887340068817,
	"learning_rate": 0.00012238442822384428,
	"loss": 0.7477,
	"step": 868
	},
	{
	"epoch": 1.900492072170585,
	"grad_norm": 0.24546030163764954,
	"learning_rate": 0.00012214111922141118,
	"loss": 0.6013,
	"step": 869
	},
	{
	"epoch": 1.9026790595954073,
	"grad_norm": 0.2817955017089844,
	"learning_rate": 0.00012189781021897809,
	"loss": 0.7813,
	"step": 870
	},
	{
	"epoch": 1.9048660470202297,
	"grad_norm": 0.28798621892929077,
	"learning_rate": 0.000121654501216545,
	"loss": 0.6312,
	"step": 871
	},
	{
	"epoch": 1.907053034445052,
	"grad_norm": 0.22041471302509308,
	"learning_rate": 0.0001214111922141119,
	"loss": 0.6671,
	"step": 872
	},
	{
	"epoch": 1.9092400218698744,
	"grad_norm": 0.45332956314086914,
	"learning_rate": 0.00012116788321167883,
	"loss": 0.7519,
	"step": 873
	},
	{
	"epoch": 1.9114270092946966,
	"grad_norm": 0.2907330393791199,
	"learning_rate": 0.00012092457420924574,
	"loss": 0.7048,
	"step": 874
	},
	{
	"epoch": 1.9136139967195187,
	"grad_norm": 0.3308665156364441,
	"learning_rate": 0.00012068126520681264,
	"loss": 0.6583,
	"step": 875
	},
	{
	"epoch": 1.915800984144341,
	"grad_norm": 0.314803808927536,
	"learning_rate": 0.00012043795620437955,
	"loss": 0.7902,
	"step": 876
	},
	{
	"epoch": 1.9179879715691635,
	"grad_norm": 0.47894173860549927,
	"learning_rate": 0.00012019464720194645,
	"loss": 0.7153,
	"step": 877
	},
	{
	"epoch": 1.9201749589939858,
	"grad_norm": 0.2984611392021179,
	"learning_rate": 0.00011995133819951337,
	"loss": 0.6093,
	"step": 878
	},
	{
	"epoch": 1.9223619464188082,
	"grad_norm": 0.5481080412864685,
	"learning_rate": 0.00011970802919708029,
	"loss": 0.7026,
	"step": 879
	},
	{
	"epoch": 1.9245489338436303,
	"grad_norm": 0.4306366443634033,
	"learning_rate": 0.00011946472019464718,
	"loss": 0.8093,
	"step": 880
	},
	{
	"epoch": 1.9267359212684527,
	"grad_norm": 0.4765607416629791,
	"learning_rate": 0.0001192214111922141,
	"loss": 0.8378,
	"step": 881
	},
	{
	"epoch": 1.9289229086932749,
	"grad_norm": 0.29230380058288574,
	"learning_rate": 0.00011897810218978102,
	"loss": 0.812,
	"step": 882
	},
	{
	"epoch": 1.9311098961180972,
	"grad_norm": 0.27519696950912476,
	"learning_rate": 0.00011873479318734792,
	"loss": 0.7204,
	"step": 883
	},
	{
	"epoch": 1.9332968835429196,
	"grad_norm": 0.43257808685302734,
	"learning_rate": 0.00011849148418491483,
	"loss": 0.7484,
	"step": 884
	},
	{
	"epoch": 1.935483870967742,
	"grad_norm": 0.34764620661735535,
	"learning_rate": 0.00011824817518248174,
	"loss": 0.7835,
	"step": 885
	},
	{
	"epoch": 1.9376708583925644,
	"grad_norm": 0.2872960567474365,
	"learning_rate": 0.00011800486618004864,
	"loss": 0.6871,
	"step": 886
	},
	{
	"epoch": 1.9398578458173865,
	"grad_norm": 0.3657885491847992,
	"learning_rate": 0.00011776155717761557,
	"loss": 0.7439,
	"step": 887
	},
	{
	"epoch": 1.942044833242209,
	"grad_norm": 0.3176083564758301,
	"learning_rate": 0.00011751824817518248,
	"loss": 0.6768,
	"step": 888
	},
	{
	"epoch": 1.944231820667031,
	"grad_norm": 0.2851628363132477,
	"learning_rate": 0.00011727493917274938,
	"loss": 0.6673,
	"step": 889
	},
	{
	"epoch": 1.9464188080918534,
	"grad_norm": 0.2601426839828491,
	"learning_rate": 0.00011703163017031629,
	"loss": 0.6025,
	"step": 890
	},
	{
	"epoch": 1.9486057955166758,
	"grad_norm": 0.282064288854599,
	"learning_rate": 0.0001167883211678832,
	"loss": 0.7084,
	"step": 891
	},
	{
	"epoch": 1.9507927829414982,
	"grad_norm": 0.2761860191822052,
	"learning_rate": 0.0001165450121654501,
	"loss": 0.7596,
	"step": 892
	},
	{
	"epoch": 1.9529797703663205,
	"grad_norm": 0.28319042921066284,
	"learning_rate": 0.00011630170316301703,
	"loss": 0.6179,
	"step": 893
	},
	{
	"epoch": 1.9551667577911427,
	"grad_norm": 0.3847699761390686,
	"learning_rate": 0.00011605839416058394,
	"loss": 0.7964,
	"step": 894
	},
	{
	"epoch": 1.957353745215965,
	"grad_norm": 0.5719382762908936,
	"learning_rate": 0.00011581508515815084,
	"loss": 0.7848,
	"step": 895
	},
	{
	"epoch": 1.9595407326407872,
	"grad_norm": 0.24546296894550323,
	"learning_rate": 0.00011557177615571775,
	"loss": 0.7404,
	"step": 896
	},
	{
	"epoch": 1.9617277200656096,
	"grad_norm": 0.2359631359577179,
	"learning_rate": 0.00011532846715328465,
	"loss": 0.6091,
	"step": 897
	},
	{
	"epoch": 1.963914707490432,
	"grad_norm": 0.23529179394245148,
	"learning_rate": 0.00011508515815085157,
	"loss": 0.7032,
	"step": 898
	},
	{
	"epoch": 1.9661016949152543,
	"grad_norm": 0.32363957166671753,
	"learning_rate": 0.00011484184914841848,
	"loss": 0.7238,
	"step": 899
	},
	{
	"epoch": 1.9682886823400767,
	"grad_norm": 0.24427059292793274,
	"learning_rate": 0.00011459854014598538,
	"loss": 0.6704,
	"step": 900
	},
	{
	"epoch": 1.9704756697648989,
	"grad_norm": 0.39608168601989746,
	"learning_rate": 0.0001143552311435523,
	"loss": 0.7251,
	"step": 901
	},
	{
	"epoch": 1.972662657189721,
	"grad_norm": 0.2778458297252655,
	"learning_rate": 0.00011411192214111922,
	"loss": 0.6907,
	"step": 902
	},
	{
	"epoch": 1.9748496446145434,
	"grad_norm": 0.38359907269477844,
	"learning_rate": 0.00011386861313868612,
	"loss": 0.792,
	"step": 903
	},
	{
	"epoch": 1.9770366320393657,
	"grad_norm": 0.2692561149597168,
	"learning_rate": 0.00011362530413625303,
	"loss": 0.505,
	"step": 904
	},
	{
	"epoch": 1.9792236194641881,
	"grad_norm": 0.35147660970687866,
	"learning_rate": 0.00011338199513381994,
	"loss": 0.6847,
	"step": 905
	},
	{
	"epoch": 1.9814106068890105,
	"grad_norm": 0.3441888689994812,
	"learning_rate": 0.00011313868613138684,
	"loss": 0.7633,
	"step": 906
	},
	{
	"epoch": 1.9835975943138326,
	"grad_norm": 0.22528661787509918,
	"learning_rate": 0.00011289537712895377,
	"loss": 0.6367,
	"step": 907
	},
	{
	"epoch": 1.985784581738655,
	"grad_norm": 0.34356188774108887,
	"learning_rate": 0.00011265206812652068,
	"loss": 0.8377,
	"step": 908
	},
	{
	"epoch": 1.9879715691634772,
	"grad_norm": 0.3173167109489441,
	"learning_rate": 0.00011240875912408758,
	"loss": 0.6651,
	"step": 909
	},
	{
	"epoch": 1.9901585565882995,
	"grad_norm": 0.2497638314962387,
	"learning_rate": 0.00011216545012165449,
	"loss": 0.7402,
	"step": 910
	},
	{
	"epoch": 1.992345544013122,
	"grad_norm": 0.28941065073013306,
	"learning_rate": 0.00011192214111922141,
	"loss": 0.7328,
	"step": 911
	},
	{
	"epoch": 1.9945325314379443,
	"grad_norm": 0.3209066092967987,
	"learning_rate": 0.00011167883211678831,
	"loss": 0.6639,
	"step": 912
	},
	{
	"epoch": 1.9967195188627667,
	"grad_norm": 0.2646278142929077,
	"learning_rate": 0.00011143552311435522,
	"loss": 0.6795,
	"step": 913
	},
	{
	"epoch": 1.9989065062875888,
	"grad_norm": 0.25543129444122314,
	"learning_rate": 0.00011119221411192212,
	"loss": 0.711,
	"step": 914
	},
	{
	"epoch": 2.001093493712411,
	"grad_norm": 0.37120577692985535,
	"learning_rate": 0.00011094890510948904,
	"loss": 0.909,
	"step": 915
	},
	{
	"epoch": 2.0032804811372333,
	"grad_norm": 0.20501375198364258,
	"learning_rate": 0.00011070559610705596,
	"loss": 0.5982,
	"step": 916
	},
	{
	"epoch": 2.0054674685620557,
	"grad_norm": 0.2816307544708252,
	"learning_rate": 0.00011046228710462286,
	"loss": 0.6477,
	"step": 917
	},
	{
	"epoch": 2.007654455986878,
	"grad_norm": 0.23481379449367523,
	"learning_rate": 0.00011021897810218977,
	"loss": 0.701,
	"step": 918
	},
	{
	"epoch": 2.0098414434117005,
	"grad_norm": 0.22269988059997559,
	"learning_rate": 0.00010997566909975668,
	"loss": 0.4909,
	"step": 919
	},
	{
	"epoch": 2.012028430836523,
	"grad_norm": 0.22761498391628265,
	"learning_rate": 0.00010973236009732358,
	"loss": 0.5446,
	"step": 920
	},
	{
	"epoch": 2.014215418261345,
	"grad_norm": 0.38109347224235535,
	"learning_rate": 0.00010948905109489051,
	"loss": 0.7502,
	"step": 921
	},
	{
	"epoch": 2.016402405686167,
	"grad_norm": 0.26273003220558167,
	"learning_rate": 0.00010924574209245742,
	"loss": 0.8272,
	"step": 922
	},
	{
	"epoch": 2.0185893931109895,
	"grad_norm": 0.2501181960105896,
	"learning_rate": 0.00010900243309002432,
	"loss": 0.6668,
	"step": 923
	},
	{
	"epoch": 2.020776380535812,
	"grad_norm": 0.2221994698047638,
	"learning_rate": 0.00010875912408759123,
	"loss": 0.5899,
	"step": 924
	},
	{
	"epoch": 2.0229633679606343,
	"grad_norm": 0.26471519470214844,
	"learning_rate": 0.00010851581508515814,
	"loss": 0.491,
	"step": 925
	},
	{
	"epoch": 2.0251503553854566,
	"grad_norm": 0.29527121782302856,
	"learning_rate": 0.00010827250608272505,
	"loss": 0.6478,
	"step": 926
	},
	{
	"epoch": 2.027337342810279,
	"grad_norm": 0.2646641135215759,
	"learning_rate": 0.00010802919708029196,
	"loss": 0.6052,
	"step": 927
	},
	{
	"epoch": 2.029524330235101,
	"grad_norm": 0.2731557786464691,
	"learning_rate": 0.00010778588807785888,
	"loss": 0.7211,
	"step": 928
	},
	{
	"epoch": 2.0317113176599233,
	"grad_norm": 0.32770606875419617,
	"learning_rate": 0.00010754257907542578,
	"loss": 0.777,
	"step": 929
	},
	{
	"epoch": 2.0338983050847457,
	"grad_norm": 0.2406987100839615,
	"learning_rate": 0.00010729927007299269,
	"loss": 0.6697,
	"step": 930
	},
	{
	"epoch": 2.036085292509568,
	"grad_norm": 0.2938626706600189,
	"learning_rate": 0.00010705596107055961,
	"loss": 0.7645,
	"step": 931
	},
	{
	"epoch": 2.0382722799343904,
	"grad_norm": 0.25775012373924255,
	"learning_rate": 0.00010681265206812651,
	"loss": 0.721,
	"step": 932
	},
	{
	"epoch": 2.040459267359213,
	"grad_norm": 0.3010717034339905,
	"learning_rate": 0.00010656934306569342,
	"loss": 0.565,
	"step": 933
	},
	{
	"epoch": 2.042646254784035,
	"grad_norm": 0.27577218413352966,
	"learning_rate": 0.00010632603406326032,
	"loss": 0.5764,
	"step": 934
	},
	{
	"epoch": 2.044833242208857,
	"grad_norm": 0.3049190938472748,
	"learning_rate": 0.00010608272506082723,
	"loss": 0.8492,
	"step": 935
	},
	{
	"epoch": 2.0470202296336795,
	"grad_norm": 0.3621160686016083,
	"learning_rate": 0.00010583941605839416,
	"loss": 0.668,
	"step": 936
	},
	{
	"epoch": 2.049207217058502,
	"grad_norm": 0.28885042667388916,
	"learning_rate": 0.00010559610705596106,
	"loss": 0.6898,
	"step": 937
	},
	{
	"epoch": 2.051394204483324,
	"grad_norm": 0.38116586208343506,
	"learning_rate": 0.00010535279805352797,
	"loss": 0.8778,
	"step": 938
	},
	{
	"epoch": 2.0535811919081466,
	"grad_norm": 0.3027772903442383,
	"learning_rate": 0.00010510948905109488,
	"loss": 0.6428,
	"step": 939
	},
	{
	"epoch": 2.055768179332969,
	"grad_norm": 0.20893897116184235,
	"learning_rate": 0.00010486618004866178,
	"loss": 0.6471,
	"step": 940
	},
	{
	"epoch": 2.0579551667577913,
	"grad_norm": 0.281434565782547,
	"learning_rate": 0.0001046228710462287,
	"loss": 0.6593,
	"step": 941
	},
	{
	"epoch": 2.0601421541826133,
	"grad_norm": 0.3276302218437195,
	"learning_rate": 0.00010437956204379562,
	"loss": 0.6077,
	"step": 942
	},
	{
	"epoch": 2.0623291416074356,
	"grad_norm": 0.35327035188674927,
	"learning_rate": 0.00010413625304136252,
	"loss": 0.5687,
	"step": 943
	},
	{
	"epoch": 2.064516129032258,
	"grad_norm": 0.3210618197917938,
	"learning_rate": 0.00010389294403892943,
	"loss": 0.6685,
	"step": 944
	},
	{
	"epoch": 2.0667031164570804,
	"grad_norm": 0.25362011790275574,
	"learning_rate": 0.00010364963503649635,
	"loss": 0.5067,
	"step": 945
	},
	{
	"epoch": 2.0688901038819028,
	"grad_norm": 0.2774200439453125,
	"learning_rate": 0.00010340632603406325,
	"loss": 0.7696,
	"step": 946
	},
	{
	"epoch": 2.071077091306725,
	"grad_norm": 0.39397120475769043,
	"learning_rate": 0.00010316301703163016,
	"loss": 0.7109,
	"step": 947
	},
	{
	"epoch": 2.0732640787315475,
	"grad_norm": 0.2712627947330475,
	"learning_rate": 0.00010291970802919708,
	"loss": 0.5855,
	"step": 948
	},
	{
	"epoch": 2.0754510661563694,
	"grad_norm": 0.20961184799671173,
	"learning_rate": 0.00010267639902676397,
	"loss": 0.6223,
	"step": 949
	},
	{
	"epoch": 2.077638053581192,
	"grad_norm": 0.35785865783691406,
	"learning_rate": 0.0001024330900243309,
	"loss": 0.6426,
	"step": 950
	},
	{
	"epoch": 2.079825041006014,
	"grad_norm": 0.30317097902297974,
	"learning_rate": 0.0001021897810218978,
	"loss": 0.5881,
	"step": 951
	},
	{
	"epoch": 2.0820120284308365,
	"grad_norm": 0.2647455632686615,
	"learning_rate": 0.00010194647201946471,
	"loss": 0.4753,
	"step": 952
	},
	{
	"epoch": 2.084199015855659,
	"grad_norm": 0.2377641350030899,
	"learning_rate": 0.00010170316301703162,
	"loss": 0.7245,
	"step": 953
	},
	{
	"epoch": 2.0863860032804813,
	"grad_norm": 0.4126327633857727,
	"learning_rate": 0.00010145985401459852,
	"loss": 0.7418,
	"step": 954
	},
	{
	"epoch": 2.0885729907053037,
	"grad_norm": 0.372079998254776,
	"learning_rate": 0.00010121654501216545,
	"loss": 0.5861,
	"step": 955
	},
	{
	"epoch": 2.0907599781301256,
	"grad_norm": 0.35693153738975525,
	"learning_rate": 0.00010097323600973236,
	"loss": 0.63,
	"step": 956
	},
	{
	"epoch": 2.092946965554948,
	"grad_norm": 0.3220914304256439,
	"learning_rate": 0.00010072992700729926,
	"loss": 0.6541,
	"step": 957
	},
	{
	"epoch": 2.0951339529797703,
	"grad_norm": 0.28749874234199524,
	"learning_rate": 0.00010048661800486617,
	"loss": 0.5944,
	"step": 958
	},
	{
	"epoch": 2.0973209404045927,
	"grad_norm": 0.27125856280326843,
	"learning_rate": 0.00010024330900243309,
	"loss": 0.546,
	"step": 959
	},
	{
	"epoch": 2.099507927829415,
	"grad_norm": 0.32414090633392334,
	"learning_rate": 9.999999999999999e-05,
	"loss": 0.5295,
	"step": 960
	},
	{
	"epoch": 2.1016949152542375,
	"grad_norm": 0.37579938769340515,
	"learning_rate": 9.97566909975669e-05,
	"loss": 0.6202,
	"step": 961
	},
	{
	"epoch": 2.1038819026790594,
	"grad_norm": 0.3326401710510254,
	"learning_rate": 9.951338199513382e-05,
	"loss": 0.5674,
	"step": 962
	},
	{
	"epoch": 2.1060688901038818,
	"grad_norm": 0.2777692377567291,
	"learning_rate": 9.927007299270071e-05,
	"loss": 0.5297,
	"step": 963
	},
	{
	"epoch": 2.108255877528704,
	"grad_norm": 0.3658103942871094,
	"learning_rate": 9.902676399026764e-05,
	"loss": 0.6001,
	"step": 964
	},
	{
	"epoch": 2.1104428649535265,
	"grad_norm": 0.30180448293685913,
	"learning_rate": 9.878345498783455e-05,
	"loss": 0.627,
	"step": 965
	},
	{
	"epoch": 2.112629852378349,
	"grad_norm": 0.3160865604877472,
	"learning_rate": 9.854014598540145e-05,
	"loss": 0.6583,
	"step": 966
	},
	{
	"epoch": 2.1148168398031713,
	"grad_norm": 0.38876181840896606,
	"learning_rate": 9.829683698296836e-05,
	"loss": 0.7201,
	"step": 967
	},
	{
	"epoch": 2.1170038272279936,
	"grad_norm": 0.32533615827560425,
	"learning_rate": 9.805352798053527e-05,
	"loss": 0.5814,
	"step": 968
	},
	{
	"epoch": 2.1191908146528156,
	"grad_norm": 0.2723495662212372,
	"learning_rate": 9.781021897810217e-05,
	"loss": 0.7299,
	"step": 969
	},
	{
	"epoch": 2.121377802077638,
	"grad_norm": 0.3380286693572998,
	"learning_rate": 9.75669099756691e-05,
	"loss": 0.8313,
	"step": 970
	},
	{
	"epoch": 2.1235647895024603,
	"grad_norm": 0.3675851821899414,
	"learning_rate": 9.7323600973236e-05,
	"loss": 0.5859,
	"step": 971
	},
	{
	"epoch": 2.1257517769272827,
	"grad_norm": 0.32205119729042053,
	"learning_rate": 9.708029197080291e-05,
	"loss": 0.78,
	"step": 972
	},
	{
	"epoch": 2.127938764352105,
	"grad_norm": 0.3244129419326782,
	"learning_rate": 9.683698296836982e-05,
	"loss": 0.6777,
	"step": 973
	},
	{
	"epoch": 2.1301257517769274,
	"grad_norm": 0.3449605405330658,
	"learning_rate": 9.659367396593672e-05,
	"loss": 0.654,
	"step": 974
	},
	{
	"epoch": 2.13231273920175,
	"grad_norm": 0.3051266670227051,
	"learning_rate": 9.635036496350364e-05,
	"loss": 0.6204,
	"step": 975
	},
	{
	"epoch": 2.1344997266265717,
	"grad_norm": 0.29881876707077026,
	"learning_rate": 9.610705596107056e-05,
	"loss": 0.4543,
	"step": 976
	},
	{
	"epoch": 2.136686714051394,
	"grad_norm": 0.2953018546104431,
	"learning_rate": 9.586374695863745e-05,
	"loss": 0.7972,
	"step": 977
	},
	{
	"epoch": 2.1388737014762165,
	"grad_norm": 0.3214372992515564,
	"learning_rate": 9.562043795620437e-05,
	"loss": 0.6216,
	"step": 978
	},
	{
	"epoch": 2.141060688901039,
	"grad_norm": 0.31700441241264343,
	"learning_rate": 9.537712895377129e-05,
	"loss": 0.5708,
	"step": 979
	},
	{
	"epoch": 2.143247676325861,
	"grad_norm": 0.3516302704811096,
	"learning_rate": 9.513381995133819e-05,
	"loss": 0.7428,
	"step": 980
	},
	{
	"epoch": 2.1454346637506836,
	"grad_norm": 0.278621643781662,
	"learning_rate": 9.48905109489051e-05,
	"loss": 0.5118,
	"step": 981
	},
	{
	"epoch": 2.1476216511755055,
	"grad_norm": 0.39558589458465576,
	"learning_rate": 9.464720194647201e-05,
	"loss": 0.6228,
	"step": 982
	},
	{
	"epoch": 2.149808638600328,
	"grad_norm": 0.2623763382434845,
	"learning_rate": 9.440389294403891e-05,
	"loss": 0.5621,
	"step": 983
	},
	{
	"epoch": 2.1519956260251503,
	"grad_norm": 0.3559738099575043,
	"learning_rate": 9.416058394160584e-05,
	"loss": 0.6367,
	"step": 984
	},
	{
	"epoch": 2.1541826134499726,
	"grad_norm": 0.34260550141334534,
	"learning_rate": 9.391727493917275e-05,
	"loss": 0.6587,
	"step": 985
	},
	{
	"epoch": 2.156369600874795,
	"grad_norm": 0.3602772057056427,
	"learning_rate": 9.367396593673965e-05,
	"loss": 0.6749,
	"step": 986
	},
	{
	"epoch": 2.1585565882996174,
	"grad_norm": 0.4492672383785248,
	"learning_rate": 9.343065693430656e-05,
	"loss": 0.6159,
	"step": 987
	},
	{
	"epoch": 2.1607435757244398,
	"grad_norm": 0.30676203966140747,
	"learning_rate": 9.318734793187348e-05,
	"loss": 0.7105,
	"step": 988
	},
	{
	"epoch": 2.1629305631492617,
	"grad_norm": 0.2810410261154175,
	"learning_rate": 9.294403892944038e-05,
	"loss": 0.7091,
	"step": 989
	},
	{
	"epoch": 2.165117550574084,
	"grad_norm": 0.3161092698574066,
	"learning_rate": 9.27007299270073e-05,
	"loss": 0.6866,
	"step": 990
	},
	{
	"epoch": 2.1673045379989064,
	"grad_norm": 0.30391326546669006,
	"learning_rate": 9.24574209245742e-05,
	"loss": 0.6473,
	"step": 991
	},
	{
	"epoch": 2.169491525423729,
	"grad_norm": 0.33336496353149414,
	"learning_rate": 9.22141119221411e-05,
	"loss": 0.7565,
	"step": 992
	},
	{
	"epoch": 2.171678512848551,
	"grad_norm": 0.27083349227905273,
	"learning_rate": 9.197080291970803e-05,
	"loss": 0.602,
	"step": 993
	},
	{
	"epoch": 2.1738655002733736,
	"grad_norm": 0.3847806751728058,
	"learning_rate": 9.172749391727493e-05,
	"loss": 0.6034,
	"step": 994
	},
	{
	"epoch": 2.176052487698196,
	"grad_norm": 0.334309846162796,
	"learning_rate": 9.148418491484184e-05,
	"loss": 0.7368,
	"step": 995
	},
	{
	"epoch": 2.178239475123018,
	"grad_norm": 0.4568588435649872,
	"learning_rate": 9.124087591240875e-05,
	"loss": 0.6723,
	"step": 996
	},
	{
	"epoch": 2.1804264625478402,
	"grad_norm": 0.23190492391586304,
	"learning_rate": 9.099756690997565e-05,
	"loss": 0.5024,
	"step": 997
	},
	{
	"epoch": 2.1826134499726626,
	"grad_norm": 0.4212368130683899,
	"learning_rate": 9.075425790754258e-05,
	"loss": 0.5137,
	"step": 998
	},
	{
	"epoch": 2.184800437397485,
	"grad_norm": 0.3017450273036957,
	"learning_rate": 9.051094890510949e-05,
	"loss": 0.659,
	"step": 999
	},
	{
	"epoch": 2.1869874248223073,
	"grad_norm": 0.32203611731529236,
	"learning_rate": 9.026763990267639e-05,
	"loss": 0.6198,
	"step": 1000
	},
	{
	"epoch": 2.1891744122471297,
	"grad_norm": 0.308056503534317,
	"learning_rate": 9.00243309002433e-05,
	"loss": 0.5798,
	"step": 1001
	},
	{
	"epoch": 2.191361399671952,
	"grad_norm": 0.32163482904434204,
	"learning_rate": 8.978102189781021e-05,
	"loss": 0.4909,
	"step": 1002
	},
	{
	"epoch": 2.193548387096774,
	"grad_norm": 0.28082406520843506,
	"learning_rate": 8.953771289537712e-05,
	"loss": 0.5911,
	"step": 1003
	},
	{
	"epoch": 2.1957353745215964,
	"grad_norm": 0.3853447139263153,
	"learning_rate": 8.929440389294404e-05,
	"loss": 0.601,
	"step": 1004
	},
	{
	"epoch": 2.1979223619464188,
	"grad_norm": 0.27736788988113403,
	"learning_rate": 8.905109489051095e-05,
	"loss": 0.5391,
	"step": 1005
	},
	{
	"epoch": 2.200109349371241,
	"grad_norm": 0.3074529767036438,
	"learning_rate": 8.880778588807785e-05,
	"loss": 0.5264,
	"step": 1006
	},
	{
	"epoch": 2.2022963367960635,
	"grad_norm": 0.34355053305625916,
	"learning_rate": 8.856447688564476e-05,
	"loss": 0.5479,
	"step": 1007
	},
	{
	"epoch": 2.204483324220886,
	"grad_norm": 0.25875043869018555,
	"learning_rate": 8.832116788321167e-05,
	"loss": 0.5133,
	"step": 1008
	},
	{
	"epoch": 2.2066703116457083,
	"grad_norm": 0.4600970447063446,
	"learning_rate": 8.807785888077858e-05,
	"loss": 0.7145,
	"step": 1009
	},
	{
	"epoch": 2.20885729907053,
	"grad_norm": 0.4292985796928406,
	"learning_rate": 8.78345498783455e-05,
	"loss": 0.8484,
	"step": 1010
	},
	{
	"epoch": 2.2110442864953526,
	"grad_norm": 0.38896313309669495,
	"learning_rate": 8.759124087591239e-05,
	"loss": 0.8592,
	"step": 1011
	},
	{
	"epoch": 2.213231273920175,
	"grad_norm": 0.32829031348228455,
	"learning_rate": 8.73479318734793e-05,
	"loss": 0.711,
	"step": 1012
	},
	{
	"epoch": 2.2154182613449973,
	"grad_norm": 0.32850679755210876,
	"learning_rate": 8.710462287104623e-05,
	"loss": 0.6644,
	"step": 1013
	},
	{
	"epoch": 2.2176052487698197,
	"grad_norm": 0.3872655928134918,
	"learning_rate": 8.686131386861313e-05,
	"loss": 0.7039,
	"step": 1014
	},
	{
	"epoch": 2.219792236194642,
	"grad_norm": 0.39074549078941345,
	"learning_rate": 8.661800486618004e-05,
	"loss": 0.6316,
	"step": 1015
	},
	{
	"epoch": 2.221979223619464,
	"grad_norm": 0.33514949679374695,
	"learning_rate": 8.637469586374695e-05,
	"loss": 0.7362,
	"step": 1016
	},
	{
	"epoch": 2.2241662110442864,
	"grad_norm": 0.37822842597961426,
	"learning_rate": 8.613138686131385e-05,
	"loss": 0.8549,
	"step": 1017
	},
	{
	"epoch": 2.2263531984691087,
	"grad_norm": 0.2988075911998749,
	"learning_rate": 8.588807785888078e-05,
	"loss": 0.6768,
	"step": 1018
	},
	{
	"epoch": 2.228540185893931,
	"grad_norm": 0.3298238515853882,
	"learning_rate": 8.564476885644769e-05,
	"loss": 0.661,
	"step": 1019
	},
	{
	"epoch": 2.2307271733187535,
	"grad_norm": 0.3168882429599762,
	"learning_rate": 8.540145985401459e-05,
	"loss": 0.5899,
	"step": 1020
	},
	{
	"epoch": 2.232914160743576,
	"grad_norm": 0.32149139046669006,
	"learning_rate": 8.51581508515815e-05,
	"loss": 0.6377,
	"step": 1021
	},
	{
	"epoch": 2.235101148168398,
	"grad_norm": 0.3840494453907013,
	"learning_rate": 8.491484184914842e-05,
	"loss": 0.5914,
	"step": 1022
	},
	{
	"epoch": 2.23728813559322,
	"grad_norm": 0.36953312158584595,
	"learning_rate": 8.467153284671532e-05,
	"loss": 0.6954,
	"step": 1023
	},
	{
	"epoch": 2.2394751230180425,
	"grad_norm": 0.3132734000682831,
	"learning_rate": 8.442822384428223e-05,
	"loss": 0.6778,
	"step": 1024
	},
	{
	"epoch": 2.241662110442865,
	"grad_norm": 0.3022383153438568,
	"learning_rate": 8.418491484184915e-05,
	"loss": 0.5681,
	"step": 1025
	},
	{
	"epoch": 2.2438490978676873,
	"grad_norm": 0.33297014236450195,
	"learning_rate": 8.394160583941604e-05,
	"loss": 1.0015,
	"step": 1026
	},
	{
	"epoch": 2.2460360852925096,
	"grad_norm": 0.2536577582359314,
	"learning_rate": 8.369829683698297e-05,
	"loss": 0.6535,
	"step": 1027
	},
	{
	"epoch": 2.248223072717332,
	"grad_norm": 0.3168553113937378,
	"learning_rate": 8.345498783454987e-05,
	"loss": 0.4617,
	"step": 1028
	},
	{
	"epoch": 2.250410060142154,
	"grad_norm": 0.41692110896110535,
	"learning_rate": 8.321167883211678e-05,
	"loss": 0.6289,
	"step": 1029
	},
	{
	"epoch": 2.2525970475669763,
	"grad_norm": 0.31276077032089233,
	"learning_rate": 8.296836982968369e-05,
	"loss": 0.6558,
	"step": 1030
	},
	{
	"epoch": 2.2547840349917987,
	"grad_norm": 0.382587730884552,
	"learning_rate": 8.272506082725059e-05,
	"loss": 0.7024,
	"step": 1031
	},
	{
	"epoch": 2.256971022416621,
	"grad_norm": 0.37239089608192444,
	"learning_rate": 8.248175182481752e-05,
	"loss": 0.6428,
	"step": 1032
	},
	{
	"epoch": 2.2591580098414434,
	"grad_norm": 0.3444945216178894,
	"learning_rate": 8.223844282238443e-05,
	"loss": 0.8301,
	"step": 1033
	},
	{
	"epoch": 2.261344997266266,
	"grad_norm": 0.32943612337112427,
	"learning_rate": 8.199513381995133e-05,
	"loss": 0.8259,
	"step": 1034
	},
	{
	"epoch": 2.263531984691088,
	"grad_norm": 0.3256615996360779,
	"learning_rate": 8.175182481751824e-05,
	"loss": 0.5633,
	"step": 1035
	},
	{
	"epoch": 2.26571897211591,
	"grad_norm": 0.38470467925071716,
	"learning_rate": 8.150851581508516e-05,
	"loss": 0.8342,
	"step": 1036
	},
	{
	"epoch": 2.2679059595407325,
	"grad_norm": 0.3568199872970581,
	"learning_rate": 8.126520681265206e-05,
	"loss": 0.6949,
	"step": 1037
	},
	{
	"epoch": 2.270092946965555,
	"grad_norm": 0.4587413966655731,
	"learning_rate": 8.102189781021897e-05,
	"loss": 0.855,
	"step": 1038
	},
	{
	"epoch": 2.2722799343903772,
	"grad_norm": 0.3806265890598297,
	"learning_rate": 8.077858880778589e-05,
	"loss": 0.7383,
	"step": 1039
	},
	{
	"epoch": 2.2744669218151996,
	"grad_norm": 0.34413963556289673,
	"learning_rate": 8.053527980535278e-05,
	"loss": 0.7618,
	"step": 1040
	},
	{
	"epoch": 2.276653909240022,
	"grad_norm": 0.41507622599601746,
	"learning_rate": 8.029197080291971e-05,
	"loss": 0.6976,
	"step": 1041
	},
	{
	"epoch": 2.2788408966648444,
	"grad_norm": 0.3527161777019501,
	"learning_rate": 8.004866180048662e-05,
	"loss": 0.6337,
	"step": 1042
	},
	{
	"epoch": 2.2810278840896663,
	"grad_norm": 0.405584454536438,
	"learning_rate": 7.980535279805352e-05,
	"loss": 0.8183,
	"step": 1043
	},
	{
	"epoch": 2.2832148715144887,
	"grad_norm": 0.41590583324432373,
	"learning_rate": 7.956204379562043e-05,
	"loss": 0.8062,
	"step": 1044
	},
	{
	"epoch": 2.285401858939311,
	"grad_norm": 0.41613471508026123,
	"learning_rate": 7.931873479318733e-05,
	"loss": 0.6246,
	"step": 1045
	},
	{
	"epoch": 2.2875888463641334,
	"grad_norm": 0.44034960865974426,
	"learning_rate": 7.907542579075424e-05,
	"loss": 0.8375,
	"step": 1046
	},
	{
	"epoch": 2.2897758337889558,
	"grad_norm": 0.3828635811805725,
	"learning_rate": 7.883211678832117e-05,
	"loss": 0.8442,
	"step": 1047
	},
	{
	"epoch": 2.291962821213778,
	"grad_norm": 0.3389468491077423,
	"learning_rate": 7.858880778588807e-05,
	"loss": 0.7997,
	"step": 1048
	},
	{
	"epoch": 2.2941498086386005,
	"grad_norm": 0.33413904905319214,
	"learning_rate": 7.834549878345498e-05,
	"loss": 0.6141,
	"step": 1049
	},
	{
	"epoch": 2.2963367960634224,
	"grad_norm": 0.32505419850349426,
	"learning_rate": 7.810218978102189e-05,
	"loss": 0.5001,
	"step": 1050
	},
	{
	"epoch": 2.298523783488245,
	"grad_norm": 0.3244943618774414,
	"learning_rate": 7.785888077858879e-05,
	"loss": 0.6723,
	"step": 1051
	},
	{
	"epoch": 2.300710770913067,
	"grad_norm": 0.3737221658229828,
	"learning_rate": 7.761557177615571e-05,
	"loss": 0.7168,
	"step": 1052
	},
	{
	"epoch": 2.3028977583378896,
	"grad_norm": 0.4390661120414734,
	"learning_rate": 7.737226277372263e-05,
	"loss": 0.5277,
	"step": 1053
	},
	{
	"epoch": 2.305084745762712,
	"grad_norm": 0.42460954189300537,
	"learning_rate": 7.712895377128952e-05,
	"loss": 0.7353,
	"step": 1054
	},
	{
	"epoch": 2.3072717331875343,
	"grad_norm": 0.3381803035736084,
	"learning_rate": 7.688564476885644e-05,
	"loss": 0.6313,
	"step": 1055
	},
	{
	"epoch": 2.3094587206123567,
	"grad_norm": 0.33968648314476013,
	"learning_rate": 7.664233576642336e-05,
	"loss": 0.5752,
	"step": 1056
	},
	{
	"epoch": 2.3116457080371786,
	"grad_norm": 0.34770649671554565,
	"learning_rate": 7.639902676399026e-05,
	"loss": 0.7087,
	"step": 1057
	},
	{
	"epoch": 2.313832695462001,
	"grad_norm": 0.27934038639068604,
	"learning_rate": 7.615571776155717e-05,
	"loss": 0.5717,
	"step": 1058
	},
	{
	"epoch": 2.3160196828868234,
	"grad_norm": 0.35276851058006287,
	"learning_rate": 7.591240875912408e-05,
	"loss": 0.5339,
	"step": 1059
	},
	{
	"epoch": 2.3182066703116457,
	"grad_norm": 0.31707894802093506,
	"learning_rate": 7.566909975669098e-05,
	"loss": 0.5097,
	"step": 1060
	},
	{
	"epoch": 2.320393657736468,
	"grad_norm": 0.47757935523986816,
	"learning_rate": 7.542579075425791e-05,
	"loss": 0.7004,
	"step": 1061
	},
	{
	"epoch": 2.3225806451612905,
	"grad_norm": 0.3273807764053345,
	"learning_rate": 7.518248175182482e-05,
	"loss": 0.6859,
	"step": 1062
	},
	{
	"epoch": 2.324767632586113,
	"grad_norm": 0.30111655592918396,
	"learning_rate": 7.493917274939172e-05,
	"loss": 0.4916,
	"step": 1063
	},
	{
	"epoch": 2.326954620010935,
	"grad_norm": 0.33053281903266907,
	"learning_rate": 7.469586374695863e-05,
	"loss": 0.6866,
	"step": 1064
	},
	{
	"epoch": 2.329141607435757,
	"grad_norm": 0.34993547201156616,
	"learning_rate": 7.445255474452554e-05,
	"loss": 0.6471,
	"step": 1065
	},
	{
	"epoch": 2.3313285948605795,
	"grad_norm": 0.2865176200866699,
	"learning_rate": 7.420924574209245e-05,
	"loss": 0.4927,
	"step": 1066
	},
	{
	"epoch": 2.333515582285402,
	"grad_norm": 0.43209540843963623,
	"learning_rate": 7.396593673965937e-05,
	"loss": 0.6368,
	"step": 1067
	},
	{
	"epoch": 2.3357025697102243,
	"grad_norm": 0.3290870189666748,
	"learning_rate": 7.372262773722628e-05,
	"loss": 0.739,
	"step": 1068
	},
	{
	"epoch": 2.3378895571350466,
	"grad_norm": 0.3443828225135803,
	"learning_rate": 7.347931873479318e-05,
	"loss": 0.8401,
	"step": 1069
	},
	{
	"epoch": 2.340076544559869,
	"grad_norm": 0.32021573185920715,
	"learning_rate": 7.323600973236009e-05,
	"loss": 0.7726,
	"step": 1070
	},
	{
	"epoch": 2.342263531984691,
	"grad_norm": 0.46182501316070557,
	"learning_rate": 7.2992700729927e-05,
	"loss": 0.9029,
	"step": 1071
	},
	{
	"epoch": 2.3444505194095133,
	"grad_norm": 0.35512760281562805,
	"learning_rate": 7.274939172749391e-05,
	"loss": 0.6847,
	"step": 1072
	},
	{
	"epoch": 2.3466375068343357,
	"grad_norm": 0.380140483379364,
	"learning_rate": 7.250608272506082e-05,
	"loss": 0.7038,
	"step": 1073
	},
	{
	"epoch": 2.348824494259158,
	"grad_norm": 0.32431280612945557,
	"learning_rate": 7.226277372262774e-05,
	"loss": 0.5294,
	"step": 1074
	},
	{
	"epoch": 2.3510114816839804,
	"grad_norm": 0.2768891453742981,
	"learning_rate": 7.201946472019465e-05,
	"loss": 0.5286,
	"step": 1075
	},
	{
	"epoch": 2.353198469108803,
	"grad_norm": 0.3334331214427948,
	"learning_rate": 7.177615571776155e-05,
	"loss": 0.6415,
	"step": 1076
	},
	{
	"epoch": 2.3553854565336247,
	"grad_norm": 0.41533592343330383,
	"learning_rate": 7.153284671532846e-05,
	"loss": 0.6295,
	"step": 1077
	},
	{
	"epoch": 2.357572443958447,
	"grad_norm": 0.42005178332328796,
	"learning_rate": 7.128953771289537e-05,
	"loss": 0.8451,
	"step": 1078
	},
	{
	"epoch": 2.3597594313832695,
	"grad_norm": 0.39049747586250305,
	"learning_rate": 7.104622871046228e-05,
	"loss": 0.8351,
	"step": 1079
	},
	{
	"epoch": 2.361946418808092,
	"grad_norm": 0.33119314908981323,
	"learning_rate": 7.08029197080292e-05,
	"loss": 0.5981,
	"step": 1080
	},
	{
	"epoch": 2.3641334062329142,
	"grad_norm": 0.4426044225692749,
	"learning_rate": 7.05596107055961e-05,
	"loss": 0.671,
	"step": 1081
	},
	{
	"epoch": 2.3663203936577366,
	"grad_norm": 0.3445340096950531,
	"learning_rate": 7.0316301703163e-05,
	"loss": 0.6182,
	"step": 1082
	},
	{
	"epoch": 2.3685073810825585,
	"grad_norm": 0.35596704483032227,
	"learning_rate": 7.007299270072992e-05,
	"loss": 0.7591,
	"step": 1083
	},
	{
	"epoch": 2.370694368507381,
	"grad_norm": 0.39532068371772766,
	"learning_rate": 6.982968369829683e-05,
	"loss": 0.5479,
	"step": 1084
	},
	{
	"epoch": 2.3728813559322033,
	"grad_norm": 0.3580004572868347,
	"learning_rate": 6.958637469586374e-05,
	"loss": 0.796,
	"step": 1085
	},
	{
	"epoch": 2.3750683433570257,
	"grad_norm": 0.5314396023750305,
	"learning_rate": 6.934306569343065e-05,
	"loss": 0.5986,
	"step": 1086
	},
	{
	"epoch": 2.377255330781848,
	"grad_norm": 0.5284639596939087,
	"learning_rate": 6.909975669099755e-05,
	"loss": 0.7934,
	"step": 1087
	},
	{
	"epoch": 2.3794423182066704,
	"grad_norm": 0.38761386275291443,
	"learning_rate": 6.885644768856448e-05,
	"loss": 0.6072,
	"step": 1088
	},
	{
	"epoch": 2.3816293056314928,
	"grad_norm": 0.3381224572658539,
	"learning_rate": 6.861313868613137e-05,
	"loss": 0.6392,
	"step": 1089
	},
	{
	"epoch": 2.3838162930563147,
	"grad_norm": 0.3654699921607971,
	"learning_rate": 6.836982968369829e-05,
	"loss": 0.6068,
	"step": 1090
	},
	{
	"epoch": 2.386003280481137,
	"grad_norm": 0.343288779258728,
	"learning_rate": 6.81265206812652e-05,
	"loss": 0.868,
	"step": 1091
	},
	{
	"epoch": 2.3881902679059595,
	"grad_norm": 0.3624615967273712,
	"learning_rate": 6.788321167883211e-05,
	"loss": 0.6408,
	"step": 1092
	},
	{
	"epoch": 2.390377255330782,
	"grad_norm": 0.3863930404186249,
	"learning_rate": 6.763990267639902e-05,
	"loss": 0.5778,
	"step": 1093
	},
	{
	"epoch": 2.392564242755604,
	"grad_norm": 0.34366974234580994,
	"learning_rate": 6.739659367396593e-05,
	"loss": 0.6983,
	"step": 1094
	},
	{
	"epoch": 2.3947512301804266,
	"grad_norm": 0.34117886424064636,
	"learning_rate": 6.715328467153285e-05,
	"loss": 0.6472,
	"step": 1095
	},
	{
	"epoch": 2.396938217605249,
	"grad_norm": 0.3547564148902893,
	"learning_rate": 6.690997566909974e-05,
	"loss": 0.5363,
	"step": 1096
	},
	{
	"epoch": 2.399125205030071,
	"grad_norm": 0.31432420015335083,
	"learning_rate": 6.666666666666666e-05,
	"loss": 0.5539,
	"step": 1097
	},
	{
	"epoch": 2.4013121924548932,
	"grad_norm": 0.45095062255859375,
	"learning_rate": 6.642335766423357e-05,
	"loss": 0.6494,
	"step": 1098
	},
	{
	"epoch": 2.4034991798797156,
	"grad_norm": 1.0102994441986084,
	"learning_rate": 6.618004866180048e-05,
	"loss": 0.988,
	"step": 1099
	},
	{
	"epoch": 2.405686167304538,
	"grad_norm": 0.5170231461524963,
	"learning_rate": 6.593673965936739e-05,
	"loss": 0.8045,
	"step": 1100
	},
	{
	"epoch": 2.4078731547293604,
	"grad_norm": 0.2993682622909546,
	"learning_rate": 6.56934306569343e-05,
	"loss": 0.5887,
	"step": 1101
	},
	{
	"epoch": 2.4100601421541827,
	"grad_norm": 0.29023849964141846,
	"learning_rate": 6.545012165450122e-05,
	"loss": 0.6123,
	"step": 1102
	},
	{
	"epoch": 2.412247129579005,
	"grad_norm": 0.4196130335330963,
	"learning_rate": 6.520681265206811e-05,
	"loss": 0.6444,
	"step": 1103
	},
	{
	"epoch": 2.414434117003827,
	"grad_norm": 0.43228599429130554,
	"learning_rate": 6.496350364963504e-05,
	"loss": 0.7432,
	"step": 1104
	},
	{
	"epoch": 2.4166211044286494,
	"grad_norm": 0.3056860566139221,
	"learning_rate": 6.472019464720194e-05,
	"loss": 0.6673,
	"step": 1105
	},
	{
	"epoch": 2.418808091853472,
	"grad_norm": 0.4213399887084961,
	"learning_rate": 6.447688564476885e-05,
	"loss": 0.798,
	"step": 1106
	},
	{
	"epoch": 2.420995079278294,
	"grad_norm": 0.4033665060997009,
	"learning_rate": 6.423357664233576e-05,
	"loss": 0.7835,
	"step": 1107
	},
	{
	"epoch": 2.4231820667031165,
	"grad_norm": 0.35071858763694763,
	"learning_rate": 6.399026763990267e-05,
	"loss": 0.7173,
	"step": 1108
	},
	{
	"epoch": 2.425369054127939,
	"grad_norm": 0.36336860060691833,
	"learning_rate": 6.374695863746959e-05,
	"loss": 0.6904,
	"step": 1109
	},
	{
	"epoch": 2.4275560415527613,
	"grad_norm": 0.4012874662876129,
	"learning_rate": 6.350364963503648e-05,
	"loss": 0.6062,
	"step": 1110
	},
	{
	"epoch": 2.429743028977583,
	"grad_norm": 0.3614816665649414,
	"learning_rate": 6.326034063260341e-05,
	"loss": 0.7757,
	"step": 1111
	},
	{
	"epoch": 2.4319300164024056,
	"grad_norm": 0.34320759773254395,
	"learning_rate": 6.301703163017031e-05,
	"loss": 0.6789,
	"step": 1112
	},
	{
	"epoch": 2.434117003827228,
	"grad_norm": 0.3566221594810486,
	"learning_rate": 6.277372262773722e-05,
	"loss": 0.7995,
	"step": 1113
	},
	{
	"epoch": 2.4363039912520503,
	"grad_norm": 0.35487961769104004,
	"learning_rate": 6.253041362530413e-05,
	"loss": 0.6536,
	"step": 1114
	},
	{
	"epoch": 2.4384909786768727,
	"grad_norm": 0.3311222195625305,
	"learning_rate": 6.228710462287104e-05,
	"loss": 0.589,
	"step": 1115
	},
	{
	"epoch": 2.440677966101695,
	"grad_norm": 0.36649906635284424,
	"learning_rate": 6.204379562043796e-05,
	"loss": 0.7062,
	"step": 1116
	},
	{
	"epoch": 2.4428649535265174,
	"grad_norm": 0.36625346541404724,
	"learning_rate": 6.180048661800485e-05,
	"loss": 0.6585,
	"step": 1117
	},
	{
	"epoch": 2.4450519409513394,
	"grad_norm": 0.47065046429634094,
	"learning_rate": 6.155717761557178e-05,
	"loss": 0.8547,
	"step": 1118
	},
	{
	"epoch": 2.4472389283761617,
	"grad_norm": 0.3721199333667755,
	"learning_rate": 6.131386861313868e-05,
	"loss": 0.7003,
	"step": 1119
	},
	{
	"epoch": 2.449425915800984,
	"grad_norm": 0.3814185559749603,
	"learning_rate": 6.107055961070559e-05,
	"loss": 0.6616,
	"step": 1120
	},
	{
	"epoch": 2.4516129032258065,
	"grad_norm": 0.34303221106529236,
	"learning_rate": 6.08272506082725e-05,
	"loss": 0.7311,
	"step": 1121
	},
	{
	"epoch": 2.453799890650629,
	"grad_norm": 0.31710198521614075,
	"learning_rate": 6.0583941605839414e-05,
	"loss": 0.6767,
	"step": 1122
	},
	{
	"epoch": 2.4559868780754512,
	"grad_norm": 0.378255158662796,
	"learning_rate": 6.034063260340632e-05,
	"loss": 0.5758,
	"step": 1123
	},
	{
	"epoch": 2.4581738655002736,
	"grad_norm": 0.3049505949020386,
	"learning_rate": 6.0097323600973225e-05,
	"loss": 0.7468,
	"step": 1124
	},
	{
	"epoch": 2.4603608529250955,
	"grad_norm": 0.31383493542671204,
	"learning_rate": 5.985401459854014e-05,
	"loss": 0.5064,
	"step": 1125
	},
	{
	"epoch": 2.462547840349918,
	"grad_norm": 0.4120381474494934,
	"learning_rate": 5.961070559610705e-05,
	"loss": 0.5933,
	"step": 1126
	},
	{
	"epoch": 2.4647348277747403,
	"grad_norm": 0.41584497690200806,
	"learning_rate": 5.936739659367396e-05,
	"loss": 0.6191,
	"step": 1127
	},
	{
	"epoch": 2.4669218151995627,
	"grad_norm": 0.4834405481815338,
	"learning_rate": 5.912408759124087e-05,
	"loss": 0.6092,
	"step": 1128
	},
	{
	"epoch": 2.469108802624385,
	"grad_norm": 0.30698856711387634,
	"learning_rate": 5.8880778588807784e-05,
	"loss": 0.6318,
	"step": 1129
	},
	{
	"epoch": 2.4712957900492074,
	"grad_norm": 0.42027831077575684,
	"learning_rate": 5.863746958637469e-05,
	"loss": 0.5981,
	"step": 1130
	},
	{
	"epoch": 2.4734827774740293,
	"grad_norm": 0.46082839369773865,
	"learning_rate": 5.83941605839416e-05,
	"loss": 0.7592,
	"step": 1131
	},
	{
	"epoch": 2.4756697648988517,
	"grad_norm": 0.3530132472515106,
	"learning_rate": 5.815085158150851e-05,
	"loss": 0.6589,
	"step": 1132
	},
	{
	"epoch": 2.477856752323674,
	"grad_norm": 0.40325507521629333,
	"learning_rate": 5.790754257907542e-05,
	"loss": 0.6136,
	"step": 1133
	},
	{
	"epoch": 2.4800437397484965,
	"grad_norm": 0.5407168865203857,
	"learning_rate": 5.7664233576642324e-05,
	"loss": 0.818,
	"step": 1134
	},
	{
	"epoch": 2.482230727173319,
	"grad_norm": 0.3995073139667511,
	"learning_rate": 5.742092457420924e-05,
	"loss": 0.7405,
	"step": 1135
	},
	{
	"epoch": 2.484417714598141,
	"grad_norm": 0.327036052942276,
	"learning_rate": 5.717761557177615e-05,
	"loss": 0.5611,
	"step": 1136
	},
	{
	"epoch": 2.486604702022963,
	"grad_norm": 0.4143662750720978,
	"learning_rate": 5.693430656934306e-05,
	"loss": 0.7194,
	"step": 1137
	},
	{
	"epoch": 2.4887916894477855,
	"grad_norm": 0.37465140223503113,
	"learning_rate": 5.669099756690997e-05,
	"loss": 0.8684,
	"step": 1138
	},
	{
	"epoch": 2.490978676872608,
	"grad_norm": 0.3546184301376343,
	"learning_rate": 5.644768856447688e-05,
	"loss": 0.5464,
	"step": 1139
	},
	{
	"epoch": 2.4931656642974303,
	"grad_norm": 0.5521944165229797,
	"learning_rate": 5.620437956204379e-05,
	"loss": 0.6143,
	"step": 1140
	},
	{
	"epoch": 2.4953526517222526,
	"grad_norm": 0.3398590385913849,
	"learning_rate": 5.596107055961071e-05,
	"loss": 0.7098,
	"step": 1141
	},
	{
	"epoch": 2.497539639147075,
	"grad_norm": 0.28899359703063965,
	"learning_rate": 5.571776155717761e-05,
	"loss": 0.6263,
	"step": 1142
	},
	{
	"epoch": 2.4997266265718974,
	"grad_norm": 0.3622675836086273,
	"learning_rate": 5.547445255474452e-05,
	"loss": 0.5183,
	"step": 1143
	},
	{
	"epoch": 2.5019136139967193,
	"grad_norm": 0.3359682261943817,
	"learning_rate": 5.523114355231143e-05,
	"loss": 0.7125,
	"step": 1144
	},
	{
	"epoch": 2.5041006014215417,
	"grad_norm": 0.42786240577697754,
	"learning_rate": 5.498783454987834e-05,
	"loss": 0.6445,
	"step": 1145
	},
	{
	"epoch": 2.506287588846364,
	"grad_norm": 0.340658575296402,
	"learning_rate": 5.4744525547445253e-05,
	"loss": 0.5709,
	"step": 1146
	},
	{
	"epoch": 2.5084745762711864,
	"grad_norm": 0.3030422031879425,
	"learning_rate": 5.450121654501216e-05,
	"loss": 0.5894,
	"step": 1147
	},
	{
	"epoch": 2.510661563696009,
	"grad_norm": 0.4911826550960541,
	"learning_rate": 5.425790754257907e-05,
	"loss": 0.6198,
	"step": 1148
	},
	{
	"epoch": 2.512848551120831,
	"grad_norm": 0.3828030824661255,
	"learning_rate": 5.401459854014598e-05,
	"loss": 0.7856,
	"step": 1149
	},
	{
	"epoch": 2.5150355385456535,
	"grad_norm": 0.354000449180603,
	"learning_rate": 5.377128953771289e-05,
	"loss": 0.5489,
	"step": 1150
	},
	{
	"epoch": 2.5172225259704755,
	"grad_norm": 0.2972152829170227,
	"learning_rate": 5.3527980535279806e-05,
	"loss": 0.773,
	"step": 1151
	},
	{
	"epoch": 2.519409513395298,
	"grad_norm": 0.3820708394050598,
	"learning_rate": 5.328467153284671e-05,
	"loss": 0.6889,
	"step": 1152
	},
	{
	"epoch": 2.52159650082012,
	"grad_norm": 0.3476285934448242,
	"learning_rate": 5.304136253041362e-05,
	"loss": 0.5365,
	"step": 1153
	},
	{
	"epoch": 2.5237834882449426,
	"grad_norm": 0.36393001675605774,
	"learning_rate": 5.279805352798053e-05,
	"loss": 0.6012,
	"step": 1154
	},
	{
	"epoch": 2.525970475669765,
	"grad_norm": 0.3589417338371277,
	"learning_rate": 5.255474452554744e-05,
	"loss": 0.6502,
	"step": 1155
	},
	{
	"epoch": 2.5281574630945873,
	"grad_norm": 0.34018373489379883,
	"learning_rate": 5.231143552311435e-05,
	"loss": 0.6489,
	"step": 1156
	},
	{
	"epoch": 2.5303444505194097,
	"grad_norm": 0.40649306774139404,
	"learning_rate": 5.206812652068126e-05,
	"loss": 0.6107,
	"step": 1157
	},
	{
	"epoch": 2.5325314379442316,
	"grad_norm": 0.3748558759689331,
	"learning_rate": 5.1824817518248176e-05,
	"loss": 0.5517,
	"step": 1158
	},
	{
	"epoch": 2.534718425369054,
	"grad_norm": 0.4162946939468384,
	"learning_rate": 5.158150851581508e-05,
	"loss": 0.5658,
	"step": 1159
	},
	{
	"epoch": 2.5369054127938764,
	"grad_norm": 0.40900272130966187,
	"learning_rate": 5.133819951338199e-05,
	"loss": 0.6965,
	"step": 1160
	},
	{
	"epoch": 2.5390924002186988,
	"grad_norm": 0.4511730372905731,
	"learning_rate": 5.10948905109489e-05,
	"loss": 0.7305,
	"step": 1161
	},
	{
	"epoch": 2.541279387643521,
	"grad_norm": 0.4122026860713959,
	"learning_rate": 5.085158150851581e-05,
	"loss": 0.6032,
	"step": 1162
	},
	{
	"epoch": 2.5434663750683435,
	"grad_norm": 0.33657750487327576,
	"learning_rate": 5.060827250608272e-05,
	"loss": 0.6772,
	"step": 1163
	},
	{
	"epoch": 2.545653362493166,
	"grad_norm": 0.3611637353897095,
	"learning_rate": 5.036496350364963e-05,
	"loss": 0.7829,
	"step": 1164
	},
	{
	"epoch": 2.547840349917988,
	"grad_norm": 0.3221738040447235,
	"learning_rate": 5.0121654501216546e-05,
	"loss": 0.656,
	"step": 1165
	},
	{
	"epoch": 2.55002733734281,
	"grad_norm": 0.30915001034736633,
	"learning_rate": 4.987834549878345e-05,
	"loss": 0.55,
	"step": 1166
	},
	{
	"epoch": 2.5522143247676325,
	"grad_norm": 0.3413131535053253,
	"learning_rate": 4.963503649635036e-05,
	"loss": 0.7515,
	"step": 1167
	},
	{
	"epoch": 2.554401312192455,
	"grad_norm": 0.4244505763053894,
	"learning_rate": 4.9391727493917275e-05,
	"loss": 0.7202,
	"step": 1168
	},
	{
	"epoch": 2.5565882996172773,
	"grad_norm": 0.2993778586387634,
	"learning_rate": 4.914841849148418e-05,
	"loss": 0.4497,
	"step": 1169
	},
	{
	"epoch": 2.5587752870420997,
	"grad_norm": 0.43434271216392517,
	"learning_rate": 4.8905109489051086e-05,
	"loss": 0.591,
	"step": 1170
	},
	{
	"epoch": 2.560962274466922,
	"grad_norm": 0.35246193408966064,
	"learning_rate": 4.8661800486618e-05,
	"loss": 0.537,
	"step": 1171
	},
	{
	"epoch": 2.563149261891744,
	"grad_norm": 0.37283191084861755,
	"learning_rate": 4.841849148418491e-05,
	"loss": 0.5856,
	"step": 1172
	},
	{
	"epoch": 2.5653362493165663,
	"grad_norm": 0.39839670062065125,
	"learning_rate": 4.817518248175182e-05,
	"loss": 0.4996,
	"step": 1173
	},
	{
	"epoch": 2.5675232367413887,
	"grad_norm": 0.4315820634365082,
	"learning_rate": 4.793187347931873e-05,
	"loss": 0.7119,
	"step": 1174
	},
	{
	"epoch": 2.569710224166211,
	"grad_norm": 0.4408882260322571,
	"learning_rate": 4.7688564476885646e-05,
	"loss": 0.7059,
	"step": 1175
	},
	{
	"epoch": 2.5718972115910335,
	"grad_norm": 0.4746418595314026,
	"learning_rate": 4.744525547445255e-05,
	"loss": 0.6944,
	"step": 1176
	},
	{
	"epoch": 2.5740841990158554,
	"grad_norm": 0.31449419260025024,
	"learning_rate": 4.7201946472019456e-05,
	"loss": 0.7469,
	"step": 1177
	},
	{
	"epoch": 2.576271186440678,
	"grad_norm": 0.4608743190765381,
	"learning_rate": 4.6958637469586375e-05,
	"loss": 0.4727,
	"step": 1178
	},
	{
	"epoch": 2.5784581738655,
	"grad_norm": 0.3578025996685028,
	"learning_rate": 4.671532846715328e-05,
	"loss": 0.8796,
	"step": 1179
	},
	{
	"epoch": 2.5806451612903225,
	"grad_norm": 0.3281157612800598,
	"learning_rate": 4.647201946472019e-05,
	"loss": 0.5228,
	"step": 1180
	},
	{
	"epoch": 2.582832148715145,
	"grad_norm": 0.34412261843681335,
	"learning_rate": 4.62287104622871e-05,
	"loss": 0.6171,
	"step": 1181
	},
	{
	"epoch": 2.5850191361399673,
	"grad_norm": 0.32819414138793945,
	"learning_rate": 4.5985401459854016e-05,
	"loss": 0.6381,
	"step": 1182
	},
	{
	"epoch": 2.5872061235647896,
	"grad_norm": 0.42394185066223145,
	"learning_rate": 4.574209245742092e-05,
	"loss": 0.6248,
	"step": 1183
	},
	{
	"epoch": 2.5893931109896116,
	"grad_norm": 0.3938983082771301,
	"learning_rate": 4.5498783454987826e-05,
	"loss": 0.688,
	"step": 1184
	},
	{
	"epoch": 2.5915800984144344,
	"grad_norm": 0.35975101590156555,
	"learning_rate": 4.5255474452554745e-05,
	"loss": 0.6196,
	"step": 1185
	},
	{
	"epoch": 2.5937670858392563,
	"grad_norm": 0.5351125597953796,
	"learning_rate": 4.501216545012165e-05,
	"loss": 0.6542,
	"step": 1186
	},
	{
	"epoch": 2.5959540732640787,
	"grad_norm": 0.31686198711395264,
	"learning_rate": 4.476885644768856e-05,
	"loss": 0.7063,
	"step": 1187
	},
	{
	"epoch": 2.598141060688901,
	"grad_norm": 0.2979380786418915,
	"learning_rate": 4.4525547445255474e-05,
	"loss": 0.5374,
	"step": 1188
	},
	{
	"epoch": 2.6003280481137234,
	"grad_norm": 0.3495193123817444,
	"learning_rate": 4.428223844282238e-05,
	"loss": 0.6217,
	"step": 1189
	},
	{
	"epoch": 2.602515035538546,
	"grad_norm": 0.3886531591415405,
	"learning_rate": 4.403892944038929e-05,
	"loss": 0.5628,
	"step": 1190
	},
	{
	"epoch": 2.6047020229633677,
	"grad_norm": 0.3585399091243744,
	"learning_rate": 4.3795620437956196e-05,
	"loss": 0.6921,
	"step": 1191
	},
	{
	"epoch": 2.6068890103881905,
	"grad_norm": 0.3813333809375763,
	"learning_rate": 4.3552311435523115e-05,
	"loss": 0.6603,
	"step": 1192
	},
	{
	"epoch": 2.6090759978130125,
	"grad_norm": 0.4587854743003845,
	"learning_rate": 4.330900243309002e-05,
	"loss": 0.7274,
	"step": 1193
	},
	{
	"epoch": 2.611262985237835,
	"grad_norm": 0.4350600242614746,
	"learning_rate": 4.3065693430656925e-05,
	"loss": 0.6628,
	"step": 1194
	},
	{
	"epoch": 2.613449972662657,
	"grad_norm": 0.3220929205417633,
	"learning_rate": 4.2822384428223844e-05,
	"loss": 0.6057,
	"step": 1195
	},
	{
	"epoch": 2.6156369600874796,
	"grad_norm": 0.54576575756073,
	"learning_rate": 4.257907542579075e-05,
	"loss": 0.693,
	"step": 1196
	},
	{
	"epoch": 2.617823947512302,
	"grad_norm": 0.393766850233078,
	"learning_rate": 4.233576642335766e-05,
	"loss": 0.6226,
	"step": 1197
	},
	{
	"epoch": 2.620010934937124,
	"grad_norm": 0.3243195116519928,
	"learning_rate": 4.209245742092457e-05,
	"loss": 0.7465,
	"step": 1198
	},
	{
	"epoch": 2.6221979223619463,
	"grad_norm": 0.3847908079624176,
	"learning_rate": 4.1849148418491485e-05,
	"loss": 0.4963,
	"step": 1199
	},
	{
	"epoch": 2.6243849097867686,
	"grad_norm": 0.40093564987182617,
	"learning_rate": 4.160583941605839e-05,
	"loss": 0.7138,
	"step": 1200
	},
	{
	"epoch": 2.626571897211591,
	"grad_norm": 0.4176326096057892,
	"learning_rate": 4.1362530413625295e-05,
	"loss": 0.4808,
	"step": 1201
	},
	{
	"epoch": 2.6287588846364134,
	"grad_norm": 0.3477429151535034,
	"learning_rate": 4.1119221411192214e-05,
	"loss": 0.6285,
	"step": 1202
	},
	{
	"epoch": 2.6309458720612358,
	"grad_norm": 0.4201376736164093,
	"learning_rate": 4.087591240875912e-05,
	"loss": 1.0551,
	"step": 1203
	},
	{
	"epoch": 2.633132859486058,
	"grad_norm": 0.4241773188114166,
	"learning_rate": 4.063260340632603e-05,
	"loss": 0.6991,
	"step": 1204
	},
	{
	"epoch": 2.63531984691088,
	"grad_norm": 0.5858724117279053,
	"learning_rate": 4.038929440389294e-05,
	"loss": 0.6912,
	"step": 1205
	},
	{
	"epoch": 2.6375068343357024,
	"grad_norm": 0.3396605849266052,
	"learning_rate": 4.0145985401459855e-05,
	"loss": 0.5062,
	"step": 1206
	},
	{
	"epoch": 2.639693821760525,
	"grad_norm": 0.3286657929420471,
	"learning_rate": 3.990267639902676e-05,
	"loss": 0.678,
	"step": 1207
	},
	{
	"epoch": 2.641880809185347,
	"grad_norm": 0.3253632187843323,
	"learning_rate": 3.9659367396593665e-05,
	"loss": 0.5769,
	"step": 1208
	},
	{
	"epoch": 2.6440677966101696,
	"grad_norm": 0.39935943484306335,
	"learning_rate": 3.9416058394160584e-05,
	"loss": 0.6078,
	"step": 1209
	},
	{
	"epoch": 2.646254784034992,
	"grad_norm": 0.38090863823890686,
	"learning_rate": 3.917274939172749e-05,
	"loss": 0.6195,
	"step": 1210
	},
	{
	"epoch": 2.6484417714598143,
	"grad_norm": 0.3816772401332855,
	"learning_rate": 3.8929440389294394e-05,
	"loss": 0.6636,
	"step": 1211
	},
	{
	"epoch": 2.6506287588846362,
	"grad_norm": 0.354041188955307,
	"learning_rate": 3.868613138686131e-05,
	"loss": 0.6017,
	"step": 1212
	},
	{
	"epoch": 2.6528157463094586,
	"grad_norm": 0.38338416814804077,
	"learning_rate": 3.844282238442822e-05,
	"loss": 0.5642,
	"step": 1213
	},
	{
	"epoch": 2.655002733734281,
	"grad_norm": 0.4089908003807068,
	"learning_rate": 3.819951338199513e-05,
	"loss": 0.7222,
	"step": 1214
	},
	{
	"epoch": 2.6571897211591033,
	"grad_norm": 0.44963401556015015,
	"learning_rate": 3.795620437956204e-05,
	"loss": 0.613,
	"step": 1215
	},
	{
	"epoch": 2.6593767085839257,
	"grad_norm": 0.2840285003185272,
	"learning_rate": 3.7712895377128954e-05,
	"loss": 0.6435,
	"step": 1216
	},
	{
	"epoch": 2.661563696008748,
	"grad_norm": 0.39185985922813416,
	"learning_rate": 3.746958637469586e-05,
	"loss": 0.7633,
	"step": 1217
	},
	{
	"epoch": 2.6637506834335705,
	"grad_norm": 0.3823552131652832,
	"learning_rate": 3.722627737226277e-05,
	"loss": 0.6632,
	"step": 1218
	},
	{
	"epoch": 2.6659376708583924,
	"grad_norm": 0.4937818646430969,
	"learning_rate": 3.698296836982968e-05,
	"loss": 0.8944,
	"step": 1219
	},
	{
	"epoch": 2.6681246582832148,
	"grad_norm": 0.38062620162963867,
	"learning_rate": 3.673965936739659e-05,
	"loss": 0.7507,
	"step": 1220
	},
	{
	"epoch": 2.670311645708037,
	"grad_norm": 0.34089863300323486,
	"learning_rate": 3.64963503649635e-05,
	"loss": 0.6276,
	"step": 1221
	},
	{
	"epoch": 2.6724986331328595,
	"grad_norm": 0.45665138959884644,
	"learning_rate": 3.625304136253041e-05,
	"loss": 0.6801,
	"step": 1222
	},
	{
	"epoch": 2.674685620557682,
	"grad_norm": 0.5102551579475403,
	"learning_rate": 3.6009732360097324e-05,
	"loss": 0.5385,
	"step": 1223
	},
	{
	"epoch": 2.6768726079825043,
	"grad_norm": 0.4079155921936035,
	"learning_rate": 3.576642335766423e-05,
	"loss": 0.7165,
	"step": 1224
	},
	{
	"epoch": 2.6790595954073266,
	"grad_norm": 0.3809445798397064,
	"learning_rate": 3.552311435523114e-05,
	"loss": 0.6695,
	"step": 1225
	},
	{
	"epoch": 2.6812465828321486,
	"grad_norm": 0.44514816999435425,
	"learning_rate": 3.527980535279805e-05,
	"loss": 0.732,
	"step": 1226
	},
	{
	"epoch": 2.683433570256971,
	"grad_norm": 0.40891462564468384,
	"learning_rate": 3.503649635036496e-05,
	"loss": 0.9004,
	"step": 1227
	},
	{
	"epoch": 2.6856205576817933,
	"grad_norm": 0.44487065076828003,
	"learning_rate": 3.479318734793187e-05,
	"loss": 0.4452,
	"step": 1228
	},
	{
	"epoch": 2.6878075451066157,
	"grad_norm": 0.27980828285217285,
	"learning_rate": 3.4549878345498775e-05,
	"loss": 0.6259,
	"step": 1229
	},
	{
	"epoch": 2.689994532531438,
	"grad_norm": 0.37272408604621887,
	"learning_rate": 3.430656934306569e-05,
	"loss": 0.7493,
	"step": 1230
	},
	{
	"epoch": 2.69218151995626,
	"grad_norm": 0.4146464169025421,
	"learning_rate": 3.40632603406326e-05,
	"loss": 0.5103,
	"step": 1231
	},
	{
	"epoch": 2.694368507381083,
	"grad_norm": 0.350233793258667,
	"learning_rate": 3.381995133819951e-05,
	"loss": 0.6766,
	"step": 1232
	},
	{
	"epoch": 2.6965554948059047,
	"grad_norm": 0.49093326926231384,
	"learning_rate": 3.357664233576642e-05,
	"loss": 0.6934,
	"step": 1233
	},
	{
	"epoch": 2.698742482230727,
	"grad_norm": 0.4598555266857147,
	"learning_rate": 3.333333333333333e-05,
	"loss": 0.6618,
	"step": 1234
	},
	{
	"epoch": 2.7009294696555495,
	"grad_norm": 0.4397393465042114,
	"learning_rate": 3.309002433090024e-05,
	"loss": 0.5864,
	"step": 1235
	},
	{
	"epoch": 2.703116457080372,
	"grad_norm": 0.43458834290504456,
	"learning_rate": 3.284671532846715e-05,
	"loss": 0.6955,
	"step": 1236
	},
	{
	"epoch": 2.705303444505194,
	"grad_norm": 0.3657298684120178,
	"learning_rate": 3.260340632603406e-05,
	"loss": 0.651,
	"step": 1237
	},
	{
	"epoch": 2.707490431930016,
	"grad_norm": 0.4210680425167084,
	"learning_rate": 3.236009732360097e-05,
	"loss": 0.5718,
	"step": 1238
	},
	{
	"epoch": 2.709677419354839,
	"grad_norm": 0.3858646750450134,
	"learning_rate": 3.211678832116788e-05,
	"loss": 0.6649,
	"step": 1239
	},
	{
	"epoch": 2.711864406779661,
	"grad_norm": 0.4130675494670868,
	"learning_rate": 3.187347931873479e-05,
	"loss": 0.6539,
	"step": 1240
	},
	{
	"epoch": 2.7140513942044833,
	"grad_norm": 0.246662899851799,
	"learning_rate": 3.1630170316301705e-05,
	"loss": 0.5551,
	"step": 1241
	},
	{
	"epoch": 2.7162383816293056,
	"grad_norm": 0.3459307551383972,
	"learning_rate": 3.138686131386861e-05,
	"loss": 0.4788,
	"step": 1242
	},
	{
	"epoch": 2.718425369054128,
	"grad_norm": 0.4324615001678467,
	"learning_rate": 3.114355231143552e-05,
	"loss": 0.7828,
	"step": 1243
	},
	{
	"epoch": 2.7206123564789504,
	"grad_norm": 0.5233476758003235,
	"learning_rate": 3.090024330900243e-05,
	"loss": 0.4262,
	"step": 1244
	},
	{
	"epoch": 2.7227993439037723,
	"grad_norm": 0.35397472977638245,
	"learning_rate": 3.065693430656934e-05,
	"loss": 0.688,
	"step": 1245
	},
	{
	"epoch": 2.724986331328595,
	"grad_norm": 0.37005069851875305,
	"learning_rate": 3.041362530413625e-05,
	"loss": 0.6592,
	"step": 1246
	},
	{
	"epoch": 2.727173318753417,
	"grad_norm": 0.4533984661102295,
	"learning_rate": 3.017031630170316e-05,
	"loss": 0.6367,
	"step": 1247
	},
	{
	"epoch": 2.7293603061782394,
	"grad_norm": 0.32724103331565857,
	"learning_rate": 2.992700729927007e-05,
	"loss": 0.5874,
	"step": 1248
	},
	{
	"epoch": 2.731547293603062,
	"grad_norm": 0.3568969666957855,
	"learning_rate": 2.968369829683698e-05,
	"loss": 0.8173,
	"step": 1249
	},
	{
	"epoch": 2.733734281027884,
	"grad_norm": 0.3268612325191498,
	"learning_rate": 2.9440389294403892e-05,
	"loss": 0.4827,
	"step": 1250
	},
	{
	"epoch": 2.7359212684527066,
	"grad_norm": 0.30471158027648926,
	"learning_rate": 2.91970802919708e-05,
	"loss": 0.7108,
	"step": 1251
	},
	{
	"epoch": 2.7381082558775285,
	"grad_norm": 0.3290720582008362,
	"learning_rate": 2.895377128953771e-05,
	"loss": 0.639,
	"step": 1252
	},
	{
	"epoch": 2.740295243302351,
	"grad_norm": 0.35110557079315186,
	"learning_rate": 2.871046228710462e-05,
	"loss": 0.5367,
	"step": 1253
	},
	{
	"epoch": 2.7424822307271732,
	"grad_norm": 0.26838091015815735,
	"learning_rate": 2.846715328467153e-05,
	"loss": 0.801,
	"step": 1254
	},
	{
	"epoch": 2.7446692181519956,
	"grad_norm": 0.3596297800540924,
	"learning_rate": 2.822384428223844e-05,
	"loss": 0.6018,
	"step": 1255
	},
	{
	"epoch": 2.746856205576818,
	"grad_norm": 0.4146590530872345,
	"learning_rate": 2.7980535279805354e-05,
	"loss": 0.7548,
	"step": 1256
	},
	{
	"epoch": 2.7490431930016404,
	"grad_norm": 0.5210931897163391,
	"learning_rate": 2.773722627737226e-05,
	"loss": 0.6514,
	"step": 1257
	},
	{
	"epoch": 2.7512301804264627,
	"grad_norm": 0.37990838289260864,
	"learning_rate": 2.749391727493917e-05,
	"loss": 0.6275,
	"step": 1258
	},
	{
	"epoch": 2.7534171678512847,
	"grad_norm": 0.41597574949264526,
	"learning_rate": 2.725060827250608e-05,
	"loss": 0.7675,
	"step": 1259
	},
	{
	"epoch": 2.755604155276107,
	"grad_norm": 0.4515291452407837,
	"learning_rate": 2.700729927007299e-05,
	"loss": 0.6756,
	"step": 1260
	},
	{
	"epoch": 2.7577911427009294,
	"grad_norm": 0.418295294046402,
	"learning_rate": 2.6763990267639903e-05,
	"loss": 0.6417,
	"step": 1261
	},
	{
	"epoch": 2.7599781301257518,
	"grad_norm": 0.34704264998435974,
	"learning_rate": 2.652068126520681e-05,
	"loss": 0.8996,
	"step": 1262
	},
	{
	"epoch": 2.762165117550574,
	"grad_norm": 0.3458947241306305,
	"learning_rate": 2.627737226277372e-05,
	"loss": 0.8436,
	"step": 1263
	},
	{
	"epoch": 2.7643521049753965,
	"grad_norm": 0.39911675453186035,
	"learning_rate": 2.603406326034063e-05,
	"loss": 0.5799,
	"step": 1264
	},
	{
	"epoch": 2.766539092400219,
	"grad_norm": 0.2880173623561859,
	"learning_rate": 2.579075425790754e-05,
	"loss": 0.5253,
	"step": 1265
	},
	{
	"epoch": 2.768726079825041,
	"grad_norm": 0.35598114132881165,
	"learning_rate": 2.554744525547445e-05,
	"loss": 0.6593,
	"step": 1266
	},
	{
	"epoch": 2.770913067249863,
	"grad_norm": 0.34010377526283264,
	"learning_rate": 2.530413625304136e-05,
	"loss": 0.6076,
	"step": 1267
	},
	{
	"epoch": 2.7731000546746856,
	"grad_norm": 0.37857237458229065,
	"learning_rate": 2.5060827250608273e-05,
	"loss": 0.7757,
	"step": 1268
	},
	{
	"epoch": 2.775287042099508,
	"grad_norm": 0.6945297718048096,
	"learning_rate": 2.481751824817518e-05,
	"loss": 0.7243,
	"step": 1269
	},
	{
	"epoch": 2.7774740295243303,
	"grad_norm": 0.3066571354866028,
	"learning_rate": 2.457420924574209e-05,
	"loss": 0.6558,
	"step": 1270
	},
	{
	"epoch": 2.7796610169491527,
	"grad_norm": 0.42167848348617554,
	"learning_rate": 2.4330900243309e-05,
	"loss": 0.6929,
	"step": 1271
	},
	{
	"epoch": 2.781848004373975,
	"grad_norm": 0.4334861934185028,
	"learning_rate": 2.408759124087591e-05,
	"loss": 0.6516,
	"step": 1272
	},
	{
	"epoch": 2.784034991798797,
	"grad_norm": 0.39597228169441223,
	"learning_rate": 2.3844282238442823e-05,
	"loss": 0.688,
	"step": 1273
	},
	{
	"epoch": 2.7862219792236194,
	"grad_norm": 0.36653244495391846,
	"learning_rate": 2.3600973236009728e-05,
	"loss": 0.7899,
	"step": 1274
	},
	{
	"epoch": 2.7884089666484417,
	"grad_norm": 0.4496842622756958,
	"learning_rate": 2.335766423357664e-05,
	"loss": 0.7682,
	"step": 1275
	},
	{
	"epoch": 2.790595954073264,
	"grad_norm": 0.5105994343757629,
	"learning_rate": 2.311435523114355e-05,
	"loss": 0.6332,
	"step": 1276
	},
	{
	"epoch": 2.7927829414980865,
	"grad_norm": 0.30159294605255127,
	"learning_rate": 2.287104622871046e-05,
	"loss": 0.6215,
	"step": 1277
	},
	{
	"epoch": 2.794969928922909,
	"grad_norm": 0.44565349817276,
	"learning_rate": 2.2627737226277372e-05,
	"loss": 0.8171,
	"step": 1278
	},
	{
	"epoch": 2.7971569163477312,
	"grad_norm": 0.48561230301856995,
	"learning_rate": 2.238442822384428e-05,
	"loss": 0.7251,
	"step": 1279
	},
	{
	"epoch": 2.799343903772553,
	"grad_norm": 0.4640182554721832,
	"learning_rate": 2.214111922141119e-05,
	"loss": 0.8137,
	"step": 1280
	},
	{
	"epoch": 2.8015308911973755,
	"grad_norm": 0.34384575486183167,
	"learning_rate": 2.1897810218978098e-05,
	"loss": 0.7161,
	"step": 1281
	},
	{
	"epoch": 2.803717878622198,
	"grad_norm": 0.3967885971069336,
	"learning_rate": 2.165450121654501e-05,
	"loss": 0.6331,
	"step": 1282
	},
	{
	"epoch": 2.8059048660470203,
	"grad_norm": 0.4139404892921448,
	"learning_rate": 2.1411192214111922e-05,
	"loss": 0.7716,
	"step": 1283
	},
	{
	"epoch": 2.8080918534718426,
	"grad_norm": 0.5906177163124084,
	"learning_rate": 2.116788321167883e-05,
	"loss": 0.8308,
	"step": 1284
	},
	{
	"epoch": 2.8102788408966646,
	"grad_norm": 0.3923112452030182,
	"learning_rate": 2.0924574209245742e-05,
	"loss": 0.5808,
	"step": 1285
	},
	{
	"epoch": 2.8124658283214874,
	"grad_norm": 0.376613050699234,
	"learning_rate": 2.0681265206812648e-05,
	"loss": 0.4945,
	"step": 1286
	},
	{
	"epoch": 2.8146528157463093,
	"grad_norm": 0.39711064100265503,
	"learning_rate": 2.043795620437956e-05,
	"loss": 0.9447,
	"step": 1287
	},
	{
	"epoch": 2.8168398031711317,
	"grad_norm": 0.49172040820121765,
	"learning_rate": 2.019464720194647e-05,
	"loss": 0.5981,
	"step": 1288
	},
	{
	"epoch": 2.819026790595954,
	"grad_norm": 0.3777097165584564,
	"learning_rate": 1.995133819951338e-05,
	"loss": 0.5527,
	"step": 1289
	},
	{
	"epoch": 2.8212137780207764,
	"grad_norm": 0.3420855700969696,
	"learning_rate": 1.9708029197080292e-05,
	"loss": 0.591,
	"step": 1290
	},
	{
	"epoch": 2.823400765445599,
	"grad_norm": 0.3033166825771332,
	"learning_rate": 1.9464720194647197e-05,
	"loss": 0.4902,
	"step": 1291
	},
	{
	"epoch": 2.8255877528704207,
	"grad_norm": 0.3743399679660797,
	"learning_rate": 1.922141119221411e-05,
	"loss": 0.72,
	"step": 1292
	},
	{
	"epoch": 2.8277747402952436,
	"grad_norm": 0.43312016129493713,
	"learning_rate": 1.897810218978102e-05,
	"loss": 0.5847,
	"step": 1293
	},
	{
	"epoch": 2.8299617277200655,
	"grad_norm": 0.4334290623664856,
	"learning_rate": 1.873479318734793e-05,
	"loss": 0.737,
	"step": 1294
	},
	{
	"epoch": 2.832148715144888,
	"grad_norm": 0.3262549340724945,
	"learning_rate": 1.849148418491484e-05,
	"loss": 0.6188,
	"step": 1295
	},
	{
	"epoch": 2.8343357025697102,
	"grad_norm": 0.3808232247829437,
	"learning_rate": 1.824817518248175e-05,
	"loss": 0.8153,
	"step": 1296
	},
	{
	"epoch": 2.8365226899945326,
	"grad_norm": 0.35475462675094604,
	"learning_rate": 1.8004866180048662e-05,
	"loss": 0.5671,
	"step": 1297
	},
	{
	"epoch": 2.838709677419355,
	"grad_norm": 0.38812217116355896,
	"learning_rate": 1.776155717761557e-05,
	"loss": 0.6323,
	"step": 1298
	},
	{
	"epoch": 2.840896664844177,
	"grad_norm": 0.3561973571777344,
	"learning_rate": 1.751824817518248e-05,
	"loss": 0.6919,
	"step": 1299
	},
	{
	"epoch": 2.8430836522689997,
	"grad_norm": 0.31703197956085205,
	"learning_rate": 1.7274939172749388e-05,
	"loss": 0.6856,
	"step": 1300
	},
	{
	"epoch": 2.8452706396938217,
	"grad_norm": 0.41529974341392517,
	"learning_rate": 1.70316301703163e-05,
	"loss": 0.7612,
	"step": 1301
	},
	{
	"epoch": 2.847457627118644,
	"grad_norm": 0.42857563495635986,
	"learning_rate": 1.678832116788321e-05,
	"loss": 0.8243,
	"step": 1302
	},
	{
	"epoch": 2.8496446145434664,
	"grad_norm": 0.4402436912059784,
	"learning_rate": 1.654501216545012e-05,
	"loss": 0.6149,
	"step": 1303
	},
	{
	"epoch": 2.8518316019682888,
	"grad_norm": 0.5396206378936768,
	"learning_rate": 1.630170316301703e-05,
	"loss": 0.623,
	"step": 1304
	},
	{
	"epoch": 2.854018589393111,
	"grad_norm": 0.3337330222129822,
	"learning_rate": 1.605839416058394e-05,
	"loss": 0.6207,
	"step": 1305
	},
	{
	"epoch": 2.856205576817933,
	"grad_norm": 0.47766539454460144,
	"learning_rate": 1.5815085158150852e-05,
	"loss": 0.7012,
	"step": 1306
	},
	{
	"epoch": 2.8583925642427555,
	"grad_norm": 0.3661979138851166,
	"learning_rate": 1.557177615571776e-05,
	"loss": 0.6951,
	"step": 1307
	},
	{
	"epoch": 2.860579551667578,
	"grad_norm": 0.32364702224731445,
	"learning_rate": 1.532846715328467e-05,
	"loss": 0.5451,
	"step": 1308
	},
	{
	"epoch": 2.8627665390924,
	"grad_norm": 0.4927031695842743,
	"learning_rate": 1.508515815085158e-05,
	"loss": 0.6483,
	"step": 1309
	},
	{
	"epoch": 2.8649535265172226,
	"grad_norm": 0.3563484847545624,
	"learning_rate": 1.484184914841849e-05,
	"loss": 0.6751,
	"step": 1310
	},
	{
	"epoch": 2.867140513942045,
	"grad_norm": 0.3271696865558624,
	"learning_rate": 1.45985401459854e-05,
	"loss": 0.5288,
	"step": 1311
	},
	{
	"epoch": 2.8693275013668673,
	"grad_norm": 0.3783499300479889,
	"learning_rate": 1.435523114355231e-05,
	"loss": 0.7292,
	"step": 1312
	},
	{
	"epoch": 2.8715144887916892,
	"grad_norm": 0.39892178773880005,
	"learning_rate": 1.411192214111922e-05,
	"loss": 0.7258,
	"step": 1313
	},
	{
	"epoch": 2.8737014762165116,
	"grad_norm": 0.27586114406585693,
	"learning_rate": 1.386861313868613e-05,
	"loss": 0.4122,
	"step": 1314
	},
	{
	"epoch": 2.875888463641334,
	"grad_norm": 0.4590570330619812,
	"learning_rate": 1.362530413625304e-05,
	"loss": 0.7205,
	"step": 1315
	},
	{
	"epoch": 2.8780754510661564,
	"grad_norm": 0.34512102603912354,
	"learning_rate": 1.3381995133819952e-05,
	"loss": 0.7402,
	"step": 1316
	},
	{
	"epoch": 2.8802624384909787,
	"grad_norm": 0.4092288613319397,
	"learning_rate": 1.313868613138686e-05,
	"loss": 0.7668,
	"step": 1317
	},
	{
	"epoch": 2.882449425915801,
	"grad_norm": 0.4686785638332367,
	"learning_rate": 1.289537712895377e-05,
	"loss": 0.5874,
	"step": 1318
	},
	{
	"epoch": 2.8846364133406235,
	"grad_norm": 0.341987669467926,
	"learning_rate": 1.265206812652068e-05,
	"loss": 0.7645,
	"step": 1319
	},
	{
	"epoch": 2.8868234007654454,
	"grad_norm": 0.6410381197929382,
	"learning_rate": 1.240875912408759e-05,
	"loss": 0.7446,
	"step": 1320
	},
	{
	"epoch": 2.889010388190268,
	"grad_norm": 0.4242047965526581,
	"learning_rate": 1.21654501216545e-05,
	"loss": 0.5989,
	"step": 1321
	},
	{
	"epoch": 2.89119737561509,
	"grad_norm": 0.3659310042858124,
	"learning_rate": 1.1922141119221411e-05,
	"loss": 0.6532,
	"step": 1322
	},
	{
	"epoch": 2.8933843630399125,
	"grad_norm": 0.40684065222740173,
	"learning_rate": 1.167883211678832e-05,
	"loss": 0.657,
	"step": 1323
	},
	{
	"epoch": 2.895571350464735,
	"grad_norm": 0.47506752610206604,
	"learning_rate": 1.143552311435523e-05,
	"loss": 0.4426,
	"step": 1324
	},
	{
	"epoch": 2.8977583378895573,
	"grad_norm": 0.3505801260471344,
	"learning_rate": 1.119221411192214e-05,
	"loss": 0.724,
	"step": 1325
	},
	{
	"epoch": 2.8999453253143797,
	"grad_norm": 0.4182322025299072,
	"learning_rate": 1.0948905109489049e-05,
	"loss": 0.6425,
	"step": 1326
	},
	{
	"epoch": 2.9021323127392016,
	"grad_norm": 0.5423049330711365,
	"learning_rate": 1.0705596107055961e-05,
	"loss": 0.6135,
	"step": 1327
	},
	{
	"epoch": 2.904319300164024,
	"grad_norm": 0.47435280680656433,
	"learning_rate": 1.0462287104622871e-05,
	"loss": 0.6161,
	"step": 1328
	},
	{
	"epoch": 2.9065062875888463,
	"grad_norm": 0.30286717414855957,
	"learning_rate": 1.021897810218978e-05,
	"loss": 0.5494,
	"step": 1329
	},
	{
	"epoch": 2.9086932750136687,
	"grad_norm": 0.34891781210899353,
	"learning_rate": 9.97566909975669e-06,
	"loss": 0.8073,
	"step": 1330
	},
	{
	"epoch": 2.910880262438491,
	"grad_norm": 0.3608086109161377,
	"learning_rate": 9.732360097323599e-06,
	"loss": 0.6207,
	"step": 1331
	},
	{
	"epoch": 2.9130672498633134,
	"grad_norm": 0.2914386987686157,
	"learning_rate": 9.48905109489051e-06,
	"loss": 0.6153,
	"step": 1332
	},
	{
	"epoch": 2.915254237288136,
	"grad_norm": 0.4532075822353363,
	"learning_rate": 9.24574209245742e-06,
	"loss": 0.8057,
	"step": 1333
	},
	{
	"epoch": 2.9174412247129577,
	"grad_norm": 0.47955191135406494,
	"learning_rate": 9.002433090024331e-06,
	"loss": 0.7378,
	"step": 1334
	},
	{
	"epoch": 2.91962821213778,
	"grad_norm": 0.3728046715259552,
	"learning_rate": 8.75912408759124e-06,
	"loss": 0.5957,
	"step": 1335
	},
	{
	"epoch": 2.9218151995626025,
	"grad_norm": 0.39728742837905884,
	"learning_rate": 8.51581508515815e-06,
	"loss": 0.7254,
	"step": 1336
	},
	{
	"epoch": 2.924002186987425,
	"grad_norm": 0.375864714384079,
	"learning_rate": 8.27250608272506e-06,
	"loss": 0.7013,
	"step": 1337
	},
	{
	"epoch": 2.9261891744122472,
	"grad_norm": 0.3625723719596863,
	"learning_rate": 8.02919708029197e-06,
	"loss": 0.866,
	"step": 1338
	},
	{
	"epoch": 2.928376161837069,
	"grad_norm": 0.46779105067253113,
	"learning_rate": 7.78588807785888e-06,
	"loss": 0.7114,
	"step": 1339
	},
	{
	"epoch": 2.930563149261892,
	"grad_norm": 0.3270869851112366,
	"learning_rate": 7.54257907542579e-06,
	"loss": 0.6085,
	"step": 1340
	},
	{
	"epoch": 2.932750136686714,
	"grad_norm": 0.3992483913898468,
	"learning_rate": 7.2992700729927e-06,
	"loss": 0.6498,
	"step": 1341
	},
	{
	"epoch": 2.9349371241115363,
	"grad_norm": 0.41171202063560486,
	"learning_rate": 7.05596107055961e-06,
	"loss": 0.7382,
	"step": 1342
	},
	{
	"epoch": 2.9371241115363587,
	"grad_norm": 0.7751166224479675,
	"learning_rate": 6.81265206812652e-06,
	"loss": 0.8629,
	"step": 1343
	},
	{
	"epoch": 2.939311098961181,
	"grad_norm": 0.558593213558197,
	"learning_rate": 6.56934306569343e-06,
	"loss": 0.9791,
	"step": 1344
	},
	{
	"epoch": 2.9414980863860034,
	"grad_norm": 0.40517720580101013,
	"learning_rate": 6.32603406326034e-06,
	"loss": 0.6608,
	"step": 1345
	},
	{
	"epoch": 2.9436850738108253,
	"grad_norm": 0.44248199462890625,
	"learning_rate": 6.08272506082725e-06,
	"loss": 0.5619,
	"step": 1346
	},
	{
	"epoch": 2.945872061235648,
	"grad_norm": 0.3731604814529419,
	"learning_rate": 5.83941605839416e-06,
	"loss": 0.6585,
	"step": 1347
	},
	{
	"epoch": 2.94805904866047,
	"grad_norm": 0.524138867855072,
	"learning_rate": 5.59610705596107e-06,
	"loss": 0.5278,
	"step": 1348
	},
	{
	"epoch": 2.9502460360852925,
	"grad_norm": 0.31725287437438965,
	"learning_rate": 5.3527980535279805e-06,
	"loss": 0.7118,
	"step": 1349
	},
	{
	"epoch": 2.952433023510115,
	"grad_norm": 0.3865452706813812,
	"learning_rate": 5.10948905109489e-06,
	"loss": 0.6209,
	"step": 1350
	},
	{
	"epoch": 2.954620010934937,
	"grad_norm": 0.36308881640434265,
	"learning_rate": 4.866180048661799e-06,
	"loss": 0.5582,
	"step": 1351
	},
	{
	"epoch": 2.9568069983597596,
	"grad_norm": 0.4439944922924042,
	"learning_rate": 4.62287104622871e-06,
	"loss": 0.587,
	"step": 1352
	},
	{
	"epoch": 2.9589939857845815,
	"grad_norm": 0.44962093234062195,
	"learning_rate": 4.37956204379562e-06,
	"loss": 0.7883,
	"step": 1353
	},
	{
	"epoch": 2.9611809732094043,
	"grad_norm": 0.6172670722007751,
	"learning_rate": 4.13625304136253e-06,
	"loss": 0.7554,
	"step": 1354
	},
	{
	"epoch": 2.9633679606342263,
	"grad_norm": 0.4022207260131836,
	"learning_rate": 3.89294403892944e-06,
	"loss": 0.7109,
	"step": 1355
	},
	{
	"epoch": 2.9655549480590486,
	"grad_norm": 0.4858662486076355,
	"learning_rate": 3.64963503649635e-06,
	"loss": 0.7308,
	"step": 1356
	},
	{
	"epoch": 2.967741935483871,
	"grad_norm": 0.4918728768825531,
	"learning_rate": 3.40632603406326e-06,
	"loss": 0.7418,
	"step": 1357
	},
	{
	"epoch": 2.9699289229086934,
	"grad_norm": 0.5118703842163086,
	"learning_rate": 3.16301703163017e-06,
	"loss": 0.6361,
	"step": 1358
	},
	{
	"epoch": 2.9721159103335157,
	"grad_norm": 0.4407196044921875,
	"learning_rate": 2.91970802919708e-06,
	"loss": 0.6971,
	"step": 1359
	},
	{
	"epoch": 2.9743028977583377,
	"grad_norm": 0.33856332302093506,
	"learning_rate": 2.6763990267639902e-06,
	"loss": 0.5766,
	"step": 1360
	},
	{
	"epoch": 2.97648988518316,
	"grad_norm": 0.45704513788223267,
	"learning_rate": 2.4330900243308996e-06,
	"loss": 0.6431,
	"step": 1361
	},
	{
	"epoch": 2.9786768726079824,
	"grad_norm": 0.3669881224632263,
	"learning_rate": 2.18978102189781e-06,
	"loss": 0.5637,
	"step": 1362
	},
	{
	"epoch": 2.980863860032805,
	"grad_norm": 0.33307334780693054,
	"learning_rate": 1.94647201946472e-06,
	"loss": 0.6372,
	"step": 1363
	},
	{
	"epoch": 2.983050847457627,
	"grad_norm": 0.3178769052028656,
	"learning_rate": 1.70316301703163e-06,
	"loss": 0.8674,
	"step": 1364
	},
	{
	"epoch": 2.9852378348824495,
	"grad_norm": 0.4288700222969055,
	"learning_rate": 1.45985401459854e-06,
	"loss": 0.7514,
	"step": 1365
	},
	{
	"epoch": 2.987424822307272,
	"grad_norm": 0.3283116817474365,
	"learning_rate": 1.2165450121654498e-06,
	"loss": 0.5816,
	"step": 1366
	},
	{
	"epoch": 2.989611809732094,
	"grad_norm": 0.3714343011379242,
	"learning_rate": 9.7323600973236e-07,
	"loss": 0.7904,
	"step": 1367
	},
	{
	"epoch": 2.991798797156916,
	"grad_norm": 0.7103442549705505,
	"learning_rate": 7.2992700729927e-07,
	"loss": 0.7292,
	"step": 1368
	},
	{
	"epoch": 2.9939857845817386,
	"grad_norm": 0.34076127409935,
	"learning_rate": 4.8661800486618e-07,
	"loss": 0.6302,
	"step": 1369
	},
	{
	"epoch": 2.996172772006561,
	"grad_norm": 0.424398809671402,
	"learning_rate": 2.4330900243309e-07,
	"loss": 0.781,
	"step": 1370
	},
	{
	"epoch": 2.9983597594313833,
	"grad_norm": 0.39384347200393677,
	"learning_rate": 0.0,
	"loss": 0.5505,
	"step": 1371
	},
	{
	"epoch": 2.9983597594313833,
	"step": 1371,
	"total_flos": 4.3228174920083046e+17,
	"train_loss": 0.7109334499926396,
	"train_runtime": 1998.4313,
	"train_samples_per_second": 10.983,
	"train_steps_per_second": 0.686
	}
	],
	"logging_steps": 1.0,
	"max_steps": 1371,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.3228174920083046e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}