maven_ere_trigger_seq2seq / trainer_state.json

Upload 12 files

328170c verified over 1 year ago

176 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 27.51196172248804,
	"eval_steps": 1000,
	"global_step": 92000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"grad_norm": 3.539609432220459,
	"learning_rate": 4.99925228054434e-05,
	"loss": 2.134,
	"step": 100
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.197829246520996,
	"learning_rate": 4.997756841633019e-05,
	"loss": 0.6178,
	"step": 200
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.3991429805755615,
	"learning_rate": 4.996261402721699e-05,
	"loss": 0.5496,
	"step": 300
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.072633743286133,
	"learning_rate": 4.9947659638103784e-05,
	"loss": 0.5228,
	"step": 400
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.4815468788146973,
	"learning_rate": 4.993270524899058e-05,
	"loss": 0.5102,
	"step": 500
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.794753313064575,
	"learning_rate": 4.991775085987738e-05,
	"loss": 0.4746,
	"step": 600
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.1388251781463623,
	"learning_rate": 4.9902796470764176e-05,
	"loss": 0.4769,
	"step": 700
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.518214225769043,
	"learning_rate": 4.988784208165096e-05,
	"loss": 0.4476,
	"step": 800
	},
	{
	"epoch": 0.27,
	"grad_norm": 4.257823467254639,
	"learning_rate": 4.987288769253776e-05,
	"loss": 0.439,
	"step": 900
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.0235888957977295,
	"learning_rate": 4.985793330342456e-05,
	"loss": 0.4465,
	"step": 1000
	},
	{
	"epoch": 0.3,
	"eval_loss": 0.34466782212257385,
	"eval_precision": 0.7649398815576958,
	"eval_recall": 0.7874318790603159,
	"eval_runtime": 321.2695,
	"eval_samples_per_second": 41.629,
	"eval_steps_per_second": 1.301,
	"step": 1000
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.372622489929199,
	"learning_rate": 4.984297891431135e-05,
	"loss": 0.438,
	"step": 1100
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.184081792831421,
	"learning_rate": 4.982802452519815e-05,
	"loss": 0.4319,
	"step": 1200
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.180004358291626,
	"learning_rate": 4.981307013608494e-05,
	"loss": 0.4153,
	"step": 1300
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.8515098094940186,
	"learning_rate": 4.979811574697174e-05,
	"loss": 0.4107,
	"step": 1400
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0762712955474854,
	"learning_rate": 4.978316135785853e-05,
	"loss": 0.4087,
	"step": 1500
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.6716846227645874,
	"learning_rate": 4.9768206968745326e-05,
	"loss": 0.4082,
	"step": 1600
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.9515812397003174,
	"learning_rate": 4.9753252579632126e-05,
	"loss": 0.398,
	"step": 1700
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9658855199813843,
	"learning_rate": 4.973829819051892e-05,
	"loss": 0.393,
	"step": 1800
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.9613778591156006,
	"learning_rate": 4.972334380140571e-05,
	"loss": 0.3904,
	"step": 1900
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.7774882316589355,
	"learning_rate": 4.970838941229251e-05,
	"loss": 0.3794,
	"step": 2000
	},
	{
	"epoch": 0.6,
	"eval_loss": 0.310618132352829,
	"eval_precision": 0.7516943243620137,
	"eval_recall": 0.8298285045721852,
	"eval_runtime": 320.9754,
	"eval_samples_per_second": 41.667,
	"eval_steps_per_second": 1.302,
	"step": 2000
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.4382622241973877,
	"learning_rate": 4.969343502317931e-05,
	"loss": 0.369,
	"step": 2100
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.813565731048584,
	"learning_rate": 4.96784806340661e-05,
	"loss": 0.3751,
	"step": 2200
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.279954195022583,
	"learning_rate": 4.9663526244952897e-05,
	"loss": 0.3804,
	"step": 2300
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.9376351833343506,
	"learning_rate": 4.9648571855839696e-05,
	"loss": 0.3611,
	"step": 2400
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.2867352962493896,
	"learning_rate": 4.963361746672648e-05,
	"loss": 0.3739,
	"step": 2500
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.132394313812256,
	"learning_rate": 4.961866307761328e-05,
	"loss": 0.3669,
	"step": 2600
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.0541863441467285,
	"learning_rate": 4.9603708688500075e-05,
	"loss": 0.366,
	"step": 2700
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.1414847373962402,
	"learning_rate": 4.9588754299386874e-05,
	"loss": 0.3535,
	"step": 2800
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.3949612379074097,
	"learning_rate": 4.957379991027367e-05,
	"loss": 0.3684,
	"step": 2900
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.8921570777893066,
	"learning_rate": 4.955884552116046e-05,
	"loss": 0.3556,
	"step": 3000
	},
	{
	"epoch": 0.9,
	"eval_loss": 0.290554404258728,
	"eval_precision": 0.79493216033703,
	"eval_recall": 0.7901105329597586,
	"eval_runtime": 307.7262,
	"eval_samples_per_second": 43.461,
	"eval_steps_per_second": 1.358,
	"step": 3000
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.6217349767684937,
	"learning_rate": 4.954389113204726e-05,
	"loss": 0.3566,
	"step": 3100
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.524946928024292,
	"learning_rate": 4.952893674293405e-05,
	"loss": 0.3477,
	"step": 3200
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.6807836294174194,
	"learning_rate": 4.9513982353820846e-05,
	"loss": 0.3409,
	"step": 3300
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.5750257968902588,
	"learning_rate": 4.9499027964707645e-05,
	"loss": 0.3178,
	"step": 3400
	},
	{
	"epoch": 1.05,
	"grad_norm": 1.43153715133667,
	"learning_rate": 4.9484073575594445e-05,
	"loss": 0.2888,
	"step": 3500
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.4886215925216675,
	"learning_rate": 4.946911918648123e-05,
	"loss": 0.3153,
	"step": 3600
	},
	{
	"epoch": 1.11,
	"grad_norm": 2.2148983478546143,
	"learning_rate": 4.945416479736803e-05,
	"loss": 0.3114,
	"step": 3700
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.3632937669754028,
	"learning_rate": 4.9439210408254824e-05,
	"loss": 0.3031,
	"step": 3800
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.8350048065185547,
	"learning_rate": 4.9424256019141617e-05,
	"loss": 0.292,
	"step": 3900
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.1402252912521362,
	"learning_rate": 4.9409301630028416e-05,
	"loss": 0.2983,
	"step": 4000
	},
	{
	"epoch": 1.2,
	"eval_loss": 0.2781643867492676,
	"eval_precision": 0.7788883753177721,
	"eval_recall": 0.8301363958249947,
	"eval_runtime": 307.2732,
	"eval_samples_per_second": 43.525,
	"eval_steps_per_second": 1.36,
	"step": 4000
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.2367932796478271,
	"learning_rate": 4.939434724091521e-05,
	"loss": 0.2894,
	"step": 4100
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.4055671691894531,
	"learning_rate": 4.937939285180201e-05,
	"loss": 0.2847,
	"step": 4200
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.910565972328186,
	"learning_rate": 4.93644384626888e-05,
	"loss": 0.2917,
	"step": 4300
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.9085345268249512,
	"learning_rate": 4.9349484073575595e-05,
	"loss": 0.2934,
	"step": 4400
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.5550158023834229,
	"learning_rate": 4.9334529684462394e-05,
	"loss": 0.2726,
	"step": 4500
	},
	{
	"epoch": 1.38,
	"grad_norm": 2.1685421466827393,
	"learning_rate": 4.931957529534919e-05,
	"loss": 0.3077,
	"step": 4600
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.7528005838394165,
	"learning_rate": 4.930462090623598e-05,
	"loss": 0.2919,
	"step": 4700
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.804412841796875,
	"learning_rate": 4.928966651712278e-05,
	"loss": 0.278,
	"step": 4800
	},
	{
	"epoch": 1.47,
	"grad_norm": 2.430739164352417,
	"learning_rate": 4.927471212800957e-05,
	"loss": 0.2901,
	"step": 4900
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.5466407537460327,
	"learning_rate": 4.9259757738896365e-05,
	"loss": 0.2886,
	"step": 5000
	},
	{
	"epoch": 1.5,
	"eval_loss": 0.27095386385917664,
	"eval_precision": 0.7892478844902066,
	"eval_recall": 0.8212999168693618,
	"eval_runtime": 308.5531,
	"eval_samples_per_second": 43.344,
	"eval_steps_per_second": 1.355,
	"step": 5000
	},
	{
	"epoch": 1.53,
	"grad_norm": 1.1303741931915283,
	"learning_rate": 4.9244803349783165e-05,
	"loss": 0.291,
	"step": 5100
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.3640042543411255,
	"learning_rate": 4.922984896066996e-05,
	"loss": 0.2897,
	"step": 5200
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.9915575981140137,
	"learning_rate": 4.921489457155675e-05,
	"loss": 0.2798,
	"step": 5300
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.574576735496521,
	"learning_rate": 4.919994018244355e-05,
	"loss": 0.2856,
	"step": 5400
	},
	{
	"epoch": 1.64,
	"grad_norm": 1.9231148958206177,
	"learning_rate": 4.918498579333034e-05,
	"loss": 0.2819,
	"step": 5500
	},
	{
	"epoch": 1.67,
	"grad_norm": 2.171637773513794,
	"learning_rate": 4.917003140421714e-05,
	"loss": 0.2892,
	"step": 5600
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.7447925806045532,
	"learning_rate": 4.9155077015103936e-05,
	"loss": 0.2837,
	"step": 5700
	},
	{
	"epoch": 1.73,
	"grad_norm": 2.282715320587158,
	"learning_rate": 4.914012262599073e-05,
	"loss": 0.2888,
	"step": 5800
	},
	{
	"epoch": 1.76,
	"grad_norm": 2.041062831878662,
	"learning_rate": 4.912516823687753e-05,
	"loss": 0.2733,
	"step": 5900
	},
	{
	"epoch": 1.79,
	"grad_norm": 1.3900405168533325,
	"learning_rate": 4.911021384776432e-05,
	"loss": 0.2982,
	"step": 6000
	},
	{
	"epoch": 1.79,
	"eval_loss": 0.24861453473567963,
	"eval_precision": 0.7945360585297875,
	"eval_recall": 0.8426059915637797,
	"eval_runtime": 306.7263,
	"eval_samples_per_second": 43.602,
	"eval_steps_per_second": 1.363,
	"step": 6000
	},
	{
	"epoch": 1.82,
	"grad_norm": 2.156783103942871,
	"learning_rate": 4.9095259458651114e-05,
	"loss": 0.2883,
	"step": 6100
	},
	{
	"epoch": 1.85,
	"grad_norm": 1.6421504020690918,
	"learning_rate": 4.9080305069537914e-05,
	"loss": 0.2716,
	"step": 6200
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.6905546188354492,
	"learning_rate": 4.906535068042471e-05,
	"loss": 0.2775,
	"step": 6300
	},
	{
	"epoch": 1.91,
	"grad_norm": 1.1936814785003662,
	"learning_rate": 4.90503962913115e-05,
	"loss": 0.2571,
	"step": 6400
	},
	{
	"epoch": 1.94,
	"grad_norm": 1.7146382331848145,
	"learning_rate": 4.90354419021983e-05,
	"loss": 0.2681,
	"step": 6500
	},
	{
	"epoch": 1.97,
	"grad_norm": 1.5280200242996216,
	"learning_rate": 4.902048751308509e-05,
	"loss": 0.2655,
	"step": 6600
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.4756951332092285,
	"learning_rate": 4.9005533123971885e-05,
	"loss": 0.2554,
	"step": 6700
	},
	{
	"epoch": 2.03,
	"grad_norm": 1.5664458274841309,
	"learning_rate": 4.8990578734858685e-05,
	"loss": 0.2125,
	"step": 6800
	},
	{
	"epoch": 2.06,
	"grad_norm": 1.447304368019104,
	"learning_rate": 4.897562434574548e-05,
	"loss": 0.2161,
	"step": 6900
	},
	{
	"epoch": 2.09,
	"grad_norm": 1.8067011833190918,
	"learning_rate": 4.896066995663227e-05,
	"loss": 0.213,
	"step": 7000
	},
	{
	"epoch": 2.09,
	"eval_loss": 0.24976512789726257,
	"eval_precision": 0.8138389031705227,
	"eval_recall": 0.8187752085963238,
	"eval_runtime": 305.8458,
	"eval_samples_per_second": 43.728,
	"eval_steps_per_second": 1.367,
	"step": 7000
	},
	{
	"epoch": 2.12,
	"grad_norm": 2.7706127166748047,
	"learning_rate": 4.894571556751907e-05,
	"loss": 0.2186,
	"step": 7100
	},
	{
	"epoch": 2.15,
	"grad_norm": 2.394275426864624,
	"learning_rate": 4.893076117840586e-05,
	"loss": 0.2094,
	"step": 7200
	},
	{
	"epoch": 2.18,
	"grad_norm": 1.9464359283447266,
	"learning_rate": 4.891580678929266e-05,
	"loss": 0.2278,
	"step": 7300
	},
	{
	"epoch": 2.21,
	"grad_norm": 2.1283416748046875,
	"learning_rate": 4.8900852400179456e-05,
	"loss": 0.2174,
	"step": 7400
	},
	{
	"epoch": 2.24,
	"grad_norm": 1.7853657007217407,
	"learning_rate": 4.888589801106625e-05,
	"loss": 0.2184,
	"step": 7500
	},
	{
	"epoch": 2.27,
	"grad_norm": 1.1081209182739258,
	"learning_rate": 4.887094362195305e-05,
	"loss": 0.2201,
	"step": 7600
	},
	{
	"epoch": 2.3,
	"grad_norm": 1.3894284963607788,
	"learning_rate": 4.885598923283984e-05,
	"loss": 0.2213,
	"step": 7700
	},
	{
	"epoch": 2.33,
	"grad_norm": 2.0615389347076416,
	"learning_rate": 4.8841034843726634e-05,
	"loss": 0.2217,
	"step": 7800
	},
	{
	"epoch": 2.36,
	"grad_norm": 1.6415098905563354,
	"learning_rate": 4.8826080454613434e-05,
	"loss": 0.2266,
	"step": 7900
	},
	{
	"epoch": 2.39,
	"grad_norm": 3.293736219406128,
	"learning_rate": 4.8811126065500226e-05,
	"loss": 0.2117,
	"step": 8000
	},
	{
	"epoch": 2.39,
	"eval_loss": 0.24216407537460327,
	"eval_precision": 0.8107814105275881,
	"eval_recall": 0.826133809538471,
	"eval_runtime": 307.023,
	"eval_samples_per_second": 43.56,
	"eval_steps_per_second": 1.361,
	"step": 8000
	},
	{
	"epoch": 2.42,
	"grad_norm": 1.1580455303192139,
	"learning_rate": 4.879617167638702e-05,
	"loss": 0.2171,
	"step": 8100
	},
	{
	"epoch": 2.45,
	"grad_norm": 1.0756213665008545,
	"learning_rate": 4.878121728727382e-05,
	"loss": 0.2174,
	"step": 8200
	},
	{
	"epoch": 2.48,
	"grad_norm": 1.871605396270752,
	"learning_rate": 4.876626289816061e-05,
	"loss": 0.215,
	"step": 8300
	},
	{
	"epoch": 2.51,
	"grad_norm": 1.8400825262069702,
	"learning_rate": 4.8751308509047405e-05,
	"loss": 0.2215,
	"step": 8400
	},
	{
	"epoch": 2.54,
	"grad_norm": 2.0464110374450684,
	"learning_rate": 4.8736354119934204e-05,
	"loss": 0.2195,
	"step": 8500
	},
	{
	"epoch": 2.57,
	"grad_norm": 1.2704099416732788,
	"learning_rate": 4.8721399730821e-05,
	"loss": 0.2266,
	"step": 8600
	},
	{
	"epoch": 2.6,
	"grad_norm": 0.9448720216751099,
	"learning_rate": 4.87064453417078e-05,
	"loss": 0.2159,
	"step": 8700
	},
	{
	"epoch": 2.63,
	"grad_norm": 1.2881120443344116,
	"learning_rate": 4.869149095259459e-05,
	"loss": 0.2084,
	"step": 8800
	},
	{
	"epoch": 2.66,
	"grad_norm": 2.0659286975860596,
	"learning_rate": 4.867653656348138e-05,
	"loss": 0.2134,
	"step": 8900
	},
	{
	"epoch": 2.69,
	"grad_norm": 1.109397530555725,
	"learning_rate": 4.866158217436818e-05,
	"loss": 0.2129,
	"step": 9000
	},
	{
	"epoch": 2.69,
	"eval_loss": 0.22735044360160828,
	"eval_precision": 0.8203027060082556,
	"eval_recall": 0.8260106530373472,
	"eval_runtime": 305.794,
	"eval_samples_per_second": 43.735,
	"eval_steps_per_second": 1.367,
	"step": 9000
	},
	{
	"epoch": 2.72,
	"grad_norm": 1.164435625076294,
	"learning_rate": 4.8646627785254975e-05,
	"loss": 0.2155,
	"step": 9100
	},
	{
	"epoch": 2.75,
	"grad_norm": 1.5477757453918457,
	"learning_rate": 4.863167339614177e-05,
	"loss": 0.2137,
	"step": 9200
	},
	{
	"epoch": 2.78,
	"grad_norm": 1.4342052936553955,
	"learning_rate": 4.861671900702857e-05,
	"loss": 0.206,
	"step": 9300
	},
	{
	"epoch": 2.81,
	"grad_norm": 1.3847391605377197,
	"learning_rate": 4.860176461791536e-05,
	"loss": 0.2077,
	"step": 9400
	},
	{
	"epoch": 2.84,
	"grad_norm": 2.9082765579223633,
	"learning_rate": 4.8586810228802154e-05,
	"loss": 0.2126,
	"step": 9500
	},
	{
	"epoch": 2.87,
	"grad_norm": 1.4943510293960571,
	"learning_rate": 4.857185583968895e-05,
	"loss": 0.2092,
	"step": 9600
	},
	{
	"epoch": 2.9,
	"grad_norm": 1.2332855463027954,
	"learning_rate": 4.8556901450575746e-05,
	"loss": 0.2222,
	"step": 9700
	},
	{
	"epoch": 2.93,
	"grad_norm": 2.227031946182251,
	"learning_rate": 4.854194706146254e-05,
	"loss": 0.1969,
	"step": 9800
	},
	{
	"epoch": 2.96,
	"grad_norm": 1.2515846490859985,
	"learning_rate": 4.852699267234934e-05,
	"loss": 0.2017,
	"step": 9900
	},
	{
	"epoch": 2.99,
	"grad_norm": 1.2267186641693115,
	"learning_rate": 4.851203828323613e-05,
	"loss": 0.2126,
	"step": 10000
	},
	{
	"epoch": 2.99,
	"eval_loss": 0.20952437818050385,
	"eval_precision": 0.8416687769055458,
	"eval_recall": 0.818682841220481,
	"eval_runtime": 302.8923,
	"eval_samples_per_second": 44.154,
	"eval_steps_per_second": 1.38,
	"step": 10000
	},
	{
	"epoch": 3.02,
	"grad_norm": 1.151638150215149,
	"learning_rate": 4.849708389412293e-05,
	"loss": 0.171,
	"step": 10100
	},
	{
	"epoch": 3.05,
	"grad_norm": 3.8168528079986572,
	"learning_rate": 4.8482129505009724e-05,
	"loss": 0.165,
	"step": 10200
	},
	{
	"epoch": 3.08,
	"grad_norm": 2.3039355278015137,
	"learning_rate": 4.846717511589652e-05,
	"loss": 0.1675,
	"step": 10300
	},
	{
	"epoch": 3.11,
	"grad_norm": 1.252301812171936,
	"learning_rate": 4.845222072678332e-05,
	"loss": 0.1554,
	"step": 10400
	},
	{
	"epoch": 3.14,
	"grad_norm": 1.2682992219924927,
	"learning_rate": 4.843726633767011e-05,
	"loss": 0.1756,
	"step": 10500
	},
	{
	"epoch": 3.17,
	"grad_norm": 1.3934777975082397,
	"learning_rate": 4.84223119485569e-05,
	"loss": 0.1576,
	"step": 10600
	},
	{
	"epoch": 3.2,
	"grad_norm": 1.3386119604110718,
	"learning_rate": 4.84073575594437e-05,
	"loss": 0.1602,
	"step": 10700
	},
	{
	"epoch": 3.23,
	"grad_norm": 1.6670503616333008,
	"learning_rate": 4.8392403170330495e-05,
	"loss": 0.1638,
	"step": 10800
	},
	{
	"epoch": 3.26,
	"grad_norm": 2.5150694847106934,
	"learning_rate": 4.837744878121729e-05,
	"loss": 0.1653,
	"step": 10900
	},
	{
	"epoch": 3.29,
	"grad_norm": 2.840406656265259,
	"learning_rate": 4.836249439210409e-05,
	"loss": 0.1607,
	"step": 11000
	},
	{
	"epoch": 3.29,
	"eval_loss": 0.22238589823246002,
	"eval_precision": 0.8404415146405029,
	"eval_recall": 0.8439607130761415,
	"eval_runtime": 304.8188,
	"eval_samples_per_second": 43.875,
	"eval_steps_per_second": 1.371,
	"step": 11000
	},
	{
	"epoch": 3.32,
	"grad_norm": 1.5171958208084106,
	"learning_rate": 4.834754000299088e-05,
	"loss": 0.1606,
	"step": 11100
	},
	{
	"epoch": 3.35,
	"grad_norm": 1.6955703496932983,
	"learning_rate": 4.833258561387767e-05,
	"loss": 0.1554,
	"step": 11200
	},
	{
	"epoch": 3.38,
	"grad_norm": 1.893128514289856,
	"learning_rate": 4.831763122476447e-05,
	"loss": 0.1488,
	"step": 11300
	},
	{
	"epoch": 3.41,
	"grad_norm": 1.7299461364746094,
	"learning_rate": 4.8302676835651266e-05,
	"loss": 0.1596,
	"step": 11400
	},
	{
	"epoch": 3.44,
	"grad_norm": 2.150355339050293,
	"learning_rate": 4.8287722446538065e-05,
	"loss": 0.1623,
	"step": 11500
	},
	{
	"epoch": 3.47,
	"grad_norm": 3.2869186401367188,
	"learning_rate": 4.827276805742486e-05,
	"loss": 0.1622,
	"step": 11600
	},
	{
	"epoch": 3.5,
	"grad_norm": 1.7936344146728516,
	"learning_rate": 4.825781366831165e-05,
	"loss": 0.1651,
	"step": 11700
	},
	{
	"epoch": 3.53,
	"grad_norm": 1.579736590385437,
	"learning_rate": 4.824285927919845e-05,
	"loss": 0.169,
	"step": 11800
	},
	{
	"epoch": 3.56,
	"grad_norm": 2.1929283142089844,
	"learning_rate": 4.822790489008524e-05,
	"loss": 0.1629,
	"step": 11900
	},
	{
	"epoch": 3.59,
	"grad_norm": 1.7842892408370972,
	"learning_rate": 4.821295050097204e-05,
	"loss": 0.1621,
	"step": 12000
	},
	{
	"epoch": 3.59,
	"eval_loss": 0.21504360437393188,
	"eval_precision": 0.8350246187102197,
	"eval_recall": 0.8563379414390837,
	"eval_runtime": 306.2124,
	"eval_samples_per_second": 43.676,
	"eval_steps_per_second": 1.365,
	"step": 12000
	},
	{
	"epoch": 3.62,
	"grad_norm": 2.2203197479248047,
	"learning_rate": 4.8197996111858836e-05,
	"loss": 0.1595,
	"step": 12100
	},
	{
	"epoch": 3.65,
	"grad_norm": 1.8541319370269775,
	"learning_rate": 4.818304172274562e-05,
	"loss": 0.1702,
	"step": 12200
	},
	{
	"epoch": 3.68,
	"grad_norm": 1.3299143314361572,
	"learning_rate": 4.816808733363242e-05,
	"loss": 0.1651,
	"step": 12300
	},
	{
	"epoch": 3.71,
	"grad_norm": 1.7831319570541382,
	"learning_rate": 4.815313294451922e-05,
	"loss": 0.1601,
	"step": 12400
	},
	{
	"epoch": 3.74,
	"grad_norm": 1.0528268814086914,
	"learning_rate": 4.8138178555406015e-05,
	"loss": 0.1644,
	"step": 12500
	},
	{
	"epoch": 3.77,
	"grad_norm": 1.306907057762146,
	"learning_rate": 4.812322416629281e-05,
	"loss": 0.1556,
	"step": 12600
	},
	{
	"epoch": 3.8,
	"grad_norm": 1.8565049171447754,
	"learning_rate": 4.810826977717961e-05,
	"loss": 0.1654,
	"step": 12700
	},
	{
	"epoch": 3.83,
	"grad_norm": 1.4770090579986572,
	"learning_rate": 4.80933153880664e-05,
	"loss": 0.1628,
	"step": 12800
	},
	{
	"epoch": 3.86,
	"grad_norm": 1.9089502096176147,
	"learning_rate": 4.807836099895319e-05,
	"loss": 0.1632,
	"step": 12900
	},
	{
	"epoch": 3.89,
	"grad_norm": 1.3788821697235107,
	"learning_rate": 4.806340660983999e-05,
	"loss": 0.1597,
	"step": 13000
	},
	{
	"epoch": 3.89,
	"eval_loss": 0.2062728852033615,
	"eval_precision": 0.8378547953391097,
	"eval_recall": 0.8634194402537024,
	"eval_runtime": 304.7295,
	"eval_samples_per_second": 43.888,
	"eval_steps_per_second": 1.372,
	"step": 13000
	},
	{
	"epoch": 3.92,
	"grad_norm": 15.79686164855957,
	"learning_rate": 4.8048452220726785e-05,
	"loss": 0.1637,
	"step": 13100
	},
	{
	"epoch": 3.95,
	"grad_norm": 1.9472129344940186,
	"learning_rate": 4.8033497831613585e-05,
	"loss": 0.1666,
	"step": 13200
	},
	{
	"epoch": 3.98,
	"grad_norm": 2.1338746547698975,
	"learning_rate": 4.801854344250037e-05,
	"loss": 0.1614,
	"step": 13300
	},
	{
	"epoch": 4.01,
	"grad_norm": 1.1886940002441406,
	"learning_rate": 4.800358905338717e-05,
	"loss": 0.1474,
	"step": 13400
	},
	{
	"epoch": 4.04,
	"grad_norm": 2.4190924167633057,
	"learning_rate": 4.798863466427397e-05,
	"loss": 0.121,
	"step": 13500
	},
	{
	"epoch": 4.07,
	"grad_norm": 0.902584433555603,
	"learning_rate": 4.797368027516076e-05,
	"loss": 0.1192,
	"step": 13600
	},
	{
	"epoch": 4.1,
	"grad_norm": 2.3466804027557373,
	"learning_rate": 4.7958725886047556e-05,
	"loss": 0.129,
	"step": 13700
	},
	{
	"epoch": 4.13,
	"grad_norm": 4.135778427124023,
	"learning_rate": 4.7943771496934356e-05,
	"loss": 0.1206,
	"step": 13800
	},
	{
	"epoch": 4.16,
	"grad_norm": 1.6940075159072876,
	"learning_rate": 4.792881710782115e-05,
	"loss": 0.1313,
	"step": 13900
	},
	{
	"epoch": 4.19,
	"grad_norm": 1.7989047765731812,
	"learning_rate": 4.791386271870794e-05,
	"loss": 0.1139,
	"step": 14000
	},
	{
	"epoch": 4.19,
	"eval_loss": 0.20718763768672943,
	"eval_precision": 0.8631126181281592,
	"eval_recall": 0.8464238430986176,
	"eval_runtime": 304.0256,
	"eval_samples_per_second": 43.99,
	"eval_steps_per_second": 1.375,
	"step": 14000
	},
	{
	"epoch": 4.22,
	"grad_norm": 1.9864155054092407,
	"learning_rate": 4.789890832959474e-05,
	"loss": 0.1222,
	"step": 14100
	},
	{
	"epoch": 4.25,
	"grad_norm": 2.944260835647583,
	"learning_rate": 4.7883953940481534e-05,
	"loss": 0.1238,
	"step": 14200
	},
	{
	"epoch": 4.28,
	"grad_norm": 0.5448206663131714,
	"learning_rate": 4.786899955136833e-05,
	"loss": 0.1191,
	"step": 14300
	},
	{
	"epoch": 4.31,
	"grad_norm": 1.2996718883514404,
	"learning_rate": 4.785404516225512e-05,
	"loss": 0.1208,
	"step": 14400
	},
	{
	"epoch": 4.34,
	"grad_norm": 2.5177977085113525,
	"learning_rate": 4.783909077314192e-05,
	"loss": 0.1258,
	"step": 14500
	},
	{
	"epoch": 4.37,
	"grad_norm": 1.1356126070022583,
	"learning_rate": 4.782413638402872e-05,
	"loss": 0.1223,
	"step": 14600
	},
	{
	"epoch": 4.4,
	"grad_norm": 1.2576464414596558,
	"learning_rate": 4.7809181994915506e-05,
	"loss": 0.124,
	"step": 14700
	},
	{
	"epoch": 4.43,
	"grad_norm": 0.8868162631988525,
	"learning_rate": 4.7794227605802305e-05,
	"loss": 0.1246,
	"step": 14800
	},
	{
	"epoch": 4.46,
	"grad_norm": 2.3075501918792725,
	"learning_rate": 4.7779273216689105e-05,
	"loss": 0.1216,
	"step": 14900
	},
	{
	"epoch": 4.49,
	"grad_norm": 1.5548241138458252,
	"learning_rate": 4.776431882757589e-05,
	"loss": 0.1221,
	"step": 15000
	},
	{
	"epoch": 4.49,
	"eval_loss": 0.19333235919475555,
	"eval_precision": 0.8727586319112239,
	"eval_recall": 0.8257335509098187,
	"eval_runtime": 301.0242,
	"eval_samples_per_second": 44.428,
	"eval_steps_per_second": 1.389,
	"step": 15000
	},
	{
	"epoch": 4.52,
	"grad_norm": 1.0018868446350098,
	"learning_rate": 4.774936443846269e-05,
	"loss": 0.1237,
	"step": 15100
	},
	{
	"epoch": 4.55,
	"grad_norm": 1.264910101890564,
	"learning_rate": 4.773441004934949e-05,
	"loss": 0.1156,
	"step": 15200
	},
	{
	"epoch": 4.58,
	"grad_norm": 5.281520366668701,
	"learning_rate": 4.771945566023628e-05,
	"loss": 0.1286,
	"step": 15300
	},
	{
	"epoch": 4.61,
	"grad_norm": 1.9591494798660278,
	"learning_rate": 4.7704501271123076e-05,
	"loss": 0.1249,
	"step": 15400
	},
	{
	"epoch": 4.64,
	"grad_norm": 2.021794080734253,
	"learning_rate": 4.768954688200987e-05,
	"loss": 0.1233,
	"step": 15500
	},
	{
	"epoch": 4.67,
	"grad_norm": 2.007873773574829,
	"learning_rate": 4.767459249289667e-05,
	"loss": 0.1281,
	"step": 15600
	},
	{
	"epoch": 4.69,
	"grad_norm": 2.0108394622802734,
	"learning_rate": 4.765963810378346e-05,
	"loss": 0.1302,
	"step": 15700
	},
	{
	"epoch": 4.72,
	"grad_norm": 1.7474627494812012,
	"learning_rate": 4.7644683714670254e-05,
	"loss": 0.1164,
	"step": 15800
	},
	{
	"epoch": 4.75,
	"grad_norm": 0.758482813835144,
	"learning_rate": 4.7629729325557054e-05,
	"loss": 0.1211,
	"step": 15900
	},
	{
	"epoch": 4.78,
	"grad_norm": 0.9910192489624023,
	"learning_rate": 4.7614774936443854e-05,
	"loss": 0.1222,
	"step": 16000
	},
	{
	"epoch": 4.78,
	"eval_loss": 0.1955721527338028,
	"eval_precision": 0.8685029567382508,
	"eval_recall": 0.8591705409649312,
	"eval_runtime": 303.5505,
	"eval_samples_per_second": 44.059,
	"eval_steps_per_second": 1.377,
	"step": 16000
	},
	{
	"epoch": 4.81,
	"grad_norm": 2.4667110443115234,
	"learning_rate": 4.759982054733064e-05,
	"loss": 0.1214,
	"step": 16100
	},
	{
	"epoch": 4.84,
	"grad_norm": 2.103156566619873,
	"learning_rate": 4.758486615821744e-05,
	"loss": 0.1211,
	"step": 16200
	},
	{
	"epoch": 4.87,
	"grad_norm": 1.3806654214859009,
	"learning_rate": 4.756991176910424e-05,
	"loss": 0.1152,
	"step": 16300
	},
	{
	"epoch": 4.9,
	"grad_norm": 2.1174566745758057,
	"learning_rate": 4.7554957379991025e-05,
	"loss": 0.1246,
	"step": 16400
	},
	{
	"epoch": 4.93,
	"grad_norm": 2.0334010124206543,
	"learning_rate": 4.7540002990877825e-05,
	"loss": 0.1189,
	"step": 16500
	},
	{
	"epoch": 4.96,
	"grad_norm": 2.668717861175537,
	"learning_rate": 4.7525048601764625e-05,
	"loss": 0.1237,
	"step": 16600
	},
	{
	"epoch": 4.99,
	"grad_norm": 2.0749363899230957,
	"learning_rate": 4.751009421265142e-05,
	"loss": 0.1141,
	"step": 16700
	},
	{
	"epoch": 5.02,
	"grad_norm": 1.893052577972412,
	"learning_rate": 4.749513982353821e-05,
	"loss": 0.095,
	"step": 16800
	},
	{
	"epoch": 5.05,
	"grad_norm": 0.6495729684829712,
	"learning_rate": 4.7480185434425e-05,
	"loss": 0.085,
	"step": 16900
	},
	{
	"epoch": 5.08,
	"grad_norm": 1.8883150815963745,
	"learning_rate": 4.74652310453118e-05,
	"loss": 0.0886,
	"step": 17000
	},
	{
	"epoch": 5.08,
	"eval_loss": 0.2067934274673462,
	"eval_precision": 0.880300808187974,
	"eval_recall": 0.8685920133009021,
	"eval_runtime": 303.377,
	"eval_samples_per_second": 44.084,
	"eval_steps_per_second": 1.378,
	"step": 17000
	},
	{
	"epoch": 5.11,
	"grad_norm": 1.110809326171875,
	"learning_rate": 4.7450276656198596e-05,
	"loss": 0.0895,
	"step": 17100
	},
	{
	"epoch": 5.14,
	"grad_norm": 1.9441896677017212,
	"learning_rate": 4.743532226708539e-05,
	"loss": 0.0935,
	"step": 17200
	},
	{
	"epoch": 5.17,
	"grad_norm": 1.9851264953613281,
	"learning_rate": 4.742036787797219e-05,
	"loss": 0.0927,
	"step": 17300
	},
	{
	"epoch": 5.2,
	"grad_norm": 1.2447096109390259,
	"learning_rate": 4.740541348885899e-05,
	"loss": 0.0911,
	"step": 17400
	},
	{
	"epoch": 5.23,
	"grad_norm": 1.0151656866073608,
	"learning_rate": 4.7390459099745774e-05,
	"loss": 0.0932,
	"step": 17500
	},
	{
	"epoch": 5.26,
	"grad_norm": 0.8265299201011658,
	"learning_rate": 4.7375504710632574e-05,
	"loss": 0.1006,
	"step": 17600
	},
	{
	"epoch": 5.29,
	"grad_norm": 2.7819435596466064,
	"learning_rate": 4.736055032151937e-05,
	"loss": 0.0892,
	"step": 17700
	},
	{
	"epoch": 5.32,
	"grad_norm": 1.3706836700439453,
	"learning_rate": 4.734559593240616e-05,
	"loss": 0.0976,
	"step": 17800
	},
	{
	"epoch": 5.35,
	"grad_norm": 3.606653928756714,
	"learning_rate": 4.733064154329296e-05,
	"loss": 0.0932,
	"step": 17900
	},
	{
	"epoch": 5.38,
	"grad_norm": 1.3535112142562866,
	"learning_rate": 4.731568715417975e-05,
	"loss": 0.0917,
	"step": 18000
	},
	{
	"epoch": 5.38,
	"eval_loss": 0.1965586394071579,
	"eval_precision": 0.8806825297432687,
	"eval_recall": 0.8660673050278641,
	"eval_runtime": 303.4486,
	"eval_samples_per_second": 44.073,
	"eval_steps_per_second": 1.377,
	"step": 18000
	},
	{
	"epoch": 5.41,
	"grad_norm": 1.7558257579803467,
	"learning_rate": 4.7300732765066545e-05,
	"loss": 0.088,
	"step": 18100
	},
	{
	"epoch": 5.44,
	"grad_norm": 2.291628837585449,
	"learning_rate": 4.7285778375953345e-05,
	"loss": 0.0963,
	"step": 18200
	},
	{
	"epoch": 5.47,
	"grad_norm": 1.4217274188995361,
	"learning_rate": 4.727082398684014e-05,
	"loss": 0.0969,
	"step": 18300
	},
	{
	"epoch": 5.5,
	"grad_norm": 1.8852524757385254,
	"learning_rate": 4.725586959772694e-05,
	"loss": 0.0952,
	"step": 18400
	},
	{
	"epoch": 5.53,
	"grad_norm": 2.106452465057373,
	"learning_rate": 4.724091520861373e-05,
	"loss": 0.0966,
	"step": 18500
	},
	{
	"epoch": 5.56,
	"grad_norm": 1.9277011156082153,
	"learning_rate": 4.722596081950052e-05,
	"loss": 0.089,
	"step": 18600
	},
	{
	"epoch": 5.59,
	"grad_norm": 1.2175403833389282,
	"learning_rate": 4.721100643038732e-05,
	"loss": 0.0931,
	"step": 18700
	},
	{
	"epoch": 5.62,
	"grad_norm": 2.060368299484253,
	"learning_rate": 4.7196052041274115e-05,
	"loss": 0.0968,
	"step": 18800
	},
	{
	"epoch": 5.65,
	"grad_norm": 1.4981082677841187,
	"learning_rate": 4.718109765216091e-05,
	"loss": 0.0929,
	"step": 18900
	},
	{
	"epoch": 5.68,
	"grad_norm": 1.6335569620132446,
	"learning_rate": 4.716614326304771e-05,
	"loss": 0.0938,
	"step": 19000
	},
	{
	"epoch": 5.68,
	"eval_loss": 0.19031907618045807,
	"eval_precision": 0.8913960623881361,
	"eval_recall": 0.858708704085717,
	"eval_runtime": 301.9634,
	"eval_samples_per_second": 44.29,
	"eval_steps_per_second": 1.384,
	"step": 19000
	},
	{
	"epoch": 5.71,
	"grad_norm": 0.46949952840805054,
	"learning_rate": 4.71511888739345e-05,
	"loss": 0.09,
	"step": 19100
	},
	{
	"epoch": 5.74,
	"grad_norm": 2.6525633335113525,
	"learning_rate": 4.7136234484821294e-05,
	"loss": 0.0954,
	"step": 19200
	},
	{
	"epoch": 5.77,
	"grad_norm": 1.2892892360687256,
	"learning_rate": 4.7121280095708093e-05,
	"loss": 0.0949,
	"step": 19300
	},
	{
	"epoch": 5.8,
	"grad_norm": 1.5637331008911133,
	"learning_rate": 4.7106325706594886e-05,
	"loss": 0.0962,
	"step": 19400
	},
	{
	"epoch": 5.83,
	"grad_norm": 2.5609443187713623,
	"learning_rate": 4.709137131748168e-05,
	"loss": 0.0921,
	"step": 19500
	},
	{
	"epoch": 5.86,
	"grad_norm": 1.4690775871276855,
	"learning_rate": 4.707641692836848e-05,
	"loss": 0.0955,
	"step": 19600
	},
	{
	"epoch": 5.89,
	"grad_norm": 1.081965684890747,
	"learning_rate": 4.706146253925527e-05,
	"loss": 0.0928,
	"step": 19700
	},
	{
	"epoch": 5.92,
	"grad_norm": 1.6817141771316528,
	"learning_rate": 4.704650815014207e-05,
	"loss": 0.0963,
	"step": 19800
	},
	{
	"epoch": 5.95,
	"grad_norm": 2.984762191772461,
	"learning_rate": 4.7031553761028864e-05,
	"loss": 0.095,
	"step": 19900
	},
	{
	"epoch": 5.98,
	"grad_norm": 2.1594882011413574,
	"learning_rate": 4.701659937191566e-05,
	"loss": 0.0985,
	"step": 20000
	},
	{
	"epoch": 5.98,
	"eval_loss": 0.18151727318763733,
	"eval_precision": 0.9042639298086573,
	"eval_recall": 0.859940269096955,
	"eval_runtime": 302.8985,
	"eval_samples_per_second": 44.153,
	"eval_steps_per_second": 1.38,
	"step": 20000
	},
	{
	"epoch": 6.01,
	"grad_norm": 2.0218722820281982,
	"learning_rate": 4.700164498280246e-05,
	"loss": 0.0886,
	"step": 20100
	},
	{
	"epoch": 6.04,
	"grad_norm": 1.3569700717926025,
	"learning_rate": 4.698669059368925e-05,
	"loss": 0.0711,
	"step": 20200
	},
	{
	"epoch": 6.07,
	"grad_norm": 1.5697298049926758,
	"learning_rate": 4.697173620457604e-05,
	"loss": 0.0724,
	"step": 20300
	},
	{
	"epoch": 6.1,
	"grad_norm": 1.7853014469146729,
	"learning_rate": 4.695678181546284e-05,
	"loss": 0.0747,
	"step": 20400
	},
	{
	"epoch": 6.13,
	"grad_norm": 0.7531015872955322,
	"learning_rate": 4.6941827426349635e-05,
	"loss": 0.074,
	"step": 20500
	},
	{
	"epoch": 6.16,
	"grad_norm": 1.3895870447158813,
	"learning_rate": 4.692687303723643e-05,
	"loss": 0.0683,
	"step": 20600
	},
	{
	"epoch": 6.19,
	"grad_norm": 2.084857225418091,
	"learning_rate": 4.691191864812323e-05,
	"loss": 0.0741,
	"step": 20700
	},
	{
	"epoch": 6.22,
	"grad_norm": 0.9525838494300842,
	"learning_rate": 4.689696425901002e-05,
	"loss": 0.0647,
	"step": 20800
	},
	{
	"epoch": 6.25,
	"grad_norm": 2.0475118160247803,
	"learning_rate": 4.6882009869896813e-05,
	"loss": 0.0746,
	"step": 20900
	},
	{
	"epoch": 6.28,
	"grad_norm": 1.0650370121002197,
	"learning_rate": 4.686705548078361e-05,
	"loss": 0.0696,
	"step": 21000
	},
	{
	"epoch": 6.28,
	"eval_loss": 0.19116894900798798,
	"eval_precision": 0.9016753284483037,
	"eval_recall": 0.8600326364727978,
	"eval_runtime": 303.289,
	"eval_samples_per_second": 44.097,
	"eval_steps_per_second": 1.378,
	"step": 21000
	},
	{
	"epoch": 6.31,
	"grad_norm": 1.5736846923828125,
	"learning_rate": 4.6852101091670406e-05,
	"loss": 0.0685,
	"step": 21100
	},
	{
	"epoch": 6.34,
	"grad_norm": 0.7526031136512756,
	"learning_rate": 4.6837146702557206e-05,
	"loss": 0.0816,
	"step": 21200
	},
	{
	"epoch": 6.37,
	"grad_norm": 1.284680724143982,
	"learning_rate": 4.6822192313444e-05,
	"loss": 0.0676,
	"step": 21300
	},
	{
	"epoch": 6.4,
	"grad_norm": 4.207923889160156,
	"learning_rate": 4.680723792433079e-05,
	"loss": 0.0679,
	"step": 21400
	},
	{
	"epoch": 6.43,
	"grad_norm": 1.3670810461044312,
	"learning_rate": 4.679228353521759e-05,
	"loss": 0.0721,
	"step": 21500
	},
	{
	"epoch": 6.46,
	"grad_norm": 1.8094091415405273,
	"learning_rate": 4.6777329146104384e-05,
	"loss": 0.0673,
	"step": 21600
	},
	{
	"epoch": 6.49,
	"grad_norm": 2.057133436203003,
	"learning_rate": 4.676237475699118e-05,
	"loss": 0.0711,
	"step": 21700
	},
	{
	"epoch": 6.52,
	"grad_norm": 1.9356772899627686,
	"learning_rate": 4.6747420367877976e-05,
	"loss": 0.0713,
	"step": 21800
	},
	{
	"epoch": 6.55,
	"grad_norm": 0.4188990592956543,
	"learning_rate": 4.673246597876477e-05,
	"loss": 0.0772,
	"step": 21900
	},
	{
	"epoch": 6.58,
	"grad_norm": 0.9256879091262817,
	"learning_rate": 4.671751158965156e-05,
	"loss": 0.0715,
	"step": 22000
	},
	{
	"epoch": 6.58,
	"eval_loss": 0.19474047422409058,
	"eval_precision": 0.9012208304190246,
	"eval_recall": 0.8727793343391115,
	"eval_runtime": 305.0313,
	"eval_samples_per_second": 43.845,
	"eval_steps_per_second": 1.37,
	"step": 22000
	},
	{
	"epoch": 6.61,
	"grad_norm": 0.890701949596405,
	"learning_rate": 4.670255720053836e-05,
	"loss": 0.0712,
	"step": 22100
	},
	{
	"epoch": 6.64,
	"grad_norm": 1.6164826154708862,
	"learning_rate": 4.6687602811425155e-05,
	"loss": 0.0772,
	"step": 22200
	},
	{
	"epoch": 6.67,
	"grad_norm": 1.2075903415679932,
	"learning_rate": 4.667264842231195e-05,
	"loss": 0.0734,
	"step": 22300
	},
	{
	"epoch": 6.7,
	"grad_norm": 0.9141576886177063,
	"learning_rate": 4.665769403319875e-05,
	"loss": 0.0803,
	"step": 22400
	},
	{
	"epoch": 6.73,
	"grad_norm": 3.0547311305999756,
	"learning_rate": 4.664273964408554e-05,
	"loss": 0.0688,
	"step": 22500
	},
	{
	"epoch": 6.76,
	"grad_norm": 1.1152849197387695,
	"learning_rate": 4.662778525497234e-05,
	"loss": 0.0703,
	"step": 22600
	},
	{
	"epoch": 6.79,
	"grad_norm": 2.150590181350708,
	"learning_rate": 4.661283086585913e-05,
	"loss": 0.0745,
	"step": 22700
	},
	{
	"epoch": 6.82,
	"grad_norm": 1.4829721450805664,
	"learning_rate": 4.6597876476745926e-05,
	"loss": 0.0738,
	"step": 22800
	},
	{
	"epoch": 6.85,
	"grad_norm": 0.6545503735542297,
	"learning_rate": 4.6582922087632725e-05,
	"loss": 0.0764,
	"step": 22900
	},
	{
	"epoch": 6.88,
	"grad_norm": 1.2322636842727661,
	"learning_rate": 4.656796769851952e-05,
	"loss": 0.0765,
	"step": 23000
	},
	{
	"epoch": 6.88,
	"eval_loss": 0.18639414012432098,
	"eval_precision": 0.9072111489223789,
	"eval_recall": 0.861849194864374,
	"eval_runtime": 301.5834,
	"eval_samples_per_second": 44.346,
	"eval_steps_per_second": 1.386,
	"step": 23000
	},
	{
	"epoch": 6.91,
	"grad_norm": 1.8931362628936768,
	"learning_rate": 4.655301330940631e-05,
	"loss": 0.0783,
	"step": 23100
	},
	{
	"epoch": 6.94,
	"grad_norm": 0.7884649038314819,
	"learning_rate": 4.653805892029311e-05,
	"loss": 0.0718,
	"step": 23200
	},
	{
	"epoch": 6.97,
	"grad_norm": 0.6341440081596375,
	"learning_rate": 4.6523104531179904e-05,
	"loss": 0.0698,
	"step": 23300
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.9098210334777832,
	"learning_rate": 4.6508150142066697e-05,
	"loss": 0.071,
	"step": 23400
	},
	{
	"epoch": 7.03,
	"grad_norm": 3.0700671672821045,
	"learning_rate": 4.6493195752953496e-05,
	"loss": 0.0552,
	"step": 23500
	},
	{
	"epoch": 7.06,
	"grad_norm": 1.5736912488937378,
	"learning_rate": 4.647824136384029e-05,
	"loss": 0.055,
	"step": 23600
	},
	{
	"epoch": 7.09,
	"grad_norm": 0.9347396492958069,
	"learning_rate": 4.646328697472708e-05,
	"loss": 0.0592,
	"step": 23700
	},
	{
	"epoch": 7.12,
	"grad_norm": 1.7453091144561768,
	"learning_rate": 4.644833258561388e-05,
	"loss": 0.0623,
	"step": 23800
	},
	{
	"epoch": 7.15,
	"grad_norm": 1.1539710760116577,
	"learning_rate": 4.6433378196500674e-05,
	"loss": 0.0558,
	"step": 23900
	},
	{
	"epoch": 7.18,
	"grad_norm": 0.7530619502067566,
	"learning_rate": 4.641842380738747e-05,
	"loss": 0.0546,
	"step": 24000
	},
	{
	"epoch": 7.18,
	"eval_loss": 0.2078467607498169,
	"eval_precision": 0.908101688386724,
	"eval_recall": 0.8710551433233782,
	"eval_runtime": 302.902,
	"eval_samples_per_second": 44.153,
	"eval_steps_per_second": 1.38,
	"step": 24000
	},
	{
	"epoch": 7.21,
	"grad_norm": 1.6339865922927856,
	"learning_rate": 4.640346941827427e-05,
	"loss": 0.0579,
	"step": 24100
	},
	{
	"epoch": 7.24,
	"grad_norm": 2.397862434387207,
	"learning_rate": 4.638851502916106e-05,
	"loss": 0.054,
	"step": 24200
	},
	{
	"epoch": 7.27,
	"grad_norm": 2.5979652404785156,
	"learning_rate": 4.637356064004786e-05,
	"loss": 0.0582,
	"step": 24300
	},
	{
	"epoch": 7.3,
	"grad_norm": 1.4249415397644043,
	"learning_rate": 4.635860625093465e-05,
	"loss": 0.0611,
	"step": 24400
	},
	{
	"epoch": 7.33,
	"grad_norm": 1.1104274988174438,
	"learning_rate": 4.6343651861821445e-05,
	"loss": 0.0603,
	"step": 24500
	},
	{
	"epoch": 7.36,
	"grad_norm": 1.039832353591919,
	"learning_rate": 4.6328697472708245e-05,
	"loss": 0.06,
	"step": 24600
	},
	{
	"epoch": 7.39,
	"grad_norm": 1.1284308433532715,
	"learning_rate": 4.631374308359504e-05,
	"loss": 0.0528,
	"step": 24700
	},
	{
	"epoch": 7.42,
	"grad_norm": 3.3189823627471924,
	"learning_rate": 4.629878869448183e-05,
	"loss": 0.0634,
	"step": 24800
	},
	{
	"epoch": 7.45,
	"grad_norm": 2.0465550422668457,
	"learning_rate": 4.628383430536863e-05,
	"loss": 0.0599,
	"step": 24900
	},
	{
	"epoch": 7.48,
	"grad_norm": 1.93597412109375,
	"learning_rate": 4.626887991625542e-05,
	"loss": 0.0588,
	"step": 25000
	},
	{
	"epoch": 7.48,
	"eval_loss": 0.20041726529598236,
	"eval_precision": 0.9101642057026477,
	"eval_recall": 0.8805997721604729,
	"eval_runtime": 302.521,
	"eval_samples_per_second": 44.209,
	"eval_steps_per_second": 1.382,
	"step": 25000
	},
	{
	"epoch": 7.51,
	"grad_norm": 2.2025020122528076,
	"learning_rate": 4.6253925527142216e-05,
	"loss": 0.0557,
	"step": 25100
	},
	{
	"epoch": 7.54,
	"grad_norm": 2.4900927543640137,
	"learning_rate": 4.6238971138029016e-05,
	"loss": 0.0613,
	"step": 25200
	},
	{
	"epoch": 7.57,
	"grad_norm": 1.2546288967132568,
	"learning_rate": 4.622401674891581e-05,
	"loss": 0.0609,
	"step": 25300
	},
	{
	"epoch": 7.6,
	"grad_norm": 1.3969674110412598,
	"learning_rate": 4.62090623598026e-05,
	"loss": 0.0617,
	"step": 25400
	},
	{
	"epoch": 7.63,
	"grad_norm": 0.2969658374786377,
	"learning_rate": 4.61941079706894e-05,
	"loss": 0.0602,
	"step": 25500
	},
	{
	"epoch": 7.66,
	"grad_norm": 0.7388882040977478,
	"learning_rate": 4.6179153581576194e-05,
	"loss": 0.0593,
	"step": 25600
	},
	{
	"epoch": 7.69,
	"grad_norm": 0.609923779964447,
	"learning_rate": 4.6164199192462994e-05,
	"loss": 0.0596,
	"step": 25700
	},
	{
	"epoch": 7.72,
	"grad_norm": 2.3986215591430664,
	"learning_rate": 4.614924480334979e-05,
	"loss": 0.0651,
	"step": 25800
	},
	{
	"epoch": 7.75,
	"grad_norm": 1.1203041076660156,
	"learning_rate": 4.613429041423658e-05,
	"loss": 0.0649,
	"step": 25900
	},
	{
	"epoch": 7.78,
	"grad_norm": 0.7929214835166931,
	"learning_rate": 4.611933602512338e-05,
	"loss": 0.0648,
	"step": 26000
	},
	{
	"epoch": 7.78,
	"eval_loss": 0.19321496784687042,
	"eval_precision": 0.9163062916598927,
	"eval_recall": 0.8676683395424736,
	"eval_runtime": 301.2643,
	"eval_samples_per_second": 44.393,
	"eval_steps_per_second": 1.387,
	"step": 26000
	},
	{
	"epoch": 7.81,
	"grad_norm": 0.5828276872634888,
	"learning_rate": 4.610438163601017e-05,
	"loss": 0.058,
	"step": 26100
	},
	{
	"epoch": 7.83,
	"grad_norm": 0.44025149941444397,
	"learning_rate": 4.6089427246896965e-05,
	"loss": 0.0598,
	"step": 26200
	},
	{
	"epoch": 7.86,
	"grad_norm": 0.7976229786872864,
	"learning_rate": 4.6074472857783765e-05,
	"loss": 0.0655,
	"step": 26300
	},
	{
	"epoch": 7.89,
	"grad_norm": 2.6843769550323486,
	"learning_rate": 4.605951846867056e-05,
	"loss": 0.0588,
	"step": 26400
	},
	{
	"epoch": 7.92,
	"grad_norm": 1.1365008354187012,
	"learning_rate": 4.604456407955735e-05,
	"loss": 0.0563,
	"step": 26500
	},
	{
	"epoch": 7.95,
	"grad_norm": 2.463488817214966,
	"learning_rate": 4.602960969044415e-05,
	"loss": 0.0581,
	"step": 26600
	},
	{
	"epoch": 7.98,
	"grad_norm": 0.47716620564460754,
	"learning_rate": 4.601465530133094e-05,
	"loss": 0.0595,
	"step": 26700
	},
	{
	"epoch": 8.01,
	"grad_norm": 1.3218754529953003,
	"learning_rate": 4.5999700912217736e-05,
	"loss": 0.0554,
	"step": 26800
	},
	{
	"epoch": 8.04,
	"grad_norm": 1.0640392303466797,
	"learning_rate": 4.5984746523104536e-05,
	"loss": 0.0409,
	"step": 26900
	},
	{
	"epoch": 8.07,
	"grad_norm": 0.7323993444442749,
	"learning_rate": 4.596979213399133e-05,
	"loss": 0.0463,
	"step": 27000
	},
	{
	"epoch": 8.07,
	"eval_loss": 0.21357020735740662,
	"eval_precision": 0.9223724947042529,
	"eval_recall": 0.8714246128267495,
	"eval_runtime": 301.9271,
	"eval_samples_per_second": 44.295,
	"eval_steps_per_second": 1.384,
	"step": 27000
	},
	{
	"epoch": 8.1,
	"grad_norm": 2.1960983276367188,
	"learning_rate": 4.595483774487813e-05,
	"loss": 0.0424,
	"step": 27100
	},
	{
	"epoch": 8.13,
	"grad_norm": 2.5061357021331787,
	"learning_rate": 4.593988335576492e-05,
	"loss": 0.0436,
	"step": 27200
	},
	{
	"epoch": 8.16,
	"grad_norm": 0.5249370336532593,
	"learning_rate": 4.5924928966651714e-05,
	"loss": 0.0537,
	"step": 27300
	},
	{
	"epoch": 8.19,
	"grad_norm": 1.0211517810821533,
	"learning_rate": 4.5909974577538514e-05,
	"loss": 0.0448,
	"step": 27400
	},
	{
	"epoch": 8.22,
	"grad_norm": 2.860835552215576,
	"learning_rate": 4.58950201884253e-05,
	"loss": 0.0474,
	"step": 27500
	},
	{
	"epoch": 8.25,
	"grad_norm": 2.019699811935425,
	"learning_rate": 4.58800657993121e-05,
	"loss": 0.0482,
	"step": 27600
	},
	{
	"epoch": 8.28,
	"grad_norm": 0.9144898653030396,
	"learning_rate": 4.58651114101989e-05,
	"loss": 0.045,
	"step": 27700
	},
	{
	"epoch": 8.31,
	"grad_norm": 1.656792402267456,
	"learning_rate": 4.585015702108569e-05,
	"loss": 0.0475,
	"step": 27800
	},
	{
	"epoch": 8.34,
	"grad_norm": 1.1702663898468018,
	"learning_rate": 4.5835202631972485e-05,
	"loss": 0.0445,
	"step": 27900
	},
	{
	"epoch": 8.37,
	"grad_norm": 2.0331854820251465,
	"learning_rate": 4.5820248242859284e-05,
	"loss": 0.0429,
	"step": 28000
	},
	{
	"epoch": 8.37,
	"eval_loss": 0.22609786689281464,
	"eval_precision": 0.9198246970868781,
	"eval_recall": 0.8788447920194588,
	"eval_runtime": 302.1631,
	"eval_samples_per_second": 44.261,
	"eval_steps_per_second": 1.383,
	"step": 28000
	},
	{
	"epoch": 8.4,
	"grad_norm": 5.98319673538208,
	"learning_rate": 4.580529385374608e-05,
	"loss": 0.0429,
	"step": 28100
	},
	{
	"epoch": 8.43,
	"grad_norm": 1.0793452262878418,
	"learning_rate": 4.579033946463287e-05,
	"loss": 0.0525,
	"step": 28200
	},
	{
	"epoch": 8.46,
	"grad_norm": 1.4804214239120483,
	"learning_rate": 4.577538507551967e-05,
	"loss": 0.0459,
	"step": 28300
	},
	{
	"epoch": 8.49,
	"grad_norm": 0.9862244129180908,
	"learning_rate": 4.576043068640646e-05,
	"loss": 0.0534,
	"step": 28400
	},
	{
	"epoch": 8.52,
	"grad_norm": 1.26304030418396,
	"learning_rate": 4.574547629729326e-05,
	"loss": 0.048,
	"step": 28500
	},
	{
	"epoch": 8.55,
	"grad_norm": 0.4214903712272644,
	"learning_rate": 4.573052190818005e-05,
	"loss": 0.0547,
	"step": 28600
	},
	{
	"epoch": 8.58,
	"grad_norm": 0.9271091222763062,
	"learning_rate": 4.571556751906685e-05,
	"loss": 0.0537,
	"step": 28700
	},
	{
	"epoch": 8.61,
	"grad_norm": 0.8437818884849548,
	"learning_rate": 4.570061312995365e-05,
	"loss": 0.0537,
	"step": 28800
	},
	{
	"epoch": 8.64,
	"grad_norm": 0.8551807999610901,
	"learning_rate": 4.5685658740840434e-05,
	"loss": 0.0461,
	"step": 28900
	},
	{
	"epoch": 8.67,
	"grad_norm": 1.8268975019454956,
	"learning_rate": 4.5670704351727234e-05,
	"loss": 0.046,
	"step": 29000
	},
	{
	"epoch": 8.67,
	"eval_loss": 0.20938238501548767,
	"eval_precision": 0.9151901573163308,
	"eval_recall": 0.8794605745250778,
	"eval_runtime": 302.034,
	"eval_samples_per_second": 44.28,
	"eval_steps_per_second": 1.384,
	"step": 29000
	},
	{
	"epoch": 8.7,
	"grad_norm": 0.08975500613451004,
	"learning_rate": 4.565574996261403e-05,
	"loss": 0.0493,
	"step": 29100
	},
	{
	"epoch": 8.73,
	"grad_norm": 2.3698606491088867,
	"learning_rate": 4.564079557350082e-05,
	"loss": 0.0506,
	"step": 29200
	},
	{
	"epoch": 8.76,
	"grad_norm": 1.1118419170379639,
	"learning_rate": 4.562584118438762e-05,
	"loss": 0.0445,
	"step": 29300
	},
	{
	"epoch": 8.79,
	"grad_norm": 1.8186097145080566,
	"learning_rate": 4.561088679527442e-05,
	"loss": 0.0471,
	"step": 29400
	},
	{
	"epoch": 8.82,
	"grad_norm": 1.4056422710418701,
	"learning_rate": 4.559593240616121e-05,
	"loss": 0.0513,
	"step": 29500
	},
	{
	"epoch": 8.85,
	"grad_norm": 1.5597076416015625,
	"learning_rate": 4.5580978017048004e-05,
	"loss": 0.0452,
	"step": 29600
	},
	{
	"epoch": 8.88,
	"grad_norm": 0.8287553191184998,
	"learning_rate": 4.5566023627934804e-05,
	"loss": 0.0523,
	"step": 29700
	},
	{
	"epoch": 8.91,
	"grad_norm": 0.6897550821304321,
	"learning_rate": 4.55510692388216e-05,
	"loss": 0.0466,
	"step": 29800
	},
	{
	"epoch": 8.94,
	"grad_norm": 0.7071977853775024,
	"learning_rate": 4.553611484970839e-05,
	"loss": 0.0434,
	"step": 29900
	},
	{
	"epoch": 8.97,
	"grad_norm": 0.6574975252151489,
	"learning_rate": 4.552116046059518e-05,
	"loss": 0.0495,
	"step": 30000
	},
	{
	"epoch": 8.97,
	"eval_loss": 0.20542754232883453,
	"eval_precision": 0.9183409556852231,
	"eval_recall": 0.8964561716801626,
	"eval_runtime": 302.3305,
	"eval_samples_per_second": 44.236,
	"eval_steps_per_second": 1.383,
	"step": 30000
	},
	{
	"epoch": 9.0,
	"grad_norm": 1.3489534854888916,
	"learning_rate": 4.550620607148198e-05,
	"loss": 0.0499,
	"step": 30100
	},
	{
	"epoch": 9.03,
	"grad_norm": 1.0300263166427612,
	"learning_rate": 4.549125168236878e-05,
	"loss": 0.0353,
	"step": 30200
	},
	{
	"epoch": 9.06,
	"grad_norm": 0.4393318295478821,
	"learning_rate": 4.547629729325557e-05,
	"loss": 0.0352,
	"step": 30300
	},
	{
	"epoch": 9.09,
	"grad_norm": 0.4519498944282532,
	"learning_rate": 4.546134290414237e-05,
	"loss": 0.0342,
	"step": 30400
	},
	{
	"epoch": 9.12,
	"grad_norm": 0.9631327986717224,
	"learning_rate": 4.544638851502917e-05,
	"loss": 0.0364,
	"step": 30500
	},
	{
	"epoch": 9.15,
	"grad_norm": 2.7282943725585938,
	"learning_rate": 4.5431434125915954e-05,
	"loss": 0.0354,
	"step": 30600
	},
	{
	"epoch": 9.18,
	"grad_norm": 0.5908452272415161,
	"learning_rate": 4.541647973680275e-05,
	"loss": 0.0356,
	"step": 30700
	},
	{
	"epoch": 9.21,
	"grad_norm": 2.3660802841186523,
	"learning_rate": 4.540152534768955e-05,
	"loss": 0.0413,
	"step": 30800
	},
	{
	"epoch": 9.24,
	"grad_norm": 1.7346217632293701,
	"learning_rate": 4.5386570958576346e-05,
	"loss": 0.036,
	"step": 30900
	},
	{
	"epoch": 9.27,
	"grad_norm": 1.0829362869262695,
	"learning_rate": 4.537161656946314e-05,
	"loss": 0.0376,
	"step": 31000
	},
	{
	"epoch": 9.27,
	"eval_loss": 0.226752370595932,
	"eval_precision": 0.925325841962565,
	"eval_recall": 0.8721635518334924,
	"eval_runtime": 302.3165,
	"eval_samples_per_second": 44.238,
	"eval_steps_per_second": 1.383,
	"step": 31000
	},
	{
	"epoch": 9.3,
	"grad_norm": 1.2249701023101807,
	"learning_rate": 4.535666218034993e-05,
	"loss": 0.039,
	"step": 31100
	},
	{
	"epoch": 9.33,
	"grad_norm": 2.201986789703369,
	"learning_rate": 4.534170779123673e-05,
	"loss": 0.0384,
	"step": 31200
	},
	{
	"epoch": 9.36,
	"grad_norm": 0.31157541275024414,
	"learning_rate": 4.5326753402123524e-05,
	"loss": 0.0318,
	"step": 31300
	},
	{
	"epoch": 9.39,
	"grad_norm": 0.7502834796905518,
	"learning_rate": 4.531179901301032e-05,
	"loss": 0.0397,
	"step": 31400
	},
	{
	"epoch": 9.42,
	"grad_norm": 0.3627040684223175,
	"learning_rate": 4.529684462389712e-05,
	"loss": 0.0389,
	"step": 31500
	},
	{
	"epoch": 9.45,
	"grad_norm": 2.008009672164917,
	"learning_rate": 4.5281890234783916e-05,
	"loss": 0.042,
	"step": 31600
	},
	{
	"epoch": 9.48,
	"grad_norm": 2.5352540016174316,
	"learning_rate": 4.52669358456707e-05,
	"loss": 0.0407,
	"step": 31700
	},
	{
	"epoch": 9.51,
	"grad_norm": 0.543992280960083,
	"learning_rate": 4.52519814565575e-05,
	"loss": 0.0309,
	"step": 31800
	},
	{
	"epoch": 9.54,
	"grad_norm": 1.3150848150253296,
	"learning_rate": 4.52370270674443e-05,
	"loss": 0.0369,
	"step": 31900
	},
	{
	"epoch": 9.57,
	"grad_norm": 1.6026105880737305,
	"learning_rate": 4.522207267833109e-05,
	"loss": 0.0418,
	"step": 32000
	},
	{
	"epoch": 9.57,
	"eval_loss": 0.21585828065872192,
	"eval_precision": 0.9208557844690967,
	"eval_recall": 0.8945164567874627,
	"eval_runtime": 303.0508,
	"eval_samples_per_second": 44.131,
	"eval_steps_per_second": 1.379,
	"step": 32000
	},
	{
	"epoch": 9.6,
	"grad_norm": 1.8489359617233276,
	"learning_rate": 4.520711828921789e-05,
	"loss": 0.0427,
	"step": 32100
	},
	{
	"epoch": 9.63,
	"grad_norm": 2.4979922771453857,
	"learning_rate": 4.519216390010468e-05,
	"loss": 0.0337,
	"step": 32200
	},
	{
	"epoch": 9.66,
	"grad_norm": 0.3452712595462799,
	"learning_rate": 4.517720951099148e-05,
	"loss": 0.0347,
	"step": 32300
	},
	{
	"epoch": 9.69,
	"grad_norm": 1.081455945968628,
	"learning_rate": 4.516225512187827e-05,
	"loss": 0.047,
	"step": 32400
	},
	{
	"epoch": 9.72,
	"grad_norm": 2.3087069988250732,
	"learning_rate": 4.5147300732765066e-05,
	"loss": 0.0404,
	"step": 32500
	},
	{
	"epoch": 9.75,
	"grad_norm": 1.901135802268982,
	"learning_rate": 4.5132346343651865e-05,
	"loss": 0.0394,
	"step": 32600
	},
	{
	"epoch": 9.78,
	"grad_norm": 1.2389637231826782,
	"learning_rate": 4.511739195453866e-05,
	"loss": 0.0376,
	"step": 32700
	},
	{
	"epoch": 9.81,
	"grad_norm": 0.619143545627594,
	"learning_rate": 4.510243756542545e-05,
	"loss": 0.0414,
	"step": 32800
	},
	{
	"epoch": 9.84,
	"grad_norm": 1.3270721435546875,
	"learning_rate": 4.508748317631225e-05,
	"loss": 0.0405,
	"step": 32900
	},
	{
	"epoch": 9.87,
	"grad_norm": 2.503606081008911,
	"learning_rate": 4.507252878719905e-05,
	"loss": 0.0493,
	"step": 33000
	},
	{
	"epoch": 9.87,
	"eval_loss": 0.20709815621376038,
	"eval_precision": 0.9246134231259603,
	"eval_recall": 0.8708088303211305,
	"eval_runtime": 301.957,
	"eval_samples_per_second": 44.291,
	"eval_steps_per_second": 1.384,
	"step": 33000
	},
	{
	"epoch": 9.9,
	"grad_norm": 0.6343371868133545,
	"learning_rate": 4.505757439808584e-05,
	"loss": 0.0365,
	"step": 33100
	},
	{
	"epoch": 9.93,
	"grad_norm": 0.3116106688976288,
	"learning_rate": 4.5042620008972636e-05,
	"loss": 0.0358,
	"step": 33200
	},
	{
	"epoch": 9.96,
	"grad_norm": 0.7307326197624207,
	"learning_rate": 4.5027665619859436e-05,
	"loss": 0.0411,
	"step": 33300
	},
	{
	"epoch": 9.99,
	"grad_norm": 2.104717493057251,
	"learning_rate": 4.501271123074622e-05,
	"loss": 0.0401,
	"step": 33400
	},
	{
	"epoch": 10.02,
	"grad_norm": 3.8659448623657227,
	"learning_rate": 4.499775684163302e-05,
	"loss": 0.0348,
	"step": 33500
	},
	{
	"epoch": 10.05,
	"grad_norm": 1.0324366092681885,
	"learning_rate": 4.4982802452519815e-05,
	"loss": 0.0344,
	"step": 33600
	},
	{
	"epoch": 10.08,
	"grad_norm": 1.0838052034378052,
	"learning_rate": 4.4967848063406614e-05,
	"loss": 0.0327,
	"step": 33700
	},
	{
	"epoch": 10.11,
	"grad_norm": 1.8709659576416016,
	"learning_rate": 4.495289367429341e-05,
	"loss": 0.0267,
	"step": 33800
	},
	{
	"epoch": 10.14,
	"grad_norm": 0.4261041283607483,
	"learning_rate": 4.49379392851802e-05,
	"loss": 0.0305,
	"step": 33900
	},
	{
	"epoch": 10.17,
	"grad_norm": 0.16497644782066345,
	"learning_rate": 4.4922984896067e-05,
	"loss": 0.0276,
	"step": 34000
	},
	{
	"epoch": 10.17,
	"eval_loss": 0.2343963235616684,
	"eval_precision": 0.9252133285746731,
	"eval_recall": 0.8779826965115921,
	"eval_runtime": 301.9423,
	"eval_samples_per_second": 44.293,
	"eval_steps_per_second": 1.384,
	"step": 34000
	},
	{
	"epoch": 10.2,
	"grad_norm": 2.9655115604400635,
	"learning_rate": 4.490803050695379e-05,
	"loss": 0.0268,
	"step": 34100
	},
	{
	"epoch": 10.23,
	"grad_norm": 1.536979079246521,
	"learning_rate": 4.4893076117840586e-05,
	"loss": 0.0299,
	"step": 34200
	},
	{
	"epoch": 10.26,
	"grad_norm": 2.8167715072631836,
	"learning_rate": 4.4878121728727385e-05,
	"loss": 0.0325,
	"step": 34300
	},
	{
	"epoch": 10.29,
	"grad_norm": 2.1207668781280518,
	"learning_rate": 4.4863167339614185e-05,
	"loss": 0.029,
	"step": 34400
	},
	{
	"epoch": 10.32,
	"grad_norm": 2.277759552001953,
	"learning_rate": 4.484821295050097e-05,
	"loss": 0.0308,
	"step": 34500
	},
	{
	"epoch": 10.35,
	"grad_norm": 1.226417899131775,
	"learning_rate": 4.483325856138777e-05,
	"loss": 0.0299,
	"step": 34600
	},
	{
	"epoch": 10.38,
	"grad_norm": 0.63482266664505,
	"learning_rate": 4.4818304172274563e-05,
	"loss": 0.0337,
	"step": 34700
	},
	{
	"epoch": 10.41,
	"grad_norm": 1.8453493118286133,
	"learning_rate": 4.4803349783161356e-05,
	"loss": 0.0346,
	"step": 34800
	},
	{
	"epoch": 10.44,
	"grad_norm": 0.40149375796318054,
	"learning_rate": 4.4788395394048156e-05,
	"loss": 0.03,
	"step": 34900
	},
	{
	"epoch": 10.47,
	"grad_norm": 0.3980793058872223,
	"learning_rate": 4.477344100493495e-05,
	"loss": 0.035,
	"step": 35000
	},
	{
	"epoch": 10.47,
	"eval_loss": 0.22229593992233276,
	"eval_precision": 0.9262946269334285,
	"eval_recall": 0.8795221527756396,
	"eval_runtime": 302.9773,
	"eval_samples_per_second": 44.142,
	"eval_steps_per_second": 1.38,
	"step": 35000
	},
	{
	"epoch": 10.5,
	"grad_norm": 0.629266083240509,
	"learning_rate": 4.475848661582174e-05,
	"loss": 0.0363,
	"step": 35100
	},
	{
	"epoch": 10.53,
	"grad_norm": 1.134805679321289,
	"learning_rate": 4.474353222670854e-05,
	"loss": 0.0343,
	"step": 35200
	},
	{
	"epoch": 10.56,
	"grad_norm": 1.9168953895568848,
	"learning_rate": 4.4728577837595334e-05,
	"loss": 0.0333,
	"step": 35300
	},
	{
	"epoch": 10.59,
	"grad_norm": 0.7437408566474915,
	"learning_rate": 4.4713623448482134e-05,
	"loss": 0.0377,
	"step": 35400
	},
	{
	"epoch": 10.62,
	"grad_norm": 0.8649216890335083,
	"learning_rate": 4.469866905936893e-05,
	"loss": 0.0387,
	"step": 35500
	},
	{
	"epoch": 10.65,
	"grad_norm": 1.9679126739501953,
	"learning_rate": 4.468371467025572e-05,
	"loss": 0.0324,
	"step": 35600
	},
	{
	"epoch": 10.68,
	"grad_norm": 1.0343681573867798,
	"learning_rate": 4.466876028114252e-05,
	"loss": 0.0371,
	"step": 35700
	},
	{
	"epoch": 10.71,
	"grad_norm": 0.3291555941104889,
	"learning_rate": 4.465380589202931e-05,
	"loss": 0.0339,
	"step": 35800
	},
	{
	"epoch": 10.74,
	"grad_norm": 1.2407808303833008,
	"learning_rate": 4.4638851502916105e-05,
	"loss": 0.0376,
	"step": 35900
	},
	{
	"epoch": 10.77,
	"grad_norm": 1.2906955480575562,
	"learning_rate": 4.4623897113802905e-05,
	"loss": 0.0348,
	"step": 36000
	},
	{
	"epoch": 10.77,
	"eval_loss": 0.22172214090824127,
	"eval_precision": 0.9251365945617791,
	"eval_recall": 0.8914683333846486,
	"eval_runtime": 302.63,
	"eval_samples_per_second": 44.193,
	"eval_steps_per_second": 1.381,
	"step": 36000
	},
	{
	"epoch": 10.8,
	"grad_norm": 0.9678496718406677,
	"learning_rate": 4.46089427246897e-05,
	"loss": 0.0354,
	"step": 36100
	},
	{
	"epoch": 10.83,
	"grad_norm": 1.92240571975708,
	"learning_rate": 4.459398833557649e-05,
	"loss": 0.0324,
	"step": 36200
	},
	{
	"epoch": 10.86,
	"grad_norm": 2.5916824340820312,
	"learning_rate": 4.457903394646329e-05,
	"loss": 0.034,
	"step": 36300
	},
	{
	"epoch": 10.89,
	"grad_norm": 1.4677050113677979,
	"learning_rate": 4.456407955735008e-05,
	"loss": 0.0304,
	"step": 36400
	},
	{
	"epoch": 10.92,
	"grad_norm": 1.1423336267471313,
	"learning_rate": 4.4549125168236876e-05,
	"loss": 0.0315,
	"step": 36500
	},
	{
	"epoch": 10.94,
	"grad_norm": 1.0664762258529663,
	"learning_rate": 4.4534170779123676e-05,
	"loss": 0.0371,
	"step": 36600
	},
	{
	"epoch": 10.97,
	"grad_norm": 1.344557762145996,
	"learning_rate": 4.451921639001047e-05,
	"loss": 0.0334,
	"step": 36700
	},
	{
	"epoch": 11.0,
	"grad_norm": 2.944450616836548,
	"learning_rate": 4.450426200089727e-05,
	"loss": 0.0312,
	"step": 36800
	},
	{
	"epoch": 11.03,
	"grad_norm": 1.02321195602417,
	"learning_rate": 4.448930761178406e-05,
	"loss": 0.0243,
	"step": 36900
	},
	{
	"epoch": 11.06,
	"grad_norm": 1.4520535469055176,
	"learning_rate": 4.4474353222670854e-05,
	"loss": 0.0263,
	"step": 37000
	},
	{
	"epoch": 11.06,
	"eval_loss": 0.23973342776298523,
	"eval_precision": 0.928783958602846,
	"eval_recall": 0.8842020998183442,
	"eval_runtime": 302.1259,
	"eval_samples_per_second": 44.266,
	"eval_steps_per_second": 1.384,
	"step": 37000
	},
	{
	"epoch": 11.09,
	"grad_norm": 0.9927899837493896,
	"learning_rate": 4.4459398833557654e-05,
	"loss": 0.0251,
	"step": 37100
	},
	{
	"epoch": 11.12,
	"grad_norm": 0.7255445122718811,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 0.023,
	"step": 37200
	},
	{
	"epoch": 11.15,
	"grad_norm": 1.2551404237747192,
	"learning_rate": 4.442949005533124e-05,
	"loss": 0.0282,
	"step": 37300
	},
	{
	"epoch": 11.18,
	"grad_norm": 1.8652236461639404,
	"learning_rate": 4.441453566621804e-05,
	"loss": 0.0265,
	"step": 37400
	},
	{
	"epoch": 11.21,
	"grad_norm": 0.29598140716552734,
	"learning_rate": 4.439958127710483e-05,
	"loss": 0.0231,
	"step": 37500
	},
	{
	"epoch": 11.24,
	"grad_norm": 0.517977774143219,
	"learning_rate": 4.4384626887991625e-05,
	"loss": 0.0266,
	"step": 37600
	},
	{
	"epoch": 11.27,
	"grad_norm": 1.3159215450286865,
	"learning_rate": 4.4369672498878425e-05,
	"loss": 0.0246,
	"step": 37700
	},
	{
	"epoch": 11.3,
	"grad_norm": 1.8311362266540527,
	"learning_rate": 4.435471810976522e-05,
	"loss": 0.0325,
	"step": 37800
	},
	{
	"epoch": 11.33,
	"grad_norm": 2.8861258029937744,
	"learning_rate": 4.433976372065201e-05,
	"loss": 0.0303,
	"step": 37900
	},
	{
	"epoch": 11.36,
	"grad_norm": 0.6612695455551147,
	"learning_rate": 4.432480933153881e-05,
	"loss": 0.0284,
	"step": 38000
	},
	{
	"epoch": 11.36,
	"eval_loss": 0.23250487446784973,
	"eval_precision": 0.9248716302952503,
	"eval_recall": 0.8873118014717202,
	"eval_runtime": 302.5481,
	"eval_samples_per_second": 44.205,
	"eval_steps_per_second": 1.382,
	"step": 38000
	},
	{
	"epoch": 11.39,
	"grad_norm": 0.8181266784667969,
	"learning_rate": 4.43098549424256e-05,
	"loss": 0.0251,
	"step": 38100
	},
	{
	"epoch": 11.42,
	"grad_norm": 0.48834991455078125,
	"learning_rate": 4.42949005533124e-05,
	"loss": 0.0313,
	"step": 38200
	},
	{
	"epoch": 11.45,
	"grad_norm": 0.4897523820400238,
	"learning_rate": 4.4279946164199195e-05,
	"loss": 0.0328,
	"step": 38300
	},
	{
	"epoch": 11.48,
	"grad_norm": 0.7222294807434082,
	"learning_rate": 4.426499177508599e-05,
	"loss": 0.0298,
	"step": 38400
	},
	{
	"epoch": 11.51,
	"grad_norm": 0.07086914777755737,
	"learning_rate": 4.425003738597279e-05,
	"loss": 0.032,
	"step": 38500
	},
	{
	"epoch": 11.54,
	"grad_norm": 1.4812002182006836,
	"learning_rate": 4.423508299685958e-05,
	"loss": 0.0282,
	"step": 38600
	},
	{
	"epoch": 11.57,
	"grad_norm": 1.302590012550354,
	"learning_rate": 4.4220128607746374e-05,
	"loss": 0.027,
	"step": 38700
	},
	{
	"epoch": 11.6,
	"grad_norm": 1.9532426595687866,
	"learning_rate": 4.420517421863317e-05,
	"loss": 0.0304,
	"step": 38800
	},
	{
	"epoch": 11.63,
	"grad_norm": 2.029754638671875,
	"learning_rate": 4.4190219829519966e-05,
	"loss": 0.0301,
	"step": 38900
	},
	{
	"epoch": 11.66,
	"grad_norm": 1.320448398590088,
	"learning_rate": 4.417526544040676e-05,
	"loss": 0.0277,
	"step": 39000
	},
	{
	"epoch": 11.66,
	"eval_loss": 0.241913303732872,
	"eval_precision": 0.9234215627085253,
	"eval_recall": 0.8947627697897103,
	"eval_runtime": 303.3685,
	"eval_samples_per_second": 44.085,
	"eval_steps_per_second": 1.378,
	"step": 39000
	},
	{
	"epoch": 11.69,
	"grad_norm": 1.8267722129821777,
	"learning_rate": 4.416031105129356e-05,
	"loss": 0.0249,
	"step": 39100
	},
	{
	"epoch": 11.72,
	"grad_norm": 0.7122277021408081,
	"learning_rate": 4.414535666218035e-05,
	"loss": 0.0323,
	"step": 39200
	},
	{
	"epoch": 11.75,
	"grad_norm": 0.5691227316856384,
	"learning_rate": 4.4130402273067145e-05,
	"loss": 0.0325,
	"step": 39300
	},
	{
	"epoch": 11.78,
	"grad_norm": 0.40894216299057007,
	"learning_rate": 4.4115447883953944e-05,
	"loss": 0.0301,
	"step": 39400
	},
	{
	"epoch": 11.81,
	"grad_norm": 2.4805972576141357,
	"learning_rate": 4.410049349484074e-05,
	"loss": 0.0277,
	"step": 39500
	},
	{
	"epoch": 11.84,
	"grad_norm": 1.2774219512939453,
	"learning_rate": 4.408553910572754e-05,
	"loss": 0.0278,
	"step": 39600
	},
	{
	"epoch": 11.87,
	"grad_norm": 1.267562985420227,
	"learning_rate": 4.407058471661433e-05,
	"loss": 0.0286,
	"step": 39700
	},
	{
	"epoch": 11.9,
	"grad_norm": 0.6910821795463562,
	"learning_rate": 4.405563032750112e-05,
	"loss": 0.0344,
	"step": 39800
	},
	{
	"epoch": 11.93,
	"grad_norm": 0.3539283275604248,
	"learning_rate": 4.404067593838792e-05,
	"loss": 0.0298,
	"step": 39900
	},
	{
	"epoch": 11.96,
	"grad_norm": 1.7098407745361328,
	"learning_rate": 4.4025721549274715e-05,
	"loss": 0.0318,
	"step": 40000
	},
	{
	"epoch": 11.96,
	"eval_loss": 0.23493793606758118,
	"eval_precision": 0.9253437490076529,
	"eval_recall": 0.8971951106869054,
	"eval_runtime": 302.3541,
	"eval_samples_per_second": 44.233,
	"eval_steps_per_second": 1.382,
	"step": 40000
	},
	{
	"epoch": 11.99,
	"grad_norm": 2.1748311519622803,
	"learning_rate": 4.401076716016151e-05,
	"loss": 0.0312,
	"step": 40100
	},
	{
	"epoch": 12.02,
	"grad_norm": 0.8426460027694702,
	"learning_rate": 4.399581277104831e-05,
	"loss": 0.0262,
	"step": 40200
	},
	{
	"epoch": 12.05,
	"grad_norm": 0.3200826048851013,
	"learning_rate": 4.39808583819351e-05,
	"loss": 0.0237,
	"step": 40300
	},
	{
	"epoch": 12.08,
	"grad_norm": 0.2708234488964081,
	"learning_rate": 4.3965903992821893e-05,
	"loss": 0.0229,
	"step": 40400
	},
	{
	"epoch": 12.11,
	"grad_norm": 1.4237157106399536,
	"learning_rate": 4.395094960370869e-05,
	"loss": 0.0198,
	"step": 40500
	},
	{
	"epoch": 12.14,
	"grad_norm": 0.06805676221847534,
	"learning_rate": 4.3935995214595486e-05,
	"loss": 0.026,
	"step": 40600
	},
	{
	"epoch": 12.17,
	"grad_norm": 1.2842926979064941,
	"learning_rate": 4.392104082548228e-05,
	"loss": 0.0241,
	"step": 40700
	},
	{
	"epoch": 12.2,
	"grad_norm": 1.5190855264663696,
	"learning_rate": 4.390608643636908e-05,
	"loss": 0.0232,
	"step": 40800
	},
	{
	"epoch": 12.23,
	"grad_norm": 1.8280004262924194,
	"learning_rate": 4.389113204725587e-05,
	"loss": 0.0241,
	"step": 40900
	},
	{
	"epoch": 12.26,
	"grad_norm": 0.19059352576732635,
	"learning_rate": 4.3876177658142664e-05,
	"loss": 0.0238,
	"step": 41000
	},
	{
	"epoch": 12.26,
	"eval_loss": 0.24695585668087006,
	"eval_precision": 0.9256610729722858,
	"eval_recall": 0.8967332738076911,
	"eval_runtime": 302.2734,
	"eval_samples_per_second": 44.245,
	"eval_steps_per_second": 1.383,
	"step": 41000
	},
	{
	"epoch": 12.29,
	"grad_norm": 0.40746474266052246,
	"learning_rate": 4.3861223269029464e-05,
	"loss": 0.0232,
	"step": 41100
	},
	{
	"epoch": 12.32,
	"grad_norm": 1.2412996292114258,
	"learning_rate": 4.384626887991626e-05,
	"loss": 0.0215,
	"step": 41200
	},
	{
	"epoch": 12.35,
	"grad_norm": 0.2166558802127838,
	"learning_rate": 4.3831314490803056e-05,
	"loss": 0.0237,
	"step": 41300
	},
	{
	"epoch": 12.38,
	"grad_norm": 0.719872236251831,
	"learning_rate": 4.381636010168985e-05,
	"loss": 0.0253,
	"step": 41400
	},
	{
	"epoch": 12.41,
	"grad_norm": 1.5946626663208008,
	"learning_rate": 4.380140571257664e-05,
	"loss": 0.0235,
	"step": 41500
	},
	{
	"epoch": 12.44,
	"grad_norm": 1.0119950771331787,
	"learning_rate": 4.378645132346344e-05,
	"loss": 0.0257,
	"step": 41600
	},
	{
	"epoch": 12.47,
	"grad_norm": 0.9327923059463501,
	"learning_rate": 4.377149693435023e-05,
	"loss": 0.0243,
	"step": 41700
	},
	{
	"epoch": 12.5,
	"grad_norm": 0.41256028413772583,
	"learning_rate": 4.375654254523703e-05,
	"loss": 0.0272,
	"step": 41800
	},
	{
	"epoch": 12.53,
	"grad_norm": 0.1845785677433014,
	"learning_rate": 4.374158815612383e-05,
	"loss": 0.029,
	"step": 41900
	},
	{
	"epoch": 12.56,
	"grad_norm": 1.754239559173584,
	"learning_rate": 4.372663376701062e-05,
	"loss": 0.0252,
	"step": 42000
	},
	{
	"epoch": 12.56,
	"eval_loss": 0.2473253309726715,
	"eval_precision": 0.9269791733010636,
	"eval_recall": 0.8962406478031959,
	"eval_runtime": 304.5592,
	"eval_samples_per_second": 43.913,
	"eval_steps_per_second": 1.372,
	"step": 42000
	},
	{
	"epoch": 12.59,
	"grad_norm": 0.5748271346092224,
	"learning_rate": 4.371167937789741e-05,
	"loss": 0.0281,
	"step": 42100
	},
	{
	"epoch": 12.62,
	"grad_norm": 0.36274582147598267,
	"learning_rate": 4.369672498878421e-05,
	"loss": 0.0248,
	"step": 42200
	},
	{
	"epoch": 12.65,
	"grad_norm": 0.6130300164222717,
	"learning_rate": 4.3681770599671006e-05,
	"loss": 0.0269,
	"step": 42300
	},
	{
	"epoch": 12.68,
	"grad_norm": 1.2477418184280396,
	"learning_rate": 4.36668162105578e-05,
	"loss": 0.0259,
	"step": 42400
	},
	{
	"epoch": 12.71,
	"grad_norm": 0.8152483701705933,
	"learning_rate": 4.36518618214446e-05,
	"loss": 0.0263,
	"step": 42500
	},
	{
	"epoch": 12.74,
	"grad_norm": 0.04731460288167,
	"learning_rate": 4.363690743233139e-05,
	"loss": 0.024,
	"step": 42600
	},
	{
	"epoch": 12.77,
	"grad_norm": 0.7886996865272522,
	"learning_rate": 4.362195304321819e-05,
	"loss": 0.0245,
	"step": 42700
	},
	{
	"epoch": 12.8,
	"grad_norm": 2.1900315284729004,
	"learning_rate": 4.360699865410498e-05,
	"loss": 0.0292,
	"step": 42800
	},
	{
	"epoch": 12.83,
	"grad_norm": 0.45924192667007446,
	"learning_rate": 4.3592044264991777e-05,
	"loss": 0.0261,
	"step": 42900
	},
	{
	"epoch": 12.86,
	"grad_norm": 0.07307754456996918,
	"learning_rate": 4.3577089875878576e-05,
	"loss": 0.0248,
	"step": 43000
	},
	{
	"epoch": 12.86,
	"eval_loss": 0.24504822492599487,
	"eval_precision": 0.9273960876319711,
	"eval_recall": 0.9006127035930909,
	"eval_runtime": 303.9567,
	"eval_samples_per_second": 44.0,
	"eval_steps_per_second": 1.375,
	"step": 43000
	},
	{
	"epoch": 12.89,
	"grad_norm": 0.4676400423049927,
	"learning_rate": 4.356213548676536e-05,
	"loss": 0.0232,
	"step": 43100
	},
	{
	"epoch": 12.92,
	"grad_norm": 0.2993585765361786,
	"learning_rate": 4.354718109765216e-05,
	"loss": 0.0237,
	"step": 43200
	},
	{
	"epoch": 12.95,
	"grad_norm": 1.226276159286499,
	"learning_rate": 4.353222670853896e-05,
	"loss": 0.0256,
	"step": 43300
	},
	{
	"epoch": 12.98,
	"grad_norm": 1.5110477209091187,
	"learning_rate": 4.3517272319425754e-05,
	"loss": 0.0285,
	"step": 43400
	},
	{
	"epoch": 13.01,
	"grad_norm": 1.6162513494491577,
	"learning_rate": 4.350231793031255e-05,
	"loss": 0.0219,
	"step": 43500
	},
	{
	"epoch": 13.04,
	"grad_norm": 0.1792839914560318,
	"learning_rate": 4.348736354119935e-05,
	"loss": 0.0191,
	"step": 43600
	},
	{
	"epoch": 13.07,
	"grad_norm": 1.9044649600982666,
	"learning_rate": 4.347240915208614e-05,
	"loss": 0.017,
	"step": 43700
	},
	{
	"epoch": 13.1,
	"grad_norm": 0.5899202823638916,
	"learning_rate": 4.345745476297293e-05,
	"loss": 0.0241,
	"step": 43800
	},
	{
	"epoch": 13.13,
	"grad_norm": 0.6521077752113342,
	"learning_rate": 4.344250037385973e-05,
	"loss": 0.0216,
	"step": 43900
	},
	{
	"epoch": 13.16,
	"grad_norm": 0.7596339583396912,
	"learning_rate": 4.3427545984746525e-05,
	"loss": 0.0181,
	"step": 44000
	},
	{
	"epoch": 13.16,
	"eval_loss": 0.2613174319267273,
	"eval_precision": 0.9276514907592247,
	"eval_recall": 0.8870654884694725,
	"eval_runtime": 304.3764,
	"eval_samples_per_second": 43.939,
	"eval_steps_per_second": 1.373,
	"step": 44000
	},
	{
	"epoch": 13.19,
	"grad_norm": 1.0404387712478638,
	"learning_rate": 4.3412591595633325e-05,
	"loss": 0.0247,
	"step": 44100
	},
	{
	"epoch": 13.22,
	"grad_norm": 1.7849115133285522,
	"learning_rate": 4.339763720652011e-05,
	"loss": 0.0188,
	"step": 44200
	},
	{
	"epoch": 13.25,
	"grad_norm": 1.0972092151641846,
	"learning_rate": 4.338268281740691e-05,
	"loss": 0.0255,
	"step": 44300
	},
	{
	"epoch": 13.28,
	"grad_norm": 0.7391771078109741,
	"learning_rate": 4.336772842829371e-05,
	"loss": 0.0225,
	"step": 44400
	},
	{
	"epoch": 13.31,
	"grad_norm": 1.5010148286819458,
	"learning_rate": 4.3352774039180497e-05,
	"loss": 0.0217,
	"step": 44500
	},
	{
	"epoch": 13.34,
	"grad_norm": 0.7189137935638428,
	"learning_rate": 4.3337819650067296e-05,
	"loss": 0.0211,
	"step": 44600
	},
	{
	"epoch": 13.37,
	"grad_norm": 1.003636121749878,
	"learning_rate": 4.3322865260954096e-05,
	"loss": 0.0236,
	"step": 44700
	},
	{
	"epoch": 13.4,
	"grad_norm": 0.914703369140625,
	"learning_rate": 4.330791087184089e-05,
	"loss": 0.0224,
	"step": 44800
	},
	{
	"epoch": 13.43,
	"grad_norm": 0.1861487776041031,
	"learning_rate": 4.329295648272768e-05,
	"loss": 0.0251,
	"step": 44900
	},
	{
	"epoch": 13.46,
	"grad_norm": 0.7734150886535645,
	"learning_rate": 4.327800209361448e-05,
	"loss": 0.0254,
	"step": 45000
	},
	{
	"epoch": 13.46,
	"eval_loss": 0.2583397924900055,
	"eval_precision": 0.9213451745124829,
	"eval_recall": 0.9135441362110902,
	"eval_runtime": 305.1941,
	"eval_samples_per_second": 43.821,
	"eval_steps_per_second": 1.37,
	"step": 45000
	},
	{
	"epoch": 13.49,
	"grad_norm": 0.7596560716629028,
	"learning_rate": 4.3263047704501274e-05,
	"loss": 0.0246,
	"step": 45100
	},
	{
	"epoch": 13.52,
	"grad_norm": 1.4200429916381836,
	"learning_rate": 4.324809331538807e-05,
	"loss": 0.0174,
	"step": 45200
	},
	{
	"epoch": 13.55,
	"grad_norm": 2.7082788944244385,
	"learning_rate": 4.323313892627486e-05,
	"loss": 0.026,
	"step": 45300
	},
	{
	"epoch": 13.58,
	"grad_norm": 1.2132717370986938,
	"learning_rate": 4.321818453716166e-05,
	"loss": 0.0228,
	"step": 45400
	},
	{
	"epoch": 13.61,
	"grad_norm": 3.768927812576294,
	"learning_rate": 4.320323014804846e-05,
	"loss": 0.0236,
	"step": 45500
	},
	{
	"epoch": 13.64,
	"grad_norm": 1.5163260698318481,
	"learning_rate": 4.3188275758935245e-05,
	"loss": 0.0189,
	"step": 45600
	},
	{
	"epoch": 13.67,
	"grad_norm": 0.7969369888305664,
	"learning_rate": 4.3173321369822045e-05,
	"loss": 0.0245,
	"step": 45700
	},
	{
	"epoch": 13.7,
	"grad_norm": 1.445375680923462,
	"learning_rate": 4.3158366980708845e-05,
	"loss": 0.0232,
	"step": 45800
	},
	{
	"epoch": 13.73,
	"grad_norm": 0.04813400283455849,
	"learning_rate": 4.314341259159563e-05,
	"loss": 0.0215,
	"step": 45900
	},
	{
	"epoch": 13.76,
	"grad_norm": 2.0303447246551514,
	"learning_rate": 4.312845820248243e-05,
	"loss": 0.0206,
	"step": 46000
	},
	{
	"epoch": 13.76,
	"eval_loss": 0.2769757807254791,
	"eval_precision": 0.9277020832674738,
	"eval_recall": 0.9035376704947813,
	"eval_runtime": 304.0355,
	"eval_samples_per_second": 43.988,
	"eval_steps_per_second": 1.375,
	"step": 46000
	},
	{
	"epoch": 13.79,
	"grad_norm": 0.9254265427589417,
	"learning_rate": 4.311350381336923e-05,
	"loss": 0.0203,
	"step": 46100
	},
	{
	"epoch": 13.82,
	"grad_norm": 2.1310763359069824,
	"learning_rate": 4.309854942425602e-05,
	"loss": 0.0206,
	"step": 46200
	},
	{
	"epoch": 13.85,
	"grad_norm": 0.5353107452392578,
	"learning_rate": 4.3083595035142816e-05,
	"loss": 0.0206,
	"step": 46300
	},
	{
	"epoch": 13.88,
	"grad_norm": 0.9395775198936462,
	"learning_rate": 4.306864064602961e-05,
	"loss": 0.0304,
	"step": 46400
	},
	{
	"epoch": 13.91,
	"grad_norm": 0.056145694106817245,
	"learning_rate": 4.305368625691641e-05,
	"loss": 0.0237,
	"step": 46500
	},
	{
	"epoch": 13.94,
	"grad_norm": 0.03264997899532318,
	"learning_rate": 4.30387318678032e-05,
	"loss": 0.0244,
	"step": 46600
	},
	{
	"epoch": 13.97,
	"grad_norm": 1.6055926084518433,
	"learning_rate": 4.3023777478689994e-05,
	"loss": 0.0224,
	"step": 46700
	},
	{
	"epoch": 14.0,
	"grad_norm": 1.4891152381896973,
	"learning_rate": 4.3008823089576794e-05,
	"loss": 0.021,
	"step": 46800
	},
	{
	"epoch": 14.03,
	"grad_norm": 0.3057061731815338,
	"learning_rate": 4.299386870046359e-05,
	"loss": 0.0173,
	"step": 46900
	},
	{
	"epoch": 14.06,
	"grad_norm": 1.0254565477371216,
	"learning_rate": 4.297891431135038e-05,
	"loss": 0.017,
	"step": 47000
	},
	{
	"epoch": 14.06,
	"eval_loss": 0.2714207172393799,
	"eval_precision": 0.9283886660138359,
	"eval_recall": 0.9048923920071431,
	"eval_runtime": 302.2817,
	"eval_samples_per_second": 44.244,
	"eval_steps_per_second": 1.383,
	"step": 47000
	},
	{
	"epoch": 14.08,
	"grad_norm": 0.6178631782531738,
	"learning_rate": 4.296395992223718e-05,
	"loss": 0.021,
	"step": 47100
	},
	{
	"epoch": 14.11,
	"grad_norm": 3.516096353530884,
	"learning_rate": 4.294900553312398e-05,
	"loss": 0.0181,
	"step": 47200
	},
	{
	"epoch": 14.14,
	"grad_norm": 0.20362690091133118,
	"learning_rate": 4.2934051144010765e-05,
	"loss": 0.0193,
	"step": 47300
	},
	{
	"epoch": 14.17,
	"grad_norm": 2.5930867195129395,
	"learning_rate": 4.2919096754897565e-05,
	"loss": 0.0176,
	"step": 47400
	},
	{
	"epoch": 14.2,
	"grad_norm": 1.4823873043060303,
	"learning_rate": 4.2904142365784364e-05,
	"loss": 0.0173,
	"step": 47500
	},
	{
	"epoch": 14.23,
	"grad_norm": 0.5278753042221069,
	"learning_rate": 4.288918797667115e-05,
	"loss": 0.0212,
	"step": 47600
	},
	{
	"epoch": 14.26,
	"grad_norm": 1.855218529701233,
	"learning_rate": 4.287423358755795e-05,
	"loss": 0.0199,
	"step": 47700
	},
	{
	"epoch": 14.29,
	"grad_norm": 0.31464433670043945,
	"learning_rate": 4.285927919844474e-05,
	"loss": 0.0241,
	"step": 47800
	},
	{
	"epoch": 14.32,
	"grad_norm": 0.2182936817407608,
	"learning_rate": 4.284432480933154e-05,
	"loss": 0.0172,
	"step": 47900
	},
	{
	"epoch": 14.35,
	"grad_norm": 1.2800421714782715,
	"learning_rate": 4.2829370420218336e-05,
	"loss": 0.0188,
	"step": 48000
	},
	{
	"epoch": 14.35,
	"eval_loss": 0.26452192664146423,
	"eval_precision": 0.9272217673363986,
	"eval_recall": 0.9065242156470334,
	"eval_runtime": 302.9199,
	"eval_samples_per_second": 44.15,
	"eval_steps_per_second": 1.38,
	"step": 48000
	},
	{
	"epoch": 14.38,
	"grad_norm": 3.320737361907959,
	"learning_rate": 4.281441603110513e-05,
	"loss": 0.0198,
	"step": 48100
	},
	{
	"epoch": 14.41,
	"grad_norm": 0.8519121408462524,
	"learning_rate": 4.279946164199193e-05,
	"loss": 0.0182,
	"step": 48200
	},
	{
	"epoch": 14.44,
	"grad_norm": 0.4318147599697113,
	"learning_rate": 4.278450725287872e-05,
	"loss": 0.0178,
	"step": 48300
	},
	{
	"epoch": 14.47,
	"grad_norm": 0.047759074717760086,
	"learning_rate": 4.2769552863765514e-05,
	"loss": 0.021,
	"step": 48400
	},
	{
	"epoch": 14.5,
	"grad_norm": 1.6022422313690186,
	"learning_rate": 4.2754598474652314e-05,
	"loss": 0.0144,
	"step": 48500
	},
	{
	"epoch": 14.53,
	"grad_norm": 0.7104184031486511,
	"learning_rate": 4.273964408553911e-05,
	"loss": 0.0207,
	"step": 48600
	},
	{
	"epoch": 14.56,
	"grad_norm": 1.5093780755996704,
	"learning_rate": 4.27246896964259e-05,
	"loss": 0.0205,
	"step": 48700
	},
	{
	"epoch": 14.59,
	"grad_norm": 0.7566470503807068,
	"learning_rate": 4.27097353073127e-05,
	"loss": 0.0187,
	"step": 48800
	},
	{
	"epoch": 14.62,
	"grad_norm": 1.222693920135498,
	"learning_rate": 4.269478091819949e-05,
	"loss": 0.0199,
	"step": 48900
	},
	{
	"epoch": 14.65,
	"grad_norm": 1.5546650886535645,
	"learning_rate": 4.2679826529086285e-05,
	"loss": 0.0188,
	"step": 49000
	},
	{
	"epoch": 14.65,
	"eval_loss": 0.2760772109031677,
	"eval_precision": 0.9305101058710299,
	"eval_recall": 0.8930077896486961,
	"eval_runtime": 301.8588,
	"eval_samples_per_second": 44.305,
	"eval_steps_per_second": 1.385,
	"step": 49000
	},
	{
	"epoch": 14.68,
	"grad_norm": 0.6152912378311157,
	"learning_rate": 4.2664872139973084e-05,
	"loss": 0.0199,
	"step": 49100
	},
	{
	"epoch": 14.71,
	"grad_norm": 0.8479551672935486,
	"learning_rate": 4.264991775085988e-05,
	"loss": 0.0236,
	"step": 49200
	},
	{
	"epoch": 14.74,
	"grad_norm": 2.0793190002441406,
	"learning_rate": 4.263496336174668e-05,
	"loss": 0.0257,
	"step": 49300
	},
	{
	"epoch": 14.77,
	"grad_norm": 0.9795339107513428,
	"learning_rate": 4.262000897263347e-05,
	"loss": 0.019,
	"step": 49400
	},
	{
	"epoch": 14.8,
	"grad_norm": 0.49018004536628723,
	"learning_rate": 4.260505458352026e-05,
	"loss": 0.0207,
	"step": 49500
	},
	{
	"epoch": 14.83,
	"grad_norm": 0.22400274872779846,
	"learning_rate": 4.259010019440706e-05,
	"loss": 0.0212,
	"step": 49600
	},
	{
	"epoch": 14.86,
	"grad_norm": 0.8345464468002319,
	"learning_rate": 4.2575145805293855e-05,
	"loss": 0.0182,
	"step": 49700
	},
	{
	"epoch": 14.89,
	"grad_norm": 0.2443341612815857,
	"learning_rate": 4.256019141618065e-05,
	"loss": 0.0177,
	"step": 49800
	},
	{
	"epoch": 14.92,
	"grad_norm": 0.697216272354126,
	"learning_rate": 4.254523702706745e-05,
	"loss": 0.0216,
	"step": 49900
	},
	{
	"epoch": 14.95,
	"grad_norm": 0.5050187706947327,
	"learning_rate": 4.253028263795424e-05,
	"loss": 0.0166,
	"step": 50000
	},
	{
	"epoch": 14.95,
	"eval_loss": 0.282767653465271,
	"eval_precision": 0.9254008757836374,
	"eval_recall": 0.9044305551279288,
	"eval_runtime": 303.3682,
	"eval_samples_per_second": 44.085,
	"eval_steps_per_second": 1.378,
	"step": 50000
	},
	{
	"epoch": 14.98,
	"grad_norm": 0.4018344283103943,
	"learning_rate": 4.2515328248841034e-05,
	"loss": 0.02,
	"step": 50100
	},
	{
	"epoch": 15.01,
	"grad_norm": 2.2681732177734375,
	"learning_rate": 4.250037385972783e-05,
	"loss": 0.0169,
	"step": 50200
	},
	{
	"epoch": 15.04,
	"grad_norm": 0.18065716326236725,
	"learning_rate": 4.2485419470614626e-05,
	"loss": 0.0163,
	"step": 50300
	},
	{
	"epoch": 15.07,
	"grad_norm": 1.0265353918075562,
	"learning_rate": 4.247046508150142e-05,
	"loss": 0.0201,
	"step": 50400
	},
	{
	"epoch": 15.1,
	"grad_norm": 1.7455101013183594,
	"learning_rate": 4.245551069238822e-05,
	"loss": 0.0174,
	"step": 50500
	},
	{
	"epoch": 15.13,
	"grad_norm": 0.03697839379310608,
	"learning_rate": 4.244055630327501e-05,
	"loss": 0.021,
	"step": 50600
	},
	{
	"epoch": 15.16,
	"grad_norm": 0.10842275619506836,
	"learning_rate": 4.242560191416181e-05,
	"loss": 0.0196,
	"step": 50700
	},
	{
	"epoch": 15.19,
	"grad_norm": 0.6541497111320496,
	"learning_rate": 4.2410647525048604e-05,
	"loss": 0.019,
	"step": 50800
	},
	{
	"epoch": 15.22,
	"grad_norm": 1.3006408214569092,
	"learning_rate": 4.23956931359354e-05,
	"loss": 0.0178,
	"step": 50900
	},
	{
	"epoch": 15.25,
	"grad_norm": 0.6021150350570679,
	"learning_rate": 4.23807387468222e-05,
	"loss": 0.0199,
	"step": 51000
	},
	{
	"epoch": 15.25,
	"eval_loss": 0.2640076279640198,
	"eval_precision": 0.9301819557882123,
	"eval_recall": 0.9081868284122048,
	"eval_runtime": 302.9987,
	"eval_samples_per_second": 44.139,
	"eval_steps_per_second": 1.38,
	"step": 51000
	},
	{
	"epoch": 15.28,
	"grad_norm": 0.8783787488937378,
	"learning_rate": 4.236578435770899e-05,
	"loss": 0.0175,
	"step": 51100
	},
	{
	"epoch": 15.31,
	"grad_norm": 0.18405625224113464,
	"learning_rate": 4.235082996859578e-05,
	"loss": 0.0152,
	"step": 51200
	},
	{
	"epoch": 15.34,
	"grad_norm": 0.03877532109618187,
	"learning_rate": 4.233587557948258e-05,
	"loss": 0.0174,
	"step": 51300
	},
	{
	"epoch": 15.37,
	"grad_norm": 0.3079793155193329,
	"learning_rate": 4.2320921190369375e-05,
	"loss": 0.015,
	"step": 51400
	},
	{
	"epoch": 15.4,
	"grad_norm": 0.9296764731407166,
	"learning_rate": 4.230596680125617e-05,
	"loss": 0.0177,
	"step": 51500
	},
	{
	"epoch": 15.43,
	"grad_norm": 0.7762422561645508,
	"learning_rate": 4.229101241214297e-05,
	"loss": 0.0195,
	"step": 51600
	},
	{
	"epoch": 15.46,
	"grad_norm": 2.472615957260132,
	"learning_rate": 4.227605802302976e-05,
	"loss": 0.0195,
	"step": 51700
	},
	{
	"epoch": 15.49,
	"grad_norm": 2.8045852184295654,
	"learning_rate": 4.226110363391655e-05,
	"loss": 0.0201,
	"step": 51800
	},
	{
	"epoch": 15.52,
	"grad_norm": 0.053874421864748,
	"learning_rate": 4.224614924480335e-05,
	"loss": 0.018,
	"step": 51900
	},
	{
	"epoch": 15.55,
	"grad_norm": 0.3398553729057312,
	"learning_rate": 4.2231194855690146e-05,
	"loss": 0.0167,
	"step": 52000
	},
	{
	"epoch": 15.55,
	"eval_loss": 0.2754287123680115,
	"eval_precision": 0.927292017724521,
	"eval_recall": 0.914929646848733,
	"eval_runtime": 302.6973,
	"eval_samples_per_second": 44.183,
	"eval_steps_per_second": 1.381,
	"step": 52000
	},
	{
	"epoch": 15.58,
	"grad_norm": 1.1841187477111816,
	"learning_rate": 4.2216240466576945e-05,
	"loss": 0.0157,
	"step": 52100
	},
	{
	"epoch": 15.61,
	"grad_norm": 1.0184565782546997,
	"learning_rate": 4.220128607746374e-05,
	"loss": 0.0145,
	"step": 52200
	},
	{
	"epoch": 15.64,
	"grad_norm": 0.6707783937454224,
	"learning_rate": 4.218633168835053e-05,
	"loss": 0.0215,
	"step": 52300
	},
	{
	"epoch": 15.67,
	"grad_norm": 0.8084210157394409,
	"learning_rate": 4.217137729923733e-05,
	"loss": 0.0185,
	"step": 52400
	},
	{
	"epoch": 15.7,
	"grad_norm": 0.24998579919338226,
	"learning_rate": 4.2156422910124124e-05,
	"loss": 0.0192,
	"step": 52500
	},
	{
	"epoch": 15.73,
	"grad_norm": 0.11048603802919388,
	"learning_rate": 4.214146852101092e-05,
	"loss": 0.0177,
	"step": 52600
	},
	{
	"epoch": 15.76,
	"grad_norm": 0.8540931940078735,
	"learning_rate": 4.2126514131897716e-05,
	"loss": 0.018,
	"step": 52700
	},
	{
	"epoch": 15.79,
	"grad_norm": 0.3726775646209717,
	"learning_rate": 4.211155974278451e-05,
	"loss": 0.0181,
	"step": 52800
	},
	{
	"epoch": 15.82,
	"grad_norm": 0.13543102145195007,
	"learning_rate": 4.20966053536713e-05,
	"loss": 0.0201,
	"step": 52900
	},
	{
	"epoch": 15.85,
	"grad_norm": 0.3862367570400238,
	"learning_rate": 4.20816509645581e-05,
	"loss": 0.0184,
	"step": 53000
	},
	{
	"epoch": 15.85,
	"eval_loss": 0.2746909558773041,
	"eval_precision": 0.9290507850298093,
	"eval_recall": 0.9164075248622187,
	"eval_runtime": 304.9585,
	"eval_samples_per_second": 43.855,
	"eval_steps_per_second": 1.371,
	"step": 53000
	},
	{
	"epoch": 15.88,
	"grad_norm": 0.5059983730316162,
	"learning_rate": 4.2066696575444895e-05,
	"loss": 0.0182,
	"step": 53100
	},
	{
	"epoch": 15.91,
	"grad_norm": 0.45346036553382874,
	"learning_rate": 4.205174218633169e-05,
	"loss": 0.0208,
	"step": 53200
	},
	{
	"epoch": 15.94,
	"grad_norm": 1.0658683776855469,
	"learning_rate": 4.203678779721849e-05,
	"loss": 0.0149,
	"step": 53300
	},
	{
	"epoch": 15.97,
	"grad_norm": 0.2168959081172943,
	"learning_rate": 4.202183340810528e-05,
	"loss": 0.0191,
	"step": 53400
	},
	{
	"epoch": 16.0,
	"grad_norm": 1.7620713710784912,
	"learning_rate": 4.200687901899207e-05,
	"loss": 0.0219,
	"step": 53500
	},
	{
	"epoch": 16.03,
	"grad_norm": 0.33198004961013794,
	"learning_rate": 4.199192462987887e-05,
	"loss": 0.014,
	"step": 53600
	},
	{
	"epoch": 16.06,
	"grad_norm": 3.614070415496826,
	"learning_rate": 4.1976970240765665e-05,
	"loss": 0.0132,
	"step": 53700
	},
	{
	"epoch": 16.09,
	"grad_norm": 0.7846044898033142,
	"learning_rate": 4.1962015851652465e-05,
	"loss": 0.014,
	"step": 53800
	},
	{
	"epoch": 16.12,
	"grad_norm": 1.2382973432540894,
	"learning_rate": 4.194706146253926e-05,
	"loss": 0.0198,
	"step": 53900
	},
	{
	"epoch": 16.15,
	"grad_norm": 1.7487576007843018,
	"learning_rate": 4.193210707342605e-05,
	"loss": 0.0156,
	"step": 54000
	},
	{
	"epoch": 16.15,
	"eval_loss": 0.27493321895599365,
	"eval_precision": 0.926791958041958,
	"eval_recall": 0.9140367622155855,
	"eval_runtime": 304.8434,
	"eval_samples_per_second": 43.872,
	"eval_steps_per_second": 1.371,
	"step": 54000
	},
	{
	"epoch": 16.18,
	"grad_norm": 2.473257541656494,
	"learning_rate": 4.191715268431285e-05,
	"loss": 0.0144,
	"step": 54100
	},
	{
	"epoch": 16.21,
	"grad_norm": 1.7735458612442017,
	"learning_rate": 4.1902198295199643e-05,
	"loss": 0.0128,
	"step": 54200
	},
	{
	"epoch": 16.24,
	"grad_norm": 0.09201900660991669,
	"learning_rate": 4.1887243906086436e-05,
	"loss": 0.0121,
	"step": 54300
	},
	{
	"epoch": 16.27,
	"grad_norm": 4.265335559844971,
	"learning_rate": 4.1872289516973236e-05,
	"loss": 0.0193,
	"step": 54400
	},
	{
	"epoch": 16.3,
	"grad_norm": 0.05550719425082207,
	"learning_rate": 4.185733512786003e-05,
	"loss": 0.0191,
	"step": 54500
	},
	{
	"epoch": 16.33,
	"grad_norm": 1.2244312763214111,
	"learning_rate": 4.184238073874682e-05,
	"loss": 0.0144,
	"step": 54600
	},
	{
	"epoch": 16.36,
	"grad_norm": 0.11609119921922684,
	"learning_rate": 4.182742634963362e-05,
	"loss": 0.0195,
	"step": 54700
	},
	{
	"epoch": 16.39,
	"grad_norm": 0.7442992329597473,
	"learning_rate": 4.1812471960520414e-05,
	"loss": 0.0161,
	"step": 54800
	},
	{
	"epoch": 16.42,
	"grad_norm": 1.913397192955017,
	"learning_rate": 4.179751757140721e-05,
	"loss": 0.017,
	"step": 54900
	},
	{
	"epoch": 16.45,
	"grad_norm": 1.5975757837295532,
	"learning_rate": 4.178256318229401e-05,
	"loss": 0.0131,
	"step": 55000
	},
	{
	"epoch": 16.45,
	"eval_loss": 0.28440138697624207,
	"eval_precision": 0.9323552610821896,
	"eval_recall": 0.9098494411773762,
	"eval_runtime": 302.3846,
	"eval_samples_per_second": 44.228,
	"eval_steps_per_second": 1.382,
	"step": 55000
	},
	{
	"epoch": 16.48,
	"grad_norm": 0.02616269886493683,
	"learning_rate": 4.17676087931808e-05,
	"loss": 0.0166,
	"step": 55100
	},
	{
	"epoch": 16.51,
	"grad_norm": 0.270749032497406,
	"learning_rate": 4.17526544040676e-05,
	"loss": 0.0167,
	"step": 55200
	},
	{
	"epoch": 16.54,
	"grad_norm": 0.8699542880058289,
	"learning_rate": 4.173770001495439e-05,
	"loss": 0.0178,
	"step": 55300
	},
	{
	"epoch": 16.57,
	"grad_norm": 0.15558452904224396,
	"learning_rate": 4.1722745625841185e-05,
	"loss": 0.0155,
	"step": 55400
	},
	{
	"epoch": 16.6,
	"grad_norm": 1.3881036043167114,
	"learning_rate": 4.1707791236727985e-05,
	"loss": 0.0162,
	"step": 55500
	},
	{
	"epoch": 16.63,
	"grad_norm": 1.0590258836746216,
	"learning_rate": 4.169283684761478e-05,
	"loss": 0.019,
	"step": 55600
	},
	{
	"epoch": 16.66,
	"grad_norm": 0.6527047157287598,
	"learning_rate": 4.167788245850157e-05,
	"loss": 0.0162,
	"step": 55700
	},
	{
	"epoch": 16.69,
	"grad_norm": 0.7468928694725037,
	"learning_rate": 4.166292806938837e-05,
	"loss": 0.0187,
	"step": 55800
	},
	{
	"epoch": 16.72,
	"grad_norm": 1.1580772399902344,
	"learning_rate": 4.164797368027516e-05,
	"loss": 0.0152,
	"step": 55900
	},
	{
	"epoch": 16.75,
	"grad_norm": 0.27484288811683655,
	"learning_rate": 4.1633019291161956e-05,
	"loss": 0.018,
	"step": 56000
	},
	{
	"epoch": 16.75,
	"eval_loss": 0.2911526560783386,
	"eval_precision": 0.9246059786783004,
	"eval_recall": 0.9265987253302134,
	"eval_runtime": 304.1503,
	"eval_samples_per_second": 43.972,
	"eval_steps_per_second": 1.374,
	"step": 56000
	},
	{
	"epoch": 16.78,
	"grad_norm": 0.12976956367492676,
	"learning_rate": 4.1618064902048756e-05,
	"loss": 0.0185,
	"step": 56100
	},
	{
	"epoch": 16.81,
	"grad_norm": 0.37897953391075134,
	"learning_rate": 4.160311051293555e-05,
	"loss": 0.0152,
	"step": 56200
	},
	{
	"epoch": 16.84,
	"grad_norm": 0.07681228220462799,
	"learning_rate": 4.158815612382234e-05,
	"loss": 0.0163,
	"step": 56300
	},
	{
	"epoch": 16.87,
	"grad_norm": 0.5966798663139343,
	"learning_rate": 4.157320173470914e-05,
	"loss": 0.014,
	"step": 56400
	},
	{
	"epoch": 16.9,
	"grad_norm": 0.29120373725891113,
	"learning_rate": 4.1558247345595934e-05,
	"loss": 0.018,
	"step": 56500
	},
	{
	"epoch": 16.93,
	"grad_norm": 0.4325448274612427,
	"learning_rate": 4.1543292956482734e-05,
	"loss": 0.0145,
	"step": 56600
	},
	{
	"epoch": 16.96,
	"grad_norm": 1.473797082901001,
	"learning_rate": 4.1528338567369527e-05,
	"loss": 0.0164,
	"step": 56700
	},
	{
	"epoch": 16.99,
	"grad_norm": 0.963238537311554,
	"learning_rate": 4.151338417825632e-05,
	"loss": 0.0168,
	"step": 56800
	},
	{
	"epoch": 17.02,
	"grad_norm": 1.2749171257019043,
	"learning_rate": 4.149842978914312e-05,
	"loss": 0.0172,
	"step": 56900
	},
	{
	"epoch": 17.05,
	"grad_norm": 0.1201496422290802,
	"learning_rate": 4.148347540002991e-05,
	"loss": 0.0132,
	"step": 57000
	},
	{
	"epoch": 17.05,
	"eval_loss": 0.2895963788032532,
	"eval_precision": 0.9242246747641655,
	"eval_recall": 0.9230579759229041,
	"eval_runtime": 304.3955,
	"eval_samples_per_second": 43.936,
	"eval_steps_per_second": 1.373,
	"step": 57000
	},
	{
	"epoch": 17.08,
	"grad_norm": 0.0923817902803421,
	"learning_rate": 4.1468521010916705e-05,
	"loss": 0.0155,
	"step": 57100
	},
	{
	"epoch": 17.11,
	"grad_norm": 0.17687027156352997,
	"learning_rate": 4.1453566621803505e-05,
	"loss": 0.0142,
	"step": 57200
	},
	{
	"epoch": 17.14,
	"grad_norm": 0.5095121264457703,
	"learning_rate": 4.14386122326903e-05,
	"loss": 0.0122,
	"step": 57300
	},
	{
	"epoch": 17.17,
	"grad_norm": 0.14807282388210297,
	"learning_rate": 4.142365784357709e-05,
	"loss": 0.0122,
	"step": 57400
	},
	{
	"epoch": 17.19,
	"grad_norm": 0.22806455194950104,
	"learning_rate": 4.140870345446389e-05,
	"loss": 0.0126,
	"step": 57500
	},
	{
	"epoch": 17.22,
	"grad_norm": 0.1654992550611496,
	"learning_rate": 4.139374906535068e-05,
	"loss": 0.012,
	"step": 57600
	},
	{
	"epoch": 17.25,
	"grad_norm": 1.1821808815002441,
	"learning_rate": 4.1378794676237476e-05,
	"loss": 0.0154,
	"step": 57700
	},
	{
	"epoch": 17.28,
	"grad_norm": 0.33708083629608154,
	"learning_rate": 4.1363840287124275e-05,
	"loss": 0.0118,
	"step": 57800
	},
	{
	"epoch": 17.31,
	"grad_norm": 0.2778627276420593,
	"learning_rate": 4.134888589801107e-05,
	"loss": 0.0153,
	"step": 57900
	},
	{
	"epoch": 17.34,
	"grad_norm": 0.4350825250148773,
	"learning_rate": 4.133393150889787e-05,
	"loss": 0.0131,
	"step": 58000
	},
	{
	"epoch": 17.34,
	"eval_loss": 0.2985839247703552,
	"eval_precision": 0.9294326572576876,
	"eval_recall": 0.9185011853813233,
	"eval_runtime": 303.6403,
	"eval_samples_per_second": 44.046,
	"eval_steps_per_second": 1.377,
	"step": 58000
	},
	{
	"epoch": 17.37,
	"grad_norm": 1.0241811275482178,
	"learning_rate": 4.131897711978466e-05,
	"loss": 0.0152,
	"step": 58100
	},
	{
	"epoch": 17.4,
	"grad_norm": 0.705042839050293,
	"learning_rate": 4.1304022730671454e-05,
	"loss": 0.0165,
	"step": 58200
	},
	{
	"epoch": 17.43,
	"grad_norm": 0.9130484461784363,
	"learning_rate": 4.128906834155825e-05,
	"loss": 0.0143,
	"step": 58300
	},
	{
	"epoch": 17.46,
	"grad_norm": 0.0633108988404274,
	"learning_rate": 4.127411395244504e-05,
	"loss": 0.0147,
	"step": 58400
	},
	{
	"epoch": 17.49,
	"grad_norm": 1.2173391580581665,
	"learning_rate": 4.125915956333184e-05,
	"loss": 0.0134,
	"step": 58500
	},
	{
	"epoch": 17.52,
	"grad_norm": 2.9922380447387695,
	"learning_rate": 4.124420517421864e-05,
	"loss": 0.0145,
	"step": 58600
	},
	{
	"epoch": 17.55,
	"grad_norm": 0.015288499183952808,
	"learning_rate": 4.1229250785105425e-05,
	"loss": 0.0169,
	"step": 58700
	},
	{
	"epoch": 17.58,
	"grad_norm": 1.87058424949646,
	"learning_rate": 4.1214296395992225e-05,
	"loss": 0.0158,
	"step": 58800
	},
	{
	"epoch": 17.61,
	"grad_norm": 0.31113335490226746,
	"learning_rate": 4.1199342006879024e-05,
	"loss": 0.0151,
	"step": 58900
	},
	{
	"epoch": 17.64,
	"grad_norm": 0.8044542670249939,
	"learning_rate": 4.118438761776582e-05,
	"loss": 0.0143,
	"step": 59000
	},
	{
	"epoch": 17.64,
	"eval_loss": 0.2973649501800537,
	"eval_precision": 0.9298240060774879,
	"eval_recall": 0.9044305551279288,
	"eval_runtime": 302.1441,
	"eval_samples_per_second": 44.264,
	"eval_steps_per_second": 1.383,
	"step": 59000
	},
	{
	"epoch": 17.67,
	"grad_norm": 0.08827254921197891,
	"learning_rate": 4.116943322865261e-05,
	"loss": 0.0157,
	"step": 59100
	},
	{
	"epoch": 17.7,
	"grad_norm": 1.8845312595367432,
	"learning_rate": 4.115447883953941e-05,
	"loss": 0.0155,
	"step": 59200
	},
	{
	"epoch": 17.73,
	"grad_norm": 0.49602124094963074,
	"learning_rate": 4.11395244504262e-05,
	"loss": 0.0162,
	"step": 59300
	},
	{
	"epoch": 17.76,
	"grad_norm": 0.3592805564403534,
	"learning_rate": 4.1124570061312995e-05,
	"loss": 0.0149,
	"step": 59400
	},
	{
	"epoch": 17.79,
	"grad_norm": 1.320101261138916,
	"learning_rate": 4.110961567219979e-05,
	"loss": 0.0156,
	"step": 59500
	},
	{
	"epoch": 17.82,
	"grad_norm": 0.4389740526676178,
	"learning_rate": 4.109466128308659e-05,
	"loss": 0.0151,
	"step": 59600
	},
	{
	"epoch": 17.85,
	"grad_norm": 1.6578569412231445,
	"learning_rate": 4.107970689397339e-05,
	"loss": 0.0166,
	"step": 59700
	},
	{
	"epoch": 17.88,
	"grad_norm": 1.7992475032806396,
	"learning_rate": 4.1064752504860174e-05,
	"loss": 0.0148,
	"step": 59800
	},
	{
	"epoch": 17.91,
	"grad_norm": 0.026478100568056107,
	"learning_rate": 4.1049798115746973e-05,
	"loss": 0.0158,
	"step": 59900
	},
	{
	"epoch": 17.94,
	"grad_norm": 2.8473379611968994,
	"learning_rate": 4.103484372663377e-05,
	"loss": 0.0159,
	"step": 60000
	},
	{
	"epoch": 17.94,
	"eval_loss": 0.2935677468776703,
	"eval_precision": 0.9302795129030222,
	"eval_recall": 0.9079097262846763,
	"eval_runtime": 302.5843,
	"eval_samples_per_second": 44.199,
	"eval_steps_per_second": 1.381,
	"step": 60000
	},
	{
	"epoch": 17.97,
	"grad_norm": 2.1734695434570312,
	"learning_rate": 4.101988933752056e-05,
	"loss": 0.0183,
	"step": 60100
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.14518772065639496,
	"learning_rate": 4.100493494840736e-05,
	"loss": 0.0172,
	"step": 60200
	},
	{
	"epoch": 18.03,
	"grad_norm": 0.3986850380897522,
	"learning_rate": 4.098998055929416e-05,
	"loss": 0.0101,
	"step": 60300
	},
	{
	"epoch": 18.06,
	"grad_norm": 1.78749680519104,
	"learning_rate": 4.097502617018095e-05,
	"loss": 0.0123,
	"step": 60400
	},
	{
	"epoch": 18.09,
	"grad_norm": 0.43207836151123047,
	"learning_rate": 4.0960071781067744e-05,
	"loss": 0.0132,
	"step": 60500
	},
	{
	"epoch": 18.12,
	"grad_norm": 0.11268942803144455,
	"learning_rate": 4.0945117391954544e-05,
	"loss": 0.0131,
	"step": 60600
	},
	{
	"epoch": 18.15,
	"grad_norm": 0.5929433107376099,
	"learning_rate": 4.093016300284134e-05,
	"loss": 0.0118,
	"step": 60700
	},
	{
	"epoch": 18.18,
	"grad_norm": 0.012462102808058262,
	"learning_rate": 4.091520861372813e-05,
	"loss": 0.0114,
	"step": 60800
	},
	{
	"epoch": 18.21,
	"grad_norm": 0.03992025554180145,
	"learning_rate": 4.090025422461492e-05,
	"loss": 0.0123,
	"step": 60900
	},
	{
	"epoch": 18.24,
	"grad_norm": 0.2556318938732147,
	"learning_rate": 4.088529983550172e-05,
	"loss": 0.0163,
	"step": 61000
	},
	{
	"epoch": 18.24,
	"eval_loss": 0.3005661070346832,
	"eval_precision": 0.930046845034112,
	"eval_recall": 0.9108039040610856,
	"eval_runtime": 303.0262,
	"eval_samples_per_second": 44.135,
	"eval_steps_per_second": 1.379,
	"step": 61000
	},
	{
	"epoch": 18.27,
	"grad_norm": 0.0933234691619873,
	"learning_rate": 4.087034544638852e-05,
	"loss": 0.0139,
	"step": 61100
	},
	{
	"epoch": 18.3,
	"grad_norm": 4.561667442321777,
	"learning_rate": 4.085539105727531e-05,
	"loss": 0.015,
	"step": 61200
	},
	{
	"epoch": 18.33,
	"grad_norm": 1.8393715620040894,
	"learning_rate": 4.084043666816211e-05,
	"loss": 0.0113,
	"step": 61300
	},
	{
	"epoch": 18.36,
	"grad_norm": 0.5815320611000061,
	"learning_rate": 4.082548227904891e-05,
	"loss": 0.0158,
	"step": 61400
	},
	{
	"epoch": 18.39,
	"grad_norm": 0.9265565872192383,
	"learning_rate": 4.0810527889935693e-05,
	"loss": 0.0165,
	"step": 61500
	},
	{
	"epoch": 18.42,
	"grad_norm": 0.029577825218439102,
	"learning_rate": 4.079557350082249e-05,
	"loss": 0.0151,
	"step": 61600
	},
	{
	"epoch": 18.45,
	"grad_norm": 0.13609355688095093,
	"learning_rate": 4.078061911170929e-05,
	"loss": 0.0147,
	"step": 61700
	},
	{
	"epoch": 18.48,
	"grad_norm": 0.2505282461643219,
	"learning_rate": 4.0765664722596086e-05,
	"loss": 0.0117,
	"step": 61800
	},
	{
	"epoch": 18.51,
	"grad_norm": 0.49616509675979614,
	"learning_rate": 4.075071033348288e-05,
	"loss": 0.0136,
	"step": 61900
	},
	{
	"epoch": 18.54,
	"grad_norm": 1.4143670797348022,
	"learning_rate": 4.073575594436967e-05,
	"loss": 0.0199,
	"step": 62000
	},
	{
	"epoch": 18.54,
	"eval_loss": 0.28239989280700684,
	"eval_precision": 0.9322552865754473,
	"eval_recall": 0.89993534283691,
	"eval_runtime": 303.1737,
	"eval_samples_per_second": 44.113,
	"eval_steps_per_second": 1.379,
	"step": 62000
	},
	{
	"epoch": 18.57,
	"grad_norm": 2.5461013317108154,
	"learning_rate": 4.072080155525647e-05,
	"loss": 0.0122,
	"step": 62100
	},
	{
	"epoch": 18.6,
	"grad_norm": 0.3786807358264923,
	"learning_rate": 4.0705847166143264e-05,
	"loss": 0.0122,
	"step": 62200
	},
	{
	"epoch": 18.63,
	"grad_norm": 1.546884536743164,
	"learning_rate": 4.069089277703006e-05,
	"loss": 0.0133,
	"step": 62300
	},
	{
	"epoch": 18.66,
	"grad_norm": 0.04791215434670448,
	"learning_rate": 4.0675938387916856e-05,
	"loss": 0.0118,
	"step": 62400
	},
	{
	"epoch": 18.69,
	"grad_norm": 0.12534143030643463,
	"learning_rate": 4.0660983998803656e-05,
	"loss": 0.0145,
	"step": 62500
	},
	{
	"epoch": 18.72,
	"grad_norm": 1.358917474746704,
	"learning_rate": 4.064602960969044e-05,
	"loss": 0.0152,
	"step": 62600
	},
	{
	"epoch": 18.75,
	"grad_norm": 0.10757000744342804,
	"learning_rate": 4.063107522057724e-05,
	"loss": 0.0155,
	"step": 62700
	},
	{
	"epoch": 18.78,
	"grad_norm": 2.365614652633667,
	"learning_rate": 4.061612083146404e-05,
	"loss": 0.0156,
	"step": 62800
	},
	{
	"epoch": 18.81,
	"grad_norm": 0.4936872124671936,
	"learning_rate": 4.060116644235083e-05,
	"loss": 0.0132,
	"step": 62900
	},
	{
	"epoch": 18.84,
	"grad_norm": 0.022019200026988983,
	"learning_rate": 4.058621205323763e-05,
	"loss": 0.0124,
	"step": 63000
	},
	{
	"epoch": 18.84,
	"eval_loss": 0.30277740955352783,
	"eval_precision": 0.930499515185637,
	"eval_recall": 0.9159456879830044,
	"eval_runtime": 304.0566,
	"eval_samples_per_second": 43.985,
	"eval_steps_per_second": 1.375,
	"step": 63000
	},
	{
	"epoch": 18.87,
	"grad_norm": 0.3624964654445648,
	"learning_rate": 4.057125766412442e-05,
	"loss": 0.0155,
	"step": 63100
	},
	{
	"epoch": 18.9,
	"grad_norm": 1.7629303932189941,
	"learning_rate": 4.055630327501122e-05,
	"loss": 0.0139,
	"step": 63200
	},
	{
	"epoch": 18.93,
	"grad_norm": 0.18042436242103577,
	"learning_rate": 4.054134888589801e-05,
	"loss": 0.0179,
	"step": 63300
	},
	{
	"epoch": 18.96,
	"grad_norm": 0.20951129496097565,
	"learning_rate": 4.0526394496784806e-05,
	"loss": 0.0172,
	"step": 63400
	},
	{
	"epoch": 18.99,
	"grad_norm": 0.8891457915306091,
	"learning_rate": 4.0511440107671605e-05,
	"loss": 0.0126,
	"step": 63500
	},
	{
	"epoch": 19.02,
	"grad_norm": 0.22427305579185486,
	"learning_rate": 4.04964857185584e-05,
	"loss": 0.0112,
	"step": 63600
	},
	{
	"epoch": 19.05,
	"grad_norm": 0.25893327593803406,
	"learning_rate": 4.048153132944519e-05,
	"loss": 0.0123,
	"step": 63700
	},
	{
	"epoch": 19.08,
	"grad_norm": 1.579196810722351,
	"learning_rate": 4.046657694033199e-05,
	"loss": 0.0117,
	"step": 63800
	},
	{
	"epoch": 19.11,
	"grad_norm": 1.801465630531311,
	"learning_rate": 4.045162255121879e-05,
	"loss": 0.0113,
	"step": 63900
	},
	{
	"epoch": 19.14,
	"grad_norm": 3.969907522201538,
	"learning_rate": 4.0436668162105577e-05,
	"loss": 0.0132,
	"step": 64000
	},
	{
	"epoch": 19.14,
	"eval_loss": 0.3150152266025543,
	"eval_precision": 0.9289555972482801,
	"eval_recall": 0.9146833338464854,
	"eval_runtime": 304.0309,
	"eval_samples_per_second": 43.989,
	"eval_steps_per_second": 1.375,
	"step": 64000
	},
	{
	"epoch": 19.17,
	"grad_norm": 1.5782831907272339,
	"learning_rate": 4.0421713772992376e-05,
	"loss": 0.0106,
	"step": 64100
	},
	{
	"epoch": 19.2,
	"grad_norm": 1.0305448770523071,
	"learning_rate": 4.0406759383879176e-05,
	"loss": 0.0115,
	"step": 64200
	},
	{
	"epoch": 19.23,
	"grad_norm": 0.8879725337028503,
	"learning_rate": 4.039180499476596e-05,
	"loss": 0.0108,
	"step": 64300
	},
	{
	"epoch": 19.26,
	"grad_norm": 1.0525989532470703,
	"learning_rate": 4.037685060565276e-05,
	"loss": 0.0113,
	"step": 64400
	},
	{
	"epoch": 19.29,
	"grad_norm": 0.19859521090984344,
	"learning_rate": 4.0361896216539554e-05,
	"loss": 0.011,
	"step": 64500
	},
	{
	"epoch": 19.32,
	"grad_norm": 1.628808856010437,
	"learning_rate": 4.034694182742635e-05,
	"loss": 0.0126,
	"step": 64600
	},
	{
	"epoch": 19.35,
	"grad_norm": 0.45845118165016174,
	"learning_rate": 4.033198743831315e-05,
	"loss": 0.0117,
	"step": 64700
	},
	{
	"epoch": 19.38,
	"grad_norm": 0.02105000615119934,
	"learning_rate": 4.031703304919994e-05,
	"loss": 0.0103,
	"step": 64800
	},
	{
	"epoch": 19.41,
	"grad_norm": 1.2173235416412354,
	"learning_rate": 4.030207866008674e-05,
	"loss": 0.013,
	"step": 64900
	},
	{
	"epoch": 19.44,
	"grad_norm": 1.0716986656188965,
	"learning_rate": 4.028712427097353e-05,
	"loss": 0.0136,
	"step": 65000
	},
	{
	"epoch": 19.44,
	"eval_loss": 0.30169057846069336,
	"eval_precision": 0.9307780320366132,
	"eval_recall": 0.9016903229779242,
	"eval_runtime": 303.9363,
	"eval_samples_per_second": 44.003,
	"eval_steps_per_second": 1.375,
	"step": 65000
	},
	{
	"epoch": 19.47,
	"grad_norm": 0.060731422156095505,
	"learning_rate": 4.0272169881860325e-05,
	"loss": 0.0103,
	"step": 65100
	},
	{
	"epoch": 19.5,
	"grad_norm": 1.8369615077972412,
	"learning_rate": 4.0257215492747125e-05,
	"loss": 0.0149,
	"step": 65200
	},
	{
	"epoch": 19.53,
	"grad_norm": 0.5922613143920898,
	"learning_rate": 4.024226110363392e-05,
	"loss": 0.0137,
	"step": 65300
	},
	{
	"epoch": 19.56,
	"grad_norm": 1.1230493783950806,
	"learning_rate": 4.022730671452071e-05,
	"loss": 0.016,
	"step": 65400
	},
	{
	"epoch": 19.59,
	"grad_norm": 0.9484757781028748,
	"learning_rate": 4.021235232540751e-05,
	"loss": 0.0126,
	"step": 65500
	},
	{
	"epoch": 19.62,
	"grad_norm": 0.40328437089920044,
	"learning_rate": 4.01973979362943e-05,
	"loss": 0.014,
	"step": 65600
	},
	{
	"epoch": 19.65,
	"grad_norm": 1.251897931098938,
	"learning_rate": 4.0182443547181096e-05,
	"loss": 0.0152,
	"step": 65700
	},
	{
	"epoch": 19.68,
	"grad_norm": 0.06640147417783737,
	"learning_rate": 4.0167489158067896e-05,
	"loss": 0.0119,
	"step": 65800
	},
	{
	"epoch": 19.71,
	"grad_norm": 0.08419325947761536,
	"learning_rate": 4.015253476895469e-05,
	"loss": 0.0104,
	"step": 65900
	},
	{
	"epoch": 19.74,
	"grad_norm": 0.8898499011993408,
	"learning_rate": 4.013758037984148e-05,
	"loss": 0.013,
	"step": 66000
	},
	{
	"epoch": 19.74,
	"eval_loss": 0.30586904287338257,
	"eval_precision": 0.9286385564814235,
	"eval_recall": 0.9127128298285045,
	"eval_runtime": 303.8354,
	"eval_samples_per_second": 44.017,
	"eval_steps_per_second": 1.376,
	"step": 66000
	},
	{
	"epoch": 19.77,
	"grad_norm": 0.8399672508239746,
	"learning_rate": 4.012262599072828e-05,
	"loss": 0.0156,
	"step": 66100
	},
	{
	"epoch": 19.8,
	"grad_norm": 1.188772201538086,
	"learning_rate": 4.0107671601615074e-05,
	"loss": 0.0133,
	"step": 66200
	},
	{
	"epoch": 19.83,
	"grad_norm": 0.3390734791755676,
	"learning_rate": 4.0092717212501874e-05,
	"loss": 0.011,
	"step": 66300
	},
	{
	"epoch": 19.86,
	"grad_norm": 2.0773940086364746,
	"learning_rate": 4.007776282338867e-05,
	"loss": 0.0109,
	"step": 66400
	},
	{
	"epoch": 19.89,
	"grad_norm": 1.667506456375122,
	"learning_rate": 4.006280843427546e-05,
	"loss": 0.0121,
	"step": 66500
	},
	{
	"epoch": 19.92,
	"grad_norm": 0.036488935351371765,
	"learning_rate": 4.004785404516226e-05,
	"loss": 0.0121,
	"step": 66600
	},
	{
	"epoch": 19.95,
	"grad_norm": 0.9762794375419617,
	"learning_rate": 4.003289965604905e-05,
	"loss": 0.0138,
	"step": 66700
	},
	{
	"epoch": 19.98,
	"grad_norm": 1.04608952999115,
	"learning_rate": 4.0017945266935845e-05,
	"loss": 0.0117,
	"step": 66800
	},
	{
	"epoch": 20.01,
	"grad_norm": 5.332238674163818,
	"learning_rate": 4.0002990877822645e-05,
	"loss": 0.0137,
	"step": 66900
	},
	{
	"epoch": 20.04,
	"grad_norm": 0.01725686341524124,
	"learning_rate": 3.998803648870944e-05,
	"loss": 0.0131,
	"step": 67000
	},
	{
	"epoch": 20.04,
	"eval_loss": 0.2912316620349884,
	"eval_precision": 0.9311961240797836,
	"eval_recall": 0.9113273191908617,
	"eval_runtime": 303.1004,
	"eval_samples_per_second": 44.124,
	"eval_steps_per_second": 1.379,
	"step": 67000
	},
	{
	"epoch": 20.07,
	"grad_norm": 0.0427197702229023,
	"learning_rate": 3.997308209959623e-05,
	"loss": 0.0077,
	"step": 67100
	},
	{
	"epoch": 20.1,
	"grad_norm": 0.017879147082567215,
	"learning_rate": 3.995812771048303e-05,
	"loss": 0.0104,
	"step": 67200
	},
	{
	"epoch": 20.13,
	"grad_norm": 0.07891906797885895,
	"learning_rate": 3.994317332136982e-05,
	"loss": 0.0141,
	"step": 67300
	},
	{
	"epoch": 20.16,
	"grad_norm": 0.16812817752361298,
	"learning_rate": 3.9928218932256616e-05,
	"loss": 0.0097,
	"step": 67400
	},
	{
	"epoch": 20.19,
	"grad_norm": 3.0790505409240723,
	"learning_rate": 3.9913264543143416e-05,
	"loss": 0.0106,
	"step": 67500
	},
	{
	"epoch": 20.22,
	"grad_norm": 0.41399437189102173,
	"learning_rate": 3.989831015403021e-05,
	"loss": 0.0089,
	"step": 67600
	},
	{
	"epoch": 20.25,
	"grad_norm": 0.4379628300666809,
	"learning_rate": 3.988335576491701e-05,
	"loss": 0.0086,
	"step": 67700
	},
	{
	"epoch": 20.28,
	"grad_norm": 0.011956513859331608,
	"learning_rate": 3.98684013758038e-05,
	"loss": 0.0133,
	"step": 67800
	},
	{
	"epoch": 20.31,
	"grad_norm": 2.477144718170166,
	"learning_rate": 3.9853446986690594e-05,
	"loss": 0.0091,
	"step": 67900
	},
	{
	"epoch": 20.33,
	"grad_norm": 2.790292739868164,
	"learning_rate": 3.9838492597577394e-05,
	"loss": 0.0128,
	"step": 68000
	},
	{
	"epoch": 20.33,
	"eval_loss": 0.3076106309890747,
	"eval_precision": 0.9304780813715294,
	"eval_recall": 0.9090489239200714,
	"eval_runtime": 303.9942,
	"eval_samples_per_second": 43.994,
	"eval_steps_per_second": 1.375,
	"step": 68000
	},
	{
	"epoch": 20.36,
	"grad_norm": 1.441587209701538,
	"learning_rate": 3.9823538208464186e-05,
	"loss": 0.0159,
	"step": 68100
	},
	{
	"epoch": 20.39,
	"grad_norm": 1.7005335092544556,
	"learning_rate": 3.980858381935098e-05,
	"loss": 0.01,
	"step": 68200
	},
	{
	"epoch": 20.42,
	"grad_norm": 0.30774638056755066,
	"learning_rate": 3.979362943023778e-05,
	"loss": 0.0124,
	"step": 68300
	},
	{
	"epoch": 20.45,
	"grad_norm": 0.04803008586168289,
	"learning_rate": 3.977867504112457e-05,
	"loss": 0.0112,
	"step": 68400
	},
	{
	"epoch": 20.48,
	"grad_norm": 3.551407814025879,
	"learning_rate": 3.9763720652011365e-05,
	"loss": 0.012,
	"step": 68500
	},
	{
	"epoch": 20.51,
	"grad_norm": 0.037427909672260284,
	"learning_rate": 3.9748766262898164e-05,
	"loss": 0.0138,
	"step": 68600
	},
	{
	"epoch": 20.54,
	"grad_norm": 0.0066105336882174015,
	"learning_rate": 3.973381187378496e-05,
	"loss": 0.0114,
	"step": 68700
	},
	{
	"epoch": 20.57,
	"grad_norm": 0.05352969095110893,
	"learning_rate": 3.971885748467175e-05,
	"loss": 0.0106,
	"step": 68800
	},
	{
	"epoch": 20.6,
	"grad_norm": 1.097419023513794,
	"learning_rate": 3.970390309555855e-05,
	"loss": 0.0113,
	"step": 68900
	},
	{
	"epoch": 20.63,
	"grad_norm": 2.4684622287750244,
	"learning_rate": 3.968894870644534e-05,
	"loss": 0.0104,
	"step": 69000
	},
	{
	"epoch": 20.63,
	"eval_loss": 0.3140137493610382,
	"eval_precision": 0.9268018018018018,
	"eval_recall": 0.9122202038240094,
	"eval_runtime": 304.685,
	"eval_samples_per_second": 43.895,
	"eval_steps_per_second": 1.372,
	"step": 69000
	},
	{
	"epoch": 20.66,
	"grad_norm": 0.03651382029056549,
	"learning_rate": 3.967399431733214e-05,
	"loss": 0.0086,
	"step": 69100
	},
	{
	"epoch": 20.69,
	"grad_norm": 0.35381224751472473,
	"learning_rate": 3.9659039928218935e-05,
	"loss": 0.013,
	"step": 69200
	},
	{
	"epoch": 20.72,
	"grad_norm": 0.06933160871267319,
	"learning_rate": 3.964408553910573e-05,
	"loss": 0.0106,
	"step": 69300
	},
	{
	"epoch": 20.75,
	"grad_norm": 0.4022979140281677,
	"learning_rate": 3.962913114999253e-05,
	"loss": 0.013,
	"step": 69400
	},
	{
	"epoch": 20.78,
	"grad_norm": 0.03529789671301842,
	"learning_rate": 3.961417676087932e-05,
	"loss": 0.0156,
	"step": 69500
	},
	{
	"epoch": 20.81,
	"grad_norm": 0.7010594606399536,
	"learning_rate": 3.9599222371766114e-05,
	"loss": 0.0144,
	"step": 69600
	},
	{
	"epoch": 20.84,
	"grad_norm": 0.37523359060287476,
	"learning_rate": 3.958426798265291e-05,
	"loss": 0.0127,
	"step": 69700
	},
	{
	"epoch": 20.87,
	"grad_norm": 0.1500304788351059,
	"learning_rate": 3.9569313593539706e-05,
	"loss": 0.0151,
	"step": 69800
	},
	{
	"epoch": 20.9,
	"grad_norm": 1.1849136352539062,
	"learning_rate": 3.95543592044265e-05,
	"loss": 0.0092,
	"step": 69900
	},
	{
	"epoch": 20.93,
	"grad_norm": 0.37061455845832825,
	"learning_rate": 3.95394048153133e-05,
	"loss": 0.0125,
	"step": 70000
	},
	{
	"epoch": 20.93,
	"eval_loss": 0.2996491491794586,
	"eval_precision": 0.9277798530693563,
	"eval_recall": 0.9176390898734567,
	"eval_runtime": 305.225,
	"eval_samples_per_second": 43.817,
	"eval_steps_per_second": 1.369,
	"step": 70000
	},
	{
	"epoch": 20.96,
	"grad_norm": 1.1082910299301147,
	"learning_rate": 3.952445042620009e-05,
	"loss": 0.0135,
	"step": 70100
	},
	{
	"epoch": 20.99,
	"grad_norm": 0.21670883893966675,
	"learning_rate": 3.9509496037086884e-05,
	"loss": 0.0147,
	"step": 70200
	},
	{
	"epoch": 21.02,
	"grad_norm": 1.7163949012756348,
	"learning_rate": 3.9494541647973684e-05,
	"loss": 0.0074,
	"step": 70300
	},
	{
	"epoch": 21.05,
	"grad_norm": 0.49197930097579956,
	"learning_rate": 3.947958725886048e-05,
	"loss": 0.009,
	"step": 70400
	},
	{
	"epoch": 21.08,
	"grad_norm": 0.20454080402851105,
	"learning_rate": 3.946463286974727e-05,
	"loss": 0.0106,
	"step": 70500
	},
	{
	"epoch": 21.11,
	"grad_norm": 1.1480427980422974,
	"learning_rate": 3.944967848063407e-05,
	"loss": 0.0082,
	"step": 70600
	},
	{
	"epoch": 21.14,
	"grad_norm": 0.012445613741874695,
	"learning_rate": 3.943472409152086e-05,
	"loss": 0.0124,
	"step": 70700
	},
	{
	"epoch": 21.17,
	"grad_norm": 1.2859218120574951,
	"learning_rate": 3.941976970240766e-05,
	"loss": 0.0114,
	"step": 70800
	},
	{
	"epoch": 21.2,
	"grad_norm": 1.9639800786972046,
	"learning_rate": 3.9404815313294455e-05,
	"loss": 0.0094,
	"step": 70900
	},
	{
	"epoch": 21.23,
	"grad_norm": 0.5322540402412415,
	"learning_rate": 3.938986092418125e-05,
	"loss": 0.0127,
	"step": 71000
	},
	{
	"epoch": 21.23,
	"eval_loss": 0.31439679861068726,
	"eval_precision": 0.9300875853255618,
	"eval_recall": 0.918747498383571,
	"eval_runtime": 305.1026,
	"eval_samples_per_second": 43.834,
	"eval_steps_per_second": 1.37,
	"step": 71000
	},
	{
	"epoch": 21.26,
	"grad_norm": 0.7698822021484375,
	"learning_rate": 3.937490653506805e-05,
	"loss": 0.0091,
	"step": 71100
	},
	{
	"epoch": 21.29,
	"grad_norm": 0.058869846165180206,
	"learning_rate": 3.935995214595484e-05,
	"loss": 0.0116,
	"step": 71200
	},
	{
	"epoch": 21.32,
	"grad_norm": 0.040317438542842865,
	"learning_rate": 3.934499775684163e-05,
	"loss": 0.0082,
	"step": 71300
	},
	{
	"epoch": 21.35,
	"grad_norm": 0.3180629014968872,
	"learning_rate": 3.933004336772843e-05,
	"loss": 0.0086,
	"step": 71400
	},
	{
	"epoch": 21.38,
	"grad_norm": 0.14002850651741028,
	"learning_rate": 3.9315088978615226e-05,
	"loss": 0.0083,
	"step": 71500
	},
	{
	"epoch": 21.41,
	"grad_norm": 0.535882830619812,
	"learning_rate": 3.930013458950202e-05,
	"loss": 0.0083,
	"step": 71600
	},
	{
	"epoch": 21.44,
	"grad_norm": 0.8898109793663025,
	"learning_rate": 3.928518020038882e-05,
	"loss": 0.0111,
	"step": 71700
	},
	{
	"epoch": 21.47,
	"grad_norm": 7.178394317626953,
	"learning_rate": 3.927022581127561e-05,
	"loss": 0.0111,
	"step": 71800
	},
	{
	"epoch": 21.5,
	"grad_norm": 0.03290112316608429,
	"learning_rate": 3.9255271422162404e-05,
	"loss": 0.0102,
	"step": 71900
	},
	{
	"epoch": 21.53,
	"grad_norm": 0.013704554177820683,
	"learning_rate": 3.9240317033049204e-05,
	"loss": 0.0131,
	"step": 72000
	},
	{
	"epoch": 21.53,
	"eval_loss": 0.30643701553344727,
	"eval_precision": 0.9271496444430644,
	"eval_recall": 0.9192709135133471,
	"eval_runtime": 304.1697,
	"eval_samples_per_second": 43.969,
	"eval_steps_per_second": 1.374,
	"step": 72000
	},
	{
	"epoch": 21.56,
	"grad_norm": 0.8118484020233154,
	"learning_rate": 3.9225362643936e-05,
	"loss": 0.0109,
	"step": 72100
	},
	{
	"epoch": 21.59,
	"grad_norm": 0.8789449334144592,
	"learning_rate": 3.9210408254822796e-05,
	"loss": 0.0111,
	"step": 72200
	},
	{
	"epoch": 21.62,
	"grad_norm": 1.8666021823883057,
	"learning_rate": 3.919545386570959e-05,
	"loss": 0.0112,
	"step": 72300
	},
	{
	"epoch": 21.65,
	"grad_norm": 0.33622369170188904,
	"learning_rate": 3.918049947659638e-05,
	"loss": 0.0121,
	"step": 72400
	},
	{
	"epoch": 21.68,
	"grad_norm": 1.5097126960754395,
	"learning_rate": 3.916554508748318e-05,
	"loss": 0.0104,
	"step": 72500
	},
	{
	"epoch": 21.71,
	"grad_norm": 1.3149192333221436,
	"learning_rate": 3.915059069836997e-05,
	"loss": 0.01,
	"step": 72600
	},
	{
	"epoch": 21.74,
	"grad_norm": 1.1172950267791748,
	"learning_rate": 3.913563630925677e-05,
	"loss": 0.0159,
	"step": 72700
	},
	{
	"epoch": 21.77,
	"grad_norm": 0.7861026525497437,
	"learning_rate": 3.912068192014357e-05,
	"loss": 0.0102,
	"step": 72800
	},
	{
	"epoch": 21.8,
	"grad_norm": 0.9385488033294678,
	"learning_rate": 3.910572753103036e-05,
	"loss": 0.0103,
	"step": 72900
	},
	{
	"epoch": 21.83,
	"grad_norm": 0.2858407199382782,
	"learning_rate": 3.909077314191715e-05,
	"loss": 0.0095,
	"step": 73000
	},
	{
	"epoch": 21.83,
	"eval_loss": 0.3220088481903076,
	"eval_precision": 0.9313063063063063,
	"eval_recall": 0.89119123125712,
	"eval_runtime": 301.1978,
	"eval_samples_per_second": 44.403,
	"eval_steps_per_second": 1.388,
	"step": 73000
	},
	{
	"epoch": 21.86,
	"grad_norm": 2.1585566997528076,
	"learning_rate": 3.907581875280395e-05,
	"loss": 0.0107,
	"step": 73100
	},
	{
	"epoch": 21.89,
	"grad_norm": 0.21467708051204681,
	"learning_rate": 3.9060864363690745e-05,
	"loss": 0.0092,
	"step": 73200
	},
	{
	"epoch": 21.92,
	"grad_norm": 0.0250945333391428,
	"learning_rate": 3.904590997457754e-05,
	"loss": 0.0095,
	"step": 73300
	},
	{
	"epoch": 21.95,
	"grad_norm": 0.08200676739215851,
	"learning_rate": 3.903095558546434e-05,
	"loss": 0.0127,
	"step": 73400
	},
	{
	"epoch": 21.98,
	"grad_norm": 7.951723098754883,
	"learning_rate": 3.901600119635113e-05,
	"loss": 0.0118,
	"step": 73500
	},
	{
	"epoch": 22.01,
	"grad_norm": 0.042703770101070404,
	"learning_rate": 3.900104680723793e-05,
	"loss": 0.0086,
	"step": 73600
	},
	{
	"epoch": 22.04,
	"grad_norm": 0.13317295908927917,
	"learning_rate": 3.898609241812472e-05,
	"loss": 0.0117,
	"step": 73700
	},
	{
	"epoch": 22.07,
	"grad_norm": 0.09529834240674973,
	"learning_rate": 3.8971138029011516e-05,
	"loss": 0.0077,
	"step": 73800
	},
	{
	"epoch": 22.1,
	"grad_norm": 1.2312837839126587,
	"learning_rate": 3.8956183639898316e-05,
	"loss": 0.01,
	"step": 73900
	},
	{
	"epoch": 22.13,
	"grad_norm": 0.20264630019664764,
	"learning_rate": 3.89412292507851e-05,
	"loss": 0.0079,
	"step": 74000
	},
	{
	"epoch": 22.13,
	"eval_loss": 0.3207722306251526,
	"eval_precision": 0.9257851445663011,
	"eval_recall": 0.9148680685981712,
	"eval_runtime": 304.4363,
	"eval_samples_per_second": 43.93,
	"eval_steps_per_second": 1.373,
	"step": 74000
	},
	{
	"epoch": 22.16,
	"grad_norm": 0.007298531476408243,
	"learning_rate": 3.89262748616719e-05,
	"loss": 0.0083,
	"step": 74100
	},
	{
	"epoch": 22.19,
	"grad_norm": 0.030803361907601357,
	"learning_rate": 3.89113204725587e-05,
	"loss": 0.0128,
	"step": 74200
	},
	{
	"epoch": 22.22,
	"grad_norm": 0.04404568299651146,
	"learning_rate": 3.8896366083445494e-05,
	"loss": 0.0094,
	"step": 74300
	},
	{
	"epoch": 22.25,
	"grad_norm": 0.14884673058986664,
	"learning_rate": 3.888141169433229e-05,
	"loss": 0.0081,
	"step": 74400
	},
	{
	"epoch": 22.28,
	"grad_norm": 0.07467024773359299,
	"learning_rate": 3.886645730521909e-05,
	"loss": 0.0144,
	"step": 74500
	},
	{
	"epoch": 22.31,
	"grad_norm": 0.6713554859161377,
	"learning_rate": 3.885150291610588e-05,
	"loss": 0.0136,
	"step": 74600
	},
	{
	"epoch": 22.34,
	"grad_norm": 0.16354040801525116,
	"learning_rate": 3.883654852699267e-05,
	"loss": 0.0109,
	"step": 74700
	},
	{
	"epoch": 22.37,
	"grad_norm": 1.4964691400527954,
	"learning_rate": 3.882159413787947e-05,
	"loss": 0.0116,
	"step": 74800
	},
	{
	"epoch": 22.4,
	"grad_norm": 1.4973292350769043,
	"learning_rate": 3.8806639748766265e-05,
	"loss": 0.008,
	"step": 74900
	},
	{
	"epoch": 22.43,
	"grad_norm": 0.17059992253780365,
	"learning_rate": 3.8791685359653065e-05,
	"loss": 0.0111,
	"step": 75000
	},
	{
	"epoch": 22.43,
	"eval_loss": 0.30246666073799133,
	"eval_precision": 0.9313384217417686,
	"eval_recall": 0.8979032605683672,
	"eval_runtime": 301.8023,
	"eval_samples_per_second": 44.314,
	"eval_steps_per_second": 1.385,
	"step": 75000
	},
	{
	"epoch": 22.46,
	"grad_norm": 0.05614122748374939,
	"learning_rate": 3.877673097053985e-05,
	"loss": 0.0101,
	"step": 75100
	},
	{
	"epoch": 22.49,
	"grad_norm": 0.23737676441669464,
	"learning_rate": 3.876177658142665e-05,
	"loss": 0.0111,
	"step": 75200
	},
	{
	"epoch": 22.52,
	"grad_norm": 0.11609382182359695,
	"learning_rate": 3.874682219231345e-05,
	"loss": 0.0129,
	"step": 75300
	},
	{
	"epoch": 22.55,
	"grad_norm": 0.006964783184230328,
	"learning_rate": 3.8731867803200236e-05,
	"loss": 0.014,
	"step": 75400
	},
	{
	"epoch": 22.58,
	"grad_norm": 0.6018117070198059,
	"learning_rate": 3.8716913414087036e-05,
	"loss": 0.0092,
	"step": 75500
	},
	{
	"epoch": 22.61,
	"grad_norm": 1.5463790893554688,
	"learning_rate": 3.8701959024973836e-05,
	"loss": 0.0129,
	"step": 75600
	},
	{
	"epoch": 22.64,
	"grad_norm": 0.3491170108318329,
	"learning_rate": 3.868700463586062e-05,
	"loss": 0.0124,
	"step": 75700
	},
	{
	"epoch": 22.67,
	"grad_norm": 0.3379780650138855,
	"learning_rate": 3.867205024674742e-05,
	"loss": 0.0105,
	"step": 75800
	},
	{
	"epoch": 22.7,
	"grad_norm": 0.6625536680221558,
	"learning_rate": 3.865709585763422e-05,
	"loss": 0.0101,
	"step": 75900
	},
	{
	"epoch": 22.73,
	"grad_norm": 0.5047014951705933,
	"learning_rate": 3.8642141468521014e-05,
	"loss": 0.0116,
	"step": 76000
	},
	{
	"epoch": 22.73,
	"eval_loss": 0.309579074382782,
	"eval_precision": 0.9289195145420119,
	"eval_recall": 0.9214261522830136,
	"eval_runtime": 306.5207,
	"eval_samples_per_second": 43.632,
	"eval_steps_per_second": 1.364,
	"step": 76000
	},
	{
	"epoch": 22.76,
	"grad_norm": 2.8879668712615967,
	"learning_rate": 3.862718707940781e-05,
	"loss": 0.0084,
	"step": 76100
	},
	{
	"epoch": 22.79,
	"grad_norm": 1.4628148078918457,
	"learning_rate": 3.86122326902946e-05,
	"loss": 0.0091,
	"step": 76200
	},
	{
	"epoch": 22.82,
	"grad_norm": 0.01455759722739458,
	"learning_rate": 3.85972783011814e-05,
	"loss": 0.0087,
	"step": 76300
	},
	{
	"epoch": 22.85,
	"grad_norm": 0.005665886681526899,
	"learning_rate": 3.858232391206819e-05,
	"loss": 0.0117,
	"step": 76400
	},
	{
	"epoch": 22.88,
	"grad_norm": 0.5273276567459106,
	"learning_rate": 3.8567369522954985e-05,
	"loss": 0.009,
	"step": 76500
	},
	{
	"epoch": 22.91,
	"grad_norm": 0.06718481332063675,
	"learning_rate": 3.8552415133841785e-05,
	"loss": 0.0118,
	"step": 76600
	},
	{
	"epoch": 22.94,
	"grad_norm": 0.30258700251579285,
	"learning_rate": 3.8537460744728585e-05,
	"loss": 0.0109,
	"step": 76700
	},
	{
	"epoch": 22.97,
	"grad_norm": 2.678166627883911,
	"learning_rate": 3.852250635561537e-05,
	"loss": 0.015,
	"step": 76800
	},
	{
	"epoch": 23.0,
	"grad_norm": 0.15017007291316986,
	"learning_rate": 3.850755196650217e-05,
	"loss": 0.0104,
	"step": 76900
	},
	{
	"epoch": 23.03,
	"grad_norm": 0.3501853048801422,
	"learning_rate": 3.849259757738897e-05,
	"loss": 0.0096,
	"step": 77000
	},
	{
	"epoch": 23.03,
	"eval_loss": 0.2935163080692291,
	"eval_precision": 0.9276991482965932,
	"eval_recall": 0.9121894146987284,
	"eval_runtime": 303.8246,
	"eval_samples_per_second": 44.019,
	"eval_steps_per_second": 1.376,
	"step": 77000
	},
	{
	"epoch": 23.06,
	"grad_norm": 0.729576587677002,
	"learning_rate": 3.8477643188275756e-05,
	"loss": 0.0076,
	"step": 77100
	},
	{
	"epoch": 23.09,
	"grad_norm": 0.03431198373436928,
	"learning_rate": 3.8462688799162556e-05,
	"loss": 0.0068,
	"step": 77200
	},
	{
	"epoch": 23.12,
	"grad_norm": 0.022281186655163765,
	"learning_rate": 3.844773441004935e-05,
	"loss": 0.0099,
	"step": 77300
	},
	{
	"epoch": 23.15,
	"grad_norm": 0.06289653480052948,
	"learning_rate": 3.843278002093615e-05,
	"loss": 0.0088,
	"step": 77400
	},
	{
	"epoch": 23.18,
	"grad_norm": 1.1686757802963257,
	"learning_rate": 3.841782563182294e-05,
	"loss": 0.0113,
	"step": 77500
	},
	{
	"epoch": 23.21,
	"grad_norm": 0.6460024118423462,
	"learning_rate": 3.8402871242709734e-05,
	"loss": 0.0098,
	"step": 77600
	},
	{
	"epoch": 23.24,
	"grad_norm": 0.04333605244755745,
	"learning_rate": 3.8387916853596534e-05,
	"loss": 0.0078,
	"step": 77700
	},
	{
	"epoch": 23.27,
	"grad_norm": 1.6560355424880981,
	"learning_rate": 3.8372962464483327e-05,
	"loss": 0.0069,
	"step": 77800
	},
	{
	"epoch": 23.3,
	"grad_norm": 1.7110439538955688,
	"learning_rate": 3.835800807537012e-05,
	"loss": 0.0079,
	"step": 77900
	},
	{
	"epoch": 23.33,
	"grad_norm": 0.34755662083625793,
	"learning_rate": 3.834305368625692e-05,
	"loss": 0.0117,
	"step": 78000
	},
	{
	"epoch": 23.33,
	"eval_loss": 0.31362003087997437,
	"eval_precision": 0.9317794739166089,
	"eval_recall": 0.9096031281751286,
	"eval_runtime": 302.9137,
	"eval_samples_per_second": 44.151,
	"eval_steps_per_second": 1.38,
	"step": 78000
	},
	{
	"epoch": 23.36,
	"grad_norm": 0.07322967052459717,
	"learning_rate": 3.832809929714372e-05,
	"loss": 0.0086,
	"step": 78100
	},
	{
	"epoch": 23.39,
	"grad_norm": 0.1620834916830063,
	"learning_rate": 3.8313144908030505e-05,
	"loss": 0.0105,
	"step": 78200
	},
	{
	"epoch": 23.42,
	"grad_norm": 1.0541850328445435,
	"learning_rate": 3.8298190518917305e-05,
	"loss": 0.011,
	"step": 78300
	},
	{
	"epoch": 23.44,
	"grad_norm": 0.008509721606969833,
	"learning_rate": 3.8283236129804104e-05,
	"loss": 0.009,
	"step": 78400
	},
	{
	"epoch": 23.47,
	"grad_norm": 0.2723921537399292,
	"learning_rate": 3.826828174069089e-05,
	"loss": 0.0089,
	"step": 78500
	},
	{
	"epoch": 23.5,
	"grad_norm": 0.7700883150100708,
	"learning_rate": 3.825332735157769e-05,
	"loss": 0.0084,
	"step": 78600
	},
	{
	"epoch": 23.53,
	"grad_norm": 0.7245194911956787,
	"learning_rate": 3.823837296246448e-05,
	"loss": 0.0068,
	"step": 78700
	},
	{
	"epoch": 23.56,
	"grad_norm": 1.283056378364563,
	"learning_rate": 3.822341857335128e-05,
	"loss": 0.0108,
	"step": 78800
	},
	{
	"epoch": 23.59,
	"grad_norm": 0.016398323699831963,
	"learning_rate": 3.8208464184238075e-05,
	"loss": 0.0104,
	"step": 78900
	},
	{
	"epoch": 23.62,
	"grad_norm": 0.32268649339675903,
	"learning_rate": 3.819350979512487e-05,
	"loss": 0.0085,
	"step": 79000
	},
	{
	"epoch": 23.62,
	"eval_loss": 0.30707934498786926,
	"eval_precision": 0.9256538985992314,
	"eval_recall": 0.9196403830167185,
	"eval_runtime": 304.8987,
	"eval_samples_per_second": 43.864,
	"eval_steps_per_second": 1.371,
	"step": 79000
	},
	{
	"epoch": 23.65,
	"grad_norm": 0.1340191662311554,
	"learning_rate": 3.817855540601167e-05,
	"loss": 0.0132,
	"step": 79100
	},
	{
	"epoch": 23.68,
	"grad_norm": 1.2741714715957642,
	"learning_rate": 3.816360101689846e-05,
	"loss": 0.0086,
	"step": 79200
	},
	{
	"epoch": 23.71,
	"grad_norm": 3.2270684242248535,
	"learning_rate": 3.8148646627785254e-05,
	"loss": 0.012,
	"step": 79300
	},
	{
	"epoch": 23.74,
	"grad_norm": 0.0873398706316948,
	"learning_rate": 3.813369223867205e-05,
	"loss": 0.0071,
	"step": 79400
	},
	{
	"epoch": 23.77,
	"grad_norm": 0.36740046739578247,
	"learning_rate": 3.811873784955885e-05,
	"loss": 0.0082,
	"step": 79500
	},
	{
	"epoch": 23.8,
	"grad_norm": 0.7461920976638794,
	"learning_rate": 3.810378346044564e-05,
	"loss": 0.0133,
	"step": 79600
	},
	{
	"epoch": 23.83,
	"grad_norm": 1.0577598810195923,
	"learning_rate": 3.808882907133244e-05,
	"loss": 0.0118,
	"step": 79700
	},
	{
	"epoch": 23.86,
	"grad_norm": 1.9472182989120483,
	"learning_rate": 3.807387468221923e-05,
	"loss": 0.0116,
	"step": 79800
	},
	{
	"epoch": 23.89,
	"grad_norm": 1.6104402542114258,
	"learning_rate": 3.8058920293106025e-05,
	"loss": 0.0114,
	"step": 79900
	},
	{
	"epoch": 23.92,
	"grad_norm": 0.03251710161566734,
	"learning_rate": 3.8043965903992824e-05,
	"loss": 0.0091,
	"step": 80000
	},
	{
	"epoch": 23.92,
	"eval_loss": 0.3046566843986511,
	"eval_precision": 0.9268397735663303,
	"eval_recall": 0.9275531882139229,
	"eval_runtime": 305.7377,
	"eval_samples_per_second": 43.743,
	"eval_steps_per_second": 1.367,
	"step": 80000
	},
	{
	"epoch": 23.95,
	"grad_norm": 0.8245527744293213,
	"learning_rate": 3.802901151487962e-05,
	"loss": 0.0067,
	"step": 80100
	},
	{
	"epoch": 23.98,
	"grad_norm": 2.3082966804504395,
	"learning_rate": 3.801405712576642e-05,
	"loss": 0.0103,
	"step": 80200
	},
	{
	"epoch": 24.01,
	"grad_norm": 0.05168503150343895,
	"learning_rate": 3.799910273665321e-05,
	"loss": 0.0086,
	"step": 80300
	},
	{
	"epoch": 24.04,
	"grad_norm": 0.3247091770172119,
	"learning_rate": 3.798414834754e-05,
	"loss": 0.0082,
	"step": 80400
	},
	{
	"epoch": 24.07,
	"grad_norm": 0.30284127593040466,
	"learning_rate": 3.79691939584268e-05,
	"loss": 0.0065,
	"step": 80500
	},
	{
	"epoch": 24.1,
	"grad_norm": 0.041343070566654205,
	"learning_rate": 3.7954239569313595e-05,
	"loss": 0.0072,
	"step": 80600
	},
	{
	"epoch": 24.13,
	"grad_norm": 0.5980477929115295,
	"learning_rate": 3.793928518020039e-05,
	"loss": 0.0088,
	"step": 80700
	},
	{
	"epoch": 24.16,
	"grad_norm": 0.0064304666593670845,
	"learning_rate": 3.792433079108719e-05,
	"loss": 0.0094,
	"step": 80800
	},
	{
	"epoch": 24.19,
	"grad_norm": 0.6040250062942505,
	"learning_rate": 3.790937640197398e-05,
	"loss": 0.0079,
	"step": 80900
	},
	{
	"epoch": 24.22,
	"grad_norm": 0.3337300419807434,
	"learning_rate": 3.7894422012860773e-05,
	"loss": 0.0086,
	"step": 81000
	},
	{
	"epoch": 24.22,
	"eval_loss": 0.3350207209587097,
	"eval_precision": 0.9268361054008597,
	"eval_recall": 0.916192000985252,
	"eval_runtime": 304.7162,
	"eval_samples_per_second": 43.89,
	"eval_steps_per_second": 1.372,
	"step": 81000
	},
	{
	"epoch": 24.25,
	"grad_norm": 0.710114061832428,
	"learning_rate": 3.787946762374757e-05,
	"loss": 0.008,
	"step": 81100
	},
	{
	"epoch": 24.28,
	"grad_norm": 0.03623099625110626,
	"learning_rate": 3.7864513234634366e-05,
	"loss": 0.0131,
	"step": 81200
	},
	{
	"epoch": 24.31,
	"grad_norm": 0.09887418150901794,
	"learning_rate": 3.784955884552116e-05,
	"loss": 0.0086,
	"step": 81300
	},
	{
	"epoch": 24.34,
	"grad_norm": 0.6916789412498474,
	"learning_rate": 3.783460445640796e-05,
	"loss": 0.0101,
	"step": 81400
	},
	{
	"epoch": 24.37,
	"grad_norm": 1.4278247356414795,
	"learning_rate": 3.781965006729475e-05,
	"loss": 0.0107,
	"step": 81500
	},
	{
	"epoch": 24.4,
	"grad_norm": 0.16397880017757416,
	"learning_rate": 3.7804695678181544e-05,
	"loss": 0.008,
	"step": 81600
	},
	{
	"epoch": 24.43,
	"grad_norm": 0.08632964640855789,
	"learning_rate": 3.7789741289068344e-05,
	"loss": 0.0078,
	"step": 81700
	},
	{
	"epoch": 24.46,
	"grad_norm": 2.2472782135009766,
	"learning_rate": 3.777478689995514e-05,
	"loss": 0.011,
	"step": 81800
	},
	{
	"epoch": 24.49,
	"grad_norm": 0.14701958000659943,
	"learning_rate": 3.7759832510841936e-05,
	"loss": 0.0096,
	"step": 81900
	},
	{
	"epoch": 24.52,
	"grad_norm": 0.051196735352277756,
	"learning_rate": 3.774487812172873e-05,
	"loss": 0.0111,
	"step": 82000
	},
	{
	"epoch": 24.52,
	"eval_loss": 0.30252349376678467,
	"eval_precision": 0.928390712570056,
	"eval_recall": 0.8925459527694818,
	"eval_runtime": 302.8814,
	"eval_samples_per_second": 44.156,
	"eval_steps_per_second": 1.38,
	"step": 82000
	},
	{
	"epoch": 24.55,
	"grad_norm": 0.013324776664376259,
	"learning_rate": 3.772992373261552e-05,
	"loss": 0.0075,
	"step": 82100
	},
	{
	"epoch": 24.58,
	"grad_norm": 0.10291430354118347,
	"learning_rate": 3.771496934350232e-05,
	"loss": 0.0099,
	"step": 82200
	},
	{
	"epoch": 24.61,
	"grad_norm": 0.07137342542409897,
	"learning_rate": 3.7700014954389115e-05,
	"loss": 0.012,
	"step": 82300
	},
	{
	"epoch": 24.64,
	"grad_norm": 0.3020240068435669,
	"learning_rate": 3.768506056527591e-05,
	"loss": 0.0087,
	"step": 82400
	},
	{
	"epoch": 24.67,
	"grad_norm": 1.067194938659668,
	"learning_rate": 3.767010617616271e-05,
	"loss": 0.0096,
	"step": 82500
	},
	{
	"epoch": 24.7,
	"grad_norm": 0.014255263842642307,
	"learning_rate": 3.76551517870495e-05,
	"loss": 0.007,
	"step": 82600
	},
	{
	"epoch": 24.73,
	"grad_norm": 0.02688017673790455,
	"learning_rate": 3.764019739793629e-05,
	"loss": 0.0089,
	"step": 82700
	},
	{
	"epoch": 24.76,
	"grad_norm": 0.3376453220844269,
	"learning_rate": 3.762524300882309e-05,
	"loss": 0.0066,
	"step": 82800
	},
	{
	"epoch": 24.79,
	"grad_norm": 0.10389913618564606,
	"learning_rate": 3.7610288619709886e-05,
	"loss": 0.0066,
	"step": 82900
	},
	{
	"epoch": 24.82,
	"grad_norm": 0.7046878337860107,
	"learning_rate": 3.759533423059668e-05,
	"loss": 0.01,
	"step": 83000
	},
	{
	"epoch": 24.82,
	"eval_loss": 0.3185621201992035,
	"eval_precision": 0.9291735873891379,
	"eval_recall": 0.9128667754549094,
	"eval_runtime": 303.4192,
	"eval_samples_per_second": 44.078,
	"eval_steps_per_second": 1.378,
	"step": 83000
	},
	{
	"epoch": 24.85,
	"grad_norm": 0.4447859227657318,
	"learning_rate": 3.758037984148348e-05,
	"loss": 0.0085,
	"step": 83100
	},
	{
	"epoch": 24.88,
	"grad_norm": 2.2701525688171387,
	"learning_rate": 3.756542545237027e-05,
	"loss": 0.0114,
	"step": 83200
	},
	{
	"epoch": 24.91,
	"grad_norm": 0.05526027828454971,
	"learning_rate": 3.755047106325707e-05,
	"loss": 0.012,
	"step": 83300
	},
	{
	"epoch": 24.94,
	"grad_norm": 0.8909191489219666,
	"learning_rate": 3.7535516674143864e-05,
	"loss": 0.0097,
	"step": 83400
	},
	{
	"epoch": 24.97,
	"grad_norm": 0.004659523721784353,
	"learning_rate": 3.7520562285030656e-05,
	"loss": 0.0085,
	"step": 83500
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.05222604423761368,
	"learning_rate": 3.7505607895917456e-05,
	"loss": 0.0088,
	"step": 83600
	},
	{
	"epoch": 25.03,
	"grad_norm": 0.014093970879912376,
	"learning_rate": 3.749065350680425e-05,
	"loss": 0.0085,
	"step": 83700
	},
	{
	"epoch": 25.06,
	"grad_norm": 0.0026446671690791845,
	"learning_rate": 3.747569911769104e-05,
	"loss": 0.005,
	"step": 83800
	},
	{
	"epoch": 25.09,
	"grad_norm": 0.1448344588279724,
	"learning_rate": 3.746074472857784e-05,
	"loss": 0.0064,
	"step": 83900
	},
	{
	"epoch": 25.12,
	"grad_norm": 0.295718789100647,
	"learning_rate": 3.7445790339464634e-05,
	"loss": 0.0067,
	"step": 84000
	},
	{
	"epoch": 25.12,
	"eval_loss": 0.32626327872276306,
	"eval_precision": 0.9313109964567663,
	"eval_recall": 0.9225653499184088,
	"eval_runtime": 304.7239,
	"eval_samples_per_second": 43.889,
	"eval_steps_per_second": 1.372,
	"step": 84000
	},
	{
	"epoch": 25.15,
	"grad_norm": 0.028157589957118034,
	"learning_rate": 3.743083595035143e-05,
	"loss": 0.0094,
	"step": 84100
	},
	{
	"epoch": 25.18,
	"grad_norm": 0.002226242097094655,
	"learning_rate": 3.741588156123823e-05,
	"loss": 0.0072,
	"step": 84200
	},
	{
	"epoch": 25.21,
	"grad_norm": 0.7868858575820923,
	"learning_rate": 3.740092717212502e-05,
	"loss": 0.0103,
	"step": 84300
	},
	{
	"epoch": 25.24,
	"grad_norm": 0.031047280877828598,
	"learning_rate": 3.738597278301181e-05,
	"loss": 0.01,
	"step": 84400
	},
	{
	"epoch": 25.27,
	"grad_norm": 0.30554434657096863,
	"learning_rate": 3.737101839389861e-05,
	"loss": 0.0076,
	"step": 84500
	},
	{
	"epoch": 25.3,
	"grad_norm": 1.2695821523666382,
	"learning_rate": 3.7356064004785405e-05,
	"loss": 0.0092,
	"step": 84600
	},
	{
	"epoch": 25.33,
	"grad_norm": 0.039061836898326874,
	"learning_rate": 3.7341109615672205e-05,
	"loss": 0.0129,
	"step": 84700
	},
	{
	"epoch": 25.36,
	"grad_norm": 1.0094258785247803,
	"learning_rate": 3.7326155226559e-05,
	"loss": 0.012,
	"step": 84800
	},
	{
	"epoch": 25.39,
	"grad_norm": 0.16602523624897003,
	"learning_rate": 3.731120083744579e-05,
	"loss": 0.0072,
	"step": 84900
	},
	{
	"epoch": 25.42,
	"grad_norm": 0.6232153177261353,
	"learning_rate": 3.729624644833259e-05,
	"loss": 0.0094,
	"step": 85000
	},
	{
	"epoch": 25.42,
	"eval_loss": 0.32043251395225525,
	"eval_precision": 0.9310592123725484,
	"eval_recall": 0.91936328088919,
	"eval_runtime": 304.0822,
	"eval_samples_per_second": 43.982,
	"eval_steps_per_second": 1.375,
	"step": 85000
	},
	{
	"epoch": 25.45,
	"grad_norm": 1.6009403467178345,
	"learning_rate": 3.728129205921938e-05,
	"loss": 0.0103,
	"step": 85100
	},
	{
	"epoch": 25.48,
	"grad_norm": 0.6107264757156372,
	"learning_rate": 3.7266337670106176e-05,
	"loss": 0.0079,
	"step": 85200
	},
	{
	"epoch": 25.51,
	"grad_norm": 0.44173404574394226,
	"learning_rate": 3.7251383280992976e-05,
	"loss": 0.0065,
	"step": 85300
	},
	{
	"epoch": 25.54,
	"grad_norm": 0.9073717594146729,
	"learning_rate": 3.723642889187977e-05,
	"loss": 0.0071,
	"step": 85400
	},
	{
	"epoch": 25.57,
	"grad_norm": 0.3392820656299591,
	"learning_rate": 3.722147450276656e-05,
	"loss": 0.0101,
	"step": 85500
	},
	{
	"epoch": 25.6,
	"grad_norm": 0.07929588109254837,
	"learning_rate": 3.720652011365336e-05,
	"loss": 0.0083,
	"step": 85600
	},
	{
	"epoch": 25.63,
	"grad_norm": 0.35071372985839844,
	"learning_rate": 3.7191565724540154e-05,
	"loss": 0.0121,
	"step": 85700
	},
	{
	"epoch": 25.66,
	"grad_norm": 0.20559339225292206,
	"learning_rate": 3.717661133542695e-05,
	"loss": 0.0073,
	"step": 85800
	},
	{
	"epoch": 25.69,
	"grad_norm": 0.045159224420785904,
	"learning_rate": 3.716165694631375e-05,
	"loss": 0.0087,
	"step": 85900
	},
	{
	"epoch": 25.72,
	"grad_norm": 0.10148915648460388,
	"learning_rate": 3.714670255720054e-05,
	"loss": 0.0119,
	"step": 86000
	},
	{
	"epoch": 25.72,
	"eval_loss": 0.31306663155555725,
	"eval_precision": 0.9333648989898989,
	"eval_recall": 0.9104036454324332,
	"eval_runtime": 304.164,
	"eval_samples_per_second": 43.97,
	"eval_steps_per_second": 1.374,
	"step": 86000
	},
	{
	"epoch": 25.75,
	"grad_norm": 0.18669423460960388,
	"learning_rate": 3.713174816808734e-05,
	"loss": 0.0063,
	"step": 86100
	},
	{
	"epoch": 25.78,
	"grad_norm": 0.10197019577026367,
	"learning_rate": 3.711679377897413e-05,
	"loss": 0.0083,
	"step": 86200
	},
	{
	"epoch": 25.81,
	"grad_norm": 0.0219405684620142,
	"learning_rate": 3.7101839389860925e-05,
	"loss": 0.0088,
	"step": 86300
	},
	{
	"epoch": 25.84,
	"grad_norm": 0.941899836063385,
	"learning_rate": 3.7086885000747725e-05,
	"loss": 0.006,
	"step": 86400
	},
	{
	"epoch": 25.87,
	"grad_norm": 0.042357202619314194,
	"learning_rate": 3.707193061163452e-05,
	"loss": 0.0107,
	"step": 86500
	},
	{
	"epoch": 25.9,
	"grad_norm": 0.04090040549635887,
	"learning_rate": 3.705697622252131e-05,
	"loss": 0.0076,
	"step": 86600
	},
	{
	"epoch": 25.93,
	"grad_norm": 1.0006482601165771,
	"learning_rate": 3.704202183340811e-05,
	"loss": 0.0081,
	"step": 86700
	},
	{
	"epoch": 25.96,
	"grad_norm": 0.01344706118106842,
	"learning_rate": 3.70270674442949e-05,
	"loss": 0.0061,
	"step": 86800
	},
	{
	"epoch": 25.99,
	"grad_norm": 0.039950937032699585,
	"learning_rate": 3.7012113055181696e-05,
	"loss": 0.0095,
	"step": 86900
	},
	{
	"epoch": 26.02,
	"grad_norm": 0.007412883453071117,
	"learning_rate": 3.6997158666068496e-05,
	"loss": 0.0061,
	"step": 87000
	},
	{
	"epoch": 26.02,
	"eval_loss": 0.3440411686897278,
	"eval_precision": 0.9280669958127618,
	"eval_recall": 0.9144370208442378,
	"eval_runtime": 304.1449,
	"eval_samples_per_second": 43.972,
	"eval_steps_per_second": 1.374,
	"step": 87000
	},
	{
	"epoch": 26.05,
	"grad_norm": 0.045031215995550156,
	"learning_rate": 3.698220427695529e-05,
	"loss": 0.0083,
	"step": 87100
	},
	{
	"epoch": 26.08,
	"grad_norm": 0.5366631150245667,
	"learning_rate": 3.696724988784208e-05,
	"loss": 0.0069,
	"step": 87200
	},
	{
	"epoch": 26.11,
	"grad_norm": 0.24467185139656067,
	"learning_rate": 3.695229549872888e-05,
	"loss": 0.0065,
	"step": 87300
	},
	{
	"epoch": 26.14,
	"grad_norm": 0.7528616786003113,
	"learning_rate": 3.6937341109615674e-05,
	"loss": 0.0087,
	"step": 87400
	},
	{
	"epoch": 26.17,
	"grad_norm": 0.15506117045879364,
	"learning_rate": 3.692238672050247e-05,
	"loss": 0.0072,
	"step": 87500
	},
	{
	"epoch": 26.2,
	"grad_norm": 0.2464226335287094,
	"learning_rate": 3.6907432331389266e-05,
	"loss": 0.0053,
	"step": 87600
	},
	{
	"epoch": 26.23,
	"grad_norm": 0.15138311684131622,
	"learning_rate": 3.689247794227606e-05,
	"loss": 0.0063,
	"step": 87700
	},
	{
	"epoch": 26.26,
	"grad_norm": 0.07477385550737381,
	"learning_rate": 3.687752355316286e-05,
	"loss": 0.0076,
	"step": 87800
	},
	{
	"epoch": 26.29,
	"grad_norm": 0.661697268486023,
	"learning_rate": 3.686256916404965e-05,
	"loss": 0.0078,
	"step": 87900
	},
	{
	"epoch": 26.32,
	"grad_norm": 0.16399236023426056,
	"learning_rate": 3.6847614774936445e-05,
	"loss": 0.0085,
	"step": 88000
	},
	{
	"epoch": 26.32,
	"eval_loss": 0.326471209526062,
	"eval_precision": 0.9298322483725588,
	"eval_recall": 0.9147449120970473,
	"eval_runtime": 305.1957,
	"eval_samples_per_second": 43.821,
	"eval_steps_per_second": 1.37,
	"step": 88000
	},
	{
	"epoch": 26.35,
	"grad_norm": 0.5788341164588928,
	"learning_rate": 3.6832660385823244e-05,
	"loss": 0.0097,
	"step": 88100
	},
	{
	"epoch": 26.38,
	"grad_norm": 0.38478532433509827,
	"learning_rate": 3.681770599671003e-05,
	"loss": 0.0083,
	"step": 88200
	},
	{
	"epoch": 26.41,
	"grad_norm": 1.8616811037063599,
	"learning_rate": 3.680275160759683e-05,
	"loss": 0.0082,
	"step": 88300
	},
	{
	"epoch": 26.44,
	"grad_norm": 0.005648652091622353,
	"learning_rate": 3.678779721848363e-05,
	"loss": 0.0074,
	"step": 88400
	},
	{
	"epoch": 26.47,
	"grad_norm": 0.013662021607160568,
	"learning_rate": 3.677284282937042e-05,
	"loss": 0.0054,
	"step": 88500
	},
	{
	"epoch": 26.5,
	"grad_norm": 0.21754692494869232,
	"learning_rate": 3.6757888440257216e-05,
	"loss": 0.0115,
	"step": 88600
	},
	{
	"epoch": 26.53,
	"grad_norm": 0.0358903631567955,
	"learning_rate": 3.6742934051144015e-05,
	"loss": 0.0097,
	"step": 88700
	},
	{
	"epoch": 26.56,
	"grad_norm": 0.9966431856155396,
	"learning_rate": 3.672797966203081e-05,
	"loss": 0.0074,
	"step": 88800
	},
	{
	"epoch": 26.58,
	"grad_norm": 0.7227293848991394,
	"learning_rate": 3.67130252729176e-05,
	"loss": 0.0088,
	"step": 88900
	},
	{
	"epoch": 26.61,
	"grad_norm": 1.3261148929595947,
	"learning_rate": 3.66980708838044e-05,
	"loss": 0.0072,
	"step": 89000
	},
	{
	"epoch": 26.61,
	"eval_loss": 0.3263101279735565,
	"eval_precision": 0.9263782601905357,
	"eval_recall": 0.9131438775824379,
	"eval_runtime": 306.4472,
	"eval_samples_per_second": 43.642,
	"eval_steps_per_second": 1.364,
	"step": 89000
	},
	{
	"epoch": 26.64,
	"grad_norm": 0.11170350760221481,
	"learning_rate": 3.6683116494691194e-05,
	"loss": 0.0092,
	"step": 89100
	},
	{
	"epoch": 26.67,
	"grad_norm": 1.529340147972107,
	"learning_rate": 3.666816210557799e-05,
	"loss": 0.0089,
	"step": 89200
	},
	{
	"epoch": 26.7,
	"grad_norm": 0.01682981289923191,
	"learning_rate": 3.665320771646478e-05,
	"loss": 0.0093,
	"step": 89300
	},
	{
	"epoch": 26.73,
	"grad_norm": 0.3299085199832916,
	"learning_rate": 3.663825332735158e-05,
	"loss": 0.0063,
	"step": 89400
	},
	{
	"epoch": 26.76,
	"grad_norm": 1.9823254346847534,
	"learning_rate": 3.662329893823838e-05,
	"loss": 0.0091,
	"step": 89500
	},
	{
	"epoch": 26.79,
	"grad_norm": 0.07487453520298004,
	"learning_rate": 3.6608344549125165e-05,
	"loss": 0.009,
	"step": 89600
	},
	{
	"epoch": 26.82,
	"grad_norm": 0.015319288708269596,
	"learning_rate": 3.6593390160011964e-05,
	"loss": 0.0078,
	"step": 89700
	},
	{
	"epoch": 26.85,
	"grad_norm": 0.004087815526872873,
	"learning_rate": 3.6578435770898764e-05,
	"loss": 0.0069,
	"step": 89800
	},
	{
	"epoch": 26.88,
	"grad_norm": 0.00753753213211894,
	"learning_rate": 3.656348138178556e-05,
	"loss": 0.0057,
	"step": 89900
	},
	{
	"epoch": 26.91,
	"grad_norm": 0.012257667258381844,
	"learning_rate": 3.654852699267235e-05,
	"loss": 0.0095,
	"step": 90000
	},
	{
	"epoch": 26.91,
	"eval_loss": 0.3233014643192291,
	"eval_precision": 0.9329517062525696,
	"eval_recall": 0.9082484066627667,
	"eval_runtime": 304.4964,
	"eval_samples_per_second": 43.922,
	"eval_steps_per_second": 1.373,
	"step": 90000
	},
	{
	"epoch": 26.94,
	"grad_norm": 0.030741436406970024,
	"learning_rate": 3.653357260355915e-05,
	"loss": 0.0067,
	"step": 90100
	},
	{
	"epoch": 26.97,
	"grad_norm": 0.429049551486969,
	"learning_rate": 3.651861821444594e-05,
	"loss": 0.012,
	"step": 90200
	},
	{
	"epoch": 27.0,
	"grad_norm": 0.002479678951203823,
	"learning_rate": 3.6503663825332735e-05,
	"loss": 0.005,
	"step": 90300
	},
	{
	"epoch": 27.03,
	"grad_norm": 0.12390375137329102,
	"learning_rate": 3.648870943621953e-05,
	"loss": 0.0083,
	"step": 90400
	},
	{
	"epoch": 27.06,
	"grad_norm": 0.044969938695430756,
	"learning_rate": 3.647375504710633e-05,
	"loss": 0.0073,
	"step": 90500
	},
	{
	"epoch": 27.09,
	"grad_norm": 0.06378799676895142,
	"learning_rate": 3.645880065799313e-05,
	"loss": 0.0073,
	"step": 90600
	},
	{
	"epoch": 27.12,
	"grad_norm": 0.323734849691391,
	"learning_rate": 3.6443846268879914e-05,
	"loss": 0.0078,
	"step": 90700
	},
	{
	"epoch": 27.15,
	"grad_norm": 1.6457269191741943,
	"learning_rate": 3.642889187976671e-05,
	"loss": 0.0055,
	"step": 90800
	},
	{
	"epoch": 27.18,
	"grad_norm": 0.007004741113632917,
	"learning_rate": 3.641393749065351e-05,
	"loss": 0.0065,
	"step": 90900
	},
	{
	"epoch": 27.21,
	"grad_norm": 0.06395163387060165,
	"learning_rate": 3.63989831015403e-05,
	"loss": 0.0062,
	"step": 91000
	},
	{
	"epoch": 27.21,
	"eval_loss": 0.32764899730682373,
	"eval_precision": 0.9317584480600751,
	"eval_recall": 0.916869361741433,
	"eval_runtime": 309.1631,
	"eval_samples_per_second": 43.259,
	"eval_steps_per_second": 1.352,
	"step": 91000
	},
	{
	"epoch": 27.24,
	"grad_norm": 0.005486265290528536,
	"learning_rate": 3.63840287124271e-05,
	"loss": 0.0082,
	"step": 91100
	},
	{
	"epoch": 27.27,
	"grad_norm": 2.3132262229919434,
	"learning_rate": 3.63690743233139e-05,
	"loss": 0.0067,
	"step": 91200
	},
	{
	"epoch": 27.3,
	"grad_norm": 0.07687461376190186,
	"learning_rate": 3.635411993420069e-05,
	"loss": 0.0051,
	"step": 91300
	},
	{
	"epoch": 27.33,
	"grad_norm": 0.05096305161714554,
	"learning_rate": 3.6339165545087484e-05,
	"loss": 0.0061,
	"step": 91400
	},
	{
	"epoch": 27.36,
	"grad_norm": 0.21200311183929443,
	"learning_rate": 3.6324211155974284e-05,
	"loss": 0.0072,
	"step": 91500
	},
	{
	"epoch": 27.39,
	"grad_norm": 0.07336900383234024,
	"learning_rate": 3.630925676686108e-05,
	"loss": 0.008,
	"step": 91600
	},
	{
	"epoch": 27.42,
	"grad_norm": 0.026788916438817978,
	"learning_rate": 3.629430237774787e-05,
	"loss": 0.0068,
	"step": 91700
	},
	{
	"epoch": 27.45,
	"grad_norm": 0.03046250529587269,
	"learning_rate": 3.627934798863466e-05,
	"loss": 0.0081,
	"step": 91800
	},
	{
	"epoch": 27.48,
	"grad_norm": 0.32240158319473267,
	"learning_rate": 3.626439359952146e-05,
	"loss": 0.0091,
	"step": 91900
	},
	{
	"epoch": 27.51,
	"grad_norm": 0.1428656429052353,
	"learning_rate": 3.624943921040826e-05,
	"loss": 0.007,
	"step": 92000
	},
	{
	"epoch": 27.51,
	"eval_loss": 0.3499869704246521,
	"eval_precision": 0.9278612426685068,
	"eval_recall": 0.9108346931863666,
	"eval_runtime": 310.2456,
	"eval_samples_per_second": 43.108,
	"eval_steps_per_second": 1.347,
	"step": 92000
	}
	],
	"logging_steps": 100,
	"max_steps": 334400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 500,
	"total_flos": 4.8090441780412416e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}