Qwen2-VL-7B_visual_rft_lisa_IoU_reward / trainer_state.json

Upload Qwen2VL fine-tuned model

1509245 verified 8 months ago

202 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.0,
	"eval_steps": 500,
	"global_step": 498,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 82.65625,
	"epoch": 0.012048192771084338,
	"grad_norm": 5.841508927710052,
	"kl": 0.0,
	"learning_rate": 9.97991967871486e-07,
	"loss": 0.0,
	"reward": 1.4489864706993103,
	"reward_std": 0.8421240150928497,
	"rewards/accuracy_reward": 0.8005490005016327,
	"rewards/format_reward": 0.6484375,
	"step": 1
	},
	{
	"completion_length": 91.453125,
	"epoch": 0.024096385542168676,
	"grad_norm": 4.392637703815363,
	"kl": 0.00279998779296875,
	"learning_rate": 9.959839357429717e-07,
	"loss": 0.0001,
	"reward": 1.3076424598693848,
	"reward_std": 0.8380775451660156,
	"rewards/accuracy_reward": 0.6123300492763519,
	"rewards/format_reward": 0.6953125,
	"step": 2
	},
	{
	"completion_length": 79.171875,
	"epoch": 0.03614457831325301,
	"grad_norm": 5.134937236220538,
	"kl": 0.009063720703125,
	"learning_rate": 9.93975903614458e-07,
	"loss": 0.0004,
	"reward": 1.650797963142395,
	"reward_std": 0.8256142735481262,
	"rewards/accuracy_reward": 0.8773605227470398,
	"rewards/format_reward": 0.7734375,
	"step": 3
	},
	{
	"completion_length": 90.8671875,
	"epoch": 0.04819277108433735,
	"grad_norm": 4.181043208735878,
	"kl": 0.0099029541015625,
	"learning_rate": 9.919678714859437e-07,
	"loss": 0.0004,
	"reward": 1.4978268146514893,
	"reward_std": 0.7668428122997284,
	"rewards/accuracy_reward": 0.6618892848491669,
	"rewards/format_reward": 0.8359375,
	"step": 4
	},
	{
	"completion_length": 83.15625,
	"epoch": 0.060240963855421686,
	"grad_norm": 4.623169300333461,
	"kl": 0.028106689453125,
	"learning_rate": 9.899598393574296e-07,
	"loss": 0.0011,
	"reward": 1.959537386894226,
	"reward_std": 0.6147363781929016,
	"rewards/accuracy_reward": 1.0532873272895813,
	"rewards/format_reward": 0.90625,
	"step": 5
	},
	{
	"completion_length": 75.1484375,
	"epoch": 0.07228915662650602,
	"grad_norm": 5.568012410409197,
	"kl": 0.03021240234375,
	"learning_rate": 9.879518072289156e-07,
	"loss": 0.0012,
	"reward": 2.047786593437195,
	"reward_std": 0.4053535610437393,
	"rewards/accuracy_reward": 1.0946615934371948,
	"rewards/format_reward": 0.953125,
	"step": 6
	},
	{
	"completion_length": 76.03125,
	"epoch": 0.08433734939759036,
	"grad_norm": 4.7579852016782045,
	"kl": 0.033935546875,
	"learning_rate": 9.859437751004016e-07,
	"loss": 0.0014,
	"reward": 2.1630080938339233,
	"reward_std": 0.3877447098493576,
	"rewards/accuracy_reward": 1.2333204746246338,
	"rewards/format_reward": 0.9296875,
	"step": 7
	},
	{
	"completion_length": 71.546875,
	"epoch": 0.0963855421686747,
	"grad_norm": 9.256093312505593,
	"kl": 0.244384765625,
	"learning_rate": 9.839357429718876e-07,
	"loss": 0.0097,
	"reward": 2.015242576599121,
	"reward_std": 0.4337102472782135,
	"rewards/accuracy_reward": 1.054305076599121,
	"rewards/format_reward": 0.9609375,
	"step": 8
	},
	{
	"completion_length": 72.1796875,
	"epoch": 0.10843373493975904,
	"grad_norm": 9.959610046323814,
	"kl": 0.2841796875,
	"learning_rate": 9.819277108433734e-07,
	"loss": 0.0114,
	"reward": 1.9989103078842163,
	"reward_std": 0.38074547052383423,
	"rewards/accuracy_reward": 1.0145351886749268,
	"rewards/format_reward": 0.984375,
	"step": 9
	},
	{
	"completion_length": 67.0078125,
	"epoch": 0.12048192771084337,
	"grad_norm": 4.494217301954794,
	"kl": 0.0677490234375,
	"learning_rate": 9.799196787148593e-07,
	"loss": 0.0027,
	"reward": 2.208647847175598,
	"reward_std": 0.20472895354032516,
	"rewards/accuracy_reward": 1.2086476683616638,
	"rewards/format_reward": 1.0,
	"step": 10
	},
	{
	"completion_length": 66.3125,
	"epoch": 0.13253012048192772,
	"grad_norm": 4.205085729740715,
	"kl": 0.111083984375,
	"learning_rate": 9.779116465863453e-07,
	"loss": 0.0044,
	"reward": 2.016738772392273,
	"reward_std": 0.39626075327396393,
	"rewards/accuracy_reward": 1.0323637425899506,
	"rewards/format_reward": 0.984375,
	"step": 11
	},
	{
	"completion_length": 64.2265625,
	"epoch": 0.14457831325301204,
	"grad_norm": 5.285643902891126,
	"kl": 0.0670166015625,
	"learning_rate": 9.759036144578313e-07,
	"loss": 0.0027,
	"reward": 2.0809445977211,
	"reward_std": 0.3285638391971588,
	"rewards/accuracy_reward": 1.080944538116455,
	"rewards/format_reward": 1.0,
	"step": 12
	},
	{
	"completion_length": 57.7265625,
	"epoch": 0.1566265060240964,
	"grad_norm": 5.332797970620105,
	"kl": 0.07958984375,
	"learning_rate": 9.738955823293173e-07,
	"loss": 0.0032,
	"reward": 2.1677627563476562,
	"reward_std": 0.32235731184482574,
	"rewards/accuracy_reward": 1.1677626371383667,
	"rewards/format_reward": 1.0,
	"step": 13
	},
	{
	"completion_length": 62.765625,
	"epoch": 0.1686746987951807,
	"grad_norm": 7.594424067233083,
	"kl": 0.086181640625,
	"learning_rate": 9.718875502008033e-07,
	"loss": 0.0034,
	"reward": 2.287484049797058,
	"reward_std": 0.2577601447701454,
	"rewards/accuracy_reward": 1.3031091094017029,
	"rewards/format_reward": 0.984375,
	"step": 14
	},
	{
	"completion_length": 61.28125,
	"epoch": 0.18072289156626506,
	"grad_norm": 6.602361615736723,
	"kl": 0.087890625,
	"learning_rate": 9.69879518072289e-07,
	"loss": 0.0035,
	"reward": 2.28032910823822,
	"reward_std": 0.38463760912418365,
	"rewards/accuracy_reward": 1.2881416082382202,
	"rewards/format_reward": 0.9921875,
	"step": 15
	},
	{
	"completion_length": 63.6796875,
	"epoch": 0.1927710843373494,
	"grad_norm": 4.1986480450121135,
	"kl": 0.078125,
	"learning_rate": 9.67871485943775e-07,
	"loss": 0.0031,
	"reward": 2.1277613639831543,
	"reward_std": 0.2963729351758957,
	"rewards/accuracy_reward": 1.1433865427970886,
	"rewards/format_reward": 0.984375,
	"step": 16
	},
	{
	"completion_length": 60.65625,
	"epoch": 0.20481927710843373,
	"grad_norm": 6.921299965436032,
	"kl": 0.088134765625,
	"learning_rate": 9.65863453815261e-07,
	"loss": 0.0035,
	"reward": 2.157727599143982,
	"reward_std": 0.30868735909461975,
	"rewards/accuracy_reward": 1.1733525395393372,
	"rewards/format_reward": 0.984375,
	"step": 17
	},
	{
	"completion_length": 59.2265625,
	"epoch": 0.21686746987951808,
	"grad_norm": 4.904213548043611,
	"kl": 0.07666015625,
	"learning_rate": 9.63855421686747e-07,
	"loss": 0.0031,
	"reward": 2.24626088142395,
	"reward_std": 0.22766248881816864,
	"rewards/accuracy_reward": 1.2540735006332397,
	"rewards/format_reward": 0.9921875,
	"step": 18
	},
	{
	"completion_length": 58.703125,
	"epoch": 0.2289156626506024,
	"grad_norm": 4.786279154756674,
	"kl": 0.109619140625,
	"learning_rate": 9.61847389558233e-07,
	"loss": 0.0044,
	"reward": 2.050855040550232,
	"reward_std": 0.35161878168582916,
	"rewards/accuracy_reward": 1.0586674511432648,
	"rewards/format_reward": 0.9921875,
	"step": 19
	},
	{
	"completion_length": 58.109375,
	"epoch": 0.24096385542168675,
	"grad_norm": 4.05967579782597,
	"kl": 0.08056640625,
	"learning_rate": 9.598393574297187e-07,
	"loss": 0.0032,
	"reward": 2.20633327960968,
	"reward_std": 0.3129453659057617,
	"rewards/accuracy_reward": 1.2219581604003906,
	"rewards/format_reward": 0.984375,
	"step": 20
	},
	{
	"completion_length": 57.71875,
	"epoch": 0.25301204819277107,
	"grad_norm": 5.8300935596675885,
	"kl": 0.080078125,
	"learning_rate": 9.57831325301205e-07,
	"loss": 0.0032,
	"reward": 2.417273759841919,
	"reward_std": 0.28760989010334015,
	"rewards/accuracy_reward": 1.4250862002372742,
	"rewards/format_reward": 0.9921875,
	"step": 21
	},
	{
	"completion_length": 54.5859375,
	"epoch": 0.26506024096385544,
	"grad_norm": 7.535044861581114,
	"kl": 0.106201171875,
	"learning_rate": 9.558232931726907e-07,
	"loss": 0.0042,
	"reward": 2.2527129650115967,
	"reward_std": 0.2951706647872925,
	"rewards/accuracy_reward": 1.2683378458023071,
	"rewards/format_reward": 0.984375,
	"step": 22
	},
	{
	"completion_length": 61.09375,
	"epoch": 0.27710843373493976,
	"grad_norm": 4.416172924233661,
	"kl": 0.10009765625,
	"learning_rate": 9.538152610441766e-07,
	"loss": 0.004,
	"reward": 2.1894314289093018,
	"reward_std": 0.21257736533880234,
	"rewards/accuracy_reward": 1.1894314289093018,
	"rewards/format_reward": 1.0,
	"step": 23
	},
	{
	"completion_length": 54.9921875,
	"epoch": 0.2891566265060241,
	"grad_norm": 4.553446996976198,
	"kl": 0.09814453125,
	"learning_rate": 9.518072289156625e-07,
	"loss": 0.0039,
	"reward": 2.3037142753601074,
	"reward_std": 0.3323938250541687,
	"rewards/accuracy_reward": 1.3115268349647522,
	"rewards/format_reward": 0.9921875,
	"step": 24
	},
	{
	"completion_length": 55.9921875,
	"epoch": 0.30120481927710846,
	"grad_norm": 8.671383785487564,
	"kl": 0.120849609375,
	"learning_rate": 9.497991967871486e-07,
	"loss": 0.0048,
	"reward": 2.239556074142456,
	"reward_std": 0.3447880446910858,
	"rewards/accuracy_reward": 1.2551808953285217,
	"rewards/format_reward": 0.984375,
	"step": 25
	},
	{
	"completion_length": 58.7890625,
	"epoch": 0.3132530120481928,
	"grad_norm": 8.322624639517006,
	"kl": 0.12353515625,
	"learning_rate": 9.477911646586345e-07,
	"loss": 0.0049,
	"reward": 2.2209770679473877,
	"reward_std": 0.3139883056282997,
	"rewards/accuracy_reward": 1.2287896275520325,
	"rewards/format_reward": 0.9921875,
	"step": 26
	},
	{
	"completion_length": 56.2421875,
	"epoch": 0.3253012048192771,
	"grad_norm": 20.55146941012377,
	"kl": 0.130126953125,
	"learning_rate": 9.457831325301205e-07,
	"loss": 0.0052,
	"reward": 2.344720959663391,
	"reward_std": 0.25742725282907486,
	"rewards/accuracy_reward": 1.3525334596633911,
	"rewards/format_reward": 0.9921875,
	"step": 27
	},
	{
	"completion_length": 52.3671875,
	"epoch": 0.3373493975903614,
	"grad_norm": 4.550988243582887,
	"kl": 0.12548828125,
	"learning_rate": 9.437751004016063e-07,
	"loss": 0.005,
	"reward": 2.407941460609436,
	"reward_std": 0.3139786869287491,
	"rewards/accuracy_reward": 1.4313790798187256,
	"rewards/format_reward": 0.9765625,
	"step": 28
	},
	{
	"completion_length": 53.328125,
	"epoch": 0.3493975903614458,
	"grad_norm": 5.133796660962732,
	"kl": 0.1435546875,
	"learning_rate": 9.417670682730924e-07,
	"loss": 0.0057,
	"reward": 2.3306795358657837,
	"reward_std": 0.3039723336696625,
	"rewards/accuracy_reward": 1.3463045954704285,
	"rewards/format_reward": 0.984375,
	"step": 29
	},
	{
	"completion_length": 53.8125,
	"epoch": 0.3614457831325301,
	"grad_norm": 6.796717577260548,
	"kl": 0.27880859375,
	"learning_rate": 9.397590361445783e-07,
	"loss": 0.0112,
	"reward": 2.2834625244140625,
	"reward_std": 0.3063512295484543,
	"rewards/accuracy_reward": 1.2834625244140625,
	"rewards/format_reward": 1.0,
	"step": 30
	},
	{
	"completion_length": 56.3203125,
	"epoch": 0.37349397590361444,
	"grad_norm": 4.3393989853337285,
	"kl": 0.14794921875,
	"learning_rate": 9.377510040160642e-07,
	"loss": 0.0059,
	"reward": 2.354575991630554,
	"reward_std": 0.314766064286232,
	"rewards/accuracy_reward": 1.3623886704444885,
	"rewards/format_reward": 0.9921875,
	"step": 31
	},
	{
	"completion_length": 54.171875,
	"epoch": 0.3855421686746988,
	"grad_norm": 4.279946209704863,
	"kl": 0.197265625,
	"learning_rate": 9.357429718875502e-07,
	"loss": 0.0079,
	"reward": 2.1385136246681213,
	"reward_std": 0.24586574733257294,
	"rewards/accuracy_reward": 1.1463261544704437,
	"rewards/format_reward": 0.9921875,
	"step": 32
	},
	{
	"completion_length": 51.4140625,
	"epoch": 0.39759036144578314,
	"grad_norm": 5.88762957444806,
	"kl": 0.1630859375,
	"learning_rate": 9.33734939759036e-07,
	"loss": 0.0065,
	"reward": 2.2907108068466187,
	"reward_std": 0.25231631100177765,
	"rewards/accuracy_reward": 1.2907109260559082,
	"rewards/format_reward": 1.0,
	"step": 33
	},
	{
	"completion_length": 50.4609375,
	"epoch": 0.40963855421686746,
	"grad_norm": 5.469228934242547,
	"kl": 0.16845703125,
	"learning_rate": 9.317269076305221e-07,
	"loss": 0.0067,
	"reward": 2.2533600330352783,
	"reward_std": 0.25808002054691315,
	"rewards/accuracy_reward": 1.2611725330352783,
	"rewards/format_reward": 0.9921875,
	"step": 34
	},
	{
	"completion_length": 47.84375,
	"epoch": 0.42168674698795183,
	"grad_norm": 5.412602747215773,
	"kl": 0.177734375,
	"learning_rate": 9.29718875502008e-07,
	"loss": 0.0071,
	"reward": 2.3132054805755615,
	"reward_std": 0.2454073503613472,
	"rewards/accuracy_reward": 1.3132054805755615,
	"rewards/format_reward": 1.0,
	"step": 35
	},
	{
	"completion_length": 44.21875,
	"epoch": 0.43373493975903615,
	"grad_norm": 5.190368238545804,
	"kl": 0.2275390625,
	"learning_rate": 9.27710843373494e-07,
	"loss": 0.0091,
	"reward": 2.2854232788085938,
	"reward_std": 0.29085223376750946,
	"rewards/accuracy_reward": 1.293235719203949,
	"rewards/format_reward": 0.9921875,
	"step": 36
	},
	{
	"completion_length": 48.71875,
	"epoch": 0.4457831325301205,
	"grad_norm": 4.780274291960778,
	"kl": 0.20751953125,
	"learning_rate": 9.257028112449798e-07,
	"loss": 0.0083,
	"reward": 2.246184825897217,
	"reward_std": 0.31601477414369583,
	"rewards/accuracy_reward": 1.261809766292572,
	"rewards/format_reward": 0.984375,
	"step": 37
	},
	{
	"completion_length": 42.265625,
	"epoch": 0.4578313253012048,
	"grad_norm": 6.234590681750942,
	"kl": 0.265625,
	"learning_rate": 9.236947791164659e-07,
	"loss": 0.0106,
	"reward": 2.112604260444641,
	"reward_std": 0.30199334025382996,
	"rewards/accuracy_reward": 1.1126042604446411,
	"rewards/format_reward": 1.0,
	"step": 38
	},
	{
	"completion_length": 45.1015625,
	"epoch": 0.46987951807228917,
	"grad_norm": 4.611394363412455,
	"kl": 0.15576171875,
	"learning_rate": 9.216867469879518e-07,
	"loss": 0.0062,
	"reward": 2.3590028285980225,
	"reward_std": 0.2973439395427704,
	"rewards/accuracy_reward": 1.3746278285980225,
	"rewards/format_reward": 0.984375,
	"step": 39
	},
	{
	"completion_length": 45.3046875,
	"epoch": 0.4819277108433735,
	"grad_norm": 6.117578716606278,
	"kl": 0.17626953125,
	"learning_rate": 9.196787148594377e-07,
	"loss": 0.0071,
	"reward": 2.2271867990493774,
	"reward_std": 0.22323830425739288,
	"rewards/accuracy_reward": 1.234999418258667,
	"rewards/format_reward": 0.9921875,
	"step": 40
	},
	{
	"completion_length": 41.9453125,
	"epoch": 0.4939759036144578,
	"grad_norm": 4.858430237306144,
	"kl": 0.2236328125,
	"learning_rate": 9.176706827309237e-07,
	"loss": 0.0089,
	"reward": 2.217424750328064,
	"reward_std": 0.2663164809346199,
	"rewards/accuracy_reward": 1.2252373099327087,
	"rewards/format_reward": 0.9921875,
	"step": 41
	},
	{
	"completion_length": 41.0234375,
	"epoch": 0.5060240963855421,
	"grad_norm": 4.127212546225013,
	"kl": 0.18212890625,
	"learning_rate": 9.156626506024095e-07,
	"loss": 0.0073,
	"reward": 2.16755473613739,
	"reward_std": 0.3387562334537506,
	"rewards/accuracy_reward": 1.1753671169281006,
	"rewards/format_reward": 0.9921875,
	"step": 42
	},
	{
	"completion_length": 42.6640625,
	"epoch": 0.5180722891566265,
	"grad_norm": 5.226665280180925,
	"kl": 0.23193359375,
	"learning_rate": 9.136546184738956e-07,
	"loss": 0.0093,
	"reward": 2.203770875930786,
	"reward_std": 0.3409430831670761,
	"rewards/accuracy_reward": 1.2350206971168518,
	"rewards/format_reward": 0.96875,
	"step": 43
	},
	{
	"completion_length": 40.9609375,
	"epoch": 0.5301204819277109,
	"grad_norm": 4.308668359699942,
	"kl": 0.134033203125,
	"learning_rate": 9.116465863453815e-07,
	"loss": 0.0054,
	"reward": 2.2817225456237793,
	"reward_std": 0.19574209302663803,
	"rewards/accuracy_reward": 1.281722605228424,
	"rewards/format_reward": 1.0,
	"step": 44
	},
	{
	"completion_length": 38.7734375,
	"epoch": 0.5421686746987951,
	"grad_norm": 6.033974360622575,
	"kl": 0.13232421875,
	"learning_rate": 9.096385542168675e-07,
	"loss": 0.0053,
	"reward": 2.2139052152633667,
	"reward_std": 0.28486668318510056,
	"rewards/accuracy_reward": 1.2451552748680115,
	"rewards/format_reward": 0.96875,
	"step": 45
	},
	{
	"completion_length": 41.1484375,
	"epoch": 0.5542168674698795,
	"grad_norm": 5.314865555502224,
	"kl": 0.11279296875,
	"learning_rate": 9.076305220883533e-07,
	"loss": 0.0045,
	"reward": 2.4188212156295776,
	"reward_std": 0.2556447684764862,
	"rewards/accuracy_reward": 1.4266336560249329,
	"rewards/format_reward": 0.9921875,
	"step": 46
	},
	{
	"completion_length": 42.7109375,
	"epoch": 0.5662650602409639,
	"grad_norm": 3.687080063413381,
	"kl": 0.123046875,
	"learning_rate": 9.056224899598393e-07,
	"loss": 0.0049,
	"reward": 2.2985291481018066,
	"reward_std": 0.2858593165874481,
	"rewards/accuracy_reward": 1.3063417077064514,
	"rewards/format_reward": 0.9921875,
	"step": 47
	},
	{
	"completion_length": 46.859375,
	"epoch": 0.5783132530120482,
	"grad_norm": 4.277184476359137,
	"kl": 0.20166015625,
	"learning_rate": 9.036144578313253e-07,
	"loss": 0.0081,
	"reward": 2.1704814434051514,
	"reward_std": 0.3619203567504883,
	"rewards/accuracy_reward": 1.186106562614441,
	"rewards/format_reward": 0.984375,
	"step": 48
	},
	{
	"completion_length": 45.21875,
	"epoch": 0.5903614457831325,
	"grad_norm": 3.7971557376020577,
	"kl": 0.124267578125,
	"learning_rate": 9.016064257028112e-07,
	"loss": 0.005,
	"reward": 2.1000068187713623,
	"reward_std": 0.2924596816301346,
	"rewards/accuracy_reward": 1.123444378376007,
	"rewards/format_reward": 0.9765625,
	"step": 49
	},
	{
	"completion_length": 44.7734375,
	"epoch": 0.6024096385542169,
	"grad_norm": 4.458817172061971,
	"kl": 0.111083984375,
	"learning_rate": 8.995983935742972e-07,
	"loss": 0.0044,
	"reward": 2.2635247707366943,
	"reward_std": 0.3522821515798569,
	"rewards/accuracy_reward": 1.2869621515274048,
	"rewards/format_reward": 0.9765625,
	"step": 50
	},
	{
	"completion_length": 51.5859375,
	"epoch": 0.6144578313253012,
	"grad_norm": 5.351600002967812,
	"kl": 0.115234375,
	"learning_rate": 8.97590361445783e-07,
	"loss": 0.0046,
	"reward": 2.321009397506714,
	"reward_std": 0.23405297100543976,
	"rewards/accuracy_reward": 1.3366344571113586,
	"rewards/format_reward": 0.984375,
	"step": 51
	},
	{
	"completion_length": 50.421875,
	"epoch": 0.6265060240963856,
	"grad_norm": 4.213335817741083,
	"kl": 0.1396484375,
	"learning_rate": 8.955823293172691e-07,
	"loss": 0.0056,
	"reward": 2.3553450107574463,
	"reward_std": 0.25443293899297714,
	"rewards/accuracy_reward": 1.3944076299667358,
	"rewards/format_reward": 0.9609375,
	"step": 52
	},
	{
	"completion_length": 60.6015625,
	"epoch": 0.6385542168674698,
	"grad_norm": 6.123689334744157,
	"kl": 0.121337890625,
	"learning_rate": 8.93574297188755e-07,
	"loss": 0.0049,
	"reward": 2.112071990966797,
	"reward_std": 0.30149899423122406,
	"rewards/accuracy_reward": 1.1433220505714417,
	"rewards/format_reward": 0.96875,
	"step": 53
	},
	{
	"completion_length": 50.0703125,
	"epoch": 0.6506024096385542,
	"grad_norm": 4.396654754831157,
	"kl": 0.1337890625,
	"learning_rate": 8.915662650602409e-07,
	"loss": 0.0053,
	"reward": 2.233729839324951,
	"reward_std": 0.23247240483760834,
	"rewards/accuracy_reward": 1.2571672797203064,
	"rewards/format_reward": 0.9765625,
	"step": 54
	},
	{
	"completion_length": 60.2890625,
	"epoch": 0.6626506024096386,
	"grad_norm": 7.03985835954293,
	"kl": 0.10498046875,
	"learning_rate": 8.895582329317268e-07,
	"loss": 0.0042,
	"reward": 2.196902871131897,
	"reward_std": 0.2882121652364731,
	"rewards/accuracy_reward": 1.2125278115272522,
	"rewards/format_reward": 0.984375,
	"step": 55
	},
	{
	"completion_length": 50.640625,
	"epoch": 0.6746987951807228,
	"grad_norm": 4.86896494949543,
	"kl": 0.12451171875,
	"learning_rate": 8.875502008032128e-07,
	"loss": 0.005,
	"reward": 2.171112537384033,
	"reward_std": 0.16461243480443954,
	"rewards/accuracy_reward": 1.1867375373840332,
	"rewards/format_reward": 0.984375,
	"step": 56
	},
	{
	"completion_length": 53.21875,
	"epoch": 0.6867469879518072,
	"grad_norm": 3.557538165261062,
	"kl": 0.1240234375,
	"learning_rate": 8.855421686746988e-07,
	"loss": 0.005,
	"reward": 2.2328275442123413,
	"reward_std": 0.2752218544483185,
	"rewards/accuracy_reward": 1.2406402230262756,
	"rewards/format_reward": 0.9921875,
	"step": 57
	},
	{
	"completion_length": 47.8671875,
	"epoch": 0.6987951807228916,
	"grad_norm": 5.180162989820259,
	"kl": 0.125,
	"learning_rate": 8.835341365461847e-07,
	"loss": 0.005,
	"reward": 2.2453041076660156,
	"reward_std": 0.315682128071785,
	"rewards/accuracy_reward": 1.268741488456726,
	"rewards/format_reward": 0.9765625,
	"step": 58
	},
	{
	"completion_length": 57.9765625,
	"epoch": 0.7108433734939759,
	"grad_norm": 3.899105782667564,
	"kl": 0.10205078125,
	"learning_rate": 8.815261044176707e-07,
	"loss": 0.0041,
	"reward": 2.284543514251709,
	"reward_std": 0.25333235412836075,
	"rewards/accuracy_reward": 1.292356252670288,
	"rewards/format_reward": 0.9921875,
	"step": 59
	},
	{
	"completion_length": 46.5859375,
	"epoch": 0.7228915662650602,
	"grad_norm": 13.765129472909528,
	"kl": 0.106201171875,
	"learning_rate": 8.795180722891565e-07,
	"loss": 0.0042,
	"reward": 2.113099694252014,
	"reward_std": 0.326066330075264,
	"rewards/accuracy_reward": 1.1287246942520142,
	"rewards/format_reward": 0.984375,
	"step": 60
	},
	{
	"completion_length": 46.375,
	"epoch": 0.7349397590361446,
	"grad_norm": 6.1270425433473,
	"kl": 0.16357421875,
	"learning_rate": 8.775100401606425e-07,
	"loss": 0.0065,
	"reward": 1.9968695640563965,
	"reward_std": 0.34320104122161865,
	"rewards/accuracy_reward": 1.0124945640563965,
	"rewards/format_reward": 0.984375,
	"step": 61
	},
	{
	"completion_length": 53.09375,
	"epoch": 0.7469879518072289,
	"grad_norm": 4.3056291481606745,
	"kl": 0.1513671875,
	"learning_rate": 8.755020080321285e-07,
	"loss": 0.0061,
	"reward": 2.1780970096588135,
	"reward_std": 0.2706674858927727,
	"rewards/accuracy_reward": 1.2093469500541687,
	"rewards/format_reward": 0.96875,
	"step": 62
	},
	{
	"completion_length": 55.9375,
	"epoch": 0.7590361445783133,
	"grad_norm": 3.2395174572422416,
	"kl": 0.14501953125,
	"learning_rate": 8.734939759036144e-07,
	"loss": 0.0058,
	"reward": 2.1430922746658325,
	"reward_std": 0.24412654340267181,
	"rewards/accuracy_reward": 1.1665297150611877,
	"rewards/format_reward": 0.9765625,
	"step": 63
	},
	{
	"completion_length": 56.6328125,
	"epoch": 0.7710843373493976,
	"grad_norm": 4.190814109425291,
	"kl": 0.11962890625,
	"learning_rate": 8.714859437751003e-07,
	"loss": 0.0048,
	"reward": 2.1700193881988525,
	"reward_std": 0.2942150831222534,
	"rewards/accuracy_reward": 1.1934569478034973,
	"rewards/format_reward": 0.9765625,
	"step": 64
	},
	{
	"completion_length": 64.3984375,
	"epoch": 0.7831325301204819,
	"grad_norm": 3.226137200230793,
	"kl": 0.102783203125,
	"learning_rate": 8.694779116465863e-07,
	"loss": 0.0041,
	"reward": 2.2898290157318115,
	"reward_std": 0.2443845123052597,
	"rewards/accuracy_reward": 1.3132665753364563,
	"rewards/format_reward": 0.9765625,
	"step": 65
	},
	{
	"completion_length": 67.7109375,
	"epoch": 0.7951807228915663,
	"grad_norm": 3.9157620361816314,
	"kl": 0.0927734375,
	"learning_rate": 8.674698795180723e-07,
	"loss": 0.0037,
	"reward": 2.161790609359741,
	"reward_std": 0.29590657353401184,
	"rewards/accuracy_reward": 1.1696029901504517,
	"rewards/format_reward": 0.9921875,
	"step": 66
	},
	{
	"completion_length": 74.3203125,
	"epoch": 0.8072289156626506,
	"grad_norm": 3.1212414712368375,
	"kl": 0.082763671875,
	"learning_rate": 8.654618473895582e-07,
	"loss": 0.0033,
	"reward": 2.215745210647583,
	"reward_std": 0.2766411006450653,
	"rewards/accuracy_reward": 1.2313700914382935,
	"rewards/format_reward": 0.984375,
	"step": 67
	},
	{
	"completion_length": 74.0390625,
	"epoch": 0.8192771084337349,
	"grad_norm": 3.446969302283755,
	"kl": 0.074951171875,
	"learning_rate": 8.634538152610441e-07,
	"loss": 0.003,
	"reward": 2.1964612007141113,
	"reward_std": 0.235237754881382,
	"rewards/accuracy_reward": 1.2198986411094666,
	"rewards/format_reward": 0.9765625,
	"step": 68
	},
	{
	"completion_length": 76.9375,
	"epoch": 0.8313253012048193,
	"grad_norm": 3.310962519125171,
	"kl": 0.08154296875,
	"learning_rate": 8.614457831325301e-07,
	"loss": 0.0033,
	"reward": 2.1269989013671875,
	"reward_std": 0.2448011264204979,
	"rewards/accuracy_reward": 1.1426239013671875,
	"rewards/format_reward": 0.984375,
	"step": 69
	},
	{
	"completion_length": 71.3984375,
	"epoch": 0.8433734939759037,
	"grad_norm": 3.2998576155248966,
	"kl": 0.0888671875,
	"learning_rate": 8.59437751004016e-07,
	"loss": 0.0036,
	"reward": 2.2479825019836426,
	"reward_std": 0.2886482775211334,
	"rewards/accuracy_reward": 1.2636074423789978,
	"rewards/format_reward": 0.984375,
	"step": 70
	},
	{
	"completion_length": 72.1484375,
	"epoch": 0.8554216867469879,
	"grad_norm": 7.668000907111886,
	"kl": 0.07861328125,
	"learning_rate": 8.57429718875502e-07,
	"loss": 0.0031,
	"reward": 2.2247371673583984,
	"reward_std": 0.2391326129436493,
	"rewards/accuracy_reward": 1.2637996673583984,
	"rewards/format_reward": 0.9609375,
	"step": 71
	},
	{
	"completion_length": 77.7734375,
	"epoch": 0.8674698795180723,
	"grad_norm": 3.4104191137958013,
	"kl": 0.068359375,
	"learning_rate": 8.554216867469879e-07,
	"loss": 0.0027,
	"reward": 2.2031702995300293,
	"reward_std": 0.21321924775838852,
	"rewards/accuracy_reward": 1.210982859134674,
	"rewards/format_reward": 0.9921875,
	"step": 72
	},
	{
	"completion_length": 76.5546875,
	"epoch": 0.8795180722891566,
	"grad_norm": 3.884229840630286,
	"kl": 0.0947265625,
	"learning_rate": 8.534136546184738e-07,
	"loss": 0.0038,
	"reward": 2.2307136058807373,
	"reward_std": 0.2959597185254097,
	"rewards/accuracy_reward": 1.2463387250900269,
	"rewards/format_reward": 0.984375,
	"step": 73
	},
	{
	"completion_length": 73.7265625,
	"epoch": 0.891566265060241,
	"grad_norm": 7.2397255809983525,
	"kl": 0.170654296875,
	"learning_rate": 8.514056224899598e-07,
	"loss": 0.0068,
	"reward": 2.311343193054199,
	"reward_std": 0.21377335488796234,
	"rewards/accuracy_reward": 1.319155752658844,
	"rewards/format_reward": 0.9921875,
	"step": 74
	},
	{
	"completion_length": 71.5859375,
	"epoch": 0.9036144578313253,
	"grad_norm": 3.397020763244455,
	"kl": 0.073974609375,
	"learning_rate": 8.493975903614458e-07,
	"loss": 0.003,
	"reward": 2.3479005098342896,
	"reward_std": 0.2722414582967758,
	"rewards/accuracy_reward": 1.3713379502296448,
	"rewards/format_reward": 0.9765625,
	"step": 75
	},
	{
	"completion_length": 64.34375,
	"epoch": 0.9156626506024096,
	"grad_norm": 4.709358727325993,
	"kl": 0.116455078125,
	"learning_rate": 8.473895582329317e-07,
	"loss": 0.0047,
	"reward": 2.1038066148757935,
	"reward_std": 0.3149692267179489,
	"rewards/accuracy_reward": 1.158493995666504,
	"rewards/format_reward": 0.9453125,
	"step": 76
	},
	{
	"completion_length": 69.390625,
	"epoch": 0.927710843373494,
	"grad_norm": 3.3768601117352923,
	"kl": 0.11376953125,
	"learning_rate": 8.453815261044176e-07,
	"loss": 0.0046,
	"reward": 2.02778023481369,
	"reward_std": 0.3105141818523407,
	"rewards/accuracy_reward": 1.074655294418335,
	"rewards/format_reward": 0.953125,
	"step": 77
	},
	{
	"completion_length": 67.328125,
	"epoch": 0.9397590361445783,
	"grad_norm": 3.504578270706009,
	"kl": 0.115234375,
	"learning_rate": 8.433734939759036e-07,
	"loss": 0.0046,
	"reward": 2.194709539413452,
	"reward_std": 0.27273692935705185,
	"rewards/accuracy_reward": 1.2181469202041626,
	"rewards/format_reward": 0.9765625,
	"step": 78
	},
	{
	"completion_length": 75.1640625,
	"epoch": 0.9518072289156626,
	"grad_norm": 4.043012399812061,
	"kl": 0.123046875,
	"learning_rate": 8.413654618473895e-07,
	"loss": 0.0049,
	"reward": 2.13509202003479,
	"reward_std": 0.313528910279274,
	"rewards/accuracy_reward": 1.18196702003479,
	"rewards/format_reward": 0.953125,
	"step": 79
	},
	{
	"completion_length": 70.0234375,
	"epoch": 0.963855421686747,
	"grad_norm": 4.870660538899373,
	"kl": 0.086181640625,
	"learning_rate": 8.393574297188755e-07,
	"loss": 0.0035,
	"reward": 2.1953389644622803,
	"reward_std": 0.26908765733242035,
	"rewards/accuracy_reward": 1.2265888452529907,
	"rewards/format_reward": 0.96875,
	"step": 80
	},
	{
	"completion_length": 80.859375,
	"epoch": 0.9759036144578314,
	"grad_norm": 3.8261245848047065,
	"kl": 0.1015625,
	"learning_rate": 8.373493975903614e-07,
	"loss": 0.0041,
	"reward": 2.0212653279304504,
	"reward_std": 0.3835397958755493,
	"rewards/accuracy_reward": 1.0915777683258057,
	"rewards/format_reward": 0.9296875,
	"step": 81
	},
	{
	"completion_length": 74.046875,
	"epoch": 0.9879518072289156,
	"grad_norm": 4.0964460767880535,
	"kl": 0.083984375,
	"learning_rate": 8.353413654618474e-07,
	"loss": 0.0034,
	"reward": 2.2536615133285522,
	"reward_std": 0.2658763527870178,
	"rewards/accuracy_reward": 1.2770991325378418,
	"rewards/format_reward": 0.9765625,
	"step": 82
	},
	{
	"completion_length": 74.58333587646484,
	"epoch": 1.0,
	"grad_norm": 2.9272571318373655,
	"kl": 0.1044921875,
	"learning_rate": 8.333333333333333e-07,
	"loss": 0.004,
	"reward": 2.1187774538993835,
	"reward_std": 0.1469321921467781,
	"rewards/accuracy_reward": 1.1187774240970612,
	"rewards/format_reward": 1.0,
	"step": 83
	},
	{
	"completion_length": 67.5390625,
	"epoch": 1.0120481927710843,
	"grad_norm": 4.360041456699287,
	"kl": 0.116455078125,
	"learning_rate": 8.313253012048192e-07,
	"loss": 0.0047,
	"reward": 2.2748764753341675,
	"reward_std": 0.30198951065540314,
	"rewards/accuracy_reward": 1.2983139157295227,
	"rewards/format_reward": 0.9765625,
	"step": 84
	},
	{
	"completion_length": 71.640625,
	"epoch": 1.0240963855421688,
	"grad_norm": 3.852904865115574,
	"kl": 0.100341796875,
	"learning_rate": 8.293172690763052e-07,
	"loss": 0.004,
	"reward": 2.22179639339447,
	"reward_std": 0.2614322751760483,
	"rewards/accuracy_reward": 1.2452340126037598,
	"rewards/format_reward": 0.9765625,
	"step": 85
	},
	{
	"completion_length": 77.71875,
	"epoch": 1.036144578313253,
	"grad_norm": 4.570601093607917,
	"kl": 0.086181640625,
	"learning_rate": 8.273092369477911e-07,
	"loss": 0.0034,
	"reward": 2.3267804384231567,
	"reward_std": 0.1871008574962616,
	"rewards/accuracy_reward": 1.3424054384231567,
	"rewards/format_reward": 0.984375,
	"step": 86
	},
	{
	"completion_length": 74.0703125,
	"epoch": 1.0481927710843373,
	"grad_norm": 4.387034223472388,
	"kl": 0.09033203125,
	"learning_rate": 8.253012048192771e-07,
	"loss": 0.0036,
	"reward": 2.280067205429077,
	"reward_std": 0.2090277522802353,
	"rewards/accuracy_reward": 1.2800670266151428,
	"rewards/format_reward": 1.0,
	"step": 87
	},
	{
	"completion_length": 72.8828125,
	"epoch": 1.0602409638554218,
	"grad_norm": 3.640432077142004,
	"kl": 0.097412109375,
	"learning_rate": 8.23293172690763e-07,
	"loss": 0.0039,
	"reward": 2.2264442443847656,
	"reward_std": 0.2877971976995468,
	"rewards/accuracy_reward": 1.2576942443847656,
	"rewards/format_reward": 0.96875,
	"step": 88
	},
	{
	"completion_length": 68.9765625,
	"epoch": 1.072289156626506,
	"grad_norm": 3.6617214501921755,
	"kl": 0.10107421875,
	"learning_rate": 8.21285140562249e-07,
	"loss": 0.004,
	"reward": 2.232625722885132,
	"reward_std": 0.26599176973104477,
	"rewards/accuracy_reward": 1.2482507824897766,
	"rewards/format_reward": 0.984375,
	"step": 89
	},
	{
	"completion_length": 74.765625,
	"epoch": 1.0843373493975903,
	"grad_norm": 4.600311265578528,
	"kl": 0.09130859375,
	"learning_rate": 8.192771084337349e-07,
	"loss": 0.0037,
	"reward": 2.253629207611084,
	"reward_std": 0.21175827831029892,
	"rewards/accuracy_reward": 1.269254207611084,
	"rewards/format_reward": 0.984375,
	"step": 90
	},
	{
	"completion_length": 76.59375,
	"epoch": 1.0963855421686748,
	"grad_norm": 4.145602929032845,
	"kl": 0.087646484375,
	"learning_rate": 8.172690763052207e-07,
	"loss": 0.0035,
	"reward": 2.2744953632354736,
	"reward_std": 0.24358398467302322,
	"rewards/accuracy_reward": 1.2901203632354736,
	"rewards/format_reward": 0.984375,
	"step": 91
	},
	{
	"completion_length": 75.875,
	"epoch": 1.108433734939759,
	"grad_norm": 3.8292102418969853,
	"kl": 0.10693359375,
	"learning_rate": 8.152610441767068e-07,
	"loss": 0.0043,
	"reward": 2.4102468490600586,
	"reward_std": 0.22168071568012238,
	"rewards/accuracy_reward": 1.4180592894554138,
	"rewards/format_reward": 0.9921875,
	"step": 92
	},
	{
	"completion_length": 73.5078125,
	"epoch": 1.1204819277108433,
	"grad_norm": 3.889694391559541,
	"kl": 0.0859375,
	"learning_rate": 8.132530120481927e-07,
	"loss": 0.0034,
	"reward": 2.19115674495697,
	"reward_std": 0.191669300198555,
	"rewards/accuracy_reward": 1.1989692449569702,
	"rewards/format_reward": 0.9921875,
	"step": 93
	},
	{
	"completion_length": 74.359375,
	"epoch": 1.1325301204819278,
	"grad_norm": 13.572499915490392,
	"kl": 0.115966796875,
	"learning_rate": 8.112449799196787e-07,
	"loss": 0.0046,
	"reward": 2.3821544647216797,
	"reward_std": 0.2079356163740158,
	"rewards/accuracy_reward": 1.3899668455123901,
	"rewards/format_reward": 0.9921875,
	"step": 94
	},
	{
	"completion_length": 70.875,
	"epoch": 1.144578313253012,
	"grad_norm": 3.96863603284974,
	"kl": 0.096923828125,
	"learning_rate": 8.092369477911646e-07,
	"loss": 0.0039,
	"reward": 2.301279664039612,
	"reward_std": 0.17724627256393433,
	"rewards/accuracy_reward": 1.309092104434967,
	"rewards/format_reward": 0.9921875,
	"step": 95
	},
	{
	"completion_length": 69.3125,
	"epoch": 1.1566265060240963,
	"grad_norm": 3.4379001474745206,
	"kl": 0.090087890625,
	"learning_rate": 8.072289156626506e-07,
	"loss": 0.0036,
	"reward": 2.371612310409546,
	"reward_std": 0.1584479957818985,
	"rewards/accuracy_reward": 1.371612310409546,
	"rewards/format_reward": 1.0,
	"step": 96
	},
	{
	"completion_length": 68.6171875,
	"epoch": 1.1686746987951806,
	"grad_norm": 4.586260816062996,
	"kl": 0.09375,
	"learning_rate": 8.052208835341365e-07,
	"loss": 0.0037,
	"reward": 2.4862219095230103,
	"reward_std": 0.20000579208135605,
	"rewards/accuracy_reward": 1.4862220287322998,
	"rewards/format_reward": 1.0,
	"step": 97
	},
	{
	"completion_length": 70.015625,
	"epoch": 1.180722891566265,
	"grad_norm": 4.047101829945655,
	"kl": 0.112060546875,
	"learning_rate": 8.032128514056225e-07,
	"loss": 0.0045,
	"reward": 2.2514266967773438,
	"reward_std": 0.22294947504997253,
	"rewards/accuracy_reward": 1.2514267563819885,
	"rewards/format_reward": 1.0,
	"step": 98
	},
	{
	"completion_length": 66.9140625,
	"epoch": 1.1927710843373494,
	"grad_norm": 5.444249065473958,
	"kl": 0.088134765625,
	"learning_rate": 8.012048192771084e-07,
	"loss": 0.0035,
	"reward": 2.333179473876953,
	"reward_std": 0.1811930388212204,
	"rewards/accuracy_reward": 1.3331794738769531,
	"rewards/format_reward": 1.0,
	"step": 99
	},
	{
	"completion_length": 65.828125,
	"epoch": 1.2048192771084336,
	"grad_norm": 7.074570957060863,
	"kl": 0.1064453125,
	"learning_rate": 7.991967871485942e-07,
	"loss": 0.0043,
	"reward": 2.278498649597168,
	"reward_std": 0.17714769393205643,
	"rewards/accuracy_reward": 1.2863109111785889,
	"rewards/format_reward": 0.9921875,
	"step": 100
	},
	{
	"completion_length": 62.6875,
	"epoch": 1.216867469879518,
	"grad_norm": 6.600402598086416,
	"kl": 0.099609375,
	"learning_rate": 7.971887550200803e-07,
	"loss": 0.004,
	"reward": 2.3798866271972656,
	"reward_std": 0.1492375209927559,
	"rewards/accuracy_reward": 1.3798866868019104,
	"rewards/format_reward": 1.0,
	"step": 101
	},
	{
	"completion_length": 67.234375,
	"epoch": 1.2289156626506024,
	"grad_norm": 5.4322907915163645,
	"kl": 0.0927734375,
	"learning_rate": 7.951807228915662e-07,
	"loss": 0.0037,
	"reward": 2.295409917831421,
	"reward_std": 0.26540718972682953,
	"rewards/accuracy_reward": 1.311034917831421,
	"rewards/format_reward": 0.984375,
	"step": 102
	},
	{
	"completion_length": 62.59375,
	"epoch": 1.2409638554216866,
	"grad_norm": 4.734234621294123,
	"kl": 0.10986328125,
	"learning_rate": 7.931726907630522e-07,
	"loss": 0.0044,
	"reward": 2.3131519556045532,
	"reward_std": 0.2041746824979782,
	"rewards/accuracy_reward": 1.3209643959999084,
	"rewards/format_reward": 0.9921875,
	"step": 103
	},
	{
	"completion_length": 65.0078125,
	"epoch": 1.2530120481927711,
	"grad_norm": 11.27432402123553,
	"kl": 0.094482421875,
	"learning_rate": 7.911646586345381e-07,
	"loss": 0.0038,
	"reward": 2.423591375350952,
	"reward_std": 0.17853456735610962,
	"rewards/accuracy_reward": 1.4235913753509521,
	"rewards/format_reward": 1.0,
	"step": 104
	},
	{
	"completion_length": 61.96875,
	"epoch": 1.2650602409638554,
	"grad_norm": 5.605209449566961,
	"kl": 0.10595703125,
	"learning_rate": 7.891566265060241e-07,
	"loss": 0.0042,
	"reward": 2.2498486042022705,
	"reward_std": 0.2505866587162018,
	"rewards/accuracy_reward": 1.2576610445976257,
	"rewards/format_reward": 0.9921875,
	"step": 105
	},
	{
	"completion_length": 69.890625,
	"epoch": 1.2771084337349397,
	"grad_norm": 9.555144265496201,
	"kl": 0.1015625,
	"learning_rate": 7.8714859437751e-07,
	"loss": 0.0041,
	"reward": 2.153669834136963,
	"reward_std": 0.2159716784954071,
	"rewards/accuracy_reward": 1.161482334136963,
	"rewards/format_reward": 0.9921875,
	"step": 106
	},
	{
	"completion_length": 63.5625,
	"epoch": 1.2891566265060241,
	"grad_norm": 4.205528221959235,
	"kl": 0.100341796875,
	"learning_rate": 7.851405622489959e-07,
	"loss": 0.004,
	"reward": 2.2599010467529297,
	"reward_std": 0.22189538180828094,
	"rewards/accuracy_reward": 1.2599008083343506,
	"rewards/format_reward": 1.0,
	"step": 107
	},
	{
	"completion_length": 60.3359375,
	"epoch": 1.3012048192771084,
	"grad_norm": 4.549607105799596,
	"kl": 0.13525390625,
	"learning_rate": 7.831325301204819e-07,
	"loss": 0.0054,
	"reward": 2.2945663928985596,
	"reward_std": 0.2269488275051117,
	"rewards/accuracy_reward": 1.2945663928985596,
	"rewards/format_reward": 1.0,
	"step": 108
	},
	{
	"completion_length": 63.9765625,
	"epoch": 1.3132530120481927,
	"grad_norm": 7.122658458301131,
	"kl": 0.10400390625,
	"learning_rate": 7.811244979919679e-07,
	"loss": 0.0042,
	"reward": 2.223813772201538,
	"reward_std": 0.2691728472709656,
	"rewards/accuracy_reward": 1.2316263318061829,
	"rewards/format_reward": 0.9921875,
	"step": 109
	},
	{
	"completion_length": 64.0390625,
	"epoch": 1.3253012048192772,
	"grad_norm": 4.0970391288989285,
	"kl": 0.102783203125,
	"learning_rate": 7.791164658634538e-07,
	"loss": 0.0041,
	"reward": 2.402035713195801,
	"reward_std": 0.2192593812942505,
	"rewards/accuracy_reward": 1.409848153591156,
	"rewards/format_reward": 0.9921875,
	"step": 110
	},
	{
	"completion_length": 61.984375,
	"epoch": 1.3373493975903614,
	"grad_norm": 5.00798288991921,
	"kl": 0.100830078125,
	"learning_rate": 7.771084337349397e-07,
	"loss": 0.004,
	"reward": 2.268544912338257,
	"reward_std": 0.17878198623657227,
	"rewards/accuracy_reward": 1.2685450315475464,
	"rewards/format_reward": 1.0,
	"step": 111
	},
	{
	"completion_length": 58.296875,
	"epoch": 1.3493975903614457,
	"grad_norm": 4.283142882967245,
	"kl": 0.10888671875,
	"learning_rate": 7.751004016064257e-07,
	"loss": 0.0044,
	"reward": 2.373852849006653,
	"reward_std": 0.17504306137561798,
	"rewards/accuracy_reward": 1.3738529086112976,
	"rewards/format_reward": 1.0,
	"step": 112
	},
	{
	"completion_length": 60.484375,
	"epoch": 1.3614457831325302,
	"grad_norm": 4.840347639337677,
	"kl": 0.097412109375,
	"learning_rate": 7.730923694779116e-07,
	"loss": 0.0039,
	"reward": 2.2944198846817017,
	"reward_std": 0.2088237851858139,
	"rewards/accuracy_reward": 1.2944198250770569,
	"rewards/format_reward": 1.0,
	"step": 113
	},
	{
	"completion_length": 59.6328125,
	"epoch": 1.3734939759036144,
	"grad_norm": 3.441438097506757,
	"kl": 0.095458984375,
	"learning_rate": 7.710843373493975e-07,
	"loss": 0.0038,
	"reward": 2.2015284299850464,
	"reward_std": 0.22288134694099426,
	"rewards/accuracy_reward": 1.201528549194336,
	"rewards/format_reward": 1.0,
	"step": 114
	},
	{
	"completion_length": 58.3203125,
	"epoch": 1.3855421686746987,
	"grad_norm": 5.2560716101244545,
	"kl": 0.12890625,
	"learning_rate": 7.690763052208835e-07,
	"loss": 0.0052,
	"reward": 2.395646095275879,
	"reward_std": 0.21848639845848083,
	"rewards/accuracy_reward": 1.3956461548805237,
	"rewards/format_reward": 1.0,
	"step": 115
	},
	{
	"completion_length": 58.2734375,
	"epoch": 1.3975903614457832,
	"grad_norm": 5.450406858307557,
	"kl": 0.1064453125,
	"learning_rate": 7.670682730923694e-07,
	"loss": 0.0043,
	"reward": 2.4746010303497314,
	"reward_std": 0.1482101045548916,
	"rewards/accuracy_reward": 1.4746010303497314,
	"rewards/format_reward": 1.0,
	"step": 116
	},
	{
	"completion_length": 57.65625,
	"epoch": 1.4096385542168675,
	"grad_norm": 4.642950561404122,
	"kl": 0.124267578125,
	"learning_rate": 7.650602409638554e-07,
	"loss": 0.005,
	"reward": 2.1899147033691406,
	"reward_std": 0.2073155865073204,
	"rewards/accuracy_reward": 1.1977271437644958,
	"rewards/format_reward": 0.9921875,
	"step": 117
	},
	{
	"completion_length": 56.609375,
	"epoch": 1.4216867469879517,
	"grad_norm": 9.36763410057133,
	"kl": 0.112548828125,
	"learning_rate": 7.630522088353414e-07,
	"loss": 0.0045,
	"reward": 2.457427501678467,
	"reward_std": 0.248141810297966,
	"rewards/accuracy_reward": 1.4574276804924011,
	"rewards/format_reward": 1.0,
	"step": 118
	},
	{
	"completion_length": 55.59375,
	"epoch": 1.4337349397590362,
	"grad_norm": 4.076025029890633,
	"kl": 0.095947265625,
	"learning_rate": 7.610441767068273e-07,
	"loss": 0.0038,
	"reward": 2.3175806999206543,
	"reward_std": 0.21353702247142792,
	"rewards/accuracy_reward": 1.3175806999206543,
	"rewards/format_reward": 1.0,
	"step": 119
	},
	{
	"completion_length": 56.359375,
	"epoch": 1.4457831325301205,
	"grad_norm": 4.1118838634058905,
	"kl": 0.10693359375,
	"learning_rate": 7.590361445783132e-07,
	"loss": 0.0043,
	"reward": 2.306099772453308,
	"reward_std": 0.2674330025911331,
	"rewards/accuracy_reward": 1.3217247128486633,
	"rewards/format_reward": 0.984375,
	"step": 120
	},
	{
	"completion_length": 56.765625,
	"epoch": 1.4578313253012047,
	"grad_norm": 4.370520474393478,
	"kl": 0.10302734375,
	"learning_rate": 7.570281124497991e-07,
	"loss": 0.0041,
	"reward": 2.1378331184387207,
	"reward_std": 0.24683931469917297,
	"rewards/accuracy_reward": 1.1378332376480103,
	"rewards/format_reward": 1.0,
	"step": 121
	},
	{
	"completion_length": 61.4453125,
	"epoch": 1.4698795180722892,
	"grad_norm": 3.7827942646929427,
	"kl": 0.120361328125,
	"learning_rate": 7.550200803212851e-07,
	"loss": 0.0048,
	"reward": 2.1952574253082275,
	"reward_std": 0.163675457239151,
	"rewards/accuracy_reward": 1.1952574849128723,
	"rewards/format_reward": 1.0,
	"step": 122
	},
	{
	"completion_length": 64.2734375,
	"epoch": 1.4819277108433735,
	"grad_norm": 3.7942059326042887,
	"kl": 0.115478515625,
	"learning_rate": 7.53012048192771e-07,
	"loss": 0.0046,
	"reward": 2.052876114845276,
	"reward_std": 0.3279467225074768,
	"rewards/accuracy_reward": 1.0606885850429535,
	"rewards/format_reward": 0.9921875,
	"step": 123
	},
	{
	"completion_length": 61.7578125,
	"epoch": 1.4939759036144578,
	"grad_norm": 4.163145774578374,
	"kl": 0.1083984375,
	"learning_rate": 7.51004016064257e-07,
	"loss": 0.0043,
	"reward": 2.483773946762085,
	"reward_std": 0.21236886084079742,
	"rewards/accuracy_reward": 1.483773946762085,
	"rewards/format_reward": 1.0,
	"step": 124
	},
	{
	"completion_length": 69.8359375,
	"epoch": 1.5060240963855422,
	"grad_norm": 8.540024207287942,
	"kl": 0.122314453125,
	"learning_rate": 7.489959839357429e-07,
	"loss": 0.0049,
	"reward": 2.207366466522217,
	"reward_std": 0.22365009784698486,
	"rewards/accuracy_reward": 1.2073664665222168,
	"rewards/format_reward": 1.0,
	"step": 125
	},
	{
	"completion_length": 68.21875,
	"epoch": 1.5180722891566265,
	"grad_norm": 4.163585518888115,
	"kl": 0.097412109375,
	"learning_rate": 7.469879518072289e-07,
	"loss": 0.0039,
	"reward": 2.3682451248168945,
	"reward_std": 0.17314215004444122,
	"rewards/accuracy_reward": 1.3682451844215393,
	"rewards/format_reward": 1.0,
	"step": 126
	},
	{
	"completion_length": 74.7734375,
	"epoch": 1.5301204819277108,
	"grad_norm": 5.7954755578535595,
	"kl": 0.09912109375,
	"learning_rate": 7.449799196787149e-07,
	"loss": 0.004,
	"reward": 2.3054428100585938,
	"reward_std": 0.166117824614048,
	"rewards/accuracy_reward": 1.313255250453949,
	"rewards/format_reward": 0.9921875,
	"step": 127
	},
	{
	"completion_length": 77.3046875,
	"epoch": 1.5421686746987953,
	"grad_norm": 4.318669163836461,
	"kl": 0.091796875,
	"learning_rate": 7.429718875502008e-07,
	"loss": 0.0037,
	"reward": 2.1308990716934204,
	"reward_std": 0.19852972030639648,
	"rewards/accuracy_reward": 1.13089919090271,
	"rewards/format_reward": 1.0,
	"step": 128
	},
	{
	"completion_length": 78.1015625,
	"epoch": 1.5542168674698795,
	"grad_norm": 4.096032296356097,
	"kl": 0.102783203125,
	"learning_rate": 7.409638554216867e-07,
	"loss": 0.0041,
	"reward": 2.445680260658264,
	"reward_std": 0.1704091727733612,
	"rewards/accuracy_reward": 1.4456802010536194,
	"rewards/format_reward": 1.0,
	"step": 129
	},
	{
	"completion_length": 74.75,
	"epoch": 1.5662650602409638,
	"grad_norm": 4.47404453525868,
	"kl": 0.100341796875,
	"learning_rate": 7.389558232931726e-07,
	"loss": 0.004,
	"reward": 2.2448705434799194,
	"reward_std": 0.21340852975845337,
	"rewards/accuracy_reward": 1.2448704838752747,
	"rewards/format_reward": 1.0,
	"step": 130
	},
	{
	"completion_length": 75.3671875,
	"epoch": 1.5783132530120483,
	"grad_norm": 23.135090346261265,
	"kl": 1.1025390625,
	"learning_rate": 7.369477911646586e-07,
	"loss": 0.0444,
	"reward": 2.368005871772766,
	"reward_std": 0.24276328086853027,
	"rewards/accuracy_reward": 1.3680058717727661,
	"rewards/format_reward": 1.0,
	"step": 131
	},
	{
	"completion_length": 76.5234375,
	"epoch": 1.5903614457831325,
	"grad_norm": 3.560296625305877,
	"kl": 0.14111328125,
	"learning_rate": 7.349397590361446e-07,
	"loss": 0.0056,
	"reward": 2.3832234144210815,
	"reward_std": 0.2271246314048767,
	"rewards/accuracy_reward": 1.398848533630371,
	"rewards/format_reward": 0.984375,
	"step": 132
	},
	{
	"completion_length": 78.515625,
	"epoch": 1.6024096385542168,
	"grad_norm": 4.271885997013165,
	"kl": 0.103271484375,
	"learning_rate": 7.329317269076305e-07,
	"loss": 0.0041,
	"reward": 2.11967396736145,
	"reward_std": 0.21069814264774323,
	"rewards/accuracy_reward": 1.119674026966095,
	"rewards/format_reward": 1.0,
	"step": 133
	},
	{
	"completion_length": 81.2109375,
	"epoch": 1.6144578313253013,
	"grad_norm": 3.989749340172797,
	"kl": 0.10009765625,
	"learning_rate": 7.309236947791164e-07,
	"loss": 0.004,
	"reward": 2.2381746768951416,
	"reward_std": 0.2712934762239456,
	"rewards/accuracy_reward": 1.2537997961044312,
	"rewards/format_reward": 0.984375,
	"step": 134
	},
	{
	"completion_length": 84.828125,
	"epoch": 1.6265060240963856,
	"grad_norm": 5.101727030105181,
	"kl": 0.0927734375,
	"learning_rate": 7.289156626506024e-07,
	"loss": 0.0037,
	"reward": 2.3006190061569214,
	"reward_std": 0.2388201355934143,
	"rewards/accuracy_reward": 1.3084314465522766,
	"rewards/format_reward": 0.9921875,
	"step": 135
	},
	{
	"completion_length": 78.3984375,
	"epoch": 1.6385542168674698,
	"grad_norm": 7.945369222479043,
	"kl": 0.109130859375,
	"learning_rate": 7.269076305220884e-07,
	"loss": 0.0044,
	"reward": 2.187756061553955,
	"reward_std": 0.22536994516849518,
	"rewards/accuracy_reward": 1.2033808827400208,
	"rewards/format_reward": 0.984375,
	"step": 136
	},
	{
	"completion_length": 83.0234375,
	"epoch": 1.6506024096385543,
	"grad_norm": 7.511759922163927,
	"kl": 0.074462890625,
	"learning_rate": 7.248995983935742e-07,
	"loss": 0.003,
	"reward": 2.299572706222534,
	"reward_std": 0.22408785670995712,
	"rewards/accuracy_reward": 1.3073852062225342,
	"rewards/format_reward": 0.9921875,
	"step": 137
	},
	{
	"completion_length": 84.640625,
	"epoch": 1.6626506024096386,
	"grad_norm": 3.2982396535282623,
	"kl": 0.0810546875,
	"learning_rate": 7.228915662650602e-07,
	"loss": 0.0032,
	"reward": 2.3804391622543335,
	"reward_std": 0.2060808688402176,
	"rewards/accuracy_reward": 1.3804389834403992,
	"rewards/format_reward": 1.0,
	"step": 138
	},
	{
	"completion_length": 87.8125,
	"epoch": 1.6746987951807228,
	"grad_norm": 8.41708008218346,
	"kl": 0.0810546875,
	"learning_rate": 7.208835341365461e-07,
	"loss": 0.0032,
	"reward": 2.2146860361099243,
	"reward_std": 0.2540859431028366,
	"rewards/accuracy_reward": 1.2146860361099243,
	"rewards/format_reward": 1.0,
	"step": 139
	},
	{
	"completion_length": 86.140625,
	"epoch": 1.6867469879518073,
	"grad_norm": 3.5435273544538815,
	"kl": 0.072998046875,
	"learning_rate": 7.188755020080321e-07,
	"loss": 0.0029,
	"reward": 2.3307693004608154,
	"reward_std": 0.20385809987783432,
	"rewards/accuracy_reward": 1.3385818004608154,
	"rewards/format_reward": 0.9921875,
	"step": 140
	},
	{
	"completion_length": 85.9375,
	"epoch": 1.6987951807228916,
	"grad_norm": 3.544683408089574,
	"kl": 0.083984375,
	"learning_rate": 7.168674698795181e-07,
	"loss": 0.0034,
	"reward": 2.2913438081741333,
	"reward_std": 0.26863446831703186,
	"rewards/accuracy_reward": 1.3069688081741333,
	"rewards/format_reward": 0.984375,
	"step": 141
	},
	{
	"completion_length": 83.2578125,
	"epoch": 1.7108433734939759,
	"grad_norm": 4.741927242341381,
	"kl": 0.12548828125,
	"learning_rate": 7.14859437751004e-07,
	"loss": 0.005,
	"reward": 2.3960628509521484,
	"reward_std": 0.2550785541534424,
	"rewards/accuracy_reward": 1.3960627913475037,
	"rewards/format_reward": 1.0,
	"step": 142
	},
	{
	"completion_length": 86.671875,
	"epoch": 1.7228915662650603,
	"grad_norm": 3.0874349711182494,
	"kl": 0.07470703125,
	"learning_rate": 7.128514056224899e-07,
	"loss": 0.003,
	"reward": 2.3813560009002686,
	"reward_std": 0.25298502296209335,
	"rewards/accuracy_reward": 1.381356120109558,
	"rewards/format_reward": 1.0,
	"step": 143
	},
	{
	"completion_length": 80.40625,
	"epoch": 1.7349397590361446,
	"grad_norm": 9.215211678123678,
	"kl": 0.085693359375,
	"learning_rate": 7.108433734939758e-07,
	"loss": 0.0034,
	"reward": 2.3150322437286377,
	"reward_std": 0.23231424391269684,
	"rewards/accuracy_reward": 1.315032422542572,
	"rewards/format_reward": 1.0,
	"step": 144
	},
	{
	"completion_length": 79.5859375,
	"epoch": 1.7469879518072289,
	"grad_norm": 3.3677362414264307,
	"kl": 0.098876953125,
	"learning_rate": 7.088353413654619e-07,
	"loss": 0.0039,
	"reward": 2.2901567220687866,
	"reward_std": 0.21487458050251007,
	"rewards/accuracy_reward": 1.2979693412780762,
	"rewards/format_reward": 0.9921875,
	"step": 145
	},
	{
	"completion_length": 87.2734375,
	"epoch": 1.7590361445783134,
	"grad_norm": 3.8053306313986037,
	"kl": 0.104736328125,
	"learning_rate": 7.068273092369477e-07,
	"loss": 0.0042,
	"reward": 2.2074761390686035,
	"reward_std": 0.24223129451274872,
	"rewards/accuracy_reward": 1.2074760794639587,
	"rewards/format_reward": 1.0,
	"step": 146
	},
	{
	"completion_length": 88.984375,
	"epoch": 1.7710843373493976,
	"grad_norm": 4.960937467624004,
	"kl": 0.08251953125,
	"learning_rate": 7.048192771084337e-07,
	"loss": 0.0033,
	"reward": 2.2357683181762695,
	"reward_std": 0.2608248367905617,
	"rewards/accuracy_reward": 1.2435806393623352,
	"rewards/format_reward": 0.9921875,
	"step": 147
	},
	{
	"completion_length": 80.421875,
	"epoch": 1.783132530120482,
	"grad_norm": 3.5313461555382717,
	"kl": 0.106689453125,
	"learning_rate": 7.028112449799196e-07,
	"loss": 0.0042,
	"reward": 2.223365068435669,
	"reward_std": 0.20793087780475616,
	"rewards/accuracy_reward": 1.2311774492263794,
	"rewards/format_reward": 0.9921875,
	"step": 148
	},
	{
	"completion_length": 81.6328125,
	"epoch": 1.7951807228915664,
	"grad_norm": 3.917968857756188,
	"kl": 0.082763671875,
	"learning_rate": 7.008032128514057e-07,
	"loss": 0.0033,
	"reward": 2.431049346923828,
	"reward_std": 0.25210463255643845,
	"rewards/accuracy_reward": 1.4310495257377625,
	"rewards/format_reward": 1.0,
	"step": 149
	},
	{
	"completion_length": 82.71875,
	"epoch": 1.8072289156626506,
	"grad_norm": 3.2751640437820417,
	"kl": 0.105224609375,
	"learning_rate": 6.987951807228916e-07,
	"loss": 0.0042,
	"reward": 2.167607069015503,
	"reward_std": 0.20023201406002045,
	"rewards/accuracy_reward": 1.183232069015503,
	"rewards/format_reward": 0.984375,
	"step": 150
	},
	{
	"completion_length": 80.1015625,
	"epoch": 1.819277108433735,
	"grad_norm": 3.696030829693263,
	"kl": 0.09716796875,
	"learning_rate": 6.967871485943774e-07,
	"loss": 0.0039,
	"reward": 2.545083999633789,
	"reward_std": 0.17634352296590805,
	"rewards/accuracy_reward": 1.5450841188430786,
	"rewards/format_reward": 1.0,
	"step": 151
	},
	{
	"completion_length": 81.6484375,
	"epoch": 1.8313253012048194,
	"grad_norm": 5.419229696650584,
	"kl": 0.119873046875,
	"learning_rate": 6.947791164658634e-07,
	"loss": 0.0048,
	"reward": 2.144273281097412,
	"reward_std": 0.2491978257894516,
	"rewards/accuracy_reward": 1.152085781097412,
	"rewards/format_reward": 0.9921875,
	"step": 152
	},
	{
	"completion_length": 77.96875,
	"epoch": 1.8433734939759037,
	"grad_norm": 34.81233821704641,
	"kl": 0.09619140625,
	"learning_rate": 6.927710843373493e-07,
	"loss": 0.0039,
	"reward": 2.4207249879837036,
	"reward_std": 0.22066732123494148,
	"rewards/accuracy_reward": 1.4207251071929932,
	"rewards/format_reward": 1.0,
	"step": 153
	},
	{
	"completion_length": 81.3984375,
	"epoch": 1.855421686746988,
	"grad_norm": 4.095705367504911,
	"kl": 0.101806640625,
	"learning_rate": 6.907630522088354e-07,
	"loss": 0.0041,
	"reward": 2.160383105278015,
	"reward_std": 0.27165083587169647,
	"rewards/accuracy_reward": 1.1681956052780151,
	"rewards/format_reward": 0.9921875,
	"step": 154
	},
	{
	"completion_length": 79.78125,
	"epoch": 1.8674698795180724,
	"grad_norm": 3.0440685644807663,
	"kl": 0.11865234375,
	"learning_rate": 6.887550200803212e-07,
	"loss": 0.0047,
	"reward": 2.4971319437026978,
	"reward_std": 0.16808781027793884,
	"rewards/accuracy_reward": 1.4971320629119873,
	"rewards/format_reward": 1.0,
	"step": 155
	},
	{
	"completion_length": 83.09375,
	"epoch": 1.8795180722891565,
	"grad_norm": 3.1771226883841206,
	"kl": 0.10498046875,
	"learning_rate": 6.867469879518072e-07,
	"loss": 0.0042,
	"reward": 2.1450811624526978,
	"reward_std": 0.2694619745016098,
	"rewards/accuracy_reward": 1.1450812816619873,
	"rewards/format_reward": 1.0,
	"step": 156
	},
	{
	"completion_length": 81.9453125,
	"epoch": 1.891566265060241,
	"grad_norm": 3.4230588560037583,
	"kl": 0.113525390625,
	"learning_rate": 6.847389558232931e-07,
	"loss": 0.0045,
	"reward": 2.44959032535553,
	"reward_std": 0.16196198761463165,
	"rewards/accuracy_reward": 1.4574028253555298,
	"rewards/format_reward": 0.9921875,
	"step": 157
	},
	{
	"completion_length": 86.203125,
	"epoch": 1.9036144578313254,
	"grad_norm": 5.9344079114737,
	"kl": 0.1015625,
	"learning_rate": 6.827309236947792e-07,
	"loss": 0.0041,
	"reward": 2.1924350261688232,
	"reward_std": 0.1869198903441429,
	"rewards/accuracy_reward": 1.1924351453781128,
	"rewards/format_reward": 1.0,
	"step": 158
	},
	{
	"completion_length": 84.7734375,
	"epoch": 1.9156626506024095,
	"grad_norm": 3.7338258911048707,
	"kl": 0.105224609375,
	"learning_rate": 6.807228915662651e-07,
	"loss": 0.0042,
	"reward": 2.298088550567627,
	"reward_std": 0.2152806669473648,
	"rewards/accuracy_reward": 1.3059011697769165,
	"rewards/format_reward": 0.9921875,
	"step": 159
	},
	{
	"completion_length": 88.2109375,
	"epoch": 1.927710843373494,
	"grad_norm": 3.2737012532681535,
	"kl": 0.124755859375,
	"learning_rate": 6.787148594377509e-07,
	"loss": 0.005,
	"reward": 2.3695740699768066,
	"reward_std": 0.300421878695488,
	"rewards/accuracy_reward": 1.3930113911628723,
	"rewards/format_reward": 0.9765625,
	"step": 160
	},
	{
	"completion_length": 82.9921875,
	"epoch": 1.9397590361445785,
	"grad_norm": 14.347253854862437,
	"kl": 0.119873046875,
	"learning_rate": 6.767068273092369e-07,
	"loss": 0.0048,
	"reward": 2.306626796722412,
	"reward_std": 0.2548489645123482,
	"rewards/accuracy_reward": 1.3222516179084778,
	"rewards/format_reward": 0.984375,
	"step": 161
	},
	{
	"completion_length": 87.734375,
	"epoch": 1.9518072289156625,
	"grad_norm": 3.457686333163172,
	"kl": 0.109375,
	"learning_rate": 6.746987951807228e-07,
	"loss": 0.0044,
	"reward": 2.2328758239746094,
	"reward_std": 0.28791245073080063,
	"rewards/accuracy_reward": 1.2641257643699646,
	"rewards/format_reward": 0.96875,
	"step": 162
	},
	{
	"completion_length": 83.25,
	"epoch": 1.963855421686747,
	"grad_norm": 4.1768305143971824,
	"kl": 0.12353515625,
	"learning_rate": 6.726907630522089e-07,
	"loss": 0.0049,
	"reward": 2.2161502838134766,
	"reward_std": 0.25863420963287354,
	"rewards/accuracy_reward": 1.2630252242088318,
	"rewards/format_reward": 0.953125,
	"step": 163
	},
	{
	"completion_length": 88.734375,
	"epoch": 1.9759036144578315,
	"grad_norm": 4.842793088552531,
	"kl": 0.105712890625,
	"learning_rate": 6.706827309236947e-07,
	"loss": 0.0042,
	"reward": 2.090719521045685,
	"reward_std": 0.25029148161411285,
	"rewards/accuracy_reward": 1.1141569316387177,
	"rewards/format_reward": 0.9765625,
	"step": 164
	},
	{
	"completion_length": 86.1953125,
	"epoch": 1.9879518072289155,
	"grad_norm": 3.657481472750154,
	"kl": 0.125244140625,
	"learning_rate": 6.686746987951807e-07,
	"loss": 0.005,
	"reward": 2.2765581607818604,
	"reward_std": 0.2915503680706024,
	"rewards/accuracy_reward": 1.30780827999115,
	"rewards/format_reward": 0.96875,
	"step": 165
	},
	{
	"completion_length": 92.16666793823242,
	"epoch": 2.0,
	"grad_norm": 3.6057161188599776,
	"kl": 0.125732421875,
	"learning_rate": 6.666666666666666e-07,
	"loss": 0.0047,
	"reward": 2.234604835510254,
	"reward_std": 0.2570358142256737,
	"rewards/accuracy_reward": 1.2346049845218658,
	"rewards/format_reward": 1.0,
	"step": 166
	},
	{
	"completion_length": 87.1484375,
	"epoch": 2.0120481927710845,
	"grad_norm": 3.7603470456590564,
	"kl": 0.094482421875,
	"learning_rate": 6.646586345381526e-07,
	"loss": 0.0038,
	"reward": 2.2034374475479126,
	"reward_std": 0.3387380540370941,
	"rewards/accuracy_reward": 1.2112498879432678,
	"rewards/format_reward": 0.9921875,
	"step": 167
	},
	{
	"completion_length": 86.1953125,
	"epoch": 2.0240963855421685,
	"grad_norm": 4.4381952945033465,
	"kl": 0.09765625,
	"learning_rate": 6.626506024096386e-07,
	"loss": 0.0039,
	"reward": 2.222957730293274,
	"reward_std": 0.2284381240606308,
	"rewards/accuracy_reward": 1.238582730293274,
	"rewards/format_reward": 0.984375,
	"step": 168
	},
	{
	"completion_length": 84.3125,
	"epoch": 2.036144578313253,
	"grad_norm": 3.399081917667578,
	"kl": 0.0966796875,
	"learning_rate": 6.606425702811244e-07,
	"loss": 0.0039,
	"reward": 2.2074966430664062,
	"reward_std": 0.2783028930425644,
	"rewards/accuracy_reward": 1.2231215238571167,
	"rewards/format_reward": 0.984375,
	"step": 169
	},
	{
	"completion_length": 84.1640625,
	"epoch": 2.0481927710843375,
	"grad_norm": 3.794821230336393,
	"kl": 0.10400390625,
	"learning_rate": 6.586345381526104e-07,
	"loss": 0.0042,
	"reward": 2.2774429321289062,
	"reward_std": 0.18755661696195602,
	"rewards/accuracy_reward": 1.2774428129196167,
	"rewards/format_reward": 1.0,
	"step": 170
	},
	{
	"completion_length": 84.7421875,
	"epoch": 2.0602409638554215,
	"grad_norm": 5.41653478361753,
	"kl": 0.09130859375,
	"learning_rate": 6.566265060240963e-07,
	"loss": 0.0036,
	"reward": 2.2825827598571777,
	"reward_std": 0.20142250508069992,
	"rewards/accuracy_reward": 1.2825825810432434,
	"rewards/format_reward": 1.0,
	"step": 171
	},
	{
	"completion_length": 78.421875,
	"epoch": 2.072289156626506,
	"grad_norm": 4.831319526617051,
	"kl": 0.099365234375,
	"learning_rate": 6.546184738955824e-07,
	"loss": 0.004,
	"reward": 2.4247552156448364,
	"reward_std": 0.19953592866659164,
	"rewards/accuracy_reward": 1.4247552752494812,
	"rewards/format_reward": 1.0,
	"step": 172
	},
	{
	"completion_length": 78.359375,
	"epoch": 2.0843373493975905,
	"grad_norm": 3.8109915515963038,
	"kl": 0.10498046875,
	"learning_rate": 6.526104417670682e-07,
	"loss": 0.0042,
	"reward": 2.3325507640838623,
	"reward_std": 0.26026056706905365,
	"rewards/accuracy_reward": 1.348175823688507,
	"rewards/format_reward": 0.984375,
	"step": 173
	},
	{
	"completion_length": 79.21875,
	"epoch": 2.0963855421686746,
	"grad_norm": 4.94758596751216,
	"kl": 0.130615234375,
	"learning_rate": 6.506024096385541e-07,
	"loss": 0.0052,
	"reward": 2.3614529371261597,
	"reward_std": 0.23941361159086227,
	"rewards/accuracy_reward": 1.3614528179168701,
	"rewards/format_reward": 1.0,
	"step": 174
	},
	{
	"completion_length": 80.8984375,
	"epoch": 2.108433734939759,
	"grad_norm": 4.645980861130919,
	"kl": 0.12646484375,
	"learning_rate": 6.485943775100401e-07,
	"loss": 0.0051,
	"reward": 2.148719310760498,
	"reward_std": 0.2538711354136467,
	"rewards/accuracy_reward": 1.1487191915512085,
	"rewards/format_reward": 1.0,
	"step": 175
	},
	{
	"completion_length": 78.921875,
	"epoch": 2.1204819277108435,
	"grad_norm": 3.362542245290514,
	"kl": 0.090576171875,
	"learning_rate": 6.465863453815261e-07,
	"loss": 0.0036,
	"reward": 2.3466458320617676,
	"reward_std": 0.21008533239364624,
	"rewards/accuracy_reward": 1.346645712852478,
	"rewards/format_reward": 1.0,
	"step": 176
	},
	{
	"completion_length": 78.5546875,
	"epoch": 2.1325301204819276,
	"grad_norm": 3.6960106974538585,
	"kl": 0.0908203125,
	"learning_rate": 6.445783132530121e-07,
	"loss": 0.0036,
	"reward": 2.4223729372024536,
	"reward_std": 0.15239863470196724,
	"rewards/accuracy_reward": 1.4223730564117432,
	"rewards/format_reward": 1.0,
	"step": 177
	},
	{
	"completion_length": 76.890625,
	"epoch": 2.144578313253012,
	"grad_norm": 3.5646239400027913,
	"kl": 0.103515625,
	"learning_rate": 6.425702811244979e-07,
	"loss": 0.0041,
	"reward": 2.4388126134872437,
	"reward_std": 0.22842204570770264,
	"rewards/accuracy_reward": 1.4466250538825989,
	"rewards/format_reward": 0.9921875,
	"step": 178
	},
	{
	"completion_length": 78.796875,
	"epoch": 2.1566265060240966,
	"grad_norm": 3.531186908359453,
	"kl": 0.099609375,
	"learning_rate": 6.405622489959839e-07,
	"loss": 0.004,
	"reward": 2.1039586067199707,
	"reward_std": 0.23404612392187119,
	"rewards/accuracy_reward": 1.1273961663246155,
	"rewards/format_reward": 0.9765625,
	"step": 179
	},
	{
	"completion_length": 75.75,
	"epoch": 2.1686746987951806,
	"grad_norm": 5.0096541073452485,
	"kl": 0.1015625,
	"learning_rate": 6.385542168674698e-07,
	"loss": 0.0041,
	"reward": 2.374882221221924,
	"reward_std": 0.2003496214747429,
	"rewards/accuracy_reward": 1.374882161617279,
	"rewards/format_reward": 1.0,
	"step": 180
	},
	{
	"completion_length": 79.9375,
	"epoch": 2.180722891566265,
	"grad_norm": 3.929802835585037,
	"kl": 0.102294921875,
	"learning_rate": 6.365461847389559e-07,
	"loss": 0.0041,
	"reward": 2.4310786724090576,
	"reward_std": 0.20660096406936646,
	"rewards/accuracy_reward": 1.4310787916183472,
	"rewards/format_reward": 1.0,
	"step": 181
	},
	{
	"completion_length": 80.7578125,
	"epoch": 2.1927710843373496,
	"grad_norm": 4.226674931816659,
	"kl": 0.09619140625,
	"learning_rate": 6.345381526104418e-07,
	"loss": 0.0038,
	"reward": 2.3952780961990356,
	"reward_std": 0.2160111963748932,
	"rewards/accuracy_reward": 1.3952780961990356,
	"rewards/format_reward": 1.0,
	"step": 182
	},
	{
	"completion_length": 80.484375,
	"epoch": 2.2048192771084336,
	"grad_norm": 3.463553859166022,
	"kl": 0.107421875,
	"learning_rate": 6.325301204819276e-07,
	"loss": 0.0043,
	"reward": 2.3913345336914062,
	"reward_std": 0.22311442345380783,
	"rewards/accuracy_reward": 1.3991470336914062,
	"rewards/format_reward": 0.9921875,
	"step": 183
	},
	{
	"completion_length": 78.484375,
	"epoch": 2.216867469879518,
	"grad_norm": 3.9553841913647356,
	"kl": 0.08642578125,
	"learning_rate": 6.305220883534136e-07,
	"loss": 0.0035,
	"reward": 2.353707432746887,
	"reward_std": 0.2809625118970871,
	"rewards/accuracy_reward": 1.3615199327468872,
	"rewards/format_reward": 0.9921875,
	"step": 184
	},
	{
	"completion_length": 86.203125,
	"epoch": 2.2289156626506026,
	"grad_norm": 6.103835532514207,
	"kl": 0.075439453125,
	"learning_rate": 6.285140562248996e-07,
	"loss": 0.003,
	"reward": 2.411812663078308,
	"reward_std": 0.17931858450174332,
	"rewards/accuracy_reward": 1.411812663078308,
	"rewards/format_reward": 1.0,
	"step": 185
	},
	{
	"completion_length": 77.515625,
	"epoch": 2.2409638554216866,
	"grad_norm": 3.91857543195832,
	"kl": 0.10107421875,
	"learning_rate": 6.265060240963856e-07,
	"loss": 0.004,
	"reward": 2.2299575805664062,
	"reward_std": 0.2100789025425911,
	"rewards/accuracy_reward": 1.2377700209617615,
	"rewards/format_reward": 0.9921875,
	"step": 186
	},
	{
	"completion_length": 77.09375,
	"epoch": 2.253012048192771,
	"grad_norm": 3.8592654709883796,
	"kl": 0.095947265625,
	"learning_rate": 6.244979919678714e-07,
	"loss": 0.0038,
	"reward": 2.47510826587677,
	"reward_std": 0.2556135207414627,
	"rewards/accuracy_reward": 1.4829206466674805,
	"rewards/format_reward": 0.9921875,
	"step": 187
	},
	{
	"completion_length": 79.2890625,
	"epoch": 2.2650602409638556,
	"grad_norm": 6.921774157099546,
	"kl": 0.093017578125,
	"learning_rate": 6.224899598393574e-07,
	"loss": 0.0037,
	"reward": 2.3394941091537476,
	"reward_std": 0.23163118958473206,
	"rewards/accuracy_reward": 1.3394939303398132,
	"rewards/format_reward": 1.0,
	"step": 188
	},
	{
	"completion_length": 79.546875,
	"epoch": 2.2771084337349397,
	"grad_norm": 5.699992937395376,
	"kl": 0.08544921875,
	"learning_rate": 6.204819277108434e-07,
	"loss": 0.0034,
	"reward": 2.330021381378174,
	"reward_std": 0.21045994758605957,
	"rewards/accuracy_reward": 1.3300212621688843,
	"rewards/format_reward": 1.0,
	"step": 189
	},
	{
	"completion_length": 77.421875,
	"epoch": 2.289156626506024,
	"grad_norm": 4.425700742489554,
	"kl": 0.098388671875,
	"learning_rate": 6.184738955823293e-07,
	"loss": 0.0039,
	"reward": 2.2294440269470215,
	"reward_std": 0.21671444922685623,
	"rewards/accuracy_reward": 1.2294440865516663,
	"rewards/format_reward": 1.0,
	"step": 190
	},
	{
	"completion_length": 74.6640625,
	"epoch": 2.3012048192771086,
	"grad_norm": 3.5141288907091783,
	"kl": 0.08154296875,
	"learning_rate": 6.164658634538153e-07,
	"loss": 0.0033,
	"reward": 2.417364239692688,
	"reward_std": 0.18784678727388382,
	"rewards/accuracy_reward": 1.4173641800880432,
	"rewards/format_reward": 1.0,
	"step": 191
	},
	{
	"completion_length": 74.53125,
	"epoch": 2.3132530120481927,
	"grad_norm": 4.6610918738389095,
	"kl": 0.096435546875,
	"learning_rate": 6.144578313253011e-07,
	"loss": 0.0039,
	"reward": 2.4048426151275635,
	"reward_std": 0.2764005810022354,
	"rewards/accuracy_reward": 1.412655234336853,
	"rewards/format_reward": 0.9921875,
	"step": 192
	},
	{
	"completion_length": 80.8984375,
	"epoch": 2.325301204819277,
	"grad_norm": 6.933183617809393,
	"kl": 0.07861328125,
	"learning_rate": 6.124497991967871e-07,
	"loss": 0.0031,
	"reward": 2.2180745601654053,
	"reward_std": 0.2127843052148819,
	"rewards/accuracy_reward": 1.21807461977005,
	"rewards/format_reward": 1.0,
	"step": 193
	},
	{
	"completion_length": 80.9296875,
	"epoch": 2.337349397590361,
	"grad_norm": 4.526116466506062,
	"kl": 0.088623046875,
	"learning_rate": 6.104417670682731e-07,
	"loss": 0.0035,
	"reward": 2.2327487468719482,
	"reward_std": 0.2369586005806923,
	"rewards/accuracy_reward": 1.240561306476593,
	"rewards/format_reward": 0.9921875,
	"step": 194
	},
	{
	"completion_length": 79.8359375,
	"epoch": 2.3493975903614457,
	"grad_norm": 3.410370565415923,
	"kl": 0.09326171875,
	"learning_rate": 6.084337349397591e-07,
	"loss": 0.0037,
	"reward": 2.222264051437378,
	"reward_std": 0.26303592324256897,
	"rewards/accuracy_reward": 1.230076551437378,
	"rewards/format_reward": 0.9921875,
	"step": 195
	},
	{
	"completion_length": 73.8828125,
	"epoch": 2.36144578313253,
	"grad_norm": 3.962197046428477,
	"kl": 0.103271484375,
	"learning_rate": 6.064257028112449e-07,
	"loss": 0.0041,
	"reward": 2.296523690223694,
	"reward_std": 0.370675727725029,
	"rewards/accuracy_reward": 1.2965235710144043,
	"rewards/format_reward": 1.0,
	"step": 196
	},
	{
	"completion_length": 74.515625,
	"epoch": 2.3734939759036147,
	"grad_norm": 3.7849181083166066,
	"kl": 0.100341796875,
	"learning_rate": 6.044176706827308e-07,
	"loss": 0.004,
	"reward": 2.1898573637008667,
	"reward_std": 0.2903239354491234,
	"rewards/accuracy_reward": 1.1898574829101562,
	"rewards/format_reward": 1.0,
	"step": 197
	},
	{
	"completion_length": 71.015625,
	"epoch": 2.3855421686746987,
	"grad_norm": 4.598411590922377,
	"kl": 0.09716796875,
	"learning_rate": 6.024096385542169e-07,
	"loss": 0.0039,
	"reward": 2.3405251502990723,
	"reward_std": 0.1668776124715805,
	"rewards/accuracy_reward": 1.3405250310897827,
	"rewards/format_reward": 1.0,
	"step": 198
	},
	{
	"completion_length": 72.0234375,
	"epoch": 2.397590361445783,
	"grad_norm": 4.094960420612339,
	"kl": 0.08447265625,
	"learning_rate": 6.004016064257028e-07,
	"loss": 0.0034,
	"reward": 2.2692129611968994,
	"reward_std": 0.22979120910167694,
	"rewards/accuracy_reward": 1.2848379015922546,
	"rewards/format_reward": 0.984375,
	"step": 199
	},
	{
	"completion_length": 76.34375,
	"epoch": 2.4096385542168672,
	"grad_norm": 5.228591551586785,
	"kl": 0.0771484375,
	"learning_rate": 5.983935742971888e-07,
	"loss": 0.0031,
	"reward": 2.29106342792511,
	"reward_std": 0.22756240516901016,
	"rewards/accuracy_reward": 1.2910634279251099,
	"rewards/format_reward": 1.0,
	"step": 200
	},
	{
	"completion_length": 79.3828125,
	"epoch": 2.4216867469879517,
	"grad_norm": 3.532651567007306,
	"kl": 0.140869140625,
	"learning_rate": 5.963855421686746e-07,
	"loss": 0.0056,
	"reward": 2.218053698539734,
	"reward_std": 0.24822543561458588,
	"rewards/accuracy_reward": 1.2180536985397339,
	"rewards/format_reward": 1.0,
	"step": 201
	},
	{
	"completion_length": 76.0,
	"epoch": 2.433734939759036,
	"grad_norm": 3.316768093202225,
	"kl": 0.088134765625,
	"learning_rate": 5.943775100401606e-07,
	"loss": 0.0035,
	"reward": 2.26613187789917,
	"reward_std": 0.24750088155269623,
	"rewards/accuracy_reward": 1.2739443182945251,
	"rewards/format_reward": 0.9921875,
	"step": 202
	},
	{
	"completion_length": 70.5234375,
	"epoch": 2.4457831325301207,
	"grad_norm": 9.031966519770473,
	"kl": 0.099853515625,
	"learning_rate": 5.923694779116466e-07,
	"loss": 0.004,
	"reward": 2.317081928253174,
	"reward_std": 0.24299181252717972,
	"rewards/accuracy_reward": 1.3248944282531738,
	"rewards/format_reward": 0.9921875,
	"step": 203
	},
	{
	"completion_length": 72.1484375,
	"epoch": 2.4578313253012047,
	"grad_norm": 4.923799185057533,
	"kl": 0.09716796875,
	"learning_rate": 5.903614457831325e-07,
	"loss": 0.0039,
	"reward": 2.202351689338684,
	"reward_std": 0.24287213385105133,
	"rewards/accuracy_reward": 1.2023517489433289,
	"rewards/format_reward": 1.0,
	"step": 204
	},
	{
	"completion_length": 75.5390625,
	"epoch": 2.4698795180722892,
	"grad_norm": 10.424209527328602,
	"kl": 0.0849609375,
	"learning_rate": 5.883534136546184e-07,
	"loss": 0.0034,
	"reward": 2.3431246280670166,
	"reward_std": 0.21441341936588287,
	"rewards/accuracy_reward": 1.3431245684623718,
	"rewards/format_reward": 1.0,
	"step": 205
	},
	{
	"completion_length": 74.1328125,
	"epoch": 2.4819277108433733,
	"grad_norm": 5.39794558294026,
	"kl": 0.08349609375,
	"learning_rate": 5.863453815261043e-07,
	"loss": 0.0033,
	"reward": 2.318004846572876,
	"reward_std": 0.1649407297372818,
	"rewards/accuracy_reward": 1.3180049657821655,
	"rewards/format_reward": 1.0,
	"step": 206
	},
	{
	"completion_length": 70.828125,
	"epoch": 2.4939759036144578,
	"grad_norm": 5.651509118393077,
	"kl": 0.099609375,
	"learning_rate": 5.843373493975904e-07,
	"loss": 0.004,
	"reward": 2.2745083570480347,
	"reward_std": 0.1795399785041809,
	"rewards/accuracy_reward": 1.27450829744339,
	"rewards/format_reward": 1.0,
	"step": 207
	},
	{
	"completion_length": 75.1484375,
	"epoch": 2.5060240963855422,
	"grad_norm": 3.374258945078158,
	"kl": 0.099853515625,
	"learning_rate": 5.823293172690763e-07,
	"loss": 0.004,
	"reward": 2.183190941810608,
	"reward_std": 0.19665208458900452,
	"rewards/accuracy_reward": 1.183190941810608,
	"rewards/format_reward": 1.0,
	"step": 208
	},
	{
	"completion_length": 75.15625,
	"epoch": 2.5180722891566267,
	"grad_norm": 3.680961209255419,
	"kl": 0.085693359375,
	"learning_rate": 5.803212851405623e-07,
	"loss": 0.0034,
	"reward": 2.3783202171325684,
	"reward_std": 0.21517369151115417,
	"rewards/accuracy_reward": 1.3861328959465027,
	"rewards/format_reward": 0.9921875,
	"step": 209
	},
	{
	"completion_length": 75.890625,
	"epoch": 2.5301204819277108,
	"grad_norm": 4.203577590596214,
	"kl": 0.093017578125,
	"learning_rate": 5.783132530120481e-07,
	"loss": 0.0037,
	"reward": 2.232303738594055,
	"reward_std": 0.21822457760572433,
	"rewards/accuracy_reward": 1.2401162385940552,
	"rewards/format_reward": 0.9921875,
	"step": 210
	},
	{
	"completion_length": 72.5234375,
	"epoch": 2.5421686746987953,
	"grad_norm": 5.049709537985753,
	"kl": 0.09033203125,
	"learning_rate": 5.76305220883534e-07,
	"loss": 0.0036,
	"reward": 2.3138071298599243,
	"reward_std": 0.18903522193431854,
	"rewards/accuracy_reward": 1.3138071298599243,
	"rewards/format_reward": 1.0,
	"step": 211
	},
	{
	"completion_length": 77.6796875,
	"epoch": 2.5542168674698793,
	"grad_norm": 4.79270453347689,
	"kl": 0.10791015625,
	"learning_rate": 5.742971887550201e-07,
	"loss": 0.0043,
	"reward": 2.35454523563385,
	"reward_std": 0.260717436671257,
	"rewards/accuracy_reward": 1.36235773563385,
	"rewards/format_reward": 0.9921875,
	"step": 212
	},
	{
	"completion_length": 75.5234375,
	"epoch": 2.566265060240964,
	"grad_norm": 3.8110594359613694,
	"kl": 0.132080078125,
	"learning_rate": 5.72289156626506e-07,
	"loss": 0.0053,
	"reward": 2.3396618366241455,
	"reward_std": 0.2776957154273987,
	"rewards/accuracy_reward": 1.3474743366241455,
	"rewards/format_reward": 0.9921875,
	"step": 213
	},
	{
	"completion_length": 78.8203125,
	"epoch": 2.5783132530120483,
	"grad_norm": 3.5277793226603467,
	"kl": 0.082763671875,
	"learning_rate": 5.70281124497992e-07,
	"loss": 0.0033,
	"reward": 2.282657027244568,
	"reward_std": 0.20082392543554306,
	"rewards/accuracy_reward": 1.2826570868492126,
	"rewards/format_reward": 1.0,
	"step": 214
	},
	{
	"completion_length": 79.7265625,
	"epoch": 2.5903614457831328,
	"grad_norm": 5.661825173466666,
	"kl": 0.070068359375,
	"learning_rate": 5.682730923694778e-07,
	"loss": 0.0028,
	"reward": 2.2916386127471924,
	"reward_std": 0.22843700647354126,
	"rewards/accuracy_reward": 1.2916386723518372,
	"rewards/format_reward": 1.0,
	"step": 215
	},
	{
	"completion_length": 75.484375,
	"epoch": 2.602409638554217,
	"grad_norm": 5.408656767411551,
	"kl": 0.074951171875,
	"learning_rate": 5.662650602409639e-07,
	"loss": 0.003,
	"reward": 2.4862678050994873,
	"reward_std": 0.17430586367845535,
	"rewards/accuracy_reward": 1.4862679243087769,
	"rewards/format_reward": 1.0,
	"step": 216
	},
	{
	"completion_length": 75.4140625,
	"epoch": 2.6144578313253013,
	"grad_norm": 4.437169209890788,
	"kl": 0.1123046875,
	"learning_rate": 5.642570281124498e-07,
	"loss": 0.0045,
	"reward": 2.2881970405578613,
	"reward_std": 0.24159938842058182,
	"rewards/accuracy_reward": 1.3116344809532166,
	"rewards/format_reward": 0.9765625,
	"step": 217
	},
	{
	"completion_length": 77.1484375,
	"epoch": 2.6265060240963853,
	"grad_norm": 3.7017405154535608,
	"kl": 0.0849609375,
	"learning_rate": 5.622489959839358e-07,
	"loss": 0.0034,
	"reward": 2.42057728767395,
	"reward_std": 0.1918034851551056,
	"rewards/accuracy_reward": 1.4205771684646606,
	"rewards/format_reward": 1.0,
	"step": 218
	},
	{
	"completion_length": 74.9921875,
	"epoch": 2.63855421686747,
	"grad_norm": 3.0572748613034184,
	"kl": 0.08056640625,
	"learning_rate": 5.602409638554216e-07,
	"loss": 0.0032,
	"reward": 2.296902298927307,
	"reward_std": 0.22776726633310318,
	"rewards/accuracy_reward": 1.2969022989273071,
	"rewards/format_reward": 1.0,
	"step": 219
	},
	{
	"completion_length": 77.9375,
	"epoch": 2.6506024096385543,
	"grad_norm": 5.142063259050984,
	"kl": 0.08251953125,
	"learning_rate": 5.582329317269075e-07,
	"loss": 0.0033,
	"reward": 2.411815643310547,
	"reward_std": 0.20656804740428925,
	"rewards/accuracy_reward": 1.4118155241012573,
	"rewards/format_reward": 1.0,
	"step": 220
	},
	{
	"completion_length": 75.0625,
	"epoch": 2.662650602409639,
	"grad_norm": 9.244315362233946,
	"kl": 0.094482421875,
	"learning_rate": 5.562248995983936e-07,
	"loss": 0.0038,
	"reward": 2.2525359392166138,
	"reward_std": 0.23683273047208786,
	"rewards/accuracy_reward": 1.2681609392166138,
	"rewards/format_reward": 0.984375,
	"step": 221
	},
	{
	"completion_length": 78.390625,
	"epoch": 2.674698795180723,
	"grad_norm": 4.89406748105177,
	"kl": 0.078125,
	"learning_rate": 5.542168674698795e-07,
	"loss": 0.0031,
	"reward": 2.33753764629364,
	"reward_std": 0.21247170120477676,
	"rewards/accuracy_reward": 1.3453501462936401,
	"rewards/format_reward": 0.9921875,
	"step": 222
	},
	{
	"completion_length": 73.0859375,
	"epoch": 2.6867469879518073,
	"grad_norm": 3.6393688137680464,
	"kl": 0.0810546875,
	"learning_rate": 5.522088353413655e-07,
	"loss": 0.0032,
	"reward": 2.2808330059051514,
	"reward_std": 0.1841505616903305,
	"rewards/accuracy_reward": 1.280833125114441,
	"rewards/format_reward": 1.0,
	"step": 223
	},
	{
	"completion_length": 77.1484375,
	"epoch": 2.6987951807228914,
	"grad_norm": 2.9614100491209516,
	"kl": 0.08447265625,
	"learning_rate": 5.502008032128513e-07,
	"loss": 0.0034,
	"reward": 2.256025791168213,
	"reward_std": 0.22689195722341537,
	"rewards/accuracy_reward": 1.271650791168213,
	"rewards/format_reward": 0.984375,
	"step": 224
	},
	{
	"completion_length": 72.6015625,
	"epoch": 2.710843373493976,
	"grad_norm": 4.624802749562738,
	"kl": 0.0810546875,
	"learning_rate": 5.481927710843374e-07,
	"loss": 0.0032,
	"reward": 2.367666721343994,
	"reward_std": 0.20605457574129105,
	"rewards/accuracy_reward": 1.367666482925415,
	"rewards/format_reward": 1.0,
	"step": 225
	},
	{
	"completion_length": 70.859375,
	"epoch": 2.7228915662650603,
	"grad_norm": 6.0943428059060505,
	"kl": 0.10205078125,
	"learning_rate": 5.461847389558233e-07,
	"loss": 0.0041,
	"reward": 2.3246583938598633,
	"reward_std": 0.17254704982042313,
	"rewards/accuracy_reward": 1.3324708938598633,
	"rewards/format_reward": 0.9921875,
	"step": 226
	},
	{
	"completion_length": 75.640625,
	"epoch": 2.734939759036145,
	"grad_norm": 4.26546660385252,
	"kl": 0.090087890625,
	"learning_rate": 5.441767068273092e-07,
	"loss": 0.0036,
	"reward": 2.307809591293335,
	"reward_std": 0.2002812698483467,
	"rewards/accuracy_reward": 1.315622091293335,
	"rewards/format_reward": 0.9921875,
	"step": 227
	},
	{
	"completion_length": 73.671875,
	"epoch": 2.746987951807229,
	"grad_norm": 3.4690497244218435,
	"kl": 0.0927734375,
	"learning_rate": 5.421686746987951e-07,
	"loss": 0.0037,
	"reward": 2.4064533710479736,
	"reward_std": 0.1763758659362793,
	"rewards/accuracy_reward": 1.4142658710479736,
	"rewards/format_reward": 0.9921875,
	"step": 228
	},
	{
	"completion_length": 77.265625,
	"epoch": 2.7590361445783134,
	"grad_norm": 3.8015660942675313,
	"kl": 0.107666015625,
	"learning_rate": 5.401606425702811e-07,
	"loss": 0.0043,
	"reward": 2.417749524116516,
	"reward_std": 0.20080577582120895,
	"rewards/accuracy_reward": 1.4333745837211609,
	"rewards/format_reward": 0.984375,
	"step": 229
	},
	{
	"completion_length": 78.6484375,
	"epoch": 2.7710843373493974,
	"grad_norm": 4.593078230781537,
	"kl": 0.081298828125,
	"learning_rate": 5.381526104417671e-07,
	"loss": 0.0032,
	"reward": 2.310904383659363,
	"reward_std": 0.20601534098386765,
	"rewards/accuracy_reward": 1.326529324054718,
	"rewards/format_reward": 0.984375,
	"step": 230
	},
	{
	"completion_length": 69.75,
	"epoch": 2.783132530120482,
	"grad_norm": 4.781119598148597,
	"kl": 0.092041015625,
	"learning_rate": 5.36144578313253e-07,
	"loss": 0.0037,
	"reward": 2.4060455560684204,
	"reward_std": 0.1945626586675644,
	"rewards/accuracy_reward": 1.41385817527771,
	"rewards/format_reward": 0.9921875,
	"step": 231
	},
	{
	"completion_length": 72.125,
	"epoch": 2.7951807228915664,
	"grad_norm": 3.6431689651666925,
	"kl": 0.084716796875,
	"learning_rate": 5.34136546184739e-07,
	"loss": 0.0034,
	"reward": 2.2687569856643677,
	"reward_std": 0.20781449228525162,
	"rewards/accuracy_reward": 1.2765693664550781,
	"rewards/format_reward": 0.9921875,
	"step": 232
	},
	{
	"completion_length": 75.28125,
	"epoch": 2.807228915662651,
	"grad_norm": 3.463525581618983,
	"kl": 0.0830078125,
	"learning_rate": 5.321285140562248e-07,
	"loss": 0.0033,
	"reward": 2.2786985635757446,
	"reward_std": 0.1869373545050621,
	"rewards/accuracy_reward": 1.2865110039710999,
	"rewards/format_reward": 0.9921875,
	"step": 233
	},
	{
	"completion_length": 72.390625,
	"epoch": 2.819277108433735,
	"grad_norm": 3.989550051539227,
	"kl": 0.08935546875,
	"learning_rate": 5.301204819277109e-07,
	"loss": 0.0036,
	"reward": 2.2122349739074707,
	"reward_std": 0.17366793006658554,
	"rewards/accuracy_reward": 1.212234914302826,
	"rewards/format_reward": 1.0,
	"step": 234
	},
	{
	"completion_length": 68.4296875,
	"epoch": 2.8313253012048194,
	"grad_norm": 5.293732432179004,
	"kl": 0.1162109375,
	"learning_rate": 5.281124497991968e-07,
	"loss": 0.0046,
	"reward": 2.273004412651062,
	"reward_std": 0.21551835536956787,
	"rewards/accuracy_reward": 1.2730044722557068,
	"rewards/format_reward": 1.0,
	"step": 235
	},
	{
	"completion_length": 70.4765625,
	"epoch": 2.8433734939759034,
	"grad_norm": 3.483964465031993,
	"kl": 0.08642578125,
	"learning_rate": 5.261044176706827e-07,
	"loss": 0.0035,
	"reward": 2.5097464323043823,
	"reward_std": 0.21660751849412918,
	"rewards/accuracy_reward": 1.509746491909027,
	"rewards/format_reward": 1.0,
	"step": 236
	},
	{
	"completion_length": 67.1796875,
	"epoch": 2.855421686746988,
	"grad_norm": 3.2613871176315286,
	"kl": 0.109619140625,
	"learning_rate": 5.240963855421686e-07,
	"loss": 0.0044,
	"reward": 2.2154468297958374,
	"reward_std": 0.2426525428891182,
	"rewards/accuracy_reward": 1.2154468894004822,
	"rewards/format_reward": 1.0,
	"step": 237
	},
	{
	"completion_length": 73.875,
	"epoch": 2.8674698795180724,
	"grad_norm": 5.04569953866162,
	"kl": 0.105224609375,
	"learning_rate": 5.220883534136546e-07,
	"loss": 0.0042,
	"reward": 2.3947439193725586,
	"reward_std": 0.16551193594932556,
	"rewards/accuracy_reward": 1.3947439193725586,
	"rewards/format_reward": 1.0,
	"step": 238
	},
	{
	"completion_length": 70.03125,
	"epoch": 2.8795180722891565,
	"grad_norm": 3.2080049289623997,
	"kl": 0.10986328125,
	"learning_rate": 5.200803212851406e-07,
	"loss": 0.0044,
	"reward": 2.394848346710205,
	"reward_std": 0.22504138201475143,
	"rewards/accuracy_reward": 1.394848346710205,
	"rewards/format_reward": 1.0,
	"step": 239
	},
	{
	"completion_length": 70.90625,
	"epoch": 2.891566265060241,
	"grad_norm": 3.843192487462901,
	"kl": 0.1171875,
	"learning_rate": 5.180722891566265e-07,
	"loss": 0.0047,
	"reward": 2.2219191789627075,
	"reward_std": 0.2526251822710037,
	"rewards/accuracy_reward": 1.2219191193580627,
	"rewards/format_reward": 1.0,
	"step": 240
	},
	{
	"completion_length": 67.1328125,
	"epoch": 2.9036144578313254,
	"grad_norm": 3.0217979987505394,
	"kl": 0.104248046875,
	"learning_rate": 5.160642570281125e-07,
	"loss": 0.0042,
	"reward": 2.2357059717178345,
	"reward_std": 0.181558758020401,
	"rewards/accuracy_reward": 1.235705852508545,
	"rewards/format_reward": 1.0,
	"step": 241
	},
	{
	"completion_length": 67.0390625,
	"epoch": 2.9156626506024095,
	"grad_norm": 4.171949473201647,
	"kl": 0.1044921875,
	"learning_rate": 5.140562248995983e-07,
	"loss": 0.0042,
	"reward": 2.3148874044418335,
	"reward_std": 0.17748098075389862,
	"rewards/accuracy_reward": 1.3148874640464783,
	"rewards/format_reward": 1.0,
	"step": 242
	},
	{
	"completion_length": 65.8671875,
	"epoch": 2.927710843373494,
	"grad_norm": 8.908769866071971,
	"kl": 0.11181640625,
	"learning_rate": 5.120481927710843e-07,
	"loss": 0.0045,
	"reward": 2.2218422889709473,
	"reward_std": 0.1961566060781479,
	"rewards/accuracy_reward": 1.2296549081802368,
	"rewards/format_reward": 0.9921875,
	"step": 243
	},
	{
	"completion_length": 63.6953125,
	"epoch": 2.9397590361445785,
	"grad_norm": 12.929344924116855,
	"kl": 0.106201171875,
	"learning_rate": 5.100401606425703e-07,
	"loss": 0.0042,
	"reward": 2.4831990003585815,
	"reward_std": 0.17936265468597412,
	"rewards/accuracy_reward": 1.4831989407539368,
	"rewards/format_reward": 1.0,
	"step": 244
	},
	{
	"completion_length": 62.28125,
	"epoch": 2.9518072289156625,
	"grad_norm": 3.4705083145900404,
	"kl": 0.111328125,
	"learning_rate": 5.080321285140562e-07,
	"loss": 0.0044,
	"reward": 2.352734327316284,
	"reward_std": 0.2174607664346695,
	"rewards/accuracy_reward": 1.3683592081069946,
	"rewards/format_reward": 0.984375,
	"step": 245
	},
	{
	"completion_length": 69.640625,
	"epoch": 2.963855421686747,
	"grad_norm": 4.178352503452598,
	"kl": 0.111572265625,
	"learning_rate": 5.060240963855421e-07,
	"loss": 0.0045,
	"reward": 2.3825145959854126,
	"reward_std": 0.21491926908493042,
	"rewards/accuracy_reward": 1.3903270959854126,
	"rewards/format_reward": 0.9921875,
	"step": 246
	},
	{
	"completion_length": 65.875,
	"epoch": 2.9759036144578315,
	"grad_norm": 4.426857679190133,
	"kl": 0.149169921875,
	"learning_rate": 5.040160642570281e-07,
	"loss": 0.006,
	"reward": 2.1721856594085693,
	"reward_std": 0.2390434294939041,
	"rewards/accuracy_reward": 1.1721857190132141,
	"rewards/format_reward": 1.0,
	"step": 247
	},
	{
	"completion_length": 70.9921875,
	"epoch": 2.9879518072289155,
	"grad_norm": 4.720913912936636,
	"kl": 0.114013671875,
	"learning_rate": 5.020080321285141e-07,
	"loss": 0.0046,
	"reward": 2.2051347494125366,
	"reward_std": 0.2722553163766861,
	"rewards/accuracy_reward": 1.2285721898078918,
	"rewards/format_reward": 0.9765625,
	"step": 248
	},
	{
	"completion_length": 64.25000190734863,
	"epoch": 3.0,
	"grad_norm": 3.5181266600609904,
	"kl": 0.11962890625,
	"learning_rate": 5e-07,
	"loss": 0.0048,
	"reward": 2.1161320209503174,
	"reward_std": 0.430472195148468,
	"rewards/accuracy_reward": 1.1994653940200806,
	"rewards/format_reward": 0.9166666865348816,
	"step": 249
	},
	{
	"completion_length": 68.1875,
	"epoch": 3.0120481927710845,
	"grad_norm": 3.5431810235066643,
	"kl": 0.09619140625,
	"learning_rate": 4.979919678714859e-07,
	"loss": 0.0038,
	"reward": 2.323817491531372,
	"reward_std": 0.23299024999141693,
	"rewards/accuracy_reward": 1.3316298723220825,
	"rewards/format_reward": 0.9921875,
	"step": 250
	},
	{
	"completion_length": 71.6953125,
	"epoch": 3.0240963855421685,
	"grad_norm": 3.3542739826451173,
	"kl": 0.08642578125,
	"learning_rate": 4.959839357429718e-07,
	"loss": 0.0035,
	"reward": 2.411439895629883,
	"reward_std": 0.19917739927768707,
	"rewards/accuracy_reward": 1.4114398956298828,
	"rewards/format_reward": 1.0,
	"step": 251
	},
	{
	"completion_length": 68.109375,
	"epoch": 3.036144578313253,
	"grad_norm": 12.151823073672764,
	"kl": 0.110107421875,
	"learning_rate": 4.939759036144578e-07,
	"loss": 0.0044,
	"reward": 2.5318474769592285,
	"reward_std": 0.18056734651327133,
	"rewards/accuracy_reward": 1.5396599173545837,
	"rewards/format_reward": 0.9921875,
	"step": 252
	},
	{
	"completion_length": 72.578125,
	"epoch": 3.0481927710843375,
	"grad_norm": 3.219943316402962,
	"kl": 0.099853515625,
	"learning_rate": 4.919678714859438e-07,
	"loss": 0.004,
	"reward": 2.3200578689575195,
	"reward_std": 0.15618911385536194,
	"rewards/accuracy_reward": 1.3200578689575195,
	"rewards/format_reward": 1.0,
	"step": 253
	},
	{
	"completion_length": 61.3828125,
	"epoch": 3.0602409638554215,
	"grad_norm": 3.865556225897638,
	"kl": 0.10888671875,
	"learning_rate": 4.899598393574297e-07,
	"loss": 0.0044,
	"reward": 2.209138035774231,
	"reward_std": 0.17473262548446655,
	"rewards/accuracy_reward": 1.2091379761695862,
	"rewards/format_reward": 1.0,
	"step": 254
	},
	{
	"completion_length": 66.7421875,
	"epoch": 3.072289156626506,
	"grad_norm": 4.017362101946035,
	"kl": 0.1259765625,
	"learning_rate": 4.879518072289156e-07,
	"loss": 0.005,
	"reward": 2.139701724052429,
	"reward_std": 0.22376088798046112,
	"rewards/accuracy_reward": 1.1397016048431396,
	"rewards/format_reward": 1.0,
	"step": 255
	},
	{
	"completion_length": 62.71875,
	"epoch": 3.0843373493975905,
	"grad_norm": 3.4288754746391947,
	"kl": 0.140625,
	"learning_rate": 4.859437751004016e-07,
	"loss": 0.0056,
	"reward": 2.2105259895324707,
	"reward_std": 0.22984497249126434,
	"rewards/accuracy_reward": 1.2261508703231812,
	"rewards/format_reward": 0.984375,
	"step": 256
	},
	{
	"completion_length": 66.6953125,
	"epoch": 3.0963855421686746,
	"grad_norm": 3.481985490355864,
	"kl": 0.1181640625,
	"learning_rate": 4.839357429718875e-07,
	"loss": 0.0047,
	"reward": 2.5049203634262085,
	"reward_std": 0.1857297122478485,
	"rewards/accuracy_reward": 1.5049203634262085,
	"rewards/format_reward": 1.0,
	"step": 257
	},
	{
	"completion_length": 67.484375,
	"epoch": 3.108433734939759,
	"grad_norm": 3.6977753194922403,
	"kl": 0.107666015625,
	"learning_rate": 4.819277108433735e-07,
	"loss": 0.0043,
	"reward": 2.3002774715423584,
	"reward_std": 0.21863283962011337,
	"rewards/accuracy_reward": 1.3080899119377136,
	"rewards/format_reward": 0.9921875,
	"step": 258
	},
	{
	"completion_length": 71.984375,
	"epoch": 3.1204819277108435,
	"grad_norm": 3.2391554999759054,
	"kl": 0.099853515625,
	"learning_rate": 4.799196787148594e-07,
	"loss": 0.004,
	"reward": 2.404132843017578,
	"reward_std": 0.19443362206220627,
	"rewards/accuracy_reward": 1.4119452238082886,
	"rewards/format_reward": 0.9921875,
	"step": 259
	},
	{
	"completion_length": 70.3984375,
	"epoch": 3.1325301204819276,
	"grad_norm": 3.8470897735347993,
	"kl": 0.11181640625,
	"learning_rate": 4.779116465863453e-07,
	"loss": 0.0045,
	"reward": 2.2314306497573853,
	"reward_std": 0.1860732138156891,
	"rewards/accuracy_reward": 1.2392430305480957,
	"rewards/format_reward": 0.9921875,
	"step": 260
	},
	{
	"completion_length": 71.7109375,
	"epoch": 3.144578313253012,
	"grad_norm": 5.7256880192839965,
	"kl": 0.101806640625,
	"learning_rate": 4.7590361445783126e-07,
	"loss": 0.0041,
	"reward": 2.3397083282470703,
	"reward_std": 0.21985551714897156,
	"rewards/accuracy_reward": 1.3397083282470703,
	"rewards/format_reward": 1.0,
	"step": 261
	},
	{
	"completion_length": 72.7265625,
	"epoch": 3.1566265060240966,
	"grad_norm": 4.6788843643036255,
	"kl": 0.183837890625,
	"learning_rate": 4.7389558232931724e-07,
	"loss": 0.0074,
	"reward": 2.288654088973999,
	"reward_std": 0.25063957273960114,
	"rewards/accuracy_reward": 1.296466588973999,
	"rewards/format_reward": 0.9921875,
	"step": 262
	},
	{
	"completion_length": 66.96875,
	"epoch": 3.1686746987951806,
	"grad_norm": 4.000735227178484,
	"kl": 0.1171875,
	"learning_rate": 4.7188755020080317e-07,
	"loss": 0.0047,
	"reward": 2.385547637939453,
	"reward_std": 0.179743941873312,
	"rewards/accuracy_reward": 1.393360197544098,
	"rewards/format_reward": 0.9921875,
	"step": 263
	},
	{
	"completion_length": 73.078125,
	"epoch": 3.180722891566265,
	"grad_norm": 3.2436175706744903,
	"kl": 0.08837890625,
	"learning_rate": 4.6987951807228915e-07,
	"loss": 0.0035,
	"reward": 2.3714927434921265,
	"reward_std": 0.1866167113184929,
	"rewards/accuracy_reward": 1.3793052434921265,
	"rewards/format_reward": 0.9921875,
	"step": 264
	},
	{
	"completion_length": 67.7578125,
	"epoch": 3.1927710843373496,
	"grad_norm": 4.16773338040152,
	"kl": 0.09619140625,
	"learning_rate": 4.678714859437751e-07,
	"loss": 0.0038,
	"reward": 2.256360650062561,
	"reward_std": 0.2188187688589096,
	"rewards/accuracy_reward": 1.256360650062561,
	"rewards/format_reward": 1.0,
	"step": 265
	},
	{
	"completion_length": 71.6796875,
	"epoch": 3.2048192771084336,
	"grad_norm": 3.7554898641141388,
	"kl": 0.094482421875,
	"learning_rate": 4.6586345381526106e-07,
	"loss": 0.0038,
	"reward": 2.285356283187866,
	"reward_std": 0.2733229324221611,
	"rewards/accuracy_reward": 1.2853562831878662,
	"rewards/format_reward": 1.0,
	"step": 266
	},
	{
	"completion_length": 69.53125,
	"epoch": 3.216867469879518,
	"grad_norm": 3.1396081677261747,
	"kl": 0.11572265625,
	"learning_rate": 4.63855421686747e-07,
	"loss": 0.0046,
	"reward": 2.194140672683716,
	"reward_std": 0.2116081416606903,
	"rewards/accuracy_reward": 1.1941407322883606,
	"rewards/format_reward": 1.0,
	"step": 267
	},
	{
	"completion_length": 67.8203125,
	"epoch": 3.2289156626506026,
	"grad_norm": 7.260439555595242,
	"kl": 0.08837890625,
	"learning_rate": 4.6184738955823296e-07,
	"loss": 0.0035,
	"reward": 2.252182364463806,
	"reward_std": 0.1803755983710289,
	"rewards/accuracy_reward": 1.259994924068451,
	"rewards/format_reward": 0.9921875,
	"step": 268
	},
	{
	"completion_length": 67.390625,
	"epoch": 3.2409638554216866,
	"grad_norm": 3.5049860895757696,
	"kl": 0.08935546875,
	"learning_rate": 4.5983935742971884e-07,
	"loss": 0.0036,
	"reward": 2.2208237648010254,
	"reward_std": 0.23105446994304657,
	"rewards/accuracy_reward": 1.2286362648010254,
	"rewards/format_reward": 0.9921875,
	"step": 269
	},
	{
	"completion_length": 70.8515625,
	"epoch": 3.253012048192771,
	"grad_norm": 5.489156591080696,
	"kl": 0.131591796875,
	"learning_rate": 4.5783132530120476e-07,
	"loss": 0.0053,
	"reward": 2.2373805046081543,
	"reward_std": 0.2680865153670311,
	"rewards/accuracy_reward": 1.2373805046081543,
	"rewards/format_reward": 1.0,
	"step": 270
	},
	{
	"completion_length": 67.3359375,
	"epoch": 3.2650602409638556,
	"grad_norm": 3.943203757539833,
	"kl": 0.102783203125,
	"learning_rate": 4.5582329317269074e-07,
	"loss": 0.0041,
	"reward": 2.2856905460357666,
	"reward_std": 0.2643607556819916,
	"rewards/accuracy_reward": 1.2856906652450562,
	"rewards/format_reward": 1.0,
	"step": 271
	},
	{
	"completion_length": 76.703125,
	"epoch": 3.2771084337349397,
	"grad_norm": 4.067837029288379,
	"kl": 0.14794921875,
	"learning_rate": 4.5381526104417667e-07,
	"loss": 0.0059,
	"reward": 2.2173361778259277,
	"reward_std": 0.23457611352205276,
	"rewards/accuracy_reward": 1.2251486778259277,
	"rewards/format_reward": 0.9921875,
	"step": 272
	},
	{
	"completion_length": 70.9765625,
	"epoch": 3.289156626506024,
	"grad_norm": 3.356513487854019,
	"kl": 0.105712890625,
	"learning_rate": 4.5180722891566265e-07,
	"loss": 0.0042,
	"reward": 2.3274762630462646,
	"reward_std": 0.1404755339026451,
	"rewards/accuracy_reward": 1.327476143836975,
	"rewards/format_reward": 1.0,
	"step": 273
	},
	{
	"completion_length": 73.5546875,
	"epoch": 3.3012048192771086,
	"grad_norm": 2.8662666869018194,
	"kl": 0.087646484375,
	"learning_rate": 4.497991967871486e-07,
	"loss": 0.0035,
	"reward": 2.4234249591827393,
	"reward_std": 0.23345230519771576,
	"rewards/accuracy_reward": 1.4234249591827393,
	"rewards/format_reward": 1.0,
	"step": 274
	},
	{
	"completion_length": 76.2890625,
	"epoch": 3.3132530120481927,
	"grad_norm": 3.6359732134875027,
	"kl": 0.0849609375,
	"learning_rate": 4.4779116465863456e-07,
	"loss": 0.0034,
	"reward": 2.2799594402313232,
	"reward_std": 0.17667143046855927,
	"rewards/accuracy_reward": 1.2799595594406128,
	"rewards/format_reward": 1.0,
	"step": 275
	},
	{
	"completion_length": 74.9296875,
	"epoch": 3.325301204819277,
	"grad_norm": 3.4769457078888513,
	"kl": 0.1181640625,
	"learning_rate": 4.4578313253012043e-07,
	"loss": 0.0047,
	"reward": 2.282673478126526,
	"reward_std": 0.20452508330345154,
	"rewards/accuracy_reward": 1.282673418521881,
	"rewards/format_reward": 1.0,
	"step": 276
	},
	{
	"completion_length": 73.828125,
	"epoch": 3.337349397590361,
	"grad_norm": 5.230024279024117,
	"kl": 0.0830078125,
	"learning_rate": 4.437751004016064e-07,
	"loss": 0.0033,
	"reward": 2.2097089290618896,
	"reward_std": 0.22180304676294327,
	"rewards/accuracy_reward": 1.2097087502479553,
	"rewards/format_reward": 1.0,
	"step": 277
	},
	{
	"completion_length": 72.7109375,
	"epoch": 3.3493975903614457,
	"grad_norm": 3.8728422379908416,
	"kl": 0.095458984375,
	"learning_rate": 4.4176706827309234e-07,
	"loss": 0.0038,
	"reward": 2.491241931915283,
	"reward_std": 0.22739917039871216,
	"rewards/accuracy_reward": 1.4912420511245728,
	"rewards/format_reward": 1.0,
	"step": 278
	},
	{
	"completion_length": 78.5078125,
	"epoch": 3.36144578313253,
	"grad_norm": 3.6858021846036535,
	"kl": 0.0908203125,
	"learning_rate": 4.3975903614457827e-07,
	"loss": 0.0036,
	"reward": 2.243127226829529,
	"reward_std": 0.22939348965883255,
	"rewards/accuracy_reward": 1.2431272268295288,
	"rewards/format_reward": 1.0,
	"step": 279
	},
	{
	"completion_length": 72.765625,
	"epoch": 3.3734939759036147,
	"grad_norm": 4.156042584491376,
	"kl": 0.1044921875,
	"learning_rate": 4.3775100401606425e-07,
	"loss": 0.0042,
	"reward": 2.2150485515594482,
	"reward_std": 0.23025363683700562,
	"rewards/accuracy_reward": 1.2228610515594482,
	"rewards/format_reward": 0.9921875,
	"step": 280
	},
	{
	"completion_length": 77.0390625,
	"epoch": 3.3855421686746987,
	"grad_norm": 3.3549823921313475,
	"kl": 0.100341796875,
	"learning_rate": 4.3574297188755017e-07,
	"loss": 0.004,
	"reward": 2.211505889892578,
	"reward_std": 0.24677567183971405,
	"rewards/accuracy_reward": 1.227130949497223,
	"rewards/format_reward": 0.984375,
	"step": 281
	},
	{
	"completion_length": 78.296875,
	"epoch": 3.397590361445783,
	"grad_norm": 3.5036767872389514,
	"kl": 0.0859375,
	"learning_rate": 4.3373493975903615e-07,
	"loss": 0.0034,
	"reward": 2.346588611602783,
	"reward_std": 0.20112959295511246,
	"rewards/accuracy_reward": 1.3465884923934937,
	"rewards/format_reward": 1.0,
	"step": 282
	},
	{
	"completion_length": 84.484375,
	"epoch": 3.4096385542168672,
	"grad_norm": 3.0794227415803874,
	"kl": 0.09326171875,
	"learning_rate": 4.3172690763052203e-07,
	"loss": 0.0037,
	"reward": 2.230928421020508,
	"reward_std": 0.26287955790758133,
	"rewards/accuracy_reward": 1.2387409210205078,
	"rewards/format_reward": 0.9921875,
	"step": 283
	},
	{
	"completion_length": 84.0546875,
	"epoch": 3.4216867469879517,
	"grad_norm": 9.632017573370238,
	"kl": 0.086181640625,
	"learning_rate": 4.29718875502008e-07,
	"loss": 0.0034,
	"reward": 2.2049087285995483,
	"reward_std": 0.19046999514102936,
	"rewards/accuracy_reward": 1.204908847808838,
	"rewards/format_reward": 1.0,
	"step": 284
	},
	{
	"completion_length": 74.875,
	"epoch": 3.433734939759036,
	"grad_norm": 3.04437077789607,
	"kl": 0.07861328125,
	"learning_rate": 4.2771084337349393e-07,
	"loss": 0.0031,
	"reward": 2.3966974020004272,
	"reward_std": 0.1937796175479889,
	"rewards/accuracy_reward": 1.3966973423957825,
	"rewards/format_reward": 1.0,
	"step": 285
	},
	{
	"completion_length": 75.8359375,
	"epoch": 3.4457831325301207,
	"grad_norm": 5.311045139915637,
	"kl": 0.163330078125,
	"learning_rate": 4.257028112449799e-07,
	"loss": 0.0065,
	"reward": 2.3752543926239014,
	"reward_std": 0.2273067831993103,
	"rewards/accuracy_reward": 1.3830668926239014,
	"rewards/format_reward": 0.9921875,
	"step": 286
	},
	{
	"completion_length": 78.6328125,
	"epoch": 3.4578313253012047,
	"grad_norm": 3.0911678350526763,
	"kl": 0.082763671875,
	"learning_rate": 4.2369477911646584e-07,
	"loss": 0.0033,
	"reward": 2.3473113775253296,
	"reward_std": 0.14994988590478897,
	"rewards/accuracy_reward": 1.3473113775253296,
	"rewards/format_reward": 1.0,
	"step": 287
	},
	{
	"completion_length": 79.1640625,
	"epoch": 3.4698795180722892,
	"grad_norm": 3.5847413181475947,
	"kl": 0.0849609375,
	"learning_rate": 4.216867469879518e-07,
	"loss": 0.0034,
	"reward": 2.433477997779846,
	"reward_std": 0.1769290268421173,
	"rewards/accuracy_reward": 1.4334778785705566,
	"rewards/format_reward": 1.0,
	"step": 288
	},
	{
	"completion_length": 83.390625,
	"epoch": 3.4819277108433733,
	"grad_norm": 4.01569190307187,
	"kl": 0.09521484375,
	"learning_rate": 4.1967871485943775e-07,
	"loss": 0.0038,
	"reward": 2.2789034843444824,
	"reward_std": 0.2845103293657303,
	"rewards/accuracy_reward": 1.2867161631584167,
	"rewards/format_reward": 0.9921875,
	"step": 289
	},
	{
	"completion_length": 81.90625,
	"epoch": 3.4939759036144578,
	"grad_norm": 3.286849126987869,
	"kl": 0.08642578125,
	"learning_rate": 4.176706827309237e-07,
	"loss": 0.0035,
	"reward": 2.362874150276184,
	"reward_std": 0.19387810677289963,
	"rewards/accuracy_reward": 1.362874150276184,
	"rewards/format_reward": 1.0,
	"step": 290
	},
	{
	"completion_length": 82.6640625,
	"epoch": 3.5060240963855422,
	"grad_norm": 3.658103173473351,
	"kl": 0.10888671875,
	"learning_rate": 4.156626506024096e-07,
	"loss": 0.0043,
	"reward": 2.0810331106185913,
	"reward_std": 0.3057002127170563,
	"rewards/accuracy_reward": 1.088845670223236,
	"rewards/format_reward": 0.9921875,
	"step": 291
	},
	{
	"completion_length": 78.921875,
	"epoch": 3.5180722891566267,
	"grad_norm": 3.7103596490236774,
	"kl": 0.08349609375,
	"learning_rate": 4.1365461847389553e-07,
	"loss": 0.0033,
	"reward": 2.511967420578003,
	"reward_std": 0.16890805214643478,
	"rewards/accuracy_reward": 1.5119673609733582,
	"rewards/format_reward": 1.0,
	"step": 292
	},
	{
	"completion_length": 79.0703125,
	"epoch": 3.5301204819277108,
	"grad_norm": 4.407185593870522,
	"kl": 0.099853515625,
	"learning_rate": 4.116465863453815e-07,
	"loss": 0.004,
	"reward": 2.298495650291443,
	"reward_std": 0.18783311545848846,
	"rewards/accuracy_reward": 1.2984956502914429,
	"rewards/format_reward": 1.0,
	"step": 293
	},
	{
	"completion_length": 77.796875,
	"epoch": 3.5421686746987953,
	"grad_norm": 4.826014110118868,
	"kl": 0.09814453125,
	"learning_rate": 4.0963855421686744e-07,
	"loss": 0.0039,
	"reward": 2.2871015071868896,
	"reward_std": 0.2442024052143097,
	"rewards/accuracy_reward": 1.2871016263961792,
	"rewards/format_reward": 1.0,
	"step": 294
	},
	{
	"completion_length": 81.0390625,
	"epoch": 3.5542168674698793,
	"grad_norm": 5.044218587715949,
	"kl": 0.1220703125,
	"learning_rate": 4.076305220883534e-07,
	"loss": 0.0049,
	"reward": 2.3120492696762085,
	"reward_std": 0.26864828169345856,
	"rewards/accuracy_reward": 1.3198617696762085,
	"rewards/format_reward": 0.9921875,
	"step": 295
	},
	{
	"completion_length": 81.8046875,
	"epoch": 3.566265060240964,
	"grad_norm": 4.035337217053536,
	"kl": 0.102783203125,
	"learning_rate": 4.0562248995983934e-07,
	"loss": 0.0041,
	"reward": 2.2244678735733032,
	"reward_std": 0.19216852635145187,
	"rewards/accuracy_reward": 1.2244678139686584,
	"rewards/format_reward": 1.0,
	"step": 296
	},
	{
	"completion_length": 82.1875,
	"epoch": 3.5783132530120483,
	"grad_norm": 5.473424541297646,
	"kl": 0.082275390625,
	"learning_rate": 4.036144578313253e-07,
	"loss": 0.0033,
	"reward": 2.1482508182525635,
	"reward_std": 0.2517557144165039,
	"rewards/accuracy_reward": 1.1560633182525635,
	"rewards/format_reward": 0.9921875,
	"step": 297
	},
	{
	"completion_length": 76.8828125,
	"epoch": 3.5903614457831328,
	"grad_norm": 3.624065660089473,
	"kl": 0.099609375,
	"learning_rate": 4.0160642570281125e-07,
	"loss": 0.004,
	"reward": 2.460606813430786,
	"reward_std": 0.20688265562057495,
	"rewards/accuracy_reward": 1.476231873035431,
	"rewards/format_reward": 0.984375,
	"step": 298
	},
	{
	"completion_length": 73.8828125,
	"epoch": 3.602409638554217,
	"grad_norm": 3.2496622555871775,
	"kl": 0.10302734375,
	"learning_rate": 3.995983935742971e-07,
	"loss": 0.0041,
	"reward": 2.448202967643738,
	"reward_std": 0.20513835549354553,
	"rewards/accuracy_reward": 1.4482029676437378,
	"rewards/format_reward": 1.0,
	"step": 299
	},
	{
	"completion_length": 73.8828125,
	"epoch": 3.6144578313253013,
	"grad_norm": 3.248403260656612,
	"kl": 0.1142578125,
	"learning_rate": 3.975903614457831e-07,
	"loss": 0.0046,
	"reward": 2.3579249382019043,
	"reward_std": 0.26106585562229156,
	"rewards/accuracy_reward": 1.3657374382019043,
	"rewards/format_reward": 0.9921875,
	"step": 300
	},
	{
	"completion_length": 81.78125,
	"epoch": 3.6265060240963853,
	"grad_norm": 4.192951592702023,
	"kl": 0.090087890625,
	"learning_rate": 3.9558232931726903e-07,
	"loss": 0.0036,
	"reward": 2.320730686187744,
	"reward_std": 0.17225497588515282,
	"rewards/accuracy_reward": 1.3207308053970337,
	"rewards/format_reward": 1.0,
	"step": 301
	},
	{
	"completion_length": 81.78125,
	"epoch": 3.63855421686747,
	"grad_norm": 3.914334064533718,
	"kl": 0.082763671875,
	"learning_rate": 3.93574297188755e-07,
	"loss": 0.0033,
	"reward": 2.2756303548812866,
	"reward_std": 0.21440081298351288,
	"rewards/accuracy_reward": 1.2834429144859314,
	"rewards/format_reward": 0.9921875,
	"step": 302
	},
	{
	"completion_length": 83.984375,
	"epoch": 3.6506024096385543,
	"grad_norm": 2.9158995310046705,
	"kl": 0.09326171875,
	"learning_rate": 3.9156626506024094e-07,
	"loss": 0.0037,
	"reward": 2.340207576751709,
	"reward_std": 0.22486132383346558,
	"rewards/accuracy_reward": 1.3402075171470642,
	"rewards/format_reward": 1.0,
	"step": 303
	},
	{
	"completion_length": 73.0078125,
	"epoch": 3.662650602409639,
	"grad_norm": 3.64523826351094,
	"kl": 0.130615234375,
	"learning_rate": 3.895582329317269e-07,
	"loss": 0.0052,
	"reward": 2.306045651435852,
	"reward_std": 0.21042678505182266,
	"rewards/accuracy_reward": 1.313858151435852,
	"rewards/format_reward": 0.9921875,
	"step": 304
	},
	{
	"completion_length": 77.140625,
	"epoch": 3.674698795180723,
	"grad_norm": 4.763683185347457,
	"kl": 0.09619140625,
	"learning_rate": 3.8755020080321285e-07,
	"loss": 0.0038,
	"reward": 2.292635202407837,
	"reward_std": 0.24200939387083054,
	"rewards/accuracy_reward": 1.308260202407837,
	"rewards/format_reward": 0.984375,
	"step": 305
	},
	{
	"completion_length": 80.6875,
	"epoch": 3.6867469879518073,
	"grad_norm": 15.378313149094321,
	"kl": 0.130126953125,
	"learning_rate": 3.8554216867469877e-07,
	"loss": 0.0052,
	"reward": 2.2641184329986572,
	"reward_std": 0.20184506475925446,
	"rewards/accuracy_reward": 1.2719308137893677,
	"rewards/format_reward": 0.9921875,
	"step": 306
	},
	{
	"completion_length": 72.4453125,
	"epoch": 3.6987951807228914,
	"grad_norm": 6.1838290298686225,
	"kl": 0.114501953125,
	"learning_rate": 3.835341365461847e-07,
	"loss": 0.0046,
	"reward": 2.4186692237854004,
	"reward_std": 0.20656991004943848,
	"rewards/accuracy_reward": 1.4264817833900452,
	"rewards/format_reward": 0.9921875,
	"step": 307
	},
	{
	"completion_length": 73.71875,
	"epoch": 3.710843373493976,
	"grad_norm": 3.6680281562358794,
	"kl": 0.092041015625,
	"learning_rate": 3.815261044176707e-07,
	"loss": 0.0037,
	"reward": 2.3598402738571167,
	"reward_std": 0.1814076155424118,
	"rewards/accuracy_reward": 1.3598402738571167,
	"rewards/format_reward": 1.0,
	"step": 308
	},
	{
	"completion_length": 75.5625,
	"epoch": 3.7228915662650603,
	"grad_norm": 4.1513164017455635,
	"kl": 0.11962890625,
	"learning_rate": 3.795180722891566e-07,
	"loss": 0.0048,
	"reward": 2.2364041805267334,
	"reward_std": 0.20799466967582703,
	"rewards/accuracy_reward": 1.236404299736023,
	"rewards/format_reward": 1.0,
	"step": 309
	},
	{
	"completion_length": 76.2109375,
	"epoch": 3.734939759036145,
	"grad_norm": 4.53835509987933,
	"kl": 0.088623046875,
	"learning_rate": 3.7751004016064253e-07,
	"loss": 0.0036,
	"reward": 2.3527251482009888,
	"reward_std": 0.17692391574382782,
	"rewards/accuracy_reward": 1.3527252078056335,
	"rewards/format_reward": 1.0,
	"step": 310
	},
	{
	"completion_length": 80.4375,
	"epoch": 3.746987951807229,
	"grad_norm": 3.703393707261026,
	"kl": 0.1103515625,
	"learning_rate": 3.755020080321285e-07,
	"loss": 0.0044,
	"reward": 2.298377275466919,
	"reward_std": 0.21109677106142044,
	"rewards/accuracy_reward": 1.2983773350715637,
	"rewards/format_reward": 1.0,
	"step": 311
	},
	{
	"completion_length": 77.8125,
	"epoch": 3.7590361445783134,
	"grad_norm": 3.914375784414754,
	"kl": 0.138916015625,
	"learning_rate": 3.7349397590361444e-07,
	"loss": 0.0056,
	"reward": 2.1520947217941284,
	"reward_std": 0.19967754930257797,
	"rewards/accuracy_reward": 1.1520947813987732,
	"rewards/format_reward": 1.0,
	"step": 312
	},
	{
	"completion_length": 79.2578125,
	"epoch": 3.7710843373493974,
	"grad_norm": 5.606330092523797,
	"kl": 0.091064453125,
	"learning_rate": 3.714859437751004e-07,
	"loss": 0.0036,
	"reward": 2.3204472064971924,
	"reward_std": 0.1748044565320015,
	"rewards/accuracy_reward": 1.3204472661018372,
	"rewards/format_reward": 1.0,
	"step": 313
	},
	{
	"completion_length": 74.84375,
	"epoch": 3.783132530120482,
	"grad_norm": 3.2348525038063736,
	"kl": 0.08447265625,
	"learning_rate": 3.694779116465863e-07,
	"loss": 0.0034,
	"reward": 2.496751070022583,
	"reward_std": 0.2072158306837082,
	"rewards/accuracy_reward": 1.496751070022583,
	"rewards/format_reward": 1.0,
	"step": 314
	},
	{
	"completion_length": 74.296875,
	"epoch": 3.7951807228915664,
	"grad_norm": 3.7371491385040483,
	"kl": 0.0771484375,
	"learning_rate": 3.674698795180723e-07,
	"loss": 0.0031,
	"reward": 2.395453691482544,
	"reward_std": 0.16877512633800507,
	"rewards/accuracy_reward": 1.3954537510871887,
	"rewards/format_reward": 1.0,
	"step": 315
	},
	{
	"completion_length": 72.8671875,
	"epoch": 3.807228915662651,
	"grad_norm": 5.799331345023467,
	"kl": 0.09619140625,
	"learning_rate": 3.654618473895582e-07,
	"loss": 0.0039,
	"reward": 2.307594895362854,
	"reward_std": 0.1985296756029129,
	"rewards/accuracy_reward": 1.307594895362854,
	"rewards/format_reward": 1.0,
	"step": 316
	},
	{
	"completion_length": 72.84375,
	"epoch": 3.819277108433735,
	"grad_norm": 5.215215330938529,
	"kl": 0.11083984375,
	"learning_rate": 3.634538152610442e-07,
	"loss": 0.0044,
	"reward": 2.2713290452957153,
	"reward_std": 0.15980049967765808,
	"rewards/accuracy_reward": 1.2791414856910706,
	"rewards/format_reward": 0.9921875,
	"step": 317
	},
	{
	"completion_length": 66.28125,
	"epoch": 3.8313253012048194,
	"grad_norm": 9.42828281313003,
	"kl": 0.106201171875,
	"learning_rate": 3.614457831325301e-07,
	"loss": 0.0042,
	"reward": 2.441011667251587,
	"reward_std": 0.21370699256658554,
	"rewards/accuracy_reward": 1.4566364884376526,
	"rewards/format_reward": 0.984375,
	"step": 318
	},
	{
	"completion_length": 74.3359375,
	"epoch": 3.8433734939759034,
	"grad_norm": 3.380164477319568,
	"kl": 0.094970703125,
	"learning_rate": 3.5943775100401604e-07,
	"loss": 0.0038,
	"reward": 2.5070927143096924,
	"reward_std": 0.16660126298666,
	"rewards/accuracy_reward": 1.5149051547050476,
	"rewards/format_reward": 0.9921875,
	"step": 319
	},
	{
	"completion_length": 71.3046875,
	"epoch": 3.855421686746988,
	"grad_norm": 4.006205885169367,
	"kl": 0.128662109375,
	"learning_rate": 3.57429718875502e-07,
	"loss": 0.0051,
	"reward": 2.3042829036712646,
	"reward_std": 0.2031613141298294,
	"rewards/accuracy_reward": 1.3042829036712646,
	"rewards/format_reward": 1.0,
	"step": 320
	},
	{
	"completion_length": 73.9609375,
	"epoch": 3.8674698795180724,
	"grad_norm": 5.771036516275782,
	"kl": 0.093017578125,
	"learning_rate": 3.554216867469879e-07,
	"loss": 0.0037,
	"reward": 2.422416090965271,
	"reward_std": 0.19139418005943298,
	"rewards/accuracy_reward": 1.4302285313606262,
	"rewards/format_reward": 0.9921875,
	"step": 321
	},
	{
	"completion_length": 71.734375,
	"epoch": 3.8795180722891565,
	"grad_norm": 5.860041479699707,
	"kl": 0.110595703125,
	"learning_rate": 3.5341365461847387e-07,
	"loss": 0.0044,
	"reward": 2.100473999977112,
	"reward_std": 0.21565508097410202,
	"rewards/accuracy_reward": 1.1004739999771118,
	"rewards/format_reward": 1.0,
	"step": 322
	},
	{
	"completion_length": 69.046875,
	"epoch": 3.891566265060241,
	"grad_norm": 4.962719097630754,
	"kl": 0.1396484375,
	"learning_rate": 3.514056224899598e-07,
	"loss": 0.0056,
	"reward": 2.337049961090088,
	"reward_std": 0.201468363404274,
	"rewards/accuracy_reward": 1.337049961090088,
	"rewards/format_reward": 1.0,
	"step": 323
	},
	{
	"completion_length": 70.0234375,
	"epoch": 3.9036144578313254,
	"grad_norm": 3.786778485554144,
	"kl": 0.1064453125,
	"learning_rate": 3.493975903614458e-07,
	"loss": 0.0043,
	"reward": 2.282514452934265,
	"reward_std": 0.2470734864473343,
	"rewards/accuracy_reward": 1.2903268933296204,
	"rewards/format_reward": 0.9921875,
	"step": 324
	},
	{
	"completion_length": 66.5546875,
	"epoch": 3.9156626506024095,
	"grad_norm": 5.681847770854111,
	"kl": 0.14599609375,
	"learning_rate": 3.473895582329317e-07,
	"loss": 0.0059,
	"reward": 2.2830464839935303,
	"reward_std": 0.16951018571853638,
	"rewards/accuracy_reward": 1.2830466032028198,
	"rewards/format_reward": 1.0,
	"step": 325
	},
	{
	"completion_length": 69.9765625,
	"epoch": 3.927710843373494,
	"grad_norm": 3.545177223680582,
	"kl": 0.1123046875,
	"learning_rate": 3.453815261044177e-07,
	"loss": 0.0045,
	"reward": 2.3249276876449585,
	"reward_std": 0.23469389975070953,
	"rewards/accuracy_reward": 1.3249276876449585,
	"rewards/format_reward": 1.0,
	"step": 326
	},
	{
	"completion_length": 67.2109375,
	"epoch": 3.9397590361445785,
	"grad_norm": 4.464381426334607,
	"kl": 0.111328125,
	"learning_rate": 3.433734939759036e-07,
	"loss": 0.0045,
	"reward": 2.313346743583679,
	"reward_std": 0.24960950016975403,
	"rewards/accuracy_reward": 1.321159303188324,
	"rewards/format_reward": 0.9921875,
	"step": 327
	},
	{
	"completion_length": 69.5390625,
	"epoch": 3.9518072289156625,
	"grad_norm": 5.503294892764904,
	"kl": 0.13818359375,
	"learning_rate": 3.413654618473896e-07,
	"loss": 0.0055,
	"reward": 2.250451922416687,
	"reward_std": 0.19627484679222107,
	"rewards/accuracy_reward": 1.2582644820213318,
	"rewards/format_reward": 0.9921875,
	"step": 328
	},
	{
	"completion_length": 72.875,
	"epoch": 3.963855421686747,
	"grad_norm": 3.94333602961405,
	"kl": 0.126953125,
	"learning_rate": 3.3935742971887547e-07,
	"loss": 0.0051,
	"reward": 2.4282917976379395,
	"reward_std": 0.23817364871501923,
	"rewards/accuracy_reward": 1.4361043572425842,
	"rewards/format_reward": 0.9921875,
	"step": 329
	},
	{
	"completion_length": 68.078125,
	"epoch": 3.9759036144578315,
	"grad_norm": 4.246221946155538,
	"kl": 0.10302734375,
	"learning_rate": 3.373493975903614e-07,
	"loss": 0.0041,
	"reward": 2.3756778240203857,
	"reward_std": 0.23032685369253159,
	"rewards/accuracy_reward": 1.3756778836250305,
	"rewards/format_reward": 1.0,
	"step": 330
	},
	{
	"completion_length": 63.171875,
	"epoch": 3.9879518072289155,
	"grad_norm": 4.823180720092978,
	"kl": 0.14111328125,
	"learning_rate": 3.353413654618474e-07,
	"loss": 0.0057,
	"reward": 2.2716495990753174,
	"reward_std": 0.25546562671661377,
	"rewards/accuracy_reward": 1.2794621586799622,
	"rewards/format_reward": 0.9921875,
	"step": 331
	},
	{
	"completion_length": 79.75000381469727,
	"epoch": 4.0,
	"grad_norm": 3.966089593429622,
	"kl": 0.10986328125,
	"learning_rate": 3.333333333333333e-07,
	"loss": 0.0047,
	"reward": 1.9844202995300293,
	"reward_std": 0.41577973030507565,
	"rewards/accuracy_reward": 0.9844204187393188,
	"rewards/format_reward": 1.0,
	"step": 332
	},
	{
	"completion_length": 67.8984375,
	"epoch": 4.0120481927710845,
	"grad_norm": 3.4890518846644203,
	"kl": 0.112548828125,
	"learning_rate": 3.313253012048193e-07,
	"loss": 0.0045,
	"reward": 2.273194432258606,
	"reward_std": 0.1845482587814331,
	"rewards/accuracy_reward": 1.2810069918632507,
	"rewards/format_reward": 0.9921875,
	"step": 333
	},
	{
	"completion_length": 70.1328125,
	"epoch": 4.024096385542169,
	"grad_norm": 3.1401475074211698,
	"kl": 0.106201171875,
	"learning_rate": 3.293172690763052e-07,
	"loss": 0.0042,
	"reward": 2.348654627799988,
	"reward_std": 0.20452319085597992,
	"rewards/accuracy_reward": 1.3564670085906982,
	"rewards/format_reward": 0.9921875,
	"step": 334
	},
	{
	"completion_length": 67.4296875,
	"epoch": 4.036144578313253,
	"grad_norm": 4.049959483426693,
	"kl": 0.107177734375,
	"learning_rate": 3.273092369477912e-07,
	"loss": 0.0043,
	"reward": 2.270454525947571,
	"reward_std": 0.21142029762268066,
	"rewards/accuracy_reward": 1.2704546451568604,
	"rewards/format_reward": 1.0,
	"step": 335
	},
	{
	"completion_length": 71.1484375,
	"epoch": 4.048192771084337,
	"grad_norm": 3.9561612834766273,
	"kl": 0.097412109375,
	"learning_rate": 3.2530120481927706e-07,
	"loss": 0.0039,
	"reward": 2.1833893060684204,
	"reward_std": 0.1801520176231861,
	"rewards/accuracy_reward": 1.1912018656730652,
	"rewards/format_reward": 0.9921875,
	"step": 336
	},
	{
	"completion_length": 69.59375,
	"epoch": 4.0602409638554215,
	"grad_norm": 3.977655100011985,
	"kl": 0.1474609375,
	"learning_rate": 3.2329317269076304e-07,
	"loss": 0.0059,
	"reward": 2.2047336101531982,
	"reward_std": 0.1999206244945526,
	"rewards/accuracy_reward": 1.204733669757843,
	"rewards/format_reward": 1.0,
	"step": 337
	},
	{
	"completion_length": 61.4765625,
	"epoch": 4.072289156626506,
	"grad_norm": 4.191698428231115,
	"kl": 0.12939453125,
	"learning_rate": 3.2128514056224897e-07,
	"loss": 0.0052,
	"reward": 2.3498200178146362,
	"reward_std": 0.2275300845503807,
	"rewards/accuracy_reward": 1.3498198986053467,
	"rewards/format_reward": 1.0,
	"step": 338
	},
	{
	"completion_length": 64.4140625,
	"epoch": 4.0843373493975905,
	"grad_norm": 3.9067810348739114,
	"kl": 0.116943359375,
	"learning_rate": 3.192771084337349e-07,
	"loss": 0.0047,
	"reward": 2.352308511734009,
	"reward_std": 0.22002745419740677,
	"rewards/accuracy_reward": 1.3523083925247192,
	"rewards/format_reward": 1.0,
	"step": 339
	},
	{
	"completion_length": 73.2890625,
	"epoch": 4.096385542168675,
	"grad_norm": 4.489032904646898,
	"kl": 0.104736328125,
	"learning_rate": 3.172690763052209e-07,
	"loss": 0.0042,
	"reward": 2.1710336208343506,
	"reward_std": 0.17718148604035378,
	"rewards/accuracy_reward": 1.1710334420204163,
	"rewards/format_reward": 1.0,
	"step": 340
	},
	{
	"completion_length": 74.3671875,
	"epoch": 4.108433734939759,
	"grad_norm": 4.230949730619595,
	"kl": 0.139892578125,
	"learning_rate": 3.152610441767068e-07,
	"loss": 0.0056,
	"reward": 2.084486246109009,
	"reward_std": 0.2170683741569519,
	"rewards/accuracy_reward": 1.0922988057136536,
	"rewards/format_reward": 0.9921875,
	"step": 341
	},
	{
	"completion_length": 65.5625,
	"epoch": 4.120481927710843,
	"grad_norm": 5.461293103432774,
	"kl": 0.1044921875,
	"learning_rate": 3.132530120481928e-07,
	"loss": 0.0042,
	"reward": 2.381394147872925,
	"reward_std": 0.193039670586586,
	"rewards/accuracy_reward": 1.38139408826828,
	"rewards/format_reward": 1.0,
	"step": 342
	},
	{
	"completion_length": 66.15625,
	"epoch": 4.132530120481928,
	"grad_norm": 4.070866693962467,
	"kl": 0.111572265625,
	"learning_rate": 3.112449799196787e-07,
	"loss": 0.0045,
	"reward": 2.357278347015381,
	"reward_std": 0.15215902030467987,
	"rewards/accuracy_reward": 1.3729035258293152,
	"rewards/format_reward": 0.984375,
	"step": 343
	},
	{
	"completion_length": 69.1328125,
	"epoch": 4.144578313253012,
	"grad_norm": 4.335873726549927,
	"kl": 0.123046875,
	"learning_rate": 3.0923694779116464e-07,
	"loss": 0.0049,
	"reward": 2.282222032546997,
	"reward_std": 0.25280918926000595,
	"rewards/accuracy_reward": 1.2978470921516418,
	"rewards/format_reward": 0.984375,
	"step": 344
	},
	{
	"completion_length": 73.6015625,
	"epoch": 4.156626506024097,
	"grad_norm": 4.412489990442917,
	"kl": 0.09765625,
	"learning_rate": 3.0722891566265056e-07,
	"loss": 0.0039,
	"reward": 2.421238660812378,
	"reward_std": 0.21779820322990417,
	"rewards/accuracy_reward": 1.4290512800216675,
	"rewards/format_reward": 0.9921875,
	"step": 345
	},
	{
	"completion_length": 67.3984375,
	"epoch": 4.168674698795181,
	"grad_norm": 3.7050619604015775,
	"kl": 0.111083984375,
	"learning_rate": 3.0522088353413654e-07,
	"loss": 0.0044,
	"reward": 2.4159966707229614,
	"reward_std": 0.17116259038448334,
	"rewards/accuracy_reward": 1.4159966707229614,
	"rewards/format_reward": 1.0,
	"step": 346
	},
	{
	"completion_length": 68.7109375,
	"epoch": 4.180722891566265,
	"grad_norm": 4.638840034522594,
	"kl": 0.119873046875,
	"learning_rate": 3.0321285140562247e-07,
	"loss": 0.0048,
	"reward": 2.430918335914612,
	"reward_std": 0.23829656839370728,
	"rewards/accuracy_reward": 1.4309183359146118,
	"rewards/format_reward": 1.0,
	"step": 347
	},
	{
	"completion_length": 68.203125,
	"epoch": 4.192771084337349,
	"grad_norm": 7.531973472034052,
	"kl": 0.124267578125,
	"learning_rate": 3.0120481927710845e-07,
	"loss": 0.005,
	"reward": 2.2654261589050293,
	"reward_std": 0.214869923889637,
	"rewards/accuracy_reward": 1.2966760993003845,
	"rewards/format_reward": 0.96875,
	"step": 348
	},
	{
	"completion_length": 66.3046875,
	"epoch": 4.204819277108434,
	"grad_norm": 6.290139006407989,
	"kl": 0.15673828125,
	"learning_rate": 2.991967871485944e-07,
	"loss": 0.0063,
	"reward": 2.440833330154419,
	"reward_std": 0.20570393651723862,
	"rewards/accuracy_reward": 1.4642709493637085,
	"rewards/format_reward": 0.9765625,
	"step": 349
	},
	{
	"completion_length": 68.5078125,
	"epoch": 4.216867469879518,
	"grad_norm": 3.870085506410607,
	"kl": 0.11376953125,
	"learning_rate": 2.971887550200803e-07,
	"loss": 0.0046,
	"reward": 2.4419082403182983,
	"reward_std": 0.1332126259803772,
	"rewards/accuracy_reward": 1.441908359527588,
	"rewards/format_reward": 1.0,
	"step": 350
	},
	{
	"completion_length": 67.7109375,
	"epoch": 4.228915662650603,
	"grad_norm": 5.222390077968289,
	"kl": 0.12548828125,
	"learning_rate": 2.9518072289156623e-07,
	"loss": 0.005,
	"reward": 2.354392647743225,
	"reward_std": 0.250136561691761,
	"rewards/accuracy_reward": 1.3700175285339355,
	"rewards/format_reward": 0.984375,
	"step": 351
	},
	{
	"completion_length": 63.75,
	"epoch": 4.240963855421687,
	"grad_norm": 5.7394258697520835,
	"kl": 0.13671875,
	"learning_rate": 2.9317269076305216e-07,
	"loss": 0.0055,
	"reward": 2.1846532821655273,
	"reward_std": 0.27685467153787613,
	"rewards/accuracy_reward": 1.2080907225608826,
	"rewards/format_reward": 0.9765625,
	"step": 352
	},
	{
	"completion_length": 68.734375,
	"epoch": 4.253012048192771,
	"grad_norm": 3.522967170920438,
	"kl": 0.10400390625,
	"learning_rate": 2.9116465863453814e-07,
	"loss": 0.0041,
	"reward": 2.315014600753784,
	"reward_std": 0.13816260546445847,
	"rewards/accuracy_reward": 1.3150146007537842,
	"rewards/format_reward": 1.0,
	"step": 353
	},
	{
	"completion_length": 72.8125,
	"epoch": 4.265060240963855,
	"grad_norm": 3.727859373676823,
	"kl": 0.12939453125,
	"learning_rate": 2.8915662650602407e-07,
	"loss": 0.0052,
	"reward": 2.206972360610962,
	"reward_std": 0.23467965424060822,
	"rewards/accuracy_reward": 1.2069722414016724,
	"rewards/format_reward": 1.0,
	"step": 354
	},
	{
	"completion_length": 70.3359375,
	"epoch": 4.27710843373494,
	"grad_norm": 3.380662774166939,
	"kl": 0.09716796875,
	"learning_rate": 2.8714859437751005e-07,
	"loss": 0.0039,
	"reward": 2.1916306018829346,
	"reward_std": 0.23339906334877014,
	"rewards/accuracy_reward": 1.2072556018829346,
	"rewards/format_reward": 0.984375,
	"step": 355
	},
	{
	"completion_length": 72.4375,
	"epoch": 4.289156626506024,
	"grad_norm": 3.5703829288777764,
	"kl": 0.11376953125,
	"learning_rate": 2.85140562248996e-07,
	"loss": 0.0046,
	"reward": 2.142443895339966,
	"reward_std": 0.2050827294588089,
	"rewards/accuracy_reward": 1.1580689549446106,
	"rewards/format_reward": 0.984375,
	"step": 356
	},
	{
	"completion_length": 66.9921875,
	"epoch": 4.301204819277109,
	"grad_norm": 3.6787951883313275,
	"kl": 0.119873046875,
	"learning_rate": 2.8313253012048195e-07,
	"loss": 0.0048,
	"reward": 2.6013587713241577,
	"reward_std": 0.17792491614818573,
	"rewards/accuracy_reward": 1.6013588309288025,
	"rewards/format_reward": 1.0,
	"step": 357
	},
	{
	"completion_length": 67.1875,
	"epoch": 4.313253012048193,
	"grad_norm": 7.9299540096420476,
	"kl": 0.111328125,
	"learning_rate": 2.811244979919679e-07,
	"loss": 0.0044,
	"reward": 2.2114800214767456,
	"reward_std": 0.2541910707950592,
	"rewards/accuracy_reward": 1.2271050810813904,
	"rewards/format_reward": 0.984375,
	"step": 358
	},
	{
	"completion_length": 69.1953125,
	"epoch": 4.325301204819277,
	"grad_norm": 3.7315177619787687,
	"kl": 0.10400390625,
	"learning_rate": 2.7911646586345376e-07,
	"loss": 0.0042,
	"reward": 2.2850147485733032,
	"reward_std": 0.24116653203964233,
	"rewards/accuracy_reward": 1.3084524869918823,
	"rewards/format_reward": 0.9765625,
	"step": 359
	},
	{
	"completion_length": 76.6640625,
	"epoch": 4.337349397590361,
	"grad_norm": 3.8031600707561886,
	"kl": 0.08984375,
	"learning_rate": 2.7710843373493974e-07,
	"loss": 0.0036,
	"reward": 2.372725009918213,
	"reward_std": 0.23598377406597137,
	"rewards/accuracy_reward": 1.380537509918213,
	"rewards/format_reward": 0.9921875,
	"step": 360
	},
	{
	"completion_length": 72.6015625,
	"epoch": 4.349397590361446,
	"grad_norm": 6.29903230301134,
	"kl": 0.10205078125,
	"learning_rate": 2.7510040160642566e-07,
	"loss": 0.0041,
	"reward": 2.3671088218688965,
	"reward_std": 0.21375955641269684,
	"rewards/accuracy_reward": 1.3749213814735413,
	"rewards/format_reward": 0.9921875,
	"step": 361
	},
	{
	"completion_length": 74.546875,
	"epoch": 4.36144578313253,
	"grad_norm": 4.5097271327174555,
	"kl": 0.100341796875,
	"learning_rate": 2.7309236947791164e-07,
	"loss": 0.004,
	"reward": 2.338581085205078,
	"reward_std": 0.21793486177921295,
	"rewards/accuracy_reward": 1.3463934063911438,
	"rewards/format_reward": 0.9921875,
	"step": 362
	},
	{
	"completion_length": 73.203125,
	"epoch": 4.373493975903615,
	"grad_norm": 7.563928087147195,
	"kl": 0.093505859375,
	"learning_rate": 2.7108433734939757e-07,
	"loss": 0.0037,
	"reward": 2.4811813831329346,
	"reward_std": 0.1661686971783638,
	"rewards/accuracy_reward": 1.4811814427375793,
	"rewards/format_reward": 1.0,
	"step": 363
	},
	{
	"completion_length": 72.2109375,
	"epoch": 4.385542168674699,
	"grad_norm": 4.157739455544304,
	"kl": 0.11767578125,
	"learning_rate": 2.6907630522088355e-07,
	"loss": 0.0047,
	"reward": 2.227518320083618,
	"reward_std": 0.2459297701716423,
	"rewards/accuracy_reward": 1.235330879688263,
	"rewards/format_reward": 0.9921875,
	"step": 364
	},
	{
	"completion_length": 73.125,
	"epoch": 4.397590361445783,
	"grad_norm": 3.957643739786318,
	"kl": 0.130126953125,
	"learning_rate": 2.670682730923695e-07,
	"loss": 0.0052,
	"reward": 2.398737668991089,
	"reward_std": 0.2508920058608055,
	"rewards/accuracy_reward": 1.406550109386444,
	"rewards/format_reward": 0.9921875,
	"step": 365
	},
	{
	"completion_length": 80.6484375,
	"epoch": 4.409638554216867,
	"grad_norm": 8.267939908268028,
	"kl": 0.126220703125,
	"learning_rate": 2.6506024096385546e-07,
	"loss": 0.005,
	"reward": 2.1884970664978027,
	"reward_std": 0.32723745703697205,
	"rewards/accuracy_reward": 1.2119346857070923,
	"rewards/format_reward": 0.9765625,
	"step": 366
	},
	{
	"completion_length": 80.09375,
	"epoch": 4.421686746987952,
	"grad_norm": 3.0023836541953988,
	"kl": 0.089111328125,
	"learning_rate": 2.6305220883534133e-07,
	"loss": 0.0036,
	"reward": 2.4019484519958496,
	"reward_std": 0.20879995077848434,
	"rewards/accuracy_reward": 1.4019483923912048,
	"rewards/format_reward": 1.0,
	"step": 367
	},
	{
	"completion_length": 76.890625,
	"epoch": 4.433734939759036,
	"grad_norm": 3.8760535577901916,
	"kl": 0.110107421875,
	"learning_rate": 2.610441767068273e-07,
	"loss": 0.0044,
	"reward": 2.217389702796936,
	"reward_std": 0.20581622421741486,
	"rewards/accuracy_reward": 1.225202202796936,
	"rewards/format_reward": 0.9921875,
	"step": 368
	},
	{
	"completion_length": 70.046875,
	"epoch": 4.445783132530121,
	"grad_norm": 4.189426211226252,
	"kl": 0.09912109375,
	"learning_rate": 2.5903614457831324e-07,
	"loss": 0.004,
	"reward": 2.3884357213974,
	"reward_std": 0.23216703534126282,
	"rewards/accuracy_reward": 1.4118732213974,
	"rewards/format_reward": 0.9765625,
	"step": 369
	},
	{
	"completion_length": 75.3125,
	"epoch": 4.457831325301205,
	"grad_norm": 3.5709834038432886,
	"kl": 0.112060546875,
	"learning_rate": 2.5702811244979916e-07,
	"loss": 0.0045,
	"reward": 2.4395360946655273,
	"reward_std": 0.25345855951309204,
	"rewards/accuracy_reward": 1.4551611542701721,
	"rewards/format_reward": 0.984375,
	"step": 370
	},
	{
	"completion_length": 76.03125,
	"epoch": 4.469879518072289,
	"grad_norm": 3.8012985013892897,
	"kl": 0.11962890625,
	"learning_rate": 2.5502008032128514e-07,
	"loss": 0.0048,
	"reward": 2.2614444494247437,
	"reward_std": 0.25984859466552734,
	"rewards/accuracy_reward": 1.2692569494247437,
	"rewards/format_reward": 0.9921875,
	"step": 371
	},
	{
	"completion_length": 72.34375,
	"epoch": 4.481927710843373,
	"grad_norm": 3.81905493683615,
	"kl": 0.118408203125,
	"learning_rate": 2.5301204819277107e-07,
	"loss": 0.0047,
	"reward": 2.24534273147583,
	"reward_std": 0.2783522978425026,
	"rewards/accuracy_reward": 1.25315523147583,
	"rewards/format_reward": 0.9921875,
	"step": 372
	},
	{
	"completion_length": 73.625,
	"epoch": 4.493975903614458,
	"grad_norm": 5.859434170398068,
	"kl": 0.129638671875,
	"learning_rate": 2.5100401606425705e-07,
	"loss": 0.0052,
	"reward": 2.242166519165039,
	"reward_std": 0.19818732887506485,
	"rewards/accuracy_reward": 1.2421664595603943,
	"rewards/format_reward": 1.0,
	"step": 373
	},
	{
	"completion_length": 70.7734375,
	"epoch": 4.506024096385542,
	"grad_norm": 4.577359942879205,
	"kl": 0.113037109375,
	"learning_rate": 2.489959839357429e-07,
	"loss": 0.0045,
	"reward": 2.40807843208313,
	"reward_std": 0.16506175324320793,
	"rewards/accuracy_reward": 1.408078372478485,
	"rewards/format_reward": 1.0,
	"step": 374
	},
	{
	"completion_length": 71.6484375,
	"epoch": 4.518072289156627,
	"grad_norm": 3.6969886550918627,
	"kl": 0.0947265625,
	"learning_rate": 2.469879518072289e-07,
	"loss": 0.0038,
	"reward": 2.4090828895568848,
	"reward_std": 0.17872843891382217,
	"rewards/accuracy_reward": 1.4090829491615295,
	"rewards/format_reward": 1.0,
	"step": 375
	},
	{
	"completion_length": 75.640625,
	"epoch": 4.530120481927711,
	"grad_norm": 3.182069910394249,
	"kl": 0.112548828125,
	"learning_rate": 2.4497991967871483e-07,
	"loss": 0.0045,
	"reward": 2.429325222969055,
	"reward_std": 0.18355486541986465,
	"rewards/accuracy_reward": 1.4371376037597656,
	"rewards/format_reward": 0.9921875,
	"step": 376
	},
	{
	"completion_length": 76.8515625,
	"epoch": 4.542168674698795,
	"grad_norm": 4.3761923522139625,
	"kl": 0.103515625,
	"learning_rate": 2.429718875502008e-07,
	"loss": 0.0041,
	"reward": 2.215627670288086,
	"reward_std": 0.29024538397789,
	"rewards/accuracy_reward": 1.2234401106834412,
	"rewards/format_reward": 0.9921875,
	"step": 377
	},
	{
	"completion_length": 72.640625,
	"epoch": 4.554216867469879,
	"grad_norm": 5.739152465768093,
	"kl": 0.096923828125,
	"learning_rate": 2.4096385542168674e-07,
	"loss": 0.0039,
	"reward": 2.3864386081695557,
	"reward_std": 0.14991050213575363,
	"rewards/accuracy_reward": 1.3864384889602661,
	"rewards/format_reward": 1.0,
	"step": 378
	},
	{
	"completion_length": 73.7890625,
	"epoch": 4.566265060240964,
	"grad_norm": 4.330609617515541,
	"kl": 0.105712890625,
	"learning_rate": 2.3895582329317267e-07,
	"loss": 0.0042,
	"reward": 2.2676793336868286,
	"reward_std": 0.1841476932168007,
	"rewards/accuracy_reward": 1.2754917740821838,
	"rewards/format_reward": 0.9921875,
	"step": 379
	},
	{
	"completion_length": 69.5859375,
	"epoch": 4.578313253012048,
	"grad_norm": 16.70825245009543,
	"kl": 0.103515625,
	"learning_rate": 2.3694779116465862e-07,
	"loss": 0.0041,
	"reward": 2.3687047958374023,
	"reward_std": 0.23368250578641891,
	"rewards/accuracy_reward": 1.3765172958374023,
	"rewards/format_reward": 0.9921875,
	"step": 380
	},
	{
	"completion_length": 68.5703125,
	"epoch": 4.590361445783133,
	"grad_norm": 4.946973705468274,
	"kl": 0.11865234375,
	"learning_rate": 2.3493975903614457e-07,
	"loss": 0.0047,
	"reward": 2.409714102745056,
	"reward_std": 0.17494437843561172,
	"rewards/accuracy_reward": 1.4175265431404114,
	"rewards/format_reward": 0.9921875,
	"step": 381
	},
	{
	"completion_length": 69.09375,
	"epoch": 4.602409638554217,
	"grad_norm": 3.4407209788639155,
	"kl": 0.108154296875,
	"learning_rate": 2.3293172690763053e-07,
	"loss": 0.0043,
	"reward": 2.3722596168518066,
	"reward_std": 0.2456066906452179,
	"rewards/accuracy_reward": 1.3722596764564514,
	"rewards/format_reward": 1.0,
	"step": 382
	},
	{
	"completion_length": 73.40625,
	"epoch": 4.614457831325301,
	"grad_norm": 6.785057754949663,
	"kl": 0.093017578125,
	"learning_rate": 2.3092369477911648e-07,
	"loss": 0.0037,
	"reward": 2.390730619430542,
	"reward_std": 0.13034258037805557,
	"rewards/accuracy_reward": 1.390730619430542,
	"rewards/format_reward": 1.0,
	"step": 383
	},
	{
	"completion_length": 69.578125,
	"epoch": 4.626506024096385,
	"grad_norm": 4.146766679362004,
	"kl": 0.110107421875,
	"learning_rate": 2.2891566265060238e-07,
	"loss": 0.0044,
	"reward": 2.457837224006653,
	"reward_std": 0.19646844267845154,
	"rewards/accuracy_reward": 1.465649664402008,
	"rewards/format_reward": 0.9921875,
	"step": 384
	},
	{
	"completion_length": 71.4765625,
	"epoch": 4.63855421686747,
	"grad_norm": 3.5134218173180884,
	"kl": 0.10791015625,
	"learning_rate": 2.2690763052208834e-07,
	"loss": 0.0043,
	"reward": 2.2395870685577393,
	"reward_std": 0.23986083269119263,
	"rewards/accuracy_reward": 1.2630245089530945,
	"rewards/format_reward": 0.9765625,
	"step": 385
	},
	{
	"completion_length": 67.8984375,
	"epoch": 4.650602409638554,
	"grad_norm": 3.5532098801033323,
	"kl": 0.112060546875,
	"learning_rate": 2.248995983935743e-07,
	"loss": 0.0045,
	"reward": 2.155800759792328,
	"reward_std": 0.26599714159965515,
	"rewards/accuracy_reward": 1.1714258790016174,
	"rewards/format_reward": 0.984375,
	"step": 386
	},
	{
	"completion_length": 67.921875,
	"epoch": 4.662650602409639,
	"grad_norm": 3.977191337497143,
	"kl": 0.12353515625,
	"learning_rate": 2.2289156626506022e-07,
	"loss": 0.0049,
	"reward": 2.1573885679244995,
	"reward_std": 0.19674725830554962,
	"rewards/accuracy_reward": 1.165201187133789,
	"rewards/format_reward": 0.9921875,
	"step": 387
	},
	{
	"completion_length": 73.3671875,
	"epoch": 4.674698795180722,
	"grad_norm": 3.4384187805900894,
	"kl": 0.1005859375,
	"learning_rate": 2.2088353413654617e-07,
	"loss": 0.004,
	"reward": 2.238619089126587,
	"reward_std": 0.1663391888141632,
	"rewards/accuracy_reward": 1.2386190295219421,
	"rewards/format_reward": 1.0,
	"step": 388
	},
	{
	"completion_length": 71.3515625,
	"epoch": 4.686746987951807,
	"grad_norm": 3.6715987846617737,
	"kl": 0.1103515625,
	"learning_rate": 2.1887550200803212e-07,
	"loss": 0.0044,
	"reward": 2.2813053131103516,
	"reward_std": 0.20307840406894684,
	"rewards/accuracy_reward": 1.2891177535057068,
	"rewards/format_reward": 0.9921875,
	"step": 389
	},
	{
	"completion_length": 67.8671875,
	"epoch": 4.698795180722891,
	"grad_norm": 4.1990886176906566,
	"kl": 0.1181640625,
	"learning_rate": 2.1686746987951808e-07,
	"loss": 0.0047,
	"reward": 2.3316123485565186,
	"reward_std": 0.18899912387132645,
	"rewards/accuracy_reward": 1.339424967765808,
	"rewards/format_reward": 0.9921875,
	"step": 390
	},
	{
	"completion_length": 73.5390625,
	"epoch": 4.710843373493976,
	"grad_norm": 4.5848307121684035,
	"kl": 0.11767578125,
	"learning_rate": 2.14859437751004e-07,
	"loss": 0.0047,
	"reward": 2.3556346893310547,
	"reward_std": 0.17518161982297897,
	"rewards/accuracy_reward": 1.3634473085403442,
	"rewards/format_reward": 0.9921875,
	"step": 391
	},
	{
	"completion_length": 73.3828125,
	"epoch": 4.72289156626506,
	"grad_norm": 4.308895887462787,
	"kl": 0.09716796875,
	"learning_rate": 2.1285140562248996e-07,
	"loss": 0.0039,
	"reward": 2.3230199813842773,
	"reward_std": 0.2215501293540001,
	"rewards/accuracy_reward": 1.3230200409889221,
	"rewards/format_reward": 1.0,
	"step": 392
	},
	{
	"completion_length": 71.625,
	"epoch": 4.734939759036145,
	"grad_norm": 3.8869195849917335,
	"kl": 0.117919921875,
	"learning_rate": 2.108433734939759e-07,
	"loss": 0.0047,
	"reward": 2.311624765396118,
	"reward_std": 0.233637273311615,
	"rewards/accuracy_reward": 1.3116250038146973,
	"rewards/format_reward": 1.0,
	"step": 393
	},
	{
	"completion_length": 67.828125,
	"epoch": 4.746987951807229,
	"grad_norm": 4.950759054297939,
	"kl": 0.10888671875,
	"learning_rate": 2.0883534136546184e-07,
	"loss": 0.0044,
	"reward": 2.379747152328491,
	"reward_std": 0.19298578798770905,
	"rewards/accuracy_reward": 1.3797469735145569,
	"rewards/format_reward": 1.0,
	"step": 394
	},
	{
	"completion_length": 72.2578125,
	"epoch": 4.759036144578313,
	"grad_norm": 45.47765651174386,
	"kl": 0.126708984375,
	"learning_rate": 2.0682730923694776e-07,
	"loss": 0.0051,
	"reward": 2.078563928604126,
	"reward_std": 0.253988578915596,
	"rewards/accuracy_reward": 1.0941888689994812,
	"rewards/format_reward": 0.984375,
	"step": 395
	},
	{
	"completion_length": 71.6484375,
	"epoch": 4.771084337349397,
	"grad_norm": 6.044646695827286,
	"kl": 0.13916015625,
	"learning_rate": 2.0481927710843372e-07,
	"loss": 0.0056,
	"reward": 2.485829472541809,
	"reward_std": 0.180104598402977,
	"rewards/accuracy_reward": 1.4858292937278748,
	"rewards/format_reward": 1.0,
	"step": 396
	},
	{
	"completion_length": 65.09375,
	"epoch": 4.783132530120482,
	"grad_norm": 4.360820446081869,
	"kl": 0.1416015625,
	"learning_rate": 2.0281124497991967e-07,
	"loss": 0.0057,
	"reward": 2.1638635396957397,
	"reward_std": 0.31551285088062286,
	"rewards/accuracy_reward": 1.1873010993003845,
	"rewards/format_reward": 0.9765625,
	"step": 397
	},
	{
	"completion_length": 70.6328125,
	"epoch": 4.795180722891566,
	"grad_norm": 5.234619949658262,
	"kl": 0.115966796875,
	"learning_rate": 2.0080321285140563e-07,
	"loss": 0.0046,
	"reward": 2.424190402030945,
	"reward_std": 0.23157334327697754,
	"rewards/accuracy_reward": 1.4241904616355896,
	"rewards/format_reward": 1.0,
	"step": 398
	},
	{
	"completion_length": 70.4375,
	"epoch": 4.807228915662651,
	"grad_norm": 5.2543384630783265,
	"kl": 0.12060546875,
	"learning_rate": 1.9879518072289155e-07,
	"loss": 0.0048,
	"reward": 2.3333520889282227,
	"reward_std": 0.2145429253578186,
	"rewards/accuracy_reward": 1.3411647081375122,
	"rewards/format_reward": 0.9921875,
	"step": 399
	},
	{
	"completion_length": 65.421875,
	"epoch": 4.8192771084337345,
	"grad_norm": 6.050688926597152,
	"kl": 0.125732421875,
	"learning_rate": 1.967871485943775e-07,
	"loss": 0.005,
	"reward": 2.412783145904541,
	"reward_std": 0.2059781178832054,
	"rewards/accuracy_reward": 1.420595645904541,
	"rewards/format_reward": 0.9921875,
	"step": 400
	},
	{
	"completion_length": 63.5546875,
	"epoch": 4.831325301204819,
	"grad_norm": 4.14350718873446,
	"kl": 0.143798828125,
	"learning_rate": 1.9477911646586346e-07,
	"loss": 0.0057,
	"reward": 2.3667309284210205,
	"reward_std": 0.1764308363199234,
	"rewards/accuracy_reward": 1.3745434284210205,
	"rewards/format_reward": 0.9921875,
	"step": 401
	},
	{
	"completion_length": 71.8671875,
	"epoch": 4.843373493975903,
	"grad_norm": 4.134424932683493,
	"kl": 0.126953125,
	"learning_rate": 1.9277108433734939e-07,
	"loss": 0.0051,
	"reward": 2.2129541635513306,
	"reward_std": 0.1565767452120781,
	"rewards/accuracy_reward": 1.2129541635513306,
	"rewards/format_reward": 1.0,
	"step": 402
	},
	{
	"completion_length": 64.0390625,
	"epoch": 4.855421686746988,
	"grad_norm": 4.135875391105592,
	"kl": 0.166015625,
	"learning_rate": 1.9076305220883534e-07,
	"loss": 0.0066,
	"reward": 2.3259581327438354,
	"reward_std": 0.2349315583705902,
	"rewards/accuracy_reward": 1.3259583115577698,
	"rewards/format_reward": 1.0,
	"step": 403
	},
	{
	"completion_length": 66.515625,
	"epoch": 4.867469879518072,
	"grad_norm": 4.276605246406482,
	"kl": 0.138916015625,
	"learning_rate": 1.8875502008032127e-07,
	"loss": 0.0056,
	"reward": 2.306966781616211,
	"reward_std": 0.2081274688243866,
	"rewards/accuracy_reward": 1.3069666624069214,
	"rewards/format_reward": 1.0,
	"step": 404
	},
	{
	"completion_length": 62.28125,
	"epoch": 4.879518072289157,
	"grad_norm": 4.594134632277065,
	"kl": 0.1826171875,
	"learning_rate": 1.8674698795180722e-07,
	"loss": 0.0073,
	"reward": 2.126552700996399,
	"reward_std": 0.255823478102684,
	"rewards/accuracy_reward": 1.1421778202056885,
	"rewards/format_reward": 0.984375,
	"step": 405
	},
	{
	"completion_length": 62.3671875,
	"epoch": 4.891566265060241,
	"grad_norm": 3.568434088807843,
	"kl": 0.14013671875,
	"learning_rate": 1.8473895582329315e-07,
	"loss": 0.0056,
	"reward": 2.417848587036133,
	"reward_std": 0.22225632518529892,
	"rewards/accuracy_reward": 1.4334735870361328,
	"rewards/format_reward": 0.984375,
	"step": 406
	},
	{
	"completion_length": 66.5078125,
	"epoch": 4.903614457831325,
	"grad_norm": 4.123527789276523,
	"kl": 0.10986328125,
	"learning_rate": 1.827309236947791e-07,
	"loss": 0.0044,
	"reward": 2.294624924659729,
	"reward_std": 0.19924252480268478,
	"rewards/accuracy_reward": 1.3024373650550842,
	"rewards/format_reward": 0.9921875,
	"step": 407
	},
	{
	"completion_length": 66.390625,
	"epoch": 4.9156626506024095,
	"grad_norm": 3.62978164804241,
	"kl": 0.12890625,
	"learning_rate": 1.8072289156626505e-07,
	"loss": 0.0051,
	"reward": 2.543404698371887,
	"reward_std": 0.1362360306084156,
	"rewards/accuracy_reward": 1.5434046983718872,
	"rewards/format_reward": 1.0,
	"step": 408
	},
	{
	"completion_length": 63.9765625,
	"epoch": 4.927710843373494,
	"grad_norm": 4.35384844886202,
	"kl": 0.12890625,
	"learning_rate": 1.78714859437751e-07,
	"loss": 0.0052,
	"reward": 2.418124198913574,
	"reward_std": 0.22236012667417526,
	"rewards/accuracy_reward": 1.4337490797042847,
	"rewards/format_reward": 0.984375,
	"step": 409
	},
	{
	"completion_length": 68.90625,
	"epoch": 4.9397590361445785,
	"grad_norm": 5.014972518639089,
	"kl": 0.1103515625,
	"learning_rate": 1.7670682730923694e-07,
	"loss": 0.0044,
	"reward": 2.4006751775741577,
	"reward_std": 0.16714774072170258,
	"rewards/accuracy_reward": 1.4006752967834473,
	"rewards/format_reward": 1.0,
	"step": 410
	},
	{
	"completion_length": 69.59375,
	"epoch": 4.951807228915663,
	"grad_norm": 7.696032017895469,
	"kl": 0.13916015625,
	"learning_rate": 1.746987951807229e-07,
	"loss": 0.0056,
	"reward": 2.395194172859192,
	"reward_std": 0.16039493680000305,
	"rewards/accuracy_reward": 1.3951941132545471,
	"rewards/format_reward": 1.0,
	"step": 411
	},
	{
	"completion_length": 70.125,
	"epoch": 4.9638554216867465,
	"grad_norm": 4.628350833888434,
	"kl": 0.149169921875,
	"learning_rate": 1.7269076305220884e-07,
	"loss": 0.006,
	"reward": 2.1348607540130615,
	"reward_std": 0.1709538996219635,
	"rewards/accuracy_reward": 1.1348606944084167,
	"rewards/format_reward": 1.0,
	"step": 412
	},
	{
	"completion_length": 66.2109375,
	"epoch": 4.975903614457831,
	"grad_norm": 3.188607704812383,
	"kl": 0.12646484375,
	"learning_rate": 1.706827309236948e-07,
	"loss": 0.0051,
	"reward": 2.302504062652588,
	"reward_std": 0.2623682767152786,
	"rewards/accuracy_reward": 1.3181291222572327,
	"rewards/format_reward": 0.984375,
	"step": 413
	},
	{
	"completion_length": 64.171875,
	"epoch": 4.9879518072289155,
	"grad_norm": 3.9665667179390773,
	"kl": 0.128662109375,
	"learning_rate": 1.686746987951807e-07,
	"loss": 0.0052,
	"reward": 2.4097338914871216,
	"reward_std": 0.17293449118733406,
	"rewards/accuracy_reward": 1.4097338318824768,
	"rewards/format_reward": 1.0,
	"step": 414
	},
	{
	"completion_length": 77.33333587646484,
	"epoch": 5.0,
	"grad_norm": 3.313170759959086,
	"kl": 0.1083984375,
	"learning_rate": 1.6666666666666665e-07,
	"loss": 0.004,
	"reward": 2.2759520411491394,
	"reward_std": 0.1403224766254425,
	"rewards/accuracy_reward": 1.2759520411491394,
	"rewards/format_reward": 1.0,
	"step": 415
	},
	{
	"completion_length": 66.3203125,
	"epoch": 5.0120481927710845,
	"grad_norm": 4.277881132595083,
	"kl": 0.14306640625,
	"learning_rate": 1.646586345381526e-07,
	"loss": 0.0057,
	"reward": 2.373741865158081,
	"reward_std": 0.20744601637125015,
	"rewards/accuracy_reward": 1.3815542459487915,
	"rewards/format_reward": 0.9921875,
	"step": 416
	},
	{
	"completion_length": 66.53125,
	"epoch": 5.024096385542169,
	"grad_norm": 3.9929439696450575,
	"kl": 0.12939453125,
	"learning_rate": 1.6265060240963853e-07,
	"loss": 0.0052,
	"reward": 2.35166335105896,
	"reward_std": 0.2503097951412201,
	"rewards/accuracy_reward": 1.35166335105896,
	"rewards/format_reward": 1.0,
	"step": 417
	},
	{
	"completion_length": 68.625,
	"epoch": 5.036144578313253,
	"grad_norm": 4.023924792103433,
	"kl": 0.114013671875,
	"learning_rate": 1.6064257028112448e-07,
	"loss": 0.0046,
	"reward": 2.2476612329483032,
	"reward_std": 0.185993991792202,
	"rewards/accuracy_reward": 1.2554737329483032,
	"rewards/format_reward": 0.9921875,
	"step": 418
	},
	{
	"completion_length": 65.7421875,
	"epoch": 5.048192771084337,
	"grad_norm": 3.5711137415239618,
	"kl": 0.134033203125,
	"learning_rate": 1.5863453815261044e-07,
	"loss": 0.0054,
	"reward": 2.2856324911117554,
	"reward_std": 0.14102690666913986,
	"rewards/accuracy_reward": 1.2856324911117554,
	"rewards/format_reward": 1.0,
	"step": 419
	},
	{
	"completion_length": 65.1328125,
	"epoch": 5.0602409638554215,
	"grad_norm": 5.8881280705003505,
	"kl": 0.1259765625,
	"learning_rate": 1.566265060240964e-07,
	"loss": 0.005,
	"reward": 2.474275588989258,
	"reward_std": 0.2030300498008728,
	"rewards/accuracy_reward": 1.474275529384613,
	"rewards/format_reward": 1.0,
	"step": 420
	},
	{
	"completion_length": 59.453125,
	"epoch": 5.072289156626506,
	"grad_norm": 17.487945694806488,
	"kl": 0.1279296875,
	"learning_rate": 1.5461847389558232e-07,
	"loss": 0.0051,
	"reward": 2.468233823776245,
	"reward_std": 0.17333931475877762,
	"rewards/accuracy_reward": 1.4682338237762451,
	"rewards/format_reward": 1.0,
	"step": 421
	},
	{
	"completion_length": 67.7421875,
	"epoch": 5.0843373493975905,
	"grad_norm": 4.5642738703913865,
	"kl": 0.12646484375,
	"learning_rate": 1.5261044176706827e-07,
	"loss": 0.0051,
	"reward": 2.39510977268219,
	"reward_std": 0.1837218478322029,
	"rewards/accuracy_reward": 1.3951098918914795,
	"rewards/format_reward": 1.0,
	"step": 422
	},
	{
	"completion_length": 64.515625,
	"epoch": 5.096385542168675,
	"grad_norm": 7.684070732359071,
	"kl": 0.139892578125,
	"learning_rate": 1.5060240963855423e-07,
	"loss": 0.0056,
	"reward": 2.16294264793396,
	"reward_std": 0.14895135164260864,
	"rewards/accuracy_reward": 1.1707550883293152,
	"rewards/format_reward": 0.9921875,
	"step": 423
	},
	{
	"completion_length": 64.46875,
	"epoch": 5.108433734939759,
	"grad_norm": 3.930344733874979,
	"kl": 0.11669921875,
	"learning_rate": 1.4859437751004015e-07,
	"loss": 0.0047,
	"reward": 2.3980486392974854,
	"reward_std": 0.15896277129650116,
	"rewards/accuracy_reward": 1.3980485796928406,
	"rewards/format_reward": 1.0,
	"step": 424
	},
	{
	"completion_length": 68.875,
	"epoch": 5.120481927710843,
	"grad_norm": 6.912033255857147,
	"kl": 0.118896484375,
	"learning_rate": 1.4658634538152608e-07,
	"loss": 0.0048,
	"reward": 2.4401201009750366,
	"reward_std": 0.18969366699457169,
	"rewards/accuracy_reward": 1.440119981765747,
	"rewards/format_reward": 1.0,
	"step": 425
	},
	{
	"completion_length": 65.609375,
	"epoch": 5.132530120481928,
	"grad_norm": 3.6477005267341163,
	"kl": 0.1708984375,
	"learning_rate": 1.4457831325301203e-07,
	"loss": 0.0068,
	"reward": 2.300011992454529,
	"reward_std": 0.2104162722826004,
	"rewards/accuracy_reward": 1.300011932849884,
	"rewards/format_reward": 1.0,
	"step": 426
	},
	{
	"completion_length": 65.0859375,
	"epoch": 5.144578313253012,
	"grad_norm": 5.390081007205584,
	"kl": 0.12548828125,
	"learning_rate": 1.42570281124498e-07,
	"loss": 0.005,
	"reward": 2.407547354698181,
	"reward_std": 0.19479839503765106,
	"rewards/accuracy_reward": 1.4075472354888916,
	"rewards/format_reward": 1.0,
	"step": 427
	},
	{
	"completion_length": 65.8046875,
	"epoch": 5.156626506024097,
	"grad_norm": 5.842696773596783,
	"kl": 0.12255859375,
	"learning_rate": 1.4056224899598394e-07,
	"loss": 0.0049,
	"reward": 2.2872836589813232,
	"reward_std": 0.2501709461212158,
	"rewards/accuracy_reward": 1.2950963973999023,
	"rewards/format_reward": 0.9921875,
	"step": 428
	},
	{
	"completion_length": 67.2890625,
	"epoch": 5.168674698795181,
	"grad_norm": 3.9373211288360612,
	"kl": 0.134765625,
	"learning_rate": 1.3855421686746987e-07,
	"loss": 0.0054,
	"reward": 2.4114162921905518,
	"reward_std": 0.22173649817705154,
	"rewards/accuracy_reward": 1.419228732585907,
	"rewards/format_reward": 0.9921875,
	"step": 429
	},
	{
	"completion_length": 65.7265625,
	"epoch": 5.180722891566265,
	"grad_norm": 5.989728831260378,
	"kl": 0.20263671875,
	"learning_rate": 1.3654618473895582e-07,
	"loss": 0.0081,
	"reward": 2.349661111831665,
	"reward_std": 0.24485966563224792,
	"rewards/accuracy_reward": 1.3496609926223755,
	"rewards/format_reward": 1.0,
	"step": 430
	},
	{
	"completion_length": 71.0390625,
	"epoch": 5.192771084337349,
	"grad_norm": 4.9722233041190425,
	"kl": 0.11083984375,
	"learning_rate": 1.3453815261044177e-07,
	"loss": 0.0044,
	"reward": 2.423168659210205,
	"reward_std": 0.16536322236061096,
	"rewards/accuracy_reward": 1.4231685996055603,
	"rewards/format_reward": 1.0,
	"step": 431
	},
	{
	"completion_length": 66.234375,
	"epoch": 5.204819277108434,
	"grad_norm": 3.5058259130400162,
	"kl": 0.1376953125,
	"learning_rate": 1.3253012048192773e-07,
	"loss": 0.0055,
	"reward": 2.2352651357650757,
	"reward_std": 0.18688317388296127,
	"rewards/accuracy_reward": 1.2352651357650757,
	"rewards/format_reward": 1.0,
	"step": 432
	},
	{
	"completion_length": 72.8203125,
	"epoch": 5.216867469879518,
	"grad_norm": 3.8748331360003485,
	"kl": 0.130859375,
	"learning_rate": 1.3052208835341366e-07,
	"loss": 0.0052,
	"reward": 2.3151748180389404,
	"reward_std": 0.21110112965106964,
	"rewards/accuracy_reward": 1.3229871988296509,
	"rewards/format_reward": 0.9921875,
	"step": 433
	},
	{
	"completion_length": 68.8671875,
	"epoch": 5.228915662650603,
	"grad_norm": 3.985332448415374,
	"kl": 0.1220703125,
	"learning_rate": 1.2851405622489958e-07,
	"loss": 0.0049,
	"reward": 2.26615047454834,
	"reward_std": 0.20259422063827515,
	"rewards/accuracy_reward": 1.2739630937576294,
	"rewards/format_reward": 0.9921875,
	"step": 434
	},
	{
	"completion_length": 64.0234375,
	"epoch": 5.240963855421687,
	"grad_norm": 4.209088113123041,
	"kl": 0.119873046875,
	"learning_rate": 1.2650602409638554e-07,
	"loss": 0.0048,
	"reward": 2.345677137374878,
	"reward_std": 0.16655350476503372,
	"rewards/accuracy_reward": 1.345677137374878,
	"rewards/format_reward": 1.0,
	"step": 435
	},
	{
	"completion_length": 72.2109375,
	"epoch": 5.253012048192771,
	"grad_norm": 3.7180924645581994,
	"kl": 0.13427734375,
	"learning_rate": 1.2449799196787146e-07,
	"loss": 0.0054,
	"reward": 2.163213849067688,
	"reward_std": 0.3149610310792923,
	"rewards/accuracy_reward": 1.1866515278816223,
	"rewards/format_reward": 0.9765625,
	"step": 436
	},
	{
	"completion_length": 65.328125,
	"epoch": 5.265060240963855,
	"grad_norm": 3.8280472693841556,
	"kl": 0.12744140625,
	"learning_rate": 1.2248995983935742e-07,
	"loss": 0.0051,
	"reward": 2.3446794748306274,
	"reward_std": 0.22430174052715302,
	"rewards/accuracy_reward": 1.3446794152259827,
	"rewards/format_reward": 1.0,
	"step": 437
	},
	{
	"completion_length": 64.65625,
	"epoch": 5.27710843373494,
	"grad_norm": 5.861122122648032,
	"kl": 0.12060546875,
	"learning_rate": 1.2048192771084337e-07,
	"loss": 0.0048,
	"reward": 2.379356861114502,
	"reward_std": 0.1506607085466385,
	"rewards/accuracy_reward": 1.3871691226959229,
	"rewards/format_reward": 0.9921875,
	"step": 438
	},
	{
	"completion_length": 71.1171875,
	"epoch": 5.289156626506024,
	"grad_norm": 3.8119653679452092,
	"kl": 0.12353515625,
	"learning_rate": 1.1847389558232931e-07,
	"loss": 0.0049,
	"reward": 2.388357400894165,
	"reward_std": 0.23687779903411865,
	"rewards/accuracy_reward": 1.3961697816848755,
	"rewards/format_reward": 0.9921875,
	"step": 439
	},
	{
	"completion_length": 72.3515625,
	"epoch": 5.301204819277109,
	"grad_norm": 3.9178115284886372,
	"kl": 0.095458984375,
	"learning_rate": 1.1646586345381526e-07,
	"loss": 0.0038,
	"reward": 2.6513583660125732,
	"reward_std": 0.17830242216587067,
	"rewards/accuracy_reward": 1.6513583660125732,
	"rewards/format_reward": 1.0,
	"step": 440
	},
	{
	"completion_length": 68.921875,
	"epoch": 5.313253012048193,
	"grad_norm": 4.623442869387058,
	"kl": 0.100830078125,
	"learning_rate": 1.1445783132530119e-07,
	"loss": 0.004,
	"reward": 2.549654483795166,
	"reward_std": 0.16079290956258774,
	"rewards/accuracy_reward": 1.5574671030044556,
	"rewards/format_reward": 0.9921875,
	"step": 441
	},
	{
	"completion_length": 71.3203125,
	"epoch": 5.325301204819277,
	"grad_norm": 5.278895722638805,
	"kl": 0.10986328125,
	"learning_rate": 1.1244979919678714e-07,
	"loss": 0.0044,
	"reward": 2.203883409500122,
	"reward_std": 0.258064404129982,
	"rewards/accuracy_reward": 1.2116957902908325,
	"rewards/format_reward": 0.9921875,
	"step": 442
	},
	{
	"completion_length": 69.515625,
	"epoch": 5.337349397590361,
	"grad_norm": 4.142710717599773,
	"kl": 0.113525390625,
	"learning_rate": 1.1044176706827308e-07,
	"loss": 0.0045,
	"reward": 2.1769516468048096,
	"reward_std": 0.275626465678215,
	"rewards/accuracy_reward": 1.1769516468048096,
	"rewards/format_reward": 1.0,
	"step": 443
	},
	{
	"completion_length": 68.3203125,
	"epoch": 5.349397590361446,
	"grad_norm": 4.180078412016221,
	"kl": 0.147216796875,
	"learning_rate": 1.0843373493975904e-07,
	"loss": 0.0059,
	"reward": 2.381720542907715,
	"reward_std": 0.20287376642227173,
	"rewards/accuracy_reward": 1.3817205429077148,
	"rewards/format_reward": 1.0,
	"step": 444
	},
	{
	"completion_length": 69.7421875,
	"epoch": 5.36144578313253,
	"grad_norm": 3.7523897150785603,
	"kl": 0.12939453125,
	"learning_rate": 1.0642570281124498e-07,
	"loss": 0.0052,
	"reward": 2.3669261932373047,
	"reward_std": 0.2056456208229065,
	"rewards/accuracy_reward": 1.3747385740280151,
	"rewards/format_reward": 0.9921875,
	"step": 445
	},
	{
	"completion_length": 67.7109375,
	"epoch": 5.373493975903615,
	"grad_norm": 4.924758819089559,
	"kl": 0.185546875,
	"learning_rate": 1.0441767068273092e-07,
	"loss": 0.0074,
	"reward": 2.4100332260131836,
	"reward_std": 0.22913093864917755,
	"rewards/accuracy_reward": 1.4178457260131836,
	"rewards/format_reward": 0.9921875,
	"step": 446
	},
	{
	"completion_length": 69.1875,
	"epoch": 5.385542168674699,
	"grad_norm": 3.080626056952063,
	"kl": 0.122314453125,
	"learning_rate": 1.0240963855421686e-07,
	"loss": 0.0049,
	"reward": 2.3073067665100098,
	"reward_std": 0.23586007952690125,
	"rewards/accuracy_reward": 1.315119206905365,
	"rewards/format_reward": 0.9921875,
	"step": 447
	},
	{
	"completion_length": 67.59375,
	"epoch": 5.397590361445783,
	"grad_norm": 3.8573400804993314,
	"kl": 0.128662109375,
	"learning_rate": 1.0040160642570281e-07,
	"loss": 0.0051,
	"reward": 2.2195699214935303,
	"reward_std": 0.18059836328029633,
	"rewards/accuracy_reward": 1.2195698618888855,
	"rewards/format_reward": 1.0,
	"step": 448
	},
	{
	"completion_length": 65.0078125,
	"epoch": 5.409638554216867,
	"grad_norm": 9.729377045307634,
	"kl": 0.110107421875,
	"learning_rate": 9.839357429718875e-08,
	"loss": 0.0044,
	"reward": 2.335146427154541,
	"reward_std": 0.20962534099817276,
	"rewards/accuracy_reward": 1.3429590463638306,
	"rewards/format_reward": 0.9921875,
	"step": 449
	},
	{
	"completion_length": 76.171875,
	"epoch": 5.421686746987952,
	"grad_norm": 5.139417091846479,
	"kl": 0.17626953125,
	"learning_rate": 9.638554216867469e-08,
	"loss": 0.0071,
	"reward": 2.2514326572418213,
	"reward_std": 0.18450473248958588,
	"rewards/accuracy_reward": 1.2592450976371765,
	"rewards/format_reward": 0.9921875,
	"step": 450
	},
	{
	"completion_length": 68.046875,
	"epoch": 5.433734939759036,
	"grad_norm": 3.961385062957452,
	"kl": 0.10693359375,
	"learning_rate": 9.437751004016063e-08,
	"loss": 0.0043,
	"reward": 2.328533172607422,
	"reward_std": 0.18290965259075165,
	"rewards/accuracy_reward": 1.3285331726074219,
	"rewards/format_reward": 1.0,
	"step": 451
	},
	{
	"completion_length": 68.6953125,
	"epoch": 5.445783132530121,
	"grad_norm": 4.887519681333338,
	"kl": 0.103759765625,
	"learning_rate": 9.236947791164657e-08,
	"loss": 0.0042,
	"reward": 2.3144426345825195,
	"reward_std": 0.21034369617700577,
	"rewards/accuracy_reward": 1.3144426941871643,
	"rewards/format_reward": 1.0,
	"step": 452
	},
	{
	"completion_length": 68.0,
	"epoch": 5.457831325301205,
	"grad_norm": 3.80893967356862,
	"kl": 0.127685546875,
	"learning_rate": 9.036144578313253e-08,
	"loss": 0.0051,
	"reward": 2.4345412254333496,
	"reward_std": 0.2006332352757454,
	"rewards/accuracy_reward": 1.4345412254333496,
	"rewards/format_reward": 1.0,
	"step": 453
	},
	{
	"completion_length": 67.046875,
	"epoch": 5.469879518072289,
	"grad_norm": 4.2954066473287815,
	"kl": 0.12841796875,
	"learning_rate": 8.835341365461847e-08,
	"loss": 0.0052,
	"reward": 2.353352427482605,
	"reward_std": 0.22566306591033936,
	"rewards/accuracy_reward": 1.353352427482605,
	"rewards/format_reward": 1.0,
	"step": 454
	},
	{
	"completion_length": 64.8984375,
	"epoch": 5.481927710843373,
	"grad_norm": 4.546803918905019,
	"kl": 0.1337890625,
	"learning_rate": 8.634538152610442e-08,
	"loss": 0.0054,
	"reward": 2.3113902807235718,
	"reward_std": 0.20004340261220932,
	"rewards/accuracy_reward": 1.3192027807235718,
	"rewards/format_reward": 0.9921875,
	"step": 455
	},
	{
	"completion_length": 66.1640625,
	"epoch": 5.493975903614458,
	"grad_norm": 3.5466190382737883,
	"kl": 0.123046875,
	"learning_rate": 8.433734939759035e-08,
	"loss": 0.0049,
	"reward": 2.3270002603530884,
	"reward_std": 0.21506989747285843,
	"rewards/accuracy_reward": 1.3270001411437988,
	"rewards/format_reward": 1.0,
	"step": 456
	},
	{
	"completion_length": 72.3984375,
	"epoch": 5.506024096385542,
	"grad_norm": 5.213818604387868,
	"kl": 0.1328125,
	"learning_rate": 8.23293172690763e-08,
	"loss": 0.0053,
	"reward": 2.4117329120635986,
	"reward_std": 0.21075783669948578,
	"rewards/accuracy_reward": 1.411732792854309,
	"rewards/format_reward": 1.0,
	"step": 457
	},
	{
	"completion_length": 63.4140625,
	"epoch": 5.518072289156627,
	"grad_norm": 4.087135154378612,
	"kl": 0.1142578125,
	"learning_rate": 8.032128514056224e-08,
	"loss": 0.0046,
	"reward": 2.2361518144607544,
	"reward_std": 0.15534771978855133,
	"rewards/accuracy_reward": 1.2361518740653992,
	"rewards/format_reward": 1.0,
	"step": 458
	},
	{
	"completion_length": 66.6796875,
	"epoch": 5.530120481927711,
	"grad_norm": 3.8509871084036083,
	"kl": 0.12255859375,
	"learning_rate": 7.83132530120482e-08,
	"loss": 0.0049,
	"reward": 2.402904510498047,
	"reward_std": 0.18761365860700607,
	"rewards/accuracy_reward": 1.4029043912887573,
	"rewards/format_reward": 1.0,
	"step": 459
	},
	{
	"completion_length": 67.921875,
	"epoch": 5.542168674698795,
	"grad_norm": 3.8868143152174714,
	"kl": 0.1201171875,
	"learning_rate": 7.630522088353414e-08,
	"loss": 0.0048,
	"reward": 2.202209234237671,
	"reward_std": 0.20886321365833282,
	"rewards/accuracy_reward": 1.2022093534469604,
	"rewards/format_reward": 1.0,
	"step": 460
	},
	{
	"completion_length": 69.84375,
	"epoch": 5.554216867469879,
	"grad_norm": 9.828452094441177,
	"kl": 0.138427734375,
	"learning_rate": 7.429718875502008e-08,
	"loss": 0.0055,
	"reward": 2.255289673805237,
	"reward_std": 0.3091956526041031,
	"rewards/accuracy_reward": 1.2787271738052368,
	"rewards/format_reward": 0.9765625,
	"step": 461
	},
	{
	"completion_length": 67.7265625,
	"epoch": 5.566265060240964,
	"grad_norm": 3.5884325923981777,
	"kl": 0.14501953125,
	"learning_rate": 7.228915662650602e-08,
	"loss": 0.0058,
	"reward": 2.389763116836548,
	"reward_std": 0.1989041194319725,
	"rewards/accuracy_reward": 1.3897631168365479,
	"rewards/format_reward": 1.0,
	"step": 462
	},
	{
	"completion_length": 63.4765625,
	"epoch": 5.578313253012048,
	"grad_norm": 3.943165256338966,
	"kl": 0.15185546875,
	"learning_rate": 7.028112449799197e-08,
	"loss": 0.0061,
	"reward": 2.2263519763946533,
	"reward_std": 0.22419632971286774,
	"rewards/accuracy_reward": 1.2341644763946533,
	"rewards/format_reward": 0.9921875,
	"step": 463
	},
	{
	"completion_length": 67.734375,
	"epoch": 5.590361445783133,
	"grad_norm": 8.892123036444877,
	"kl": 0.126953125,
	"learning_rate": 6.827309236947791e-08,
	"loss": 0.0051,
	"reward": 2.3126423358917236,
	"reward_std": 0.17722339183092117,
	"rewards/accuracy_reward": 1.3126422762870789,
	"rewards/format_reward": 1.0,
	"step": 464
	},
	{
	"completion_length": 75.5546875,
	"epoch": 5.602409638554217,
	"grad_norm": 4.229071556328315,
	"kl": 0.1240234375,
	"learning_rate": 6.626506024096386e-08,
	"loss": 0.005,
	"reward": 2.2280049324035645,
	"reward_std": 0.22474994510412216,
	"rewards/accuracy_reward": 1.235817551612854,
	"rewards/format_reward": 0.9921875,
	"step": 465
	},
	{
	"completion_length": 66.9609375,
	"epoch": 5.614457831325301,
	"grad_norm": 4.577684554062664,
	"kl": 0.12451171875,
	"learning_rate": 6.425702811244979e-08,
	"loss": 0.005,
	"reward": 2.2235909700393677,
	"reward_std": 0.22441789507865906,
	"rewards/accuracy_reward": 1.2392158508300781,
	"rewards/format_reward": 0.984375,
	"step": 466
	},
	{
	"completion_length": 70.4375,
	"epoch": 5.626506024096385,
	"grad_norm": 4.349159327486559,
	"kl": 0.112548828125,
	"learning_rate": 6.224899598393573e-08,
	"loss": 0.0045,
	"reward": 2.3591808080673218,
	"reward_std": 0.1966349333524704,
	"rewards/accuracy_reward": 1.3669933080673218,
	"rewards/format_reward": 0.9921875,
	"step": 467
	},
	{
	"completion_length": 69.4453125,
	"epoch": 5.63855421686747,
	"grad_norm": 3.0423100870405437,
	"kl": 0.138671875,
	"learning_rate": 6.024096385542168e-08,
	"loss": 0.0055,
	"reward": 2.4168301820755005,
	"reward_std": 0.23313428461551666,
	"rewards/accuracy_reward": 1.4246427416801453,
	"rewards/format_reward": 0.9921875,
	"step": 468
	},
	{
	"completion_length": 67.9453125,
	"epoch": 5.650602409638554,
	"grad_norm": 4.8492295392656075,
	"kl": 0.124755859375,
	"learning_rate": 5.823293172690763e-08,
	"loss": 0.005,
	"reward": 2.3264076709747314,
	"reward_std": 0.18676774948835373,
	"rewards/accuracy_reward": 1.3264076709747314,
	"rewards/format_reward": 1.0,
	"step": 469
	},
	{
	"completion_length": 68.3984375,
	"epoch": 5.662650602409639,
	"grad_norm": 3.7143887896006706,
	"kl": 0.118896484375,
	"learning_rate": 5.622489959839357e-08,
	"loss": 0.0048,
	"reward": 2.275146722793579,
	"reward_std": 0.23441863059997559,
	"rewards/accuracy_reward": 1.2907716631889343,
	"rewards/format_reward": 0.984375,
	"step": 470
	},
	{
	"completion_length": 69.703125,
	"epoch": 5.674698795180722,
	"grad_norm": 6.421818895030251,
	"kl": 0.105712890625,
	"learning_rate": 5.421686746987952e-08,
	"loss": 0.0042,
	"reward": 2.3713172674179077,
	"reward_std": 0.17046835273504257,
	"rewards/accuracy_reward": 1.3713172674179077,
	"rewards/format_reward": 1.0,
	"step": 471
	},
	{
	"completion_length": 71.7578125,
	"epoch": 5.686746987951807,
	"grad_norm": 3.7429303333646846,
	"kl": 0.17333984375,
	"learning_rate": 5.220883534136546e-08,
	"loss": 0.0069,
	"reward": 2.21248197555542,
	"reward_std": 0.1897253841161728,
	"rewards/accuracy_reward": 1.2202943563461304,
	"rewards/format_reward": 0.9921875,
	"step": 472
	},
	{
	"completion_length": 66.0625,
	"epoch": 5.698795180722891,
	"grad_norm": 4.6125292648898375,
	"kl": 0.1171875,
	"learning_rate": 5.0200803212851406e-08,
	"loss": 0.0047,
	"reward": 2.3862085342407227,
	"reward_std": 0.14106625318527222,
	"rewards/accuracy_reward": 1.3940210938453674,
	"rewards/format_reward": 0.9921875,
	"step": 473
	},
	{
	"completion_length": 71.4296875,
	"epoch": 5.710843373493976,
	"grad_norm": 4.192704287374918,
	"kl": 0.108642578125,
	"learning_rate": 4.8192771084337347e-08,
	"loss": 0.0043,
	"reward": 2.3476767539978027,
	"reward_std": 0.20362288504838943,
	"rewards/accuracy_reward": 1.3476767539978027,
	"rewards/format_reward": 1.0,
	"step": 474
	},
	{
	"completion_length": 67.2109375,
	"epoch": 5.72289156626506,
	"grad_norm": 4.1447657242460645,
	"kl": 0.1298828125,
	"learning_rate": 4.618473895582329e-08,
	"loss": 0.0052,
	"reward": 2.266420602798462,
	"reward_std": 0.2129717692732811,
	"rewards/accuracy_reward": 1.2664207220077515,
	"rewards/format_reward": 1.0,
	"step": 475
	},
	{
	"completion_length": 66.546875,
	"epoch": 5.734939759036145,
	"grad_norm": 3.4345215566799574,
	"kl": 0.106201171875,
	"learning_rate": 4.4176706827309234e-08,
	"loss": 0.0042,
	"reward": 2.352730870246887,
	"reward_std": 0.1454787813127041,
	"rewards/accuracy_reward": 1.3605434894561768,
	"rewards/format_reward": 0.9921875,
	"step": 476
	},
	{
	"completion_length": 71.828125,
	"epoch": 5.746987951807229,
	"grad_norm": 4.187659893839478,
	"kl": 0.111328125,
	"learning_rate": 4.2168674698795174e-08,
	"loss": 0.0045,
	"reward": 2.2670211791992188,
	"reward_std": 0.22116923332214355,
	"rewards/accuracy_reward": 1.267021119594574,
	"rewards/format_reward": 1.0,
	"step": 477
	},
	{
	"completion_length": 69.1875,
	"epoch": 5.759036144578313,
	"grad_norm": 3.8623536023281617,
	"kl": 0.114013671875,
	"learning_rate": 4.016064257028112e-08,
	"loss": 0.0046,
	"reward": 2.222132921218872,
	"reward_std": 0.23479964584112167,
	"rewards/accuracy_reward": 1.2221328020095825,
	"rewards/format_reward": 1.0,
	"step": 478
	},
	{
	"completion_length": 70.9296875,
	"epoch": 5.771084337349397,
	"grad_norm": 4.262446208684037,
	"kl": 0.09375,
	"learning_rate": 3.815261044176707e-08,
	"loss": 0.0037,
	"reward": 2.2334243059158325,
	"reward_std": 0.21778832376003265,
	"rewards/accuracy_reward": 1.2334243059158325,
	"rewards/format_reward": 1.0,
	"step": 479
	},
	{
	"completion_length": 68.2421875,
	"epoch": 5.783132530120482,
	"grad_norm": 3.475197673617196,
	"kl": 0.10595703125,
	"learning_rate": 3.614457831325301e-08,
	"loss": 0.0042,
	"reward": 2.4461944103240967,
	"reward_std": 0.21106188744306564,
	"rewards/accuracy_reward": 1.4540069103240967,
	"rewards/format_reward": 0.9921875,
	"step": 480
	},
	{
	"completion_length": 70.3671875,
	"epoch": 5.795180722891566,
	"grad_norm": 4.56883704942929,
	"kl": 0.11865234375,
	"learning_rate": 3.4136546184738955e-08,
	"loss": 0.0047,
	"reward": 2.441108226776123,
	"reward_std": 0.2091435343027115,
	"rewards/accuracy_reward": 1.441108226776123,
	"rewards/format_reward": 1.0,
	"step": 481
	},
	{
	"completion_length": 69.171875,
	"epoch": 5.807228915662651,
	"grad_norm": 3.959761896565078,
	"kl": 0.12451171875,
	"learning_rate": 3.2128514056224896e-08,
	"loss": 0.005,
	"reward": 2.3847368955612183,
	"reward_std": 0.14646587148308754,
	"rewards/accuracy_reward": 1.3847368359565735,
	"rewards/format_reward": 1.0,
	"step": 482
	},
	{
	"completion_length": 75.3125,
	"epoch": 5.8192771084337345,
	"grad_norm": 4.6238410926161855,
	"kl": 0.108642578125,
	"learning_rate": 3.012048192771084e-08,
	"loss": 0.0043,
	"reward": 2.2356351613998413,
	"reward_std": 0.3032216280698776,
	"rewards/accuracy_reward": 1.2434476613998413,
	"rewards/format_reward": 0.9921875,
	"step": 483
	},
	{
	"completion_length": 70.921875,
	"epoch": 5.831325301204819,
	"grad_norm": 4.963499305554948,
	"kl": 0.082275390625,
	"learning_rate": 2.8112449799196786e-08,
	"loss": 0.0033,
	"reward": 2.3230150938034058,
	"reward_std": 0.16892920434474945,
	"rewards/accuracy_reward": 1.3230149745941162,
	"rewards/format_reward": 1.0,
	"step": 484
	},
	{
	"completion_length": 69.3359375,
	"epoch": 5.843373493975903,
	"grad_norm": 4.069771837808966,
	"kl": 0.1396484375,
	"learning_rate": 2.610441767068273e-08,
	"loss": 0.0056,
	"reward": 2.327863335609436,
	"reward_std": 0.23238816112279892,
	"rewards/accuracy_reward": 1.3434883952140808,
	"rewards/format_reward": 0.984375,
	"step": 485
	},
	{
	"completion_length": 68.875,
	"epoch": 5.855421686746988,
	"grad_norm": 4.471391988945464,
	"kl": 0.13330078125,
	"learning_rate": 2.4096385542168673e-08,
	"loss": 0.0053,
	"reward": 2.331111192703247,
	"reward_std": 0.1987084299325943,
	"rewards/accuracy_reward": 1.3389237523078918,
	"rewards/format_reward": 0.9921875,
	"step": 486
	},
	{
	"completion_length": 72.2734375,
	"epoch": 5.867469879518072,
	"grad_norm": 4.3661266337784514,
	"kl": 0.128173828125,
	"learning_rate": 2.2088353413654617e-08,
	"loss": 0.0051,
	"reward": 2.2740135192871094,
	"reward_std": 0.17679665982723236,
	"rewards/accuracy_reward": 1.2740132808685303,
	"rewards/format_reward": 1.0,
	"step": 487
	},
	{
	"completion_length": 69.328125,
	"epoch": 5.879518072289157,
	"grad_norm": 4.78815312664634,
	"kl": 0.150634765625,
	"learning_rate": 2.008032128514056e-08,
	"loss": 0.006,
	"reward": 2.2422866821289062,
	"reward_std": 0.23693696409463882,
	"rewards/accuracy_reward": 1.2422866821289062,
	"rewards/format_reward": 1.0,
	"step": 488
	},
	{
	"completion_length": 71.4140625,
	"epoch": 5.891566265060241,
	"grad_norm": 6.245102077972556,
	"kl": 0.121826171875,
	"learning_rate": 1.8072289156626504e-08,
	"loss": 0.0049,
	"reward": 2.315194010734558,
	"reward_std": 0.1885218769311905,
	"rewards/accuracy_reward": 1.3230066299438477,
	"rewards/format_reward": 0.9921875,
	"step": 489
	},
	{
	"completion_length": 63.8984375,
	"epoch": 5.903614457831325,
	"grad_norm": 4.510763484461414,
	"kl": 0.122314453125,
	"learning_rate": 1.6064257028112448e-08,
	"loss": 0.0049,
	"reward": 2.3149102926254272,
	"reward_std": 0.1639706939458847,
	"rewards/accuracy_reward": 1.3149102926254272,
	"rewards/format_reward": 1.0,
	"step": 490
	},
	{
	"completion_length": 66.0,
	"epoch": 5.9156626506024095,
	"grad_norm": 4.091329557372317,
	"kl": 0.1435546875,
	"learning_rate": 1.4056224899598393e-08,
	"loss": 0.0058,
	"reward": 2.4370064735412598,
	"reward_std": 0.15971215814352036,
	"rewards/accuracy_reward": 1.4370064735412598,
	"rewards/format_reward": 1.0,
	"step": 491
	},
	{
	"completion_length": 70.484375,
	"epoch": 5.927710843373494,
	"grad_norm": 4.3856574896033305,
	"kl": 0.155029296875,
	"learning_rate": 1.2048192771084337e-08,
	"loss": 0.0062,
	"reward": 2.351839542388916,
	"reward_std": 0.2616487815976143,
	"rewards/accuracy_reward": 1.359652042388916,
	"rewards/format_reward": 0.9921875,
	"step": 492
	},
	{
	"completion_length": 74.171875,
	"epoch": 5.9397590361445785,
	"grad_norm": 3.3373281083458974,
	"kl": 0.107177734375,
	"learning_rate": 1.004016064257028e-08,
	"loss": 0.0043,
	"reward": 2.3034894466400146,
	"reward_std": 0.12144535779953003,
	"rewards/accuracy_reward": 1.3113019466400146,
	"rewards/format_reward": 0.9921875,
	"step": 493
	},
	{
	"completion_length": 72.8515625,
	"epoch": 5.951807228915663,
	"grad_norm": 3.3157754210190773,
	"kl": 0.097412109375,
	"learning_rate": 8.032128514056224e-09,
	"loss": 0.0039,
	"reward": 2.421133041381836,
	"reward_std": 0.16620434820652008,
	"rewards/accuracy_reward": 1.421133041381836,
	"rewards/format_reward": 1.0,
	"step": 494
	},
	{
	"completion_length": 76.1328125,
	"epoch": 5.9638554216867465,
	"grad_norm": 3.788575194538334,
	"kl": 0.12158203125,
	"learning_rate": 6.024096385542168e-09,
	"loss": 0.0049,
	"reward": 2.3588104248046875,
	"reward_std": 0.1766229048371315,
	"rewards/accuracy_reward": 1.358810544013977,
	"rewards/format_reward": 1.0,
	"step": 495
	},
	{
	"completion_length": 71.515625,
	"epoch": 5.975903614457831,
	"grad_norm": 4.2730966058785835,
	"kl": 0.11962890625,
	"learning_rate": 4.016064257028112e-09,
	"loss": 0.0048,
	"reward": 2.3155951499938965,
	"reward_std": 0.25304850190877914,
	"rewards/accuracy_reward": 1.3234076499938965,
	"rewards/format_reward": 0.9921875,
	"step": 496
	},
	{
	"completion_length": 68.859375,
	"epoch": 5.9879518072289155,
	"grad_norm": 4.371956801820215,
	"kl": 0.119140625,
	"learning_rate": 2.008032128514056e-09,
	"loss": 0.0048,
	"reward": 2.3737374544143677,
	"reward_std": 0.20605729520320892,
	"rewards/accuracy_reward": 1.373737394809723,
	"rewards/format_reward": 1.0,
	"step": 497
	},
	{
	"completion_length": 60.75000190734863,
	"epoch": 6.0,
	"grad_norm": 3.9720317304626964,
	"kl": 0.1171875,
	"learning_rate": 0.0,
	"loss": 0.0046,
	"reward": 2.4247955083847046,
	"reward_std": 0.17968511581420898,
	"rewards/accuracy_reward": 1.4247953295707703,
	"rewards/format_reward": 1.0,
	"step": 498
	}
	],
	"logging_steps": 1.0,
	"max_steps": 498,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}