{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 451.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.1632993161855452, "step": 0, "recorded_at": "2025-09-20T12:44:02.375608"}
{"train/loss": 0.37829999999999997, "train/policy_loss": 0.37832796573638916, "train/entropy": 0.19851209223270416, "train/grad_norm": 0.3560069501399994, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 1, "recorded_at": "2025-09-20T12:44:49.133594"}
{"train/reward": 0.8166666666666668, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 575.0, "train/independent_reward": 0.0, "train/ruler_score": 0.8166666666666668, "train/reward_std_dev": 0.16499158227686112, "step": 1, "recorded_at": "2025-09-20T12:46:22.428423"}
{"train/loss": -0.30635000000000007, "train/policy_loss": -0.30637437105178833, "train/entropy": 0.290257029235363, "train/grad_norm": 0.2248344048857689, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 2, "recorded_at": "2025-09-20T12:46:27.470311"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 514.75, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.2943920288775949, "step": 2, "recorded_at": "2025-09-20T12:49:04.649301"}
{"train/loss": -0.12735000000000002, "train/policy_loss": -0.12730956077575684, "train/entropy": 0.24803316593170166, "train/grad_norm": 0.20772792398929596, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 3, "recorded_at": "2025-09-20T12:49:12.806588"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 628.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 3, "recorded_at": "2025-09-20T12:50:28.135162"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 4, "recorded_at": "2025-09-20T12:50:28.135327"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 405.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 4, "recorded_at": "2025-09-20T12:52:36.106410"}
{"train/loss": -0.25654999999999994, "train/policy_loss": -0.25656546652317047, "train/entropy": 0.202603317797184, "train/grad_norm": 0.16550447046756744, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 5, "recorded_at": "2025-09-20T12:52:43.604080"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 527.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.37712361663282534, "step": 5, "recorded_at": "2025-09-20T12:53:59.048386"}
{"train/loss": 0.23209999999999997, "train/policy_loss": 0.23209723830223083, "train/entropy": 0.24579103291034698, "train/grad_norm": 0.200951237231493, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 6, "recorded_at": "2025-09-20T12:54:04.140846"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 577.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.2592724864350674, "step": 6, "recorded_at": "2025-09-20T12:55:06.556535"}
{"train/loss": 0.1145, "train/policy_loss": 0.11450910568237305, "train/entropy": 0.259403795003891, "train/grad_norm": 0.24671269953250885, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 7, "recorded_at": "2025-09-20T12:55:09.279536"}
{"train/reward": 0.65, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 445.4444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.65, "train/reward_std_dev": 0.39370039370059057, "step": 7, "recorded_at": "2025-09-20T12:56:59.957994"}
{"train/loss": -0.06356666666666662, "train/policy_loss": -0.06356396277745564, "train/entropy": 0.24055740237236023, "train/grad_norm": 0.2125937044620514, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 8, "recorded_at": "2025-09-20T12:57:07.441083"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 442.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.3559026084010437, "step": 8, "recorded_at": "2025-09-20T12:59:27.743564"}
{"train/loss": 0.23785, "train/policy_loss": 0.23782263696193695, "train/entropy": 0.17746861279010773, "train/grad_norm": 0.20377448201179504, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 9, "recorded_at": "2025-09-20T12:59:35.295271"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 476.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.22484562605386732, "step": 9, "recorded_at": "2025-09-20T13:01:29.758213"}
{"train/loss": 0.19670000000000004, "train/policy_loss": 0.1967134177684784, "train/entropy": 0.24905674904584885, "train/grad_norm": 1.709637075662613, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 10, "recorded_at": "2025-09-20T13:01:37.269427"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 416.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 10, "recorded_at": "2025-09-20T13:02:51.003113"}
{"train/loss": -0.16709999999999997, "train/policy_loss": -0.16705632209777832, "train/entropy": 0.19539598375558853, "train/grad_norm": 0.2313898429274559, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 11, "recorded_at": "2025-09-20T13:02:56.106606"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 786.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.37416573867739417, "step": 11, "recorded_at": "2025-09-20T13:04:12.051480"}
{"train/loss": 0.10605, "train/policy_loss": 0.10603375360369682, "train/entropy": 0.22521156072616577, "train/grad_norm": 0.13186072558164597, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 12, "recorded_at": "2025-09-20T13:04:17.188205"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 706.0555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.4129837231121289, "step": 12, "recorded_at": "2025-09-20T13:06:14.762384"}
{"train/loss": 0.06616666666666667, "train/policy_loss": 0.0661622683207194, "train/entropy": 0.2368950148423513, "train/grad_norm": 0.3009096582730611, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 13, "recorded_at": "2025-09-20T13:06:22.247579"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 511.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.362859017617954, "step": 13, "recorded_at": "2025-09-20T13:07:52.293963"}
{"train/loss": 0.2238, "train/policy_loss": 0.22379374504089355, "train/entropy": 0.354908250272274, "train/grad_norm": 0.2991742044687271, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 14, "recorded_at": "2025-09-20T13:07:57.407003"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 425.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.3858612300930075, "step": 14, "recorded_at": "2025-09-20T13:10:28.814327"}
{"train/loss": -1.0852666666666666, "train/policy_loss": -1.0852718949317932, "train/entropy": 0.3308270474274953, "train/grad_norm": 0.7132592697938284, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 15, "recorded_at": "2025-09-20T13:10:39.906590"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 435.9444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 15, "recorded_at": "2025-09-20T13:12:33.853846"}
{"train/loss": 0.0656, "train/policy_loss": 0.06556231528520584, "train/entropy": 0.183161661028862, "train/grad_norm": 0.11927446722984314, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 16, "recorded_at": "2025-09-20T13:12:37.947689"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 724.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 16, "recorded_at": "2025-09-20T13:13:54.142168"}
{"train/loss": 0.00855, "train/policy_loss": 0.008554419502615478, "train/entropy": 0.30677443742752075, "train/grad_norm": 0.15770560503005981, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 17, "recorded_at": "2025-09-20T13:13:59.253559"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 744.6111111111112, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.4109609335312651, "step": 17, "recorded_at": "2025-09-20T13:16:49.837360"}
{"train/loss": -0.04749999999999999, "train/policy_loss": -0.047478288412094116, "train/entropy": 0.3366255760192871, "train/grad_norm": 0.1740453541278839, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 18, "recorded_at": "2025-09-20T13:16:57.365649"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 497.0, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 18, "recorded_at": "2025-09-20T13:18:06.628245"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 19, "recorded_at": "2025-09-20T13:18:06.628397"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 899.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 19, "recorded_at": "2025-09-20T13:19:49.856824"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 20, "recorded_at": "2025-09-20T13:19:49.856978"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 519.2777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.3858612300930075, "step": 20, "recorded_at": "2025-09-20T13:22:00.066917"}
{"train/loss": 0.58295, "train/policy_loss": 0.582974836230278, "train/entropy": 0.21839861571788788, "train/grad_norm": 0.4828749969601631, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 21, "recorded_at": "2025-09-20T13:22:07.589523"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 706.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 21, "recorded_at": "2025-09-20T13:23:03.159853"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 22, "recorded_at": "2025-09-20T13:23:03.160012"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 760.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.1649915822768611, "step": 22, "recorded_at": "2025-09-20T13:24:46.501429"}
{"train/loss": -0.21566666666666667, "train/policy_loss": -0.21565967798233032, "train/entropy": 0.31411763032277423, "train/grad_norm": 0.3760836770137151, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 23, "recorded_at": "2025-09-20T13:24:53.945903"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 544.0222222222222, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.40276819911981904, "step": 23, "recorded_at": "2025-09-20T13:27:13.197568"}
{"train/loss": 0.2063, "train/policy_loss": 0.20630641281604767, "train/entropy": 0.2948160022497177, "train/grad_norm": 0.36336591839790344, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 24, "recorded_at": "2025-09-20T13:27:20.813237"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 613.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 24, "recorded_at": "2025-09-20T13:28:09.014356"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 25, "recorded_at": "2025-09-20T13:28:09.014510"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 434.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 25, "recorded_at": "2025-09-20T13:29:17.883709"}
{"train/loss": 0.0908, "train/policy_loss": 0.09080009162425995, "train/entropy": 0.2604644298553467, "train/grad_norm": 0.6133973598480225, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 26, "recorded_at": "2025-09-20T13:29:20.572369"}
{"train/reward": 0.9766666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 562.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9766666666666666, "train/reward_std_dev": 0.020548046676563275, "step": 26, "recorded_at": "2025-09-20T13:30:47.174033"}
{"train/loss": 0.017200000000000007, "train/policy_loss": 0.017197243869304657, "train/entropy": 0.20930500328540802, "train/grad_norm": 0.16526678577065468, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 27, "recorded_at": "2025-09-20T13:30:52.280931"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 486.1111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.1632993161855452, "step": 27, "recorded_at": "2025-09-20T13:33:11.870800"}
{"train/loss": 0.0186, "train/policy_loss": 0.018575685098766916, "train/entropy": 0.22673384845256805, "train/grad_norm": 0.07962256669998169, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 28, "recorded_at": "2025-09-20T13:33:19.370060"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 642.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.37416573867739417, "step": 28, "recorded_at": "2025-09-20T13:35:01.891914"}
{"train/loss": 0.026566666666666645, "train/policy_loss": 0.02656860152880351, "train/entropy": 0.25565465291341144, "train/grad_norm": 0.32756271213293076, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 29, "recorded_at": "2025-09-20T13:35:09.315888"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 547.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 29, "recorded_at": "2025-09-20T13:36:26.179090"}
{"train/loss": 0.27055, "train/policy_loss": 0.2705366760492325, "train/entropy": 0.179098479449749, "train/grad_norm": 0.19789166748523712, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 30, "recorded_at": "2025-09-20T13:36:31.336989"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 441.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 30, "recorded_at": "2025-09-20T13:37:36.134356"}
{"train/loss": -0.31705000000000005, "train/policy_loss": -0.3170533776283264, "train/entropy": 0.17299854010343552, "train/grad_norm": 0.31727974861860275, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 31, "recorded_at": "2025-09-20T13:37:41.190845"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 742.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 31, "recorded_at": "2025-09-20T13:39:10.617317"}
{"train/loss": -0.18449999999999997, "train/policy_loss": -0.18450582027435325, "train/entropy": 0.30995868643124896, "train/grad_norm": 0.28136323889096576, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 32, "recorded_at": "2025-09-20T13:39:18.032224"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 559.5, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.4109609335312651, "step": 32, "recorded_at": "2025-09-20T13:40:32.461310"}
{"train/loss": 0.05604999999999999, "train/policy_loss": 0.05606988072395325, "train/entropy": 0.26953476667404175, "train/grad_norm": 0.20488395169377327, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 33, "recorded_at": "2025-09-20T13:40:37.637562"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 427.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.37712361663282534, "step": 33, "recorded_at": "2025-09-20T13:41:37.716939"}
{"train/loss": 0.25315, "train/policy_loss": 0.2531515806913376, "train/entropy": 0.18090269714593887, "train/grad_norm": 0.2649410292506218, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 34, "recorded_at": "2025-09-20T13:41:42.772346"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 463.0, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 34, "recorded_at": "2025-09-20T13:42:48.239564"}
{"train/loss": 0.017100000000000004, "train/policy_loss": 0.017114467918872833, "train/entropy": 0.19067689031362534, "train/grad_norm": 0.18670892715454102, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 35, "recorded_at": "2025-09-20T13:42:53.292338"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 602.5555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 35, "recorded_at": "2025-09-20T13:44:48.603335"}
{"train/loss": -0.10073333333333334, "train/policy_loss": -0.10073238611221313, "train/entropy": 0.2944316565990448, "train/grad_norm": 0.2312127078572909, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 36, "recorded_at": "2025-09-20T13:44:56.082747"}
{"train/reward": 0.45, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 472.6111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.45, "train/reward_std_dev": 0.3894440481849307, "step": 36, "recorded_at": "2025-09-20T13:46:45.940048"}
{"train/loss": -0.8009, "train/policy_loss": -0.8009165525436401, "train/entropy": 0.30839303135871887, "train/grad_norm": 0.38312850147485733, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 37, "recorded_at": "2025-09-20T13:46:53.433389"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 473.5555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 37, "recorded_at": "2025-09-20T13:49:19.248921"}
{"train/loss": -0.005099999999999993, "train/policy_loss": -0.0050935447216033936, "train/entropy": 0.12497549504041672, "train/grad_norm": 0.13768674433231354, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 38, "recorded_at": "2025-09-20T13:49:26.796845"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 588.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 38, "recorded_at": "2025-09-20T13:50:45.869176"}
{"train/loss": -0.2002, "train/policy_loss": -0.20019535720348358, "train/entropy": 0.2011004164814949, "train/grad_norm": 0.2317158654332161, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 39, "recorded_at": "2025-09-20T13:50:50.967569"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 476.27777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.062360956446232366, "step": 39, "recorded_at": "2025-09-20T13:52:11.234736"}
{"train/loss": 0.33440000000000003, "train/policy_loss": 0.33438897132873535, "train/entropy": 0.2142264023423195, "train/grad_norm": 2.2639918625354767, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 40, "recorded_at": "2025-09-20T13:52:16.296087"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 446.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.062360956446232366, "step": 40, "recorded_at": "2025-09-20T13:53:21.823253"}
{"train/loss": -0.16135, "train/policy_loss": -0.16133549809455872, "train/entropy": 0.19240568578243256, "train/grad_norm": 0.27302512526512146, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 41, "recorded_at": "2025-09-20T13:53:26.871308"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 498.7777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 41, "recorded_at": "2025-09-20T13:56:09.899850"}
{"train/loss": -0.8282333333333334, "train/policy_loss": -0.8282150228818258, "train/entropy": 0.31029342239101726, "train/grad_norm": 0.6349637806415558, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 42, "recorded_at": "2025-09-20T13:56:20.941902"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 535.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 42, "recorded_at": "2025-09-20T13:57:40.813610"}
{"train/loss": 0.31965, "train/policy_loss": 0.31966504454612865, "train/entropy": 0.20797165483236313, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 43, "recorded_at": "2025-09-20T13:57:45.813364"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 494.0555555555556, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 43, "recorded_at": "2025-09-20T13:59:52.734300"}
{"train/loss": -0.15039999999999998, "train/policy_loss": -0.15038686990737915, "train/entropy": 0.22891607880592346, "train/grad_norm": 0.17585039883852005, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 44, "recorded_at": "2025-09-20T14:00:00.239573"}
{"train/reward": 0.9866666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 498.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9866666666666667, "train/reward_std_dev": 0.009428090415820642, "step": 44, "recorded_at": "2025-09-20T14:01:14.829959"}
{"train/loss": -0.20690000000000003, "train/policy_loss": -0.20693448185920715, "train/entropy": 0.18321363627910614, "train/grad_norm": 0.25663021951913834, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 45, "recorded_at": "2025-09-20T14:01:19.902032"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 709.25, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.09428090415820632, "step": 45, "recorded_at": "2025-09-20T14:03:25.259040"}
{"train/loss": 0.16185000000000005, "train/policy_loss": 0.16181617975234985, "train/entropy": 0.21239691227674484, "train/grad_norm": 0.25775833427906036, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 46, "recorded_at": "2025-09-20T14:03:32.751194"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 483.6111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 46, "recorded_at": "2025-09-20T14:05:36.071071"}
{"train/loss": -0.6779999999999999, "train/policy_loss": -0.677966296672821, "train/entropy": 0.3213682025671005, "train/grad_norm": 0.40348152816295624, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 47, "recorded_at": "2025-09-20T14:05:43.537889"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 452.5833333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.4109609335312651, "step": 47, "recorded_at": "2025-09-20T14:07:39.898647"}
{"train/loss": -0.28964999999999996, "train/policy_loss": -0.28965944051742554, "train/entropy": 0.2469918355345726, "train/grad_norm": 0.2090088650584221, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 48, "recorded_at": "2025-09-20T14:07:49.486687"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 567.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 48, "recorded_at": "2025-09-20T14:09:11.886176"}
{"train/loss": -0.17440000000000003, "train/policy_loss": -0.17444680631160736, "train/entropy": 0.22691960632801056, "train/grad_norm": 0.184941366314888, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 49, "recorded_at": "2025-09-20T14:09:17.034967"}
{"train/reward": 0.45, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 716.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.45, "train/reward_std_dev": 0.3894440481849307, "step": 49, "recorded_at": "2025-09-20T14:12:08.737659"}
{"train/loss": -0.06364999999999998, "train/policy_loss": -0.06365200877189636, "train/entropy": 0.299954317510128, "train/grad_norm": 0.19724709540605545, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 50, "recorded_at": "2025-09-20T14:12:16.271652"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 434.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 50, "recorded_at": "2025-09-20T14:13:33.570122"}
{"train/loss": 0.0663, "train/policy_loss": 0.0662824958562851, "train/entropy": 0.2672941982746124, "train/grad_norm": 0.3245413899421692, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 51, "recorded_at": "2025-09-20T14:13:36.287705"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 963.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.2494438257849294, "step": 51, "recorded_at": "2025-09-20T14:16:29.313381"}
{"train/loss": -0.33503333333333335, "train/policy_loss": -0.33502400914827984, "train/entropy": 0.3657749469081561, "train/grad_norm": 0.17561984062194824, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 52, "recorded_at": "2025-09-20T14:16:40.379726"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 322.77777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 52, "recorded_at": "2025-09-20T14:18:20.789113"}
{"train/loss": -0.5585666666666667, "train/policy_loss": -0.5585789084434509, "train/entropy": 0.2187797153989474, "train/grad_norm": 0.43888994057973224, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 53, "recorded_at": "2025-09-20T14:18:28.200754"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 719.4166666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.2494438257849294, "step": 53, "recorded_at": "2025-09-20T14:21:24.188582"}
{"train/loss": 0.4182333333333334, "train/policy_loss": 0.41821563243865967, "train/entropy": 0.3299962803721428, "train/grad_norm": 0.30796016069749993, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 54, "recorded_at": "2025-09-20T14:21:35.284744"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 454.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 54, "recorded_at": "2025-09-20T14:22:38.442733"}
{"train/loss": 0.3766, "train/policy_loss": 0.3765861392021179, "train/entropy": 0.15403998643159866, "train/grad_norm": 0.7304797768592834, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 55, "recorded_at": "2025-09-20T14:22:43.528325"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 486.1111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.32659863237109044, "step": 55, "recorded_at": "2025-09-20T14:25:00.516434"}
{"train/loss": 0.087, "train/policy_loss": 0.0870293602347374, "train/entropy": 0.16090993583202362, "train/grad_norm": 0.10248526930809021, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 56, "recorded_at": "2025-09-20T14:25:04.513330"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 553.8888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.3858612300930075, "step": 56, "recorded_at": "2025-09-20T14:27:00.675090"}
{"train/loss": -0.9271999999999999, "train/policy_loss": -0.9271953105926514, "train/entropy": 0.3914037197828293, "train/grad_norm": 0.5215556919574738, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 57, "recorded_at": "2025-09-20T14:27:08.142898"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 590.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.2357022603955158, "step": 57, "recorded_at": "2025-09-20T14:30:01.688355"}
{"train/loss": 0.01776666666666667, "train/policy_loss": 0.01776583989461263, "train/entropy": 0.26989807685216266, "train/grad_norm": 0.18064265449841818, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 58, "recorded_at": "2025-09-20T14:30:12.874801"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 378.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 58, "recorded_at": "2025-09-20T14:31:10.921901"}
{"train/loss": 0.0632, "train/policy_loss": 0.06318017840385437, "train/entropy": 0.19458696246147156, "train/grad_norm": 0.2853816747665405, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 59, "recorded_at": "2025-09-20T14:31:13.765240"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 530.6111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.33993463423951903, "step": 59, "recorded_at": "2025-09-20T14:33:58.463427"}
{"train/loss": -0.16910000000000003, "train/policy_loss": -0.16907751560211182, "train/entropy": 0.3294416666030884, "train/grad_norm": 0.19109831005334854, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 60, "recorded_at": "2025-09-20T14:34:07.936497"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 523.7777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.3559026084010437, "step": 60, "recorded_at": "2025-09-20T14:36:22.922614"}
{"train/loss": -0.38255, "train/policy_loss": -0.382568359375, "train/entropy": 0.4384678155183792, "train/grad_norm": 0.26380178332328796, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 61, "recorded_at": "2025-09-20T14:36:30.462854"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 592.2777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.28674417556808757, "step": 61, "recorded_at": "2025-09-20T14:39:00.788455"}
{"train/loss": -0.13649999999999995, "train/policy_loss": -0.13654524087905884, "train/entropy": 0.2943955697119236, "train/grad_norm": 0.2651152014732361, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 62, "recorded_at": "2025-09-20T14:39:08.309722"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 743.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 62, "recorded_at": "2025-09-20T14:40:33.723648"}
{"train/loss": 0.17575, "train/policy_loss": 0.17574523389339447, "train/entropy": 0.2975538820028305, "train/grad_norm": 0.32139815390110016, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 63, "recorded_at": "2025-09-20T14:40:38.853076"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 497.2222222222222, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.20548046676563256, "step": 63, "recorded_at": "2025-09-20T14:42:30.437763"}
{"train/loss": -0.3181333333333333, "train/policy_loss": -0.31816373268763226, "train/entropy": 0.2745324621597926, "train/grad_norm": 0.9311181704203287, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 64, "recorded_at": "2025-09-20T14:42:37.967188"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 531.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 64, "recorded_at": "2025-09-20T14:44:56.156564"}
{"train/loss": -0.14389999999999997, "train/policy_loss": -0.14388802647590637, "train/entropy": 0.25460396707057953, "train/grad_norm": 0.18379145860671997, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 65, "recorded_at": "2025-09-20T14:45:05.794614"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 408.9444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 65, "recorded_at": "2025-09-20T14:46:28.427512"}
{"train/loss": 0.07684999999999997, "train/policy_loss": 0.07685858011245728, "train/entropy": 0.19089870899915695, "train/grad_norm": 0.19486672431230545, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 66, "recorded_at": "2025-09-20T14:46:33.546187"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 438.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 66, "recorded_at": "2025-09-20T14:47:41.255891"}
{"train/loss": 0.35409999999999997, "train/policy_loss": 0.3540894389152527, "train/entropy": 0.148563914000988, "train/grad_norm": 0.3885714262723923, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 67, "recorded_at": "2025-09-20T14:47:46.302386"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 584.2777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.41899350299921784, "step": 67, "recorded_at": "2025-09-20T14:50:28.741759"}
{"train/loss": -0.9978999999999999, "train/policy_loss": -0.9978801012039185, "train/entropy": 0.24493649850289026, "train/grad_norm": 0.7968581517537435, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 68, "recorded_at": "2025-09-20T14:50:39.837505"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 364.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.3299831645537222, "step": 68, "recorded_at": "2025-09-20T14:51:47.456924"}
{"train/loss": 0.026, "train/policy_loss": 0.025990918278694153, "train/entropy": 0.2975817024707794, "train/grad_norm": 0.31092533469200134, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 69, "recorded_at": "2025-09-20T14:51:50.180463"}
{"train/reward": 0.06666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 567.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.06666666666666667, "train/reward_std_dev": 0.047140452079103175, "step": 69, "recorded_at": "2025-09-20T14:53:17.422809"}
{"train/loss": -0.1855, "train/policy_loss": -0.18549084663391113, "train/entropy": 0.25662700831890106, "train/grad_norm": 0.2181394398212433, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 70, "recorded_at": "2025-09-20T14:53:22.480543"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 584.0, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 70, "recorded_at": "2025-09-20T14:54:35.778099"}
{"train/loss": 0.1443, "train/policy_loss": 0.14429383166134357, "train/entropy": 0.20545661449432373, "train/grad_norm": 0.1974005252122879, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 71, "recorded_at": "2025-09-20T14:54:40.849386"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 798.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 71, "recorded_at": "2025-09-20T14:55:58.963657"}
{"train/loss": -0.25745, "train/policy_loss": -0.25743311643600464, "train/entropy": 0.3533668965101242, "train/grad_norm": 0.23861254006624222, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 72, "recorded_at": "2025-09-20T14:56:05.968631"}
{"train/reward": 0.3, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 386.4444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.3, "train/reward_std_dev": 0.16329931618554522, "step": 72, "recorded_at": "2025-09-20T14:57:49.710864"}
{"train/loss": -0.42500000000000004, "train/policy_loss": -0.4250172972679138, "train/entropy": 0.28390055894851685, "train/grad_norm": 0.6781058311462402, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 73, "recorded_at": "2025-09-20T14:57:54.744979"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 378.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.23570226039551584, "step": 73, "recorded_at": "2025-09-20T14:58:59.273435"}
{"train/loss": 0.0878, "train/policy_loss": 0.08776748925447464, "train/entropy": 0.23530878126621246, "train/grad_norm": 0.18806833028793335, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 74, "recorded_at": "2025-09-20T14:59:02.000184"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 485.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.41298372311212894, "step": 74, "recorded_at": "2025-09-20T15:00:08.721158"}
{"train/loss": -0.17125, "train/policy_loss": -0.1712426245212555, "train/entropy": 0.20311248302459717, "train/grad_norm": 1.2495789229869843, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 75, "recorded_at": "2025-09-20T15:00:13.807502"}
{"train/reward": 0.3, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 893.4444444444443, "train/independent_reward": 0.0, "train/ruler_score": 0.3, "train/reward_std_dev": 0.21602468994692867, "step": 75, "recorded_at": "2025-09-20T15:04:44.292838"}
{"train/loss": 0.45614999999999994, "train/policy_loss": 0.4561856836080551, "train/entropy": 0.31808409839868546, "train/grad_norm": 0.21615488082170486, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 76, "recorded_at": "2025-09-20T15:04:57.834727"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 511.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 76, "recorded_at": "2025-09-20T15:06:20.027056"}
{"train/loss": 0.1537, "train/policy_loss": 0.15365545265376568, "train/entropy": 0.2707057297229767, "train/grad_norm": 0.2829505503177643, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 77, "recorded_at": "2025-09-20T15:06:25.642541"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 371.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 77, "recorded_at": "2025-09-20T15:07:19.514912"}
{"train/loss": 0.063, "train/policy_loss": 0.06299829483032227, "train/entropy": 0.18286356329917908, "train/grad_norm": 0.2659569978713989, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 78, "recorded_at": "2025-09-20T15:07:22.253286"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 820.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 78, "recorded_at": "2025-09-20T15:09:02.304050"}
{"train/loss": -0.0003333333333333706, "train/policy_loss": -0.00032442808151245117, "train/entropy": 0.32051369547843933, "train/grad_norm": 0.3667422756552696, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 79, "recorded_at": "2025-09-20T15:09:09.807061"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 803.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.3559026084010437, "step": 79, "recorded_at": "2025-09-20T15:10:50.865169"}
{"train/loss": 0.27840000000000004, "train/policy_loss": 0.27840656042099, "train/entropy": 0.3993196189403534, "train/grad_norm": 0.3660322104891141, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 80, "recorded_at": "2025-09-20T15:10:58.560520"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 673.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.332498955721, "step": 80, "recorded_at": "2025-09-20T15:13:50.054270"}
{"train/loss": -0.1749, "train/policy_loss": -0.17487949132919312, "train/entropy": 0.34845759347081184, "train/grad_norm": 0.1897987350821495, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 81, "recorded_at": "2025-09-20T15:13:57.626020"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 597.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4027681991198191, "step": 81, "recorded_at": "2025-09-20T15:15:20.873390"}
{"train/loss": 0.26344999999999996, "train/policy_loss": 0.2634493410587311, "train/entropy": 0.2853718549013138, "train/grad_norm": 0.5123118385672569, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 82, "recorded_at": "2025-09-20T15:15:26.013535"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 552.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 82, "recorded_at": "2025-09-20T15:16:40.321274"}
{"train/loss": -0.17059999999999997, "train/policy_loss": -0.1705932915210724, "train/entropy": 0.2567298784852028, "train/grad_norm": 0.3015231788158417, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 83, "recorded_at": "2025-09-20T15:16:45.473725"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 615.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.3559026084010437, "step": 83, "recorded_at": "2025-09-20T15:18:11.781583"}
{"train/loss": 0.06383333333333337, "train/policy_loss": 0.06379481156667073, "train/entropy": 0.3152581950028737, "train/grad_norm": 0.3016742219527562, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 84, "recorded_at": "2025-09-20T15:18:20.435256"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 649.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.32659863237109044, "step": 84, "recorded_at": "2025-09-20T15:21:33.489517"}
{"train/loss": 0.37595, "train/policy_loss": 0.3759848177433014, "train/entropy": 0.2716965153813362, "train/grad_norm": 0.2904401794075966, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 85, "recorded_at": "2025-09-20T15:21:43.539430"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 411.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.09428090415820632, "step": 85, "recorded_at": "2025-09-20T15:22:44.645485"}
{"train/loss": 0.26835, "train/policy_loss": 0.26836786419153214, "train/entropy": 0.18403982371091843, "train/grad_norm": 0.7431855946779251, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 86, "recorded_at": "2025-09-20T15:22:49.719958"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 481.06666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.3559026084010437, "step": 86, "recorded_at": "2025-09-20T15:24:59.430230"}
{"train/loss": -0.9701, "train/policy_loss": -0.970141589641571, "train/entropy": 0.29187095910310745, "train/grad_norm": 0.5675202682614326, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 87, "recorded_at": "2025-09-20T15:25:07.002960"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 565.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 87, "recorded_at": "2025-09-20T15:26:20.681816"}
{"train/loss": -0.39859999999999995, "train/policy_loss": -0.398589551448822, "train/entropy": 0.25570832192897797, "train/grad_norm": 0.3842385858297348, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 88, "recorded_at": "2025-09-20T15:26:25.777934"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 338.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 88, "recorded_at": "2025-09-20T15:27:23.323860"}
{"train/loss": 0.1025, "train/policy_loss": 0.10248257219791412, "train/entropy": 0.19095519185066223, "train/grad_norm": 0.46818700432777405, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 89, "recorded_at": "2025-09-20T15:27:27.985492"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 640.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 89, "recorded_at": "2025-09-20T15:29:08.946395"}
{"train/loss": -0.07040000000000002, "train/policy_loss": -0.0703983306884768, "train/entropy": 0.32205332318941754, "train/grad_norm": 0.30683868130048114, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 90, "recorded_at": "2025-09-20T15:29:18.414179"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 558.0833333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.24944382578492943, "step": 90, "recorded_at": "2025-09-20T15:31:59.184077"}
{"train/loss": 0.08345, "train/policy_loss": 0.08343318477272987, "train/entropy": 0.26193562150001526, "train/grad_norm": 0.5676919743418694, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 91, "recorded_at": "2025-09-20T15:32:06.738105"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 470.40000000000003, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.20548046676563256, "step": 91, "recorded_at": "2025-09-20T15:33:54.791801"}
{"train/loss": -0.35590000000000005, "train/policy_loss": -0.3559069037437439, "train/entropy": 0.21521544953187308, "train/grad_norm": 0.362888624270757, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 92, "recorded_at": "2025-09-20T15:34:02.267293"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 416.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.33993463423951903, "step": 92, "recorded_at": "2025-09-20T15:35:15.775967"}
{"train/loss": -0.3222499999999999, "train/policy_loss": -0.322266548871994, "train/entropy": 0.2779136002063751, "train/grad_norm": 0.4293633848428726, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 93, "recorded_at": "2025-09-20T15:35:20.846207"}
{"train/reward": 0.19999999999999998, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 626.4166666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.19999999999999998, "train/reward_std_dev": 0.0816496580927726, "step": 93, "recorded_at": "2025-09-20T15:37:43.316046"}
{"train/loss": 0.20144999999999996, "train/policy_loss": 0.20146313309669495, "train/entropy": 0.33388613164424896, "train/grad_norm": 0.312481589615345, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 94, "recorded_at": "2025-09-20T15:37:50.888187"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 423.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 94, "recorded_at": "2025-09-20T15:38:59.650319"}
{"train/loss": -0.19605, "train/policy_loss": -0.19604036211967468, "train/entropy": 0.173874169588089, "train/grad_norm": 0.4262961447238922, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 95, "recorded_at": "2025-09-20T15:39:04.732415"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 554.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.33993463423951903, "step": 95, "recorded_at": "2025-09-20T15:40:26.948064"}
{"train/loss": -0.030350000000000044, "train/policy_loss": -0.030322283506393433, "train/entropy": 0.2543349862098694, "train/grad_norm": 0.2647707387804985, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 96, "recorded_at": "2025-09-20T15:40:32.043253"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 1023.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.09428090415820632, "step": 96, "recorded_at": "2025-09-20T15:42:34.219367"}
{"train/loss": -0.05276666666666666, "train/policy_loss": -0.05274669329325358, "train/entropy": 0.35655249158541363, "train/grad_norm": 0.21789656579494476, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 97, "recorded_at": "2025-09-20T15:42:41.753108"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 474.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 97, "recorded_at": "2025-09-20T15:43:52.517933"}
{"train/loss": 0.0787, "train/policy_loss": 0.07874950766563416, "train/entropy": 0.2736944556236267, "train/grad_norm": 0.6590752601623535, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 98, "recorded_at": "2025-09-20T15:43:55.227745"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 472.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.37416573867739417, "step": 98, "recorded_at": "2025-09-20T15:46:29.835443"}
{"train/loss": -0.40075, "train/policy_loss": -0.4007102847099304, "train/entropy": 0.23043083027005196, "train/grad_norm": 0.40871699154376984, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 99, "recorded_at": "2025-09-20T15:46:37.353353"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 583.4666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4027681991198191, "step": 99, "recorded_at": "2025-09-20T15:48:58.323206"}
{"train/loss": -0.08115, "train/policy_loss": -0.08119645714759827, "train/entropy": 0.3089433088898659, "train/grad_norm": 0.44750069826841354, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 100, "recorded_at": "2025-09-20T15:49:05.940366"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 1042.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.2867441755680875, "step": 100, "recorded_at": "2025-09-20T15:51:42.000361"}
{"train/loss": -0.06, "train/policy_loss": -0.06003037095069885, "train/entropy": 0.3538079708814621, "train/grad_norm": 0.22933537513017654, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 101, "recorded_at": "2025-09-20T15:51:49.566571"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 392.72222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.23570226039551584, "step": 101, "recorded_at": "2025-09-20T15:53:26.520716"}
{"train/loss": -0.12603333333333333, "train/policy_loss": -0.1260316570599874, "train/entropy": 0.18814286341269812, "train/grad_norm": 0.3265829583009084, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 102, "recorded_at": "2025-09-20T15:53:33.977996"}
{"train/reward": 0.9866666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 505.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9866666666666667, "train/reward_std_dev": 0.009428090415820642, "step": 102, "recorded_at": "2025-09-20T15:54:38.702778"}
{"train/loss": 0.1206, "train/policy_loss": 0.12056548148393631, "train/entropy": 0.14382681250572205, "train/grad_norm": 0.19758206605911255, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 103, "recorded_at": "2025-09-20T15:54:41.499543"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 540.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 103, "recorded_at": "2025-09-20T15:55:54.733628"}
{"train/loss": -0.1745, "train/policy_loss": -0.17450281977653503, "train/entropy": 0.19181565195322037, "train/grad_norm": 1.0596178621053696, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 104, "recorded_at": "2025-09-20T15:55:59.828516"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 637.7222222222222, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.2867441755680875, "step": 104, "recorded_at": "2025-09-20T15:58:58.157110"}
{"train/loss": -0.581, "train/policy_loss": -0.580997884273529, "train/entropy": 0.27977081139882404, "train/grad_norm": 0.351295355707407, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 105, "recorded_at": "2025-09-20T15:59:09.227540"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 499.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 105, "recorded_at": "2025-09-20T16:00:19.194677"}
{"train/loss": 0.3411, "train/policy_loss": 0.34111447632312775, "train/entropy": 0.1555253192782402, "train/grad_norm": 0.3433969095349312, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 106, "recorded_at": "2025-09-20T16:00:24.267630"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 610.2222222222222, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.20548046676563256, "step": 106, "recorded_at": "2025-09-20T16:02:05.696013"}
{"train/loss": -0.1463333333333333, "train/policy_loss": -0.1463350703318914, "train/entropy": 0.2517702082792918, "train/grad_norm": 0.7701659798622131, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 107, "recorded_at": "2025-09-20T16:02:13.174369"}
{"train/reward": 0.5666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 493.0, "train/independent_reward": 0.0, "train/ruler_score": 0.5666666666666667, "train/reward_std_dev": 0.30912061651652345, "step": 107, "recorded_at": "2025-09-20T16:03:22.350425"}
{"train/loss": 0.26195, "train/policy_loss": 0.2619732841849327, "train/entropy": 0.18069596588611603, "train/grad_norm": 0.2371811345219612, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 108, "recorded_at": "2025-09-20T16:03:27.417773"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 533.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 108, "recorded_at": "2025-09-20T16:04:55.285404"}
{"train/loss": -0.0833, "train/policy_loss": -0.08326953649520874, "train/entropy": 0.18397949635982513, "train/grad_norm": 0.3646689256032308, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 109, "recorded_at": "2025-09-20T16:05:02.763562"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 567.3888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.40276819911981904, "step": 109, "recorded_at": "2025-09-20T16:06:34.429062"}
{"train/loss": 0.07169999999999994, "train/policy_loss": 0.0717122753461202, "train/entropy": 0.19214007755120596, "train/grad_norm": 0.5421373347441355, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 110, "recorded_at": "2025-09-20T16:06:41.913306"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 493.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 110, "recorded_at": "2025-09-20T16:07:53.898314"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 111, "recorded_at": "2025-09-20T16:07:53.898480"}
{"train/reward": 0.26666666666666666, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 599.25, "train/independent_reward": 0.0, "train/ruler_score": 0.26666666666666666, "train/reward_std_dev": 0.16996731711975951, "step": 111, "recorded_at": "2025-09-20T16:10:45.208306"}
{"train/loss": -0.18816666666666668, "train/policy_loss": -0.18816361824671426, "train/entropy": 0.25349023441473645, "train/grad_norm": 0.2407056192557017, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 112, "recorded_at": "2025-09-20T16:10:56.440273"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 412.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 112, "recorded_at": "2025-09-20T16:12:00.957915"}
{"train/loss": 0.34145, "train/policy_loss": 0.3414657413959503, "train/entropy": 0.17345958203077316, "train/grad_norm": 0.5460673868656158, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 113, "recorded_at": "2025-09-20T16:12:06.048714"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 469.27777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.17795130420052185, "step": 113, "recorded_at": "2025-09-20T16:13:30.399191"}
{"train/loss": 0.38755000000000006, "train/policy_loss": 0.38758209347724915, "train/entropy": 0.21863631904125214, "train/grad_norm": 0.5715854689478874, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 114, "recorded_at": "2025-09-20T16:13:35.501823"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 529.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 114, "recorded_at": "2025-09-20T16:14:53.567512"}
{"train/loss": 0.6119999999999999, "train/policy_loss": 0.6120152175426483, "train/entropy": 0.23287761211395264, "train/grad_norm": 0.5164285227656364, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 115, "recorded_at": "2025-09-20T16:14:58.736961"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 445.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.42426406871192845, "step": 115, "recorded_at": "2025-09-20T16:15:57.633277"}
{"train/loss": 0.21864999999999998, "train/policy_loss": 0.21867120265960693, "train/entropy": 0.16981308162212372, "train/grad_norm": 0.2562986984848976, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 116, "recorded_at": "2025-09-20T16:16:02.757390"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 767.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 116, "recorded_at": "2025-09-20T16:17:42.775364"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 117, "recorded_at": "2025-09-20T16:17:42.775526"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 892.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 117, "recorded_at": "2025-09-20T16:19:50.015130"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 118, "recorded_at": "2025-09-20T16:19:50.015280"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 705.388888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.40276819911981904, "step": 118, "recorded_at": "2025-09-20T16:22:49.055041"}
{"train/loss": 0.3666666666666667, "train/policy_loss": 0.3666651248931885, "train/entropy": 0.2849462280670802, "train/grad_norm": 0.2750765159726143, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 119, "recorded_at": "2025-09-20T16:23:00.191141"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 608.5, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 119, "recorded_at": "2025-09-20T16:24:27.225664"}
{"train/loss": -0.10140000000000002, "train/policy_loss": -0.10140113532543182, "train/entropy": 0.21178118884563446, "train/grad_norm": 0.3171008974313736, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 120, "recorded_at": "2025-09-20T16:24:32.333434"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 669.5, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.04714045207910316, "step": 120, "recorded_at": "2025-09-20T16:26:05.806810"}
{"train/loss": 0.013899999999999987, "train/policy_loss": 0.013922015825907389, "train/entropy": 0.2635812958081563, "train/grad_norm": 0.33914677798748016, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 121, "recorded_at": "2025-09-20T16:26:13.313350"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 477.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.047140452079103216, "step": 121, "recorded_at": "2025-09-20T16:27:42.511408"}
{"train/loss": 0.7831000000000001, "train/policy_loss": 0.7830768525600433, "train/entropy": 0.2311965376138687, "train/grad_norm": 0.5005822330713272, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 122, "recorded_at": "2025-09-20T16:27:47.595112"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 524.3888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.37712361663282534, "step": 122, "recorded_at": "2025-09-20T16:30:13.629995"}
{"train/loss": -0.4357, "train/policy_loss": -0.4356781442960103, "train/entropy": 0.2429342269897461, "train/grad_norm": 0.5391662617524465, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 123, "recorded_at": "2025-09-20T16:30:24.710661"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 404.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 123, "recorded_at": "2025-09-20T16:31:31.778210"}
{"train/loss": 0.16440000000000005, "train/policy_loss": 0.16440224647521973, "train/entropy": 0.20796138048171997, "train/grad_norm": 0.41411709785461426, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 124, "recorded_at": "2025-09-20T16:31:36.849010"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 447.4444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 124, "recorded_at": "2025-09-20T16:33:39.565909"}
{"train/loss": -0.268, "train/policy_loss": -0.26797904074192047, "train/entropy": 0.2158602625131607, "train/grad_norm": 0.2570227161049843, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 125, "recorded_at": "2025-09-20T16:33:47.051784"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 694.2222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.33993463423951903, "step": 125, "recorded_at": "2025-09-20T16:37:22.367134"}
{"train/loss": -0.23295000000000005, "train/policy_loss": -0.23297545313835144, "train/entropy": 0.4213547632098198, "train/grad_norm": 0.18982907384634018, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 126, "recorded_at": "2025-09-20T16:37:32.554599"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 470.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 126, "recorded_at": "2025-09-20T16:38:38.817687"}
{"train/loss": 0.1402, "train/policy_loss": 0.1402081698179245, "train/entropy": 0.24802856147289276, "train/grad_norm": 6.169244289398193, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 127, "recorded_at": "2025-09-20T16:38:41.531223"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 624.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 127, "recorded_at": "2025-09-20T16:40:05.742998"}
{"train/loss": -0.0014000000000000308, "train/policy_loss": -0.0013836224873860676, "train/entropy": 0.25681861241658527, "train/grad_norm": 0.3631785313288371, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 128, "recorded_at": "2025-09-20T16:40:13.138717"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 964.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 128, "recorded_at": "2025-09-20T16:42:04.241594"}
{"train/loss": -0.36236666666666667, "train/policy_loss": -0.3623560070991516, "train/entropy": 0.3351629972457886, "train/grad_norm": 0.3711406538883845, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 129, "recorded_at": "2025-09-20T16:42:11.730697"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 647.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 129, "recorded_at": "2025-09-20T16:44:06.923492"}
{"train/loss": -0.26564999999999994, "train/policy_loss": -0.2656509429216385, "train/entropy": 0.33853037655353546, "train/grad_norm": 0.28080734610557556, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 130, "recorded_at": "2025-09-20T16:44:14.416607"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 580.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 130, "recorded_at": "2025-09-20T16:45:33.710608"}
{"train/loss": -0.27549999999999997, "train/policy_loss": -0.2755342721939087, "train/entropy": 0.24371054023504257, "train/grad_norm": 0.654793307185173, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 131, "recorded_at": "2025-09-20T16:45:38.812532"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 451.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 131, "recorded_at": "2025-09-20T16:46:40.368164"}
{"train/loss": 0.0949, "train/policy_loss": 0.0949244424700737, "train/entropy": 0.21080248057842255, "train/grad_norm": 0.9994062185287476, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 132, "recorded_at": "2025-09-20T16:46:43.127830"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 473.88888888888886, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.3681787005729087, "step": 132, "recorded_at": "2025-09-20T16:48:20.617415"}
{"train/loss": 0.16529999999999997, "train/policy_loss": 0.16531143834193548, "train/entropy": 0.21634226044019064, "train/grad_norm": 0.5016623598833879, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 133, "recorded_at": "2025-09-20T16:48:28.054624"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 621.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.24944382578492943, "step": 133, "recorded_at": "2025-09-20T16:51:27.048813"}
{"train/loss": 0.1511333333333334, "train/policy_loss": 0.15112037460009256, "train/entropy": 0.32036453982194263, "train/grad_norm": 0.6311633754521608, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 134, "recorded_at": "2025-09-20T16:51:38.092970"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 754.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.21602468994692867, "step": 134, "recorded_at": "2025-09-20T16:53:33.590688"}
{"train/loss": -0.8999999999999999, "train/policy_loss": -0.9000225067138672, "train/entropy": 0.43177738785743713, "train/grad_norm": 0.6291036382317543, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 135, "recorded_at": "2025-09-20T16:53:41.109052"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 398.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.09428090415820632, "step": 135, "recorded_at": "2025-09-20T16:54:42.160489"}
{"train/loss": -0.09255, "train/policy_loss": -0.09258399903774261, "train/entropy": 0.18197966367006302, "train/grad_norm": 0.3677805885672569, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 136, "recorded_at": "2025-09-20T16:54:47.268059"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 490.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.24944382578492943, "step": 136, "recorded_at": "2025-09-20T16:56:01.389365"}
{"train/loss": -0.36360000000000003, "train/policy_loss": -0.36361801624298096, "train/entropy": 0.2144927680492401, "train/grad_norm": 0.7665837109088898, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 137, "recorded_at": "2025-09-20T16:56:06.473481"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 454.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 137, "recorded_at": "2025-09-20T16:57:17.380011"}
{"train/loss": -0.009500000000000008, "train/policy_loss": -0.009475290775299072, "train/entropy": 0.1932295262813568, "train/grad_norm": 0.33287663757801056, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 138, "recorded_at": "2025-09-20T16:57:22.464559"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 613.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 138, "recorded_at": "2025-09-20T16:58:57.281406"}
{"train/loss": 0.09156666666666664, "train/policy_loss": 0.09157049655914427, "train/entropy": 0.18790074189503989, "train/grad_norm": 0.36352722843488056, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 139, "recorded_at": "2025-09-20T16:59:04.728209"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 497.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 139, "recorded_at": "2025-09-20T17:00:16.862144"}
{"train/loss": 0.2977000000000001, "train/policy_loss": 0.2976624369621277, "train/entropy": 0.24642480164766312, "train/grad_norm": 0.3728870078921318, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 140, "recorded_at": "2025-09-20T17:00:22.011957"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 442.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.17795130420052185, "step": 140, "recorded_at": "2025-09-20T17:01:21.517029"}
{"train/loss": -0.1906, "train/policy_loss": -0.19060638546943665, "train/entropy": 0.1759028509259224, "train/grad_norm": 0.3467213362455368, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 141, "recorded_at": "2025-09-20T17:01:26.577278"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 633.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4027681991198191, "step": 141, "recorded_at": "2025-09-20T17:03:04.908509"}
{"train/loss": 0.042700000000000016, "train/policy_loss": 0.04271182417869568, "train/entropy": 0.33950629085302353, "train/grad_norm": 0.39718295633792877, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 142, "recorded_at": "2025-09-20T17:03:10.053034"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 566.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.21602468994692867, "step": 142, "recorded_at": "2025-09-20T17:04:25.431205"}
{"train/loss": -0.20024999999999998, "train/policy_loss": -0.2002612054347992, "train/entropy": 0.2098248079419136, "train/grad_norm": 0.3500010520219803, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 143, "recorded_at": "2025-09-20T17:04:30.532719"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 486.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.16996731711975951, "step": 143, "recorded_at": "2025-09-20T17:05:36.267394"}
{"train/loss": 0.28345, "train/policy_loss": 0.283407524228096, "train/entropy": 0.1753895953297615, "train/grad_norm": 0.30001968145370483, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 144, "recorded_at": "2025-09-20T17:05:42.655830"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 392.1111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 144, "recorded_at": "2025-09-20T17:06:54.423983"}
{"train/loss": 0.0091, "train/policy_loss": 0.009108057245612144, "train/entropy": 0.13612213730812073, "train/grad_norm": 0.1914874166250229, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 145, "recorded_at": "2025-09-20T17:06:57.237593"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 574.1999999999999, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 145, "recorded_at": "2025-09-20T17:09:08.266709"}
{"train/loss": 0.02975, "train/policy_loss": 0.029737651348114014, "train/entropy": 0.28307589143514633, "train/grad_norm": 0.37490954995155334, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 146, "recorded_at": "2025-09-20T17:09:17.592285"}
{"train/reward": 0.6166666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 401.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6166666666666666, "train/reward_std_dev": 0.26562295750848713, "step": 146, "recorded_at": "2025-09-20T17:10:30.507583"}
{"train/loss": 0.18469999999999998, "train/policy_loss": 0.18471559882164001, "train/entropy": 0.199831023812294, "train/grad_norm": 0.3557482957839966, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 147, "recorded_at": "2025-09-20T17:10:35.575691"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 1090.9166666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.4496912521077347, "step": 147, "recorded_at": "2025-09-20T17:14:22.216777"}
{"train/loss": 0.11179999999999998, "train/policy_loss": 0.11180518567562103, "train/entropy": 0.332499235868454, "train/grad_norm": 0.15988867729902267, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 148, "recorded_at": "2025-09-20T17:14:32.384692"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 501.2, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.37416573867739417, "step": 148, "recorded_at": "2025-09-20T17:16:33.099283"}
{"train/loss": 0.07389999999999997, "train/policy_loss": 0.0738934576511383, "train/entropy": 0.22896228730678558, "train/grad_norm": 0.25144147872924805, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 149, "recorded_at": "2025-09-20T17:16:38.208164"}
{"train/reward": 0.65, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 414.22222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.65, "train/reward_std_dev": 0.46007245806140873, "step": 149, "recorded_at": "2025-09-20T17:18:17.197870"}
{"train/loss": 0.0012999999999999678, "train/policy_loss": 0.0013141334056854248, "train/entropy": 0.16885050013661385, "train/grad_norm": 0.8583882227540016, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 150, "recorded_at": "2025-09-20T17:18:22.312384"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 407.77777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.43204937989385733, "step": 150, "recorded_at": "2025-09-20T17:20:14.131179"}
{"train/loss": 0.03344999999999998, "train/policy_loss": 0.03345403075218201, "train/entropy": 0.1946873441338539, "train/grad_norm": 0.3493390381336212, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 151, "recorded_at": "2025-09-20T17:20:19.571390"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 446.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 151, "recorded_at": "2025-09-20T17:21:20.631606"}
{"train/loss": -0.25709999999999994, "train/policy_loss": -0.257114440202713, "train/entropy": 0.1673877164721489, "train/grad_norm": 0.4076269716024399, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 152, "recorded_at": "2025-09-20T17:21:25.712049"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 569.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 152, "recorded_at": "2025-09-20T17:22:38.678278"}
{"train/loss": -0.32125000000000004, "train/policy_loss": -0.3212309181690216, "train/entropy": 0.14291241765022278, "train/grad_norm": 0.3598160892724991, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 153, "recorded_at": "2025-09-20T17:22:43.758966"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 780.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 153, "recorded_at": "2025-09-20T17:24:20.593086"}
{"train/loss": 0.2235666666666666, "train/policy_loss": 0.22357952594757055, "train/entropy": 0.2909751534461975, "train/grad_norm": 0.35771555701891583, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 154, "recorded_at": "2025-09-20T17:24:28.024888"}
{"train/reward": 0.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 631.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.0, "train/reward_std_dev": 0.0, "step": 154, "recorded_at": "2025-09-20T17:25:54.275385"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 155, "recorded_at": "2025-09-20T17:25:54.275569"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 539.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 155, "recorded_at": "2025-09-20T17:27:07.135823"}
{"train/loss": 0.41714999999999997, "train/policy_loss": 0.4171440899372101, "train/entropy": 0.2058265432715416, "train/grad_norm": 0.383219838142395, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 156, "recorded_at": "2025-09-20T17:27:12.220292"}
{"train/reward": 0.9766666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 571.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9766666666666666, "train/reward_std_dev": 0.020548046676563275, "step": 156, "recorded_at": "2025-09-20T17:28:27.392483"}
{"train/loss": -0.27144999999999997, "train/policy_loss": -0.2714480757713318, "train/entropy": 0.24814088642597198, "train/grad_norm": 0.38230185210704803, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 157, "recorded_at": "2025-09-20T17:28:32.500060"}
{"train/reward": 0.9866666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 338.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9866666666666667, "train/reward_std_dev": 0.009428090415820642, "step": 157, "recorded_at": "2025-09-20T17:29:30.562548"}
{"train/loss": 0.0908, "train/policy_loss": 0.0908183604478836, "train/entropy": 0.19605086743831635, "train/grad_norm": 0.3178258538246155, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 158, "recorded_at": "2025-09-20T17:29:33.369978"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 506.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.3559026084010437, "step": 158, "recorded_at": "2025-09-20T17:31:11.532023"}
{"train/loss": -0.0826333333333333, "train/policy_loss": -0.08265185356140137, "train/entropy": 0.23272709548473358, "train/grad_norm": 0.36122765640417737, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 159, "recorded_at": "2025-09-20T17:31:19.013433"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 436.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.28674417556808757, "step": 159, "recorded_at": "2025-09-20T17:32:22.926437"}
{"train/loss": -0.4069, "train/policy_loss": -0.40690192580223083, "train/entropy": 0.2556833177804947, "train/grad_norm": 0.5037418901920319, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 160, "recorded_at": "2025-09-20T17:32:28.116489"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 536.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.28674417556808757, "step": 160, "recorded_at": "2025-09-20T17:33:45.119622"}
{"train/loss": 0.28175000000000006, "train/policy_loss": 0.2817654609680176, "train/entropy": 0.284333772957325, "train/grad_norm": 0.32595469057559967, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 161, "recorded_at": "2025-09-20T17:33:50.229075"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 454.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.12472191289246475, "step": 161, "recorded_at": "2025-09-20T17:35:09.876384"}
{"train/loss": 0.22000000000000003, "train/policy_loss": 0.21999818086624146, "train/entropy": 0.21926074475049973, "train/grad_norm": 0.5584907233715057, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 162, "recorded_at": "2025-09-20T17:35:14.961528"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 438.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 162, "recorded_at": "2025-09-20T17:36:15.886128"}
{"train/loss": 0.2788, "train/policy_loss": 0.278775691986084, "train/entropy": 0.18289024382829666, "train/grad_norm": 0.5032443478703499, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 163, "recorded_at": "2025-09-20T17:36:21.038654"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 501.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.282842712474619, "step": 163, "recorded_at": "2025-09-20T17:37:37.140228"}
{"train/loss": -0.20109999999999997, "train/policy_loss": -0.20109570026397705, "train/entropy": 0.2166319191455841, "train/grad_norm": 0.37779395282268524, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 164, "recorded_at": "2025-09-20T17:37:42.296258"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 680.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 164, "recorded_at": "2025-09-20T17:39:35.264084"}
{"train/loss": -0.1388666666666667, "train/policy_loss": -0.13887329896291098, "train/entropy": 0.2383344223101934, "train/grad_norm": 0.36343041559060413, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 165, "recorded_at": "2025-09-20T17:39:42.768420"}
{"train/reward": 0.9766666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 370.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9766666666666666, "train/reward_std_dev": 0.020548046676563275, "step": 165, "recorded_at": "2025-09-20T17:40:35.891450"}
{"train/loss": 0.0542, "train/policy_loss": 0.05420788377523422, "train/entropy": 0.1325317621231079, "train/grad_norm": 0.2961394786834717, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 166, "recorded_at": "2025-09-20T17:40:38.626101"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 556.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 166, "recorded_at": "2025-09-20T17:41:49.971683"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 167, "recorded_at": "2025-09-20T17:41:49.971838"}
{"train/reward": 0.5666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 601.0, "train/independent_reward": 0.0, "train/ruler_score": 0.5666666666666667, "train/reward_std_dev": 0.12472191289246469, "step": 167, "recorded_at": "2025-09-20T17:43:11.088125"}
{"train/loss": 0.07960000000000002, "train/policy_loss": 0.07957847913106282, "train/entropy": 0.20030215879281363, "train/grad_norm": 0.9211373453338941, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 168, "recorded_at": "2025-09-20T17:43:18.514479"}
{"train/reward": 0.9166666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 789.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9166666666666666, "train/reward_std_dev": 0.062360956446232366, "step": 168, "recorded_at": "2025-09-20T17:44:56.916611"}
{"train/loss": 0.21849999999999994, "train/policy_loss": 0.21850502490997314, "train/entropy": 0.28616195917129517, "train/grad_norm": 0.4488504429658254, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 169, "recorded_at": "2025-09-20T17:45:04.467442"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 530.1333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.3771236166328254, "step": 169, "recorded_at": "2025-09-20T17:47:03.050375"}
{"train/loss": 0.09290000000000004, "train/policy_loss": 0.09293058514595032, "train/entropy": 0.21625033020973206, "train/grad_norm": 0.3080408126115799, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 170, "recorded_at": "2025-09-20T17:47:10.573817"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 620.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.12472191289246475, "step": 170, "recorded_at": "2025-09-20T17:48:37.898407"}
{"train/loss": 0.07639999999999995, "train/policy_loss": 0.07640738288561504, "train/entropy": 0.2168518751859665, "train/grad_norm": 0.3393675337235133, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 171, "recorded_at": "2025-09-20T17:48:45.390126"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 407.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 171, "recorded_at": "2025-09-20T17:50:29.105257"}
{"train/loss": 0.0558, "train/policy_loss": 0.05575159937143326, "train/entropy": 0.23215556144714355, "train/grad_norm": 0.26166024804115295, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 172, "recorded_at": "2025-09-20T17:50:33.176387"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 463.43333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 172, "recorded_at": "2025-09-20T17:52:29.068073"}
{"train/loss": 0.09335000000000002, "train/policy_loss": 0.09331873059272766, "train/entropy": 0.22701898217201233, "train/grad_norm": 0.35480625182390213, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 173, "recorded_at": "2025-09-20T17:52:34.192862"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 560.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 173, "recorded_at": "2025-09-20T17:53:48.849372"}
{"train/loss": -0.20545000000000002, "train/policy_loss": -0.20545214414596558, "train/entropy": 0.1963423639535904, "train/grad_norm": 0.36194269359111786, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 174, "recorded_at": "2025-09-20T17:53:53.946632"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 471.22222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.26246692913372704, "step": 174, "recorded_at": "2025-09-20T17:55:18.085796"}
{"train/loss": 0.18225000000000002, "train/policy_loss": 0.1822488233447075, "train/entropy": 0.21890202164649963, "train/grad_norm": 0.31808237731456757, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 175, "recorded_at": "2025-09-20T17:55:23.190363"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 746.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.09428090415820632, "step": 175, "recorded_at": "2025-09-20T17:56:49.800295"}
{"train/loss": 0.15190000000000003, "train/policy_loss": 0.15191344420115152, "train/entropy": 0.2709536552429199, "train/grad_norm": 5.145299136638641, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 176, "recorded_at": "2025-09-20T17:56:57.259840"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 552.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.08164965809277258, "step": 176, "recorded_at": "2025-09-20T17:58:16.792074"}
{"train/loss": 0.0625, "train/policy_loss": 0.06254401803016663, "train/entropy": 0.1922873854637146, "train/grad_norm": 0.28972071409225464, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 177, "recorded_at": "2025-09-20T17:58:19.538879"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 1863.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.37416573867739417, "step": 177, "recorded_at": "2025-09-20T18:00:50.004158"}
{"train/loss": 0.03890000000000001, "train/policy_loss": 0.03889945149421692, "train/entropy": 0.44581400354703266, "train/grad_norm": 0.27937472487489384, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 178, "recorded_at": "2025-09-20T18:01:01.086449"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 678.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551608, "step": 178, "recorded_at": "2025-09-20T18:02:23.379047"}
{"train/loss": -0.03616666666666668, "train/policy_loss": -0.03617938359578451, "train/entropy": 0.3159573475519816, "train/grad_norm": 0.41211584210395813, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 179, "recorded_at": "2025-09-20T18:02:30.810286"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 584.2777777777777, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.42426406871192845, "step": 179, "recorded_at": "2025-09-20T18:03:58.518517"}
{"train/loss": 0.02623333333333333, "train/policy_loss": 0.026210884253184002, "train/entropy": 0.197294091184934, "train/grad_norm": 0.6336782375971476, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 180, "recorded_at": "2025-09-20T18:04:05.978030"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 534.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 180, "recorded_at": "2025-09-20T18:05:14.726572"}
{"train/loss": -0.10669999999999999, "train/policy_loss": -0.10673278570175171, "train/entropy": 0.2618184834718704, "train/grad_norm": 0.3215508311986923, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 181, "recorded_at": "2025-09-20T18:05:19.878700"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 462.38888888888886, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.21602468994692867, "step": 181, "recorded_at": "2025-09-20T18:06:43.467434"}
{"train/loss": -0.24573333333333336, "train/policy_loss": -0.24573163191477457, "train/entropy": 0.2212164824207624, "train/grad_norm": 1.1863132615884144, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 182, "recorded_at": "2025-09-20T18:06:50.898564"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 425.9444444444444, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 182, "recorded_at": "2025-09-20T18:08:06.464591"}
{"train/loss": -0.12639999999999998, "train/policy_loss": -0.12638583034276962, "train/entropy": 0.16429859399795532, "train/grad_norm": 0.280243955552578, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 183, "recorded_at": "2025-09-20T18:08:11.570060"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 569.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 183, "recorded_at": "2025-09-20T18:09:35.853456"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 184, "recorded_at": "2025-09-20T18:09:35.853685"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 384.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 184, "recorded_at": "2025-09-20T18:10:36.659035"}
{"train/loss": 0.0587, "train/policy_loss": 0.05867970362305641, "train/entropy": 0.1930619478225708, "train/grad_norm": 0.2788982093334198, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 185, "recorded_at": "2025-09-20T18:10:39.386400"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 596.25, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.20548046676563253, "step": 185, "recorded_at": "2025-09-20T18:13:13.860891"}
{"train/loss": -0.03699999999999998, "train/policy_loss": -0.03697538375854492, "train/entropy": 0.23160851746797562, "train/grad_norm": 0.2583646848797798, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 186, "recorded_at": "2025-09-20T18:13:21.408792"}
{"train/reward": 0.6333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 697.7222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333334, "train/reward_std_dev": 0.38586123009300755, "step": 186, "recorded_at": "2025-09-20T18:15:30.346957"}
{"train/loss": 0.5257000000000001, "train/policy_loss": 0.5256978273391724, "train/entropy": 0.3025358021259308, "train/grad_norm": 0.5964722633361816, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 187, "recorded_at": "2025-09-20T18:15:37.953539"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 514.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.08164965809277262, "step": 187, "recorded_at": "2025-09-20T18:17:11.827015"}
{"train/loss": 0.03355, "train/policy_loss": 0.03357124701142224, "train/entropy": 0.2131088748574257, "train/grad_norm": 0.3342340290546417, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 188, "recorded_at": "2025-09-20T18:17:16.921533"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 531.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 188, "recorded_at": "2025-09-20T18:18:27.111072"}
{"train/loss": 0.32294999999999996, "train/policy_loss": 0.3229844719171524, "train/entropy": 0.2527868375182152, "train/grad_norm": 0.4560404568910599, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 189, "recorded_at": "2025-09-20T18:18:32.247481"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 442.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 189, "recorded_at": "2025-09-20T18:19:48.432059"}
{"train/loss": 0.0889, "train/policy_loss": 0.0889098271727562, "train/entropy": 0.178199902176857, "train/grad_norm": 0.5908985137939453, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 190, "recorded_at": "2025-09-20T18:19:51.147389"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 1065.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 190, "recorded_at": "2025-09-20T18:21:52.077052"}
{"train/loss": -0.11465000000000003, "train/policy_loss": -0.11465078592300415, "train/entropy": 0.3780958652496338, "train/grad_norm": 0.26277758926153183, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 191, "recorded_at": "2025-09-20T18:21:59.639108"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 888.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 191, "recorded_at": "2025-09-20T18:24:21.741762"}
{"train/loss": -0.12619999999999998, "train/policy_loss": -0.12621384859085083, "train/entropy": 0.33757543563842773, "train/grad_norm": 0.39932508766651154, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 192, "recorded_at": "2025-09-20T18:24:29.277437"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 629.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.3559026084010437, "step": 192, "recorded_at": "2025-09-20T18:25:59.999737"}
{"train/loss": 0.0797, "train/policy_loss": 0.0797162801027298, "train/entropy": 0.3073221743106842, "train/grad_norm": 0.4705272614955902, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 193, "recorded_at": "2025-09-20T18:26:05.149718"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 834.6111111111112, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.4027681991198191, "step": 193, "recorded_at": "2025-09-20T18:29:48.089832"}
{"train/loss": -0.025450000000000028, "train/policy_loss": -0.025432884693145752, "train/entropy": 0.3226764611899853, "train/grad_norm": 0.3388754837214947, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 194, "recorded_at": "2025-09-20T18:29:58.232670"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 526.5, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 194, "recorded_at": "2025-09-20T18:31:15.324358"}
{"train/loss": 0.5267, "train/policy_loss": 0.5266905426979065, "train/entropy": 0.15936823189258575, "train/grad_norm": 0.37932630628347397, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 195, "recorded_at": "2025-09-20T18:31:20.454456"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 453.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 195, "recorded_at": "2025-09-20T18:32:30.099931"}
{"train/loss": 0.437, "train/policy_loss": 0.4369834065437317, "train/entropy": 0.16891027987003326, "train/grad_norm": 0.648318774998188, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 196, "recorded_at": "2025-09-20T18:32:35.202181"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 410.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 196, "recorded_at": "2025-09-20T18:33:47.442257"}
{"train/loss": 0.1558, "train/policy_loss": 0.1557806432247162, "train/entropy": 0.11965234950184822, "train/grad_norm": 0.4746350795030594, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 197, "recorded_at": "2025-09-20T18:33:52.505177"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 428.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.07071067811865477, "step": 197, "recorded_at": "2025-09-20T18:34:58.875058"}
{"train/loss": -0.1489, "train/policy_loss": -0.14892162382602692, "train/entropy": 0.17181003838777542, "train/grad_norm": 0.5679224878549576, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 198, "recorded_at": "2025-09-20T18:35:03.952059"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 509.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.09428090415820632, "step": 198, "recorded_at": "2025-09-20T18:36:08.488193"}
{"train/loss": 0.3762, "train/policy_loss": 0.37618371844291687, "train/entropy": 0.24183602631092072, "train/grad_norm": 0.48536500334739685, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 199, "recorded_at": "2025-09-20T18:36:13.661741"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 651.6944444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.2943920288775949, "step": 199, "recorded_at": "2025-09-20T18:39:19.853351"}
{"train/loss": -0.03550000000000003, "train/policy_loss": -0.03548869490623474, "train/entropy": 0.29082920402288437, "train/grad_norm": 0.24465405941009521, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 200, "recorded_at": "2025-09-20T18:39:30.035723"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 507.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 200, "recorded_at": "2025-09-20T18:40:34.266338"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 201, "recorded_at": "2025-09-20T18:40:34.266509"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 441.4666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.26246692913372704, "step": 201, "recorded_at": "2025-09-20T18:42:46.844718"}
{"train/loss": 0.2607, "train/policy_loss": 0.26072053611278534, "train/entropy": 0.2191440537571907, "train/grad_norm": 0.36022259294986725, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 202, "recorded_at": "2025-09-20T18:42:54.350259"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 452.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.22484562605386732, "step": 202, "recorded_at": "2025-09-20T18:44:08.718815"}
{"train/loss": -0.51315, "train/policy_loss": -0.5131509006023407, "train/entropy": 0.20349182933568954, "train/grad_norm": 0.5330677330493927, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 203, "recorded_at": "2025-09-20T18:44:13.796386"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 551.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 203, "recorded_at": "2025-09-20T18:45:39.814377"}
{"train/loss": 0.28095, "train/policy_loss": 0.28094762563705444, "train/entropy": 0.21348916739225388, "train/grad_norm": 0.48939594626426697, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 204, "recorded_at": "2025-09-20T18:45:44.923136"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 996.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 204, "recorded_at": "2025-09-20T18:48:03.039872"}
{"train/loss": -0.007249999999999979, "train/policy_loss": -0.007251381874084473, "train/entropy": 0.2616332918405533, "train/grad_norm": 0.247099868953228, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 205, "recorded_at": "2025-09-20T18:48:10.595563"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 561.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.17795130420052185, "step": 205, "recorded_at": "2025-09-20T18:49:25.846104"}
{"train/loss": 0.34674999999999995, "train/policy_loss": 0.34672561287879944, "train/entropy": 0.16611875593662262, "train/grad_norm": 0.374581441283226, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 206, "recorded_at": "2025-09-20T18:49:30.980926"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 592.2777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 206, "recorded_at": "2025-09-20T18:51:01.320759"}
{"train/loss": -0.13599999999999998, "train/policy_loss": -0.13601926962534586, "train/entropy": 0.17392499248186746, "train/grad_norm": 0.35547589262326557, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 207, "recorded_at": "2025-09-20T18:51:08.859811"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 656.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.14142135623730953, "step": 207, "recorded_at": "2025-09-20T18:52:37.445114"}
{"train/loss": -0.019466666666666705, "train/policy_loss": -0.019467453161875408, "train/entropy": 0.25619567433993023, "train/grad_norm": 0.37590547402699787, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 208, "recorded_at": "2025-09-20T18:52:44.912833"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 442.22222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.2494438257849294, "step": 208, "recorded_at": "2025-09-20T18:54:02.094022"}
{"train/loss": 0.2528, "train/policy_loss": 0.2527769207954407, "train/entropy": 0.1812005415558815, "train/grad_norm": 1.2650708854198456, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 209, "recorded_at": "2025-09-20T18:54:07.201722"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 514.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.2867441755680875, "step": 209, "recorded_at": "2025-09-20T18:55:58.960029"}
{"train/loss": -0.31646666666666673, "train/policy_loss": -0.31643710533777875, "train/entropy": 0.2463346322377523, "train/grad_norm": 0.5109996311366558, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 210, "recorded_at": "2025-09-20T18:56:06.457180"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 476.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 210, "recorded_at": "2025-09-20T18:57:15.804840"}
{"train/loss": 0.0567, "train/policy_loss": 0.05665413662791252, "train/entropy": 0.19079546630382538, "train/grad_norm": 0.3080365061759949, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 211, "recorded_at": "2025-09-20T18:57:18.528326"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 709.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 211, "recorded_at": "2025-09-20T18:58:36.963823"}
{"train/loss": -0.56715, "train/policy_loss": -0.567110151052475, "train/entropy": 0.2548335939645767, "train/grad_norm": 3.2470492124557495, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 212, "recorded_at": "2025-09-20T18:58:42.096952"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 470.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.43204937989385733, "step": 212, "recorded_at": "2025-09-20T18:59:47.541629"}
{"train/loss": -0.4643, "train/policy_loss": -0.46428924798965454, "train/entropy": 0.16878683120012283, "train/grad_norm": 0.6194271892309189, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 213, "recorded_at": "2025-09-20T18:59:52.627750"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 579.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 213, "recorded_at": "2025-09-20T19:01:06.307287"}
{"train/loss": 0.23975000000000002, "train/policy_loss": 0.23975305259227753, "train/entropy": 0.2862429767847061, "train/grad_norm": 0.5455282479524612, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 214, "recorded_at": "2025-09-20T19:01:11.503559"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 540.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 214, "recorded_at": "2025-09-20T19:02:19.879808"}
{"train/loss": -0.11100000000000002, "train/policy_loss": -0.11098557710647583, "train/entropy": 0.25106774270534515, "train/grad_norm": 0.40270157158374786, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 215, "recorded_at": "2025-09-20T19:02:24.955817"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 400.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.23570226039551584, "step": 215, "recorded_at": "2025-09-20T19:03:25.693778"}
{"train/loss": 0.2321, "train/policy_loss": 0.23211830854415894, "train/entropy": 0.1806173175573349, "train/grad_norm": 0.8818948268890381, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 216, "recorded_at": "2025-09-20T19:03:30.775844"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 539.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.14142135623730953, "step": 216, "recorded_at": "2025-09-20T19:04:37.665520"}
{"train/loss": 0.14620000000000002, "train/policy_loss": 0.14620964229106903, "train/entropy": 0.17341473698616028, "train/grad_norm": 0.31160667538642883, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 217, "recorded_at": "2025-09-20T19:04:42.719995"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 388.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 217, "recorded_at": "2025-09-20T19:05:44.045669"}
{"train/loss": 0.0824, "train/policy_loss": 0.0823911502957344, "train/entropy": 0.2002994865179062, "train/grad_norm": 0.9688460230827332, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 218, "recorded_at": "2025-09-20T19:05:46.789846"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 525.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 218, "recorded_at": "2025-09-20T19:06:57.550619"}
{"train/loss": -0.24165000000000003, "train/policy_loss": -0.24162065982818604, "train/entropy": 0.21144627034664154, "train/grad_norm": 0.4159039258956909, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 219, "recorded_at": "2025-09-20T19:07:02.825302"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 700.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.33993463423951903, "step": 219, "recorded_at": "2025-09-20T19:10:55.516175"}
{"train/loss": -0.41786666666666666, "train/policy_loss": -0.4178787072499593, "train/entropy": 0.35868290066719055, "train/grad_norm": 0.7163235545158386, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 220, "recorded_at": "2025-09-20T19:11:10.393039"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 616.4444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 220, "recorded_at": "2025-09-20T19:12:42.049027"}
{"train/loss": -0.11616666666666664, "train/policy_loss": -0.11618081728617351, "train/entropy": 0.21028612554073334, "train/grad_norm": 0.39055462181568146, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 221, "recorded_at": "2025-09-20T19:12:49.512251"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 596.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.14142135623730953, "step": 221, "recorded_at": "2025-09-20T19:14:07.978860"}
{"train/loss": 0.2267, "train/policy_loss": 0.22671189904212952, "train/entropy": 0.2733556777238846, "train/grad_norm": 0.8428119271993637, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 222, "recorded_at": "2025-09-20T19:14:13.121503"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 624.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551605, "step": 222, "recorded_at": "2025-09-20T19:15:34.329613"}
{"train/loss": 0.006466666666666658, "train/policy_loss": 0.006464401880900065, "train/entropy": 0.20713373521963754, "train/grad_norm": 0.5722774962584177, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 223, "recorded_at": "2025-09-20T19:15:41.795300"}
{"train/reward": 0.8833333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 484.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.8833333333333333, "train/reward_std_dev": 0.08498365855987973, "step": 223, "recorded_at": "2025-09-20T19:17:28.665849"}
{"train/loss": 0.1769, "train/policy_loss": 0.17686939239501953, "train/entropy": 0.22824590653181076, "train/grad_norm": 0.5030466914176941, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 224, "recorded_at": "2025-09-20T19:17:33.878919"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 549.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 224, "recorded_at": "2025-09-20T19:18:39.038882"}
{"train/loss": 0.46909999999999996, "train/policy_loss": 0.46912091970443726, "train/entropy": 0.1817847266793251, "train/grad_norm": 0.6078008860349655, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 225, "recorded_at": "2025-09-20T19:18:44.142369"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 1188.4166666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.2943920288775949, "step": 225, "recorded_at": "2025-09-20T19:21:01.028523"}
{"train/loss": 0.1794, "train/policy_loss": 0.17936894297599792, "train/entropy": 0.3203993837038676, "train/grad_norm": 12.606735112766424, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 226, "recorded_at": "2025-09-20T19:21:12.179032"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 469.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 226, "recorded_at": "2025-09-20T19:22:14.582986"}
{"train/loss": -0.30915000000000004, "train/policy_loss": -0.309149831533432, "train/entropy": 0.16636740416288376, "train/grad_norm": 0.4245242327451706, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 227, "recorded_at": "2025-09-20T19:22:19.647268"}
{"train/reward": 0.23333333333333336, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 644.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.23333333333333336, "train/reward_std_dev": 0.12472191289246473, "step": 227, "recorded_at": "2025-09-20T19:23:42.569658"}
{"train/loss": 0.07829999999999997, "train/policy_loss": 0.07829294602076213, "train/entropy": 0.19506176809469858, "train/grad_norm": 0.6805763443311056, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 228, "recorded_at": "2025-09-20T19:23:50.018049"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 650.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 228, "recorded_at": "2025-09-20T19:25:14.807918"}
{"train/loss": 0.17746666666666666, "train/policy_loss": 0.17745641867319872, "train/entropy": 0.23111391067504883, "train/grad_norm": 0.5977737704912821, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 229, "recorded_at": "2025-09-20T19:25:22.242968"}
{"train/reward": 0.7833333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 551.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7833333333333333, "train/reward_std_dev": 0.27182510717166813, "step": 229, "recorded_at": "2025-09-20T19:26:32.593821"}
{"train/loss": -0.11404999999999998, "train/policy_loss": -0.11401847004890442, "train/entropy": 0.23629610985517502, "train/grad_norm": 0.3963128328323364, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 230, "recorded_at": "2025-09-20T19:26:37.730788"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 424.5, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.3559026084010437, "step": 230, "recorded_at": "2025-09-20T19:27:47.596747"}
{"train/loss": 0.14770000000000003, "train/policy_loss": 0.14768365025520325, "train/entropy": 0.17905688285827637, "train/grad_norm": 0.6365513205528259, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 231, "recorded_at": "2025-09-20T19:27:52.702030"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 525.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 231, "recorded_at": "2025-09-20T19:29:07.594531"}
{"train/loss": -0.20395000000000002, "train/policy_loss": -0.20395106077194214, "train/entropy": 0.18608024716377258, "train/grad_norm": 0.5510260164737701, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 232, "recorded_at": "2025-09-20T19:29:12.741643"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 544.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 232, "recorded_at": "2025-09-20T19:30:22.431110"}
{"train/loss": -0.18555, "train/policy_loss": -0.18555884063243866, "train/entropy": 0.15749367326498032, "train/grad_norm": 0.47149060666561127, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 233, "recorded_at": "2025-09-20T19:30:27.514023"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 559.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 233, "recorded_at": "2025-09-20T19:31:38.746463"}
{"train/loss": -0.26635, "train/policy_loss": -0.2663489878177643, "train/entropy": 0.19156181812286377, "train/grad_norm": 0.47548727691173553, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 234, "recorded_at": "2025-09-20T19:31:43.878240"}
{"train/reward": 0.5499999999999999, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 735.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5499999999999999, "train/reward_std_dev": 0.3488074922742725, "step": 234, "recorded_at": "2025-09-20T19:33:52.223043"}
{"train/loss": 0.3158, "train/policy_loss": 0.3158038854598999, "train/entropy": 0.28348903357982635, "train/grad_norm": 0.339904822409153, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 235, "recorded_at": "2025-09-20T19:34:00.603689"}
{"train/reward": 0.13333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 659.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.13333333333333333, "train/reward_std_dev": 0.04714045207910317, "step": 235, "recorded_at": "2025-09-20T19:36:22.447662"}
{"train/loss": 0.05840000000000001, "train/policy_loss": 0.05841091275215149, "train/entropy": 0.2461787685751915, "train/grad_norm": 1.9477509558200836, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 236, "recorded_at": "2025-09-20T19:36:30.013321"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 842.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.17795130420052185, "step": 236, "recorded_at": "2025-09-20T19:38:17.964684"}
{"train/loss": 0.059233333333333305, "train/policy_loss": 0.05925567944844564, "train/entropy": 0.31595412890116376, "train/grad_norm": 0.3491501634319623, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 237, "recorded_at": "2025-09-20T19:38:25.426124"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 559.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 237, "recorded_at": "2025-09-20T19:39:33.335388"}
{"train/loss": 0.3136, "train/policy_loss": 0.3135915696620941, "train/entropy": 0.18976325541734695, "train/grad_norm": 0.37351280450820923, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 238, "recorded_at": "2025-09-20T19:39:38.419962"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 605.25, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 238, "recorded_at": "2025-09-20T19:41:33.316165"}
{"train/loss": -0.40280000000000005, "train/policy_loss": -0.40282711386680603, "train/entropy": 0.19542807340621948, "train/grad_norm": 0.3909469395875931, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 239, "recorded_at": "2025-09-20T19:41:40.816178"}
{"train/reward": 0.10000000000000002, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 570.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.10000000000000002, "train/reward_std_dev": 1.3877787807814457e-17, "step": 239, "recorded_at": "2025-09-20T19:42:59.403608"}
{"train/loss": 1.0084, "train/policy_loss": 1.008405476808548, "train/entropy": 0.18853937834501266, "train/grad_norm": 0.8780311793088913, "train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 240, "recorded_at": "2025-09-20T19:43:04.517679"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 399.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.3681787005729087, "step": 240, "recorded_at": "2025-09-20T19:44:07.479833"}
{"train/loss": -0.57695, "train/policy_loss": -0.5769568383693695, "train/entropy": 0.2201429232954979, "train/grad_norm": 0.8008132129907608, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 241, "recorded_at": "2025-09-20T19:44:12.548543"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 533.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 241, "recorded_at": "2025-09-20T19:45:17.213262"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 242, "recorded_at": "2025-09-20T19:45:17.213413"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 535.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 242, "recorded_at": "2025-09-20T19:46:28.695561"}
{"train/loss": 0.0254, "train/policy_loss": 0.025409188121557236, "train/entropy": 0.1745482087135315, "train/grad_norm": 0.25339099764823914, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 243, "recorded_at": "2025-09-20T19:46:31.691994"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 517.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 243, "recorded_at": "2025-09-20T19:47:43.342621"}
{"train/loss": -0.09905, "train/policy_loss": -0.09904564917087555, "train/entropy": 0.16141070425510406, "train/grad_norm": 0.3673190474510193, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 244, "recorded_at": "2025-09-20T19:47:48.431975"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 549.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 244, "recorded_at": "2025-09-20T19:49:00.447265"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 245, "recorded_at": "2025-09-20T19:49:00.447718"}
{"train/reward": 0.9166666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 697.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9166666666666666, "train/reward_std_dev": 0.023570226039551553, "step": 245, "recorded_at": "2025-09-20T19:50:48.425569"}
{"train/loss": -0.18136666666666668, "train/policy_loss": -0.18134697278340658, "train/entropy": 0.22534621755282083, "train/grad_norm": 0.46016863981882733, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 246, "recorded_at": "2025-09-20T19:50:55.901961"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 492.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.24494897427831783, "step": 246, "recorded_at": "2025-09-20T19:52:20.304764"}
{"train/loss": -0.15349999999999997, "train/policy_loss": -0.15351194143295288, "train/entropy": 0.15054694563150406, "train/grad_norm": 0.5177206993103027, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 247, "recorded_at": "2025-09-20T19:52:25.416068"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 611.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 247, "recorded_at": "2025-09-20T19:53:47.021627"}
{"train/loss": -0.21950000000000003, "train/policy_loss": -0.2194908857345581, "train/entropy": 0.1946510225534439, "train/grad_norm": 0.49514733254909515, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 248, "recorded_at": "2025-09-20T19:53:52.147057"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 685.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.2494438257849294, "step": 248, "recorded_at": "2025-09-20T19:55:21.169764"}
{"train/loss": 0.22, "train/policy_loss": 0.22002048045396805, "train/entropy": 0.25778909027576447, "train/grad_norm": 1.6773651242256165, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 249, "recorded_at": "2025-09-20T19:55:26.286135"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 404.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 249, "recorded_at": "2025-09-20T19:56:24.323028"}
{"train/loss": 0.25529999999999997, "train/policy_loss": 0.25527849793434143, "train/entropy": 0.1210000030696392, "train/grad_norm": 0.35178013145923615, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 250, "recorded_at": "2025-09-20T19:56:29.374114"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 427.72222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 250, "recorded_at": "2025-09-20T19:57:39.966938"}
{"train/loss": 0.37495, "train/policy_loss": 0.3749637007713318, "train/entropy": 0.22305920720100403, "train/grad_norm": 0.44901369512081146, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 251, "recorded_at": "2025-09-20T19:57:45.050033"}
{"train/reward": 0.9166666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 470.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9166666666666666, "train/reward_std_dev": 0.062360956446232366, "step": 251, "recorded_at": "2025-09-20T19:59:04.033476"}
{"train/loss": -0.1451, "train/policy_loss": -0.1450674831867218, "train/entropy": 0.15226995944976807, "train/grad_norm": 0.43749016523361206, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 252, "recorded_at": "2025-09-20T19:59:09.145973"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 506.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 252, "recorded_at": "2025-09-20T20:00:19.261223"}
{"train/loss": -0.25405, "train/policy_loss": -0.2540251761674881, "train/entropy": 0.15241094678640366, "train/grad_norm": 0.44493672251701355, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 253, "recorded_at": "2025-09-20T20:00:24.362586"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 481.5, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.4027681991198191, "step": 253, "recorded_at": "2025-09-20T20:01:29.634044"}
{"train/loss": 0.20985, "train/policy_loss": 0.20984241366386414, "train/entropy": 0.15700050070881844, "train/grad_norm": 0.3570348769426346, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 254, "recorded_at": "2025-09-20T20:01:34.709599"}
{"train/reward": 0.10000000000000002, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 903.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.10000000000000002, "train/reward_std_dev": 1.3877787807814457e-17, "step": 254, "recorded_at": "2025-09-20T20:04:16.847247"}
{"train/loss": 1.1243999999999998, "train/policy_loss": 1.1243993838628132, "train/entropy": 0.2525971482197444, "train/grad_norm": 0.4333654046058655, "train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 255, "recorded_at": "2025-09-20T20:04:28.058235"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 415.0555555555556, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.12247448713915893, "step": 255, "recorded_at": "2025-09-20T20:06:10.337463"}
{"train/loss": 0.45625, "train/policy_loss": 0.4562144875526428, "train/entropy": 0.23285993188619614, "train/grad_norm": 1.4090875461697578, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 256, "recorded_at": "2025-09-20T20:06:15.487206"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 860.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 256, "recorded_at": "2025-09-20T20:08:29.161419"}
{"train/loss": -0.18515000000000004, "train/policy_loss": -0.18518412113189697, "train/entropy": 0.2528149113059044, "train/grad_norm": 0.6951428055763245, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 257, "recorded_at": "2025-09-20T20:08:36.672282"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 487.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 257, "recorded_at": "2025-09-20T20:09:44.603463"}
{"train/loss": -0.14994999999999997, "train/policy_loss": -0.14994055032730103, "train/entropy": 0.1685641184449196, "train/grad_norm": 0.5421234518289566, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 258, "recorded_at": "2025-09-20T20:09:49.671099"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 734.8833333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.16996731711975951, "step": 258, "recorded_at": "2025-09-20T20:12:30.687888"}
{"train/loss": 0.37889999999999996, "train/policy_loss": 0.3788910210132599, "train/entropy": 0.29887497425079346, "train/grad_norm": 0.4241485968232155, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 259, "recorded_at": "2025-09-20T20:12:41.747908"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 403.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.09428090415820632, "step": 259, "recorded_at": "2025-09-20T20:13:38.448121"}
{"train/loss": -0.21825, "train/policy_loss": -0.2182449996471405, "train/entropy": 0.15006474405527115, "train/grad_norm": 0.7888552248477936, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 260, "recorded_at": "2025-09-20T20:13:43.529848"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 359.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.09428090415820634, "step": 260, "recorded_at": "2025-09-20T20:14:48.387084"}
{"train/loss": 0.0693, "train/policy_loss": 0.06929203122854233, "train/entropy": 0.1549927145242691, "train/grad_norm": 0.2942703366279602, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 261, "recorded_at": "2025-09-20T20:14:51.119579"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 535.9444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.16996731711975951, "step": 261, "recorded_at": "2025-09-20T20:16:17.661756"}
{"train/loss": -0.03320000000000003, "train/policy_loss": -0.03321577111879984, "train/entropy": 0.20784877240657806, "train/grad_norm": 0.5017892817656199, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 262, "recorded_at": "2025-09-20T20:16:25.131742"}
{"train/reward": 0.85, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 895.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.85, "train/reward_std_dev": 0.17795130420052185, "step": 262, "recorded_at": "2025-09-20T20:18:08.014826"}
{"train/loss": -0.13243333333333332, "train/policy_loss": -0.13244271278381348, "train/entropy": 0.3144224186738332, "train/grad_norm": 0.3199572414159775, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 263, "recorded_at": "2025-09-20T20:18:15.490994"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 504.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.0, "step": 263, "recorded_at": "2025-09-20T20:19:22.256977"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 264, "recorded_at": "2025-09-20T20:19:22.257134"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 520.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.14142135623730953, "step": 264, "recorded_at": "2025-09-20T20:20:34.070058"}
{"train/loss": 0.24295000000000003, "train/policy_loss": 0.24293509125709534, "train/entropy": 0.23011212050914764, "train/grad_norm": 0.7954976111650467, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 265, "recorded_at": "2025-09-20T20:20:39.166456"}
{"train/reward": 0.75, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 620.5555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.75, "train/reward_std_dev": 0.31885210782848317, "step": 265, "recorded_at": "2025-09-20T20:23:59.845805"}
{"train/loss": -0.15614999999999996, "train/policy_loss": -0.1561359167098999, "train/entropy": 0.1711216401308775, "train/grad_norm": 0.2762732207775116, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 266, "recorded_at": "2025-09-20T20:24:09.899091"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 726.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 266, "recorded_at": "2025-09-20T20:25:48.609378"}
{"train/loss": -0.2035, "train/policy_loss": -0.20347845554351807, "train/entropy": 0.298876295487086, "train/grad_norm": 0.40296123425165814, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 267, "recorded_at": "2025-09-20T20:25:56.071687"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 509.6111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 267, "recorded_at": "2025-09-20T20:27:12.007696"}
{"train/loss": 0.19990000000000002, "train/policy_loss": 0.19987618923187256, "train/entropy": 0.19413575530052185, "train/grad_norm": 0.4164898544549942, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 268, "recorded_at": "2025-09-20T20:27:17.075646"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 489.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.32998316455372223, "step": 268, "recorded_at": "2025-09-20T20:28:21.908400"}
{"train/loss": 0.18595, "train/policy_loss": 0.1859215646982193, "train/entropy": 0.17116595059633255, "train/grad_norm": 0.38276778161525726, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 269, "recorded_at": "2025-09-20T20:28:26.979790"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 687.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 269, "recorded_at": "2025-09-20T20:29:50.889101"}
{"train/loss": 0.11750000000000001, "train/policy_loss": 0.11751061677932739, "train/entropy": 0.26344385246435803, "train/grad_norm": 0.7556352615356445, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 270, "recorded_at": "2025-09-20T20:29:58.324345"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 488.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 270, "recorded_at": "2025-09-20T20:31:04.423951"}
{"train/loss": -0.1458, "train/policy_loss": -0.1457909196615219, "train/entropy": 0.16776322573423386, "train/grad_norm": 0.44428645074367523, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 271, "recorded_at": "2025-09-20T20:31:09.493005"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 522.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.32998316455372223, "step": 271, "recorded_at": "2025-09-20T20:32:16.347946"}
{"train/loss": 0.25134999999999996, "train/policy_loss": 0.2513628154993057, "train/entropy": 0.20051373541355133, "train/grad_norm": 0.6129201352596283, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 272, "recorded_at": "2025-09-20T20:32:21.467885"}
{"train/reward": 0.10000000000000002, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 511.0888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.10000000000000002, "train/reward_std_dev": 0.08164965809277261, "step": 272, "recorded_at": "2025-09-20T20:34:18.825148"}
{"train/loss": 0.0505, "train/policy_loss": 0.050522692501545084, "train/entropy": 0.233777217566967, "train/grad_norm": 0.16661100089550018, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 273, "recorded_at": "2025-09-20T20:34:26.298683"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 568.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 273, "recorded_at": "2025-09-20T20:35:39.858417"}
{"train/loss": 0.07799999999999999, "train/policy_loss": 0.07798133790493011, "train/entropy": 0.17768585681915283, "train/grad_norm": 0.5427101999521255, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 274, "recorded_at": "2025-09-20T20:35:44.902525"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 690.0333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 274, "recorded_at": "2025-09-20T20:38:02.746064"}
{"train/loss": 0.04475000000000001, "train/policy_loss": 0.044743120670318604, "train/entropy": 0.22784806787967682, "train/grad_norm": 0.3864619880914688, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 275, "recorded_at": "2025-09-20T20:38:10.281566"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 500.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 275, "recorded_at": "2025-09-20T20:39:30.649909"}
{"train/loss": 0.0154, "train/policy_loss": 0.01542175561189833, "train/entropy": 0.14077992737293243, "train/grad_norm": 0.20608286559581757, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 276, "recorded_at": "2025-09-20T20:39:35.700953"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 605.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.282842712474619, "step": 276, "recorded_at": "2025-09-20T20:40:59.405070"}
{"train/loss": 0.3635, "train/policy_loss": 0.36352479457855225, "train/entropy": 0.2045733407139778, "train/grad_norm": 0.45928776264190674, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 277, "recorded_at": "2025-09-20T20:41:04.494963"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 506.22222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.14142135623730953, "step": 277, "recorded_at": "2025-09-20T20:42:19.713992"}
{"train/loss": 0.2728, "train/policy_loss": 0.27277642488479614, "train/entropy": 0.15167154371738434, "train/grad_norm": 0.7492131888866425, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 278, "recorded_at": "2025-09-20T20:42:24.823315"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 946.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.14719601443879743, "step": 278, "recorded_at": "2025-09-20T20:44:38.174755"}
{"train/loss": -0.10960000000000003, "train/policy_loss": -0.10960930585861206, "train/entropy": 0.2687971293926239, "train/grad_norm": 0.2785104662179947, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 279, "recorded_at": "2025-09-20T20:44:45.717017"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 448.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.3299831645537222, "step": 279, "recorded_at": "2025-09-20T20:45:56.276219"}
{"train/loss": 0.016200000000000006, "train/policy_loss": 0.01618783175945282, "train/entropy": 0.1484551727771759, "train/grad_norm": 0.33893340453505516, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 280, "recorded_at": "2025-09-20T20:46:01.350446"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 417.0833333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 280, "recorded_at": "2025-09-20T20:47:28.132054"}
{"train/loss": -0.2882333333333334, "train/policy_loss": -0.28824130694071476, "train/entropy": 0.1810754934946696, "train/grad_norm": 0.5696824391682943, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 281, "recorded_at": "2025-09-20T20:47:35.524274"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 675.9555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.24944382578492946, "step": 281, "recorded_at": "2025-09-20T20:49:33.455667"}
{"train/loss": -0.25095, "train/policy_loss": -0.25096750259399414, "train/entropy": 0.2809854596853256, "train/grad_norm": 0.45876066386699677, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 282, "recorded_at": "2025-09-20T20:49:40.964243"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 549.4166666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 282, "recorded_at": "2025-09-20T20:51:35.445135"}
{"train/loss": -0.0008999999999999564, "train/policy_loss": -0.0009354948997497559, "train/entropy": 0.15749555826187134, "train/grad_norm": 0.9892749339342117, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 283, "recorded_at": "2025-09-20T20:51:42.949224"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 517.5555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 283, "recorded_at": "2025-09-20T20:52:54.779005"}
{"train/loss": 0.34309999999999996, "train/policy_loss": 0.3430899977684021, "train/entropy": 0.1739054024219513, "train/grad_norm": 0.8589589074254036, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 284, "recorded_at": "2025-09-20T20:52:59.891935"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 404.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 284, "recorded_at": "2025-09-20T20:53:58.571131"}
{"train/loss": 0.33490000000000003, "train/policy_loss": 0.33491766452789307, "train/entropy": 0.15907616168260574, "train/grad_norm": 1.041628822684288, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 285, "recorded_at": "2025-09-20T20:54:03.620363"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 472.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 285, "recorded_at": "2025-09-20T20:55:54.192726"}
{"train/loss": -0.021699999999999997, "train/policy_loss": -0.021707922220230103, "train/entropy": 0.1923677660524845, "train/grad_norm": 0.38233011960983276, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 286, "recorded_at": "2025-09-20T20:55:59.324287"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 778.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 286, "recorded_at": "2025-09-20T20:57:37.696229"}
{"train/loss": -0.07126666666666669, "train/policy_loss": -0.07124464710553487, "train/entropy": 0.3302280406157176, "train/grad_norm": 1.066872941950957, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 287, "recorded_at": "2025-09-20T20:57:45.157346"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 624.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.20548046676563253, "step": 287, "recorded_at": "2025-09-20T20:59:27.177617"}
{"train/loss": 0.15333333333333332, "train/policy_loss": 0.15333086252212524, "train/entropy": 0.23107200860977173, "train/grad_norm": 0.4029428958892822, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 288, "recorded_at": "2025-09-20T20:59:34.607917"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 425.47222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 288, "recorded_at": "2025-09-20T21:01:03.049172"}
{"train/loss": 0.0524, "train/policy_loss": 0.0523831844329834, "train/entropy": 0.2148586461941401, "train/grad_norm": 0.6821827987829844, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 289, "recorded_at": "2025-09-20T21:01:10.499981"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 622.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 289, "recorded_at": "2025-09-20T21:02:27.542485"}
{"train/loss": 0.03990000000000001, "train/policy_loss": 0.039920707543691, "train/entropy": 0.1730453222990036, "train/grad_norm": 0.6336517234643301, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 290, "recorded_at": "2025-09-20T21:02:35.001506"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 754.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.3091206165165235, "step": 290, "recorded_at": "2025-09-20T21:04:33.658757"}
{"train/loss": 0.21363333333333334, "train/policy_loss": 0.2136674920717875, "train/entropy": 0.26802628735701245, "train/grad_norm": 0.39586323499679565, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 291, "recorded_at": "2025-09-20T21:04:41.116904"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 463.1111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.062360956446232324, "step": 291, "recorded_at": "2025-09-20T21:06:02.495198"}
{"train/loss": 0.4474, "train/policy_loss": 0.4473848342895508, "train/entropy": 0.16043710708618164, "train/grad_norm": 0.6584710776805878, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 292, "recorded_at": "2025-09-20T21:06:07.578355"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 581.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 292, "recorded_at": "2025-09-20T21:07:26.010107"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 293, "recorded_at": "2025-09-20T21:07:26.010281"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 652.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551608, "step": 293, "recorded_at": "2025-09-20T21:08:38.974601"}
{"train/loss": 0.009799999999999994, "train/policy_loss": 0.009783784548441568, "train/entropy": 0.2043468008438746, "train/grad_norm": 0.48614930113156635, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 294, "recorded_at": "2025-09-20T21:08:46.439698"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 680.4166666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.3559026084010437, "step": 294, "recorded_at": "2025-09-20T21:10:44.097239"}
{"train/loss": 0.2821, "train/policy_loss": 0.28207990527153015, "train/entropy": 0.2049044370651245, "train/grad_norm": 0.7335434854030609, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 295, "recorded_at": "2025-09-20T21:10:51.654235"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 850.0, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.1885618083164127, "step": 295, "recorded_at": "2025-09-20T21:12:46.610268"}
{"train/loss": -0.26359999999999995, "train/policy_loss": -0.26360587775707245, "train/entropy": 0.2480001151561737, "train/grad_norm": 0.32368233799934387, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 296, "recorded_at": "2025-09-20T21:12:54.168600"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 815.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.1247219128924647, "step": 296, "recorded_at": "2025-09-20T21:15:42.701142"}
{"train/loss": 0.047750000000000015, "train/policy_loss": 0.04773637652397156, "train/entropy": 0.26836101710796356, "train/grad_norm": 0.4708072543144226, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 297, "recorded_at": "2025-09-20T21:15:50.296630"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 716.8000000000001, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 297, "recorded_at": "2025-09-20T21:17:54.207785"}
{"train/loss": -0.17705, "train/policy_loss": -0.17705462872982025, "train/entropy": 0.2673249989748001, "train/grad_norm": 0.3574777692556381, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 298, "recorded_at": "2025-09-20T21:18:01.735162"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 556.5833333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.21213203435596423, "step": 298, "recorded_at": "2025-09-20T21:20:02.104155"}
{"train/loss": -0.33440000000000003, "train/policy_loss": -0.3343922197818756, "train/entropy": 0.23682616651058197, "train/grad_norm": 0.38701610267162323, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 299, "recorded_at": "2025-09-20T21:20:09.716116"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 799.3888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 299, "recorded_at": "2025-09-20T21:22:02.125693"}
{"train/loss": -0.22365, "train/policy_loss": -0.22363999485969543, "train/entropy": 0.2700430899858475, "train/grad_norm": 0.3002946674823761, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 300, "recorded_at": "2025-09-20T21:22:09.651763"}
{"train/reward": 0.9499999999999998, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 587.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9499999999999998, "train/reward_std_dev": 1.1102230246251565e-16, "step": 300, "recorded_at": "2025-09-20T21:23:28.393001"}
{"train/loss": -0.9218999999999999, "train/policy_loss": -0.9219016134738922, "train/entropy": 0.2016667202115059, "train/grad_norm": 0.31145474314689636, "train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 301, "recorded_at": "2025-09-20T21:23:33.487327"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 531.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 301, "recorded_at": "2025-09-20T21:24:47.360880"}
{"train/loss": 0.5900000000000001, "train/policy_loss": 0.5899665355682373, "train/entropy": 0.2459430918097496, "train/grad_norm": 1.016914077103138, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 302, "recorded_at": "2025-09-20T21:24:52.460757"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 620.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246475, "step": 302, "recorded_at": "2025-09-20T21:26:10.050533"}
{"train/loss": -0.20625, "train/policy_loss": -0.20625263452529907, "train/entropy": 0.25540632009506226, "train/grad_norm": 0.3757890462875366, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 303, "recorded_at": "2025-09-20T21:26:15.160967"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 969.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.43204937989385733, "step": 303, "recorded_at": "2025-09-20T21:29:04.809161"}
{"train/loss": -0.20143333333333333, "train/policy_loss": -0.2014163335164388, "train/entropy": 0.34807388484477997, "train/grad_norm": 0.820327619711558, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 304, "recorded_at": "2025-09-20T21:29:15.894179"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 599.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 304, "recorded_at": "2025-09-20T21:30:32.200279"}
{"train/loss": 0.17515, "train/policy_loss": 0.17513558268547058, "train/entropy": 0.16546966135501862, "train/grad_norm": 0.36538927257061005, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 305, "recorded_at": "2025-09-20T21:30:37.286863"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 539.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.33993463423951903, "step": 305, "recorded_at": "2025-09-20T21:31:45.417543"}
{"train/loss": 0.27995, "train/policy_loss": 0.2799216955900192, "train/entropy": 0.1656440794467926, "train/grad_norm": 0.6645494848489761, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 306, "recorded_at": "2025-09-20T21:31:50.620746"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 648.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.14142135623730953, "step": 306, "recorded_at": "2025-09-20T21:33:15.086022"}
{"train/loss": 0.1632, "train/policy_loss": 0.16320103406906128, "train/entropy": 0.3002675473690033, "train/grad_norm": 0.5418232381343842, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 307, "recorded_at": "2025-09-20T21:33:20.186093"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 624.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.43204937989385733, "step": 307, "recorded_at": "2025-09-20T21:34:50.045450"}
{"train/loss": 0.02225000000000002, "train/policy_loss": 0.022255122661590576, "train/entropy": 0.2587549164891243, "train/grad_norm": 0.5523212477564812, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 308, "recorded_at": "2025-09-20T21:34:55.199299"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 477.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 308, "recorded_at": "2025-09-20T21:35:54.538416"}
{"train/loss": 0.0198, "train/policy_loss": 0.019791116937994957, "train/entropy": 0.1383807361125946, "train/grad_norm": 0.3686348795890808, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 309, "recorded_at": "2025-09-20T21:35:57.267138"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 557.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 309, "recorded_at": "2025-09-20T21:37:13.969010"}
{"train/loss": -0.46390000000000003, "train/policy_loss": -0.4638984501361847, "train/entropy": 0.19222741574048996, "train/grad_norm": 0.5423926711082458, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 310, "recorded_at": "2025-09-20T21:37:19.059457"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 515.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 310, "recorded_at": "2025-09-20T21:38:26.322050"}
{"train/loss": 0.27349999999999997, "train/policy_loss": 0.27351418137550354, "train/entropy": 0.21456050127744675, "train/grad_norm": 1.545074537396431, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 311, "recorded_at": "2025-09-20T21:38:31.402502"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 573.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 311, "recorded_at": "2025-09-20T21:39:39.766591"}
{"train/loss": 0.20165000000000002, "train/policy_loss": 0.20161519944667816, "train/entropy": 0.1494017243385315, "train/grad_norm": 0.5950183272361755, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 312, "recorded_at": "2025-09-20T21:39:44.870776"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 562.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.062360956446232366, "step": 312, "recorded_at": "2025-09-20T21:40:55.860396"}
{"train/loss": -0.02285000000000001, "train/policy_loss": -0.0228438600897789, "train/entropy": 0.20351169258356094, "train/grad_norm": 0.29126815870404243, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 313, "recorded_at": "2025-09-20T21:41:00.956504"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 376.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.26246692913372704, "step": 313, "recorded_at": "2025-09-20T21:42:00.598598"}
{"train/loss": 0.0773, "train/policy_loss": 0.07730867713689804, "train/entropy": 0.1655569225549698, "train/grad_norm": 0.5258190035820007, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 314, "recorded_at": "2025-09-20T21:42:03.353212"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 945.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 314, "recorded_at": "2025-09-20T21:43:40.990657"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 315, "recorded_at": "2025-09-20T21:43:40.990808"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 1109.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.16996731711975951, "step": 315, "recorded_at": "2025-09-20T21:46:27.400533"}
{"train/loss": 0.03954999999999999, "train/policy_loss": 0.03954724222421646, "train/entropy": 0.3556283116340637, "train/grad_norm": 0.22579209133982658, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 316, "recorded_at": "2025-09-20T21:46:34.962266"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 831.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 316, "recorded_at": "2025-09-20T21:48:04.124509"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 317, "recorded_at": "2025-09-20T21:48:04.124694"}
{"train/reward": 0.9166666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 838.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9166666666666666, "train/reward_std_dev": 0.062360956446232366, "step": 317, "recorded_at": "2025-09-20T21:49:29.784026"}
{"train/loss": 0.05925000000000001, "train/policy_loss": 0.059249937534332275, "train/entropy": 0.16159087419509888, "train/grad_norm": 0.3340076506137848, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 318, "recorded_at": "2025-09-20T21:49:34.893007"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 523.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.04714045207910316, "step": 318, "recorded_at": "2025-09-20T21:50:43.835918"}
{"train/loss": 0.3206, "train/policy_loss": 0.3205771893262863, "train/entropy": 0.14059435576200485, "train/grad_norm": 2.714097321033478, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 319, "recorded_at": "2025-09-20T21:50:48.914727"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 597.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.282842712474619, "step": 319, "recorded_at": "2025-09-20T21:52:06.996533"}
{"train/loss": -0.015966666666666646, "train/policy_loss": -0.015964011351267498, "train/entropy": 0.1526950349410375, "train/grad_norm": 0.5837349991003672, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 320, "recorded_at": "2025-09-20T21:52:14.461685"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 735.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.14142135623730953, "step": 320, "recorded_at": "2025-09-20T21:53:43.245533"}
{"train/loss": -0.021066666666666678, "train/policy_loss": -0.021084407965342205, "train/entropy": 0.2206090788046519, "train/grad_norm": 0.5561554332574209, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 321, "recorded_at": "2025-09-20T21:53:50.666145"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 505.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 321, "recorded_at": "2025-09-20T21:54:56.577359"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 322, "recorded_at": "2025-09-20T21:54:56.577538"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 444.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 322, "recorded_at": "2025-09-20T21:55:54.627495"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 323, "recorded_at": "2025-09-20T21:55:54.627643"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 388.5, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.23570226039551584, "step": 323, "recorded_at": "2025-09-20T21:56:54.217676"}
{"train/loss": 0.0828, "train/policy_loss": 0.08281642198562622, "train/entropy": 0.15086516737937927, "train/grad_norm": 0.35289886593818665, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 324, "recorded_at": "2025-09-20T21:56:56.959009"}
{"train/reward": 0.2333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 1082.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.2333333333333333, "train/reward_std_dev": 0.18856180831641267, "step": 324, "recorded_at": "2025-09-20T21:59:11.669284"}
{"train/loss": 0.09345, "train/policy_loss": 0.09343777596950531, "train/entropy": 0.3773352801799774, "train/grad_norm": 0.2803991213440895, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 325, "recorded_at": "2025-09-20T21:59:19.223802"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 693.7777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 325, "recorded_at": "2025-09-20T22:01:07.069584"}
{"train/loss": 0.2725, "train/policy_loss": 0.27251323064168403, "train/entropy": 0.21731469531853995, "train/grad_norm": 0.697284609079361, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 326, "recorded_at": "2025-09-20T22:01:14.571453"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 503.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.282842712474619, "step": 326, "recorded_at": "2025-09-20T22:02:23.261672"}
{"train/loss": 0.3598, "train/policy_loss": 0.35982418060302734, "train/entropy": 0.13011987134814262, "train/grad_norm": 0.6198704838752747, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 327, "recorded_at": "2025-09-20T22:02:28.485884"}
{"train/reward": 0.3666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 756.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.3666666666666667, "train/reward_std_dev": 0.09428090415820634, "step": 327, "recorded_at": "2025-09-20T22:04:00.839212"}
{"train/loss": -0.1419, "train/policy_loss": -0.14192849397659302, "train/entropy": 0.3586102823416392, "train/grad_norm": 0.5993497769037882, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 328, "recorded_at": "2025-09-20T22:04:08.263905"}
{"train/reward": 0.5666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 527.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5666666666666667, "train/reward_std_dev": 0.12472191289246469, "step": 328, "recorded_at": "2025-09-20T22:05:33.334949"}
{"train/loss": 0.4867, "train/policy_loss": 0.48670148849487305, "train/entropy": 0.24364209920167923, "train/grad_norm": 11.334647849202156, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 329, "recorded_at": "2025-09-20T22:05:38.453511"}
{"train/reward": 0.6166666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 458.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6166666666666666, "train/reward_std_dev": 0.26562295750848713, "step": 329, "recorded_at": "2025-09-20T22:06:43.614705"}
{"train/loss": 0.0654, "train/policy_loss": 0.06539469584822655, "train/entropy": 0.1996382772922516, "train/grad_norm": 0.3092615734785795, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 330, "recorded_at": "2025-09-20T22:06:48.699028"}
{"train/reward": 0.9866666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 610.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9866666666666667, "train/reward_std_dev": 0.009428090415820642, "step": 330, "recorded_at": "2025-09-20T22:08:05.982947"}
{"train/loss": -0.27415, "train/policy_loss": -0.274156391620636, "train/entropy": 0.20041917264461517, "train/grad_norm": 0.5453677326440811, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 331, "recorded_at": "2025-09-20T22:08:11.081702"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 636.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 331, "recorded_at": "2025-09-20T22:09:36.471958"}
{"train/loss": -0.11506666666666661, "train/policy_loss": -0.11504813035329182, "train/entropy": 0.21982886890570322, "train/grad_norm": 0.510601669549942, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 332, "recorded_at": "2025-09-20T22:09:43.954172"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 690.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.14142135623730953, "step": 332, "recorded_at": "2025-09-20T22:11:03.333411"}
{"train/loss": 0.03253333333333338, "train/policy_loss": 0.03250277042388916, "train/entropy": 0.24204228818416595, "train/grad_norm": 0.4888719618320465, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 333, "recorded_at": "2025-09-20T22:11:10.813557"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 541.0833333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.1649915822768611, "step": 333, "recorded_at": "2025-09-20T22:12:54.222346"}
{"train/loss": 0.0741, "train/policy_loss": 0.0741102397441864, "train/entropy": 0.19195960462093353, "train/grad_norm": 0.44958071410655975, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 334, "recorded_at": "2025-09-20T22:12:59.332215"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 569.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246473, "step": 334, "recorded_at": "2025-09-20T22:14:30.670960"}
{"train/loss": 0.50255, "train/policy_loss": 0.5025424063205719, "train/entropy": 0.2022726610302925, "train/grad_norm": 0.6166331246495247, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 335, "recorded_at": "2025-09-20T22:14:35.806120"}
{"train/reward": 0.4000000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 684.4, "train/independent_reward": 0.0, "train/ruler_score": 0.4000000000000001, "train/reward_std_dev": 0.28284271247461906, "step": 335, "recorded_at": "2025-09-20T22:17:48.857258"}
{"train/loss": 0.6678, "train/policy_loss": 0.6678332686424255, "train/entropy": 0.4866587668657303, "train/grad_norm": 0.8372219204902649, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 336, "recorded_at": "2025-09-20T22:17:59.006030"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 632.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.42426406871192857, "step": 336, "recorded_at": "2025-09-20T22:19:40.355578"}
{"train/loss": 0.03265000000000007, "train/policy_loss": 0.03264850378036499, "train/entropy": 0.20435203611850739, "train/grad_norm": 0.4634166657924652, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 337, "recorded_at": "2025-09-20T22:19:45.609914"}
{"train/reward": 0.8166666666666668, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 653.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8166666666666668, "train/reward_std_dev": 0.22484562605386735, "step": 337, "recorded_at": "2025-09-20T22:21:09.096615"}
{"train/loss": -0.028299999999999992, "train/policy_loss": -0.02831929922103882, "train/entropy": 0.1635248214006424, "train/grad_norm": 1.4762267271677654, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 338, "recorded_at": "2025-09-20T22:21:16.609825"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 745.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 338, "recorded_at": "2025-09-20T22:22:48.252304"}
{"train/loss": 0.08773333333333329, "train/policy_loss": 0.0877099434534719, "train/entropy": 0.20356019337972006, "train/grad_norm": 0.42674211661020917, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 339, "recorded_at": "2025-09-20T22:22:55.687357"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 711.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 339, "recorded_at": "2025-09-20T22:24:31.243157"}
{"train/loss": 0.1623, "train/policy_loss": 0.16231226921081543, "train/entropy": 0.20557336509227753, "train/grad_norm": 0.6891678422689438, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 340, "recorded_at": "2025-09-20T22:24:36.388004"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 495.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 340, "recorded_at": "2025-09-20T22:25:41.202398"}
{"train/loss": -0.14220000000000002, "train/policy_loss": -0.1421932727098465, "train/entropy": 0.15586970001459122, "train/grad_norm": 0.5196471214294434, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 341, "recorded_at": "2025-09-20T22:25:46.277602"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 598.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 341, "recorded_at": "2025-09-20T22:27:06.436821"}
{"train/loss": -0.12259999999999999, "train/policy_loss": -0.12264111638069153, "train/entropy": 0.17694091796875, "train/grad_norm": 0.4070909768342972, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 342, "recorded_at": "2025-09-20T22:27:11.513549"}
{"train/reward": 0.06666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 2816.1666666666665, "train/independent_reward": 0.0, "train/ruler_score": 0.06666666666666667, "train/reward_std_dev": 0.09428090415820635, "step": 342, "recorded_at": "2025-09-20T22:31:47.563707"}
{"train/loss": -0.11169999999999998, "train/policy_loss": -0.11171261469523112, "train/entropy": 0.5453981856505076, "train/grad_norm": 0.1916239857673645, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 343, "recorded_at": "2025-09-20T22:32:02.616907"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 497.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 343, "recorded_at": "2025-09-20T22:33:15.822555"}
{"train/loss": 0.0083, "train/policy_loss": 0.008319421671330929, "train/entropy": 0.1730160117149353, "train/grad_norm": 0.46633973717689514, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 344, "recorded_at": "2025-09-20T22:33:18.608929"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 467.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 344, "recorded_at": "2025-09-20T22:34:15.345251"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 345, "recorded_at": "2025-09-20T22:34:15.345397"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 629.0555555555555, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4714045207910317, "step": 345, "recorded_at": "2025-09-20T22:36:09.487989"}
{"train/loss": -0.24145, "train/policy_loss": -0.24146589636802673, "train/entropy": 0.21160093694925308, "train/grad_norm": 0.4363907277584076, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 346, "recorded_at": "2025-09-20T22:36:17.006886"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 526.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 346, "recorded_at": "2025-09-20T22:37:27.210577"}
{"train/loss": 0.0394, "train/policy_loss": 0.03937412425875664, "train/entropy": 0.2385433465242386, "train/grad_norm": 0.3739200830459595, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 347, "recorded_at": "2025-09-20T22:37:29.920145"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 503.3666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 347, "recorded_at": "2025-09-20T22:39:52.657445"}
{"train/loss": -0.2806, "train/policy_loss": -0.2805763781070709, "train/entropy": 0.2512323707342148, "train/grad_norm": 0.44155192375183105, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 348, "recorded_at": "2025-09-20T22:40:00.221374"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 453.9166666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246475, "step": 348, "recorded_at": "2025-09-20T22:41:27.888349"}
{"train/loss": 0.1263, "train/policy_loss": 0.12627628445625305, "train/entropy": 0.20772170523802438, "train/grad_norm": 0.5431394974390665, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 349, "recorded_at": "2025-09-20T22:41:35.307912"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 838.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.4109609335312651, "step": 349, "recorded_at": "2025-09-20T22:43:20.036825"}
{"train/loss": -0.22469999999999998, "train/policy_loss": -0.22467751304308572, "train/entropy": 0.24049019316832224, "train/grad_norm": 0.656102734307448, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 350, "recorded_at": "2025-09-20T22:43:27.801055"}
{"train/reward": 0.98, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 481.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.98, "train/reward_std_dev": 0.016329931618554536, "step": 350, "recorded_at": "2025-09-20T22:44:36.348182"}
{"train/loss": 0.0165, "train/policy_loss": 0.016534904018044472, "train/entropy": 0.15679098665714264, "train/grad_norm": 0.31758639216423035, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 351, "recorded_at": "2025-09-20T22:44:39.143182"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 516.8666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.3423773097362356, "step": 351, "recorded_at": "2025-09-20T22:46:20.372694"}
{"train/loss": -0.2925333333333333, "train/policy_loss": -0.292549471060435, "train/entropy": 0.2653512905041377, "train/grad_norm": 0.5303790668646494, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 352, "recorded_at": "2025-09-20T22:46:27.803341"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 1066.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.33993463423951903, "step": 352, "recorded_at": "2025-09-20T22:48:57.692052"}
{"train/loss": 0.0035499999999999976, "train/policy_loss": 0.003569483757019043, "train/entropy": 0.26773691922426224, "train/grad_norm": 0.49112407863140106, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 353, "recorded_at": "2025-09-20T22:49:05.236757"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 788.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 353, "recorded_at": "2025-09-20T22:50:42.848186"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 354, "recorded_at": "2025-09-20T22:50:42.848333"}
{"train/reward": 0.8166666666666668, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 749.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8166666666666668, "train/reward_std_dev": 0.13123346456686352, "step": 354, "recorded_at": "2025-09-20T22:52:12.409107"}
{"train/loss": -0.09086666666666669, "train/policy_loss": -0.09086724122365315, "train/entropy": 0.3113426963488261, "train/grad_norm": 0.6198456287384033, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 355, "recorded_at": "2025-09-20T22:52:19.877583"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 385.0, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.23570226039551584, "step": 355, "recorded_at": "2025-09-20T22:53:21.196466"}
{"train/loss": 0.0456, "train/policy_loss": 0.04555055871605873, "train/entropy": 0.16424846649169922, "train/grad_norm": 0.45620739459991455, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 356, "recorded_at": "2025-09-20T22:53:23.950152"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 465.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 356, "recorded_at": "2025-09-20T22:54:29.505092"}
{"train/loss": 0.7095, "train/policy_loss": 0.7095040380954742, "train/entropy": 0.1634153425693512, "train/grad_norm": 0.7007708624005318, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 357, "recorded_at": "2025-09-20T22:54:34.565866"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 634.3888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.26246692913372704, "step": 357, "recorded_at": "2025-09-20T22:57:23.483514"}
{"train/loss": -0.21200000000000002, "train/policy_loss": -0.2120233178138733, "train/entropy": 0.2217082791030407, "train/grad_norm": 0.2925258055329323, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 358, "recorded_at": "2025-09-20T22:57:31.110616"}
{"train/reward": 0.0, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 1276.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.0, "train/reward_std_dev": 0.0, "step": 358, "recorded_at": "2025-09-20T23:01:01.773454"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 359, "recorded_at": "2025-09-20T23:01:01.773646"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 1052.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 359, "recorded_at": "2025-09-20T23:03:04.644936"}
{"train/loss": 0.17455000000000004, "train/policy_loss": 0.17454937100410461, "train/entropy": 0.3468043804168701, "train/grad_norm": 0.4325248450040817, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 360, "recorded_at": "2025-09-20T23:03:09.732182"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 563.8888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.04082482904638629, "step": 360, "recorded_at": "2025-09-20T23:04:50.698157"}
{"train/loss": -0.20690000000000003, "train/policy_loss": -0.2069052755832672, "train/entropy": 0.16092973947525024, "train/grad_norm": 0.656519740819931, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 361, "recorded_at": "2025-09-20T23:04:55.824543"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 567.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 361, "recorded_at": "2025-09-20T23:06:08.045824"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 362, "recorded_at": "2025-09-20T23:06:08.045983"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 978.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551608, "step": 362, "recorded_at": "2025-09-20T23:07:50.777496"}
{"train/loss": -0.06430000000000007, "train/policy_loss": -0.06430965662002563, "train/entropy": 0.25578484932581586, "train/grad_norm": 0.44004295269648236, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 363, "recorded_at": "2025-09-20T23:07:58.296438"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 691.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.062360956446232366, "step": 363, "recorded_at": "2025-09-20T23:09:18.405923"}
{"train/loss": 0.11293333333333337, "train/policy_loss": 0.11293818553288777, "train/entropy": 0.17944803833961487, "train/grad_norm": 0.570163294672966, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 364, "recorded_at": "2025-09-20T23:09:25.829480"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 627.1111111111111, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 364, "recorded_at": "2025-09-20T23:10:56.630773"}
{"train/loss": 0.02736666666666665, "train/policy_loss": 0.027370353539784748, "train/entropy": 0.24415668348471323, "train/grad_norm": 8.417450388272604, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 365, "recorded_at": "2025-09-20T23:11:04.079251"}
{"train/reward": 0.9766666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 587.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9766666666666666, "train/reward_std_dev": 0.020548046676563275, "step": 365, "recorded_at": "2025-09-20T23:12:20.839442"}
{"train/loss": -0.2284, "train/policy_loss": -0.22838616371154785, "train/entropy": 0.196325846016407, "train/grad_norm": 0.4603281170129776, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 366, "recorded_at": "2025-09-20T23:12:25.929483"}
{"train/reward": 0.46666666666666673, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 690.0, "train/independent_reward": 0.0, "train/ruler_score": 0.46666666666666673, "train/reward_std_dev": 0.3299831645537222, "step": 366, "recorded_at": "2025-09-20T23:13:42.030195"}
{"train/loss": 0.33075, "train/policy_loss": 0.3307374119758606, "train/entropy": 0.29109661281108856, "train/grad_norm": 0.5224158316850662, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 367, "recorded_at": "2025-09-20T23:13:47.121269"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 628.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.37712361663282534, "step": 367, "recorded_at": "2025-09-20T23:15:03.517554"}
{"train/loss": 0.1699, "train/policy_loss": 0.1699078381061554, "train/entropy": 0.21415720880031586, "train/grad_norm": 0.6704891473054886, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 368, "recorded_at": "2025-09-20T23:15:08.606288"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 610.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.16329931618554522, "step": 368, "recorded_at": "2025-09-20T23:16:26.086982"}
{"train/loss": -0.23755000000000004, "train/policy_loss": -0.2375694215297699, "train/entropy": 0.2174360156059265, "train/grad_norm": 0.895448237657547, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 369, "recorded_at": "2025-09-20T23:16:31.265225"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 599.5, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 369, "recorded_at": "2025-09-20T23:17:45.911993"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 370, "recorded_at": "2025-09-20T23:17:45.912171"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 547.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.1885618083164127, "step": 370, "recorded_at": "2025-09-20T23:18:54.397443"}
{"train/loss": -0.24255000000000002, "train/policy_loss": -0.2425651252269745, "train/entropy": 0.15339960157871246, "train/grad_norm": 0.4715293049812317, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 371, "recorded_at": "2025-09-20T23:18:59.522197"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 566.0, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 371, "recorded_at": "2025-09-20T23:20:06.583460"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 372, "recorded_at": "2025-09-20T23:20:06.583731"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 535.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 372, "recorded_at": "2025-09-20T23:21:20.175592"}
{"train/loss": -0.027466666666666622, "train/policy_loss": -0.027452389399210613, "train/entropy": 0.16422352194786072, "train/grad_norm": 0.6108825852473577, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 373, "recorded_at": "2025-09-20T23:21:27.585356"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 924.6, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 373, "recorded_at": "2025-09-20T23:24:18.275673"}
{"train/loss": 0.08029999999999998, "train/policy_loss": 0.08026927709579468, "train/entropy": 0.42967382073402405, "train/grad_norm": 0.3442259430885315, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 374, "recorded_at": "2025-09-20T23:24:25.873446"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 731.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.08164965809277258, "step": 374, "recorded_at": "2025-09-20T23:25:51.358839"}
{"train/loss": -0.07330000000000003, "train/policy_loss": -0.07329294085502625, "train/entropy": 0.28921985626220703, "train/grad_norm": 0.7746417224407196, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 375, "recorded_at": "2025-09-20T23:25:56.442494"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 506.6666666666667, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 375, "recorded_at": "2025-09-20T23:27:11.792582"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 376, "recorded_at": "2025-09-20T23:27:11.792733"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 802.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.33993463423951903, "step": 376, "recorded_at": "2025-09-20T23:29:05.898861"}
{"train/loss": 0.13474999999999998, "train/policy_loss": 0.13476663082838058, "train/entropy": 0.30667293071746826, "train/grad_norm": 0.6415366232395172, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 377, "recorded_at": "2025-09-20T23:29:13.467775"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 596.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 377, "recorded_at": "2025-09-20T23:30:25.664911"}
{"train/loss": -0.13305, "train/policy_loss": -0.133022740483284, "train/entropy": 0.1595965325832367, "train/grad_norm": 0.3621407449245453, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 378, "recorded_at": "2025-09-20T23:30:30.785101"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 542.5, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.14142135623730953, "step": 378, "recorded_at": "2025-09-20T23:31:35.728346"}
{"train/loss": 0.36150000000000004, "train/policy_loss": 0.3614635169506073, "train/entropy": 0.1150510199368, "train/grad_norm": 0.4887734428048134, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 379, "recorded_at": "2025-09-20T23:31:40.833668"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 584.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.24494897427831783, "step": 379, "recorded_at": "2025-09-20T23:32:54.714951"}
{"train/loss": 0.0199, "train/policy_loss": 0.019941341131925583, "train/entropy": 0.1790492683649063, "train/grad_norm": 1.1235191822052002, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 380, "recorded_at": "2025-09-20T23:32:57.454438"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 472.1666666666667, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.12472191289246473, "step": 380, "recorded_at": "2025-09-20T23:34:03.055191"}
{"train/loss": 0.44975000000000004, "train/policy_loss": 0.44976454973220825, "train/entropy": 0.16428323835134506, "train/grad_norm": 0.8193491101264954, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 381, "recorded_at": "2025-09-20T23:34:08.140128"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 531.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.26246692913372704, "step": 381, "recorded_at": "2025-09-20T23:35:26.526885"}
{"train/loss": 0.24580000000000002, "train/policy_loss": 0.24581637978553772, "train/entropy": 0.19780918210744858, "train/grad_norm": 0.7525588124990463, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 382, "recorded_at": "2025-09-20T23:35:31.631313"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 594.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 382, "recorded_at": "2025-09-20T23:36:50.338919"}
{"train/loss": 0.06645, "train/policy_loss": 0.06646324694156806, "train/entropy": 0.22123918682336807, "train/grad_norm": 0.28012901544570923, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 383, "recorded_at": "2025-09-20T23:36:55.423258"}
{"train/reward": 0.5666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 981.5, "train/independent_reward": 0.0, "train/ruler_score": 0.5666666666666667, "train/reward_std_dev": 0.30912061651652345, "step": 383, "recorded_at": "2025-09-20T23:38:52.581115"}
{"train/loss": 0.15375, "train/policy_loss": 0.15374569594860077, "train/entropy": 0.28943799436092377, "train/grad_norm": 0.44412364065647125, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 384, "recorded_at": "2025-09-20T23:39:00.161446"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 563.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.4496912521077347, "step": 384, "recorded_at": "2025-09-20T23:40:21.354756"}
{"train/loss": 0.1382, "train/policy_loss": 0.13816094398498535, "train/entropy": 0.1938389241695404, "train/grad_norm": 0.4145709127187729, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 385, "recorded_at": "2025-09-20T23:40:26.539527"}
{"train/reward": 0.9333333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 635.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9333333333333332, "train/reward_std_dev": 0.062360956446232366, "step": 385, "recorded_at": "2025-09-20T23:41:44.838112"}
{"train/loss": 0.23199999999999993, "train/policy_loss": 0.23201435804367065, "train/entropy": 0.1836317926645279, "train/grad_norm": 0.5715212225914001, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 386, "recorded_at": "2025-09-20T23:41:49.942606"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 825.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 386, "recorded_at": "2025-09-20T23:43:35.307549"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 387, "recorded_at": "2025-09-20T23:43:35.307707"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 1012.0, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.37416573867739417, "step": 387, "recorded_at": "2025-09-20T23:46:09.520503"}
{"train/loss": 0.018200000000000008, "train/policy_loss": 0.018219776451587677, "train/entropy": 0.3369787782430649, "train/grad_norm": 0.5802503302693367, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 388, "recorded_at": "2025-09-20T23:46:17.040334"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 441.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.30912061651652345, "step": 388, "recorded_at": "2025-09-20T23:47:23.667453"}
{"train/loss": 0.5269999999999999, "train/policy_loss": 0.5269661545753479, "train/entropy": 0.23340725153684616, "train/grad_norm": 0.752054825425148, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 389, "recorded_at": "2025-09-20T23:47:28.735305"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 733.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 389, "recorded_at": "2025-09-20T23:49:01.238163"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 390, "recorded_at": "2025-09-20T23:49:01.238348"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 552.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.23570226039551584, "step": 390, "recorded_at": "2025-09-20T23:50:22.557185"}
{"train/loss": -0.046499999999999986, "train/policy_loss": -0.04651018977165222, "train/entropy": 0.17833252251148224, "train/grad_norm": 0.3839951306581497, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 391, "recorded_at": "2025-09-20T23:50:27.664794"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 711.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.33993463423951903, "step": 391, "recorded_at": "2025-09-20T23:51:50.026896"}
{"train/loss": 0.014666666666666698, "train/policy_loss": 0.014693498611450195, "train/entropy": 0.271997998158137, "train/grad_norm": 0.5626283288002014, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 392, "recorded_at": "2025-09-20T23:51:57.497253"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 424.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 392, "recorded_at": "2025-09-20T23:53:01.496678"}
{"train/loss": -0.15435, "train/policy_loss": -0.1543860137462616, "train/entropy": 0.13362985849380493, "train/grad_norm": 1.2724236845970154, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 393, "recorded_at": "2025-09-20T23:53:06.641767"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 531.4444444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.4027681991198191, "step": 393, "recorded_at": "2025-09-20T23:55:35.705172"}
{"train/loss": -0.23575000000000002, "train/policy_loss": -0.2357550859451294, "train/entropy": 0.2223048247396946, "train/grad_norm": 1.1316000521183014, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 394, "recorded_at": "2025-09-20T23:55:43.224707"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 971.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.14142135623730953, "step": 394, "recorded_at": "2025-09-20T23:57:41.306066"}
{"train/loss": -0.13834999999999997, "train/policy_loss": -0.13835890591144562, "train/entropy": 0.3053402900695801, "train/grad_norm": 0.5290721505880356, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 395, "recorded_at": "2025-09-20T23:57:48.815322"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 757.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.1885618083164127, "step": 395, "recorded_at": "2025-09-20T23:59:35.194798"}
{"train/loss": -0.2860666666666667, "train/policy_loss": -0.2860326369603475, "train/entropy": 0.2525480439265569, "train/grad_norm": 0.5017553269863129, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 396, "recorded_at": "2025-09-20T23:59:42.634034"}
{"train/reward": 0.9766666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 588.0, "train/independent_reward": 0.0, "train/ruler_score": 0.9766666666666666, "train/reward_std_dev": 0.020548046676563275, "step": 396, "recorded_at": "2025-09-21T00:00:53.683021"}
{"train/loss": -0.2359, "train/policy_loss": -0.23590856790542603, "train/entropy": 0.16333334147930145, "train/grad_norm": 1.0567844212055206, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 397, "recorded_at": "2025-09-21T00:00:58.789584"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 617.5, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.33993463423951903, "step": 397, "recorded_at": "2025-09-21T00:02:23.722703"}
{"train/loss": 0.17773333333333333, "train/policy_loss": 0.17772762974103293, "train/entropy": 0.2033715397119522, "train/grad_norm": 0.5628155469894409, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 398, "recorded_at": "2025-09-21T00:02:31.154712"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 945.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.24944382578492943, "step": 398, "recorded_at": "2025-09-21T00:05:52.555411"}
{"train/loss": -0.004750000000000004, "train/policy_loss": -0.004740141332149506, "train/entropy": 0.31942247599363327, "train/grad_norm": 0.37972375750541687, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 399, "recorded_at": "2025-09-21T00:06:02.649719"}
{"train/reward": 0.6833333333333332, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 1078.3333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6833333333333332, "train/reward_std_dev": 0.2718251071716682, "step": 399, "recorded_at": "2025-09-21T00:08:22.056453"}
{"train/loss": -0.10170000000000001, "train/policy_loss": -0.10169871151447296, "train/entropy": 0.2602270469069481, "train/grad_norm": 0.963852047920227, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 400, "recorded_at": "2025-09-21T00:08:29.632222"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 536.2777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 400, "recorded_at": "2025-09-21T00:09:58.731594"}
{"train/loss": -0.19913333333333338, "train/policy_loss": -0.19915721813837686, "train/entropy": 0.22077680130799612, "train/grad_norm": 0.5065750380357107, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 401, "recorded_at": "2025-09-21T00:10:06.143300"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 563.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.42426406871192845, "step": 401, "recorded_at": "2025-09-21T00:11:22.715362"}
{"train/loss": 0.17855000000000001, "train/policy_loss": 0.17850518226623535, "train/entropy": 0.2327125445008278, "train/grad_norm": 0.9423838555812836, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 402, "recorded_at": "2025-09-21T00:11:27.817363"}
{"train/reward": 0.3, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 783.5, "train/independent_reward": 0.0, "train/ruler_score": 0.3, "train/reward_std_dev": 0.3559026084010437, "step": 402, "recorded_at": "2025-09-21T00:13:25.557034"}
{"train/loss": 0.03550000000000003, "train/policy_loss": 0.03549131751060486, "train/entropy": 0.19437948614358902, "train/grad_norm": 0.7180821299552917, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 403, "recorded_at": "2025-09-21T00:13:30.682372"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 724.8888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.12472191289246475, "step": 403, "recorded_at": "2025-09-21T00:15:31.963300"}
{"train/loss": 0.7235, "train/policy_loss": 0.723507285118103, "train/entropy": 0.2510651797056198, "train/grad_norm": 0.818940669298172, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 404, "recorded_at": "2025-09-21T00:15:39.462463"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 671.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.32659863237109044, "step": 404, "recorded_at": "2025-09-21T00:18:21.961464"}
{"train/loss": -0.6405000000000001, "train/policy_loss": -0.6405116021633148, "train/entropy": 0.3121534585952759, "train/grad_norm": 1.9289241433143616, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 405, "recorded_at": "2025-09-21T00:18:29.505852"}
{"train/reward": 0.5666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 722.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5666666666666667, "train/reward_std_dev": 0.28674417556808757, "step": 405, "recorded_at": "2025-09-21T00:20:26.458109"}
{"train/loss": 0.06486666666666664, "train/policy_loss": 0.06487604975700378, "train/entropy": 0.23942487935225168, "train/grad_norm": 0.946524395296971, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 406, "recorded_at": "2025-09-21T00:20:33.923549"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 487.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 406, "recorded_at": "2025-09-21T00:21:43.382581"}
{"train/loss": -0.21269999999999997, "train/policy_loss": -0.21267245709896088, "train/entropy": 0.15496649593114853, "train/grad_norm": 1.0064448118209839, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 407, "recorded_at": "2025-09-21T00:21:48.448104"}
{"train/reward": 0.19999999999999998, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 617.0, "train/independent_reward": 0.0, "train/ruler_score": 0.19999999999999998, "train/reward_std_dev": 0.0816496580927726, "step": 407, "recorded_at": "2025-09-21T00:23:20.671541"}
{"train/loss": 0.27340000000000003, "train/policy_loss": 0.2733902037143707, "train/entropy": 0.22477716207504272, "train/grad_norm": 0.5334996432065964, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 408, "recorded_at": "2025-09-21T00:23:25.784222"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 3441.8333333333335, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.23570226039551584, "step": 408, "recorded_at": "2025-09-21T00:29:01.472875"}
{"train/loss": -0.0958, "train/policy_loss": -0.0958027442296346, "train/entropy": 0.40500959753990173, "train/grad_norm": 0.23302303751309714, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 409, "recorded_at": "2025-09-21T00:29:20.942182"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 2014.888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.1414213562373095, "step": 409, "recorded_at": "2025-09-21T00:36:37.378161"}
{"train/loss": -0.11664999999999998, "train/policy_loss": -0.11663895845413208, "train/entropy": 0.360423244535923, "train/grad_norm": 0.13595187664031982, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 410, "recorded_at": "2025-09-21T00:36:57.069347"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 633.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246475, "step": 410, "recorded_at": "2025-09-21T00:38:16.560280"}
{"train/loss": 0.18673333333333333, "train/policy_loss": 0.1867292324701945, "train/entropy": 0.22508487105369568, "train/grad_norm": 0.6461165994405746, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 411, "recorded_at": "2025-09-21T00:38:23.993428"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 546.7222222222223, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.09428090415820638, "step": 411, "recorded_at": "2025-09-21T00:39:47.933110"}
{"train/loss": -0.09406666666666667, "train/policy_loss": -0.09405253330866496, "train/entropy": 0.19010395308335623, "train/grad_norm": 0.7503864268461863, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 412, "recorded_at": "2025-09-21T00:39:55.381697"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 728.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.09428090415820632, "step": 412, "recorded_at": "2025-09-21T00:41:30.432208"}
{"train/loss": -0.3684999999999999, "train/policy_loss": -0.3684842586517334, "train/entropy": 0.2756420473257701, "train/grad_norm": 0.7956426541010538, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 413, "recorded_at": "2025-09-21T00:41:37.973937"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 571.2777777777778, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.2449489742783178, "step": 413, "recorded_at": "2025-09-21T00:43:17.054227"}
{"train/loss": -0.17306666666666662, "train/policy_loss": -0.17307102680206274, "train/entropy": 0.2601762463649114, "train/grad_norm": 0.5722129940986633, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 414, "recorded_at": "2025-09-21T00:43:24.462995"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 505.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 414, "recorded_at": "2025-09-21T00:44:35.640024"}
{"train/loss": 0.2426, "train/policy_loss": 0.24260357022285461, "train/entropy": 0.12340335547924042, "train/grad_norm": 0.9657908529043198, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 415, "recorded_at": "2025-09-21T00:44:40.716169"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 354.0, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.282842712474619, "step": 415, "recorded_at": "2025-09-21T00:45:36.886898"}
{"train/loss": 0.0692, "train/policy_loss": 0.06922660022974014, "train/entropy": 0.1267579048871994, "train/grad_norm": 0.4331304132938385, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 416, "recorded_at": "2025-09-21T00:45:39.623123"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 457.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.4496912521077347, "step": 416, "recorded_at": "2025-09-21T00:46:45.466034"}
{"train/loss": 0.4043, "train/policy_loss": 0.40428659319877625, "train/entropy": 0.14662018418312073, "train/grad_norm": 0.8952317237854004, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 417, "recorded_at": "2025-09-21T00:46:50.593455"}
{"train/reward": 0.75, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 771.75, "train/independent_reward": 0.0, "train/ruler_score": 0.75, "train/reward_std_dev": 0.31885210782848317, "step": 417, "recorded_at": "2025-09-21T00:49:02.459724"}
{"train/loss": 0.10520000000000002, "train/policy_loss": 0.1052112877368927, "train/entropy": 0.21415294706821442, "train/grad_norm": 0.6680567562580109, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 418, "recorded_at": "2025-09-21T00:49:09.994080"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 635.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.24494897427831783, "step": 418, "recorded_at": "2025-09-21T00:50:27.630898"}
{"train/loss": -0.0012500000000000289, "train/policy_loss": -0.0012335777282714844, "train/entropy": 0.22611954808235168, "train/grad_norm": 0.6505763530731201, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 419, "recorded_at": "2025-09-21T00:50:32.695048"}
{"train/reward": 0.5333333333333333, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 1119.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.5333333333333333, "train/reward_std_dev": 0.32998316455372223, "step": 419, "recorded_at": "2025-09-21T00:52:46.455246"}
{"train/loss": 0.11830000000000002, "train/policy_loss": 0.11827695369720459, "train/entropy": 0.29184162616729736, "train/grad_norm": 0.3735073581337929, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 420, "recorded_at": "2025-09-21T00:52:54.044735"}
{"train/reward": 0.6333333333333333, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 718.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6333333333333333, "train/reward_std_dev": 0.4496912521077347, "step": 420, "recorded_at": "2025-09-21T00:54:40.436914"}
{"train/loss": -0.12423333333333335, "train/policy_loss": -0.12425555785497029, "train/entropy": 0.22797726591428122, "train/grad_norm": 0.7515308360258738, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 421, "recorded_at": "2025-09-21T00:54:47.945917"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 620.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 421, "recorded_at": "2025-09-21T00:56:01.893834"}
{"train/loss": -0.006266666666666643, "train/policy_loss": -0.006237149238586426, "train/entropy": 0.16380897164344788, "train/grad_norm": 1.0503546794255574, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 422, "recorded_at": "2025-09-21T00:56:09.377269"}
{"train/reward": 0.6666666666666666, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 608.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.6666666666666666, "train/reward_std_dev": 0.3324989557210001, "step": 422, "recorded_at": "2025-09-21T00:57:25.533255"}
{"train/loss": -0.15155000000000002, "train/policy_loss": -0.1515405774116516, "train/entropy": 0.1831832453608513, "train/grad_norm": 0.5767499208450317, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 423, "recorded_at": "2025-09-21T00:57:30.643564"}
{"train/reward": 0.43333333333333335, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 877.5, "train/independent_reward": 0.0, "train/ruler_score": 0.43333333333333335, "train/reward_std_dev": 0.2357022603955158, "step": 423, "recorded_at": "2025-09-21T00:59:13.592827"}
{"train/loss": 0.027466666666666677, "train/policy_loss": 0.027450740337371826, "train/entropy": 0.2641120105981827, "train/grad_norm": 0.5298894345760345, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 424, "recorded_at": "2025-09-21T00:59:21.059324"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 677.3888888888888, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 424, "recorded_at": "2025-09-21T01:01:45.389610"}
{"train/loss": 0.03444999999999998, "train/policy_loss": 0.03444144129753113, "train/entropy": 0.24903611838817596, "train/grad_norm": 1.56435626745224, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 425, "recorded_at": "2025-09-21T01:01:52.963362"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 2072.944444444445, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 425, "recorded_at": "2025-09-21T01:06:39.161582"}
{"train/loss": 0.6887333333333333, "train/policy_loss": 0.6887330214182547, "train/entropy": 0.5061382055282593, "train/grad_norm": 0.4254116664330165, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 426, "recorded_at": "2025-09-21T01:06:58.451859"}
{"train/reward": 0.9, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 683.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9, "train/reward_std_dev": 0.04082482904638629, "step": 426, "recorded_at": "2025-09-21T01:08:31.186439"}
{"train/loss": 0.32660000000000006, "train/policy_loss": 0.3266136050224304, "train/entropy": 0.21501057595014572, "train/grad_norm": 0.9127519130706787, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 427, "recorded_at": "2025-09-21T01:08:36.328480"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 664.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 427, "recorded_at": "2025-09-21T01:10:01.096184"}
{"train/loss": -0.18685000000000002, "train/policy_loss": -0.1868172585964203, "train/entropy": 0.23783902823925018, "train/grad_norm": 0.6265619248151779, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 428, "recorded_at": "2025-09-21T01:10:06.305613"}
{"train/reward": 0.10000000000000002, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 549.2222222222222, "train/independent_reward": 0.0, "train/ruler_score": 0.10000000000000002, "train/reward_std_dev": 0.08164965809277261, "step": 428, "recorded_at": "2025-09-21T01:12:40.822328"}
{"train/loss": -0.6901333333333334, "train/policy_loss": -0.6901504000027973, "train/entropy": 0.2655877893169721, "train/grad_norm": 1.2951709429423015, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 429, "recorded_at": "2025-09-21T01:12:51.797333"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 406.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.04082482904638629, "step": 429, "recorded_at": "2025-09-21T01:13:51.609399"}
{"train/loss": -0.3797, "train/policy_loss": -0.3796951472759247, "train/entropy": 0.16403887420892715, "train/grad_norm": 1.2022343873977661, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 430, "recorded_at": "2025-09-21T01:13:56.663911"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 375.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 430, "recorded_at": "2025-09-21T01:14:50.745094"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 431, "recorded_at": "2025-09-21T01:14:50.745256"}
{"train/reward": 0.5, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 834.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.5, "train/reward_std_dev": 0.32659863237109044, "step": 431, "recorded_at": "2025-09-21T01:16:32.029848"}
{"train/loss": -0.060750000000000026, "train/policy_loss": -0.06074589490890503, "train/entropy": 0.26930923759937286, "train/grad_norm": 0.6104560196399689, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 432, "recorded_at": "2025-09-21T01:16:37.115234"}
{"train/reward": 0.9833333333333334, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 573.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9833333333333334, "train/reward_std_dev": 0.023570226039551608, "step": 432, "recorded_at": "2025-09-21T01:17:49.266673"}
{"train/loss": 0.4579, "train/policy_loss": 0.45790207386016846, "train/entropy": 0.220306858420372, "train/grad_norm": 0.7026742249727249, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 433, "recorded_at": "2025-09-21T01:17:54.418535"}
{"train/reward": 0.8666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 569.6666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.8666666666666667, "train/reward_std_dev": 0.12472191289246475, "step": 433, "recorded_at": "2025-09-21T01:19:09.245664"}
{"train/loss": 0.41185, "train/policy_loss": 0.4118365943431854, "train/entropy": 0.17908311635255814, "train/grad_norm": 0.6022062301635742, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 434, "recorded_at": "2025-09-21T01:19:14.429030"}
{"train/reward": 0.7000000000000001, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 683.0, "train/independent_reward": 0.0, "train/ruler_score": 0.7000000000000001, "train/reward_std_dev": 0.42426406871192857, "step": 434, "recorded_at": "2025-09-21T01:20:24.350323"}
{"train/loss": -0.02303333333333335, "train/policy_loss": -0.023057679335276287, "train/entropy": 0.20598280429840088, "train/grad_norm": 0.6262234151363373, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 435, "recorded_at": "2025-09-21T01:20:31.866779"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 1163.4444444444443, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.282842712474619, "step": 435, "recorded_at": "2025-09-21T01:23:22.119960"}
{"train/loss": -0.2217, "train/policy_loss": -0.2216831644376119, "train/entropy": 0.34600406885147095, "train/grad_norm": 0.4510861138502757, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 436, "recorded_at": "2025-09-21T01:23:33.212694"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 1006.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.04714045207910316, "step": 436, "recorded_at": "2025-09-21T01:25:30.930722"}
{"train/loss": -0.015149999999999997, "train/policy_loss": -0.015171915292739868, "train/entropy": 0.28170212358236313, "train/grad_norm": 0.8126935064792633, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 437, "recorded_at": "2025-09-21T01:25:38.464592"}
{"train/reward": 0.39999999999999997, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 1685.0277777777776, "train/independent_reward": 0.0, "train/ruler_score": 0.39999999999999997, "train/reward_std_dev": 0.21602468994692864, "step": 437, "recorded_at": "2025-09-21T01:33:13.659770"}
{"train/loss": 0.353, "train/policy_loss": 0.35302087664604187, "train/entropy": 0.4651380628347397, "train/grad_norm": 0.31545208394527435, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 438, "recorded_at": "2025-09-21T01:33:33.270080"}
{"train/reward": 0.7666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 682.8333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7666666666666666, "train/reward_std_dev": 0.3299831645537222, "step": 438, "recorded_at": "2025-09-21T01:34:54.325317"}
{"train/loss": -0.059699999999999975, "train/policy_loss": -0.05969701210657755, "train/entropy": 0.21256506939729056, "train/grad_norm": 0.48355746269226074, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 439, "recorded_at": "2025-09-21T01:35:01.856584"}
{"train/reward": 0.7999999999999999, "train/exception_rate": 0.0, "train/correct": 0.3333333333333333, "train/completion_tokens": 569.0833333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.7999999999999999, "train/reward_std_dev": 0.10801234497346433, "step": 439, "recorded_at": "2025-09-21T01:37:18.120307"}
{"train/loss": -0.009699999999999986, "train/policy_loss": -0.009715467691421509, "train/entropy": 0.1758740320801735, "train/grad_norm": 1.0165813565254211, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 440, "recorded_at": "2025-09-21T01:37:25.796876"}
{"train/reward": 0.8333333333333334, "train/exception_rate": 0.0, "train/correct": 0.0, "train/completion_tokens": 642.3333333333334, "train/independent_reward": 0.0, "train/ruler_score": 0.8333333333333334, "train/reward_std_dev": 0.16996731711975951, "step": 440, "recorded_at": "2025-09-21T01:38:49.657964"}
{"train/loss": 0.25634999999999997, "train/policy_loss": 0.25632527470588684, "train/entropy": 0.1966870352625847, "train/grad_norm": 5.829620942473412, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 441, "recorded_at": "2025-09-21T01:38:54.876663"}
{"train/reward": 0.6, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 451.3888888888889, "train/independent_reward": 0.0, "train/ruler_score": 0.6, "train/reward_std_dev": 0.32659863237109044, "step": 441, "recorded_at": "2025-09-21T01:41:19.348442"}
{"train/loss": 0.37960000000000005, "train/policy_loss": 0.3796024024486542, "train/entropy": 0.2649669051170349, "train/grad_norm": 0.5660991966724396, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 442, "recorded_at": "2025-09-21T01:41:26.933972"}
{"train/reward": 0.4666666666666666, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 488.8333333333333, "train/independent_reward": 0.0, "train/ruler_score": 0.4666666666666666, "train/reward_std_dev": 0.37712361663282534, "step": 442, "recorded_at": "2025-09-21T01:42:37.643726"}
{"train/loss": 0.17225, "train/policy_loss": 0.17225448787212372, "train/entropy": 0.14864811301231384, "train/grad_norm": 0.6490297913551331, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 443, "recorded_at": "2025-09-21T01:42:42.853788"}
{"train/reward": 0.9666666666666667, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 582.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9666666666666667, "train/reward_std_dev": 0.023570226039551605, "step": 443, "recorded_at": "2025-09-21T01:43:53.177603"}
{"train/loss": 0.2205, "train/policy_loss": 0.22051365673542023, "train/entropy": 0.19118016213178635, "train/grad_norm": 0.7485356628894806, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 444, "recorded_at": "2025-09-21T01:43:58.334778"}
{"train/reward": 0.9500000000000001, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 587.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 0.9500000000000001, "train/reward_std_dev": 0.07071067811865477, "step": 444, "recorded_at": "2025-09-21T01:45:34.385335"}
{"train/loss": -0.19436666666666666, "train/policy_loss": -0.1943841576576233, "train/entropy": 0.22201915582021078, "train/grad_norm": 0.5852747857570648, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 445, "recorded_at": "2025-09-21T01:45:41.905400"}
{"train/reward": 1.0, "train/exception_rate": 0.0, "train/correct": 1.0, "train/completion_tokens": 551.1666666666666, "train/independent_reward": 0.0, "train/ruler_score": 1.0, "train/reward_std_dev": 0.0, "step": 445, "recorded_at": "2025-09-21T01:46:53.615285"}
{"train/num_groups_submitted": 1, "train/num_groups_trainable": 0, "step": 446, "recorded_at": "2025-09-21T01:46:53.615450"}
{"train/reward": 0.7333333333333334, "train/exception_rate": 0.0, "train/correct": 0.6666666666666666, "train/completion_tokens": 927.5, "train/independent_reward": 0.0, "train/ruler_score": 0.7333333333333334, "train/reward_std_dev": 0.3771236166328254, "step": 446, "recorded_at": "2025-09-21T01:48:38.674884"}
{"train/loss": -0.008966666666666678, "train/policy_loss": -0.00896221399307251, "train/entropy": 0.32230230172475177, "train/grad_norm": 0.5515510141849518, "train/num_groups_submitted": 1, "train/num_groups_trainable": 1, "step": 447, "recorded_at": "2025-09-21T01:48:46.224161"}