{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 100.0,
  "global_step": 4166,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/mean_length": 188.1875,
      "completions/min_length": 13.0,
      "epoch": 0.00048007681228996637,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.25846678018569946,
      "kl": 0.0,
      "learning_rate": 4.784688995215311e-08,
      "loss": 7.450580596923828e-09,
      "memory(GiB)": 22.98,
      "reward": -0.44574999809265137,
      "reward_std": 0.21814244985580444,
      "rewards/MMContentORM/mean": -0.8299999833106995,
      "rewards/MMContentORM/std": 0.5199999809265137,
      "rewards/MMFormatORM/mean": 0.12187499552965164,
      "rewards/MMFormatORM/std": 0.262023389339447,
      "rewards/MMRubricORM/mean": -0.8125,
      "rewards/MMRubricORM/std": 0.40311288833618164,
      "step": 1,
      "train_speed(iter/s)": 0.047076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.0,
      "completions/mean_length": 166.34375,
      "completions/min_length": 10.25,
      "epoch": 0.002400384061449832,
      "frac_reward_zero_std": 0.65625,
      "grad_norm": 0.5505234599113464,
      "kl": 0.0014767646789550781,
      "learning_rate": 2.3923444976076555e-07,
      "loss": 5.9054447774542496e-05,
      "memory(GiB)": 23.69,
      "reward": -0.40181251987814903,
      "reward_std": 0.2141649704426527,
      "rewards/MMContentORM/mean": -0.7381249889731407,
      "rewards/MMContentORM/std": 0.5696750730276108,
      "rewards/MMFormatORM/mean": 0.1320312451571226,
      "rewards/MMFormatORM/std": 0.25288669392466545,
      "rewards/MMRubricORM/mean": -0.796875,
      "rewards/MMRubricORM/std": 0.3890564441680908,
      "step": 5,
      "train_speed(iter/s)": 0.069193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 496.2,
      "completions/mean_length": 196.9625,
      "completions/min_length": 12.6,
      "epoch": 0.004800768122899664,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.19138023257255554,
      "kl": 0.003989028930664063,
      "learning_rate": 4.784688995215311e-07,
      "loss": 0.0001598534407094121,
      "memory(GiB)": 23.69,
      "reward": -0.35715001821517944,
      "reward_std": 0.25731615722179413,
      "rewards/MMContentORM/mean": -0.6659999847412109,
      "rewards/MMContentORM/std": 0.6672868490219116,
      "rewards/MMFormatORM/mean": 0.15437499880790712,
      "rewards/MMFormatORM/std": 0.2739557534456253,
      "rewards/MMRubricORM/mean": -0.7625,
      "rewards/MMRubricORM/std": 0.42147040367126465,
      "step": 10,
      "train_speed(iter/s)": 0.066915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.4,
      "completions/mean_length": 175.4625,
      "completions/min_length": 10.6,
      "epoch": 0.007201152184349496,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1383572220802307,
      "kl": 0.0017303466796875,
      "learning_rate": 7.177033492822967e-07,
      "loss": 6.930254749022424e-05,
      "memory(GiB)": 23.69,
      "reward": -0.43625002503395083,
      "reward_std": 0.23157747238874435,
      "rewards/MMContentORM/mean": -0.7774999976158142,
      "rewards/MMContentORM/std": 0.5322124093770981,
      "rewards/MMFormatORM/mean": 0.1056249976158142,
      "rewards/MMFormatORM/std": 0.23594435155391694,
      "rewards/MMRubricORM/mean": -0.8375,
      "rewards/MMRubricORM/std": 0.36299130916595457,
      "step": 15,
      "train_speed(iter/s)": 0.072542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 180.6,
      "completions/min_length": 11.2,
      "epoch": 0.009601536245799328,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.6662951707839966,
      "kl": 0.0012393951416015624,
      "learning_rate": 9.569377990430622e-07,
      "loss": 4.959976649843156e-05,
      "memory(GiB)": 23.69,
      "reward": -0.40305001139640806,
      "reward_std": 0.25151788890361787,
      "rewards/MMContentORM/mean": -0.7519999861717224,
      "rewards/MMContentORM/std": 0.5646255791187287,
      "rewards/MMFormatORM/mean": 0.13812499791383742,
      "rewards/MMFormatORM/std": 0.2656771123409271,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.4087340235710144,
      "step": 20,
      "train_speed(iter/s)": 0.075755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.6,
      "completions/mean_length": 165.925,
      "completions/min_length": 10.6,
      "epoch": 0.01200192030724916,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 1.417803406715393,
      "kl": 0.00196990966796875,
      "learning_rate": 1.196172248803828e-06,
      "loss": 7.890671258792281e-05,
      "memory(GiB)": 24.1,
      "reward": -0.3179000109434128,
      "reward_std": 0.2674277901649475,
      "rewards/MMContentORM/mean": -0.6160000085830688,
      "rewards/MMContentORM/std": 0.691703325510025,
      "rewards/MMFormatORM/mean": 0.17749999463558197,
      "rewards/MMFormatORM/std": 0.28609572947025297,
      "rewards/MMRubricORM/mean": -0.7125,
      "rewards/MMRubricORM/std": 0.45950802564620974,
      "step": 25,
      "train_speed(iter/s)": 0.077874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/mean_length": 176.1375,
      "completions/min_length": 10.0,
      "epoch": 0.014402304368698993,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.6226190328598022,
      "kl": 0.001837921142578125,
      "learning_rate": 1.4354066985645934e-06,
      "loss": 7.35294190235436e-05,
      "memory(GiB)": 24.1,
      "reward": -0.3812000215053558,
      "reward_std": 0.28241844177246095,
      "rewards/MMContentORM/mean": -0.7405000030994415,
      "rewards/MMContentORM/std": 0.5169497162103653,
      "rewards/MMFormatORM/mean": 0.16249999552965164,
      "rewards/MMFormatORM/std": 0.28217866122722624,
      "rewards/MMRubricORM/mean": -0.75,
      "rewards/MMRubricORM/std": 0.43412102460861207,
      "step": 30,
      "train_speed(iter/s)": 0.07745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.6,
      "completions/mean_length": 159.9625,
      "completions/min_length": 12.2,
      "epoch": 0.016802688430148822,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14647576212882996,
      "kl": 0.0017627716064453126,
      "learning_rate": 1.6746411483253591e-06,
      "loss": 7.049270207062363e-05,
      "memory(GiB)": 24.1,
      "reward": -0.41890002489089967,
      "reward_std": 0.22358716428279876,
      "rewards/MMContentORM/mean": -0.7735000014305115,
      "rewards/MMContentORM/std": 0.48501716256141664,
      "rewards/MMFormatORM/mean": 0.12624999843537807,
      "rewards/MMFormatORM/std": 0.23877365738153458,
      "rewards/MMRubricORM/mean": -0.8,
      "rewards/MMRubricORM/std": 0.3904210150241852,
      "step": 35,
      "train_speed(iter/s)": 0.078437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.8,
      "completions/mean_length": 173.625,
      "completions/min_length": 13.2,
      "epoch": 0.019203072491598656,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.4236033260822296,
      "kl": 0.00177764892578125,
      "learning_rate": 1.9138755980861244e-06,
      "loss": 7.109665311872959e-05,
      "memory(GiB)": 24.1,
      "reward": -0.3528000235557556,
      "reward_std": 0.28255987763404844,
      "rewards/MMContentORM/mean": -0.6695000052452087,
      "rewards/MMContentORM/std": 0.6945539474487304,
      "rewards/MMFormatORM/mean": 0.16249999552965164,
      "rewards/MMFormatORM/std": 0.28217866122722624,
      "rewards/MMRubricORM/mean": -0.75,
      "rewards/MMRubricORM/std": 0.43412102460861207,
      "step": 40,
      "train_speed(iter/s)": 0.079708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.8,
      "completions/mean_length": 168.5875,
      "completions/min_length": 11.4,
      "epoch": 0.02160345655304849,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.08703174442052841,
      "kl": 0.00247039794921875,
      "learning_rate": 2.15311004784689e-06,
      "loss": 9.898855350911617e-05,
      "memory(GiB)": 24.1,
      "reward": -0.44075002074241637,
      "reward_std": 0.22521351724863053,
      "rewards/MMContentORM/mean": -0.8174999952316284,
      "rewards/MMContentORM/std": 0.4400706171989441,
      "rewards/MMFormatORM/mean": 0.12187499701976776,
      "rewards/MMFormatORM/std": 0.25194679796695707,
      "rewards/MMRubricORM/mean": -0.8125,
      "rewards/MMRubricORM/std": 0.3876104474067688,
      "step": 45,
      "train_speed(iter/s)": 0.080264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.2,
      "completions/mean_length": 170.0875,
      "completions/min_length": 11.6,
      "epoch": 0.02400384061449832,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.3127768933773041,
      "kl": 0.0022594451904296873,
      "learning_rate": 2.392344497607656e-06,
      "loss": 9.052451932802796e-05,
      "memory(GiB)": 24.1,
      "reward": -0.4175000250339508,
      "reward_std": 0.20364675521850586,
      "rewards/MMContentORM/mean": -0.7824999928474426,
      "rewards/MMContentORM/std": 0.4635924696922302,
      "rewards/MMFormatORM/mean": 0.132499997317791,
      "rewards/MMFormatORM/std": 0.26173200011253356,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.4147436022758484,
      "step": 50,
      "train_speed(iter/s)": 0.080866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 401.2,
      "completions/mean_length": 197.925,
      "completions/min_length": 14.6,
      "epoch": 0.026404224675948152,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17192748188972473,
      "kl": 0.0035968780517578124,
      "learning_rate": 2.631578947368421e-06,
      "loss": 0.0001437270431779325,
      "memory(GiB)": 24.55,
      "reward": -0.3665000259876251,
      "reward_std": 0.28623682260513306,
      "rewards/MMContentORM/mean": -0.6874999880790711,
      "rewards/MMContentORM/std": 0.6308155179023742,
      "rewards/MMFormatORM/mean": 0.15249999463558198,
      "rewards/MMFormatORM/std": 0.27434429824352263,
      "rewards/MMRubricORM/mean": -0.7625,
      "rewards/MMRubricORM/std": 0.4253008782863617,
      "step": 55,
      "train_speed(iter/s)": 0.080304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 543.4,
      "completions/mean_length": 194.5625,
      "completions/min_length": 11.6,
      "epoch": 0.028804608737397985,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.14923764765262604,
      "kl": 0.004736709594726563,
      "learning_rate": 2.870813397129187e-06,
      "loss": 0.00018961232854053378,
      "memory(GiB)": 24.55,
      "reward": -0.48050001859664915,
      "reward_std": 0.1689985252916813,
      "rewards/MMContentORM/mean": -0.8699999928474427,
      "rewards/MMContentORM/std": 0.3361044704914093,
      "rewards/MMFormatORM/mean": 0.09374999701976776,
      "rewards/MMFormatORM/std": 0.22575461566448213,
      "rewards/MMRubricORM/mean": -0.85,
      "rewards/MMRubricORM/std": 0.3601807415485382,
      "step": 60,
      "train_speed(iter/s)": 0.077823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 282.4,
      "completions/mean_length": 165.6375,
      "completions/min_length": 12.2,
      "epoch": 0.031204992798847815,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.9673174023628235,
      "kl": 0.014190292358398438,
      "learning_rate": 3.1100478468899525e-06,
      "loss": 0.000567801995202899,
      "memory(GiB)": 24.55,
      "reward": -0.3531000196933746,
      "reward_std": 0.21906168013811111,
      "rewards/MMContentORM/mean": -0.6989999890327454,
      "rewards/MMContentORM/std": 0.570724368095398,
      "rewards/MMFormatORM/mean": 0.17874999791383744,
      "rewards/MMFormatORM/std": 0.29591297507286074,
      "rewards/MMRubricORM/mean": -0.725,
      "rewards/MMRubricORM/std": 0.45525074005126953,
      "step": 65,
      "train_speed(iter/s)": 0.078973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 356.2,
      "completions/mean_length": 165.6125,
      "completions/min_length": 13.6,
      "epoch": 0.033605376860297645,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.19349712133407593,
      "kl": 0.01680755615234375,
      "learning_rate": 3.3492822966507182e-06,
      "loss": 0.0006725039333105087,
      "memory(GiB)": 24.55,
      "reward": -0.41095001697540284,
      "reward_std": 0.22394072413444518,
      "rewards/MMContentORM/mean": -0.7554999947547912,
      "rewards/MMContentORM/std": 0.5833674430847168,
      "rewards/MMFormatORM/mean": 0.12812499552965165,
      "rewards/MMFormatORM/std": 0.25294241309165955,
      "rewards/MMRubricORM/mean": -0.8,
      "rewards/MMRubricORM/std": 0.39294117093086245,
      "step": 70,
      "train_speed(iter/s)": 0.079238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 529.2,
      "completions/mean_length": 185.7875,
      "completions/min_length": 11.2,
      "epoch": 0.03600576092174748,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.9495518803596497,
      "kl": 0.05297927856445313,
      "learning_rate": 3.5885167464114835e-06,
      "loss": 0.0021199073642492296,
      "memory(GiB)": 24.55,
      "reward": -0.3796000242233276,
      "reward_std": 0.2705390602350235,
      "rewards/MMContentORM/mean": -0.6914999961853028,
      "rewards/MMContentORM/std": 0.5877212882041931,
      "rewards/MMFormatORM/mean": 0.13624999821186065,
      "rewards/MMFormatORM/std": 0.2286323994398117,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.3555411517620087,
      "step": 75,
      "train_speed(iter/s)": 0.077333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.4,
      "completions/mean_length": 157.9625,
      "completions/min_length": 10.0,
      "epoch": 0.03840614498319731,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.26823142170906067,
      "kl": 0.060577392578125,
      "learning_rate": 3.827751196172249e-06,
      "loss": 0.002423027902841568,
      "memory(GiB)": 24.55,
      "reward": -0.387850022315979,
      "reward_std": 0.27301393151283265,
      "rewards/MMContentORM/mean": -0.706499969959259,
      "rewards/MMContentORM/std": 0.6382155597209931,
      "rewards/MMFormatORM/mean": 0.13062499612569808,
      "rewards/MMFormatORM/std": 0.25994100272655485,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.41726375818252565,
      "step": 80,
      "train_speed(iter/s)": 0.077772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.2,
      "completions/mean_length": 165.1375,
      "completions/min_length": 11.2,
      "epoch": 0.04080652904464714,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 1.0264372825622559,
      "kl": 0.06542510986328125,
      "learning_rate": 4.066985645933015e-06,
      "loss": 0.002620968222618103,
      "memory(GiB)": 24.55,
      "reward": -0.3707500219345093,
      "reward_std": 0.27471098899841306,
      "rewards/MMContentORM/mean": -0.6924999833106995,
      "rewards/MMContentORM/std": 0.6197769522666932,
      "rewards/MMFormatORM/mean": 0.14687499552965164,
      "rewards/MMFormatORM/std": 0.2623553693294525,
      "rewards/MMRubricORM/mean": -0.7625,
      "rewards/MMRubricORM/std": 0.41832817196846006,
      "step": 85,
      "train_speed(iter/s)": 0.078137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.4,
      "completions/mean_length": 179.8625,
      "completions/min_length": 11.8,
      "epoch": 0.04320691310609698,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17547202110290527,
      "kl": 0.02538909912109375,
      "learning_rate": 4.30622009569378e-06,
      "loss": 0.0010150117799639703,
      "memory(GiB)": 24.55,
      "reward": -0.4253000199794769,
      "reward_std": 0.2470631130039692,
      "rewards/MMContentORM/mean": -0.7644999980926513,
      "rewards/MMContentORM/std": 0.5263380289077759,
      "rewards/MMFormatORM/mean": 0.11374999582767487,
      "rewards/MMFormatORM/std": 0.24558367133140563,
      "rewards/MMRubricORM/mean": -0.825,
      "rewards/MMRubricORM/std": 0.3778210341930389,
      "step": 90,
      "train_speed(iter/s)": 0.078557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.8,
      "completions/mean_length": 198.0625,
      "completions/min_length": 10.0,
      "epoch": 0.04560729716754681,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.3727310597896576,
      "kl": 0.06304931640625,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 0.0025252360850572587,
      "memory(GiB)": 24.55,
      "reward": -0.35370001196861267,
      "reward_std": 0.32187501192092893,
      "rewards/MMContentORM/mean": -0.6679999887943268,
      "rewards/MMContentORM/std": 0.599762350320816,
      "rewards/MMFormatORM/mean": 0.15874999314546584,
      "rewards/MMFormatORM/std": 0.2781087428331375,
      "rewards/MMRubricORM/mean": -0.75,
      "rewards/MMRubricORM/std": 0.43412102460861207,
      "step": 95,
      "train_speed(iter/s)": 0.078826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.2,
      "completions/mean_length": 178.225,
      "completions/min_length": 10.6,
      "epoch": 0.04800768122899664,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.5053905248641968,
      "kl": 0.058896636962890624,
      "learning_rate": 4.784688995215312e-06,
      "loss": 0.0023545216768980025,
      "memory(GiB)": 24.55,
      "reward": -0.366600027680397,
      "reward_std": 0.25964961051940916,
      "rewards/MMContentORM/mean": -0.6715000033378601,
      "rewards/MMContentORM/std": 0.6754477977752685,
      "rewards/MMFormatORM/mean": 0.1424999937415123,
      "rewards/MMFormatORM/std": 0.2643744289875031,
      "rewards/MMRubricORM/mean": -0.775,
      "rewards/MMRubricORM/std": 0.4129913091659546,
      "step": 100,
      "train_speed(iter/s)": 0.079147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.6,
      "completions/mean_length": 183.025,
      "completions/min_length": 38.8,
      "epoch": 0.050408065290446474,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.7233589887619019,
      "kl": 0.03177032470703125,
      "learning_rate": 5.023923444976077e-06,
      "loss": 0.0012724055908620358,
      "memory(GiB)": 24.55,
      "reward": -0.4313500225543976,
      "reward_std": 0.21149563789367676,
      "rewards/MMContentORM/mean": -0.793999993801117,
      "rewards/MMContentORM/std": 0.48824622631073,
      "rewards/MMFormatORM/mean": 0.12187499701976776,
      "rewards/MMFormatORM/std": 0.255849027633667,
      "rewards/MMRubricORM/mean": -0.8125,
      "rewards/MMRubricORM/std": 0.39361388683319093,
      "step": 105,
      "train_speed(iter/s)": 0.078492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.4,
      "completions/mean_length": 205.525,
      "completions/min_length": 40.4,
      "epoch": 0.052808449351896304,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.656991720199585,
      "kl": 0.00919189453125,
      "learning_rate": 5.263157894736842e-06,
      "loss": 0.00036728212144225835,
      "memory(GiB)": 24.55,
      "reward": -0.3993500292301178,
      "reward_std": 0.2595789015293121,
      "rewards/MMContentORM/mean": -0.7514999866485595,
      "rewards/MMContentORM/std": 0.5262986779212951,
      "rewards/MMFormatORM/mean": 0.14062499403953552,
      "rewards/MMFormatORM/std": 0.26713907420635224,
      "rewards/MMRubricORM/mean": -0.775,
      "rewards/MMRubricORM/std": 0.4210435926914215,
      "step": 110,
      "train_speed(iter/s)": 0.078426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 378.8,
      "completions/mean_length": 198.6875,
      "completions/min_length": 40.8,
      "epoch": 0.055208833413346134,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16790097951889038,
      "kl": 0.0282012939453125,
      "learning_rate": 5.502392344497608e-06,
      "loss": 0.0011287719011306764,
      "memory(GiB)": 24.55,
      "reward": -0.36190002262592313,
      "reward_std": 0.12529932260513305,
      "rewards/MMContentORM/mean": -0.7134999990463257,
      "rewards/MMContentORM/std": 0.5213123708963394,
      "rewards/MMFormatORM/mean": 0.17124999314546585,
      "rewards/MMFormatORM/std": 0.2684005439281464,
      "rewards/MMRubricORM/mean": -0.725,
      "rewards/MMRubricORM/std": 0.42883480787277223,
      "step": 115,
      "train_speed(iter/s)": 0.078525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.8,
      "completions/mean_length": 191.825,
      "completions/min_length": 18.8,
      "epoch": 0.05760921747479597,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.7576951384544373,
      "kl": 0.027909088134765624,
      "learning_rate": 5.741626794258374e-06,
      "loss": 0.001117511186748743,
      "memory(GiB)": 24.55,
      "reward": -0.26640002727508544,
      "reward_std": 0.39357563853263855,
      "rewards/MMContentORM/mean": -0.5684999823570251,
      "rewards/MMContentORM/std": 0.7017473936080932,
      "rewards/MMFormatORM/mean": 0.22749999165534973,
      "rewards/MMFormatORM/std": 0.3158136546611786,
      "rewards/MMRubricORM/mean": -0.65,
      "rewards/MMRubricORM/std": 0.4858671844005585,
      "step": 120,
      "train_speed(iter/s)": 0.079177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.4,
      "completions/mean_length": 199.3375,
      "completions/min_length": 21.6,
      "epoch": 0.0600096015362458,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.35645198822021484,
      "kl": 0.01103973388671875,
      "learning_rate": 5.98086124401914e-06,
      "loss": 0.0004417818039655685,
      "memory(GiB)": 24.59,
      "reward": -0.3517500251531601,
      "reward_std": 0.2542048916220665,
      "rewards/MMContentORM/mean": -0.6524999976158142,
      "rewards/MMContentORM/std": 0.6953619718551636,
      "rewards/MMFormatORM/mean": 0.15437499582767486,
      "rewards/MMFormatORM/std": 0.25867260694503785,
      "rewards/MMRubricORM/mean": -0.7625,
      "rewards/MMRubricORM/std": 0.397957855463028,
      "step": 125,
      "train_speed(iter/s)": 0.079515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 460.8,
      "completions/mean_length": 206.5125,
      "completions/min_length": 23.6,
      "epoch": 0.06240998559769563,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.7836592197418213,
      "kl": 0.046865081787109374,
      "learning_rate": 6.220095693779905e-06,
      "loss": 0.0018781695514917373,
      "memory(GiB)": 24.59,
      "reward": -0.4076500177383423,
      "reward_std": 0.17062486261129378,
      "rewards/MMContentORM/mean": -0.7634999871253967,
      "rewards/MMContentORM/std": 0.5306057691574096,
      "rewards/MMFormatORM/mean": 0.1381249964237213,
      "rewards/MMFormatORM/std": 0.26958334147930146,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.4147436022758484,
      "step": 130,
      "train_speed(iter/s)": 0.079017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 485.4,
      "completions/mean_length": 211.1625,
      "completions/min_length": 60.6,
      "epoch": 0.06481036965914547,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.19905580580234528,
      "kl": 0.051471710205078125,
      "learning_rate": 6.459330143540671e-06,
      "loss": 0.0020540472120046615,
      "memory(GiB)": 24.59,
      "reward": -0.2741000235080719,
      "reward_std": 0.37745361328125,
      "rewards/MMContentORM/mean": -0.5589999914169311,
      "rewards/MMContentORM/std": 0.7385274767875671,
      "rewards/MMFormatORM/mean": 0.2112499952316284,
      "rewards/MMFormatORM/std": 0.3126032888889313,
      "rewards/MMRubricORM/mean": -0.675,
      "rewards/MMRubricORM/std": 0.4809281527996063,
      "step": 135,
      "train_speed(iter/s)": 0.078216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 450.8,
      "completions/mean_length": 202.375,
      "completions/min_length": 13.4,
      "epoch": 0.06721075372059529,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.833666205406189,
      "kl": 0.051274871826171874,
      "learning_rate": 6.6985645933014365e-06,
      "loss": 0.002046111598610878,
      "memory(GiB)": 24.59,
      "reward": -0.2925000175833702,
      "reward_std": 0.2917522594332695,
      "rewards/MMContentORM/mean": -0.5849999874830246,
      "rewards/MMContentORM/std": 0.7148973345756531,
      "rewards/MMFormatORM/mean": 0.19749999642372132,
      "rewards/MMFormatORM/std": 0.2828102707862854,
      "rewards/MMRubricORM/mean": -0.6875,
      "rewards/MMRubricORM/std": 0.44643059372901917,
      "step": 140,
      "train_speed(iter/s)": 0.077881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/mean_length": 165.1875,
      "completions/min_length": 37.8,
      "epoch": 0.06961113778204513,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.9144070148468018,
      "kl": 0.05808563232421875,
      "learning_rate": 6.937799043062201e-06,
      "loss": 0.0023345451802015303,
      "memory(GiB)": 24.59,
      "reward": -0.39740002155303955,
      "reward_std": 0.22047589719295502,
      "rewards/MMContentORM/mean": -0.7284999907016754,
      "rewards/MMContentORM/std": 0.6163743019104004,
      "rewards/MMFormatORM/mean": 0.1287499949336052,
      "rewards/MMFormatORM/std": 0.24967178106307983,
      "rewards/MMRubricORM/mean": -0.7875,
      "rewards/MMRubricORM/std": 0.40525074005126954,
      "step": 145,
      "train_speed(iter/s)": 0.078142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/mean_length": 189.1125,
      "completions/min_length": 38.2,
      "epoch": 0.07201152184349496,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.23582716286182404,
      "kl": 0.036444091796875,
      "learning_rate": 7.177033492822967e-06,
      "loss": 0.001458549778908491,
      "memory(GiB)": 24.59,
      "reward": -0.29195002317428587,
      "reward_std": 0.23907281160354615,
      "rewards/MMContentORM/mean": -0.6305000007152557,
      "rewards/MMContentORM/std": 0.6437041282653808,
      "rewards/MMFormatORM/mean": 0.22562499046325685,
      "rewards/MMFormatORM/std": 0.3097758531570435,
      "rewards/MMRubricORM/mean": -0.65,
      "rewards/MMRubricORM/std": 0.48037723302841184,
      "step": 150,
      "train_speed(iter/s)": 0.078351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 485.6,
      "completions/mean_length": 236.125,
      "completions/min_length": 72.2,
      "epoch": 0.07441190590494479,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.1894054263830185,
      "kl": 0.00907440185546875,
      "learning_rate": 7.416267942583732e-06,
      "loss": 0.00036348355934023857,
      "memory(GiB)": 24.59,
      "reward": -0.29550001621246336,
      "reward_std": 0.35963451862335205,
      "rewards/MMContentORM/mean": -0.6124999940395355,
      "rewards/MMContentORM/std": 0.6703195393085479,
      "rewards/MMFormatORM/mean": 0.21124999225139618,
      "rewards/MMFormatORM/std": 0.3112755298614502,
      "rewards/MMRubricORM/mean": -0.675,
      "rewards/MMRubricORM/std": 0.47888544797897337,
      "step": 155,
      "train_speed(iter/s)": 0.077809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.2,
      "completions/mean_length": 194.05,
      "completions/min_length": 17.0,
      "epoch": 0.07681228996639462,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.16335317492485046,
      "kl": 0.023895263671875,
      "learning_rate": 7.655502392344498e-06,
      "loss": 0.0009563345462083817,
      "memory(GiB)": 24.59,
      "reward": -0.24430001378059388,
      "reward_std": 0.26785205602645873,
      "rewards/MMContentORM/mean": -0.56700000166893,
      "rewards/MMContentORM/std": 0.6720305800437927,
      "rewards/MMFormatORM/mean": 0.2562499925494194,
      "rewards/MMFormatORM/std": 0.31278570294380187,
      "rewards/MMRubricORM/mean": -0.6,
      "rewards/MMRubricORM/std": 0.486371648311615,
      "step": 160,
      "train_speed(iter/s)": 0.078087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 455.0,
      "completions/mean_length": 211.7875,
      "completions/min_length": 60.6,
      "epoch": 0.07921267402784446,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.5669417381286621,
      "kl": 0.015301513671875,
      "learning_rate": 7.894736842105265e-06,
      "loss": 0.0006132687442004681,
      "memory(GiB)": 24.59,
      "reward": -0.22980001866817473,
      "reward_std": 0.2708218902349472,
      "rewards/MMContentORM/mean": -0.584499990940094,
      "rewards/MMContentORM/std": 0.6051075398921967,
      "rewards/MMFormatORM/mean": 0.2849999874830246,
      "rewards/MMFormatORM/std": 0.32614828944206237,
      "rewards/MMRubricORM/mean": -0.55,
      "rewards/MMRubricORM/std": 0.5098386645317078,
      "step": 165,
      "train_speed(iter/s)": 0.077789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.8,
      "completions/mean_length": 204.05,
      "completions/min_length": 56.0,
      "epoch": 0.08161305808929428,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.23664671182632446,
      "kl": 0.054852294921875,
      "learning_rate": 8.13397129186603e-06,
      "loss": 0.002194448187947273,
      "memory(GiB)": 24.59,
      "reward": -0.17945002168416976,
      "reward_std": 0.2834791004657745,
      "rewards/MMContentORM/mean": -0.48049999326467513,
      "rewards/MMContentORM/std": 0.6853928565979004,
      "rewards/MMFormatORM/mean": 0.3006249964237213,
      "rewards/MMFormatORM/std": 0.3232024133205414,
      "rewards/MMRubricORM/mean": -0.5375,
      "rewards/MMRubricORM/std": 0.49723449945449827,
      "step": 170,
      "train_speed(iter/s)": 0.077962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.4,
      "completions/mean_length": 180.9375,
      "completions/min_length": 19.4,
      "epoch": 0.08401344215074412,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.41499343514442444,
      "kl": 0.0380462646484375,
      "learning_rate": 8.373205741626795e-06,
      "loss": 0.0015261590480804444,
      "memory(GiB)": 24.67,
      "reward": -0.2555500268936157,
      "reward_std": 0.271882563829422,
      "rewards/MMContentORM/mean": -0.5519999861717224,
      "rewards/MMContentORM/std": 0.7190791845321656,
      "rewards/MMFormatORM/mean": 0.2318749874830246,
      "rewards/MMFormatORM/std": 0.31184685230255127,
      "rewards/MMRubricORM/mean": -0.6375,
      "rewards/MMRubricORM/std": 0.48463451862335205,
      "step": 175,
      "train_speed(iter/s)": 0.078217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.8,
      "completions/mean_length": 192.8875,
      "completions/min_length": 40.8,
      "epoch": 0.08641382621219396,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.4990822970867157,
      "kl": 0.023101806640625,
      "learning_rate": 8.61244019138756e-06,
      "loss": 0.000923317763954401,
      "memory(GiB)": 24.67,
      "reward": -0.20000003054738044,
      "reward_std": 0.35242201685905455,
      "rewards/MMContentORM/mean": -0.5174999952316284,
      "rewards/MMContentORM/std": 0.6820277512073517,
      "rewards/MMFormatORM/mean": 0.29249999225139617,
      "rewards/MMFormatORM/std": 0.32704830169677734,
      "rewards/MMRubricORM/mean": -0.55,
      "rewards/MMRubricORM/std": 0.5031512618064881,
      "step": 180,
      "train_speed(iter/s)": 0.078339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.8,
      "completions/mean_length": 203.6,
      "completions/min_length": 40.0,
      "epoch": 0.08881421027364378,
      "frac_reward_zero_std": 0.225,
      "grad_norm": 0.43722620606422424,
      "kl": 0.02008056640625,
      "learning_rate": 8.851674641148326e-06,
      "loss": 0.0008031532168388366,
      "memory(GiB)": 24.67,
      "reward": -0.12450002208352089,
      "reward_std": 0.3882016271352768,
      "rewards/MMContentORM/mean": -0.41499999687075617,
      "rewards/MMContentORM/std": 0.637773585319519,
      "rewards/MMFormatORM/mean": 0.3412499904632568,
      "rewards/MMFormatORM/std": 0.3158136546611786,
      "rewards/MMRubricORM/mean": -0.475,
      "rewards/MMRubricORM/std": 0.4858671844005585,
      "step": 185,
      "train_speed(iter/s)": 0.078522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.6,
      "completions/mean_length": 192.125,
      "completions/min_length": 35.8,
      "epoch": 0.09121459433509362,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.2395554482936859,
      "kl": 0.04338836669921875,
      "learning_rate": 9.090909090909091e-06,
      "loss": 0.0017313847318291664,
      "memory(GiB)": 24.67,
      "reward": -0.1971000224351883,
      "reward_std": 0.31183409988880156,
      "rewards/MMContentORM/mean": -0.5064999997615814,
      "rewards/MMContentORM/std": 0.7074662327766419,
      "rewards/MMFormatORM/mean": 0.2887499928474426,
      "rewards/MMFormatORM/std": 0.32622864842414856,
      "rewards/MMRubricORM/mean": -0.55,
      "rewards/MMRubricORM/std": 0.5080508947372436,
      "step": 190,
      "train_speed(iter/s)": 0.078772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.8,
      "completions/mean_length": 195.0,
      "completions/min_length": 90.4,
      "epoch": 0.09361497839654345,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.25950706005096436,
      "kl": 0.0434844970703125,
      "learning_rate": 9.330143540669856e-06,
      "loss": 0.001740964502096176,
      "memory(GiB)": 24.67,
      "reward": -0.04445001631975174,
      "reward_std": 0.4817518353462219,
      "rewards/MMContentORM/mean": -0.27049999833106997,
      "rewards/MMContentORM/std": 0.8492022752761841,
      "rewards/MMFormatORM/mean": 0.3718749940395355,
      "rewards/MMFormatORM/std": 0.3288069784641266,
      "rewards/MMRubricORM/mean": -0.425,
      "rewards/MMRubricORM/std": 0.5082185864448547,
      "step": 195,
      "train_speed(iter/s)": 0.079029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.0,
      "completions/mean_length": 196.225,
      "completions/min_length": 99.2,
      "epoch": 0.09601536245799328,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.26332148909568787,
      "kl": 0.057666015625,
      "learning_rate": 9.569377990430623e-06,
      "loss": 0.002305997908115387,
      "memory(GiB)": 24.67,
      "reward": -0.13745001405477525,
      "reward_std": 0.4148595631122589,
      "rewards/MMContentORM/mean": -0.38799999952316283,
      "rewards/MMContentORM/std": 0.7763695597648621,
      "rewards/MMFormatORM/mean": 0.30687499344348906,
      "rewards/MMFormatORM/std": 0.320049911737442,
      "rewards/MMRubricORM/mean": -0.525,
      "rewards/MMRubricORM/std": 0.49438175559043884,
      "step": 200,
      "train_speed(iter/s)": 0.079255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 436.8,
      "completions/mean_length": 201.1375,
      "completions/min_length": 57.4,
      "epoch": 0.09841574651944311,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.20934279263019562,
      "kl": 0.0318572998046875,
      "learning_rate": 9.808612440191389e-06,
      "loss": 0.0012754278257489204,
      "memory(GiB)": 25.29,
      "reward": -0.09840002059936523,
      "reward_std": 0.3428053617477417,
      "rewards/MMContentORM/mean": -0.3834999889135361,
      "rewards/MMContentORM/std": 0.7341944694519043,
      "rewards/MMFormatORM/mean": 0.3562499850988388,
      "rewards/MMFormatORM/std": 0.3010324537754059,
      "rewards/MMRubricORM/mean": -0.4375,
      "rewards/MMRubricORM/std": 0.4770470380783081,
      "step": 205,
      "train_speed(iter/s)": 0.078583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 266.6,
      "completions/mean_length": 185.1375,
      "completions/min_length": 86.8,
      "epoch": 0.10081613058089295,
      "frac_reward_zero_std": 0.225,
      "grad_norm": 0.22751331329345703,
      "kl": 0.0099822998046875,
      "learning_rate": 9.99999842417629e-06,
      "loss": 0.00039928192272782327,
      "memory(GiB)": 25.29,
      "reward": -0.013300008326768874,
      "reward_std": 0.367412693798542,
      "rewards/MMContentORM/mean": -0.2519999980926514,
      "rewards/MMContentORM/std": 0.6957788646221161,
      "rewards/MMFormatORM/mean": 0.40624999105930326,
      "rewards/MMFormatORM/std": 0.29864728450775146,
      "rewards/MMRubricORM/mean": -0.375,
      "rewards/MMRubricORM/std": 0.45945738554000853,
      "step": 210,
      "train_speed(iter/s)": 0.078979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/mean_length": 203.25,
      "completions/min_length": 119.4,
      "epoch": 0.10321651464234277,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2543454170227051,
      "kl": 0.01162109375,
      "learning_rate": 9.999943270450725e-06,
      "loss": 0.00046498142182826996,
      "memory(GiB)": 25.29,
      "reward": -0.09350001960992813,
      "reward_std": 0.3010860651731491,
      "rewards/MMContentORM/mean": -0.4375,
      "rewards/MMContentORM/std": 0.6415534257888794,
      "rewards/MMFormatORM/mean": 0.39124998450279236,
      "rewards/MMFormatORM/std": 0.30987287759780885,
      "rewards/MMRubricORM/mean": -0.375,
      "rewards/MMRubricORM/std": 0.4858671844005585,
      "step": 215,
      "train_speed(iter/s)": 0.078963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.2,
      "completions/mean_length": 192.45,
      "completions/min_length": 76.8,
      "epoch": 0.10561689870379261,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.5995835661888123,
      "kl": 0.02928466796875,
      "learning_rate": 9.999809326532929e-06,
      "loss": 0.0011718601919710637,
      "memory(GiB)": 25.29,
      "reward": 0.18744998872280122,
      "reward_std": 0.29281292855739594,
      "rewards/MMContentORM/mean": 0.08300001323223113,
      "rewards/MMContentORM/std": 0.809050726890564,
      "rewards/MMFormatORM/mean": 0.4981249749660492,
      "rewards/MMFormatORM/std": 0.2565573215484619,
      "rewards/MMRubricORM/mean": -0.225,
      "rewards/MMRubricORM/std": 0.3916578650474548,
      "step": 220,
      "train_speed(iter/s)": 0.079297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 280.2,
      "completions/mean_length": 191.175,
      "completions/min_length": 101.8,
      "epoch": 0.10801728276524244,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2489888072013855,
      "kl": 0.01142578125,
      "learning_rate": 9.99959659453362e-06,
      "loss": 0.0004573634825646877,
      "memory(GiB)": 25.29,
      "reward": 0.07849998809397221,
      "reward_std": 0.29528780579566954,
      "rewards/MMContentORM/mean": -0.17499998956918716,
      "rewards/MMContentORM/std": 0.7530360221862793,
      "rewards/MMFormatORM/mean": 0.4899999797344208,
      "rewards/MMFormatORM/std": 0.23433216214179992,
      "rewards/MMRubricORM/mean": -0.2375,
      "rewards/MMRubricORM/std": 0.36226795315742494,
      "step": 225,
      "train_speed(iter/s)": 0.079619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 327.0,
      "completions/mean_length": 197.075,
      "completions/min_length": 113.0,
      "epoch": 0.11041766682669227,
      "frac_reward_zero_std": 0.15,
      "grad_norm": 0.27176177501678467,
      "kl": 0.012841796875,
      "learning_rate": 9.999305077805077e-06,
      "loss": 0.0005132704041898251,
      "memory(GiB)": 25.29,
      "reward": -0.02635001763701439,
      "reward_std": 0.40764704942703245,
      "rewards/MMContentORM/mean": -0.2990000039339066,
      "rewards/MMContentORM/std": 0.7697360038757324,
      "rewards/MMFormatORM/mean": 0.41437498331069944,
      "rewards/MMFormatORM/std": 0.31634018421173093,
      "rewards/MMRubricORM/mean": -0.3625,
      "rewards/MMRubricORM/std": 0.486677223443985,
      "step": 230,
      "train_speed(iter/s)": 0.079753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 275.4,
      "completions/mean_length": 189.825,
      "completions/min_length": 85.0,
      "epoch": 0.1128180508881421,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3836219310760498,
      "kl": 0.0144561767578125,
      "learning_rate": 9.99893478094108e-06,
      "loss": 0.0005777373909950257,
      "memory(GiB)": 25.29,
      "reward": 0.07359998375177383,
      "reward_std": 0.32229926288127897,
      "rewards/MMContentORM/mean": -0.14599999487400056,
      "rewards/MMContentORM/std": 0.7706803798675537,
      "rewards/MMFormatORM/mean": 0.4674999833106995,
      "rewards/MMFormatORM/std": 0.28921514451503755,
      "rewards/MMRubricORM/mean": -0.275,
      "rewards/MMRubricORM/std": 0.4454106867313385,
      "step": 235,
      "train_speed(iter/s)": 0.079954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.6,
      "completions/mean_length": 192.375,
      "completions/min_length": 102.6,
      "epoch": 0.11521843494959194,
      "frac_reward_zero_std": 0.1,
      "grad_norm": 0.3361359238624573,
      "kl": 0.01556396484375,
      "learning_rate": 9.99848570977685e-06,
      "loss": 0.0006220159120857716,
      "memory(GiB)": 25.29,
      "reward": 0.0773499846458435,
      "reward_std": 0.34245182275772096,
      "rewards/MMContentORM/mean": -0.15099999755620958,
      "rewards/MMContentORM/std": 0.7413495063781739,
      "rewards/MMFormatORM/mean": 0.47562498450279234,
      "rewards/MMFormatORM/std": 0.2913523316383362,
      "rewards/MMRubricORM/mean": -0.2625,
      "rewards/MMRubricORM/std": 0.4509934544563293,
      "step": 240,
      "train_speed(iter/s)": 0.079982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.2,
      "completions/mean_length": 196.525,
      "completions/min_length": 130.8,
      "epoch": 0.11761881901104176,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.23139292001724243,
      "kl": 0.0150390625,
      "learning_rate": 9.997957871388948e-06,
      "loss": 0.0006011344958096743,
      "memory(GiB)": 25.29,
      "reward": 0.22974997647106649,
      "reward_std": 0.27442815005779264,
      "rewards/MMContentORM/mean": 0.13999999761581422,
      "rewards/MMContentORM/std": 0.7938369989395142,
      "rewards/MMFormatORM/mean": 0.5281249761581421,
      "rewards/MMFormatORM/std": 0.22127365171909333,
      "rewards/MMRubricORM/mean": -0.1875,
      "rewards/MMRubricORM/std": 0.3404210150241852,
      "step": 245,
      "train_speed(iter/s)": 0.0802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.8,
      "completions/mean_length": 190.8875,
      "completions/min_length": 96.8,
      "epoch": 0.1200192030724916,
      "frac_reward_zero_std": 0.275,
      "grad_norm": 0.24103079736232758,
      "kl": 0.058306884765625,
      "learning_rate": 9.997351274095165e-06,
      "loss": 0.002327635698020458,
      "memory(GiB)": 25.29,
      "reward": 0.14489998891949654,
      "reward_std": 0.31650099754333494,
      "rewards/MMContentORM/mean": -0.028999996185302735,
      "rewards/MMContentORM/std": 0.7646125912666321,
      "rewards/MMFormatORM/mean": 0.5037499785423278,
      "rewards/MMFormatORM/std": 0.2736783236265182,
      "rewards/MMRubricORM/mean": -0.225,
      "rewards/MMRubricORM/std": 0.4210435926914215,
      "step": 250,
      "train_speed(iter/s)": 0.080485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 282.2,
      "completions/mean_length": 196.875,
      "completions/min_length": 126.4,
      "epoch": 0.12241958713394142,
      "frac_reward_zero_std": 0.125,
      "grad_norm": 0.2732993960380554,
      "kl": 0.0129638671875,
      "learning_rate": 9.996665927454393e-06,
      "loss": 0.0005180831998586654,
      "memory(GiB)": 25.29,
      "reward": 0.13094998374581338,
      "reward_std": 0.3363707005977631,
      "rewards/MMContentORM/mean": -0.10699999555945397,
      "rewards/MMContentORM/std": 0.732841408252716,
      "rewards/MMFormatORM/mean": 0.5281249821186066,
      "rewards/MMFormatORM/std": 0.2597552388906479,
      "rewards/MMRubricORM/mean": -0.1875,
      "rewards/MMRubricORM/std": 0.3996234655380249,
      "step": 255,
      "train_speed(iter/s)": 0.080761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.0,
      "completions/mean_length": 192.6625,
      "completions/min_length": 101.6,
      "epoch": 0.12481997119539126,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.2951659858226776,
      "kl": 0.03148193359375,
      "learning_rate": 9.995901842266476e-06,
      "loss": 0.0012587737292051315,
      "memory(GiB)": 25.29,
      "reward": 0.1078499898314476,
      "reward_std": 0.3215214520692825,
      "rewards/MMContentORM/mean": -0.1535000056028366,
      "rewards/MMContentORM/std": 0.7672501325607299,
      "rewards/MMFormatORM/mean": 0.5168749809265136,
      "rewards/MMFormatORM/std": 0.25745911300182345,
      "rewards/MMRubricORM/mean": -0.1875,
      "rewards/MMRubricORM/std": 0.3996234655380249,
      "step": 260,
      "train_speed(iter/s)": 0.081034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.4,
      "completions/mean_length": 199.075,
      "completions/min_length": 118.2,
      "epoch": 0.12722035525684108,
      "frac_reward_zero_std": 0.275,
      "grad_norm": 0.23530304431915283,
      "kl": 0.0120758056640625,
      "learning_rate": 9.99505903057203e-06,
      "loss": 0.00048267128877341745,
      "memory(GiB)": 25.29,
      "reward": 0.20024997591972352,
      "reward_std": 0.22662772685289384,
      "rewards/MMContentORM/mean": 0.012500005960464477,
      "rewards/MMContentORM/std": 0.6804582595825195,
      "rewards/MMFormatORM/mean": 0.5568749785423279,
      "rewards/MMFormatORM/std": 0.19259803593158722,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.29467830061912537,
      "step": 265,
      "train_speed(iter/s)": 0.081248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.6,
      "completions/mean_length": 188.1125,
      "completions/min_length": 134.8,
      "epoch": 0.12962073931829093,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.2173798680305481,
      "kl": 0.013104248046875,
      "learning_rate": 9.994137505652267e-06,
      "loss": 0.0005250374786555767,
      "memory(GiB)": 25.29,
      "reward": 0.21479999721050264,
      "reward_std": 0.28807530701160433,
      "rewards/MMContentORM/mean": 0.05450000464916229,
      "rewards/MMContentORM/std": 0.7564670324325562,
      "rewards/MMFormatORM/mean": 0.5512499809265137,
      "rewards/MMFormatORM/std": 0.22316529154777526,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.34438174962997437,
      "step": 270,
      "train_speed(iter/s)": 0.081407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 274.2,
      "completions/mean_length": 189.925,
      "completions/min_length": 126.8,
      "epoch": 0.13202112337974076,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.23718853294849396,
      "kl": 0.015252685546875,
      "learning_rate": 9.993137282028777e-06,
      "loss": 0.0006098361685872078,
      "memory(GiB)": 25.29,
      "reward": 0.22029998302459716,
      "reward_std": 0.29967186152935027,
      "rewards/MMContentORM/mean": 0.12200000137090683,
      "rewards/MMContentORM/std": 0.8326894640922546,
      "rewards/MMFormatORM/mean": 0.5224999785423279,
      "rewards/MMFormatORM/std": 0.25347527861595154,
      "rewards/MMRubricORM/mean": -0.1875,
      "rewards/MMRubricORM/std": 0.39013060331344607,
      "step": 275,
      "train_speed(iter/s)": 0.081663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 467.6,
      "completions/mean_length": 205.3,
      "completions/min_length": 126.8,
      "epoch": 0.13442150744119058,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.27481362223625183,
      "kl": 0.013482666015625,
      "learning_rate": 9.992058375463302e-06,
      "loss": 0.0005398368928581476,
      "memory(GiB)": 25.29,
      "reward": 0.15504998862743377,
      "reward_std": 0.3667762905359268,
      "rewards/MMContentORM/mean": -0.03049999326467514,
      "rewards/MMContentORM/std": 0.7381291270256043,
      "rewards/MMFormatORM/mean": 0.5181249678134918,
      "rewards/MMFormatORM/std": 0.2611870527267456,
      "rewards/MMRubricORM/mean": -0.2,
      "rewards/MMRubricORM/std": 0.4024340331554413,
      "step": 280,
      "train_speed(iter/s)": 0.081362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 274.4,
      "completions/mean_length": 183.0,
      "completions/min_length": 125.6,
      "epoch": 0.13682189150264043,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.33459168672561646,
      "kl": 0.013397216796875,
      "learning_rate": 9.990900802957484e-06,
      "loss": 0.0005357235670089722,
      "memory(GiB)": 25.29,
      "reward": 0.17229999005794525,
      "reward_std": 0.3010860651731491,
      "rewards/MMContentORM/mean": -0.07550000250339509,
      "rewards/MMContentORM/std": 0.6900161981582642,
      "rewards/MMFormatORM/mean": 0.568749976158142,
      "rewards/MMFormatORM/std": 0.1936162531375885,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2978711724281311,
      "step": 285,
      "train_speed(iter/s)": 0.081635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 277.8,
      "completions/mean_length": 193.6875,
      "completions/min_length": 125.6,
      "epoch": 0.13922227556409025,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.22289112210273743,
      "kl": 0.015679931640625,
      "learning_rate": 9.989664582752603e-06,
      "loss": 0.0006269993260502815,
      "memory(GiB)": 25.29,
      "reward": 0.20594998747110366,
      "reward_std": 0.2612759530544281,
      "rewards/MMContentORM/mean": 0.055499997735023496,
      "rewards/MMContentORM/std": 0.7748138785362244,
      "rewards/MMFormatORM/mean": 0.5406249761581421,
      "rewards/MMFormatORM/std": 0.2212115779519081,
      "rewards/MMRubricORM/mean": -0.1625,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 290,
      "train_speed(iter/s)": 0.081907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 327.2,
      "completions/mean_length": 200.9875,
      "completions/min_length": 134.4,
      "epoch": 0.14162265962554008,
      "frac_reward_zero_std": 0.1,
      "grad_norm": 0.26251521706581116,
      "kl": 0.015625,
      "learning_rate": 9.988349734329284e-06,
      "loss": 0.0006249185651540756,
      "memory(GiB)": 25.29,
      "reward": 0.2513999938964844,
      "reward_std": 0.24013345837593078,
      "rewards/MMContentORM/mean": 0.08850000128149986,
      "rewards/MMContentORM/std": 0.7766122579574585,
      "rewards/MMFormatORM/mean": 0.5837499737739563,
      "rewards/MMFormatORM/std": 0.16351408362388611,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 295,
      "train_speed(iter/s)": 0.08196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 367.0,
      "completions/mean_length": 191.7,
      "completions/min_length": 116.6,
      "epoch": 0.14402304368698993,
      "frac_reward_zero_std": 0.125,
      "grad_norm": 0.28246110677719116,
      "kl": 0.017596435546875,
      "learning_rate": 9.986956278407198e-06,
      "loss": 0.0007036954164505004,
      "memory(GiB)": 25.29,
      "reward": 0.13574998527765275,
      "reward_std": 0.30907638669013976,
      "rewards/MMContentORM/mean": -0.049999994784593584,
      "rewards/MMContentORM/std": 0.7848005771636963,
      "rewards/MMFormatORM/mean": 0.5018749833106995,
      "rewards/MMFormatORM/std": 0.2665435582399368,
      "rewards/MMRubricORM/mean": -0.225,
      "rewards/MMRubricORM/std": 0.4095080256462097,
      "step": 300,
      "train_speed(iter/s)": 0.081952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 254.6,
      "completions/mean_length": 182.3,
      "completions/min_length": 105.6,
      "epoch": 0.14642342774843975,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.6548066139221191,
      "kl": 0.02274169921875,
      "learning_rate": 9.985484236944723e-06,
      "loss": 0.0009119081310927868,
      "memory(GiB)": 25.29,
      "reward": 0.2615999788045883,
      "reward_std": 0.2737917542457581,
      "rewards/MMContentORM/mean": 0.12650000676512718,
      "rewards/MMContentORM/std": 0.7763458490371704,
      "rewards/MMFormatORM/mean": 0.5774999856948853,
      "rewards/MMFormatORM/std": 0.19905767738819122,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 305,
      "train_speed(iter/s)": 0.081951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 286.2,
      "completions/mean_length": 189.0875,
      "completions/min_length": 117.0,
      "epoch": 0.14882381180988957,
      "frac_reward_zero_std": 0.125,
      "grad_norm": 0.8391085863113403,
      "kl": 0.0144775390625,
      "learning_rate": 9.983933633138607e-06,
      "loss": 0.000579320639371872,
      "memory(GiB)": 25.29,
      "reward": 0.2854999780654907,
      "reward_std": 0.23037539422512054,
      "rewards/MMContentORM/mean": 0.14999999850988388,
      "rewards/MMContentORM/std": 0.6774580955505372,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 310,
      "train_speed(iter/s)": 0.082155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.4,
      "completions/mean_length": 205.75,
      "completions/min_length": 138.6,
      "epoch": 0.15122419587133942,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.4532962143421173,
      "kl": 0.014453125,
      "learning_rate": 9.982304491423607e-06,
      "loss": 0.0005786891095340251,
      "memory(GiB)": 25.29,
      "reward": 0.2162499874830246,
      "reward_std": 0.26664996445178984,
      "rewards/MMContentORM/mean": 0.019999995827674866,
      "rewards/MMContentORM/std": 0.7253228902816773,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 315,
      "train_speed(iter/s)": 0.082254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 257.2,
      "completions/mean_length": 186.875,
      "completions/min_length": 129.8,
      "epoch": 0.15362457993278925,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3340102732181549,
      "kl": 0.017840576171875,
      "learning_rate": 9.980596837472085e-06,
      "loss": 0.000713213300332427,
      "memory(GiB)": 25.29,
      "reward": 0.2187499910593033,
      "reward_std": 0.20993999540805816,
      "rewards/MMContentORM/mean": 0.030000004172325134,
      "rewards/MMContentORM/std": 0.716671884059906,
      "rewards/MMFormatORM/mean": 0.5731249749660492,
      "rewards/MMFormatORM/std": 0.19444467574357988,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27606874108314516,
      "step": 320,
      "train_speed(iter/s)": 0.082482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.2,
      "completions/mean_length": 190.875,
      "completions/min_length": 119.0,
      "epoch": 0.15602496399423907,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.297242671251297,
      "kl": 0.016180419921875,
      "learning_rate": 9.978810698193628e-06,
      "loss": 0.0006479379255324603,
      "memory(GiB)": 25.29,
      "reward": 0.36794998943805696,
      "reward_std": 0.2478409305214882,
      "rewards/MMContentORM/mean": 0.37049999833106995,
      "rewards/MMContentORM/std": 0.6727034986019135,
      "rewards/MMFormatORM/mean": 0.5931249797344208,
      "rewards/MMFormatORM/std": 0.1350412219762802,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2077557325363159,
      "step": 325,
      "train_speed(iter/s)": 0.082645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.4,
      "completions/mean_length": 188.0875,
      "completions/min_length": 105.4,
      "epoch": 0.15842534805568892,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.25825080275535583,
      "kl": 0.016131591796875,
      "learning_rate": 9.976946101734607e-06,
      "loss": 0.0006450886372476816,
      "memory(GiB)": 25.29,
      "reward": 0.32744998335838316,
      "reward_std": 0.2085257887840271,
      "rewards/MMContentORM/mean": 0.2405000112950802,
      "rewards/MMContentORM/std": 0.7213131546974182,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 330,
      "train_speed(iter/s)": 0.082761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.2,
      "completions/mean_length": 188.65,
      "completions/min_length": 133.8,
      "epoch": 0.16082573211713874,
      "frac_reward_zero_std": 0.15,
      "grad_norm": 0.2867213189601898,
      "kl": 0.01766357421875,
      "learning_rate": 9.975003077477733e-06,
      "loss": 0.0007068701088428497,
      "memory(GiB)": 25.29,
      "reward": 0.3085499942302704,
      "reward_std": 0.19721208810806273,
      "rewards/MMContentORM/mean": 0.22200000584125518,
      "rewards/MMContentORM/std": 0.6932164669036865,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 335,
      "train_speed(iter/s)": 0.082968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 277.0,
      "completions/mean_length": 188.6,
      "completions/min_length": 118.8,
      "epoch": 0.16322611617858857,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.21676421165466309,
      "kl": 0.0164306640625,
      "learning_rate": 9.97298165604161e-06,
      "loss": 0.0006582758855074644,
      "memory(GiB)": 25.29,
      "reward": 0.2879999876022339,
      "reward_std": 0.1766352742910385,
      "rewards/MMContentORM/mean": 0.1849999964237213,
      "rewards/MMContentORM/std": 0.7507146120071411,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 340,
      "train_speed(iter/s)": 0.083168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.4,
      "completions/mean_length": 185.2,
      "completions/min_length": 111.8,
      "epoch": 0.16562650024003842,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.21741819381713867,
      "kl": 0.017755126953125,
      "learning_rate": 9.970881869280231e-06,
      "loss": 0.0007105268072336912,
      "memory(GiB)": 25.29,
      "reward": 0.31114999651908876,
      "reward_std": 0.21616254448890687,
      "rewards/MMContentORM/mean": 0.22849999815225602,
      "rewards/MMContentORM/std": 0.7147838234901428,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 345,
      "train_speed(iter/s)": 0.08331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.8,
      "completions/mean_length": 193.775,
      "completions/min_length": 107.8,
      "epoch": 0.16802688430148824,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.25716090202331543,
      "kl": 0.01529541015625,
      "learning_rate": 9.968703750282498e-06,
      "loss": 0.0006120001431554556,
      "memory(GiB)": 25.29,
      "reward": 0.3012999713420868,
      "reward_std": 0.24819448292255403,
      "rewards/MMContentORM/mean": 0.18950000554323196,
      "rewards/MMContentORM/std": 0.7667634725570679,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 350,
      "train_speed(iter/s)": 0.083431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.2,
      "completions/mean_length": 199.3625,
      "completions/min_length": 131.2,
      "epoch": 0.17042726836293806,
      "frac_reward_zero_std": 0.125,
      "grad_norm": 0.29177579283714294,
      "kl": 0.016534423828125,
      "learning_rate": 9.966447333371679e-06,
      "loss": 0.0006617675069719553,
      "memory(GiB)": 25.29,
      "reward": 0.3361999988555908,
      "reward_std": 0.2548412889242172,
      "rewards/MMContentORM/mean": 0.2804999977350235,
      "rewards/MMContentORM/std": 0.7203467965126038,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.1303652733564377,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 355,
      "train_speed(iter/s)": 0.083425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.0,
      "completions/mean_length": 194.0125,
      "completions/min_length": 119.0,
      "epoch": 0.1728276524243879,
      "frac_reward_zero_std": 0.275,
      "grad_norm": 0.22960415482521057,
      "kl": 0.015142822265625,
      "learning_rate": 9.964112654104881e-06,
      "loss": 0.0006059727631509304,
      "memory(GiB)": 25.29,
      "reward": 0.18509998098015784,
      "reward_std": 0.19671710431575776,
      "rewards/MMContentORM/mean": -0.043500003218650815,
      "rewards/MMContentORM/std": 0.6924860835075378,
      "rewards/MMFormatORM/mean": 0.5687499880790711,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 360,
      "train_speed(iter/s)": 0.083524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.6,
      "completions/mean_length": 199.275,
      "completions/min_length": 126.8,
      "epoch": 0.17522803648583773,
      "frac_reward_zero_std": 0.2,
      "grad_norm": 0.22960397601127625,
      "kl": 0.014129638671875,
      "learning_rate": 9.961699749272491e-06,
      "loss": 0.00056455098092556,
      "memory(GiB)": 25.29,
      "reward": 0.28239999413490297,
      "reward_std": 0.15443212017416955,
      "rewards/MMContentORM/mean": 0.13350000753998756,
      "rewards/MMContentORM/std": 0.694654929637909,
      "rewards/MMFormatORM/mean": 0.6037499666213989,
      "rewards/MMFormatORM/std": 0.1227274090051651,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 365,
      "train_speed(iter/s)": 0.083611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 420.8,
      "completions/mean_length": 195.0375,
      "completions/min_length": 104.8,
      "epoch": 0.17762842054728756,
      "frac_reward_zero_std": 0.275,
      "grad_norm": 0.247096449136734,
      "kl": 0.0181640625,
      "learning_rate": 9.959208656897584e-06,
      "loss": 0.000726937735453248,
      "memory(GiB)": 25.29,
      "reward": 0.3057999789714813,
      "reward_std": 0.21651609390974044,
      "rewards/MMContentORM/mean": 0.22949999421834946,
      "rewards/MMContentORM/std": 0.7364683985710144,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 370,
      "train_speed(iter/s)": 0.08347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.6,
      "completions/mean_length": 181.1,
      "completions/min_length": 111.0,
      "epoch": 0.1800288046087374,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.2202872931957245,
      "kl": 0.01561279296875,
      "learning_rate": 9.956639416235337e-06,
      "loss": 0.0006248470395803452,
      "memory(GiB)": 25.29,
      "reward": 0.3359999775886536,
      "reward_std": 0.12784490436315538,
      "rewards/MMContentORM/mean": 0.2475000001490116,
      "rewards/MMContentORM/std": 0.6804847836494445,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 375,
      "train_speed(iter/s)": 0.083633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/mean_length": 188.625,
      "completions/min_length": 126.0,
      "epoch": 0.18242918867018723,
      "frac_reward_zero_std": 0.1,
      "grad_norm": 0.3163186311721802,
      "kl": 0.02537841796875,
      "learning_rate": 9.953992067772402e-06,
      "loss": 0.0010158225893974304,
      "memory(GiB)": 25.29,
      "reward": 0.3191999852657318,
      "reward_std": 0.2754888117313385,
      "rewards/MMContentORM/mean": 0.2705000042915344,
      "rewards/MMContentORM/std": 0.7479893922805786,
      "rewards/MMFormatORM/mean": 0.5774999737739563,
      "rewards/MMFormatORM/std": 0.19774004817008972,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 380,
      "train_speed(iter/s)": 0.083784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 286.0,
      "completions/mean_length": 196.3625,
      "completions/min_length": 104.0,
      "epoch": 0.18482957273163705,
      "frac_reward_zero_std": 0.075,
      "grad_norm": 0.2652575373649597,
      "kl": 0.025384521484375,
      "learning_rate": 9.95126665322627e-06,
      "loss": 0.001015142910182476,
      "memory(GiB)": 25.29,
      "reward": 0.33874998092651365,
      "reward_std": 0.2068287432193756,
      "rewards/MMContentORM/mean": 0.28500000238418577,
      "rewards/MMContentORM/std": 0.7165241241455078,
      "rewards/MMFormatORM/mean": 0.5993749856948852,
      "rewards/MMFormatORM/std": 0.16130690574645995,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 385,
      "train_speed(iter/s)": 0.083924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.8,
      "completions/mean_length": 184.35,
      "completions/min_length": 107.2,
      "epoch": 0.1872299567930869,
      "frac_reward_zero_std": 0.175,
      "grad_norm": 0.25149068236351013,
      "kl": 0.024176025390625,
      "learning_rate": 9.948463215544617e-06,
      "loss": 0.0009666066616773605,
      "memory(GiB)": 25.29,
      "reward": 0.36579999327659607,
      "reward_std": 0.18809040486812592,
      "rewards/MMContentORM/mean": 0.32200001180171967,
      "rewards/MMContentORM/std": 0.6846403241157532,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 390,
      "train_speed(iter/s)": 0.083997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 260.0,
      "completions/mean_length": 171.7125,
      "completions/min_length": 89.8,
      "epoch": 0.18963034085453673,
      "frac_reward_zero_std": 0.225,
      "grad_norm": 0.2679647207260132,
      "kl": 0.023345947265625,
      "learning_rate": 9.945581798904623e-06,
      "loss": 0.0009329639375209809,
      "memory(GiB)": 25.29,
      "reward": 0.2854999899864197,
      "reward_std": 0.24409326910972595,
      "rewards/MMContentORM/mean": 0.18250000327825547,
      "rewards/MMContentORM/std": 0.7319893360137939,
      "rewards/MMFormatORM/mean": 0.5812499761581421,
      "rewards/MMFormatORM/std": 0.1992675095796585,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 395,
      "train_speed(iter/s)": 0.084235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 250.0,
      "completions/mean_length": 182.8,
      "completions/min_length": 118.4,
      "epoch": 0.19203072491598655,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.283568799495697,
      "kl": 0.022515869140625,
      "learning_rate": 9.942622448712276e-06,
      "loss": 0.0009008722379803657,
      "memory(GiB)": 25.29,
      "reward": 0.3700499892234802,
      "reward_std": 0.1973535120487213,
      "rewards/MMContentORM/mean": 0.34700000286102295,
      "rewards/MMContentORM/std": 0.7341425061225891,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 400,
      "train_speed(iter/s)": 0.0845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.8,
      "completions/mean_length": 192.4875,
      "completions/min_length": 123.8,
      "epoch": 0.1944311089774364,
      "frac_reward_zero_std": 0.225,
      "grad_norm": 0.23822158575057983,
      "kl": 0.020452880859375,
      "learning_rate": 9.93958521160166e-06,
      "loss": 0.0008180794306099415,
      "memory(GiB)": 25.29,
      "reward": 0.3346499800682068,
      "reward_std": 0.20442457497119904,
      "rewards/MMContentORM/mean": 0.2585000067949295,
      "rewards/MMContentORM/std": 0.7207361459732056,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 405,
      "train_speed(iter/s)": 0.084282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/mean_length": 183.3375,
      "completions/min_length": 130.0,
      "epoch": 0.19683149303888622,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.21869473159313202,
      "kl": 0.017327880859375,
      "learning_rate": 9.936470135434219e-06,
      "loss": 0.000694124260917306,
      "memory(GiB)": 25.29,
      "reward": 0.3697000026702881,
      "reward_std": 0.18314065933227539,
      "rewards/MMContentORM/mean": 0.3479999989271164,
      "rewards/MMContentORM/std": 0.7096795082092285,
      "rewards/MMFormatORM/mean": 0.6074999928474426,
      "rewards/MMFormatORM/std": 0.12490466833114625,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 410,
      "train_speed(iter/s)": 0.084451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.4,
      "completions/mean_length": 188.8625,
      "completions/min_length": 132.2,
      "epoch": 0.19923187710033605,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.26058775186538696,
      "kl": 0.019140625,
      "learning_rate": 9.933277269297995e-06,
      "loss": 0.0007644101046025753,
      "memory(GiB)": 25.29,
      "reward": 0.3062999933958054,
      "reward_std": 0.23659793436527252,
      "rewards/MMContentORM/mean": 0.20200001299381257,
      "rewards/MMContentORM/std": 0.7170636773109436,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 415,
      "train_speed(iter/s)": 0.084554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 267.0,
      "completions/mean_length": 182.9875,
      "completions/min_length": 107.2,
      "epoch": 0.2016322611617859,
      "frac_reward_zero_std": 0.275,
      "grad_norm": 0.2722574472427368,
      "kl": 0.024627685546875,
      "learning_rate": 9.930006663506872e-06,
      "loss": 0.0009830674156546594,
      "memory(GiB)": 25.29,
      "reward": 0.393399977684021,
      "reward_std": 0.2146776258945465,
      "rewards/MMContentORM/mean": 0.3910000085830688,
      "rewards/MMContentORM/std": 0.68272864818573,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 420,
      "train_speed(iter/s)": 0.084714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.6,
      "completions/mean_length": 192.0,
      "completions/min_length": 112.0,
      "epoch": 0.20403264522323572,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.25141969323158264,
      "kl": 0.017279052734375,
      "learning_rate": 9.926658369599761e-06,
      "loss": 0.0006905121728777886,
      "memory(GiB)": 25.29,
      "reward": 0.3258499801158905,
      "reward_std": 0.20725299715995787,
      "rewards/MMContentORM/mean": 0.23650000989437103,
      "rewards/MMContentORM/std": 0.7136297464370728,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 425,
      "train_speed(iter/s)": 0.084795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.8,
      "completions/mean_length": 189.6625,
      "completions/min_length": 128.2,
      "epoch": 0.20643302928468554,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.23711970448493958,
      "kl": 0.022698974609375,
      "learning_rate": 9.923232440339811e-06,
      "loss": 0.0009088035672903061,
      "memory(GiB)": 25.29,
      "reward": 0.40454998016357424,
      "reward_std": 0.1615738956257701,
      "rewards/MMContentORM/mean": 0.4044999837875366,
      "rewards/MMContentORM/std": 0.6727037191390991,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 430,
      "train_speed(iter/s)": 0.084935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.4,
      "completions/mean_length": 196.9,
      "completions/min_length": 134.6,
      "epoch": 0.2088334133461354,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.2575157582759857,
      "kl": 0.021795654296875,
      "learning_rate": 9.919728929713555e-06,
      "loss": 0.0008713678456842899,
      "memory(GiB)": 25.29,
      "reward": 0.3168999910354614,
      "reward_std": 0.22896117568016053,
      "rewards/MMContentORM/mean": 0.2859999895095825,
      "rewards/MMContentORM/std": 0.7667613625526428,
      "rewards/MMFormatORM/mean": 0.5687499880790711,
      "rewards/MMFormatORM/std": 0.18971401453018188,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.291867733001709,
      "step": 435,
      "train_speed(iter/s)": 0.085105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.6,
      "completions/mean_length": 203.775,
      "completions/min_length": 126.6,
      "epoch": 0.21123379740758522,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.19185078144073486,
      "kl": 0.014251708984375,
      "learning_rate": 9.916147892930075e-06,
      "loss": 0.0005701377056539058,
      "memory(GiB)": 25.29,
      "reward": 0.3422499805688858,
      "reward_std": 0.19254517406225205,
      "rewards/MMContentORM/mean": 0.27750000208616254,
      "rewards/MMContentORM/std": 0.7132205009460449,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 440,
      "train_speed(iter/s)": 0.085168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 464.2,
      "completions/mean_length": 220.8625,
      "completions/min_length": 117.4,
      "epoch": 0.21363418146903504,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.3216782808303833,
      "kl": 0.016217041015625,
      "learning_rate": 9.912489386420127e-06,
      "loss": 0.0006480277515947819,
      "memory(GiB)": 25.29,
      "reward": 0.38044998943805697,
      "reward_std": 0.19636355340480804,
      "rewards/MMContentORM/mean": 0.4055000066757202,
      "rewards/MMContentORM/std": 0.6969575762748719,
      "rewards/MMFormatORM/mean": 0.5893749892711639,
      "rewards/MMFormatORM/std": 0.17063776403665543,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.23944272398948668,
      "step": 445,
      "train_speed(iter/s)": 0.084893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.8,
      "completions/mean_length": 193.45,
      "completions/min_length": 100.2,
      "epoch": 0.2160345655304849,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.2631596326828003,
      "kl": 0.01585693359375,
      "learning_rate": 9.908753467835252e-06,
      "loss": 0.000633768830448389,
      "memory(GiB)": 25.29,
      "reward": 0.31024998873472215,
      "reward_std": 0.13823937475681305,
      "rewards/MMContentORM/mean": 0.19750000834465026,
      "rewards/MMContentORM/std": 0.6008442759513855,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 450,
      "train_speed(iter/s)": 0.084948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 274.2,
      "completions/mean_length": 197.2625,
      "completions/min_length": 127.0,
      "epoch": 0.2184349495919347,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2569175660610199,
      "kl": 0.01932373046875,
      "learning_rate": 9.904940196046867e-06,
      "loss": 0.0007727490272372961,
      "memory(GiB)": 25.29,
      "reward": 0.3388499915599823,
      "reward_std": 0.20187898278236388,
      "rewards/MMContentORM/mean": 0.326500004529953,
      "rewards/MMContentORM/std": 0.7351299285888672,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.1856150358915329,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.285561603307724,
      "step": 455,
      "train_speed(iter/s)": 0.085103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 280.6,
      "completions/mean_length": 192.1625,
      "completions/min_length": 112.2,
      "epoch": 0.22083533365338454,
      "frac_reward_zero_std": 0.225,
      "grad_norm": 0.295173704624176,
      "kl": 0.023602294921875,
      "learning_rate": 9.901049631145336e-06,
      "loss": 0.0009442863985896111,
      "memory(GiB)": 25.29,
      "reward": 0.3670499801635742,
      "reward_std": 0.22988041043281554,
      "rewards/MMContentORM/mean": 0.33950000405311587,
      "rewards/MMContentORM/std": 0.7248481631278991,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 460,
      "train_speed(iter/s)": 0.085231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 198.8625,
      "completions/min_length": 134.2,
      "epoch": 0.2232357177148344,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.18804140388965607,
      "kl": 0.01673583984375,
      "learning_rate": 9.897081834439026e-06,
      "loss": 0.0006706462241709233,
      "memory(GiB)": 25.29,
      "reward": 0.3739499866962433,
      "reward_std": 0.16638222634792327,
      "rewards/MMContentORM/mean": 0.3279999911785126,
      "rewards/MMContentORM/std": 0.6578051447868347,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 465,
      "train_speed(iter/s)": 0.085203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 437.2,
      "completions/mean_length": 207.525,
      "completions/min_length": 127.8,
      "epoch": 0.2256361017762842,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.2759953439235687,
      "kl": 0.017724609375,
      "learning_rate": 9.89303686845334e-06,
      "loss": 0.0007088197395205498,
      "memory(GiB)": 25.29,
      "reward": 0.33759998679161074,
      "reward_std": 0.26276087909936907,
      "rewards/MMContentORM/mean": 0.35399999022483825,
      "rewards/MMContentORM/std": 0.7571944236755371,
      "rewards/MMFormatORM/mean": 0.5587499856948852,
      "rewards/MMFormatORM/std": 0.2141388863325119,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.3288854479789734,
      "step": 470,
      "train_speed(iter/s)": 0.084976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.0,
      "completions/mean_length": 202.15,
      "completions/min_length": 133.0,
      "epoch": 0.22803648583773403,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.24971622228622437,
      "kl": 0.016107177734375,
      "learning_rate": 9.888914796929732e-06,
      "loss": 0.000644554104655981,
      "memory(GiB)": 25.29,
      "reward": 0.42414999604225156,
      "reward_std": 0.18872679471969606,
      "rewards/MMContentORM/mean": 0.45350001454353334,
      "rewards/MMContentORM/std": 0.6859857916831971,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 475,
      "train_speed(iter/s)": 0.085055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.4,
      "completions/mean_length": 203.1875,
      "completions/min_length": 129.2,
      "epoch": 0.23043686989918388,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.1769513338804245,
      "kl": 0.0209716796875,
      "learning_rate": 9.884715684824698e-06,
      "loss": 0.000839579850435257,
      "memory(GiB)": 25.29,
      "reward": 0.38434997797012327,
      "reward_std": 0.15351288318634032,
      "rewards/MMContentORM/mean": 0.39899998605251313,
      "rewards/MMContentORM/std": 0.7158730506896973,
      "rewards/MMFormatORM/mean": 0.5993749916553497,
      "rewards/MMFormatORM/std": 0.1306377649307251,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 480,
      "train_speed(iter/s)": 0.085104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 263.6,
      "completions/mean_length": 194.1875,
      "completions/min_length": 132.0,
      "epoch": 0.2328372539606337,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.23804667592048645,
      "kl": 0.014935302734375,
      "learning_rate": 9.880439598308759e-06,
      "loss": 0.0005985048599541187,
      "memory(GiB)": 25.29,
      "reward": 0.44059998989105226,
      "reward_std": 0.19487863630056382,
      "rewards/MMContentORM/mean": 0.5090000003576278,
      "rewards/MMContentORM/std": 0.6222364962100982,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 485,
      "train_speed(iter/s)": 0.085257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 205.2375,
      "completions/min_length": 136.2,
      "epoch": 0.23523763802208353,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.2561754882335663,
      "kl": 0.013427734375,
      "learning_rate": 9.876086604765416e-06,
      "loss": 0.0005371436476707458,
      "memory(GiB)": 25.29,
      "reward": 0.36444997787475586,
      "reward_std": 0.1216930739581585,
      "rewards/MMContentORM/mean": 0.3330000042915344,
      "rewards/MMContentORM/std": 0.6553688704967499,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 490,
      "train_speed(iter/s)": 0.085298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.2,
      "completions/mean_length": 195.65,
      "completions/min_length": 130.2,
      "epoch": 0.23763802208353338,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.14273209869861603,
      "kl": 0.019012451171875,
      "learning_rate": 9.871656772790088e-06,
      "loss": 0.0007593894377350807,
      "memory(GiB)": 25.29,
      "reward": 0.3240499943494797,
      "reward_std": 0.17599887698888778,
      "rewards/MMContentORM/mean": 0.26449999809265134,
      "rewards/MMContentORM/std": 0.7485530972480774,
      "rewards/MMFormatORM/mean": 0.5893749833106995,
      "rewards/MMFormatORM/std": 0.14441428184509278,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21124515533447266,
      "step": 495,
      "train_speed(iter/s)": 0.085438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.0,
      "completions/mean_length": 206.625,
      "completions/min_length": 114.4,
      "epoch": 0.2400384061449832,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.1166425347328186,
      "kl": 0.02442626953125,
      "learning_rate": 9.86715017218903e-06,
      "loss": 0.0009763010777533055,
      "memory(GiB)": 25.29,
      "reward": 0.41664999127388,
      "reward_std": 0.15973542779684066,
      "rewards/MMContentORM/mean": 0.4634999930858612,
      "rewards/MMContentORM/std": 0.678302276134491,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 500,
      "train_speed(iter/s)": 0.085421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.0,
      "completions/mean_length": 203.2125,
      "completions/min_length": 135.0,
      "epoch": 0.24243879020643302,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.1965927928686142,
      "kl": 0.01986083984375,
      "learning_rate": 9.862566873978227e-06,
      "loss": 0.000794212706387043,
      "memory(GiB)": 25.29,
      "reward": 0.4267499804496765,
      "reward_std": 0.12225875928997994,
      "rewards/MMContentORM/mean": 0.4600000023841858,
      "rewards/MMContentORM/std": 0.6565978765487671,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 505,
      "train_speed(iter/s)": 0.085301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 196.475,
      "completions/min_length": 123.0,
      "epoch": 0.24483917426788285,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.19395841658115387,
      "kl": 0.017010498046875,
      "learning_rate": 9.857906950382297e-06,
      "loss": 0.0006808775477111339,
      "memory(GiB)": 25.29,
      "reward": 0.3696999788284302,
      "reward_std": 0.15372501760721208,
      "rewards/MMContentORM/mean": 0.36050000339746474,
      "rewards/MMContentORM/std": 0.6960474014282226,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 510,
      "train_speed(iter/s)": 0.085386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 295.0,
      "completions/mean_length": 211.9125,
      "completions/min_length": 141.8,
      "epoch": 0.2472395583293327,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.3381326496601105,
      "kl": 0.027838134765625,
      "learning_rate": 9.853170474833323e-06,
      "loss": 0.0011151479557156563,
      "memory(GiB)": 25.29,
      "reward": 0.37864998877048495,
      "reward_std": 0.23044609874486924,
      "rewards/MMContentORM/mean": 0.4135000079870224,
      "rewards/MMContentORM/std": 0.7175926685333252,
      "rewards/MMFormatORM/mean": 0.5831249773502349,
      "rewards/MMFormatORM/std": 0.16790457367897033,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 515,
      "train_speed(iter/s)": 0.085432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.0,
      "completions/mean_length": 208.3,
      "completions/min_length": 109.2,
      "epoch": 0.24963994239078252,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.20441797375679016,
      "kl": 0.021405029296875,
      "learning_rate": 9.848357521969716e-06,
      "loss": 0.0008581820875406265,
      "memory(GiB)": 25.29,
      "reward": 0.36869998276233673,
      "reward_std": 0.2739331744611263,
      "rewards/MMContentORM/mean": 0.41549999415874483,
      "rewards/MMContentORM/std": 0.7344144463539124,
      "rewards/MMFormatORM/mean": 0.568749976158142,
      "rewards/MMFormatORM/std": 0.1936162531375885,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2978711724281311,
      "step": 520,
      "train_speed(iter/s)": 0.085467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.2,
      "completions/mean_length": 201.225,
      "completions/min_length": 113.4,
      "epoch": 0.25204032645223234,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.18100592494010925,
      "kl": 0.030682373046875,
      "learning_rate": 9.843468167635034e-06,
      "loss": 0.0012254069559276104,
      "memory(GiB)": 25.63,
      "reward": 0.3865999817848206,
      "reward_std": 0.2231628954410553,
      "rewards/MMContentORM/mean": 0.41899999380111697,
      "rewards/MMContentORM/std": 0.7231726169586181,
      "rewards/MMFormatORM/mean": 0.5912499785423279,
      "rewards/MMFormatORM/std": 0.18667025864124298,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 525,
      "train_speed(iter/s)": 0.085558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 295.0,
      "completions/mean_length": 192.2625,
      "completions/min_length": 113.8,
      "epoch": 0.25444071051368217,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.21060362458229065,
      "kl": 0.02144775390625,
      "learning_rate": 9.838502488876785e-06,
      "loss": 0.0008578533306717873,
      "memory(GiB)": 25.63,
      "reward": 0.38974998593330384,
      "reward_std": 0.11646047895774245,
      "rewards/MMContentORM/mean": 0.425,
      "rewards/MMContentORM/std": 0.7169785857200622,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.13730934262275696,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21124515533447266,
      "step": 530,
      "train_speed(iter/s)": 0.085629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.6,
      "completions/mean_length": 196.6625,
      "completions/min_length": 139.8,
      "epoch": 0.25684109457513205,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.215934157371521,
      "kl": 0.017657470703125,
      "learning_rate": 9.833460563945213e-06,
      "loss": 0.0007070350926369429,
      "memory(GiB)": 25.63,
      "reward": 0.4114499926567078,
      "reward_std": 0.18292852416634559,
      "rewards/MMContentORM/mean": 0.45050002038478854,
      "rewards/MMContentORM/std": 0.679290497303009,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 535,
      "train_speed(iter/s)": 0.085733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 199.0875,
      "completions/min_length": 125.4,
      "epoch": 0.25924147863658187,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.3002188503742218,
      "kl": 0.01728515625,
      "learning_rate": 9.828342472292063e-06,
      "loss": 0.0006916997022926808,
      "memory(GiB)": 25.63,
      "reward": 0.3853999853134155,
      "reward_std": 0.1479267368093133,
      "rewards/MMContentORM/mean": 0.37100000232458114,
      "rewards/MMContentORM/std": 0.6368636965751648,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 540,
      "train_speed(iter/s)": 0.085766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 279.4,
      "completions/mean_length": 202.4125,
      "completions/min_length": 129.8,
      "epoch": 0.2616418626980317,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.1911313533782959,
      "kl": 0.019146728515625,
      "learning_rate": 9.823148294569342e-06,
      "loss": 0.0007662074174731969,
      "memory(GiB)": 25.63,
      "reward": 0.31649998128414153,
      "reward_std": 0.2351837173104286,
      "rewards/MMContentORM/mean": 0.25999999046325684,
      "rewards/MMContentORM/std": 0.7403302311897277,
      "rewards/MMFormatORM/mean": 0.5812499761581421,
      "rewards/MMFormatORM/std": 0.17399703860282897,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 545,
      "train_speed(iter/s)": 0.085865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 440.2,
      "completions/mean_length": 210.1125,
      "completions/min_length": 121.8,
      "epoch": 0.2640422467594815,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.13542525470256805,
      "kl": 0.019854736328125,
      "learning_rate": 9.817878112628026e-06,
      "loss": 0.0007948323152959346,
      "memory(GiB)": 25.63,
      "reward": 0.4270999848842621,
      "reward_std": 0.14835099875926971,
      "rewards/MMContentORM/mean": 0.5040000081062317,
      "rewards/MMContentORM/std": 0.6937057256698609,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 550,
      "train_speed(iter/s)": 0.08564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 295.2,
      "completions/mean_length": 191.6125,
      "completions/min_length": 107.2,
      "epoch": 0.26644263082093134,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.24546104669570923,
      "kl": 0.0204833984375,
      "learning_rate": 9.812532009516787e-06,
      "loss": 0.000820968858897686,
      "memory(GiB)": 25.63,
      "reward": 0.4259999990463257,
      "reward_std": 0.14651251956820488,
      "rewards/MMContentORM/mean": 0.47249999046325686,
      "rewards/MMContentORM/std": 0.6199936449527741,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 555,
      "train_speed(iter/s)": 0.085693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 282.0,
      "completions/mean_length": 201.3375,
      "completions/min_length": 147.8,
      "epoch": 0.26884301488238116,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.19194868206977844,
      "kl": 0.0193115234375,
      "learning_rate": 9.807110069480682e-06,
      "loss": 0.0007728527300059796,
      "memory(GiB)": 25.63,
      "reward": 0.4393999844789505,
      "reward_std": 0.15315932929515838,
      "rewards/MMContentORM/mean": 0.5384999871253967,
      "rewards/MMContentORM/std": 0.678757655620575,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.10973276048898697,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.14574271440505981,
      "step": 560,
      "train_speed(iter/s)": 0.085797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.8,
      "completions/mean_length": 198.1875,
      "completions/min_length": 138.0,
      "epoch": 0.27124339894383104,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.2646057605743408,
      "kl": 0.02037353515625,
      "learning_rate": 9.801612377959817e-06,
      "loss": 0.0008142871782183647,
      "memory(GiB)": 25.63,
      "reward": 0.49279999136924746,
      "reward_std": 0.07127636531367898,
      "rewards/MMContentORM/mean": 0.5819999873638153,
      "rewards/MMContentORM/std": 0.6154716610908508,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 565,
      "train_speed(iter/s)": 0.085862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.8,
      "completions/mean_length": 194.2625,
      "completions/min_length": 130.8,
      "epoch": 0.27364378300528086,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.25992026925086975,
      "kl": 0.020379638671875,
      "learning_rate": 9.796039021588011e-06,
      "loss": 0.0008148624561727047,
      "memory(GiB)": 25.63,
      "reward": 0.3938499867916107,
      "reward_std": 0.1806657761335373,
      "rewards/MMContentORM/mean": 0.40650000274181364,
      "rewards/MMContentORM/std": 0.6918909192085266,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 570,
      "train_speed(iter/s)": 0.085903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 435.8,
      "completions/mean_length": 207.45,
      "completions/min_length": 110.0,
      "epoch": 0.2760441670667307,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.19565346837043762,
      "kl": 0.13974609375,
      "learning_rate": 9.790390088191423e-06,
      "loss": 0.005578663945198059,
      "memory(GiB)": 25.63,
      "reward": 0.36904999017715456,
      "reward_std": 0.21177847310900688,
      "rewards/MMContentORM/mean": 0.40199999809265136,
      "rewards/MMContentORM/std": 0.7141570091247559,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.1856150358915329,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.285561603307724,
      "step": 575,
      "train_speed(iter/s)": 0.085739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 444.2,
      "completions/mean_length": 208.9625,
      "completions/min_length": 132.0,
      "epoch": 0.2784445511281805,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.1956750750541687,
      "kl": 0.026104736328125,
      "learning_rate": 9.784665666787176e-06,
      "loss": 0.0010431693866848946,
      "memory(GiB)": 25.63,
      "reward": 0.5113999903202057,
      "reward_std": 0.13548165708780288,
      "rewards/MMContentORM/mean": 0.6860000014305114,
      "rewards/MMContentORM/std": 0.5733676970005035,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 580,
      "train_speed(iter/s)": 0.085557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.2,
      "completions/mean_length": 198.375,
      "completions/min_length": 128.6,
      "epoch": 0.28084493518963033,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1519889384508133,
      "kl": 0.02601318359375,
      "learning_rate": 9.778865847581941e-06,
      "loss": 0.0010399827733635902,
      "memory(GiB)": 25.63,
      "reward": 0.3574499785900116,
      "reward_std": 0.22040518671274184,
      "rewards/MMContentORM/mean": 0.3730000019073486,
      "rewards/MMContentORM/std": 0.7398205995559692,
      "rewards/MMFormatORM/mean": 0.5768749952316284,
      "rewards/MMFormatORM/std": 0.19223275780677795,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.29574271440505984,
      "step": 585,
      "train_speed(iter/s)": 0.085641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.2,
      "completions/mean_length": 198.475,
      "completions/min_length": 120.0,
      "epoch": 0.28324531925108015,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.3285408318042755,
      "kl": 0.02108154296875,
      "learning_rate": 9.772990721970534e-06,
      "loss": 0.0008435861207544803,
      "memory(GiB)": 25.63,
      "reward": 0.4222499907016754,
      "reward_std": 0.10656098783947528,
      "rewards/MMContentORM/mean": 0.4525000065565109,
      "rewards/MMContentORM/std": 0.6456537485122681,
      "rewards/MMFormatORM/mean": 0.621874988079071,
      "rewards/MMFormatORM/std": 0.11249999552965165,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 590,
      "train_speed(iter/s)": 0.085706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.8,
      "completions/mean_length": 194.6,
      "completions/min_length": 110.8,
      "epoch": 0.28564570331253003,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.26459255814552307,
      "kl": 0.02178955078125,
      "learning_rate": 9.767040382534456e-06,
      "loss": 0.000872167106717825,
      "memory(GiB)": 25.63,
      "reward": 0.4603499710559845,
      "reward_std": 0.0990656575653702,
      "rewards/MMContentORM/mean": 0.5440000176429749,
      "rewards/MMContentORM/std": 0.6181544482707977,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 595,
      "train_speed(iter/s)": 0.085788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.8,
      "completions/mean_length": 206.9,
      "completions/min_length": 118.2,
      "epoch": 0.28804608737397985,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.24745135009288788,
      "kl": 0.018096923828125,
      "learning_rate": 9.761014923040453e-06,
      "loss": 0.0007242465391755104,
      "memory(GiB)": 25.63,
      "reward": 0.45274998545646666,
      "reward_std": 0.096237235609442,
      "rewards/MMContentORM/mean": 0.5249999940395356,
      "rewards/MMContentORM/std": 0.6533244967460632,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 600,
      "train_speed(iter/s)": 0.085872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.8,
      "completions/mean_length": 201.075,
      "completions/min_length": 126.2,
      "epoch": 0.2904464714354297,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.27756911516189575,
      "kl": 0.0199951171875,
      "learning_rate": 9.754914438439021e-06,
      "loss": 0.0007998712360858917,
      "memory(GiB)": 25.63,
      "reward": 0.4426999866962433,
      "reward_std": 0.14665394686162472,
      "rewards/MMContentORM/mean": 0.5430000066757202,
      "rewards/MMContentORM/std": 0.6288729965686798,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 605,
      "train_speed(iter/s)": 0.085721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.2,
      "completions/mean_length": 209.825,
      "completions/min_length": 141.2,
      "epoch": 0.2928468554968795,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.24841666221618652,
      "kl": 0.01837158203125,
      "learning_rate": 9.748739024862923e-06,
      "loss": 0.0007352313958108425,
      "memory(GiB)": 25.63,
      "reward": 0.4437499940395355,
      "reward_std": 0.1993333987891674,
      "rewards/MMContentORM/mean": 0.5800000041723251,
      "rewards/MMContentORM/std": 0.6180064260959626,
      "rewards/MMFormatORM/mean": 0.5793749749660492,
      "rewards/MMFormatORM/std": 0.11520133018493653,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.17888544797897338,
      "step": 610,
      "train_speed(iter/s)": 0.085709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.0,
      "completions/mean_length": 214.075,
      "completions/min_length": 147.6,
      "epoch": 0.2952472395583293,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.31791460514068604,
      "kl": 0.0159912109375,
      "learning_rate": 9.74248877962567e-06,
      "loss": 0.0006397653836756944,
      "memory(GiB)": 25.63,
      "reward": 0.40454997420310973,
      "reward_std": 0.10670241061598063,
      "rewards/MMContentORM/mean": 0.40449999570846557,
      "rewards/MMContentORM/std": 0.6732450246810913,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 615,
      "train_speed(iter/s)": 0.085735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 474.4,
      "completions/mean_length": 219.6375,
      "completions/min_length": 134.8,
      "epoch": 0.29764762361977914,
      "frac_reward_zero_std": 0.3,
      "grad_norm": 0.252468466758728,
      "kl": 0.019781494140625,
      "learning_rate": 9.73616380121998e-06,
      "loss": 0.0007909733802080154,
      "memory(GiB)": 25.63,
      "reward": 0.3432499796152115,
      "reward_std": 0.24713381975889206,
      "rewards/MMContentORM/mean": 0.3699999928474426,
      "rewards/MMContentORM/std": 0.7536191344261169,
      "rewards/MMFormatORM/mean": 0.5568749785423279,
      "rewards/MMFormatORM/std": 0.2235463410615921,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.34438174962997437,
      "step": 620,
      "train_speed(iter/s)": 0.085518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.8,
      "completions/mean_length": 212.825,
      "completions/min_length": 125.0,
      "epoch": 0.300048007681229,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.21043799817562103,
      "kl": 0.017236328125,
      "learning_rate": 9.729764189316239e-06,
      "loss": 0.0006894416641443968,
      "memory(GiB)": 25.63,
      "reward": 0.46269998550415037,
      "reward_std": 0.17041273787617683,
      "rewards/MMContentORM/mean": 0.5930000126361847,
      "rewards/MMContentORM/std": 0.6541426777839661,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 625,
      "train_speed(iter/s)": 0.085515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/mean_length": 209.8125,
      "completions/min_length": 139.8,
      "epoch": 0.30244839174267885,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.18214058876037598,
      "kl": 0.01575927734375,
      "learning_rate": 9.72329004476092e-06,
      "loss": 0.0006303795147687197,
      "memory(GiB)": 25.63,
      "reward": 0.4604499816894531,
      "reward_std": 0.13300678343512118,
      "rewards/MMContentORM/mean": 0.5730000138282776,
      "rewards/MMContentORM/std": 0.6502374410629272,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 630,
      "train_speed(iter/s)": 0.085502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 438.6,
      "completions/mean_length": 216.5875,
      "completions/min_length": 127.6,
      "epoch": 0.30484877580412867,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.538560152053833,
      "kl": 0.01651611328125,
      "learning_rate": 9.716741469575003e-06,
      "loss": 0.00066067217849195,
      "memory(GiB)": 25.63,
      "reward": 0.3206499844789505,
      "reward_std": 0.21290984600782395,
      "rewards/MMContentORM/mean": 0.2810000032186508,
      "rewards/MMContentORM/std": 0.7222515106201172,
      "rewards/MMFormatORM/mean": 0.576874977350235,
      "rewards/MMFormatORM/std": 0.17944467663764954,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27606874108314516,
      "step": 635,
      "train_speed(iter/s)": 0.085343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.0,
      "completions/mean_length": 209.8875,
      "completions/min_length": 135.0,
      "epoch": 0.3072491598655785,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.22361965477466583,
      "kl": 0.017071533203125,
      "learning_rate": 9.710118566952355e-06,
      "loss": 0.0006829463876783848,
      "memory(GiB)": 25.63,
      "reward": 0.34789999127388,
      "reward_std": 0.1711198389530182,
      "rewards/MMContentORM/mean": 0.36350000500679014,
      "rewards/MMContentORM/std": 0.7551613569259643,
      "rewards/MMFormatORM/mean": 0.5687499821186066,
      "rewards/MMFormatORM/std": 0.18744589388370514,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.28837831020355226,
      "step": 640,
      "train_speed(iter/s)": 0.085374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.8,
      "completions/mean_length": 200.7875,
      "completions/min_length": 137.6,
      "epoch": 0.3096495439270283,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.2611067295074463,
      "kl": 0.017279052734375,
      "learning_rate": 9.703421441258116e-06,
      "loss": 0.0006911037024110555,
      "memory(GiB)": 25.63,
      "reward": 0.5186999857425689,
      "reward_std": 0.09008539766073227,
      "rewards/MMContentORM/mean": 0.6755000114440918,
      "rewards/MMContentORM/std": 0.5361402273178101,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 645,
      "train_speed(iter/s)": 0.085458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.2,
      "completions/mean_length": 209.5625,
      "completions/min_length": 123.0,
      "epoch": 0.31204992798847814,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.217108815908432,
      "kl": 0.01778564453125,
      "learning_rate": 9.696650198027045e-06,
      "loss": 0.0007126822136342525,
      "memory(GiB)": 25.63,
      "reward": 0.35569998621940613,
      "reward_std": 0.15895759630948306,
      "rewards/MMContentORM/mean": 0.3830000050365925,
      "rewards/MMContentORM/std": 0.7334277391433716,
      "rewards/MMFormatORM/mean": 0.568749976158142,
      "rewards/MMFormatORM/std": 0.1936162531375885,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2978711724281311,
      "step": 650,
      "train_speed(iter/s)": 0.085492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/mean_length": 217.1375,
      "completions/min_length": 142.2,
      "epoch": 0.314450312049928,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.20862624049186707,
      "kl": 0.016278076171875,
      "learning_rate": 9.689804943961868e-06,
      "loss": 0.0006509024649858474,
      "memory(GiB)": 25.63,
      "reward": 0.3771999955177307,
      "reward_std": 0.2166575163602829,
      "rewards/MMContentORM/mean": 0.4080000162124634,
      "rewards/MMContentORM/std": 0.7419367551803588,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.19821036159992217,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 655,
      "train_speed(iter/s)": 0.085518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.4,
      "completions/mean_length": 214.8125,
      "completions/min_length": 146.4,
      "epoch": 0.31685069611137784,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.10907348245382309,
      "kl": 0.01588134765625,
      "learning_rate": 9.682885786931581e-06,
      "loss": 0.0006347180809825659,
      "memory(GiB)": 25.63,
      "reward": 0.481499981880188,
      "reward_std": 0.08216580778826028,
      "rewards/MMContentORM/mean": 0.5825000107288361,
      "rewards/MMContentORM/std": 0.592711991071701,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 660,
      "train_speed(iter/s)": 0.085548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 275.8,
      "completions/mean_length": 199.2,
      "completions/min_length": 142.8,
      "epoch": 0.31925108017282766,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.24605858325958252,
      "kl": 0.01693115234375,
      "learning_rate": 9.675892835969767e-06,
      "loss": 0.0006764709949493408,
      "memory(GiB)": 25.63,
      "reward": 0.45569999814033507,
      "reward_std": 0.10677312165498734,
      "rewards/MMContentORM/mean": 0.5180000066757202,
      "rewards/MMContentORM/std": 0.6405679821968079,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 665,
      "train_speed(iter/s)": 0.08562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.2,
      "completions/mean_length": 206.3625,
      "completions/min_length": 142.4,
      "epoch": 0.3216514642342775,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.13116636872291565,
      "kl": 0.014251708984375,
      "learning_rate": 9.668826201272866e-06,
      "loss": 0.0005692524835467338,
      "memory(GiB)": 25.63,
      "reward": 0.5005499720573425,
      "reward_std": 0.08916615936905145,
      "rewards/MMContentORM/mean": 0.6444999992847442,
      "rewards/MMContentORM/std": 0.4851596847176552,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 670,
      "train_speed(iter/s)": 0.085665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.8,
      "completions/mean_length": 200.4875,
      "completions/min_length": 114.8,
      "epoch": 0.3240518482957273,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.21502132713794708,
      "kl": 0.01915283203125,
      "learning_rate": 9.66168599419844e-06,
      "loss": 0.0007658099755644798,
      "memory(GiB)": 25.63,
      "reward": 0.4354999840259552,
      "reward_std": 0.0936209331266582,
      "rewards/MMContentORM/mean": 0.5250000029802322,
      "rewards/MMContentORM/std": 0.6535530805587768,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 675,
      "train_speed(iter/s)": 0.08572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.8,
      "completions/mean_length": 201.55,
      "completions/min_length": 131.2,
      "epoch": 0.32645223235717713,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.1893157660961151,
      "kl": 0.01766357421875,
      "learning_rate": 9.654472327263426e-06,
      "loss": 0.0007074634078890086,
      "memory(GiB)": 25.63,
      "reward": 0.425249981880188,
      "reward_std": 0.1939593806862831,
      "rewards/MMContentORM/mean": 0.4850000083446503,
      "rewards/MMContentORM/std": 0.6584623217582702,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 680,
      "train_speed(iter/s)": 0.085754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 337.0,
      "completions/mean_length": 213.975,
      "completions/min_length": 132.0,
      "epoch": 0.32885261641862695,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.18459384143352509,
      "kl": 0.015380859375,
      "learning_rate": 9.647185314142354e-06,
      "loss": 0.0006157746538519859,
      "memory(GiB)": 25.63,
      "reward": 0.3858999848365784,
      "reward_std": 0.12006673291325569,
      "rewards/MMContentORM/mean": 0.34350000619888305,
      "rewards/MMContentORM/std": 0.6572001695632934,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 685,
      "train_speed(iter/s)": 0.085759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.0,
      "completions/mean_length": 203.2625,
      "completions/min_length": 140.4,
      "epoch": 0.33125300048007683,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.25200966000556946,
      "kl": 0.0184814453125,
      "learning_rate": 9.63982506966556e-06,
      "loss": 0.0007389162667095662,
      "memory(GiB)": 25.63,
      "reward": 0.43359999656677245,
      "reward_std": 0.13519881889224053,
      "rewards/MMContentORM/mean": 0.4915000021457672,
      "rewards/MMContentORM/std": 0.6082589268684387,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 690,
      "train_speed(iter/s)": 0.085756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.8,
      "completions/mean_length": 196.825,
      "completions/min_length": 116.2,
      "epoch": 0.33365338454152665,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.21117174625396729,
      "kl": 0.019537353515625,
      "learning_rate": 9.632391709817374e-06,
      "loss": 0.0007822229526937008,
      "memory(GiB)": 25.63,
      "reward": 0.4227499783039093,
      "reward_std": 0.15464425683021546,
      "rewards/MMContentORM/mean": 0.5075000166893006,
      "rewards/MMContentORM/std": 0.7225377321243286,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 695,
      "train_speed(iter/s)": 0.085769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.8,
      "completions/mean_length": 199.0875,
      "completions/min_length": 121.6,
      "epoch": 0.3360537686029765,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.17211079597473145,
      "kl": 0.018890380859375,
      "learning_rate": 9.624885351734296e-06,
      "loss": 0.000755119789391756,
      "memory(GiB)": 25.63,
      "reward": 0.503549975156784,
      "reward_std": 0.1313097208738327,
      "rewards/MMContentORM/mean": 0.6520000100135803,
      "rewards/MMContentORM/std": 0.5663350522518158,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 700,
      "train_speed(iter/s)": 0.085818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.6,
      "completions/mean_length": 184.925,
      "completions/min_length": 108.6,
      "epoch": 0.3384541526644263,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.20221319794654846,
      "kl": 0.023406982421875,
      "learning_rate": 9.617306113703148e-06,
      "loss": 0.0009360792115330696,
      "memory(GiB)": 25.63,
      "reward": 0.4147499859333038,
      "reward_std": 0.1776959329843521,
      "rewards/MMContentORM/mean": 0.46249999701976774,
      "rewards/MMContentORM/std": 0.6942957758903503,
      "rewards/MMFormatORM/mean": 0.6056249737739563,
      "rewards/MMFormatORM/std": 0.12368168532848359,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 705,
      "train_speed(iter/s)": 0.085714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 271.6,
      "completions/mean_length": 193.7125,
      "completions/min_length": 135.2,
      "epoch": 0.3408545367258761,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.18443672358989716,
      "kl": 0.02154541015625,
      "learning_rate": 9.60965411515921e-06,
      "loss": 0.0008609195239841938,
      "memory(GiB)": 25.63,
      "reward": 0.41414997577667234,
      "reward_std": 0.08068087929859757,
      "rewards/MMContentORM/mean": 0.42850000858306886,
      "rewards/MMContentORM/std": 0.6322312831878663,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 710,
      "train_speed(iter/s)": 0.085788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 424.2,
      "completions/mean_length": 213.925,
      "completions/min_length": 115.0,
      "epoch": 0.34325492078732595,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.25778675079345703,
      "kl": 0.037451171875,
      "learning_rate": 9.601929476684335e-06,
      "loss": 0.0014980776235461236,
      "memory(GiB)": 25.63,
      "reward": 0.37259999513626096,
      "reward_std": 0.20449528098106384,
      "rewards/MMContentORM/mean": 0.3964999854564667,
      "rewards/MMContentORM/std": 0.737775981426239,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.19821036159992217,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 715,
      "train_speed(iter/s)": 0.085686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 198.0375,
      "completions/min_length": 122.4,
      "epoch": 0.3456553048487758,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.21450744569301605,
      "kl": 0.01873779296875,
      "learning_rate": 9.594132320005056e-06,
      "loss": 0.0007497821934521198,
      "memory(GiB)": 25.63,
      "reward": 0.4351499855518341,
      "reward_std": 0.11151074110530317,
      "rewards/MMContentORM/mean": 0.48100000619888306,
      "rewards/MMContentORM/std": 0.6345597028732299,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 720,
      "train_speed(iter/s)": 0.08572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.6,
      "completions/mean_length": 203.5,
      "completions/min_length": 127.2,
      "epoch": 0.34805568891022565,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.17188891768455505,
      "kl": 0.017034912109375,
      "learning_rate": 9.58626276799066e-06,
      "loss": 0.0006807168014347553,
      "memory(GiB)": 25.63,
      "reward": 0.46594999432563783,
      "reward_std": 0.10245977491140365,
      "rewards/MMContentORM/mean": 0.5580000162124634,
      "rewards/MMContentORM/std": 0.5856799840927124,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 725,
      "train_speed(iter/s)": 0.085717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.8,
      "completions/mean_length": 207.4625,
      "completions/min_length": 142.6,
      "epoch": 0.35045607297167547,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.2247178703546524,
      "kl": 0.01895751953125,
      "learning_rate": 9.57832094465126e-06,
      "loss": 0.000757955340668559,
      "memory(GiB)": 25.63,
      "reward": 0.4785999894142151,
      "reward_std": 0.1292591169476509,
      "rewards/MMContentORM/mean": 0.6039999961853028,
      "rewards/MMContentORM/std": 0.6318910479545593,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 730,
      "train_speed(iter/s)": 0.085751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.4,
      "completions/mean_length": 204.5125,
      "completions/min_length": 130.6,
      "epoch": 0.3528564570331253,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.2592087686061859,
      "kl": 0.02066650390625,
      "learning_rate": 9.57030697513583e-06,
      "loss": 0.0008267030119895935,
      "memory(GiB)": 25.63,
      "reward": 0.4224999785423279,
      "reward_std": 0.15726054804399608,
      "rewards/MMContentORM/mean": 0.49250001907348634,
      "rewards/MMContentORM/std": 0.6467598974704742,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 735,
      "train_speed(iter/s)": 0.085797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 337.2,
      "completions/mean_length": 204.025,
      "completions/min_length": 127.4,
      "epoch": 0.3552568410945751,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1708785593509674,
      "kl": 0.0177734375,
      "learning_rate": 9.562220985730246e-06,
      "loss": 0.0007100693415850401,
      "memory(GiB)": 25.63,
      "reward": 0.4913999915122986,
      "reward_std": 0.11002581561915577,
      "rewards/MMContentORM/mean": 0.6110000014305115,
      "rewards/MMContentORM/std": 0.6001002073287964,
      "rewards/MMFormatORM/mean": 0.6299999833106995,
      "rewards/MMFormatORM/std": 0.07999999672174454,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 740,
      "train_speed(iter/s)": 0.0858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 371.4,
      "completions/mean_length": 213.3375,
      "completions/min_length": 134.6,
      "epoch": 0.35765722515602494,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.13782000541687012,
      "kl": 0.01622314453125,
      "learning_rate": 9.554063103855285e-06,
      "loss": 0.0006494280882179737,
      "memory(GiB)": 25.63,
      "reward": 0.48459997177124026,
      "reward_std": 0.1038032690063119,
      "rewards/MMContentORM/mean": 0.5940000116825104,
      "rewards/MMContentORM/std": 0.5801396131515503,
      "rewards/MMFormatORM/mean": 0.6299999833106995,
      "rewards/MMFormatORM/std": 0.06737477481365203,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 745,
      "train_speed(iter/s)": 0.085736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 459.6,
      "completions/mean_length": 222.775,
      "completions/min_length": 120.6,
      "epoch": 0.3600576092174748,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.1946718990802765,
      "kl": 0.0191650390625,
      "learning_rate": 9.54583345806462e-06,
      "loss": 0.0007668656297028064,
      "memory(GiB)": 25.63,
      "reward": 0.4473499894142151,
      "reward_std": 0.10330830663442611,
      "rewards/MMContentORM/mean": 0.5115000009536743,
      "rewards/MMContentORM/std": 0.6476596593856812,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 750,
      "train_speed(iter/s)": 0.085561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 450.4,
      "completions/mean_length": 226.075,
      "completions/min_length": 133.0,
      "epoch": 0.36245799327892464,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.18249185383319855,
      "kl": 0.019720458984375,
      "learning_rate": 9.537532178042796e-06,
      "loss": 0.0007876944728195667,
      "memory(GiB)": 25.63,
      "reward": 0.38464999198913574,
      "reward_std": 0.1914138063788414,
      "rewards/MMContentORM/mean": 0.41600000858306885,
      "rewards/MMContentORM/std": 0.7192264080047608,
      "rewards/MMFormatORM/mean": 0.5893749833106995,
      "rewards/MMFormatORM/std": 0.1641829013824463,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 755,
      "train_speed(iter/s)": 0.085399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 504.0,
      "completions/mean_length": 236.925,
      "completions/min_length": 153.0,
      "epoch": 0.36485837734037446,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.09791433811187744,
      "kl": 0.01590576171875,
      "learning_rate": 9.529159394603192e-06,
      "loss": 0.0006361880339682102,
      "memory(GiB)": 25.63,
      "reward": 0.46654998064041137,
      "reward_std": 0.18250426054000854,
      "rewards/MMContentORM/mean": 0.6170000016689301,
      "rewards/MMContentORM/std": 0.6278144896030426,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 760,
      "train_speed(iter/s)": 0.085164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.0,
      "completions/mean_length": 210.0375,
      "completions/min_length": 142.8,
      "epoch": 0.3672587614018243,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.20352379977703094,
      "kl": 0.01798095703125,
      "learning_rate": 9.520715239685943e-06,
      "loss": 0.0007194386795163155,
      "memory(GiB)": 25.63,
      "reward": 0.441599977016449,
      "reward_std": 0.09956062764395028,
      "rewards/MMContentORM/mean": 0.5115000009536743,
      "rewards/MMContentORM/std": 0.6773199915885926,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 765,
      "train_speed(iter/s)": 0.085188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.2,
      "completions/mean_length": 214.0125,
      "completions/min_length": 154.8,
      "epoch": 0.3696591454632741,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.19353719055652618,
      "kl": 0.01456298828125,
      "learning_rate": 9.512199846355879e-06,
      "loss": 0.0005822981242090463,
      "memory(GiB)": 25.63,
      "reward": 0.4994999825954437,
      "reward_std": 0.11610694080591202,
      "rewards/MMContentORM/mean": 0.6275000095367431,
      "rewards/MMContentORM/std": 0.5707884192466736,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 770,
      "train_speed(iter/s)": 0.085248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/mean_length": 222.7,
      "completions/min_length": 154.4,
      "epoch": 0.37205952952472393,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1961638182401657,
      "kl": 0.01519775390625,
      "learning_rate": 9.503613348800418e-06,
      "loss": 0.0006085673347115516,
      "memory(GiB)": 25.63,
      "reward": 0.44324998259544374,
      "reward_std": 0.14813887765631079,
      "rewards/MMContentORM/mean": 0.5300000160932541,
      "rewards/MMContentORM/std": 0.637897276878357,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 775,
      "train_speed(iter/s)": 0.085193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 497.0,
      "completions/mean_length": 242.0875,
      "completions/min_length": 145.8,
      "epoch": 0.3744599135861738,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.21977363526821136,
      "kl": 0.01630859375,
      "learning_rate": 9.494955882327455e-06,
      "loss": 0.0006526447832584381,
      "memory(GiB)": 25.63,
      "reward": 0.42324999570846555,
      "reward_std": 0.11490485058166086,
      "rewards/MMContentORM/mean": 0.4800000011920929,
      "rewards/MMContentORM/std": 0.5872390195727348,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 780,
      "train_speed(iter/s)": 0.084974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.2,
      "completions/mean_length": 211.6,
      "completions/min_length": 129.8,
      "epoch": 0.37686029764762363,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.18094761669635773,
      "kl": 0.019195556640625,
      "learning_rate": 9.486227583363225e-06,
      "loss": 0.0007680790033191443,
      "memory(GiB)": 25.63,
      "reward": 0.49619998335838317,
      "reward_std": 0.1111571803689003,
      "rewards/MMContentORM/mean": 0.6480000019073486,
      "rewards/MMContentORM/std": 0.6220699548721313,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 785,
      "train_speed(iter/s)": 0.084985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.4,
      "completions/mean_length": 212.1875,
      "completions/min_length": 132.8,
      "epoch": 0.37926068170907346,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2051294595003128,
      "kl": 0.019140625,
      "learning_rate": 9.47742858945016e-06,
      "loss": 0.0007654055021703243,
      "memory(GiB)": 25.63,
      "reward": 0.42904997169971465,
      "reward_std": 0.13145114853978157,
      "rewards/MMContentORM/mean": 0.49449999928474425,
      "rewards/MMContentORM/std": 0.6315191209316253,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 790,
      "train_speed(iter/s)": 0.084986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 616.6,
      "completions/mean_length": 243.05,
      "completions/min_length": 138.0,
      "epoch": 0.3816610657705233,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.14649176597595215,
      "kl": 0.022198486328125,
      "learning_rate": 9.468559039244718e-06,
      "loss": 0.000887654721736908,
      "memory(GiB)": 25.63,
      "reward": 0.46064999103546145,
      "reward_std": 0.15181582197546958,
      "rewards/MMContentORM/mean": 0.5735000014305115,
      "rewards/MMContentORM/std": 0.6020529091358184,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 795,
      "train_speed(iter/s)": 0.084659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.4,
      "completions/mean_length": 213.4625,
      "completions/min_length": 121.0,
      "epoch": 0.3840614498319731,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.17191362380981445,
      "kl": 0.01591796875,
      "learning_rate": 9.459619072515196e-06,
      "loss": 0.0006367039866745472,
      "memory(GiB)": 25.63,
      "reward": 0.46714999675750735,
      "reward_std": 0.07474118582904339,
      "rewards/MMContentORM/mean": 0.5484999895095826,
      "rewards/MMContentORM/std": 0.654664158821106,
      "rewards/MMFormatORM/mean": 0.6318749904632568,
      "rewards/MMFormatORM/std": 0.07249999642372132,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 800,
      "train_speed(iter/s)": 0.084706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.0,
      "completions/mean_length": 216.2375,
      "completions/min_length": 132.4,
      "epoch": 0.3864618338934229,
      "frac_reward_zero_std": 0.35,
      "grad_norm": 0.18298013508319855,
      "kl": 0.018414306640625,
      "learning_rate": 9.450608830139537e-06,
      "loss": 0.0007364887278527021,
      "memory(GiB)": 25.63,
      "reward": 0.4408999800682068,
      "reward_std": 0.16447303146123887,
      "rewards/MMContentORM/mean": 0.5385000050067902,
      "rewards/MMContentORM/std": 0.686086630821228,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 805,
      "train_speed(iter/s)": 0.084608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 457.8,
      "completions/mean_length": 218.7375,
      "completions/min_length": 117.6,
      "epoch": 0.3888622179548728,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.09511148929595947,
      "kl": 0.022802734375,
      "learning_rate": 9.44152845410309e-06,
      "loss": 0.0009122312068939209,
      "memory(GiB)": 25.63,
      "reward": 0.43959996700286863,
      "reward_std": 0.11992530548013747,
      "rewards/MMContentORM/mean": 0.5065000057220459,
      "rewards/MMContentORM/std": 0.6312320232391357,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 810,
      "train_speed(iter/s)": 0.084476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.4,
      "completions/mean_length": 215.85,
      "completions/min_length": 147.6,
      "epoch": 0.3912626020163226,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13439743220806122,
      "kl": 0.0202392578125,
      "learning_rate": 9.4323780874964e-06,
      "loss": 0.0008096899837255478,
      "memory(GiB)": 25.63,
      "reward": 0.40035000443458557,
      "reward_std": 0.16298811305314304,
      "rewards/MMContentORM/mean": 0.451500004529953,
      "rewards/MMContentORM/std": 0.6973459839820861,
      "rewards/MMFormatORM/mean": 0.5931249916553497,
      "rewards/MMFormatORM/std": 0.1556377649307251,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.23944272398948668,
      "step": 815,
      "train_speed(iter/s)": 0.084482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 211.5375,
      "completions/min_length": 136.8,
      "epoch": 0.39366298607777245,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.21310864388942719,
      "kl": 0.017193603515625,
      "learning_rate": 9.42315787451293e-06,
      "loss": 0.0006876428611576557,
      "memory(GiB)": 25.63,
      "reward": 0.4637999773025513,
      "reward_std": 0.11851109359413385,
      "rewards/MMContentORM/mean": 0.5670000195503235,
      "rewards/MMContentORM/std": 0.6650908708572387,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 820,
      "train_speed(iter/s)": 0.084493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 609.6,
      "completions/mean_length": 235.6875,
      "completions/min_length": 147.2,
      "epoch": 0.39606337013922227,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.1284942924976349,
      "kl": 0.016168212890625,
      "learning_rate": 9.413867960446796e-06,
      "loss": 0.0006466972175985575,
      "memory(GiB)": 25.63,
      "reward": 0.4465499848127365,
      "reward_std": 0.12763277366757392,
      "rewards/MMContentORM/mean": 0.5420000106096268,
      "rewards/MMContentORM/std": 0.6290184378623962,
      "rewards/MMFormatORM/mean": 0.6056249856948852,
      "rewards/MMFormatORM/std": 0.11977944672107696,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 825,
      "train_speed(iter/s)": 0.084165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.8,
      "completions/mean_length": 207.575,
      "completions/min_length": 131.4,
      "epoch": 0.3984637542006721,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1951877474784851,
      "kl": 0.015869140625,
      "learning_rate": 9.404508491690484e-06,
      "loss": 0.0006350751966238022,
      "memory(GiB)": 25.63,
      "reward": 0.5316999852657318,
      "reward_std": 0.07452905047684907,
      "rewards/MMContentORM/mean": 0.7080000102519989,
      "rewards/MMContentORM/std": 0.4912826240062714,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 830,
      "train_speed(iter/s)": 0.084201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/mean_length": 213.35,
      "completions/min_length": 149.4,
      "epoch": 0.4008641382621219,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.17311322689056396,
      "kl": 0.0205078125,
      "learning_rate": 9.395079615732539e-06,
      "loss": 0.0008202603086829186,
      "memory(GiB)": 25.63,
      "reward": 0.47449998259544374,
      "reward_std": 0.10154052944853902,
      "rewards/MMContentORM/mean": 0.5689999997615814,
      "rewards/MMContentORM/std": 0.6329957902431488,
      "rewards/MMFormatORM/mean": 0.6299999833106995,
      "rewards/MMFormatORM/std": 0.09440345466136932,
      "rewards/MMRubricORM/mean": -0.025500000268220902,
      "rewards/MMRubricORM/std": 0.16631300747394562,
      "step": 835,
      "train_speed(iter/s)": 0.084227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.0,
      "completions/mean_length": 199.025,
      "completions/min_length": 104.8,
      "epoch": 0.4032645223235718,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14815396070480347,
      "kl": 0.022406005859375,
      "learning_rate": 9.385581481155233e-06,
      "loss": 0.0008968940936028957,
      "memory(GiB)": 25.63,
      "reward": 0.4544999897480011,
      "reward_std": 0.09220672622323037,
      "rewards/MMContentORM/mean": 0.5724999904632568,
      "rewards/MMContentORM/std": 0.6493830382823944,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 840,
      "train_speed(iter/s)": 0.08428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.4,
      "completions/mean_length": 212.925,
      "completions/min_length": 118.2,
      "epoch": 0.4056649063850216,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.22879934310913086,
      "kl": 0.02987060546875,
      "learning_rate": 9.376014237632233e-06,
      "loss": 0.0011936011724174023,
      "memory(GiB)": 25.63,
      "reward": 0.43914997577667236,
      "reward_std": 0.1680792823433876,
      "rewards/MMContentORM/mean": 0.5485000014305115,
      "rewards/MMContentORM/std": 0.6784831821918488,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 845,
      "train_speed(iter/s)": 0.084318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/mean_length": 213.9875,
      "completions/min_length": 133.4,
      "epoch": 0.40806529044647144,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.0645090639591217,
      "kl": 0.016571044921875,
      "learning_rate": 9.366378035926244e-06,
      "loss": 0.0006628448609262705,
      "memory(GiB)": 25.63,
      "reward": 0.38159998059272765,
      "reward_std": 0.10861159779597074,
      "rewards/MMContentORM/mean": 0.3615000039339066,
      "rewards/MMContentORM/std": 0.677151370048523,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 850,
      "train_speed(iter/s)": 0.084327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/mean_length": 222.175,
      "completions/min_length": 147.2,
      "epoch": 0.41046567450792126,
      "frac_reward_zero_std": 0.375,
      "grad_norm": 0.2151261568069458,
      "kl": 0.015704345703125,
      "learning_rate": 9.356673027886624e-06,
      "loss": 0.0006273643113672734,
      "memory(GiB)": 25.63,
      "reward": 0.4602999806404114,
      "reward_std": 0.1168140321969986,
      "rewards/MMContentORM/mean": 0.5820000171661377,
      "rewards/MMContentORM/std": 0.683591103553772,
      "rewards/MMFormatORM/mean": 0.5999999880790711,
      "rewards/MMFormatORM/std": 0.12756490409374238,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 855,
      "train_speed(iter/s)": 0.084361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.2,
      "completions/mean_length": 218.55,
      "completions/min_length": 114.6,
      "epoch": 0.4128660585693711,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.12868833541870117,
      "kl": 0.0200927734375,
      "learning_rate": 9.346899366447e-06,
      "loss": 0.0008026616647839546,
      "memory(GiB)": 25.63,
      "reward": 0.4429999828338623,
      "reward_std": 0.16150318831205368,
      "rewards/MMContentORM/mean": 0.5725000083446503,
      "rewards/MMContentORM/std": 0.7186736941337586,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 860,
      "train_speed(iter/s)": 0.084399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.2,
      "completions/mean_length": 224.7875,
      "completions/min_length": 154.4,
      "epoch": 0.4152664426308209,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.24704837799072266,
      "kl": 0.015057373046875,
      "learning_rate": 9.337057205622848e-06,
      "loss": 0.0006027618423104286,
      "memory(GiB)": 25.63,
      "reward": 0.4193499803543091,
      "reward_std": 0.1847669929265976,
      "rewards/MMContentORM/mean": 0.49900001287460327,
      "rewards/MMContentORM/std": 0.7176998615264892,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 865,
      "train_speed(iter/s)": 0.084412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 449.6,
      "completions/mean_length": 232.175,
      "completions/min_length": 159.2,
      "epoch": 0.4176668266922708,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.21097196638584137,
      "kl": 0.016717529296875,
      "learning_rate": 9.327146700509082e-06,
      "loss": 0.0006690716370940208,
      "memory(GiB)": 25.63,
      "reward": 0.46244998574256896,
      "reward_std": 0.14983592703938484,
      "rewards/MMContentORM/mean": 0.6105000078678131,
      "rewards/MMContentORM/std": 0.5413160175085068,
      "rewards/MMFormatORM/mean": 0.5893749892711639,
      "rewards/MMFormatORM/std": 0.17063776403665543,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.23944272398948668,
      "step": 870,
      "train_speed(iter/s)": 0.08432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 376.8,
      "completions/mean_length": 226.425,
      "completions/min_length": 158.4,
      "epoch": 0.4200672107537206,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11343076825141907,
      "kl": 0.01474609375,
      "learning_rate": 9.317168007277589e-06,
      "loss": 0.0005900030490010976,
      "memory(GiB)": 25.63,
      "reward": 0.38004998564720155,
      "reward_std": 0.11193500086665154,
      "rewards/MMContentORM/mean": 0.371999990940094,
      "rewards/MMContentORM/std": 0.7004570722579956,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 875,
      "train_speed(iter/s)": 0.084275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/mean_length": 211.6375,
      "completions/min_length": 137.8,
      "epoch": 0.42246759481517043,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17401404678821564,
      "kl": 0.01837158203125,
      "learning_rate": 9.307121283174788e-06,
      "loss": 0.0007351872511208058,
      "memory(GiB)": 25.63,
      "reward": 0.38199999928474426,
      "reward_std": 0.18780755996704102,
      "rewards/MMContentORM/mean": 0.42000000476837157,
      "rewards/MMContentORM/std": 0.7346604287624359,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.16980934143066406,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2612451553344727,
      "step": 880,
      "train_speed(iter/s)": 0.084282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 335.2,
      "completions/mean_length": 225.7625,
      "completions/min_length": 164.0,
      "epoch": 0.42486797887662026,
      "frac_reward_zero_std": 0.425,
      "grad_norm": 0.23540575802326202,
      "kl": 0.01390380859375,
      "learning_rate": 9.297006686519139e-06,
      "loss": 0.0005556363612413406,
      "memory(GiB)": 25.63,
      "reward": 0.40919997692108157,
      "reward_std": 0.18893892914056779,
      "rewards/MMContentORM/mean": 0.4755000114440918,
      "rewards/MMContentORM/std": 0.7272086381912232,
      "rewards/MMFormatORM/mean": 0.5912499725818634,
      "rewards/MMFormatORM/std": 0.13540457487106322,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2077557325363159,
      "step": 885,
      "train_speed(iter/s)": 0.084274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 536.0,
      "completions/mean_length": 235.975,
      "completions/min_length": 157.6,
      "epoch": 0.4272683629380701,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.13821138441562653,
      "kl": 0.017333984375,
      "learning_rate": 9.286824376698653e-06,
      "loss": 0.0006932040210813284,
      "memory(GiB)": 27.09,
      "reward": 0.3673999786376953,
      "reward_std": 0.20407101474702358,
      "rewards/MMContentORM/mean": 0.4410000145435333,
      "rewards/MMContentORM/std": 0.7875102996826172,
      "rewards/MMFormatORM/mean": 0.5524999797344208,
      "rewards/MMFormatORM/std": 0.23184934854507447,
      "rewards/MMRubricORM/mean": -0.15,
      "rewards/MMRubricORM/std": 0.35669131875038146,
      "step": 890,
      "train_speed(iter/s)": 0.084032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.0,
      "completions/mean_length": 227.0,
      "completions/min_length": 132.4,
      "epoch": 0.4296687469995199,
      "frac_reward_zero_std": 0.325,
      "grad_norm": 0.22291657328605652,
      "kl": 0.020013427734375,
      "learning_rate": 9.276574514168382e-06,
      "loss": 0.000801488570868969,
      "memory(GiB)": 27.09,
      "reward": 0.4104499936103821,
      "reward_std": 0.21955665349960327,
      "rewards/MMContentORM/mean": 0.4930000126361847,
      "rewards/MMContentORM/std": 0.7277546286582947,
      "rewards/MMFormatORM/mean": 0.5831249833106995,
      "rewards/MMFormatORM/std": 0.19391306340694428,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 895,
      "train_speed(iter/s)": 0.084014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.2,
      "completions/mean_length": 227.45,
      "completions/min_length": 148.0,
      "epoch": 0.4320691310609698,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.1956370770931244,
      "kl": 0.01566162109375,
      "learning_rate": 9.266257260447883e-06,
      "loss": 0.0006269800476729869,
      "memory(GiB)": 27.09,
      "reward": 0.41879996508359907,
      "reward_std": 0.08725697756744921,
      "rewards/MMContentORM/mean": 0.4420000076293945,
      "rewards/MMContentORM/std": 0.6016733646392822,
      "rewards/MMFormatORM/mean": 0.6237499833106994,
      "rewards/MMFormatORM/std": 0.05990467071533203,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.08062257766723632,
      "step": 900,
      "train_speed(iter/s)": 0.084041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 345.8,
      "completions/mean_length": 223.0875,
      "completions/min_length": 156.8,
      "epoch": 0.4344695151224196,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.2335289567708969,
      "kl": 0.017236328125,
      "learning_rate": 9.255872778118686e-06,
      "loss": 0.0006896716542541981,
      "memory(GiB)": 27.09,
      "reward": 0.4828499794006348,
      "reward_std": 0.12324871122837067,
      "rewards/MMContentORM/mean": 0.628999999165535,
      "rewards/MMContentORM/std": 0.5791173458099366,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 905,
      "train_speed(iter/s)": 0.083925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.6,
      "completions/mean_length": 228.55,
      "completions/min_length": 155.0,
      "epoch": 0.4368698991838694,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11608735471963882,
      "kl": 0.0136962890625,
      "learning_rate": 9.245421230821717e-06,
      "loss": 0.0005476945545524359,
      "memory(GiB)": 27.09,
      "reward": 0.4916999876499176,
      "reward_std": 0.06264965860173106,
      "rewards/MMContentORM/mean": 0.6080000042915344,
      "rewards/MMContentORM/std": 0.5947914302349091,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 910,
      "train_speed(iter/s)": 0.083928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 437.0,
      "completions/mean_length": 233.6375,
      "completions/min_length": 158.6,
      "epoch": 0.43927028324531925,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.19499173760414124,
      "kl": 0.013690185546875,
      "learning_rate": 9.234902783254726e-06,
      "loss": 0.0005476208403706551,
      "memory(GiB)": 27.09,
      "reward": 0.46409996747970583,
      "reward_std": 0.11554124504327774,
      "rewards/MMContentORM/mean": 0.5715000033378601,
      "rewards/MMContentORM/std": 0.5974150598049164,
      "rewards/MMFormatORM/mean": 0.6137499809265137,
      "rewards/MMFormatORM/std": 0.11046060025691987,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 915,
      "train_speed(iter/s)": 0.083822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.6,
      "completions/mean_length": 219.725,
      "completions/min_length": 143.0,
      "epoch": 0.44167066730676907,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.07724174112081528,
      "kl": 0.01375732421875,
      "learning_rate": 9.224317601169699e-06,
      "loss": 0.000550596509128809,
      "memory(GiB)": 27.09,
      "reward": 0.5028999745845795,
      "reward_std": 0.06095260072033852,
      "rewards/MMContentORM/mean": 0.635999995470047,
      "rewards/MMContentORM/std": 0.5765919387340546,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 920,
      "train_speed(iter/s)": 0.083811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.6,
      "completions/mean_length": 217.275,
      "completions/min_length": 134.8,
      "epoch": 0.4440710513682189,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.19694066047668457,
      "kl": 0.01658935546875,
      "learning_rate": 9.213665851370232e-06,
      "loss": 0.0006623049266636372,
      "memory(GiB)": 27.09,
      "reward": 0.449649965763092,
      "reward_std": 0.1215516519267112,
      "rewards/MMContentORM/mean": 0.5460000038146973,
      "rewards/MMContentORM/std": 0.6028219342231751,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 925,
      "train_speed(iter/s)": 0.083789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 440.8,
      "completions/mean_length": 213.4625,
      "completions/min_length": 139.2,
      "epoch": 0.4464714354296688,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.16958890855312347,
      "kl": 0.012957763671875,
      "learning_rate": 9.202947701708915e-06,
      "loss": 0.000518304156139493,
      "memory(GiB)": 27.09,
      "reward": 0.4152499794960022,
      "reward_std": 0.15832121148705483,
      "rewards/MMContentORM/mean": 0.49250001907348634,
      "rewards/MMContentORM/std": 0.70787513256073,
      "rewards/MMFormatORM/mean": 0.5893749713897705,
      "rewards/MMFormatORM/std": 0.1807103618979454,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 930,
      "train_speed(iter/s)": 0.083692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.8,
      "completions/mean_length": 208.15,
      "completions/min_length": 133.4,
      "epoch": 0.4488718194911186,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.16020964086055756,
      "kl": 0.01607666015625,
      "learning_rate": 9.192163321084678e-06,
      "loss": 0.0006430365610867739,
      "memory(GiB)": 27.09,
      "reward": 0.4014999806880951,
      "reward_std": 0.1008334287442267,
      "rewards/MMContentORM/mean": 0.44000001847743986,
      "rewards/MMContentORM/std": 0.648642772436142,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 935,
      "train_speed(iter/s)": 0.083729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.8,
      "completions/mean_length": 207.1375,
      "completions/min_length": 117.0,
      "epoch": 0.4512722035525684,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 1.190772294998169,
      "kl": 0.0478271484375,
      "learning_rate": 9.181312879440129e-06,
      "loss": 0.0019131312146782875,
      "memory(GiB)": 27.09,
      "reward": 0.45269997119903566,
      "reward_std": 0.12133952155709267,
      "rewards/MMContentORM/mean": 0.5680000096559524,
      "rewards/MMContentORM/std": 0.6713850498199463,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 940,
      "train_speed(iter/s)": 0.083772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 263.8,
      "completions/mean_length": 203.5625,
      "completions/min_length": 139.4,
      "epoch": 0.45367258761401824,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.15727227926254272,
      "kl": 0.015093994140625,
      "learning_rate": 9.170396547758892e-06,
      "loss": 0.0006036899052560329,
      "memory(GiB)": 27.09,
      "reward": 0.4320499897003174,
      "reward_std": 0.10684382803738117,
      "rewards/MMContentORM/mean": 0.5020000040531158,
      "rewards/MMContentORM/std": 0.688554298877716,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 945,
      "train_speed(iter/s)": 0.083855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 349.8,
      "completions/mean_length": 222.275,
      "completions/min_length": 149.2,
      "epoch": 0.45607297167546806,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.20384089648723602,
      "kl": 0.01500244140625,
      "learning_rate": 9.159414498062889e-06,
      "loss": 0.0005995483603328467,
      "memory(GiB)": 27.09,
      "reward": 0.3853499710559845,
      "reward_std": 0.2594374790787697,
      "rewards/MMContentORM/mean": 0.4714999973773956,
      "rewards/MMContentORM/std": 0.7658512353897095,
      "rewards/MMFormatORM/mean": 0.5606249809265137,
      "rewards/MMFormatORM/std": 0.22611625194549562,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.3478711724281311,
      "step": 950,
      "train_speed(iter/s)": 0.083831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.2,
      "completions/mean_length": 223.95,
      "completions/min_length": 147.4,
      "epoch": 0.4584733557369179,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.17926473915576935,
      "kl": 0.014312744140625,
      "learning_rate": 9.148366903409645e-06,
      "loss": 0.0005721227265894413,
      "memory(GiB)": 27.09,
      "reward": 0.43774998784065244,
      "reward_std": 0.0767210841178894,
      "rewards/MMContentORM/mean": 0.4875000238418579,
      "rewards/MMContentORM/std": 0.6453867673873901,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 955,
      "train_speed(iter/s)": 0.08384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.6,
      "completions/mean_length": 209.1375,
      "completions/min_length": 123.0,
      "epoch": 0.46087373979836777,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17937743663787842,
      "kl": 0.015667724609375,
      "learning_rate": 9.137253937889556e-06,
      "loss": 0.0006268246099352837,
      "memory(GiB)": 27.09,
      "reward": 0.41344997882843015,
      "reward_std": 0.19254517555236816,
      "rewards/MMContentORM/mean": 0.5130000054836273,
      "rewards/MMContentORM/std": 0.7074776887893677,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 960,
      "train_speed(iter/s)": 0.083871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.2,
      "completions/mean_length": 208.1375,
      "completions/min_length": 128.8,
      "epoch": 0.4632741238598176,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.15272051095962524,
      "kl": 0.016375732421875,
      "learning_rate": 9.12607577662315e-06,
      "loss": 0.0006551730446517467,
      "memory(GiB)": 27.09,
      "reward": 0.4290499806404114,
      "reward_std": 0.1823628380894661,
      "rewards/MMContentORM/mean": 0.5520000040531159,
      "rewards/MMContentORM/std": 0.6928182065486908,
      "rewards/MMFormatORM/mean": 0.5768749952316284,
      "rewards/MMFormatORM/std": 0.20230934023857117,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.31124515533447267,
      "step": 965,
      "train_speed(iter/s)": 0.083892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.6,
      "completions/mean_length": 219.725,
      "completions/min_length": 142.0,
      "epoch": 0.4656745079212674,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.20706000924110413,
      "kl": 0.01566162109375,
      "learning_rate": 9.114832595758315e-06,
      "loss": 0.0006271812599152327,
      "memory(GiB)": 27.09,
      "reward": 0.4845999896526337,
      "reward_std": 0.1179454043507576,
      "rewards/MMContentORM/mean": 0.6515000104904175,
      "rewards/MMContentORM/std": 0.6177137017250061,
      "rewards/MMFormatORM/mean": 0.5974999666213989,
      "rewards/MMFormatORM/std": 0.1561816841363907,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 970,
      "train_speed(iter/s)": 0.083908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.6,
      "completions/mean_length": 220.25,
      "completions/min_length": 135.8,
      "epoch": 0.46807489198271723,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.15420930087566376,
      "kl": 0.029974365234375,
      "learning_rate": 9.103524572467542e-06,
      "loss": 0.0012021941132843495,
      "memory(GiB)": 27.09,
      "reward": 0.39144999980926515,
      "reward_std": 0.18759542852640151,
      "rewards/MMContentORM/mean": 0.43499999344348905,
      "rewards/MMContentORM/std": 0.7306297183036804,
      "rewards/MMFormatORM/mean": 0.5893749713897705,
      "rewards/MMFormatORM/std": 0.20309771001338958,
      "rewards/MMRubricORM/mean": -0.09149999916553497,
      "rewards/MMRubricORM/std": 0.3158472299575806,
      "step": 975,
      "train_speed(iter/s)": 0.083941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.8,
      "completions/mean_length": 213.75,
      "completions/min_length": 141.8,
      "epoch": 0.47047527604416706,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.15446196496486664,
      "kl": 0.016387939453125,
      "learning_rate": 9.092151884945117e-06,
      "loss": 0.0006551665253937244,
      "memory(GiB)": 27.09,
      "reward": 0.5428999841213227,
      "reward_std": 0.055295750661753115,
      "rewards/MMContentORM/mean": 0.735999995470047,
      "rewards/MMContentORM/std": 0.4234260804951191,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 980,
      "train_speed(iter/s)": 0.083929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.6,
      "completions/mean_length": 211.8125,
      "completions/min_length": 134.4,
      "epoch": 0.4728756601056169,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.10230781883001328,
      "kl": 0.017529296875,
      "learning_rate": 9.080714712404322e-06,
      "loss": 0.0007016819901764393,
      "memory(GiB)": 27.09,
      "reward": 0.3961999833583832,
      "reward_std": 0.22203153222799302,
      "rewards/MMContentORM/mean": 0.4880000114440918,
      "rewards/MMContentORM/std": 0.6864187598228455,
      "rewards/MMFormatORM/mean": 0.5649999797344207,
      "rewards/MMFormatORM/std": 0.18773135244846345,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.28837831020355226,
      "step": 985,
      "train_speed(iter/s)": 0.08397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 472.8,
      "completions/mean_length": 230.55,
      "completions/min_length": 149.6,
      "epoch": 0.47527604416706676,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.14536498486995697,
      "kl": 0.014703369140625,
      "learning_rate": 9.069213235074606e-06,
      "loss": 0.0005882191471755505,
      "memory(GiB)": 27.09,
      "reward": 0.47779998779296873,
      "reward_std": 0.11624835301190614,
      "rewards/MMContentORM/mean": 0.6019999861717225,
      "rewards/MMContentORM/std": 0.646269428730011,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 990,
      "train_speed(iter/s)": 0.083826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.2,
      "completions/mean_length": 213.1,
      "completions/min_length": 143.2,
      "epoch": 0.4776764282285166,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.22323811054229736,
      "kl": 0.01553955078125,
      "learning_rate": 9.057647634198745e-06,
      "loss": 0.0006211692001670599,
      "memory(GiB)": 27.09,
      "reward": 0.4356500029563904,
      "reward_std": 0.13456242978572847,
      "rewards/MMContentORM/mean": 0.511000007390976,
      "rewards/MMContentORM/std": 0.6877371788024902,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 995,
      "train_speed(iter/s)": 0.083869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.4,
      "completions/mean_length": 207.8875,
      "completions/min_length": 126.6,
      "epoch": 0.4800768122899664,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.12058038264513016,
      "kl": 0.01517333984375,
      "learning_rate": 9.046018092029991e-06,
      "loss": 0.0006069786846637726,
      "memory(GiB)": 27.09,
      "reward": 0.38174998164176943,
      "reward_std": 0.11306637614034117,
      "rewards/MMContentORM/mean": 0.40499998927116393,
      "rewards/MMContentORM/std": 0.7353096008300781,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 1000,
      "train_speed(iter/s)": 0.083877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.4,
      "completions/mean_length": 219.125,
      "completions/min_length": 153.2,
      "epoch": 0.4824771963514162,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1304665207862854,
      "kl": 0.0144775390625,
      "learning_rate": 9.034324791829198e-06,
      "loss": 0.0005794113036245108,
      "memory(GiB)": 27.09,
      "reward": 0.583199965953827,
      "reward_std": 0.028849952155724168,
      "rewards/MMContentORM/mean": 0.8079999923706055,
      "rewards/MMContentORM/std": 0.34920589849352834,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 1005,
      "train_speed(iter/s)": 0.083816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 210.7125,
      "completions/min_length": 124.8,
      "epoch": 0.48487758041286605,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.20664307475090027,
      "kl": 0.018109130859375,
      "learning_rate": 9.022567917861929e-06,
      "loss": 0.0007231380324810744,
      "memory(GiB)": 27.09,
      "reward": 0.36904996633529663,
      "reward_std": 0.08435783945024014,
      "rewards/MMContentORM/mean": 0.4019999861717224,
      "rewards/MMContentORM/std": 0.7406057715415955,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.1856150358915329,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.285561603307724,
      "step": 1010,
      "train_speed(iter/s)": 0.083848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.8,
      "completions/mean_length": 209.65,
      "completions/min_length": 125.8,
      "epoch": 0.48727796447431587,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.18518085777759552,
      "kl": 0.014801025390625,
      "learning_rate": 9.010747655395558e-06,
      "loss": 0.0005913883913308382,
      "memory(GiB)": 27.09,
      "reward": 0.45489998161792755,
      "reward_std": 0.11144002974033355,
      "rewards/MMContentORM/mean": 0.5610000133514405,
      "rewards/MMContentORM/std": 0.6329753637313843,
      "rewards/MMFormatORM/mean": 0.6074999809265137,
      "rewards/MMFormatORM/std": 0.11700960993766785,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1015,
      "train_speed(iter/s)": 0.083883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 442.2,
      "completions/mean_length": 222.925,
      "completions/min_length": 125.8,
      "epoch": 0.4896783485357657,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.14311504364013672,
      "kl": 0.01640625,
      "learning_rate": 8.998864190696349e-06,
      "loss": 0.0006562491878867149,
      "memory(GiB)": 27.09,
      "reward": 0.4841999769210815,
      "reward_std": 0.12699637860059737,
      "rewards/MMContentORM/mean": 0.6180000066757202,
      "rewards/MMContentORM/std": 0.6347463011741639,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1020,
      "train_speed(iter/s)": 0.083779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.2,
      "completions/mean_length": 212.7125,
      "completions/min_length": 141.4,
      "epoch": 0.4920787325972156,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.2222282737493515,
      "kl": 0.015057373046875,
      "learning_rate": 8.986917711026519e-06,
      "loss": 0.0006025471724569797,
      "memory(GiB)": 27.09,
      "reward": 0.5089999794960022,
      "reward_std": 0.12529932723846288,
      "rewards/MMContentORM/mean": 0.6800000011920929,
      "rewards/MMContentORM/std": 0.49175867438316345,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1025,
      "train_speed(iter/s)": 0.083808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 327.0,
      "completions/mean_length": 217.975,
      "completions/min_length": 131.0,
      "epoch": 0.4944791166586654,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17176951467990875,
      "kl": 0.01639404296875,
      "learning_rate": 8.974908404641294e-06,
      "loss": 0.0006549724377691746,
      "memory(GiB)": 27.09,
      "reward": 0.3853999853134155,
      "reward_std": 0.16772572994232177,
      "rewards/MMContentORM/mean": 0.4284999996423721,
      "rewards/MMContentORM/std": 0.7090068340301514,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 1030,
      "train_speed(iter/s)": 0.083807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.0,
      "completions/mean_length": 204.675,
      "completions/min_length": 144.2,
      "epoch": 0.4968795007201152,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1412537693977356,
      "kl": 0.016650390625,
      "learning_rate": 8.962836460785929e-06,
      "loss": 0.0006653706543147564,
      "memory(GiB)": 27.09,
      "reward": 0.48119999170303346,
      "reward_std": 0.09107534990180284,
      "rewards/MMContentORM/mean": 0.6105000078678131,
      "rewards/MMContentORM/std": 0.6093651533126831,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1035,
      "train_speed(iter/s)": 0.083855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.6,
      "completions/mean_length": 202.1125,
      "completions/min_length": 99.2,
      "epoch": 0.49927988478156504,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16436995565891266,
      "kl": 0.0226806640625,
      "learning_rate": 8.950702069692739e-06,
      "loss": 0.0009060959331691265,
      "memory(GiB)": 27.09,
      "reward": 0.46224998235702514,
      "reward_std": 0.11858180016279221,
      "rewards/MMContentORM/mean": 0.5775000125169754,
      "rewards/MMContentORM/std": 0.6317477941513061,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 1040,
      "train_speed(iter/s)": 0.083873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.6,
      "completions/mean_length": 205.5125,
      "completions/min_length": 109.2,
      "epoch": 0.5016802688430149,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1451932191848755,
      "kl": 0.118011474609375,
      "learning_rate": 8.938505422578095e-06,
      "loss": 0.004709529504179954,
      "memory(GiB)": 27.09,
      "reward": 0.46809998750686643,
      "reward_std": 0.14071424752473832,
      "rewards/MMContentORM/mean": 0.5939999878406524,
      "rewards/MMContentORM/std": 0.6745672464370728,
      "rewards/MMFormatORM/mean": 0.6074999809265137,
      "rewards/MMFormatORM/std": 0.12880690693855285,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1045,
      "train_speed(iter/s)": 0.083921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 468.0,
      "completions/mean_length": 218.65,
      "completions/min_length": 135.8,
      "epoch": 0.5040806529044647,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.24477499723434448,
      "kl": 0.019097900390625,
      "learning_rate": 8.92624671163941e-06,
      "loss": 0.0007639925926923752,
      "memory(GiB)": 27.09,
      "reward": 0.5066499829292297,
      "reward_std": 0.12579429522156715,
      "rewards/MMContentORM/mean": 0.6884999990463256,
      "rewards/MMContentORM/std": 0.60511314868927,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1050,
      "train_speed(iter/s)": 0.08379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 280.2,
      "completions/mean_length": 196.3125,
      "completions/min_length": 116.0,
      "epoch": 0.5064810369659145,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.09241645038127899,
      "kl": 0.020648193359375,
      "learning_rate": 8.913926130052116e-06,
      "loss": 0.0008254698477685452,
      "memory(GiB)": 27.09,
      "reward": 0.48494998812675477,
      "reward_std": 0.08577205466572195,
      "rewards/MMContentORM/mean": 0.6054999828338623,
      "rewards/MMContentORM/std": 0.5610681354999543,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1055,
      "train_speed(iter/s)": 0.083853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.2,
      "completions/mean_length": 206.4125,
      "completions/min_length": 138.6,
      "epoch": 0.5088814210273643,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1564904898405075,
      "kl": 0.016485595703125,
      "learning_rate": 8.901543871966614e-06,
      "loss": 0.0006593840662389994,
      "memory(GiB)": 27.09,
      "reward": 0.46794998049736025,
      "reward_std": 0.10472251027822495,
      "rewards/MMContentORM/mean": 0.5630000084638596,
      "rewards/MMContentORM/std": 0.6074943840503693,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1060,
      "train_speed(iter/s)": 0.083877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 269.4,
      "completions/mean_length": 198.475,
      "completions/min_length": 135.0,
      "epoch": 0.5112818050888142,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16738565266132355,
      "kl": 0.016766357421875,
      "learning_rate": 8.889100132505217e-06,
      "loss": 0.0006704972125589848,
      "memory(GiB)": 27.09,
      "reward": 0.48009997606277466,
      "reward_std": 0.07410478852689266,
      "rewards/MMContentORM/mean": 0.6365000009536743,
      "rewards/MMContentORM/std": 0.5494045548141002,
      "rewards/MMFormatORM/mean": 0.6012499749660491,
      "rewards/MMFormatORM/std": 0.10254122316837311,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.15775573253631592,
      "step": 1065,
      "train_speed(iter/s)": 0.083925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 457.8,
      "completions/mean_length": 219.9375,
      "completions/min_length": 134.6,
      "epoch": 0.5136821891502641,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.19380617141723633,
      "kl": 0.014617919921875,
      "learning_rate": 8.876595107759075e-06,
      "loss": 0.000584835559129715,
      "memory(GiB)": 27.09,
      "reward": 0.5560999870300293,
      "reward_std": 0.0694378862157464,
      "rewards/MMContentORM/mean": 0.7690000057220459,
      "rewards/MMContentORM/std": 0.4652357272803783,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1070,
      "train_speed(iter/s)": 0.083827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.6,
      "completions/mean_length": 212.1625,
      "completions/min_length": 127.2,
      "epoch": 0.5160825732117139,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.12439420074224472,
      "kl": 0.01439208984375,
      "learning_rate": 8.86402899478508e-06,
      "loss": 0.0005762668326497078,
      "memory(GiB)": 27.09,
      "reward": 0.5047999918460846,
      "reward_std": 0.0550129035487771,
      "rewards/MMContentORM/mean": 0.6694999992847442,
      "rewards/MMContentORM/std": 0.551321929693222,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1075,
      "train_speed(iter/s)": 0.083826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.8,
      "completions/mean_length": 200.025,
      "completions/min_length": 134.0,
      "epoch": 0.5184829572731637,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.20139308273792267,
      "kl": 0.0151123046875,
      "learning_rate": 8.851401991602776e-06,
      "loss": 0.0006052942015230655,
      "memory(GiB)": 27.09,
      "reward": 0.49969996213912965,
      "reward_std": 0.06660945881158113,
      "rewards/MMContentORM/mean": 0.628000020980835,
      "rewards/MMContentORM/std": 0.5635871171951294,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1080,
      "train_speed(iter/s)": 0.083879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.2,
      "completions/mean_length": 219.8,
      "completions/min_length": 130.8,
      "epoch": 0.5208833413346136,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1856120079755783,
      "kl": 0.015875244140625,
      "learning_rate": 8.838714297191222e-06,
      "loss": 0.0006359885912388564,
      "memory(GiB)": 27.09,
      "reward": 0.5098999857902526,
      "reward_std": 0.08160011963918805,
      "rewards/MMContentORM/mean": 0.6534999966621399,
      "rewards/MMContentORM/std": 0.5234884560108185,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1085,
      "train_speed(iter/s)": 0.083889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 364.6,
      "completions/mean_length": 212.625,
      "completions/min_length": 128.8,
      "epoch": 0.5232837253960634,
      "frac_reward_zero_std": 0.85,
      "grad_norm": 0.07770657539367676,
      "kl": 0.0150390625,
      "learning_rate": 8.82596611148586e-06,
      "loss": 0.0006017507985234261,
      "memory(GiB)": 27.09,
      "reward": 0.4991499662399292,
      "reward_std": 0.03245619940571487,
      "rewards/MMContentORM/mean": 0.6410000085830688,
      "rewards/MMContentORM/std": 0.5666637182235718,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.05240467190742493,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.08062257766723632,
      "step": 1090,
      "train_speed(iter/s)": 0.083867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.6,
      "completions/mean_length": 213.2,
      "completions/min_length": 132.2,
      "epoch": 0.5256841094575132,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14051133394241333,
      "kl": 0.017071533203125,
      "learning_rate": 8.81315763537537e-06,
      "loss": 0.000683901971206069,
      "memory(GiB)": 27.09,
      "reward": 0.39309998154640197,
      "reward_std": 0.13378459885716437,
      "rewards/MMContentORM/mean": 0.41899998784065245,
      "rewards/MMContentORM/std": 0.7018602132797241,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 1095,
      "train_speed(iter/s)": 0.083859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 371.2,
      "completions/mean_length": 225.4375,
      "completions/min_length": 138.0,
      "epoch": 0.528084493518963,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1682557910680771,
      "kl": 0.01475830078125,
      "learning_rate": 8.8002890706985e-06,
      "loss": 0.000590839795768261,
      "memory(GiB)": 27.09,
      "reward": 0.46239997148513795,
      "reward_std": 0.13746155560947954,
      "rewards/MMContentORM/mean": 0.5634999990463256,
      "rewards/MMContentORM/std": 0.6250258028507233,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1100,
      "train_speed(iter/s)": 0.083827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.2,
      "completions/mean_length": 211.5,
      "completions/min_length": 137.2,
      "epoch": 0.5304848775804129,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.10628636926412582,
      "kl": 0.020086669921875,
      "learning_rate": 8.787360620240891e-06,
      "loss": 0.0008035540580749512,
      "memory(GiB)": 27.09,
      "reward": 0.4173499792814255,
      "reward_std": 0.16496800733730196,
      "rewards/MMContentORM/mean": 0.4939999938011169,
      "rewards/MMContentORM/std": 0.6666546583175659,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.13730934262275696,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21124515533447266,
      "step": 1105,
      "train_speed(iter/s)": 0.083764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.8,
      "completions/mean_length": 221.6875,
      "completions/min_length": 120.4,
      "epoch": 0.5328852616418627,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.2164710909128189,
      "kl": 0.01485595703125,
      "learning_rate": 8.77437248773187e-06,
      "loss": 0.0005937457084655762,
      "memory(GiB)": 27.09,
      "reward": 0.4448999762535095,
      "reward_std": 0.11822825372219085,
      "rewards/MMContentORM/mean": 0.5485000073909759,
      "rewards/MMContentORM/std": 0.6824892044067383,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 1110,
      "train_speed(iter/s)": 0.08375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 333.2,
      "completions/mean_length": 226.6375,
      "completions/min_length": 122.2,
      "epoch": 0.5352856457033125,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.17362850904464722,
      "kl": 0.020477294921875,
      "learning_rate": 8.761324877841254e-06,
      "loss": 0.0008191258646547794,
      "memory(GiB)": 27.09,
      "reward": 0.43039997220039367,
      "reward_std": 0.17041273415088654,
      "rewards/MMContentORM/mean": 0.5735000014305115,
      "rewards/MMContentORM/std": 0.7222278237342834,
      "rewards/MMFormatORM/mean": 0.5649999737739563,
      "rewards/MMFormatORM/std": 0.21917218267917632,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.335561603307724,
      "step": 1115,
      "train_speed(iter/s)": 0.083757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.6,
      "completions/mean_length": 223.8625,
      "completions/min_length": 119.4,
      "epoch": 0.5376860297647623,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.1994379311800003,
      "kl": 0.01700439453125,
      "learning_rate": 8.748217996176112e-06,
      "loss": 0.0006800967268645764,
      "memory(GiB)": 27.09,
      "reward": 0.39449998140335085,
      "reward_std": 0.26742778718471527,
      "rewards/MMContentORM/mean": 0.48000000715255736,
      "rewards/MMContentORM/std": 0.7163052916526794,
      "rewards/MMFormatORM/mean": 0.5687499821186066,
      "rewards/MMFormatORM/std": 0.18744589388370514,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.28837831020355226,
      "step": 1120,
      "train_speed(iter/s)": 0.08372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.4,
      "completions/mean_length": 216.15,
      "completions/min_length": 138.6,
      "epoch": 0.5400864138262121,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.07599830627441406,
      "kl": 0.01529541015625,
      "learning_rate": 8.735052049277535e-06,
      "loss": 0.0006118299439549446,
      "memory(GiB)": 27.09,
      "reward": 0.42814998626708983,
      "reward_std": 0.18024151921272277,
      "rewards/MMContentORM/mean": 0.5210000097751617,
      "rewards/MMContentORM/std": 0.6903650641441346,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 1125,
      "train_speed(iter/s)": 0.083741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 400.4,
      "completions/mean_length": 228.1375,
      "completions/min_length": 141.6,
      "epoch": 0.5424867978876621,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11949385702610016,
      "kl": 0.01396484375,
      "learning_rate": 8.721827244617371e-06,
      "loss": 0.000558951823040843,
      "memory(GiB)": 27.09,
      "reward": 0.4563499987125397,
      "reward_std": 0.1478560298681259,
      "rewards/MMContentORM/mean": 0.5789999961853027,
      "rewards/MMContentORM/std": 0.6697975873947144,
      "rewards/MMFormatORM/mean": 0.5993749856948852,
      "rewards/MMFormatORM/std": 0.15370826721191405,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1130,
      "train_speed(iter/s)": 0.083701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.4,
      "completions/mean_length": 216.7125,
      "completions/min_length": 152.6,
      "epoch": 0.5448871819491119,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1708482950925827,
      "kl": 0.0151611328125,
      "learning_rate": 8.708543790594966e-06,
      "loss": 0.0006066753529012203,
      "memory(GiB)": 27.09,
      "reward": 0.532749992609024,
      "reward_std": 0.06851864554919303,
      "rewards/MMContentORM/mean": 0.7250000238418579,
      "rewards/MMContentORM/std": 0.4237551301717758,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1135,
      "train_speed(iter/s)": 0.083719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.0,
      "completions/mean_length": 214.9625,
      "completions/min_length": 138.4,
      "epoch": 0.5472875660105617,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14022567868232727,
      "kl": 0.013623046875,
      "learning_rate": 8.695201896533875e-06,
      "loss": 0.0005450892262160778,
      "memory(GiB)": 27.09,
      "reward": 0.4738999783992767,
      "reward_std": 0.15061374502256514,
      "rewards/MMContentORM/mean": 0.6210000067949295,
      "rewards/MMContentORM/std": 0.549624501913786,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1140,
      "train_speed(iter/s)": 0.083726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/mean_length": 217.35,
      "completions/min_length": 123.6,
      "epoch": 0.5496879500720115,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1822585016489029,
      "kl": 0.018511962890625,
      "learning_rate": 8.681801772678564e-06,
      "loss": 0.0007403687573969364,
      "memory(GiB)": 27.09,
      "reward": 0.3406499683856964,
      "reward_std": 0.20272752242162823,
      "rewards/MMContentORM/mean": 0.33100001215934755,
      "rewards/MMContentORM/std": 0.737173342704773,
      "rewards/MMFormatORM/mean": 0.576874977350235,
      "rewards/MMFormatORM/std": 0.17944467663764954,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27606874108314516,
      "step": 1145,
      "train_speed(iter/s)": 0.083719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.0,
      "completions/mean_length": 212.4125,
      "completions/min_length": 141.6,
      "epoch": 0.5520883341334614,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16844458878040314,
      "kl": 0.0210693359375,
      "learning_rate": 8.668343630191094e-06,
      "loss": 0.0008432833477854728,
      "memory(GiB)": 27.09,
      "reward": 0.48644999265670774,
      "reward_std": 0.1396535847336054,
      "rewards/MMContentORM/mean": 0.6380000114440918,
      "rewards/MMContentORM/std": 0.5572850041091442,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1150,
      "train_speed(iter/s)": 0.08373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.4,
      "completions/mean_length": 211.1125,
      "completions/min_length": 141.8,
      "epoch": 0.5544887181949112,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.17075812816619873,
      "kl": 0.01673583984375,
      "learning_rate": 8.654827681147798e-06,
      "loss": 0.0006688498891890049,
      "memory(GiB)": 27.09,
      "reward": 0.4780499696731567,
      "reward_std": 0.11589480005204678,
      "rewards/MMContentORM/mean": 0.57950000166893,
      "rewards/MMContentORM/std": 0.6060647606849671,
      "rewards/MMFormatORM/mean": 0.6281249761581421,
      "rewards/MMFormatORM/std": 0.06690345257520676,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 1155,
      "train_speed(iter/s)": 0.083765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.8,
      "completions/mean_length": 212.925,
      "completions/min_length": 129.6,
      "epoch": 0.556889102256361,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18922355771064758,
      "kl": 0.015997314453125,
      "learning_rate": 8.641254138535937e-06,
      "loss": 0.0006405468098819256,
      "memory(GiB)": 27.09,
      "reward": 0.4417499840259552,
      "reward_std": 0.146866075694561,
      "rewards/MMContentORM/mean": 0.5550000250339509,
      "rewards/MMContentORM/std": 0.6111162975430489,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.14121158123016359,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21724859476089478,
      "step": 1160,
      "train_speed(iter/s)": 0.08377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 466.2,
      "completions/mean_length": 219.0375,
      "completions/min_length": 125.6,
      "epoch": 0.5592894863178108,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.09351535886526108,
      "kl": 0.014825439453125,
      "learning_rate": 8.627623216250345e-06,
      "loss": 0.0005931487306952476,
      "memory(GiB)": 27.09,
      "reward": 0.4562999814748764,
      "reward_std": 0.08669129339978099,
      "rewards/MMContentORM/mean": 0.5520000055432319,
      "rewards/MMContentORM/std": 0.5042887216433882,
      "rewards/MMFormatORM/mean": 0.6137499809265137,
      "rewards/MMFormatORM/std": 0.09990466982126237,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1165,
      "train_speed(iter/s)": 0.083689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.8,
      "completions/mean_length": 198.775,
      "completions/min_length": 119.8,
      "epoch": 0.5616898703792607,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14243614673614502,
      "kl": 0.0142822265625,
      "learning_rate": 8.613935129090055e-06,
      "loss": 0.0005715936422348022,
      "memory(GiB)": 27.09,
      "reward": 0.5254999697208405,
      "reward_std": 0.06462955782189965,
      "rewards/MMContentORM/mean": 0.6925000309944153,
      "rewards/MMContentORM/std": 0.53197683095932,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1170,
      "train_speed(iter/s)": 0.083721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.0,
      "completions/mean_length": 208.5875,
      "completions/min_length": 140.6,
      "epoch": 0.5640902544407105,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.08023513108491898,
      "kl": 0.016717529296875,
      "learning_rate": 8.60019009275492e-06,
      "loss": 0.000668759923428297,
      "memory(GiB)": 27.09,
      "reward": 0.4964999794960022,
      "reward_std": 0.054164377762936054,
      "rewards/MMContentORM/mean": 0.620000010728836,
      "rewards/MMContentORM/std": 0.5584413051605225,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1175,
      "train_speed(iter/s)": 0.083728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 470.0,
      "completions/mean_length": 220.7125,
      "completions/min_length": 119.2,
      "epoch": 0.5664906385021603,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.2373812049627304,
      "kl": 0.019677734375,
      "learning_rate": 8.586388323842207e-06,
      "loss": 0.0007880028337240219,
      "memory(GiB)": 27.09,
      "reward": 0.39134998321533204,
      "reward_std": 0.16157390028238297,
      "rewards/MMContentORM/mean": 0.4289999961853027,
      "rewards/MMContentORM/std": 0.7077797532081604,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 1180,
      "train_speed(iter/s)": 0.083613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 201.75,
      "completions/min_length": 114.4,
      "epoch": 0.5688910225636101,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.23980411887168884,
      "kl": 0.01798095703125,
      "learning_rate": 8.57253003984319e-06,
      "loss": 0.0007191254291683436,
      "memory(GiB)": 27.09,
      "reward": 0.5243999719619751,
      "reward_std": 0.07297341881785542,
      "rewards/MMContentORM/mean": 0.7185000061988831,
      "rewards/MMContentORM/std": 0.5680613338947296,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1185,
      "train_speed(iter/s)": 0.083637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.2,
      "completions/mean_length": 204.625,
      "completions/min_length": 149.6,
      "epoch": 0.5712914066250601,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12727871537208557,
      "kl": 0.014764404296875,
      "learning_rate": 8.558615459139717e-06,
      "loss": 0.0005905915051698685,
      "memory(GiB)": 27.09,
      "reward": 0.4597499847412109,
      "reward_std": 0.11066221240907907,
      "rewards/MMContentORM/mean": 0.5424999952316284,
      "rewards/MMContentORM/std": 0.6061853706836701,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1190,
      "train_speed(iter/s)": 0.083665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.0,
      "completions/mean_length": 218.9125,
      "completions/min_length": 149.8,
      "epoch": 0.5736917906865099,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.15900759398937225,
      "kl": 0.0161865234375,
      "learning_rate": 8.544644801000777e-06,
      "loss": 0.0006472207140177488,
      "memory(GiB)": 27.09,
      "reward": 0.409499979019165,
      "reward_std": 0.14325983561575412,
      "rewards/MMContentORM/mean": 0.46000003516674043,
      "rewards/MMContentORM/std": 0.5570301927626133,
      "rewards/MMFormatORM/mean": 0.6012499690055847,
      "rewards/MMFormatORM/std": 0.13321036398410796,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.20493902564048766,
      "step": 1195,
      "train_speed(iter/s)": 0.083651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.4,
      "completions/mean_length": 206.2,
      "completions/min_length": 123.6,
      "epoch": 0.5760921747479597,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.009572326205670834,
      "kl": 0.034039306640625,
      "learning_rate": 8.53061828557903e-06,
      "loss": 0.001363489031791687,
      "memory(GiB)": 27.09,
      "reward": 0.4724999785423279,
      "reward_std": 0.15542207062244415,
      "rewards/MMContentORM/mean": 0.6175000131130218,
      "rewards/MMContentORM/std": 0.6357908546924591,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1200,
      "train_speed(iter/s)": 0.083674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 449.6,
      "completions/mean_length": 214.8375,
      "completions/min_length": 136.4,
      "epoch": 0.5784925588094095,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.08620696514844894,
      "kl": 0.015582275390625,
      "learning_rate": 8.51653613390736e-06,
      "loss": 0.0006235348992049694,
      "memory(GiB)": 27.09,
      "reward": 0.4412499874830246,
      "reward_std": 0.11023794980719685,
      "rewards/MMContentORM/mean": 0.5250000119209289,
      "rewards/MMContentORM/std": 0.6168273031711579,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1205,
      "train_speed(iter/s)": 0.083513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.6,
      "completions/mean_length": 208.2875,
      "completions/min_length": 119.8,
      "epoch": 0.5808929428708594,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.25394561886787415,
      "kl": 0.0171142578125,
      "learning_rate": 8.502398567895369e-06,
      "loss": 0.0006845718715339899,
      "memory(GiB)": 27.09,
      "reward": 0.4345999777317047,
      "reward_std": 0.09871211070567369,
      "rewards/MMContentORM/mean": 0.4939999908208847,
      "rewards/MMContentORM/std": 0.6138741195201873,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 1210,
      "train_speed(iter/s)": 0.083519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.4,
      "completions/mean_length": 209.825,
      "completions/min_length": 141.4,
      "epoch": 0.5832933269323092,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.17071519792079926,
      "kl": 0.018353271484375,
      "learning_rate": 8.488205810325892e-06,
      "loss": 0.0007337843533605337,
      "memory(GiB)": 27.09,
      "reward": 0.49284998178482053,
      "reward_std": 0.13003694042563438,
      "rewards/MMContentORM/mean": 0.6540000021457673,
      "rewards/MMContentORM/std": 0.5871677160263061,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1215,
      "train_speed(iter/s)": 0.083533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.2,
      "completions/mean_length": 207.375,
      "completions/min_length": 124.6,
      "epoch": 0.585693710993759,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.17592158913612366,
      "kl": 0.0169677734375,
      "learning_rate": 8.473958084851487e-06,
      "loss": 0.000678650476038456,
      "memory(GiB)": 27.09,
      "reward": 0.5602999925613403,
      "reward_std": 0.06406386941671371,
      "rewards/MMContentORM/mean": 0.7795000076293945,
      "rewards/MMContentORM/std": 0.4123713135719299,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1220,
      "train_speed(iter/s)": 0.083569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.4,
      "completions/mean_length": 204.0375,
      "completions/min_length": 137.8,
      "epoch": 0.5880940950552088,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1302787959575653,
      "kl": 0.01573486328125,
      "learning_rate": 8.459655615990908e-06,
      "loss": 0.000629202276468277,
      "memory(GiB)": 27.09,
      "reward": 0.45289998650550845,
      "reward_std": 0.1441083623562008,
      "rewards/MMContentORM/mean": 0.5685000061988831,
      "rewards/MMContentORM/std": 0.6687065124511719,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 1225,
      "train_speed(iter/s)": 0.083593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 209.125,
      "completions/min_length": 138.2,
      "epoch": 0.5904944791166586,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08660220354795456,
      "kl": 0.01583251953125,
      "learning_rate": 8.445298629125566e-06,
      "loss": 0.0006336371414363384,
      "memory(GiB)": 27.09,
      "reward": 0.5385999858379364,
      "reward_std": 0.09079250784125178,
      "rewards/MMContentORM/mean": 0.7539999961853028,
      "rewards/MMContentORM/std": 0.5569849014282227,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1230,
      "train_speed(iter/s)": 0.083624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 280.8,
      "completions/mean_length": 207.4375,
      "completions/min_length": 133.8,
      "epoch": 0.5928948631781085,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10941971838474274,
      "kl": 0.013848876953125,
      "learning_rate": 8.430887350495978e-06,
      "loss": 0.0005538208410143852,
      "memory(GiB)": 27.09,
      "reward": 0.5291499614715576,
      "reward_std": 0.0521137666888535,
      "rewards/MMContentORM/mean": 0.7159999907016754,
      "rewards/MMContentORM/std": 0.41987812891602516,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1235,
      "train_speed(iter/s)": 0.083672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/mean_length": 207.2,
      "completions/min_length": 133.4,
      "epoch": 0.5952952472395583,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17035551369190216,
      "kl": 0.016778564453125,
      "learning_rate": 8.416422007198204e-06,
      "loss": 0.0006709801964461803,
      "memory(GiB)": 27.09,
      "reward": 0.49859996438026427,
      "reward_std": 0.09135819533839822,
      "rewards/MMContentORM/mean": 0.6540000200271606,
      "rewards/MMContentORM/std": 0.6145297229290009,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1240,
      "train_speed(iter/s)": 0.083718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 468.6,
      "completions/mean_length": 221.25,
      "completions/min_length": 141.2,
      "epoch": 0.5976956313010081,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.16948705911636353,
      "kl": 0.016485595703125,
      "learning_rate": 8.401902827180267e-06,
      "loss": 0.0006599447224289179,
      "memory(GiB)": 27.09,
      "reward": 0.4580999851226807,
      "reward_std": 0.10960154831409455,
      "rewards/MMContentORM/mean": 0.5815000176429749,
      "rewards/MMContentORM/std": 0.6139387130737305,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1245,
      "train_speed(iter/s)": 0.083619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.2,
      "completions/mean_length": 225.325,
      "completions/min_length": 134.2,
      "epoch": 0.600096015362458,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.10282408446073532,
      "kl": 0.0154541015625,
      "learning_rate": 8.387330039238558e-06,
      "loss": 0.000617855554446578,
      "memory(GiB)": 27.09,
      "reward": 0.38104998469352724,
      "reward_std": 0.2287490501999855,
      "rewards/MMContentORM/mean": 0.4320000112056732,
      "rewards/MMContentORM/std": 0.749615466594696,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 1250,
      "train_speed(iter/s)": 0.083602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 448.0,
      "completions/mean_length": 237.125,
      "completions/min_length": 158.0,
      "epoch": 0.6024963994239079,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13665515184402466,
      "kl": 0.0227783203125,
      "learning_rate": 8.372703873014236e-06,
      "loss": 0.0009101461619138718,
      "memory(GiB)": 27.09,
      "reward": 0.4327999770641327,
      "reward_std": 0.1585333364084363,
      "rewards/MMContentORM/mean": 0.5470000147819519,
      "rewards/MMContentORM/std": 0.6171560496091842,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 1255,
      "train_speed(iter/s)": 0.083549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.8,
      "completions/mean_length": 221.9875,
      "completions/min_length": 144.6,
      "epoch": 0.6048967834853577,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1299554705619812,
      "kl": 0.01610107421875,
      "learning_rate": 8.358024558989606e-06,
      "loss": 0.0006435022689402104,
      "memory(GiB)": 27.09,
      "reward": 0.49649999141693113,
      "reward_std": 0.0552957511274144,
      "rewards/MMContentORM/mean": 0.6199999928474427,
      "rewards/MMContentORM/std": 0.6000278711318969,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1260,
      "train_speed(iter/s)": 0.083545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 459.4,
      "completions/mean_length": 225.875,
      "completions/min_length": 150.6,
      "epoch": 0.6072971675468075,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.12043029069900513,
      "kl": 0.014471435546875,
      "learning_rate": 8.34329232848449e-06,
      "loss": 0.0005782137159258127,
      "memory(GiB)": 27.09,
      "reward": 0.4554999887943268,
      "reward_std": 0.1602303996682167,
      "rewards/MMContentORM/mean": 0.5749999940395355,
      "rewards/MMContentORM/std": 0.6556944012641907,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 1265,
      "train_speed(iter/s)": 0.083458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 459.0,
      "completions/mean_length": 224.525,
      "completions/min_length": 138.0,
      "epoch": 0.6096975516082573,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.15134023129940033,
      "kl": 0.017626953125,
      "learning_rate": 8.328507413652569e-06,
      "loss": 0.0007050371263176203,
      "memory(GiB)": 27.09,
      "reward": 0.45614997744560243,
      "reward_std": 0.14799745231866837,
      "rewards/MMContentORM/mean": 0.5910000026226043,
      "rewards/MMContentORM/std": 0.6682988286018372,
      "rewards/MMFormatORM/mean": 0.5931249976158142,
      "rewards/MMFormatORM/std": 0.18240466713905334,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2806225776672363,
      "step": 1270,
      "train_speed(iter/s)": 0.083379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.4,
      "completions/mean_length": 216.9125,
      "completions/min_length": 131.2,
      "epoch": 0.6120979356697072,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1947038173675537,
      "kl": 0.017083740234375,
      "learning_rate": 8.313670047477751e-06,
      "loss": 0.0006824467331171036,
      "memory(GiB)": 27.09,
      "reward": 0.43594998121261597,
      "reward_std": 0.1567655718419701,
      "rewards/MMContentORM/mean": 0.5405000030994416,
      "rewards/MMContentORM/std": 0.6641241073608398,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.13730934262275696,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21124515533447266,
      "step": 1275,
      "train_speed(iter/s)": 0.083394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 455.8,
      "completions/mean_length": 234.675,
      "completions/min_length": 138.6,
      "epoch": 0.614498319731157,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14940251410007477,
      "kl": 0.0174072265625,
      "learning_rate": 8.29878046377047e-06,
      "loss": 0.0006969640962779522,
      "memory(GiB)": 27.09,
      "reward": 0.5129499852657318,
      "reward_std": 0.10443966835737228,
      "rewards/MMContentORM/mean": 0.6755000114440918,
      "rewards/MMContentORM/std": 0.5826462268829345,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1280,
      "train_speed(iter/s)": 0.083311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.0,
      "completions/mean_length": 224.5375,
      "completions/min_length": 146.6,
      "epoch": 0.6168987037926068,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.23286378383636475,
      "kl": 0.01444091796875,
      "learning_rate": 8.283838897164022e-06,
      "loss": 0.0005787207745015621,
      "memory(GiB)": 27.09,
      "reward": 0.5347499787807465,
      "reward_std": 0.0849235224770382,
      "rewards/MMContentORM/mean": 0.7300000071525574,
      "rewards/MMContentORM/std": 0.5398510098457336,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1285,
      "train_speed(iter/s)": 0.08333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.8,
      "completions/mean_length": 215.95,
      "completions/min_length": 139.2,
      "epoch": 0.6192990878540566,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.16865944862365723,
      "kl": 0.01298828125,
      "learning_rate": 8.268845583110863e-06,
      "loss": 0.0005195950157940388,
      "memory(GiB)": 27.09,
      "reward": 0.5143999695777893,
      "reward_std": 0.09899494871497154,
      "rewards/MMContentORM/mean": 0.693500018119812,
      "rewards/MMContentORM/std": 0.5922718286514282,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1290,
      "train_speed(iter/s)": 0.083314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.6,
      "completions/mean_length": 209.5,
      "completions/min_length": 135.2,
      "epoch": 0.6216994719155065,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.12279748171567917,
      "kl": 0.016485595703125,
      "learning_rate": 8.253800757878886e-06,
      "loss": 0.0006598389707505703,
      "memory(GiB)": 27.09,
      "reward": 0.41129997968673704,
      "reward_std": 0.16164461448788642,
      "rewards/MMContentORM/mean": 0.46449999809265136,
      "rewards/MMContentORM/std": 0.6922466158866882,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1295,
      "train_speed(iter/s)": 0.083344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.8,
      "completions/mean_length": 217.825,
      "completions/min_length": 136.2,
      "epoch": 0.6240998559769563,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.1909555196762085,
      "kl": 0.02734375,
      "learning_rate": 8.238704658547722e-06,
      "loss": 0.0010941483080387116,
      "memory(GiB)": 27.09,
      "reward": 0.5067499876022339,
      "reward_std": 0.09284311935771257,
      "rewards/MMContentORM/mean": 0.6600000023841858,
      "rewards/MMContentORM/std": 0.5655688047409058,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1300,
      "train_speed(iter/s)": 0.083366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.6,
      "completions/mean_length": 210.3875,
      "completions/min_length": 144.0,
      "epoch": 0.6265002400384061,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0646437555551529,
      "kl": 0.015008544921875,
      "learning_rate": 8.223557523004982e-06,
      "loss": 0.0006002359557896852,
      "memory(GiB)": 27.09,
      "reward": 0.431849992275238,
      "reward_std": 0.11052078779321164,
      "rewards/MMContentORM/mean": 0.5015000164508819,
      "rewards/MMContentORM/std": 0.6876445889472962,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1305,
      "train_speed(iter/s)": 0.083302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.0,
      "completions/mean_length": 222.225,
      "completions/min_length": 157.6,
      "epoch": 0.628900624099856,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.06356562674045563,
      "kl": 0.014605712890625,
      "learning_rate": 8.208359589942515e-06,
      "loss": 0.000583806075155735,
      "memory(GiB)": 27.09,
      "reward": 0.46749998927116393,
      "reward_std": 0.10931870595086365,
      "rewards/MMContentORM/mean": 0.5799999982118607,
      "rewards/MMContentORM/std": 0.5833412051200867,
      "rewards/MMFormatORM/mean": 0.6137499809265137,
      "rewards/MMFormatORM/std": 0.08727944791316986,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1310,
      "train_speed(iter/s)": 0.083321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.2,
      "completions/mean_length": 220.925,
      "completions/min_length": 134.4,
      "epoch": 0.6313010081613059,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.18615718185901642,
      "kl": 0.016546630859375,
      "learning_rate": 8.193111098852654e-06,
      "loss": 0.0006628592498600483,
      "memory(GiB)": 27.09,
      "reward": 0.4991499900817871,
      "reward_std": 0.06738727213814855,
      "rewards/MMContentORM/mean": 0.6410000026226044,
      "rewards/MMContentORM/std": 0.49751891270279885,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1315,
      "train_speed(iter/s)": 0.083324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.6,
      "completions/mean_length": 214.4125,
      "completions/min_length": 132.6,
      "epoch": 0.6337013922227557,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1614212691783905,
      "kl": 0.012420654296875,
      "learning_rate": 8.177812290024438e-06,
      "loss": 0.000497491005808115,
      "memory(GiB)": 27.09,
      "reward": 0.4735999882221222,
      "reward_std": 0.10012631714344025,
      "rewards/MMContentORM/mean": 0.5914999902248382,
      "rewards/MMContentORM/std": 0.6162684261798859,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1320,
      "train_speed(iter/s)": 0.083354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 373.0,
      "completions/mean_length": 214.65,
      "completions/min_length": 152.4,
      "epoch": 0.6361017762842055,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.08849076926708221,
      "kl": 0.014666748046875,
      "learning_rate": 8.162463404539812e-06,
      "loss": 0.0005868059583008289,
      "memory(GiB)": 27.09,
      "reward": 0.48304998874664307,
      "reward_std": 0.12183449864387512,
      "rewards/MMContentORM/mean": 0.6295000195503235,
      "rewards/MMContentORM/std": 0.6145186185836792,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1325,
      "train_speed(iter/s)": 0.083338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.6,
      "completions/mean_length": 221.7125,
      "completions/min_length": 138.0,
      "epoch": 0.6385021603456553,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.29121577739715576,
      "kl": 0.018963623046875,
      "learning_rate": 8.147064684269854e-06,
      "loss": 0.0007598603144288063,
      "memory(GiB)": 27.09,
      "reward": 0.4774999737739563,
      "reward_std": 0.13194613000378014,
      "rewards/MMContentORM/mean": 0.6175000011920929,
      "rewards/MMContentORM/std": 0.5826177567243576,
      "rewards/MMFormatORM/mean": 0.6074999928474426,
      "rewards/MMFormatORM/std": 0.12490466833114625,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1330,
      "train_speed(iter/s)": 0.083346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 368.2,
      "completions/mean_length": 220.975,
      "completions/min_length": 138.8,
      "epoch": 0.6409025444071051,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1789148896932602,
      "kl": 0.01461181640625,
      "learning_rate": 8.131616371870941e-06,
      "loss": 0.0005845078732818366,
      "memory(GiB)": 27.09,
      "reward": 0.48419997096061707,
      "reward_std": 0.09079250679351389,
      "rewards/MMContentORM/mean": 0.6180000066757202,
      "rewards/MMContentORM/std": 0.5878942906856537,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1335,
      "train_speed(iter/s)": 0.083336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.0,
      "completions/mean_length": 215.825,
      "completions/min_length": 145.6,
      "epoch": 0.643302928468555,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.12938667833805084,
      "kl": 0.01439208984375,
      "learning_rate": 8.116118710780936e-06,
      "loss": 0.0005751181393861771,
      "memory(GiB)": 27.09,
      "reward": 0.45569998025894165,
      "reward_std": 0.15994756268337368,
      "rewards/MMContentORM/mean": 0.5754999995231629,
      "rewards/MMContentORM/std": 0.6518269121646881,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1340,
      "train_speed(iter/s)": 0.083378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.0,
      "completions/mean_length": 214.35,
      "completions/min_length": 154.2,
      "epoch": 0.6457033125300048,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1686517745256424,
      "kl": 0.013623046875,
      "learning_rate": 8.100571945215349e-06,
      "loss": 0.0005452525801956654,
      "memory(GiB)": 27.09,
      "reward": 0.4809499800205231,
      "reward_std": 0.06936717408243567,
      "rewards/MMContentORM/mean": 0.5954999804496766,
      "rewards/MMContentORM/std": 0.5270328655838966,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1345,
      "train_speed(iter/s)": 0.083404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.6,
      "completions/mean_length": 224.625,
      "completions/min_length": 151.4,
      "epoch": 0.6481036965914546,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.06384813040494919,
      "kl": 0.014715576171875,
      "learning_rate": 8.08497632016349e-06,
      "loss": 0.0005893761292099953,
      "memory(GiB)": 27.09,
      "reward": 0.4773499846458435,
      "reward_std": 0.12423865795135498,
      "rewards/MMContentORM/mean": 0.6190000057220459,
      "rewards/MMContentORM/std": 0.6496911168098449,
      "rewards/MMFormatORM/mean": 0.6056249856948852,
      "rewards/MMFormatORM/std": 0.15690345019102098,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1350,
      "train_speed(iter/s)": 0.083396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.2,
      "completions/mean_length": 216.75,
      "completions/min_length": 128.2,
      "epoch": 0.6505040806529044,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.16834478080272675,
      "kl": 0.018731689453125,
      "learning_rate": 8.069332081384604e-06,
      "loss": 0.0007483120542019605,
      "memory(GiB)": 27.09,
      "reward": 0.4377999842166901,
      "reward_std": 0.0825900660827756,
      "rewards/MMContentORM/mean": 0.559500002861023,
      "rewards/MMContentORM/std": 0.7009612798690796,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 1355,
      "train_speed(iter/s)": 0.0834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.8,
      "completions/mean_length": 222.05,
      "completions/min_length": 152.6,
      "epoch": 0.6529044647143543,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.17165519297122955,
      "kl": 0.02119140625,
      "learning_rate": 8.053639475404008e-06,
      "loss": 0.0008492187596857547,
      "memory(GiB)": 27.09,
      "reward": 0.45319998264312744,
      "reward_std": 0.17027131617069244,
      "rewards/MMContentORM/mean": 0.5979999959468841,
      "rewards/MMContentORM/std": 0.6957221150398254,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 1360,
      "train_speed(iter/s)": 0.083404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.6,
      "completions/mean_length": 220.6125,
      "completions/min_length": 154.6,
      "epoch": 0.6553048487758041,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16907748579978943,
      "kl": 0.0153076171875,
      "learning_rate": 8.037898749509193e-06,
      "loss": 0.0006130572408437728,
      "memory(GiB)": 27.09,
      "reward": 0.4759499728679657,
      "reward_std": 0.06738727379124612,
      "rewards/MMContentORM/mean": 0.5830000102519989,
      "rewards/MMContentORM/std": 0.5839648485183716,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1365,
      "train_speed(iter/s)": 0.083414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 207.2625,
      "completions/min_length": 122.0,
      "epoch": 0.6577052328372539,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.16428223252296448,
      "kl": 0.019390869140625,
      "learning_rate": 8.022110151745939e-06,
      "loss": 0.0007753587327897548,
      "memory(GiB)": 27.09,
      "reward": 0.39994998574256896,
      "reward_std": 0.12126881405711173,
      "rewards/MMContentORM/mean": 0.45050000548362734,
      "rewards/MMContentORM/std": 0.7288543343544006,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 1370,
      "train_speed(iter/s)": 0.083439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.4,
      "completions/mean_length": 215.875,
      "completions/min_length": 144.8,
      "epoch": 0.6601056168987038,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.0659169927239418,
      "kl": 0.01590576171875,
      "learning_rate": 8.006273930914397e-06,
      "loss": 0.0006364564411342144,
      "memory(GiB)": 27.09,
      "reward": 0.5269499838352203,
      "reward_std": 0.06936717077624052,
      "rewards/MMContentORM/mean": 0.7104999959468842,
      "rewards/MMContentORM/std": 0.42932928130030634,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1375,
      "train_speed(iter/s)": 0.083445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 223.675,
      "completions/min_length": 133.8,
      "epoch": 0.6625060009601537,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.06429751962423325,
      "kl": 0.018243408203125,
      "learning_rate": 7.990390336565179e-06,
      "loss": 0.0007286330219358206,
      "memory(GiB)": 27.09,
      "reward": 0.48864997625350953,
      "reward_std": 0.09581296914257109,
      "rewards/MMContentORM/mean": 0.643500006198883,
      "rewards/MMContentORM/std": 0.5242509357631207,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1380,
      "train_speed(iter/s)": 0.083473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.8,
      "completions/mean_length": 216.2125,
      "completions/min_length": 117.8,
      "epoch": 0.6649063850216035,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11517506837844849,
      "kl": 0.02274169921875,
      "learning_rate": 7.97445961899541e-06,
      "loss": 0.0009097927249968052,
      "memory(GiB)": 27.09,
      "reward": 0.5096500039100647,
      "reward_std": 0.1130663748132065,
      "rewards/MMContentORM/mean": 0.6960000216960907,
      "rewards/MMContentORM/std": 0.44011374935507774,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1385,
      "train_speed(iter/s)": 0.083494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 206.375,
      "completions/min_length": 116.0,
      "epoch": 0.6673067690830533,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.27704310417175293,
      "kl": 0.021282958984375,
      "learning_rate": 7.958482029244803e-06,
      "loss": 0.0008504557423293591,
      "memory(GiB)": 27.09,
      "reward": 0.37329998016357424,
      "reward_std": 0.16235171258449554,
      "rewards/MMContentORM/mean": 0.42700001001358034,
      "rewards/MMContentORM/std": 0.7586719036102295,
      "rewards/MMFormatORM/mean": 0.5687499940395355,
      "rewards/MMFormatORM/std": 0.20804243683815002,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.32006530165672303,
      "step": 1390,
      "train_speed(iter/s)": 0.083518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 442.4,
      "completions/mean_length": 225.675,
      "completions/min_length": 130.6,
      "epoch": 0.6697071531445031,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.09009167551994324,
      "kl": 0.013970947265625,
      "learning_rate": 7.942457819091686e-06,
      "loss": 0.0005581377539783716,
      "memory(GiB)": 27.09,
      "reward": 0.46669996380805967,
      "reward_std": 0.07254915833473205,
      "rewards/MMContentORM/mean": 0.5455000042915344,
      "rewards/MMContentORM/std": 0.6198044538497924,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1395,
      "train_speed(iter/s)": 0.083434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.8,
      "completions/mean_length": 206.9875,
      "completions/min_length": 137.2,
      "epoch": 0.672107537205953,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.22825519740581512,
      "kl": 0.014642333984375,
      "learning_rate": 7.926387241049045e-06,
      "loss": 0.0005855937954038382,
      "memory(GiB)": 27.09,
      "reward": 0.48020000457763673,
      "reward_std": 0.11455129608511924,
      "rewards/MMContentORM/mean": 0.6080000162124634,
      "rewards/MMContentORM/std": 0.5722609221935272,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1400,
      "train_speed(iter/s)": 0.083454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 357.8,
      "completions/mean_length": 216.625,
      "completions/min_length": 137.0,
      "epoch": 0.6745079212674028,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.19864213466644287,
      "kl": 0.014227294921875,
      "learning_rate": 7.910270548360537e-06,
      "loss": 0.0005694822408258915,
      "memory(GiB)": 27.09,
      "reward": 0.3801499783992767,
      "reward_std": 0.15648273127153517,
      "rewards/MMContentORM/mean": 0.40100000500679017,
      "rewards/MMContentORM/std": 0.7135852456092835,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 1405,
      "train_speed(iter/s)": 0.083378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.6,
      "completions/mean_length": 213.2375,
      "completions/min_length": 123.8,
      "epoch": 0.6769083053288526,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.13676653802394867,
      "kl": 0.015936279296875,
      "learning_rate": 7.89410799499651e-06,
      "loss": 0.0006383438128978014,
      "memory(GiB)": 27.09,
      "reward": 0.4782499849796295,
      "reward_std": 0.08407499901950359,
      "rewards/MMContentORM/mean": 0.6174999952316285,
      "rewards/MMContentORM/std": 0.6308860540390014,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1410,
      "train_speed(iter/s)": 0.083388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.6,
      "completions/mean_length": 219.2125,
      "completions/min_length": 160.4,
      "epoch": 0.6793086893903024,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.21563780307769775,
      "kl": 0.01568603515625,
      "learning_rate": 7.877899835649988e-06,
      "loss": 0.0006277403328567744,
      "memory(GiB)": 27.09,
      "reward": 0.49304999113082887,
      "reward_std": 0.13088545948266983,
      "rewards/MMContentORM/mean": 0.654500013589859,
      "rewards/MMContentORM/std": 0.5817828834056854,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1415,
      "train_speed(iter/s)": 0.083413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.2,
      "completions/mean_length": 214.4375,
      "completions/min_length": 154.2,
      "epoch": 0.6817090734517522,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.08068116009235382,
      "kl": 0.015985107421875,
      "learning_rate": 7.86164632573267e-06,
      "loss": 0.0006394727155566215,
      "memory(GiB)": 27.09,
      "reward": 0.5065499901771545,
      "reward_std": 0.08464068165048957,
      "rewards/MMContentORM/mean": 0.659500002861023,
      "rewards/MMContentORM/std": 0.6008779644966126,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1420,
      "train_speed(iter/s)": 0.083412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.8,
      "completions/mean_length": 211.925,
      "completions/min_length": 142.2,
      "epoch": 0.6841094575132021,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.46003836393356323,
      "kl": 0.015850830078125,
      "learning_rate": 7.845347721370894e-06,
      "loss": 0.0006344554014503956,
      "memory(GiB)": 27.09,
      "reward": 0.47069998979568484,
      "reward_std": 0.0646295606624335,
      "rewards/MMContentORM/mean": 0.5554999947547913,
      "rewards/MMContentORM/std": 0.6328672289848327,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1425,
      "train_speed(iter/s)": 0.083437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.0,
      "completions/mean_length": 209.475,
      "completions/min_length": 115.6,
      "epoch": 0.6865098415746519,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.11785315722227097,
      "kl": 0.020574951171875,
      "learning_rate": 7.82900427940161e-06,
      "loss": 0.0008225988596677781,
      "memory(GiB)": 27.09,
      "reward": 0.45914997458457946,
      "reward_std": 0.1380979523062706,
      "rewards/MMContentORM/mean": 0.5985000252723693,
      "rewards/MMContentORM/std": 0.6026765942573548,
      "rewards/MMFormatORM/mean": 0.5931249976158142,
      "rewards/MMFormatORM/std": 0.18240466713905334,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2806225776672363,
      "step": 1430,
      "train_speed(iter/s)": 0.083462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.4,
      "completions/mean_length": 205.8375,
      "completions/min_length": 148.4,
      "epoch": 0.6889102256361018,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16498683393001556,
      "kl": 0.016790771484375,
      "learning_rate": 7.812616257368324e-06,
      "loss": 0.0006715003866702319,
      "memory(GiB)": 27.09,
      "reward": 0.4596499800682068,
      "reward_std": 0.13795653358101845,
      "rewards/MMContentORM/mean": 0.5710000157356262,
      "rewards/MMContentORM/std": 0.6740511536598206,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1435,
      "train_speed(iter/s)": 0.083488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 359.0,
      "completions/mean_length": 225.9875,
      "completions/min_length": 151.2,
      "epoch": 0.6913106096975516,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.11214323341846466,
      "kl": 0.02467041015625,
      "learning_rate": 7.79618391351705e-06,
      "loss": 0.0009878157638013364,
      "memory(GiB)": 27.09,
      "reward": 0.48644998073577883,
      "reward_std": 0.15662415251135825,
      "rewards/MMContentORM/mean": 0.6380000293254853,
      "rewards/MMContentORM/std": 0.5628958165645599,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1440,
      "train_speed(iter/s)": 0.083475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.6,
      "completions/mean_length": 220.3,
      "completions/min_length": 129.6,
      "epoch": 0.6937109937590015,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10853149741888046,
      "kl": 0.0424072265625,
      "learning_rate": 7.779707506792232e-06,
      "loss": 0.001695425808429718,
      "memory(GiB)": 27.09,
      "reward": 0.5110499858856201,
      "reward_std": 0.12240018071606755,
      "rewards/MMContentORM/mean": 0.6995000064373016,
      "rewards/MMContentORM/std": 0.4983797550201416,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1445,
      "train_speed(iter/s)": 0.083475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 565.4,
      "completions/mean_length": 235.8375,
      "completions/min_length": 151.4,
      "epoch": 0.6961113778204513,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.06722735613584518,
      "kl": 0.01473388671875,
      "learning_rate": 7.763187296832664e-06,
      "loss": 0.0005892225075513124,
      "memory(GiB)": 27.09,
      "reward": 0.48484996557235716,
      "reward_std": 0.11080363169312477,
      "rewards/MMContentORM/mean": 0.634000015258789,
      "rewards/MMContentORM/std": 0.5153150960803032,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1450,
      "train_speed(iter/s)": 0.083401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 451.2,
      "completions/mean_length": 219.5625,
      "completions/min_length": 131.4,
      "epoch": 0.6985117618819011,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.14000947773456573,
      "kl": 0.0172607421875,
      "learning_rate": 7.746623543967406e-06,
      "loss": 0.0006907809525728226,
      "memory(GiB)": 27.09,
      "reward": 0.5349499821662903,
      "reward_std": 0.06767011939082294,
      "rewards/MMContentORM/mean": 0.7305000185966491,
      "rewards/MMContentORM/std": 0.5024080984294415,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1455,
      "train_speed(iter/s)": 0.083335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.6,
      "completions/mean_length": 214.1,
      "completions/min_length": 147.0,
      "epoch": 0.7009121459433509,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1414344757795334,
      "kl": 0.019146728515625,
      "learning_rate": 7.730016509211672e-06,
      "loss": 0.0007662178948521614,
      "memory(GiB)": 27.09,
      "reward": 0.5028499722480774,
      "reward_std": 0.11080363541841506,
      "rewards/MMContentORM/mean": 0.6790000140666962,
      "rewards/MMContentORM/std": 0.5045298062264919,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1460,
      "train_speed(iter/s)": 0.083355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.4,
      "completions/mean_length": 209.0125,
      "completions/min_length": 142.8,
      "epoch": 0.7033125300048008,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10340370237827301,
      "kl": 0.016058349609375,
      "learning_rate": 7.713366454262724e-06,
      "loss": 0.0006422744132578373,
      "memory(GiB)": 27.09,
      "reward": 0.4182499825954437,
      "reward_std": 0.10146982565056532,
      "rewards/MMContentORM/mean": 0.4675000041723251,
      "rewards/MMContentORM/std": 0.6833849430084229,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1465,
      "train_speed(iter/s)": 0.083393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.2,
      "completions/mean_length": 210.225,
      "completions/min_length": 135.8,
      "epoch": 0.7057129140662506,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.076369509100914,
      "kl": 0.016009521484375,
      "learning_rate": 7.696673641495747e-06,
      "loss": 0.0006410168949514628,
      "memory(GiB)": 27.09,
      "reward": 0.4791999697685242,
      "reward_std": 0.09729789346456527,
      "rewards/MMContentORM/mean": 0.6054999947547912,
      "rewards/MMContentORM/std": 0.6232686996459961,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1470,
      "train_speed(iter/s)": 0.083415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 327.4,
      "completions/mean_length": 211.225,
      "completions/min_length": 125.2,
      "epoch": 0.7081132981277004,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.15498086810112,
      "kl": 0.016680908203125,
      "learning_rate": 7.679938333959709e-06,
      "loss": 0.0006680141203105449,
      "memory(GiB)": 27.09,
      "reward": 0.5133999764919281,
      "reward_std": 0.11455130055546761,
      "rewards/MMContentORM/mean": 0.6910000026226044,
      "rewards/MMContentORM/std": 0.5742799043655396,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1475,
      "train_speed(iter/s)": 0.083418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.6,
      "completions/mean_length": 209.6875,
      "completions/min_length": 144.0,
      "epoch": 0.7105136821891502,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.16933397948741913,
      "kl": 0.018133544921875,
      "learning_rate": 7.663160795373221e-06,
      "loss": 0.0007249978370964527,
      "memory(GiB)": 27.09,
      "reward": 0.5215499997138977,
      "reward_std": 0.06682158990297467,
      "rewards/MMContentORM/mean": 0.697000014781952,
      "rewards/MMContentORM/std": 0.49735930785536764,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1480,
      "train_speed(iter/s)": 0.083447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.2,
      "completions/mean_length": 214.2625,
      "completions/min_length": 126.0,
      "epoch": 0.7129140662506,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.37113457918167114,
      "kl": 0.031427001953125,
      "learning_rate": 7.64634129012038e-06,
      "loss": 0.0012564392760396003,
      "memory(GiB)": 27.09,
      "reward": 0.4060499906539917,
      "reward_std": 0.15563419908285142,
      "rewards/MMContentORM/mean": 0.4945000231266022,
      "rewards/MMContentORM/std": 0.71776123046875,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.1856150358915329,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.285561603307724,
      "step": 1485,
      "train_speed(iter/s)": 0.083439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.2,
      "completions/mean_length": 209.775,
      "completions/min_length": 127.6,
      "epoch": 0.7153144503120499,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.16112570464611053,
      "kl": 0.01470947265625,
      "learning_rate": 7.629480083246607e-06,
      "loss": 0.0005889590363949537,
      "memory(GiB)": 27.09,
      "reward": 0.4991499841213226,
      "reward_std": 0.07926666894927621,
      "rewards/MMContentORM/mean": 0.6409999907016755,
      "rewards/MMContentORM/std": 0.5213750995695591,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1490,
      "train_speed(iter/s)": 0.083445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.0,
      "completions/mean_length": 211.7375,
      "completions/min_length": 126.8,
      "epoch": 0.7177148343734998,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.47146689891815186,
      "kl": 0.03209228515625,
      "learning_rate": 7.61257744045446e-06,
      "loss": 0.0012816525064408778,
      "memory(GiB)": 27.09,
      "reward": 0.4565499722957611,
      "reward_std": 0.04914391748607159,
      "rewards/MMContentORM/mean": 0.5345000147819519,
      "rewards/MMContentORM/std": 0.6424328684806824,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1495,
      "train_speed(iter/s)": 0.083444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 205.65,
      "completions/min_length": 124.8,
      "epoch": 0.7201152184349496,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1686468869447708,
      "kl": 0.016204833984375,
      "learning_rate": 7.595633628099459e-06,
      "loss": 0.0006481107324361801,
      "memory(GiB)": 27.09,
      "reward": 0.44354997873306273,
      "reward_std": 0.16298812627792358,
      "rewards/MMContentORM/mean": 0.5594999849796295,
      "rewards/MMContentORM/std": 0.6292815625667572,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 1500,
      "train_speed(iter/s)": 0.083468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 491.6,
      "completions/mean_length": 228.2625,
      "completions/min_length": 140.2,
      "epoch": 0.7225156024963995,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.16463321447372437,
      "kl": 0.014453125,
      "learning_rate": 7.578648913185877e-06,
      "loss": 0.0005780975334346294,
      "memory(GiB)": 27.09,
      "reward": 0.4644499897956848,
      "reward_std": 0.1550685167312622,
      "rewards/MMContentORM/mean": 0.640500009059906,
      "rewards/MMContentORM/std": 0.6791411757469177,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.2101138174533844,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3232520341873169,
      "step": 1505,
      "train_speed(iter/s)": 0.083311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 272.6,
      "completions/mean_length": 198.4125,
      "completions/min_length": 133.2,
      "epoch": 0.7249159865578493,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.10300061106681824,
      "kl": 0.01964111328125,
      "learning_rate": 7.561623563362541e-06,
      "loss": 0.0007859501987695694,
      "memory(GiB)": 27.09,
      "reward": 0.54544997215271,
      "reward_std": 0.05904341547284275,
      "rewards/MMContentORM/mean": 0.728000009059906,
      "rewards/MMContentORM/std": 0.4972465097904205,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1510,
      "train_speed(iter/s)": 0.083355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.4,
      "completions/mean_length": 214.025,
      "completions/min_length": 122.0,
      "epoch": 0.7273163706192991,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.004715959541499615,
      "kl": 0.0142822265625,
      "learning_rate": 7.5445578469186135e-06,
      "loss": 0.0005710616242140532,
      "memory(GiB)": 27.09,
      "reward": 0.4336499750614166,
      "reward_std": 0.10401540845632554,
      "rewards/MMContentORM/mean": 0.5060000061988831,
      "rewards/MMContentORM/std": 0.6872617721557617,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1515,
      "train_speed(iter/s)": 0.083352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 456.6,
      "completions/mean_length": 219.925,
      "completions/min_length": 135.4,
      "epoch": 0.7297167546807489,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1058562770485878,
      "kl": 0.0159423828125,
      "learning_rate": 7.527452032779361e-06,
      "loss": 0.0006374444346874952,
      "memory(GiB)": 27.09,
      "reward": 0.5062999784946441,
      "reward_std": 0.12628927137702703,
      "rewards/MMContentORM/mean": 0.7019999921321869,
      "rewards/MMContentORM/std": 0.45146496072411535,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 1520,
      "train_speed(iter/s)": 0.083288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 456.0,
      "completions/mean_length": 212.125,
      "completions/min_length": 101.8,
      "epoch": 0.7321171387421987,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1445714682340622,
      "kl": 0.021337890625,
      "learning_rate": 7.510306390501919e-06,
      "loss": 0.000853828527033329,
      "memory(GiB)": 27.09,
      "reward": 0.4123999834060669,
      "reward_std": 0.15980613380670547,
      "rewards/MMContentORM/mean": 0.5535000085830688,
      "rewards/MMContentORM/std": 0.7459115505218505,
      "rewards/MMFormatORM/mean": 0.5524999856948852,
      "rewards/MMFormatORM/std": 0.23411746919155121,
      "rewards/MMRubricORM/mean": -0.15,
      "rewards/MMRubricORM/std": 0.3601807415485382,
      "step": 1525,
      "train_speed(iter/s)": 0.083215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.2,
      "completions/mean_length": 202.3625,
      "completions/min_length": 116.6,
      "epoch": 0.7345175228036486,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.20122231543064117,
      "kl": 0.0188720703125,
      "learning_rate": 7.493121190271044e-06,
      "loss": 0.000754462881013751,
      "memory(GiB)": 27.09,
      "reward": 0.4821499824523926,
      "reward_std": 0.1300369380041957,
      "rewards/MMContentORM/mean": 0.6559999942779541,
      "rewards/MMContentORM/std": 0.6435462713241578,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 1530,
      "train_speed(iter/s)": 0.083228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.2,
      "completions/mean_length": 214.9875,
      "completions/min_length": 138.0,
      "epoch": 0.7369179068650984,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.22068944573402405,
      "kl": 0.03699951171875,
      "learning_rate": 7.475896702894854e-06,
      "loss": 0.0014766624197363853,
      "memory(GiB)": 27.09,
      "reward": 0.4285499930381775,
      "reward_std": 0.1915552258491516,
      "rewards/MMContentORM/mean": 0.5220000118017196,
      "rewards/MMContentORM/std": 0.6519321262836456,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 1535,
      "train_speed(iter/s)": 0.083241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.8,
      "completions/mean_length": 199.75,
      "completions/min_length": 128.6,
      "epoch": 0.7393182909265482,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.0786973237991333,
      "kl": 0.015472412109375,
      "learning_rate": 7.458633199800562e-06,
      "loss": 0.000618355255573988,
      "memory(GiB)": 27.09,
      "reward": 0.48274998664855956,
      "reward_std": 0.06569022093899549,
      "rewards/MMContentORM/mean": 0.6000000178813935,
      "rewards/MMContentORM/std": 0.5159270875155926,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1540,
      "train_speed(iter/s)": 0.083273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.2,
      "completions/mean_length": 209.1,
      "completions/min_length": 136.6,
      "epoch": 0.741718674987998,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.16483508050441742,
      "kl": 0.019476318359375,
      "learning_rate": 7.4413309530302e-06,
      "loss": 0.0007791164331138134,
      "memory(GiB)": 27.09,
      "reward": 0.4971999883651733,
      "reward_std": 0.17324115931987763,
      "rewards/MMContentORM/mean": 0.6955000162124634,
      "rewards/MMContentORM/std": 0.601590758562088,
      "rewards/MMFormatORM/mean": 0.5912499845027923,
      "rewards/MMFormatORM/std": 0.15600111782550813,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.23944272398948668,
      "step": 1545,
      "train_speed(iter/s)": 0.083282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.8,
      "completions/mean_length": 209.175,
      "completions/min_length": 144.8,
      "epoch": 0.7441190590494479,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11053567379713058,
      "kl": 0.01842041015625,
      "learning_rate": 7.423990235236331e-06,
      "loss": 0.0007370706647634506,
      "memory(GiB)": 27.09,
      "reward": 0.48004999160766604,
      "reward_std": 0.13569379299879075,
      "rewards/MMContentORM/mean": 0.622000002861023,
      "rewards/MMContentORM/std": 0.6143165111541748,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1550,
      "train_speed(iter/s)": 0.083297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.8,
      "completions/mean_length": 203.4375,
      "completions/min_length": 141.0,
      "epoch": 0.7465194431108978,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.10629149526357651,
      "kl": 0.0184814453125,
      "learning_rate": 7.406611319677756e-06,
      "loss": 0.000739166047424078,
      "memory(GiB)": 27.09,
      "reward": 0.4108499825000763,
      "reward_std": 0.200747612118721,
      "rewards/MMContentORM/mean": 0.5065000057220459,
      "rewards/MMContentORM/std": 0.7548076272010803,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 1555,
      "train_speed(iter/s)": 0.083321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 261.2,
      "completions/mean_length": 197.025,
      "completions/min_length": 133.8,
      "epoch": 0.7489198271723476,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1347576528787613,
      "kl": 0.01641845703125,
      "learning_rate": 7.389194480215198e-06,
      "loss": 0.0006570426747202873,
      "memory(GiB)": 27.09,
      "reward": 0.44274998307228086,
      "reward_std": 0.11108647137880326,
      "rewards/MMContentORM/mean": 0.557500010728836,
      "rewards/MMContentORM/std": 0.6644225358963013,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 1560,
      "train_speed(iter/s)": 0.083368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.2,
      "completions/mean_length": 200.275,
      "completions/min_length": 116.2,
      "epoch": 0.7513202112337974,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.12396983802318573,
      "kl": 0.0153076171875,
      "learning_rate": 7.3717399913069995e-06,
      "loss": 0.0006124400533735752,
      "memory(GiB)": 27.09,
      "reward": 0.5360499680042267,
      "reward_std": 0.03330472994130105,
      "rewards/MMContentORM/mean": 0.7045000195503235,
      "rewards/MMContentORM/std": 0.44892730191349983,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1565,
      "train_speed(iter/s)": 0.083404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 431.0,
      "completions/mean_length": 225.5,
      "completions/min_length": 150.2,
      "epoch": 0.7537205952952473,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1431017369031906,
      "kl": 0.017681884765625,
      "learning_rate": 7.354248128004788e-06,
      "loss": 0.000707083148881793,
      "memory(GiB)": 27.09,
      "reward": 0.45769999623298646,
      "reward_std": 0.09899494783021509,
      "rewards/MMContentORM/mean": 0.5805000126361847,
      "rewards/MMContentORM/std": 0.6738178968429566,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 1570,
      "train_speed(iter/s)": 0.083352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.4,
      "completions/mean_length": 211.7625,
      "completions/min_length": 108.4,
      "epoch": 0.7561209793566971,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.11345090717077255,
      "kl": 0.015887451171875,
      "learning_rate": 7.336719165949144e-06,
      "loss": 0.0006354267243295908,
      "memory(GiB)": 27.09,
      "reward": 0.444299989938736,
      "reward_std": 0.14212846513837576,
      "rewards/MMContentORM/mean": 0.5470000028610229,
      "rewards/MMContentORM/std": 0.6608891606330871,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1575,
      "train_speed(iter/s)": 0.083381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.6,
      "completions/mean_length": 209.275,
      "completions/min_length": 143.4,
      "epoch": 0.7585213634181469,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.00587793905287981,
      "kl": 0.0219482421875,
      "learning_rate": 7.319153381365261e-06,
      "loss": 0.0008785548619925976,
      "memory(GiB)": 27.09,
      "reward": 0.5002999901771545,
      "reward_std": 0.13307749554514886,
      "rewards/MMContentORM/mean": 0.6869999945163727,
      "rewards/MMContentORM/std": 0.5800727725028991,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 1580,
      "train_speed(iter/s)": 0.083389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.6,
      "completions/mean_length": 203.225,
      "completions/min_length": 140.6,
      "epoch": 0.7609217474795967,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.20501793920993805,
      "kl": 0.02083740234375,
      "learning_rate": 7.301551051058586e-06,
      "loss": 0.0008345272392034531,
      "memory(GiB)": 27.09,
      "reward": 0.4959499776363373,
      "reward_std": 0.06682158932089806,
      "rewards/MMContentORM/mean": 0.6330000102519989,
      "rewards/MMContentORM/std": 0.5427005112171173,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1585,
      "train_speed(iter/s)": 0.083423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.6,
      "completions/mean_length": 212.8375,
      "completions/min_length": 142.0,
      "epoch": 0.7633221315410466,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.06863018125295639,
      "kl": 0.0158203125,
      "learning_rate": 7.283912452410468e-06,
      "loss": 0.0006327041424810887,
      "memory(GiB)": 27.09,
      "reward": 0.43779999017715454,
      "reward_std": 0.10097484942525625,
      "rewards/MMContentORM/mean": 0.5019999980926514,
      "rewards/MMContentORM/std": 0.6665767431259155,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1590,
      "train_speed(iter/s)": 0.08342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.0,
      "completions/mean_length": 209.3875,
      "completions/min_length": 140.2,
      "epoch": 0.7657225156024964,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.11942637711763382,
      "kl": 0.014971923828125,
      "learning_rate": 7.266237863373772e-06,
      "loss": 0.0005985536612570286,
      "memory(GiB)": 27.09,
      "reward": 0.48544998168945314,
      "reward_std": 0.10486393286846578,
      "rewards/MMContentORM/mean": 0.6105000019073487,
      "rewards/MMContentORM/std": 0.5260161735117436,
      "rewards/MMFormatORM/mean": 0.6218749761581421,
      "rewards/MMFormatORM/std": 0.09190345257520675,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1595,
      "train_speed(iter/s)": 0.083437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.2,
      "completions/mean_length": 201.3875,
      "completions/min_length": 132.4,
      "epoch": 0.7681228996639462,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.07546590268611908,
      "kl": 0.01690673828125,
      "learning_rate": 7.248527562468513e-06,
      "loss": 0.0006768060848116875,
      "memory(GiB)": 27.09,
      "reward": 0.4923499941825867,
      "reward_std": 0.07417550361715257,
      "rewards/MMContentORM/mean": 0.6239999949932098,
      "rewards/MMContentORM/std": 0.5938864171504974,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1600,
      "train_speed(iter/s)": 0.083478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.8,
      "completions/mean_length": 197.5375,
      "completions/min_length": 132.2,
      "epoch": 0.770523283725396,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.007782844360917807,
      "kl": 0.015924072265625,
      "learning_rate": 7.230781828777462e-06,
      "loss": 0.0006374673917889595,
      "memory(GiB)": 27.09,
      "reward": 0.5460999727249145,
      "reward_std": 0.03719381578266621,
      "rewards/MMContentORM/mean": 0.7440000057220459,
      "rewards/MMContentORM/std": 0.44936863109469416,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1605,
      "train_speed(iter/s)": 0.083452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 578.0,
      "completions/mean_length": 221.8625,
      "completions/min_length": 121.6,
      "epoch": 0.7729236677868458,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.005166975781321526,
      "kl": 0.016876220703125,
      "learning_rate": 7.213000941941743e-06,
      "loss": 0.0006743951700627804,
      "memory(GiB)": 27.09,
      "reward": 0.4998499691486359,
      "reward_std": 0.10373256290331483,
      "rewards/MMContentORM/mean": 0.6714999973773956,
      "rewards/MMContentORM/std": 0.600242418050766,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1610,
      "train_speed(iter/s)": 0.08332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 209.65,
      "completions/min_length": 140.8,
      "epoch": 0.7753240518482958,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.07150600850582123,
      "kl": 0.01649169921875,
      "learning_rate": 7.195185182156437e-06,
      "loss": 0.0006602241192013025,
      "memory(GiB)": 27.09,
      "reward": 0.47224998474121094,
      "reward_std": 0.1037325656041503,
      "rewards/MMContentORM/mean": 0.6025000065565109,
      "rewards/MMContentORM/std": 0.5951342463493348,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1615,
      "train_speed(iter/s)": 0.083336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.0,
      "completions/mean_length": 205.8625,
      "completions/min_length": 139.0,
      "epoch": 0.7777244359097456,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15874557197093964,
      "kl": 0.0163330078125,
      "learning_rate": 7.177334830166151e-06,
      "loss": 0.0006535663735121489,
      "memory(GiB)": 27.09,
      "reward": 0.4278499722480774,
      "reward_std": 0.11278353529050947,
      "rewards/MMContentORM/mean": 0.4915000081062317,
      "rewards/MMContentORM/std": 0.6723409533500672,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1620,
      "train_speed(iter/s)": 0.083371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.2,
      "completions/mean_length": 205.5875,
      "completions/min_length": 109.4,
      "epoch": 0.7801248199711954,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.03448270633816719,
      "kl": 0.03670654296875,
      "learning_rate": 7.159450167260613e-06,
      "loss": 0.0014746349304914474,
      "memory(GiB)": 27.09,
      "reward": 0.4049499869346619,
      "reward_std": 0.1109450563788414,
      "rewards/MMContentORM/mean": 0.4629999935626984,
      "rewards/MMContentORM/std": 0.6945199608802796,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.12723276019096375,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.1957427144050598,
      "step": 1625,
      "train_speed(iter/s)": 0.083357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.0,
      "completions/mean_length": 200.1125,
      "completions/min_length": 129.6,
      "epoch": 0.7825252040326452,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.007031524088233709,
      "kl": 0.0147705078125,
      "learning_rate": 7.141531475270227e-06,
      "loss": 0.0005904654040932656,
      "memory(GiB)": 27.09,
      "reward": 0.45404996871948244,
      "reward_std": 0.13682516813278198,
      "rewards/MMContentORM/mean": 0.5569999933242797,
      "rewards/MMContentORM/std": 0.6599100232124329,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1630,
      "train_speed(iter/s)": 0.08337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.0,
      "completions/mean_length": 199.3,
      "completions/min_length": 117.0,
      "epoch": 0.7849255880940951,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.28181007504463196,
      "kl": 0.027081298828125,
      "learning_rate": 7.123579036561634e-06,
      "loss": 0.0010821642354130745,
      "memory(GiB)": 27.09,
      "reward": 0.4140499770641327,
      "reward_std": 0.17317044883966445,
      "rewards/MMContentORM/mean": 0.5144999921321869,
      "rewards/MMContentORM/std": 0.6127165146172047,
      "rewards/MMFormatORM/mean": 0.5768749713897705,
      "rewards/MMFormatORM/std": 0.1856150358915329,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.285561603307724,
      "step": 1635,
      "train_speed(iter/s)": 0.083396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 412.6,
      "completions/mean_length": 211.725,
      "completions/min_length": 125.8,
      "epoch": 0.7873259721555449,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.07750914245843887,
      "kl": 0.03267822265625,
      "learning_rate": 7.1055931340332605e-06,
      "loss": 0.0013033310882747174,
      "memory(GiB)": 27.09,
      "reward": 0.40509998202323916,
      "reward_std": 0.1790394376264885,
      "rewards/MMContentORM/mean": 0.5065000236034394,
      "rewards/MMContentORM/std": 0.7263549327850342,
      "rewards/MMFormatORM/mean": 0.568749976158142,
      "rewards/MMFormatORM/std": 0.1590408891439438,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.24467830061912538,
      "step": 1640,
      "train_speed(iter/s)": 0.083359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/mean_length": 206.0625,
      "completions/min_length": 132.2,
      "epoch": 0.7897263562169947,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.21835249662399292,
      "kl": 0.015789794921875,
      "learning_rate": 7.0875740511108695e-06,
      "loss": 0.0006318403407931328,
      "memory(GiB)": 27.09,
      "reward": 0.39799998998641967,
      "reward_std": 0.1074802316725254,
      "rewards/MMContentORM/mean": 0.4025000035762787,
      "rewards/MMContentORM/std": 0.6922868967056275,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1645,
      "train_speed(iter/s)": 0.083353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.2,
      "completions/mean_length": 210.0875,
      "completions/min_length": 118.4,
      "epoch": 0.7921267402784445,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.18537920713424683,
      "kl": 0.01591796875,
      "learning_rate": 7.06952207174308e-06,
      "loss": 0.0006365090608596802,
      "memory(GiB)": 27.09,
      "reward": 0.47984997630119325,
      "reward_std": 0.14333054379094393,
      "rewards/MMContentORM/mean": 0.6215000152587891,
      "rewards/MMContentORM/std": 0.5664967365562916,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1650,
      "train_speed(iter/s)": 0.083384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.2,
      "completions/mean_length": 217.1375,
      "completions/min_length": 146.6,
      "epoch": 0.7945271243398944,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15769225358963013,
      "kl": 0.020892333984375,
      "learning_rate": 7.051437480396907e-06,
      "loss": 0.0008358799852430821,
      "memory(GiB)": 27.09,
      "reward": 0.4181499779224396,
      "reward_std": 0.16383664608001708,
      "rewards/MMContentORM/mean": 0.4960000038146973,
      "rewards/MMContentORM/std": 0.7032395720481872,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 1655,
      "train_speed(iter/s)": 0.083365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.6,
      "completions/mean_length": 208.675,
      "completions/min_length": 115.8,
      "epoch": 0.7969275084013442,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18478098511695862,
      "kl": 0.014483642578125,
      "learning_rate": 7.03332056205327e-06,
      "loss": 0.0005793534219264984,
      "memory(GiB)": 27.09,
      "reward": 0.4719999849796295,
      "reward_std": 0.09107535546645522,
      "rewards/MMContentORM/mean": 0.5875000059604645,
      "rewards/MMContentORM/std": 0.6219356417655945,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1660,
      "train_speed(iter/s)": 0.083375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 460.6,
      "completions/mean_length": 215.6625,
      "completions/min_length": 116.6,
      "epoch": 0.799327892462794,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.006300389766693115,
      "kl": 0.0181884765625,
      "learning_rate": 7.015171602202502e-06,
      "loss": 0.0007266091182827949,
      "memory(GiB)": 27.09,
      "reward": 0.4193999707698822,
      "reward_std": 0.1954443134367466,
      "rewards/MMContentORM/mean": 0.5135000150650739,
      "rewards/MMContentORM/std": 0.5563328020274639,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.1430424392223358,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.22006530165672303,
      "step": 1665,
      "train_speed(iter/s)": 0.083317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.2,
      "completions/mean_length": 203.8,
      "completions/min_length": 130.6,
      "epoch": 0.8017282765242438,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.11067415028810501,
      "kl": 0.01673583984375,
      "learning_rate": 6.996990886839856e-06,
      "loss": 0.0006691563874483108,
      "memory(GiB)": 27.09,
      "reward": 0.42014997601509096,
      "reward_std": 0.14545186161994933,
      "rewards/MMContentORM/mean": 0.546000012755394,
      "rewards/MMContentORM/std": 0.7207041382789612,
      "rewards/MMFormatORM/mean": 0.5668749928474426,
      "rewards/MMFormatORM/std": 0.2141141563653946,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.3295581638813019,
      "step": 1670,
      "train_speed(iter/s)": 0.083354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.6,
      "completions/mean_length": 203.7,
      "completions/min_length": 150.8,
      "epoch": 0.8041286605856938,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.10222038626670837,
      "kl": 0.014013671875,
      "learning_rate": 6.978778702460994e-06,
      "loss": 0.0005606257822364568,
      "memory(GiB)": 27.09,
      "reward": 0.3979499816894531,
      "reward_std": 0.12621856052428485,
      "rewards/MMContentORM/mean": 0.38800000548362734,
      "rewards/MMContentORM/std": 0.6839123487472534,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1675,
      "train_speed(iter/s)": 0.083378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 277.8,
      "completions/mean_length": 196.65,
      "completions/min_length": 111.2,
      "epoch": 0.8065290446471436,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.15431593358516693,
      "kl": 0.017578125,
      "learning_rate": 6.9605353360574745e-06,
      "loss": 0.0007030891254544258,
      "memory(GiB)": 27.09,
      "reward": 0.4542999804019928,
      "reward_std": 0.09135819002985954,
      "rewards/MMContentORM/mean": 0.5720000088214874,
      "rewards/MMContentORM/std": 0.6552067339420319,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1680,
      "train_speed(iter/s)": 0.083423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.0,
      "completions/mean_length": 207.6375,
      "completions/min_length": 120.4,
      "epoch": 0.8089294287085934,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.19521333277225494,
      "kl": 0.018505859375,
      "learning_rate": 6.9422610751122276e-06,
      "loss": 0.0007405009120702744,
      "memory(GiB)": 27.09,
      "reward": 0.4330499887466431,
      "reward_std": 0.10316687764134258,
      "rewards/MMContentORM/mean": 0.504500013589859,
      "rewards/MMContentORM/std": 0.6536614775657654,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 1685,
      "train_speed(iter/s)": 0.083404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 263.2,
      "completions/mean_length": 188.7375,
      "completions/min_length": 112.4,
      "epoch": 0.8113298127700432,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12136948853731155,
      "kl": 0.01881103515625,
      "learning_rate": 6.923956207595028e-06,
      "loss": 0.000752145517617464,
      "memory(GiB)": 27.09,
      "reward": 0.47574997544288633,
      "reward_std": 0.06710443496704102,
      "rewards/MMContentORM/mean": 0.5825000107288361,
      "rewards/MMContentORM/std": 0.5429187417030334,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1690,
      "train_speed(iter/s)": 0.083447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.6,
      "completions/mean_length": 198.775,
      "completions/min_length": 138.2,
      "epoch": 0.8137301968314931,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.17351680994033813,
      "kl": 0.02083740234375,
      "learning_rate": 6.905621021957953e-06,
      "loss": 0.0008334385231137276,
      "memory(GiB)": 27.09,
      "reward": 0.4406499922275543,
      "reward_std": 0.07785245906561614,
      "rewards/MMContentORM/mean": 0.5235000073909759,
      "rewards/MMContentORM/std": 0.6393161118030548,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 1695,
      "train_speed(iter/s)": 0.083453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.2,
      "completions/mean_length": 199.2375,
      "completions/min_length": 135.0,
      "epoch": 0.8161305808929429,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.15735894441604614,
      "kl": 0.015130615234375,
      "learning_rate": 6.887255807130844e-06,
      "loss": 0.00060483543202281,
      "memory(GiB)": 27.09,
      "reward": 0.479749983549118,
      "reward_std": 0.07672108160331845,
      "rewards/MMContentORM/mean": 0.5925000190734864,
      "rewards/MMContentORM/std": 0.5261063687503338,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1700,
      "train_speed(iter/s)": 0.083481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.8,
      "completions/mean_length": 207.0,
      "completions/min_length": 138.0,
      "epoch": 0.8185309649543927,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.0804097130894661,
      "kl": 0.0136962890625,
      "learning_rate": 6.868860852516742e-06,
      "loss": 0.0005484659224748612,
      "memory(GiB)": 27.09,
      "reward": 0.42814998626708983,
      "reward_std": 0.09652007222175599,
      "rewards/MMContentORM/mean": 0.4634999930858612,
      "rewards/MMContentORM/std": 0.6531470894813538,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1705,
      "train_speed(iter/s)": 0.083426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.2,
      "completions/mean_length": 209.5125,
      "completions/min_length": 132.2,
      "epoch": 0.8209313490158425,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.0899352878332138,
      "kl": 0.017169189453125,
      "learning_rate": 6.85043644798734e-06,
      "loss": 0.0006862088106572628,
      "memory(GiB)": 27.09,
      "reward": 0.38989998400211334,
      "reward_std": 0.15853333994746208,
      "rewards/MMContentORM/mean": 0.41100001335144043,
      "rewards/MMContentORM/std": 0.6764008283615113,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 1710,
      "train_speed(iter/s)": 0.083445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.2,
      "completions/mean_length": 208.825,
      "completions/min_length": 143.2,
      "epoch": 0.8233317330772923,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.18190357089042664,
      "kl": 0.015631103515625,
      "learning_rate": 6.831982883878406e-06,
      "loss": 0.0006255049258470536,
      "memory(GiB)": 27.09,
      "reward": 0.4102999925613403,
      "reward_std": 0.12628926811739802,
      "rewards/MMContentORM/mean": 0.46200000643730166,
      "rewards/MMContentORM/std": 0.688849925994873,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1715,
      "train_speed(iter/s)": 0.083444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 272.4,
      "completions/mean_length": 202.925,
      "completions/min_length": 106.0,
      "epoch": 0.8257321171387422,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2049115151166916,
      "kl": 0.015179443359375,
      "learning_rate": 6.8135004509852135e-06,
      "loss": 0.0006078362464904785,
      "memory(GiB)": 27.09,
      "reward": 0.4344499886035919,
      "reward_std": 0.07756961137056351,
      "rewards/MMContentORM/mean": 0.5080000042915345,
      "rewards/MMContentORM/std": 0.6811013698577881,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1720,
      "train_speed(iter/s)": 0.083479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.4,
      "completions/mean_length": 215.35,
      "completions/min_length": 131.8,
      "epoch": 0.828132501200192,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1609988808631897,
      "kl": 0.01397705078125,
      "learning_rate": 6.794989440557954e-06,
      "loss": 0.0005596654955297709,
      "memory(GiB)": 27.09,
      "reward": 0.45239998698234557,
      "reward_std": 0.08994398396462203,
      "rewards/MMContentORM/mean": 0.5384999930858612,
      "rewards/MMContentORM/std": 0.6075566828250885,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1725,
      "train_speed(iter/s)": 0.083487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 453.0,
      "completions/mean_length": 216.5125,
      "completions/min_length": 127.8,
      "epoch": 0.8305328852616418,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.15101298689842224,
      "kl": 0.016229248046875,
      "learning_rate": 6.776450144297152e-06,
      "loss": 0.0006488990969955921,
      "memory(GiB)": 27.09,
      "reward": 0.4963999569416046,
      "reward_std": 0.10521748885512353,
      "rewards/MMContentORM/mean": 0.6484999895095825,
      "rewards/MMContentORM/std": 0.5765063345432282,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 1730,
      "train_speed(iter/s)": 0.08343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.2,
      "completions/mean_length": 203.075,
      "completions/min_length": 117.8,
      "epoch": 0.8329332693230916,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18309247493743896,
      "kl": 0.03756103515625,
      "learning_rate": 6.757882854349065e-06,
      "loss": 0.0015039796009659768,
      "memory(GiB)": 27.09,
      "reward": 0.47954997420310974,
      "reward_std": 0.07700393050909042,
      "rewards/MMContentORM/mean": 0.5920000076293945,
      "rewards/MMContentORM/std": 0.6195413947105408,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1735,
      "train_speed(iter/s)": 0.083452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.4,
      "completions/mean_length": 209.7625,
      "completions/min_length": 123.6,
      "epoch": 0.8353336533845416,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.16256070137023926,
      "kl": 0.0221435546875,
      "learning_rate": 6.739287863301082e-06,
      "loss": 0.0008845901116728783,
      "memory(GiB)": 27.09,
      "reward": 0.4170499801635742,
      "reward_std": 0.1987677127122879,
      "rewards/MMContentORM/mean": 0.5220000147819519,
      "rewards/MMContentORM/std": 0.6289721466600895,
      "rewards/MMFormatORM/mean": 0.576874977350235,
      "rewards/MMFormatORM/std": 0.17944467663764954,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27606874108314516,
      "step": 1740,
      "train_speed(iter/s)": 0.083476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.2,
      "completions/mean_length": 205.825,
      "completions/min_length": 140.0,
      "epoch": 0.8377340374459914,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.152576744556427,
      "kl": 0.0164794921875,
      "learning_rate": 6.720665464177109e-06,
      "loss": 0.0006592854391783476,
      "memory(GiB)": 27.09,
      "reward": 0.4217999815940857,
      "reward_std": 0.1360473409295082,
      "rewards/MMContentORM/mean": 0.4944999933242798,
      "rewards/MMContentORM/std": 0.6864893198013305,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.16880690604448317,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1745,
      "train_speed(iter/s)": 0.083496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.8,
      "completions/mean_length": 209.375,
      "completions/min_length": 137.4,
      "epoch": 0.8401344215074412,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.20455506443977356,
      "kl": 0.017779541015625,
      "learning_rate": 6.702015950432958e-06,
      "loss": 0.0007104447111487388,
      "memory(GiB)": 27.09,
      "reward": 0.44764997959136965,
      "reward_std": 0.1215516522526741,
      "rewards/MMContentORM/mean": 0.5409999847412109,
      "rewards/MMContentORM/std": 0.6508532583713531,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1750,
      "train_speed(iter/s)": 0.083506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.4,
      "completions/mean_length": 218.05,
      "completions/min_length": 141.4,
      "epoch": 0.842534805568891,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12836699187755585,
      "kl": 0.01434326171875,
      "learning_rate": 6.6833396159517206e-06,
      "loss": 0.0005732546094805002,
      "memory(GiB)": 27.09,
      "reward": 0.49699997901916504,
      "reward_std": 0.08909545510541647,
      "rewards/MMContentORM/mean": 0.650000023841858,
      "rewards/MMContentORM/std": 0.5488846890628338,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1755,
      "train_speed(iter/s)": 0.083526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.4,
      "completions/mean_length": 215.375,
      "completions/min_length": 154.8,
      "epoch": 0.8449351896303409,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.11277302354574203,
      "kl": 0.0169677734375,
      "learning_rate": 6.66463675503913e-06,
      "loss": 0.000678945379331708,
      "memory(GiB)": 27.09,
      "reward": 0.3402999937534332,
      "reward_std": 0.1948786199092865,
      "rewards/MMContentORM/mean": 0.3445000022649765,
      "rewards/MMContentORM/std": 0.7665389060974122,
      "rewards/MMFormatORM/mean": 0.5687499880790711,
      "rewards/MMFormatORM/std": 0.2142127960920334,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.3295581638813019,
      "step": 1760,
      "train_speed(iter/s)": 0.083508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.0,
      "completions/mean_length": 209.9125,
      "completions/min_length": 116.8,
      "epoch": 0.8473355736917907,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1689959019422531,
      "kl": 0.0170654296875,
      "learning_rate": 6.645907662418933e-06,
      "loss": 0.0006823433097451926,
      "memory(GiB)": 27.09,
      "reward": 0.45354996919631957,
      "reward_std": 0.17373612970113755,
      "rewards/MMContentORM/mean": 0.5845000147819519,
      "rewards/MMContentORM/std": 0.6833672761917114,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 1765,
      "train_speed(iter/s)": 0.083507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.8,
      "completions/mean_length": 207.425,
      "completions/min_length": 135.0,
      "epoch": 0.8497359577532405,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1972796618938446,
      "kl": 0.015631103515625,
      "learning_rate": 6.627152633228238e-06,
      "loss": 0.0006257255561649799,
      "memory(GiB)": 27.09,
      "reward": 0.4673499882221222,
      "reward_std": 0.09425733387470245,
      "rewards/MMContentORM/mean": 0.5615000009536744,
      "rewards/MMContentORM/std": 0.6091739594936371,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1770,
      "train_speed(iter/s)": 0.08352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.2,
      "completions/mean_length": 213.6875,
      "completions/min_length": 140.4,
      "epoch": 0.8521363418146903,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.12356596440076828,
      "kl": 0.020318603515625,
      "learning_rate": 6.608371963012872e-06,
      "loss": 0.00081367501989007,
      "memory(GiB)": 27.09,
      "reward": 0.3578499734401703,
      "reward_std": 0.21842527836561204,
      "rewards/MMContentORM/mean": 0.4065000042319298,
      "rewards/MMContentORM/std": 0.7466981053352356,
      "rewards/MMFormatORM/mean": 0.5568749845027924,
      "rewards/MMFormatORM/std": 0.19573256969451905,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.30068787932395935,
      "step": 1775,
      "train_speed(iter/s)": 0.083538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 218.6375,
      "completions/min_length": 138.6,
      "epoch": 0.8545367258761402,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.0733184739947319,
      "kl": 0.01422119140625,
      "learning_rate": 6.589565947722711e-06,
      "loss": 0.0005693596322089434,
      "memory(GiB)": 27.09,
      "reward": 0.5736999750137329,
      "reward_std": 0.06547808428294957,
      "rewards/MMContentORM/mean": 0.8130000233650208,
      "rewards/MMContentORM/std": 0.38130461126565934,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 1780,
      "train_speed(iter/s)": 0.08354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 469.0,
      "completions/mean_length": 224.125,
      "completions/min_length": 131.4,
      "epoch": 0.85693710993759,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.12514179944992065,
      "kl": 0.017791748046875,
      "learning_rate": 6.570734883707036e-06,
      "loss": 0.0007113578729331493,
      "memory(GiB)": 27.09,
      "reward": 0.45974999070167544,
      "reward_std": 0.15931115644052624,
      "rewards/MMContentORM/mean": 0.6,
      "rewards/MMContentORM/std": 0.6618961155414581,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 1785,
      "train_speed(iter/s)": 0.083463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.0,
      "completions/mean_length": 212.8,
      "completions/min_length": 120.2,
      "epoch": 0.8593374939990398,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.20723937451839447,
      "kl": 0.01754150390625,
      "learning_rate": 6.5518790677098385e-06,
      "loss": 0.0007023832760751248,
      "memory(GiB)": 27.09,
      "reward": 0.4733999729156494,
      "reward_std": 0.12190521762240678,
      "rewards/MMContentORM/mean": 0.5909999907016754,
      "rewards/MMContentORM/std": 0.6185662746429443,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1790,
      "train_speed(iter/s)": 0.083484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 367.8,
      "completions/mean_length": 220.6125,
      "completions/min_length": 132.4,
      "epoch": 0.8617378780604896,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1408216804265976,
      "kl": 0.013970947265625,
      "learning_rate": 6.532998796865169e-06,
      "loss": 0.0005585259757936,
      "memory(GiB)": 27.09,
      "reward": 0.4389999687671661,
      "reward_std": 0.0987121019512415,
      "rewards/MMContentORM/mean": 0.5050000041723252,
      "rewards/MMContentORM/std": 0.6495143830776214,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1795,
      "train_speed(iter/s)": 0.083474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.2,
      "completions/mean_length": 207.2125,
      "completions/min_length": 116.4,
      "epoch": 0.8641382621219396,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.26537343859672546,
      "kl": 0.01622314453125,
      "learning_rate": 6.5140943686924316e-06,
      "loss": 0.0006490823347121477,
      "memory(GiB)": 27.09,
      "reward": 0.4860499739646912,
      "reward_std": 0.1266428239643574,
      "rewards/MMContentORM/mean": 0.6245000183582305,
      "rewards/MMContentORM/std": 0.5797793388366699,
      "rewards/MMFormatORM/mean": 0.6156249880790711,
      "rewards/MMFormatORM/std": 0.13036334812641143,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 1800,
      "train_speed(iter/s)": 0.083505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.8,
      "completions/mean_length": 209.7875,
      "completions/min_length": 118.0,
      "epoch": 0.8665386461833894,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.08358591049909592,
      "kl": 0.01490478515625,
      "learning_rate": 6.495166081091716e-06,
      "loss": 0.0005963623523712158,
      "memory(GiB)": 27.09,
      "reward": 0.4978999674320221,
      "reward_std": 0.05218447903171182,
      "rewards/MMContentORM/mean": 0.623499995470047,
      "rewards/MMContentORM/std": 0.543954461812973,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1805,
      "train_speed(iter/s)": 0.083454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.2,
      "completions/mean_length": 210.3375,
      "completions/min_length": 136.0,
      "epoch": 0.8689390302448392,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.16976818442344666,
      "kl": 0.014532470703125,
      "learning_rate": 6.476214232339088e-06,
      "loss": 0.0005812739953398704,
      "memory(GiB)": 27.09,
      "reward": 0.3728999882936478,
      "reward_std": 0.1367544449865818,
      "rewards/MMContentORM/mean": 0.36850000321865084,
      "rewards/MMContentORM/std": 0.7042155861854553,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 1810,
      "train_speed(iter/s)": 0.083466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.6,
      "completions/mean_length": 202.7375,
      "completions/min_length": 110.6,
      "epoch": 0.871339414306289,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13253819942474365,
      "kl": 0.02115478515625,
      "learning_rate": 6.457239121081898e-06,
      "loss": 0.0008474783971905708,
      "memory(GiB)": 27.09,
      "reward": 0.4685999810695648,
      "reward_std": 0.10832875426858664,
      "rewards/MMContentORM/mean": 0.5790000200271607,
      "rewards/MMContentORM/std": 0.600553035736084,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 1815,
      "train_speed(iter/s)": 0.083464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.0,
      "completions/mean_length": 201.4625,
      "completions/min_length": 92.6,
      "epoch": 0.8737397983677389,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.22328393161296844,
      "kl": 0.03316650390625,
      "learning_rate": 6.43824104633407e-06,
      "loss": 0.0013257008045911788,
      "memory(GiB)": 27.09,
      "reward": 0.4241999924182892,
      "reward_std": 0.20619233280885965,
      "rewards/MMContentORM/mean": 0.5254999876022339,
      "rewards/MMContentORM/std": 0.6518503844738006,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.16980934143066406,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2612451553344727,
      "step": 1820,
      "train_speed(iter/s)": 0.083486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.8,
      "completions/mean_length": 211.9125,
      "completions/min_length": 138.2,
      "epoch": 0.8761401824291887,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.13617774844169617,
      "kl": 0.0123046875,
      "learning_rate": 6.419220307471395e-06,
      "loss": 0.0004924539476633072,
      "memory(GiB)": 27.09,
      "reward": 0.5035999953746796,
      "reward_std": 0.07198347002267838,
      "rewards/MMContentORM/mean": 0.6665000081062317,
      "rewards/MMContentORM/std": 0.6048071205615997,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1825,
      "train_speed(iter/s)": 0.083493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.6,
      "completions/mean_length": 208.5125,
      "completions/min_length": 145.6,
      "epoch": 0.8785405664906385,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.10531944036483765,
      "kl": 0.013299560546875,
      "learning_rate": 6.400177204226809e-06,
      "loss": 0.0005324467085301877,
      "memory(GiB)": 27.09,
      "reward": 0.5384999752044678,
      "reward_std": 0.06321534756571054,
      "rewards/MMContentORM/mean": 0.725,
      "rewards/MMContentORM/std": 0.5201015174388885,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1830,
      "train_speed(iter/s)": 0.083512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.0,
      "completions/mean_length": 208.0375,
      "completions/min_length": 131.2,
      "epoch": 0.8809409505520883,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.3434266448020935,
      "kl": 0.020574951171875,
      "learning_rate": 6.381112036685666e-06,
      "loss": 0.0008229421451687813,
      "memory(GiB)": 27.09,
      "reward": 0.42379998564720156,
      "reward_std": 0.10040915869176388,
      "rewards/MMContentORM/mean": 0.46700001060962676,
      "rewards/MMContentORM/std": 0.6455421566963195,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1835,
      "train_speed(iter/s)": 0.08351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 485.6,
      "completions/mean_length": 216.975,
      "completions/min_length": 137.4,
      "epoch": 0.8833413346135381,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17209282517433167,
      "kl": 0.0139007568359375,
      "learning_rate": 6.36202510528102e-06,
      "loss": 0.0005555123090744019,
      "memory(GiB)": 27.09,
      "reward": 0.475549989938736,
      "reward_std": 0.09567154424730688,
      "rewards/MMContentORM/mean": 0.5819999992847442,
      "rewards/MMContentORM/std": 0.6257418870925904,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1840,
      "train_speed(iter/s)": 0.08343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 367.4,
      "completions/mean_length": 212.0,
      "completions/min_length": 143.4,
      "epoch": 0.885741718674988,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.20552751421928406,
      "kl": 0.0138427734375,
      "learning_rate": 6.342916710788882e-06,
      "loss": 0.0005536759272217751,
      "memory(GiB)": 27.09,
      "reward": 0.4509999692440033,
      "reward_std": 0.11624835580587387,
      "rewards/MMContentORM/mean": 0.5349999845027924,
      "rewards/MMContentORM/std": 0.6666475296020508,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 1845,
      "train_speed(iter/s)": 0.083409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.4,
      "completions/mean_length": 212.4875,
      "completions/min_length": 132.4,
      "epoch": 0.8881421027364378,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.14356966316699982,
      "kl": 0.012799072265625,
      "learning_rate": 6.323787154323484e-06,
      "loss": 0.0005117998458445072,
      "memory(GiB)": 27.09,
      "reward": 0.5021499991416931,
      "reward_std": 0.08520636514294892,
      "rewards/MMContentORM/mean": 0.6485000073909759,
      "rewards/MMContentORM/std": 0.5814681231975556,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1850,
      "train_speed(iter/s)": 0.083424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 211.4875,
      "completions/min_length": 145.2,
      "epoch": 0.8905424867978876,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.07189600169658661,
      "kl": 0.014239501953125,
      "learning_rate": 6.304636737332534e-06,
      "loss": 0.0005696343258023262,
      "memory(GiB)": 27.09,
      "reward": 0.42489999532699585,
      "reward_std": 0.13166328519582748,
      "rewards/MMContentORM/mean": 0.4985000014305115,
      "rewards/MMContentORM/std": 0.6740443706512451,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 1855,
      "train_speed(iter/s)": 0.083428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/mean_length": 200.425,
      "completions/min_length": 128.0,
      "epoch": 0.8929428708593375,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12281981855630875,
      "kl": 0.016815185546875,
      "learning_rate": 6.285465761592459e-06,
      "loss": 0.0006720408797264099,
      "memory(GiB)": 27.09,
      "reward": 0.485349977016449,
      "reward_std": 0.06371032111346722,
      "rewards/MMContentORM/mean": 0.5940000057220459,
      "rewards/MMContentORM/std": 0.5279915370047092,
      "rewards/MMFormatORM/mean": 0.6318749785423279,
      "rewards/MMFormatORM/std": 0.06536335051059723,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1860,
      "train_speed(iter/s)": 0.083449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 387.2,
      "completions/mean_length": 224.4125,
      "completions/min_length": 148.8,
      "epoch": 0.8953432549207874,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.09118235856294632,
      "kl": 0.0157958984375,
      "learning_rate": 6.266274529203663e-06,
      "loss": 0.0006318187341094017,
      "memory(GiB)": 27.09,
      "reward": 0.50444997549057,
      "reward_std": 0.06908432939089834,
      "rewards/MMContentORM/mean": 0.6829999923706055,
      "rewards/MMContentORM/std": 0.4913133792579174,
      "rewards/MMFormatORM/mean": 0.6093749821186065,
      "rewards/MMFormatORM/std": 0.09063776731491088,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.1394427239894867,
      "step": 1865,
      "train_speed(iter/s)": 0.083431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 524.6,
      "completions/mean_length": 226.525,
      "completions/min_length": 128.0,
      "epoch": 0.8977436389822372,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.10997837036848068,
      "kl": 0.01796875,
      "learning_rate": 6.247063342585753e-06,
      "loss": 0.0007188735064119101,
      "memory(GiB)": 27.09,
      "reward": 0.45734997391700744,
      "reward_std": 0.12932982593774794,
      "rewards/MMContentORM/mean": 0.5939999997615815,
      "rewards/MMContentORM/std": 0.6364952743053436,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 1870,
      "train_speed(iter/s)": 0.083354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/mean_length": 196.575,
      "completions/min_length": 120.2,
      "epoch": 0.900144023043687,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.15118958055973053,
      "kl": 0.0134521484375,
      "learning_rate": 6.227832504472782e-06,
      "loss": 0.0005381078924983739,
      "memory(GiB)": 27.09,
      "reward": 0.4734999716281891,
      "reward_std": 0.060104073002003135,
      "rewards/MMContentORM/mean": 0.5625000059604645,
      "rewards/MMContentORM/std": 0.6234762132167816,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1875,
      "train_speed(iter/s)": 0.083341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 204.7375,
      "completions/min_length": 124.2,
      "epoch": 0.9025444071051368,
      "frac_reward_zero_std": 0.85,
      "grad_norm": 0.07756619155406952,
      "kl": 0.014874267578125,
      "learning_rate": 6.208582317908473e-06,
      "loss": 0.000595169048756361,
      "memory(GiB)": 27.09,
      "reward": 0.49734997749328613,
      "reward_std": 0.06653874590992928,
      "rewards/MMContentORM/mean": 0.6364999890327454,
      "rewards/MMContentORM/std": 0.5963007152080536,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1880,
      "train_speed(iter/s)": 0.083348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.0,
      "completions/mean_length": 205.8,
      "completions/min_length": 96.0,
      "epoch": 0.9049447911665867,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.17429836094379425,
      "kl": 0.018310546875,
      "learning_rate": 6.1893130862414506e-06,
      "loss": 0.0007323648314923048,
      "memory(GiB)": 27.09,
      "reward": 0.48079999089241027,
      "reward_std": 0.029981326917186378,
      "rewards/MMContentORM/mean": 0.551999980211258,
      "rewards/MMContentORM/std": 0.5579077005386353,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 1885,
      "train_speed(iter/s)": 0.08336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.2,
      "completions/mean_length": 206.85,
      "completions/min_length": 128.4,
      "epoch": 0.9073451752280365,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.011451794765889645,
      "kl": 0.0149658203125,
      "learning_rate": 6.1700251131204525e-06,
      "loss": 0.0005986175034195185,
      "memory(GiB)": 27.09,
      "reward": 0.5000999927520752,
      "reward_std": 0.08075158959254622,
      "rewards/MMContentORM/mean": 0.6290000021457672,
      "rewards/MMContentORM/std": 0.5125225283205509,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1890,
      "train_speed(iter/s)": 0.08337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/mean_length": 192.5375,
      "completions/min_length": 97.6,
      "epoch": 0.9097455592894863,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.3059964179992676,
      "kl": 0.030767822265625,
      "learning_rate": 6.1507187024895475e-06,
      "loss": 0.0012321647256612778,
      "memory(GiB)": 27.09,
      "reward": 0.4602999806404114,
      "reward_std": 0.14212846592999995,
      "rewards/MMContentORM/mean": 0.5870000183582306,
      "rewards/MMContentORM/std": 0.6352852940559387,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 1895,
      "train_speed(iter/s)": 0.083396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.6,
      "completions/mean_length": 197.9125,
      "completions/min_length": 130.6,
      "epoch": 0.9121459433509361,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.16474473476409912,
      "kl": 0.014501953125,
      "learning_rate": 6.131394158583351e-06,
      "loss": 0.0005803803913295269,
      "memory(GiB)": 27.09,
      "reward": 0.421099978685379,
      "reward_std": 0.1438255153596401,
      "rewards/MMContentORM/mean": 0.489000004529953,
      "rewards/MMContentORM/std": 0.6867013454437256,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 1900,
      "train_speed(iter/s)": 0.083417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.6,
      "completions/mean_length": 209.8875,
      "completions/min_length": 146.2,
      "epoch": 0.914546327412386,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12378682941198349,
      "kl": 0.01851806640625,
      "learning_rate": 6.112051785922221e-06,
      "loss": 0.0007428077049553394,
      "memory(GiB)": 27.09,
      "reward": 0.4398999661207199,
      "reward_std": 0.09984347894787789,
      "rewards/MMContentORM/mean": 0.5235000193119049,
      "rewards/MMContentORM/std": 0.6574730277061462,
      "rewards/MMFormatORM/mean": 0.6074999928474426,
      "rewards/MMFormatORM/std": 0.12490466833114625,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 1905,
      "train_speed(iter/s)": 0.083366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 474.0,
      "completions/mean_length": 222.4625,
      "completions/min_length": 128.4,
      "epoch": 0.9169467114738358,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1761566698551178,
      "kl": 0.013580322265625,
      "learning_rate": 6.092691889307469e-06,
      "loss": 0.0005431583616882562,
      "memory(GiB)": 27.09,
      "reward": 0.48289998769760134,
      "reward_std": 0.14580541402101516,
      "rewards/MMContentORM/mean": 0.631000018119812,
      "rewards/MMContentORM/std": 0.6453944146633148,
      "rewards/MMFormatORM/mean": 0.6074999928474426,
      "rewards/MMFormatORM/std": 0.14940344989299775,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 1910,
      "train_speed(iter/s)": 0.083304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 258.4,
      "completions/mean_length": 194.9,
      "completions/min_length": 118.0,
      "epoch": 0.9193470955352856,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09627247601747513,
      "kl": 0.017974853515625,
      "learning_rate": 6.073314773816553e-06,
      "loss": 0.0007188072893768549,
      "memory(GiB)": 27.09,
      "reward": 0.5188999831676483,
      "reward_std": 0.05529574886895716,
      "rewards/MMContentORM/mean": 0.6759999990463257,
      "rewards/MMContentORM/std": 0.5570424318313598,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1915,
      "train_speed(iter/s)": 0.083336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.4,
      "completions/mean_length": 201.7375,
      "completions/min_length": 143.8,
      "epoch": 0.9217474795967355,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1766253411769867,
      "kl": 0.016607666015625,
      "learning_rate": 6.053920744798267e-06,
      "loss": 0.0006644959561526775,
      "memory(GiB)": 27.09,
      "reward": 0.5365999698638916,
      "reward_std": 0.04567909436300397,
      "rewards/MMContentORM/mean": 0.7490000247955322,
      "rewards/MMContentORM/std": 0.5337904691696167,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 1920,
      "train_speed(iter/s)": 0.08337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.4,
      "completions/mean_length": 205.6875,
      "completions/min_length": 146.4,
      "epoch": 0.9241478636581854,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17899306118488312,
      "kl": 0.017431640625,
      "learning_rate": 6.034510107867933e-06,
      "loss": 0.0006970945280045271,
      "memory(GiB)": 27.09,
      "reward": 0.417499977350235,
      "reward_std": 0.1641901969909668,
      "rewards/MMContentORM/mean": 0.47999998927116394,
      "rewards/MMContentORM/std": 0.6940834045410156,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 1925,
      "train_speed(iter/s)": 0.083381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 443.6,
      "completions/mean_length": 226.2625,
      "completions/min_length": 141.4,
      "epoch": 0.9265482477196352,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.10172195732593536,
      "kl": 0.0140380859375,
      "learning_rate": 6.015083168902586e-06,
      "loss": 0.0005614136345684529,
      "memory(GiB)": 27.09,
      "reward": 0.4858999788761139,
      "reward_std": 0.08160012271255254,
      "rewards/MMContentORM/mean": 0.5935000061988831,
      "rewards/MMContentORM/std": 0.6041896402835846,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1930,
      "train_speed(iter/s)": 0.083321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.2,
      "completions/mean_length": 207.8375,
      "completions/min_length": 122.4,
      "epoch": 0.928948631781085,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11313877999782562,
      "kl": 0.015618896484375,
      "learning_rate": 5.995640234036149e-06,
      "loss": 0.0006248398683965206,
      "memory(GiB)": 27.09,
      "reward": 0.4472499847412109,
      "reward_std": 0.08761052712798119,
      "rewards/MMContentORM/mean": 0.5150000095367432,
      "rewards/MMContentORM/std": 0.6490139365196228,
      "rewards/MMFormatORM/mean": 0.6218749761581421,
      "rewards/MMFormatORM/std": 0.09190345257520675,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 1935,
      "train_speed(iter/s)": 0.083355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.0,
      "completions/mean_length": 210.6625,
      "completions/min_length": 144.2,
      "epoch": 0.9313490158425348,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.16516950726509094,
      "kl": 0.0192626953125,
      "learning_rate": 5.9761816096546135e-06,
      "loss": 0.0007695911917835474,
      "memory(GiB)": 27.09,
      "reward": 0.5396999716758728,
      "reward_std": 0.05034599886275828,
      "rewards/MMContentORM/mean": 0.715500009059906,
      "rewards/MMContentORM/std": 0.4298131003975868,
      "rewards/MMFormatORM/mean": 0.6399999856948853,
      "rewards/MMFormatORM/std": 0.03999999761581421,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1940,
      "train_speed(iter/s)": 0.08336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.6,
      "completions/mean_length": 206.6875,
      "completions/min_length": 145.4,
      "epoch": 0.9337493999039846,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07769346237182617,
      "kl": 0.01458740234375,
      "learning_rate": 5.956707602391209e-06,
      "loss": 0.0005837498232722282,
      "memory(GiB)": 27.09,
      "reward": 0.5033499836921692,
      "reward_std": 0.04334564357995987,
      "rewards/MMContentORM/mean": 0.6265000075101852,
      "rewards/MMContentORM/std": 0.4830021485686302,
      "rewards/MMFormatORM/mean": 0.6381249785423279,
      "rewards/MMFormatORM/std": 0.04749999791383743,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1945,
      "train_speed(iter/s)": 0.083377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.2,
      "completions/mean_length": 206.6125,
      "completions/min_length": 136.2,
      "epoch": 0.9361497839654345,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.2008439302444458,
      "kl": 0.015899658203125,
      "learning_rate": 5.937218519121575e-06,
      "loss": 0.0006357332691550255,
      "memory(GiB)": 27.09,
      "reward": 0.5125499844551087,
      "reward_std": 0.06936717720236629,
      "rewards/MMContentORM/mean": 0.6745000123977661,
      "rewards/MMContentORM/std": 0.5375838339328766,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1950,
      "train_speed(iter/s)": 0.083384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.6,
      "completions/mean_length": 209.15,
      "completions/min_length": 121.4,
      "epoch": 0.9385501680268843,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.006351741962134838,
      "kl": 0.013763427734375,
      "learning_rate": 5.917714666958917e-06,
      "loss": 0.0005507726222276687,
      "memory(GiB)": 27.09,
      "reward": 0.5436999797821045,
      "reward_std": 0.04624478132463992,
      "rewards/MMContentORM/mean": 0.7380000114440918,
      "rewards/MMContentORM/std": 0.4596146807074547,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 1955,
      "train_speed(iter/s)": 0.083393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.4,
      "completions/mean_length": 200.225,
      "completions/min_length": 137.2,
      "epoch": 0.9409505520883341,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.11096161603927612,
      "kl": 0.01678466796875,
      "learning_rate": 5.8981963532491746e-06,
      "loss": 0.000671281386166811,
      "memory(GiB)": 27.09,
      "reward": 0.47979997396469115,
      "reward_std": 0.06363960476592183,
      "rewards/MMContentORM/mean": 0.6070000171661377,
      "rewards/MMContentORM/std": 0.6155083239078522,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 1960,
      "train_speed(iter/s)": 0.083427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.4,
      "completions/mean_length": 217.85,
      "completions/min_length": 153.4,
      "epoch": 0.9433509361497839,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1260797083377838,
      "kl": 0.01507568359375,
      "learning_rate": 5.878663885566178e-06,
      "loss": 0.0006023185327649116,
      "memory(GiB)": 27.09,
      "reward": 0.49534996747970583,
      "reward_std": 0.09369164705276489,
      "rewards/MMContentORM/mean": 0.6315000057220459,
      "rewards/MMContentORM/std": 0.604107654094696,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1965,
      "train_speed(iter/s)": 0.083409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 271.8,
      "completions/mean_length": 201.225,
      "completions/min_length": 153.8,
      "epoch": 0.9457513202112338,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.15319658815860748,
      "kl": 0.017413330078125,
      "learning_rate": 5.859117571706791e-06,
      "loss": 0.0006967600900679826,
      "memory(GiB)": 27.09,
      "reward": 0.5093499839305877,
      "reward_std": 0.07728676870465279,
      "rewards/MMContentORM/mean": 0.6664999902248383,
      "rewards/MMContentORM/std": 0.5927111029624939,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 1970,
      "train_speed(iter/s)": 0.083437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 212.5125,
      "completions/min_length": 143.6,
      "epoch": 0.9481517042726836,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.21331176161766052,
      "kl": 0.014532470703125,
      "learning_rate": 5.83955771968608e-06,
      "loss": 0.0005808803252875805,
      "memory(GiB)": 27.09,
      "reward": 0.5360999882221222,
      "reward_std": 0.05642712083645165,
      "rewards/MMContentORM/mean": 0.7190000295639039,
      "rewards/MMContentORM/std": 0.4764695011079311,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 1975,
      "train_speed(iter/s)": 0.083446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.4,
      "completions/mean_length": 208.9375,
      "completions/min_length": 147.0,
      "epoch": 0.9505520883341335,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12605807185173035,
      "kl": 0.015679931640625,
      "learning_rate": 5.819984637732436e-06,
      "loss": 0.0006278078071773052,
      "memory(GiB)": 27.09,
      "reward": 0.5486499905586243,
      "reward_std": 0.03471893714740872,
      "rewards/MMContentORM/mean": 0.7360000014305115,
      "rewards/MMContentORM/std": 0.49632705450057985,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1980,
      "train_speed(iter/s)": 0.083456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.0,
      "completions/mean_length": 218.3625,
      "completions/min_length": 130.4,
      "epoch": 0.9529524723955833,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.10039184242486954,
      "kl": 0.015283203125,
      "learning_rate": 5.80039863428274e-06,
      "loss": 0.0006117623299360276,
      "memory(GiB)": 27.09,
      "reward": 0.548499995470047,
      "reward_std": 0.08810550635680556,
      "rewards/MMContentORM/mean": 0.7500000119209289,
      "rewards/MMContentORM/std": 0.4995552241802216,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 1985,
      "train_speed(iter/s)": 0.083456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.6,
      "completions/mean_length": 206.6,
      "completions/min_length": 143.0,
      "epoch": 0.9553528564570332,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.16859173774719238,
      "kl": 0.015777587890625,
      "learning_rate": 5.780800017977491e-06,
      "loss": 0.0006312967278063297,
      "memory(GiB)": 27.09,
      "reward": 0.5292499780654907,
      "reward_std": 0.04065863774158061,
      "rewards/MMContentORM/mean": 0.6875,
      "rewards/MMContentORM/std": 0.5327123403549194,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 1990,
      "train_speed(iter/s)": 0.083474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 211.175,
      "completions/min_length": 141.4,
      "epoch": 0.957753240518483,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.06966093927621841,
      "kl": 0.020062255859375,
      "learning_rate": 5.761189097655937e-06,
      "loss": 0.0008020093664526939,
      "memory(GiB)": 27.09,
      "reward": 0.43149998784065247,
      "reward_std": 0.10479322522878647,
      "rewards/MMContentORM/mean": 0.5149999976158142,
      "rewards/MMContentORM/std": 0.6905157566070557,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 1995,
      "train_speed(iter/s)": 0.083493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.2,
      "completions/mean_length": 213.875,
      "completions/min_length": 141.2,
      "epoch": 0.9601536245799328,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.13645286858081818,
      "kl": 0.019488525390625,
      "learning_rate": 5.7415661823512245e-06,
      "loss": 0.0007798057049512863,
      "memory(GiB)": 27.09,
      "reward": 0.46374998688697816,
      "reward_std": 0.17232191623188556,
      "rewards/MMContentORM/mean": 0.6100000143051147,
      "rewards/MMContentORM/std": 0.59096859395504,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2000,
      "train_speed(iter/s)": 0.083497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.4,
      "completions/mean_length": 209.8375,
      "completions/min_length": 144.2,
      "epoch": 0.9625540086413826,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10858377814292908,
      "kl": 0.017437744140625,
      "learning_rate": 5.721931581285514e-06,
      "loss": 0.000697833951562643,
      "memory(GiB)": 27.09,
      "reward": 0.4571499764919281,
      "reward_std": 0.1461589643266052,
      "rewards/MMContentORM/mean": 0.5935000061988831,
      "rewards/MMContentORM/std": 0.6896682381629944,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2005,
      "train_speed(iter/s)": 0.08346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.2,
      "completions/mean_length": 212.15,
      "completions/min_length": 127.2,
      "epoch": 0.9649543927028325,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.22721628844738007,
      "kl": 0.016845703125,
      "learning_rate": 5.702285603865115e-06,
      "loss": 0.0006736557465046644,
      "memory(GiB)": 27.09,
      "reward": 0.5219999849796295,
      "reward_std": 0.10691454559564591,
      "rewards/MMContentORM/mean": 0.7125000119209289,
      "rewards/MMContentORM/std": 0.590934443473816,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2010,
      "train_speed(iter/s)": 0.083488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.0,
      "completions/mean_length": 216.8,
      "completions/min_length": 152.2,
      "epoch": 0.9673547767642823,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15032155811786652,
      "kl": 0.01512451171875,
      "learning_rate": 5.682628559675609e-06,
      "loss": 0.0006046965718269348,
      "memory(GiB)": 27.09,
      "reward": 0.4427499771118164,
      "reward_std": 0.07700392529368401,
      "rewards/MMContentORM/mean": 0.4999999850988388,
      "rewards/MMContentORM/std": 0.6438470005989074,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2015,
      "train_speed(iter/s)": 0.083505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.4,
      "completions/mean_length": 219.5875,
      "completions/min_length": 122.4,
      "epoch": 0.9697551608257321,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17557469010353088,
      "kl": 0.015576171875,
      "learning_rate": 5.662960758476965e-06,
      "loss": 0.0006231794133782387,
      "memory(GiB)": 27.09,
      "reward": 0.5015999853610993,
      "reward_std": 0.08145869905129074,
      "rewards/MMContentORM/mean": 0.6490000009536743,
      "rewards/MMContentORM/std": 0.5806757628917694,
      "rewards/MMFormatORM/mean": 0.6237499833106994,
      "rewards/MMFormatORM/std": 0.08440345227718353,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2020,
      "train_speed(iter/s)": 0.083499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/mean_length": 211.525,
      "completions/min_length": 150.0,
      "epoch": 0.9721555448871819,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1798633337020874,
      "kl": 0.016705322265625,
      "learning_rate": 5.6432825101986725e-06,
      "loss": 0.0006679143756628036,
      "memory(GiB)": 27.09,
      "reward": 0.49559998512268066,
      "reward_std": 0.12614785209298135,
      "rewards/MMContentORM/mean": 0.6465000152587891,
      "rewards/MMContentORM/std": 0.632487416267395,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2025,
      "train_speed(iter/s)": 0.083521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 212.1125,
      "completions/min_length": 137.8,
      "epoch": 0.9745559289486317,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.09048443287611008,
      "kl": 0.01593017578125,
      "learning_rate": 5.623594124934836e-06,
      "loss": 0.0006376095581799746,
      "memory(GiB)": 27.09,
      "reward": 0.5258999943733216,
      "reward_std": 0.03973939623683691,
      "rewards/MMContentORM/mean": 0.6935000121593475,
      "rewards/MMContentORM/std": 0.48069806694984435,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2030,
      "train_speed(iter/s)": 0.083527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 439.4,
      "completions/mean_length": 219.675,
      "completions/min_length": 147.2,
      "epoch": 0.9769563130100816,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.13792569935321808,
      "kl": 0.01651611328125,
      "learning_rate": 5.603895912939312e-06,
      "loss": 0.0006604710128158331,
      "memory(GiB)": 27.09,
      "reward": 0.41819998621940613,
      "reward_std": 0.08061017030850053,
      "rewards/MMContentORM/mean": 0.453000009059906,
      "rewards/MMContentORM/std": 0.6981132864952088,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2035,
      "train_speed(iter/s)": 0.083488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 390.4,
      "completions/mean_length": 225.675,
      "completions/min_length": 144.2,
      "epoch": 0.9793566970715314,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1497989296913147,
      "kl": 0.01591796875,
      "learning_rate": 5.584188184620803e-06,
      "loss": 0.0006368092261254787,
      "memory(GiB)": 27.09,
      "reward": 0.43914997577667236,
      "reward_std": 0.12904698103666307,
      "rewards/MMContentORM/mean": 0.5485000073909759,
      "rewards/MMContentORM/std": 0.6871413588523865,
      "rewards/MMFormatORM/mean": 0.5931249976158142,
      "rewards/MMFormatORM/std": 0.18240466713905334,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2806225776672363,
      "step": 2040,
      "train_speed(iter/s)": 0.083459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.4,
      "completions/mean_length": 220.75,
      "completions/min_length": 157.8,
      "epoch": 0.9817570811329813,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.13917264342308044,
      "kl": 0.01572265625,
      "learning_rate": 5.564471250537974e-06,
      "loss": 0.0006287385243922472,
      "memory(GiB)": 27.09,
      "reward": 0.4864999830722809,
      "reward_std": 0.07113494109362364,
      "rewards/MMContentORM/mean": 0.5950000047683716,
      "rewards/MMContentORM/std": 0.5641628682613373,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 2045,
      "train_speed(iter/s)": 0.083475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.2,
      "completions/mean_length": 207.475,
      "completions/min_length": 135.4,
      "epoch": 0.9841574651944311,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.14633502066135406,
      "kl": 0.01990966796875,
      "learning_rate": 5.544745421394554e-06,
      "loss": 0.0007959839887917042,
      "memory(GiB)": 27.09,
      "reward": 0.5193999826908111,
      "reward_std": 0.10493464283645153,
      "rewards/MMContentORM/mean": 0.7060000181198121,
      "rewards/MMContentORM/std": 0.5711513638496399,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2050,
      "train_speed(iter/s)": 0.083485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.4,
      "completions/mean_length": 219.575,
      "completions/min_length": 128.2,
      "epoch": 0.986557849255881,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14857056736946106,
      "kl": 0.01473388671875,
      "learning_rate": 5.525011008034444e-06,
      "loss": 0.00058915582485497,
      "memory(GiB)": 27.09,
      "reward": 0.44309998750686647,
      "reward_std": 0.08216580655425787,
      "rewards/MMContentORM/mean": 0.4865000069141388,
      "rewards/MMContentORM/std": 0.6088324308395385,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 2055,
      "train_speed(iter/s)": 0.083477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.8,
      "completions/mean_length": 202.225,
      "completions/min_length": 140.0,
      "epoch": 0.9889582333173308,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.2547079622745514,
      "kl": 0.01441650390625,
      "learning_rate": 5.505268321436819e-06,
      "loss": 0.0005766792222857475,
      "memory(GiB)": 27.09,
      "reward": 0.4755499839782715,
      "reward_std": 0.08888332126662135,
      "rewards/MMContentORM/mean": 0.5820000112056732,
      "rewards/MMContentORM/std": 0.5622067280113697,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2060,
      "train_speed(iter/s)": 0.083503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.4,
      "completions/mean_length": 209.1,
      "completions/min_length": 127.8,
      "epoch": 0.9913586173787806,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.08104149997234344,
      "kl": 0.018072509765625,
      "learning_rate": 5.485517672711221e-06,
      "loss": 0.0007230919785797596,
      "memory(GiB)": 27.09,
      "reward": 0.47184998393058775,
      "reward_std": 0.10203550313599408,
      "rewards/MMContentORM/mean": 0.6015000164508819,
      "rewards/MMContentORM/std": 0.5722574293613434,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2065,
      "train_speed(iter/s)": 0.083517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.0,
      "completions/mean_length": 208.3,
      "completions/min_length": 137.4,
      "epoch": 0.9937590014402304,
      "frac_reward_zero_std": 0.875,
      "grad_norm": 0.12099120765924454,
      "kl": 0.0142578125,
      "learning_rate": 5.465759373092664e-06,
      "loss": 0.0005701714660972356,
      "memory(GiB)": 27.09,
      "reward": 0.5222999691963196,
      "reward_std": 0.03521391893737018,
      "rewards/MMContentORM/mean": 0.6845000147819519,
      "rewards/MMContentORM/std": 0.5714206457138061,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 2070,
      "train_speed(iter/s)": 0.083524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.6,
      "completions/mean_length": 210.7875,
      "completions/min_length": 146.0,
      "epoch": 0.9961593855016803,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1514410525560379,
      "kl": 0.017779541015625,
      "learning_rate": 5.445993733936725e-06,
      "loss": 0.0007106260396540165,
      "memory(GiB)": 27.09,
      "reward": 0.48714996576309205,
      "reward_std": 0.09906565884593874,
      "rewards/MMContentORM/mean": 0.611000019311905,
      "rewards/MMContentORM/std": 0.5427431344985962,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2075,
      "train_speed(iter/s)": 0.083534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.0,
      "completions/mean_length": 209.0375,
      "completions/min_length": 130.2,
      "epoch": 0.9985597695631301,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.12781541049480438,
      "kl": 0.018701171875,
      "learning_rate": 5.426221066714641e-06,
      "loss": 0.0007481152191758156,
      "memory(GiB)": 27.09,
      "reward": 0.511499959230423,
      "reward_std": 0.06349818790331482,
      "rewards/MMContentORM/mean": 0.6575000166893006,
      "rewards/MMContentORM/std": 0.5641934812068939,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 2080,
      "train_speed(iter/s)": 0.083547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/mean_length": 215.65,
      "completions/min_length": 134.6,
      "epoch": 1.00096015362458,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.004740873351693153,
      "kl": 0.0146728515625,
      "learning_rate": 5.406441683008395e-06,
      "loss": 0.000586447911337018,
      "memory(GiB)": 27.09,
      "reward": 0.42514997720718384,
      "reward_std": 0.11504627112299204,
      "rewards/MMContentORM/mean": 0.5135000109672546,
      "rewards/MMContentORM/std": 0.6854106187820435,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.14121158123016359,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21724859476089478,
      "step": 2085,
      "train_speed(iter/s)": 0.083547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.8,
      "completions/mean_length": 222.7,
      "completions/min_length": 157.2,
      "epoch": 1.0033605376860297,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.11715701222419739,
      "kl": 0.01546630859375,
      "learning_rate": 5.386655894505816e-06,
      "loss": 0.0006185109727084636,
      "memory(GiB)": 27.09,
      "reward": 0.467849987745285,
      "reward_std": 0.11221784176304936,
      "rewards/MMContentORM/mean": 0.5915000081062317,
      "rewards/MMContentORM/std": 0.6085148751735687,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 2090,
      "train_speed(iter/s)": 0.083558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/mean_length": 205.6875,
      "completions/min_length": 148.0,
      "epoch": 1.0057609217474797,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1382003277540207,
      "kl": 0.014483642578125,
      "learning_rate": 5.366864012995654e-06,
      "loss": 0.0005779881961643696,
      "memory(GiB)": 27.09,
      "reward": 0.5312999904155731,
      "reward_std": 0.06321534309536218,
      "rewards/MMContentORM/mean": 0.7070000171661377,
      "rewards/MMContentORM/std": 0.48905040323734283,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2095,
      "train_speed(iter/s)": 0.083579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 616.0,
      "completions/mean_length": 230.3375,
      "completions/min_length": 131.6,
      "epoch": 1.0081613058089294,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.23635810613632202,
      "kl": 0.0135009765625,
      "learning_rate": 5.347066350362678e-06,
      "loss": 0.0005402253940701484,
      "memory(GiB)": 27.09,
      "reward": 0.4407999932765961,
      "reward_std": 0.11045007631182671,
      "rewards/MMContentORM/mean": 0.5095000088214874,
      "rewards/MMContentORM/std": 0.6070198595523835,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2100,
      "train_speed(iter/s)": 0.083454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.4,
      "completions/mean_length": 209.8375,
      "completions/min_length": 126.0,
      "epoch": 1.0105616898703793,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1306273341178894,
      "kl": 0.014874267578125,
      "learning_rate": 5.327263218582758e-06,
      "loss": 0.0005949225276708602,
      "memory(GiB)": 27.09,
      "reward": 0.42854997515678406,
      "reward_std": 0.12537002861499785,
      "rewards/MMContentORM/mean": 0.496999990940094,
      "rewards/MMContentORM/std": 0.6504930973052978,
      "rewards/MMFormatORM/mean": 0.6056249976158142,
      "rewards/MMFormatORM/std": 0.16487477123737335,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.25,
      "step": 2105,
      "train_speed(iter/s)": 0.08341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.0,
      "completions/mean_length": 221.3875,
      "completions/min_length": 156.0,
      "epoch": 1.012962073931829,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18639177083969116,
      "kl": 0.02562255859375,
      "learning_rate": 5.307454929717944e-06,
      "loss": 0.0010251142084598541,
      "memory(GiB)": 27.09,
      "reward": 0.43019998669624326,
      "reward_std": 0.19318157732486724,
      "rewards/MMContentORM/mean": 0.540500009059906,
      "rewards/MMContentORM/std": 0.7170865178108216,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 2110,
      "train_speed(iter/s)": 0.08342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.8,
      "completions/mean_length": 222.8375,
      "completions/min_length": 147.4,
      "epoch": 1.015362457993279,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.10656420886516571,
      "kl": 0.01639404296875,
      "learning_rate": 5.28764179591156e-06,
      "loss": 0.0006556062027812005,
      "memory(GiB)": 27.09,
      "reward": 0.4640499770641327,
      "reward_std": 0.1481388673186302,
      "rewards/MMContentORM/mean": 0.5820000290870666,
      "rewards/MMContentORM/std": 0.6475385546684265,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2115,
      "train_speed(iter/s)": 0.083433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.8,
      "completions/mean_length": 216.5875,
      "completions/min_length": 150.4,
      "epoch": 1.0177628420547287,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.11035939306020737,
      "kl": 0.017095947265625,
      "learning_rate": 5.267824129383267e-06,
      "loss": 0.000684003159403801,
      "memory(GiB)": 27.09,
      "reward": 0.5336999654769897,
      "reward_std": 0.05642711999826133,
      "rewards/MMContentORM/mean": 0.7130000233650208,
      "rewards/MMContentORM/std": 0.5324123561382293,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2120,
      "train_speed(iter/s)": 0.083443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.8,
      "completions/mean_length": 222.8125,
      "completions/min_length": 165.8,
      "epoch": 1.0201632261161786,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.12353075295686722,
      "kl": 0.01419677734375,
      "learning_rate": 5.248002242424164e-06,
      "loss": 0.0005672593601047992,
      "memory(GiB)": 27.09,
      "reward": 0.5149999797344208,
      "reward_std": 0.11851109731942415,
      "rewards/MMContentORM/mean": 0.6949999928474426,
      "rewards/MMContentORM/std": 0.583082401752472,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2125,
      "train_speed(iter/s)": 0.08345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 358.8,
      "completions/mean_length": 225.7,
      "completions/min_length": 148.6,
      "epoch": 1.0225636101776283,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1546584665775299,
      "kl": 0.01431884765625,
      "learning_rate": 5.228176447391848e-06,
      "loss": 0.0005729184485971928,
      "memory(GiB)": 27.09,
      "reward": 0.4828499734401703,
      "reward_std": 0.1130663676187396,
      "rewards/MMContentORM/mean": 0.6290000081062317,
      "rewards/MMContentORM/std": 0.6190735220909118,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 2130,
      "train_speed(iter/s)": 0.083434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.6,
      "completions/mean_length": 212.1125,
      "completions/min_length": 127.6,
      "epoch": 1.0249639942390782,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.15606635808944702,
      "kl": 0.012115478515625,
      "learning_rate": 5.208347056705506e-06,
      "loss": 0.0004839696455746889,
      "memory(GiB)": 27.09,
      "reward": 0.4859499931335449,
      "reward_std": 0.10585388457402586,
      "rewards/MMContentORM/mean": 0.6080000042915344,
      "rewards/MMContentORM/std": 0.5991616785526276,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2135,
      "train_speed(iter/s)": 0.083448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 400.6,
      "completions/mean_length": 233.0375,
      "completions/min_length": 124.6,
      "epoch": 1.0273643783005282,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.10234855115413666,
      "kl": 0.017791748046875,
      "learning_rate": 5.188514382840984e-06,
      "loss": 0.0007121129892766476,
      "memory(GiB)": 27.09,
      "reward": 0.42114998698234557,
      "reward_std": 0.16525085866451264,
      "rewards/MMContentORM/mean": 0.5035000085830689,
      "rewards/MMContentORM/std": 0.714464795589447,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 2140,
      "train_speed(iter/s)": 0.08342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 463.4,
      "completions/mean_length": 223.875,
      "completions/min_length": 127.6,
      "epoch": 1.029764762361978,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.2525361478328705,
      "kl": 0.02169189453125,
      "learning_rate": 5.168678738325863e-06,
      "loss": 0.0008673015981912613,
      "memory(GiB)": 27.09,
      "reward": 0.4111499905586243,
      "reward_std": 0.17882730215787887,
      "rewards/MMContentORM/mean": 0.47850002646446227,
      "rewards/MMContentORM/std": 0.7203184485435485,
      "rewards/MMFormatORM/mean": 0.5931249976158142,
      "rewards/MMFormatORM/std": 0.18240466713905334,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2806225776672363,
      "step": 2145,
      "train_speed(iter/s)": 0.083368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.6,
      "completions/mean_length": 216.4375,
      "completions/min_length": 143.0,
      "epoch": 1.0321651464234278,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.11111954599618912,
      "kl": 0.020556640625,
      "learning_rate": 5.148840435734542e-06,
      "loss": 0.0008218312636017799,
      "memory(GiB)": 27.09,
      "reward": 0.41229996979236605,
      "reward_std": 0.22641559094190597,
      "rewards/MMContentORM/mean": 0.5245000123977661,
      "rewards/MMContentORM/std": 0.6923137307167053,
      "rewards/MMFormatORM/mean": 0.5687499940395355,
      "rewards/MMFormatORM/std": 0.20804243683815002,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.32006530165672303,
      "step": 2150,
      "train_speed(iter/s)": 0.083382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.6,
      "completions/mean_length": 219.275,
      "completions/min_length": 136.8,
      "epoch": 1.0345655304848775,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.20036152005195618,
      "kl": 0.01781005859375,
      "learning_rate": 5.128999787683301e-06,
      "loss": 0.0007116260938346386,
      "memory(GiB)": 27.09,
      "reward": 0.46249998211860655,
      "reward_std": 0.11525840454269201,
      "rewards/MMContentORM/mean": 0.5799999892711639,
      "rewards/MMContentORM/std": 0.6871018171310425,
      "rewards/MMFormatORM/mean": 0.6074999809265137,
      "rewards/MMFormatORM/std": 0.12120826840400696,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2155,
      "train_speed(iter/s)": 0.083386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 213.925,
      "completions/min_length": 129.0,
      "epoch": 1.0369659145463275,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.22052158415317535,
      "kl": 0.021417236328125,
      "learning_rate": 5.109157106825382e-06,
      "loss": 0.0008573445491492748,
      "memory(GiB)": 27.09,
      "reward": 0.4300999820232391,
      "reward_std": 0.1565534472465515,
      "rewards/MMContentORM/mean": 0.5115000009536743,
      "rewards/MMContentORM/std": 0.7336692571640014,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2160,
      "train_speed(iter/s)": 0.083405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.6,
      "completions/mean_length": 213.975,
      "completions/min_length": 139.0,
      "epoch": 1.0393662986077772,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.1396639049053192,
      "kl": 0.014166259765625,
      "learning_rate": 5.089312705846059e-06,
      "loss": 0.0005671509075909853,
      "memory(GiB)": 27.09,
      "reward": 0.48359997272491456,
      "reward_std": 0.11030865609645843,
      "rewards/MMContentORM/mean": 0.6164999902248383,
      "rewards/MMContentORM/std": 0.6159408092498779,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2165,
      "train_speed(iter/s)": 0.083423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 455.0,
      "completions/mean_length": 234.1125,
      "completions/min_length": 146.0,
      "epoch": 1.0417666826692271,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1445954293012619,
      "kl": 0.015972900390625,
      "learning_rate": 5.069466897457716e-06,
      "loss": 0.0006388931069523096,
      "memory(GiB)": 27.09,
      "reward": 0.4729499876499176,
      "reward_std": 0.08181225277949125,
      "rewards/MMContentORM/mean": 0.5754999935626983,
      "rewards/MMContentORM/std": 0.6227695643901825,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.05240467190742493,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.08062257766723632,
      "step": 2170,
      "train_speed(iter/s)": 0.083381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.8,
      "completions/mean_length": 215.3875,
      "completions/min_length": 138.2,
      "epoch": 1.0441670667306768,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1612766534090042,
      "kl": 0.01553955078125,
      "learning_rate": 5.049619994394913e-06,
      "loss": 0.0006216233130544424,
      "memory(GiB)": 27.09,
      "reward": 0.5203999698162078,
      "reward_std": 0.09107535094954074,
      "rewards/MMContentORM/mean": 0.7085000276565552,
      "rewards/MMContentORM/std": 0.5656350731849671,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2175,
      "train_speed(iter/s)": 0.083399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.6,
      "completions/mean_length": 226.025,
      "completions/min_length": 151.8,
      "epoch": 1.0465674507921268,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.08171720802783966,
      "kl": 0.016748046875,
      "learning_rate": 5.029772309409458e-06,
      "loss": 0.000670594209805131,
      "memory(GiB)": 27.09,
      "reward": 0.48629997968673705,
      "reward_std": 0.04709330874029547,
      "rewards/MMContentORM/mean": 0.5945000052452087,
      "rewards/MMContentORM/std": 0.6320461511611939,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2180,
      "train_speed(iter/s)": 0.083388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.8,
      "completions/mean_length": 226.75,
      "completions/min_length": 144.4,
      "epoch": 1.0489678348535765,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.06735818833112717,
      "kl": 0.01427001953125,
      "learning_rate": 5.009924155265484e-06,
      "loss": 0.0005706480704247951,
      "memory(GiB)": 27.09,
      "reward": 0.4983999729156494,
      "reward_std": 0.08202438042499124,
      "rewards/MMContentORM/mean": 0.653499984741211,
      "rewards/MMContentORM/std": 0.600805139541626,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2185,
      "train_speed(iter/s)": 0.083397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 522.6,
      "completions/mean_length": 237.8,
      "completions/min_length": 159.2,
      "epoch": 1.0513682189150264,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.2018902599811554,
      "kl": 0.0145751953125,
      "learning_rate": 4.9900758447345156e-06,
      "loss": 0.0005828267894685268,
      "memory(GiB)": 27.09,
      "reward": 0.5095999836921692,
      "reward_std": 0.09220672026276588,
      "rewards/MMContentORM/mean": 0.6815000116825104,
      "rewards/MMContentORM/std": 0.4883635245263577,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 2190,
      "train_speed(iter/s)": 0.083317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.6,
      "completions/mean_length": 220.4125,
      "completions/min_length": 160.6,
      "epoch": 1.0537686029764763,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11942193657159805,
      "kl": 0.01512451171875,
      "learning_rate": 4.9702276905905435e-06,
      "loss": 0.0006050709635019302,
      "memory(GiB)": 27.09,
      "reward": 0.5128499686717987,
      "reward_std": 0.1390879033599049,
      "rewards/MMContentORM/mean": 0.7040000319480896,
      "rewards/MMContentORM/std": 0.5877701699733734,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2195,
      "train_speed(iter/s)": 0.083333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.6,
      "completions/mean_length": 221.0,
      "completions/min_length": 124.4,
      "epoch": 1.056168987037926,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.13161082565784454,
      "kl": 0.014984130859375,
      "learning_rate": 4.950380005605088e-06,
      "loss": 0.0005988968070596457,
      "memory(GiB)": 27.09,
      "reward": 0.4813499927520752,
      "reward_std": 0.07785245627164841,
      "rewards/MMContentORM/mean": 0.5965000092983246,
      "rewards/MMContentORM/std": 0.6116379499435425,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2200,
      "train_speed(iter/s)": 0.083343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 454.6,
      "completions/mean_length": 228.3125,
      "completions/min_length": 129.4,
      "epoch": 1.058569371099376,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1304662823677063,
      "kl": 0.024444580078125,
      "learning_rate": 4.9305331025422845e-06,
      "loss": 0.0009780921041965484,
      "memory(GiB)": 27.09,
      "reward": 0.47104998826980593,
      "reward_std": 0.08350930837914347,
      "rewards/MMContentORM/mean": 0.5995000153779984,
      "rewards/MMContentORM/std": 0.6014656841754913,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 2205,
      "train_speed(iter/s)": 0.083246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 476.8,
      "completions/mean_length": 229.775,
      "completions/min_length": 156.0,
      "epoch": 1.0609697551608257,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.06856456398963928,
      "kl": 0.017633056640625,
      "learning_rate": 4.9106872941539424e-06,
      "loss": 0.0007049092557281256,
      "memory(GiB)": 27.09,
      "reward": 0.42249998450279236,
      "reward_std": 0.13392602608073503,
      "rewards/MMContentORM/mean": 0.49250001311302183,
      "rewards/MMContentORM/std": 0.633867347240448,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2210,
      "train_speed(iter/s)": 0.08319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.4,
      "completions/mean_length": 217.775,
      "completions/min_length": 120.0,
      "epoch": 1.0633701392222756,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.1842622011899948,
      "kl": 0.022515869140625,
      "learning_rate": 4.8908428931746195e-06,
      "loss": 0.0009016531519591808,
      "memory(GiB)": 27.09,
      "reward": 0.38274996876716616,
      "reward_std": 0.20951574475038798,
      "rewards/MMContentORM/mean": 0.4525000035762787,
      "rewards/MMContentORM/std": 0.7619948863983155,
      "rewards/MMFormatORM/mean": 0.5668749690055848,
      "rewards/MMFormatORM/std": 0.19322119355201722,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2978711724281311,
      "step": 2215,
      "train_speed(iter/s)": 0.083199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/mean_length": 217.6875,
      "completions/min_length": 138.0,
      "epoch": 1.0657705232837253,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.1208593100309372,
      "kl": 0.014208984375,
      "learning_rate": 4.871000212316701e-06,
      "loss": 0.0005678186193108558,
      "memory(GiB)": 27.09,
      "reward": 0.514799976348877,
      "reward_std": 0.011879390012472868,
      "rewards/MMContentORM/mean": 0.6370000064373016,
      "rewards/MMContentORM/std": 0.5178160190582275,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 2220,
      "train_speed(iter/s)": 0.083209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.4,
      "completions/mean_length": 216.4875,
      "completions/min_length": 151.2,
      "epoch": 1.0681709073451753,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1443309485912323,
      "kl": 0.013623046875,
      "learning_rate": 4.851159564265459e-06,
      "loss": 0.0005446367897093296,
      "memory(GiB)": 27.09,
      "reward": 0.41879999041557314,
      "reward_std": 0.1261478431522846,
      "rewards/MMContentORM/mean": 0.45449999570846555,
      "rewards/MMContentORM/std": 0.6680951356887818,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 2225,
      "train_speed(iter/s)": 0.083226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.0,
      "completions/mean_length": 227.0125,
      "completions/min_length": 129.6,
      "epoch": 1.070571291406625,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.10511992871761322,
      "kl": 0.01990966796875,
      "learning_rate": 4.831321261674138e-06,
      "loss": 0.0007973327301442623,
      "memory(GiB)": 27.09,
      "reward": 0.4790499657392502,
      "reward_std": 0.20272751227021218,
      "rewards/MMContentORM/mean": 0.6770000040531159,
      "rewards/MMContentORM/std": 0.5581120260059833,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.17163621485233307,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.26405572295188906,
      "step": 2230,
      "train_speed(iter/s)": 0.08321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 337.2,
      "completions/mean_length": 217.4875,
      "completions/min_length": 141.2,
      "epoch": 1.072971675468075,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.23232097923755646,
      "kl": 0.01639404296875,
      "learning_rate": 4.811485617159018e-06,
      "loss": 0.0006561274174600839,
      "memory(GiB)": 27.09,
      "reward": 0.4388999938964844,
      "reward_std": 0.14424977898597718,
      "rewards/MMContentORM/mean": 0.5335000038146973,
      "rewards/MMContentORM/std": 0.7047018647193909,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2235,
      "train_speed(iter/s)": 0.083209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 357.8,
      "completions/mean_length": 219.5125,
      "completions/min_length": 151.4,
      "epoch": 1.0753720595295246,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.08917021751403809,
      "kl": 0.015106201171875,
      "learning_rate": 4.791652943294496e-06,
      "loss": 0.0006044380366802216,
      "memory(GiB)": 27.09,
      "reward": 0.5175999701023102,
      "reward_std": 0.11653119549155236,
      "rewards/MMContentORM/mean": 0.7015000104904174,
      "rewards/MMContentORM/std": 0.5376629948616027,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2240,
      "train_speed(iter/s)": 0.0832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.2,
      "completions/mean_length": 214.7125,
      "completions/min_length": 126.2,
      "epoch": 1.0777724435909746,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.06148146465420723,
      "kl": 0.0146240234375,
      "learning_rate": 4.771823552608153e-06,
      "loss": 0.0005852002650499344,
      "memory(GiB)": 27.09,
      "reward": 0.461699965596199,
      "reward_std": 0.12600642547477037,
      "rewards/MMContentORM/mean": 0.5905000075697899,
      "rewards/MMContentORM/std": 0.5648605763912201,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 2245,
      "train_speed(iter/s)": 0.083202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.8,
      "completions/mean_length": 219.975,
      "completions/min_length": 158.6,
      "epoch": 1.0801728276524245,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1749095767736435,
      "kl": 0.019097900390625,
      "learning_rate": 4.751997757575837e-06,
      "loss": 0.0007640034891664982,
      "memory(GiB)": 27.09,
      "reward": 0.4941999793052673,
      "reward_std": 0.10550032928586006,
      "rewards/MMContentORM/mean": 0.6430000066757202,
      "rewards/MMContentORM/std": 0.5990769028663635,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2250,
      "train_speed(iter/s)": 0.083217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.4,
      "completions/mean_length": 215.775,
      "completions/min_length": 141.8,
      "epoch": 1.0825732117138742,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.12527073919773102,
      "kl": 0.013714599609375,
      "learning_rate": 4.732175870616734e-06,
      "loss": 0.0005480511114001274,
      "memory(GiB)": 27.09,
      "reward": 0.5476999878883362,
      "reward_std": 0.054164378554560244,
      "rewards/MMContentORM/mean": 0.7479999840259552,
      "rewards/MMContentORM/std": 0.419530663639307,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2255,
      "train_speed(iter/s)": 0.083218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.8,
      "completions/mean_length": 209.775,
      "completions/min_length": 131.2,
      "epoch": 1.0849735957753242,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.00807945616543293,
      "kl": 0.015020751953125,
      "learning_rate": 4.71235820408844e-06,
      "loss": 0.0006013516336679459,
      "memory(GiB)": 27.09,
      "reward": 0.5140499889850616,
      "reward_std": 0.05989194584544748,
      "rewards/MMContentORM/mean": 0.6495000064373017,
      "rewards/MMContentORM/std": 0.4968143880367279,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 2260,
      "train_speed(iter/s)": 0.08322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.4,
      "completions/mean_length": 217.525,
      "completions/min_length": 136.4,
      "epoch": 1.0873739798367739,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.1432449072599411,
      "kl": 0.01522216796875,
      "learning_rate": 4.692545070282057e-06,
      "loss": 0.0006086730398237705,
      "memory(GiB)": 27.09,
      "reward": 0.4586499869823456,
      "reward_std": 0.15577562851831317,
      "rewards/MMContentORM/mean": 0.5684999942779541,
      "rewards/MMContentORM/std": 0.6647186577320099,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2265,
      "train_speed(iter/s)": 0.083209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.4,
      "completions/mean_length": 214.075,
      "completions/min_length": 138.8,
      "epoch": 1.0897743638982238,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16632573306560516,
      "kl": 0.013531494140625,
      "learning_rate": 4.672736781417244e-06,
      "loss": 0.000541134737432003,
      "memory(GiB)": 27.09,
      "reward": 0.521150004863739,
      "reward_std": 0.1035911375656724,
      "rewards/MMContentORM/mean": 0.6959999978542328,
      "rewards/MMContentORM/std": 0.4113076165318489,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2270,
      "train_speed(iter/s)": 0.083217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.4,
      "completions/mean_length": 212.2875,
      "completions/min_length": 131.8,
      "epoch": 1.0921747479596735,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.10571814328432083,
      "kl": 0.017926025390625,
      "learning_rate": 4.652933649637323e-06,
      "loss": 0.0007169050164520741,
      "memory(GiB)": 27.09,
      "reward": 0.48269999623298643,
      "reward_std": 0.07311483474913985,
      "rewards/MMContentORM/mean": 0.5855000197887421,
      "rewards/MMContentORM/std": 0.5871885895729065,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2275,
      "train_speed(iter/s)": 0.08323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.4,
      "completions/mean_length": 211.2625,
      "completions/min_length": 140.2,
      "epoch": 1.0945751320211234,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.21430432796478271,
      "kl": 0.015948486328125,
      "learning_rate": 4.633135987004349e-06,
      "loss": 0.0006380814127624034,
      "memory(GiB)": 27.09,
      "reward": 0.5692499935626983,
      "reward_std": 0.02199101869482547,
      "rewards/MMContentORM/mean": 0.7749999940395356,
      "rewards/MMContentORM/std": 0.3264094144105911,
      "rewards/MMFormatORM/mean": 0.6481249809265137,
      "rewards/MMFormatORM/std": 0.007499998807907105,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 2280,
      "train_speed(iter/s)": 0.083226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.8,
      "completions/mean_length": 211.85,
      "completions/min_length": 151.2,
      "epoch": 1.0969755160825732,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.18268615007400513,
      "kl": 0.01839599609375,
      "learning_rate": 4.613344105494186e-06,
      "loss": 0.0007361322641372681,
      "memory(GiB)": 27.09,
      "reward": 0.5117499828338623,
      "reward_std": 0.12593571692705155,
      "rewards/MMContentORM/mean": 0.7049999952316284,
      "rewards/MMContentORM/std": 0.5719310343265533,
      "rewards/MMFormatORM/mean": 0.6056249856948852,
      "rewards/MMFormatORM/std": 0.15690345019102098,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2285,
      "train_speed(iter/s)": 0.083239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 360.2,
      "completions/mean_length": 219.5375,
      "completions/min_length": 148.2,
      "epoch": 1.099375900144023,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16588640213012695,
      "kl": 0.017315673828125,
      "learning_rate": 4.593558316991606e-06,
      "loss": 0.000692180311307311,
      "memory(GiB)": 27.09,
      "reward": 0.4636499762535095,
      "reward_std": 0.1040154074318707,
      "rewards/MMContentORM/mean": 0.581000006198883,
      "rewards/MMContentORM/std": 0.6416810989379883,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 2290,
      "train_speed(iter/s)": 0.083227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 475.2,
      "completions/mean_length": 220.275,
      "completions/min_length": 109.0,
      "epoch": 1.1017762842054728,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1836349368095398,
      "kl": 0.024261474609375,
      "learning_rate": 4.57377893328536e-06,
      "loss": 0.0009730796329677105,
      "memory(GiB)": 27.09,
      "reward": 0.4206999778747559,
      "reward_std": 0.19699994921684266,
      "rewards/MMContentORM/mean": 0.5455000042915344,
      "rewards/MMContentORM/std": 0.7305709242820739,
      "rewards/MMFormatORM/mean": 0.568749976158142,
      "rewards/MMFormatORM/std": 0.21811503469944,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.335561603307724,
      "step": 2295,
      "train_speed(iter/s)": 0.083164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/mean_length": 216.825,
      "completions/min_length": 143.8,
      "epoch": 1.1041766682669227,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13757243752479553,
      "kl": 0.01383056640625,
      "learning_rate": 4.554006266063276e-06,
      "loss": 0.0005533020943403244,
      "memory(GiB)": 27.09,
      "reward": 0.49374998807907106,
      "reward_std": 0.0761553971329704,
      "rewards/MMContentORM/mean": 0.6274999976158142,
      "rewards/MMContentORM/std": 0.6148638248443603,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2300,
      "train_speed(iter/s)": 0.083171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.2,
      "completions/mean_length": 205.6125,
      "completions/min_length": 133.4,
      "epoch": 1.1065770523283724,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.11595190316438675,
      "kl": 0.017413330078125,
      "learning_rate": 4.534240626907338e-06,
      "loss": 0.0006965134758502245,
      "memory(GiB)": 27.09,
      "reward": 0.520749980211258,
      "reward_std": 0.062296105083078146,
      "rewards/MMContentORM/mean": 0.6950000166893006,
      "rewards/MMContentORM/std": 0.579815822839737,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2305,
      "train_speed(iter/s)": 0.083141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.0,
      "completions/mean_length": 216.1375,
      "completions/min_length": 147.8,
      "epoch": 1.1089774363898224,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14087656140327454,
      "kl": 0.0158203125,
      "learning_rate": 4.51448232728878e-06,
      "loss": 0.0006328361108899116,
      "memory(GiB)": 27.09,
      "reward": 0.4798499882221222,
      "reward_std": 0.06993285585194826,
      "rewards/MMContentORM/mean": 0.6215000033378602,
      "rewards/MMContentORM/std": 0.5286586560308933,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2310,
      "train_speed(iter/s)": 0.083141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.0,
      "completions/mean_length": 211.375,
      "completions/min_length": 140.0,
      "epoch": 1.1113778204512723,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1471603959798813,
      "kl": 0.0154541015625,
      "learning_rate": 4.494731678563182e-06,
      "loss": 0.0006185553036630153,
      "memory(GiB)": 27.09,
      "reward": 0.482699978351593,
      "reward_std": 0.03804234203416854,
      "rewards/MMContentORM/mean": 0.5855000197887421,
      "rewards/MMContentORM/std": 0.5835969924926758,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2315,
      "train_speed(iter/s)": 0.083155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 282.8,
      "completions/mean_length": 208.625,
      "completions/min_length": 132.4,
      "epoch": 1.113778204512722,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15146136283874512,
      "kl": 0.016741943359375,
      "learning_rate": 4.474988991965556e-06,
      "loss": 0.0006692257709801197,
      "memory(GiB)": 27.09,
      "reward": 0.47709997892379763,
      "reward_std": 0.11455130190588533,
      "rewards/MMContentORM/mean": 0.6165000081062317,
      "rewards/MMContentORM/std": 0.6526979386806488,
      "rewards/MMFormatORM/mean": 0.6074999928474426,
      "rewards/MMFormatORM/std": 0.12490466833114625,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 2320,
      "train_speed(iter/s)": 0.083179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.4,
      "completions/mean_length": 208.6375,
      "completions/min_length": 136.4,
      "epoch": 1.116178588574172,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.11009304225444794,
      "kl": 0.01671142578125,
      "learning_rate": 4.455254578605447e-06,
      "loss": 0.0006676350720226764,
      "memory(GiB)": 27.09,
      "reward": 0.499949985742569,
      "reward_std": 0.053386559477075934,
      "rewards/MMContentORM/mean": 0.6429999947547913,
      "rewards/MMContentORM/std": 0.557970917224884,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2325,
      "train_speed(iter/s)": 0.0832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.6,
      "completions/mean_length": 215.6625,
      "completions/min_length": 134.6,
      "epoch": 1.1185789726356217,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.15660890936851501,
      "kl": 0.016387939453125,
      "learning_rate": 4.435528749462026e-06,
      "loss": 0.0006562436930835247,
      "memory(GiB)": 27.09,
      "reward": 0.4931999921798706,
      "reward_std": 0.11030865758657456,
      "rewards/MMContentORM/mean": 0.6404999971389771,
      "rewards/MMContentORM/std": 0.6184715509414673,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2330,
      "train_speed(iter/s)": 0.083202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.6,
      "completions/mean_length": 209.925,
      "completions/min_length": 132.2,
      "epoch": 1.1209793566970716,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.005811932031065226,
      "kl": 0.0166015625,
      "learning_rate": 4.415811815379198e-06,
      "loss": 0.000663516204804182,
      "memory(GiB)": 27.09,
      "reward": 0.5019499778747558,
      "reward_std": 0.10755094066262245,
      "rewards/MMContentORM/mean": 0.6479999959468842,
      "rewards/MMContentORM/std": 0.5736066222190856,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2335,
      "train_speed(iter/s)": 0.083186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.2,
      "completions/mean_length": 204.1875,
      "completions/min_length": 136.4,
      "epoch": 1.1233797407585213,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.159584641456604,
      "kl": 0.018511962890625,
      "learning_rate": 4.396104087060689e-06,
      "loss": 0.0007406437769532203,
      "memory(GiB)": 27.09,
      "reward": 0.45104997754096987,
      "reward_std": 0.08619631510227918,
      "rewards/MMContentORM/mean": 0.5495000213384629,
      "rewards/MMContentORM/std": 0.5832443118095398,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2340,
      "train_speed(iter/s)": 0.083202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 366.2,
      "completions/mean_length": 221.7875,
      "completions/min_length": 137.0,
      "epoch": 1.1257801248199713,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13437344133853912,
      "kl": 0.017962646484375,
      "learning_rate": 4.376405875065165e-06,
      "loss": 0.0007189226802438497,
      "memory(GiB)": 27.09,
      "reward": 0.4833999931812286,
      "reward_std": 0.12416795073077083,
      "rewards/MMContentORM/mean": 0.6160000026226043,
      "rewards/MMContentORM/std": 0.6286175012588501,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2345,
      "train_speed(iter/s)": 0.083187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.0,
      "completions/mean_length": 213.275,
      "completions/min_length": 141.4,
      "epoch": 1.128180508881421,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.14463329315185547,
      "kl": 0.0177001953125,
      "learning_rate": 4.35671748980133e-06,
      "loss": 0.0007080785930156708,
      "memory(GiB)": 27.09,
      "reward": 0.5173499882221222,
      "reward_std": 0.06088189166039228,
      "rewards/MMContentORM/mean": 0.6864999771118164,
      "rewards/MMContentORM/std": 0.5560923993587494,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2350,
      "train_speed(iter/s)": 0.083196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.6,
      "completions/mean_length": 217.05,
      "completions/min_length": 154.4,
      "epoch": 1.130580892942871,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.0970078557729721,
      "kl": 0.013482666015625,
      "learning_rate": 4.337039241523034e-06,
      "loss": 0.0005393566098064184,
      "memory(GiB)": 27.09,
      "reward": 0.5178999722003936,
      "reward_std": 0.04709331314079464,
      "rewards/MMContentORM/mean": 0.6734999895095826,
      "rewards/MMContentORM/std": 0.4659044176340103,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2355,
      "train_speed(iter/s)": 0.08321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.2,
      "completions/mean_length": 209.6875,
      "completions/min_length": 142.0,
      "epoch": 1.1329812770043206,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.16535647213459015,
      "kl": 0.02020263671875,
      "learning_rate": 4.3173714403243926e-06,
      "loss": 0.0008074231445789337,
      "memory(GiB)": 27.09,
      "reward": 0.4483999729156494,
      "reward_std": 0.1086115974234417,
      "rewards/MMContentORM/mean": 0.5285000026226043,
      "rewards/MMContentORM/std": 0.6377276480197906,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2360,
      "train_speed(iter/s)": 0.08323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.4,
      "completions/mean_length": 208.6125,
      "completions/min_length": 157.8,
      "epoch": 1.1353816610657705,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1501249223947525,
      "kl": 0.01739501953125,
      "learning_rate": 4.2977143961348846e-06,
      "loss": 0.0006959887687116861,
      "memory(GiB)": 27.09,
      "reward": 0.3825499892234802,
      "reward_std": 0.1649680064059794,
      "rewards/MMContentORM/mean": 0.4069999992847443,
      "rewards/MMContentORM/std": 0.696259343624115,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2365,
      "train_speed(iter/s)": 0.083254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.4,
      "completions/mean_length": 211.1875,
      "completions/min_length": 141.6,
      "epoch": 1.1377820451272203,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.12787005305290222,
      "kl": 0.016790771484375,
      "learning_rate": 4.278068418714488e-06,
      "loss": 0.000671594263985753,
      "memory(GiB)": 27.09,
      "reward": 0.4533999919891357,
      "reward_std": 0.10776307452470064,
      "rewards/MMContentORM/mean": 0.5409999907016754,
      "rewards/MMContentORM/std": 0.589427363872528,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2370,
      "train_speed(iter/s)": 0.083268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.6,
      "completions/mean_length": 211.275,
      "completions/min_length": 157.4,
      "epoch": 1.1401824291886702,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.08513356745243073,
      "kl": 0.01527099609375,
      "learning_rate": 4.258433817648778e-06,
      "loss": 0.0006108290050178766,
      "memory(GiB)": 27.09,
      "reward": 0.5273999691009521,
      "reward_std": 0.08343859422020614,
      "rewards/MMContentORM/mean": 0.7134999930858612,
      "rewards/MMContentORM/std": 0.4296311870217323,
      "rewards/MMFormatORM/mean": 0.6237499833106994,
      "rewards/MMFormatORM/std": 0.08440345227718353,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2375,
      "train_speed(iter/s)": 0.08327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.0,
      "completions/mean_length": 219.425,
      "completions/min_length": 137.0,
      "epoch": 1.1425828132501201,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.14258858561515808,
      "kl": 0.0161865234375,
      "learning_rate": 4.238810902344065e-06,
      "loss": 0.0006477432791143656,
      "memory(GiB)": 27.09,
      "reward": 0.45419996976852417,
      "reward_std": 0.11737972022965551,
      "rewards/MMContentORM/mean": 0.5430000007152558,
      "rewards/MMContentORM/std": 0.6464896261692047,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2380,
      "train_speed(iter/s)": 0.083263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/mean_length": 213.075,
      "completions/min_length": 133.4,
      "epoch": 1.1449831973115698,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1284060925245285,
      "kl": 0.01661376953125,
      "learning_rate": 4.219199982022512e-06,
      "loss": 0.0006643535569310188,
      "memory(GiB)": 27.09,
      "reward": 0.5382999777793884,
      "reward_std": 0.0634981878567487,
      "rewards/MMContentORM/mean": 0.7245000004768372,
      "rewards/MMContentORM/std": 0.5121561586856842,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2385,
      "train_speed(iter/s)": 0.083274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.8,
      "completions/mean_length": 217.0625,
      "completions/min_length": 140.4,
      "epoch": 1.1473835813730198,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14643016457557678,
      "kl": 0.014398193359375,
      "learning_rate": 4.199601365717259e-06,
      "loss": 0.0005763438530266285,
      "memory(GiB)": 27.09,
      "reward": 0.506199985742569,
      "reward_std": 0.033658286277204755,
      "rewards/MMContentORM/mean": 0.6154999971389771,
      "rewards/MMContentORM/std": 0.5775948464870453,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 2390,
      "train_speed(iter/s)": 0.083288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 458.2,
      "completions/mean_length": 222.6375,
      "completions/min_length": 136.6,
      "epoch": 1.1497839654344695,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.16194605827331543,
      "kl": 0.019708251953125,
      "learning_rate": 4.180015362267564e-06,
      "loss": 0.0007893730886280537,
      "memory(GiB)": 27.09,
      "reward": 0.4298999786376953,
      "reward_std": 0.14891668558120727,
      "rewards/MMContentORM/mean": 0.510999983549118,
      "rewards/MMContentORM/std": 0.6927963614463806,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2395,
      "train_speed(iter/s)": 0.083235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 335.2,
      "completions/mean_length": 219.5625,
      "completions/min_length": 139.8,
      "epoch": 1.1521843494959194,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16206054389476776,
      "kl": 0.016741943359375,
      "learning_rate": 4.160442280313923e-06,
      "loss": 0.0006699077785015106,
      "memory(GiB)": 27.09,
      "reward": 0.45619996786117556,
      "reward_std": 0.11398561298847198,
      "rewards/MMContentORM/mean": 0.5354999899864197,
      "rewards/MMContentORM/std": 0.6260799109935761,
      "rewards/MMFormatORM/mean": 0.6237499833106994,
      "rewards/MMFormatORM/std": 0.07680481374263763,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2400,
      "train_speed(iter/s)": 0.08323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.8,
      "completions/mean_length": 203.65,
      "completions/min_length": 100.8,
      "epoch": 1.1545847335573691,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.10279816389083862,
      "kl": 0.021893310546875,
      "learning_rate": 4.14088242829321e-06,
      "loss": 0.0008754994720220566,
      "memory(GiB)": 27.09,
      "reward": 0.4607499837875366,
      "reward_std": 0.09623723030090332,
      "rewards/MMContentORM/mean": 0.5450000107288361,
      "rewards/MMContentORM/std": 0.5940271973609924,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2405,
      "train_speed(iter/s)": 0.083192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.8,
      "completions/mean_length": 207.1875,
      "completions/min_length": 132.4,
      "epoch": 1.156985117618819,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.17465510964393616,
      "kl": 0.015850830078125,
      "learning_rate": 4.121336114433825e-06,
      "loss": 0.0006340592168271542,
      "memory(GiB)": 27.09,
      "reward": 0.39219998121261596,
      "reward_std": 0.09814641983248293,
      "rewards/MMContentORM/mean": 0.38800000250339506,
      "rewards/MMContentORM/std": 0.6825608611106873,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2410,
      "train_speed(iter/s)": 0.0832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.6,
      "completions/mean_length": 209.975,
      "completions/min_length": 150.6,
      "epoch": 1.1593855016802688,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.07339280098676682,
      "kl": 0.021881103515625,
      "learning_rate": 4.101803646750826e-06,
      "loss": 0.0008749545551836491,
      "memory(GiB)": 27.09,
      "reward": 0.45749999284744264,
      "reward_std": 0.13420886893291026,
      "rewards/MMContentORM/mean": 0.5799999952316284,
      "rewards/MMContentORM/std": 0.5645999349653721,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.10480934381484985,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.16124515533447265,
      "step": 2415,
      "train_speed(iter/s)": 0.083212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 379.0,
      "completions/mean_length": 220.1,
      "completions/min_length": 119.6,
      "epoch": 1.1617858857417187,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.17658497393131256,
      "kl": 0.021868896484375,
      "learning_rate": 4.082285333041085e-06,
      "loss": 0.0008741414174437522,
      "memory(GiB)": 27.09,
      "reward": 0.5191999733448028,
      "reward_std": 0.061801125714555386,
      "rewards/MMContentORM/mean": 0.7055000066757202,
      "rewards/MMContentORM/std": 0.5510667979717254,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 2420,
      "train_speed(iter/s)": 0.083195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.6,
      "completions/mean_length": 217.0625,
      "completions/min_length": 155.4,
      "epoch": 1.1641862698031684,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.23948155343532562,
      "kl": 0.022308349609375,
      "learning_rate": 4.062781480878426e-06,
      "loss": 0.0008926920592784882,
      "memory(GiB)": 27.09,
      "reward": 0.42619999051094054,
      "reward_std": 0.1429769902024418,
      "rewards/MMContentORM/mean": 0.5305000066757202,
      "rewards/MMContentORM/std": 0.6429137587547302,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 2425,
      "train_speed(iter/s)": 0.083198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.2,
      "completions/mean_length": 212.85,
      "completions/min_length": 139.4,
      "epoch": 1.1665866538646184,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.22126245498657227,
      "kl": 0.015814208984375,
      "learning_rate": 4.0432923976087915e-06,
      "loss": 0.00063277967274189,
      "memory(GiB)": 27.09,
      "reward": 0.4893499791622162,
      "reward_std": 0.07785245273262262,
      "rewards/MMContentORM/mean": 0.6165000140666962,
      "rewards/MMContentORM/std": 0.594619619846344,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2430,
      "train_speed(iter/s)": 0.083199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.6,
      "completions/mean_length": 210.85,
      "completions/min_length": 119.6,
      "epoch": 1.168987037926068,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1325448900461197,
      "kl": 0.027337646484375,
      "learning_rate": 4.02381839034539e-06,
      "loss": 0.0010928992182016374,
      "memory(GiB)": 27.09,
      "reward": 0.4188999950885773,
      "reward_std": 0.14410835653543472,
      "rewards/MMContentORM/mean": 0.4834999918937683,
      "rewards/MMContentORM/std": 0.6920648813247681,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 2435,
      "train_speed(iter/s)": 0.083209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.8,
      "completions/mean_length": 218.55,
      "completions/min_length": 134.8,
      "epoch": 1.171387421987518,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10885204374790192,
      "kl": 0.0170654296875,
      "learning_rate": 4.004359765963852e-06,
      "loss": 0.0006822014227509498,
      "memory(GiB)": 27.09,
      "reward": 0.4416999638080597,
      "reward_std": 0.15089658349752427,
      "rewards/MMContentORM/mean": 0.540499997138977,
      "rewards/MMContentORM/std": 0.6798429071903229,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 2440,
      "train_speed(iter/s)": 0.083214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 212.0625,
      "completions/min_length": 143.8,
      "epoch": 1.173787806048968,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10752154886722565,
      "kl": 0.0148681640625,
      "learning_rate": 3.984916831097416e-06,
      "loss": 0.0005946123506873846,
      "memory(GiB)": 27.09,
      "reward": 0.46099998354911803,
      "reward_std": 0.11511698234826326,
      "rewards/MMContentORM/mean": 0.5599999904632569,
      "rewards/MMContentORM/std": 0.6491201877593994,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2445,
      "train_speed(iter/s)": 0.083234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 588.4,
      "completions/mean_length": 236.825,
      "completions/min_length": 135.4,
      "epoch": 1.1761881901104176,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.200127974152565,
      "kl": 0.017510986328125,
      "learning_rate": 3.965489892132067e-06,
      "loss": 0.0007008564192801714,
      "memory(GiB)": 27.09,
      "reward": 0.419449982047081,
      "reward_std": 0.19212091341614723,
      "rewards/MMContentORM/mean": 0.5280000180006027,
      "rewards/MMContentORM/std": 0.7196203231811523,
      "rewards/MMFormatORM/mean": 0.5768749952316284,
      "rewards/MMFormatORM/std": 0.16249999403953552,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.25,
      "step": 2450,
      "train_speed(iter/s)": 0.083144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.8,
      "completions/mean_length": 215.9375,
      "completions/min_length": 165.4,
      "epoch": 1.1785885741718676,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1706075668334961,
      "kl": 0.0157958984375,
      "learning_rate": 3.9460792552017345e-06,
      "loss": 0.0006313313730061054,
      "memory(GiB)": 27.09,
      "reward": 0.4721999764442444,
      "reward_std": 0.0885297678411007,
      "rewards/MMContentORM/mean": 0.5880000114440918,
      "rewards/MMContentORM/std": 0.6373610079288483,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2455,
      "train_speed(iter/s)": 0.083165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.8,
      "completions/mean_length": 211.5625,
      "completions/min_length": 119.2,
      "epoch": 1.1809889582333173,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13533374667167664,
      "kl": 0.015020751953125,
      "learning_rate": 3.9266852261834474e-06,
      "loss": 0.0006013016682118177,
      "memory(GiB)": 27.09,
      "reward": 0.49929999113082885,
      "reward_std": 0.055861435388214885,
      "rewards/MMContentORM/mean": 0.6270000100135803,
      "rewards/MMContentORM/std": 0.5022149316966533,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2460,
      "train_speed(iter/s)": 0.083172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.0,
      "completions/mean_length": 219.2375,
      "completions/min_length": 145.2,
      "epoch": 1.1833893422947672,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.10274124890565872,
      "kl": 0.01768798828125,
      "learning_rate": 3.9073081106925314e-06,
      "loss": 0.0007067923899739981,
      "memory(GiB)": 27.09,
      "reward": 0.4602999687194824,
      "reward_std": 0.14382552150636913,
      "rewards/MMContentORM/mean": 0.5870000004768372,
      "rewards/MMContentORM/std": 0.646770179271698,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2465,
      "train_speed(iter/s)": 0.083177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 393.4,
      "completions/mean_length": 222.5875,
      "completions/min_length": 159.4,
      "epoch": 1.185789726356217,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14314013719558716,
      "kl": 0.013629150390625,
      "learning_rate": 3.887948214077782e-06,
      "loss": 0.0005453084595501423,
      "memory(GiB)": 27.09,
      "reward": 0.43144997358322146,
      "reward_std": 0.12409724295139313,
      "rewards/MMContentORM/mean": 0.47549999356269834,
      "rewards/MMContentORM/std": 0.6934274673461914,
      "rewards/MMFormatORM/mean": 0.621874988079071,
      "rewards/MMFormatORM/std": 0.11249999552965165,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2470,
      "train_speed(iter/s)": 0.083159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 349.8,
      "completions/mean_length": 223.725,
      "completions/min_length": 145.8,
      "epoch": 1.1881901104176669,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.004896758124232292,
      "kl": 0.01409912109375,
      "learning_rate": 3.8686058414166504e-06,
      "loss": 0.0005641079042106867,
      "memory(GiB)": 27.09,
      "reward": 0.4801999807357788,
      "reward_std": 0.04567909836769104,
      "rewards/MMContentORM/mean": 0.6080000057816506,
      "rewards/MMContentORM/std": 0.5569998919963837,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2475,
      "train_speed(iter/s)": 0.083132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 483.2,
      "completions/mean_length": 228.875,
      "completions/min_length": 141.6,
      "epoch": 1.1905904944791166,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.18111135065555573,
      "kl": 0.018408203125,
      "learning_rate": 3.849281297510454e-06,
      "loss": 0.0007354037370532751,
      "memory(GiB)": 27.09,
      "reward": 0.41744997948408125,
      "reward_std": 0.17444324921816587,
      "rewards/MMContentORM/mean": 0.4980000019073486,
      "rewards/MMContentORM/std": 0.6551562428474427,
      "rewards/MMFormatORM/mean": 0.5893749833106995,
      "rewards/MMFormatORM/std": 0.14223275929689408,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.1957427144050598,
      "step": 2480,
      "train_speed(iter/s)": 0.083083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/mean_length": 217.55,
      "completions/min_length": 147.0,
      "epoch": 1.1929908785405665,
      "frac_reward_zero_std": 0.4,
      "grad_norm": 0.2514013350009918,
      "kl": 0.01690673828125,
      "learning_rate": 3.829974886879549e-06,
      "loss": 0.0006760565564036369,
      "memory(GiB)": 27.09,
      "reward": 0.3862499862909317,
      "reward_std": 0.19424223005771638,
      "rewards/MMContentORM/mean": 0.4199999988079071,
      "rewards/MMContentORM/std": 0.7334108114242553,
      "rewards/MMFormatORM/mean": 0.5893749713897705,
      "rewards/MMFormatORM/std": 0.1641829013824463,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2485,
      "train_speed(iter/s)": 0.083096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.2,
      "completions/mean_length": 218.5625,
      "completions/min_length": 153.8,
      "epoch": 1.1953912626020164,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1668197512626648,
      "kl": 0.014886474609375,
      "learning_rate": 3.8106869137585507e-06,
      "loss": 0.0005956954322755337,
      "memory(GiB)": 27.09,
      "reward": 0.48804997801780703,
      "reward_std": 0.10062129367142916,
      "rewards/MMContentORM/mean": 0.6295000076293945,
      "rewards/MMContentORM/std": 0.5976639330387116,
      "rewards/MMFormatORM/mean": 0.6156249880790711,
      "rewards/MMFormatORM/std": 0.11690345108509063,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2490,
      "train_speed(iter/s)": 0.0831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/mean_length": 209.3625,
      "completions/min_length": 132.4,
      "epoch": 1.1977916466634662,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.127728670835495,
      "kl": 0.02237548828125,
      "learning_rate": 3.791417682091527e-06,
      "loss": 0.0008956640027463436,
      "memory(GiB)": 27.09,
      "reward": 0.4219499886035919,
      "reward_std": 0.1320168349891901,
      "rewards/MMContentORM/mean": 0.505500003695488,
      "rewards/MMContentORM/std": 0.6720031678676606,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2495,
      "train_speed(iter/s)": 0.083119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 453.2,
      "completions/mean_length": 226.9875,
      "completions/min_length": 155.8,
      "epoch": 1.2001920307249159,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.05174791067838669,
      "kl": 0.0158203125,
      "learning_rate": 3.7721674955272204e-06,
      "loss": 0.0006332498509436846,
      "memory(GiB)": 27.09,
      "reward": 0.41349998116493225,
      "reward_std": 0.19813132584095,
      "rewards/MMContentORM/mean": 0.5149999976158142,
      "rewards/MMContentORM/std": 0.6243453428149224,
      "rewards/MMFormatORM/mean": 0.574999988079071,
      "rewards/MMFormatORM/std": 0.17490466833114623,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27006530165672304,
      "step": 2500,
      "train_speed(iter/s)": 0.083078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.8,
      "completions/mean_length": 216.775,
      "completions/min_length": 137.4,
      "epoch": 1.2025924147863658,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 1.2531236410140991,
      "kl": 0.06446533203125,
      "learning_rate": 3.75293665741425e-06,
      "loss": 0.002578136883676052,
      "memory(GiB)": 27.09,
      "reward": 0.36609998643398284,
      "reward_std": 0.14919953048229218,
      "rewards/MMContentORM/mean": 0.351500004529953,
      "rewards/MMContentORM/std": 0.6848280310630799,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2505,
      "train_speed(iter/s)": 0.083051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 264.2,
      "completions/mean_length": 205.3,
      "completions/min_length": 144.8,
      "epoch": 1.2049927988478157,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.17887341976165771,
      "kl": 0.05023193359375,
      "learning_rate": 3.7337254707963382e-06,
      "loss": 0.0020127676427364348,
      "memory(GiB)": 27.09,
      "reward": 0.47439998388290405,
      "reward_std": 0.07014498831704259,
      "rewards/MMContentORM/mean": 0.593500018119812,
      "rewards/MMContentORM/std": 0.6442030429840088,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2510,
      "train_speed(iter/s)": 0.083075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 218.0875,
      "completions/min_length": 142.6,
      "epoch": 1.2073931829092654,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.14247167110443115,
      "kl": 0.014263916015625,
      "learning_rate": 3.714534238407543e-06,
      "loss": 0.0005710631608963013,
      "memory(GiB)": 27.09,
      "reward": 0.5075999617576599,
      "reward_std": 0.08768124505877495,
      "rewards/MMContentORM/mean": 0.6765000104904175,
      "rewards/MMContentORM/std": 0.5244777373969555,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2515,
      "train_speed(iter/s)": 0.083085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.6,
      "completions/mean_length": 210.3625,
      "completions/min_length": 126.8,
      "epoch": 1.2097935669707154,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.09162472188472748,
      "kl": 0.01552734375,
      "learning_rate": 3.695363262667468e-06,
      "loss": 0.0006212275475263596,
      "memory(GiB)": 27.09,
      "reward": 0.4254499673843384,
      "reward_std": 0.13145115275401623,
      "rewards/MMContentORM/mean": 0.4855000078678131,
      "rewards/MMContentORM/std": 0.6825006127357482,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2520,
      "train_speed(iter/s)": 0.083091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.6,
      "completions/mean_length": 209.475,
      "completions/min_length": 122.4,
      "epoch": 1.212193951032165,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1547505259513855,
      "kl": 0.016241455078125,
      "learning_rate": 3.6762128456765167e-06,
      "loss": 0.0006503340788185597,
      "memory(GiB)": 27.09,
      "reward": 0.4827499806880951,
      "reward_std": 0.0962372301146388,
      "rewards/MMContentORM/mean": 0.6000000059604644,
      "rewards/MMContentORM/std": 0.6012049317359924,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2525,
      "train_speed(iter/s)": 0.083092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.6,
      "completions/mean_length": 210.95,
      "completions/min_length": 120.6,
      "epoch": 1.214594335093615,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13495810329914093,
      "kl": 0.01824951171875,
      "learning_rate": 3.657083289211119e-06,
      "loss": 0.0007304124068468809,
      "memory(GiB)": 27.09,
      "reward": 0.5092499613761902,
      "reward_std": 0.1385222177952528,
      "rewards/MMContentORM/mean": 0.6825000166893005,
      "rewards/MMContentORM/std": 0.595128345489502,
      "rewards/MMFormatORM/mean": 0.6156249880790711,
      "rewards/MMFormatORM/std": 0.13036334812641143,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2530,
      "train_speed(iter/s)": 0.083084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.6,
      "completions/mean_length": 217.025,
      "completions/min_length": 131.6,
      "epoch": 1.2169947191550647,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.2071637213230133,
      "kl": 0.014971923828125,
      "learning_rate": 3.637974894718981e-06,
      "loss": 0.0005985705181956291,
      "memory(GiB)": 27.09,
      "reward": 0.5091499626636505,
      "reward_std": 0.0951058566570282,
      "rewards/MMContentORM/mean": 0.6659999966621399,
      "rewards/MMContentORM/std": 0.5581172168254852,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2535,
      "train_speed(iter/s)": 0.083093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 380.0,
      "completions/mean_length": 217.8125,
      "completions/min_length": 125.4,
      "epoch": 1.2193951032165147,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.13724660873413086,
      "kl": 0.017254638671875,
      "learning_rate": 3.6188879633143363e-06,
      "loss": 0.0006901083514094352,
      "memory(GiB)": 27.09,
      "reward": 0.4133999764919281,
      "reward_std": 0.16942277988418936,
      "rewards/MMContentORM/mean": 0.4985000193119049,
      "rewards/MMContentORM/std": 0.6871892631053924,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.16980934143066406,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2612451553344727,
      "step": 2540,
      "train_speed(iter/s)": 0.083084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 459.0,
      "completions/mean_length": 222.625,
      "completions/min_length": 129.4,
      "epoch": 1.2217954872779644,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.004516011103987694,
      "kl": 0.015435791015625,
      "learning_rate": 3.5998227957731925e-06,
      "loss": 0.0006180405616760254,
      "memory(GiB)": 27.09,
      "reward": 0.4870499849319458,
      "reward_std": 0.10429824888706207,
      "rewards/MMContentORM/mean": 0.6394999861717224,
      "rewards/MMContentORM/std": 0.6266542971134186,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2545,
      "train_speed(iter/s)": 0.083042
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.0,
      "completions/mean_length": 215.125,
      "completions/min_length": 152.6,
      "epoch": 1.2241958713394143,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1654830425977707,
      "kl": 0.014935302734375,
      "learning_rate": 3.580779692528606e-06,
      "loss": 0.0005975381471216678,
      "memory(GiB)": 27.09,
      "reward": 0.45944997668266296,
      "reward_std": 0.12353154704906047,
      "rewards/MMContentORM/mean": 0.5705000042915345,
      "rewards/MMContentORM/std": 0.6434941411018371,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 2550,
      "train_speed(iter/s)": 0.083034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.4,
      "completions/mean_length": 214.4125,
      "completions/min_length": 145.4,
      "epoch": 1.2265962554008643,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.13121533393859863,
      "kl": 0.015008544921875,
      "learning_rate": 3.56175895366593e-06,
      "loss": 0.0006003345362842083,
      "memory(GiB)": 27.09,
      "reward": 0.4941499769687653,
      "reward_std": 0.09482301429379732,
      "rewards/MMContentORM/mean": 0.6285000085830689,
      "rewards/MMContentORM/std": 0.6090345978736877,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2555,
      "train_speed(iter/s)": 0.083055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.8,
      "completions/mean_length": 217.95,
      "completions/min_length": 139.8,
      "epoch": 1.228996639462314,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15669004619121552,
      "kl": 0.017437744140625,
      "learning_rate": 3.542760878918104e-06,
      "loss": 0.0006977845449000597,
      "memory(GiB)": 27.09,
      "reward": 0.4942499816417694,
      "reward_std": 0.11334921540692448,
      "rewards/MMContentORM/mean": 0.657500022649765,
      "rewards/MMContentORM/std": 0.5437608852982521,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2560,
      "train_speed(iter/s)": 0.083051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.8,
      "completions/mean_length": 208.3375,
      "completions/min_length": 120.2,
      "epoch": 1.2313970235237637,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.151866614818573,
      "kl": 0.021160888671875,
      "learning_rate": 3.5237857676609146e-06,
      "loss": 0.0008449718356132507,
      "memory(GiB)": 27.09,
      "reward": 0.49779998064041137,
      "reward_std": 0.08174154479056597,
      "rewards/MMContentORM/mean": 0.6519999980926514,
      "rewards/MMContentORM/std": 0.4489804258570075,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2565,
      "train_speed(iter/s)": 0.083065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 457.8,
      "completions/mean_length": 224.7875,
      "completions/min_length": 153.8,
      "epoch": 1.2337974075852136,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.10642041265964508,
      "kl": 0.019122314453125,
      "learning_rate": 3.504833918908285e-06,
      "loss": 0.0007648383732885122,
      "memory(GiB)": 27.09,
      "reward": 0.4542999804019928,
      "reward_std": 0.15117942336946727,
      "rewards/MMContentORM/mean": 0.5719999969005585,
      "rewards/MMContentORM/std": 0.6259439706802368,
      "rewards/MMFormatORM/mean": 0.6012499749660491,
      "rewards/MMFormatORM/std": 0.10254122316837311,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.15775573253631592,
      "step": 2570,
      "train_speed(iter/s)": 0.083017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 367.0,
      "completions/mean_length": 212.3125,
      "completions/min_length": 137.8,
      "epoch": 1.2361977916466635,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14486433565616608,
      "kl": 0.015093994140625,
      "learning_rate": 3.485905631307569e-06,
      "loss": 0.0006040884181857109,
      "memory(GiB)": 27.09,
      "reward": 0.5060999631881714,
      "reward_std": 0.14354267725721,
      "rewards/MMContentORM/mean": 0.7014999866485596,
      "rewards/MMContentORM/std": 0.598384690284729,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2575,
      "train_speed(iter/s)": 0.083015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 209.325,
      "completions/min_length": 137.4,
      "epoch": 1.2385981757081133,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15318423509597778,
      "kl": 0.01575927734375,
      "learning_rate": 3.4670012031348322e-06,
      "loss": 0.0006300311535596848,
      "memory(GiB)": 27.09,
      "reward": 0.47869997620582583,
      "reward_std": 0.1590990237891674,
      "rewards/MMContentORM/mean": 0.6330000102519989,
      "rewards/MMContentORM/std": 0.6443586707115173,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2580,
      "train_speed(iter/s)": 0.083024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 444.8,
      "completions/mean_length": 217.175,
      "completions/min_length": 122.4,
      "epoch": 1.2409985597695632,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.21531488001346588,
      "kl": 0.01881103515625,
      "learning_rate": 3.448120932290162e-06,
      "loss": 0.0007515028119087219,
      "memory(GiB)": 27.09,
      "reward": 0.5039499998092651,
      "reward_std": 0.09963134194258601,
      "rewards/MMContentORM/mean": 0.653000009059906,
      "rewards/MMContentORM/std": 0.6097694873809815,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2585,
      "train_speed(iter/s)": 0.082982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.8,
      "completions/mean_length": 211.8375,
      "completions/min_length": 133.4,
      "epoch": 1.243398943831013,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.09009666740894318,
      "kl": 0.064111328125,
      "learning_rate": 3.4292651162929646e-06,
      "loss": 0.0025743709877133368,
      "memory(GiB)": 27.09,
      "reward": 0.4833499789237976,
      "reward_std": 0.08520637114997953,
      "rewards/MMContentORM/mean": 0.6015000224113465,
      "rewards/MMContentORM/std": 0.5234865859150887,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2590,
      "train_speed(iter/s)": 0.082999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 213.6375,
      "completions/min_length": 128.0,
      "epoch": 1.2457993278924628,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11567575484514236,
      "kl": 0.02685546875,
      "learning_rate": 3.4104340522772892e-06,
      "loss": 0.0010737581178545952,
      "memory(GiB)": 27.09,
      "reward": 0.4908499777317047,
      "reward_std": 0.128339883685112,
      "rewards/MMContentORM/mean": 0.6490000128746033,
      "rewards/MMContentORM/std": 0.6057178854942322,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2595,
      "train_speed(iter/s)": 0.083011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 487.2,
      "completions/mean_length": 232.225,
      "completions/min_length": 159.8,
      "epoch": 1.2481997119539125,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.19209064543247223,
      "kl": 0.01651611328125,
      "learning_rate": 3.391628036987131e-06,
      "loss": 0.0006616008933633566,
      "memory(GiB)": 27.09,
      "reward": 0.49179998636245725,
      "reward_std": 0.10097484849393368,
      "rewards/MMContentORM/mean": 0.6370000183582306,
      "rewards/MMContentORM/std": 0.5937303185462952,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2600,
      "train_speed(iter/s)": 0.082964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.4,
      "completions/mean_length": 206.225,
      "completions/min_length": 122.6,
      "epoch": 1.2506000960153625,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15095524489879608,
      "kl": 0.03800048828125,
      "learning_rate": 3.3728473667717624e-06,
      "loss": 0.0015181325376033782,
      "memory(GiB)": 27.09,
      "reward": 0.47339999079704287,
      "reward_std": 0.12077383659780025,
      "rewards/MMContentORM/mean": 0.5910000026226043,
      "rewards/MMContentORM/std": 0.6444690108299256,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2605,
      "train_speed(iter/s)": 0.08294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.0,
      "completions/mean_length": 215.8875,
      "completions/min_length": 140.6,
      "epoch": 1.2530004800768122,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1393103450536728,
      "kl": 0.013934326171875,
      "learning_rate": 3.3540923375810687e-06,
      "loss": 0.0005574138835072517,
      "memory(GiB)": 27.09,
      "reward": 0.5067499876022339,
      "reward_std": 0.07643824107944966,
      "rewards/MMContentORM/mean": 0.6599999904632569,
      "rewards/MMContentORM/std": 0.5702946484088898,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2610,
      "train_speed(iter/s)": 0.082956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.0,
      "completions/mean_length": 205.475,
      "completions/min_length": 120.6,
      "epoch": 1.2554008641382621,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.166556254029274,
      "kl": 0.01988525390625,
      "learning_rate": 3.3353632449608703e-06,
      "loss": 0.0007944651879370213,
      "memory(GiB)": 27.09,
      "reward": 0.3788499802350998,
      "reward_std": 0.20470740869641305,
      "rewards/MMContentORM/mean": 0.4265000134706497,
      "rewards/MMContentORM/std": 0.7319641351699829,
      "rewards/MMFormatORM/mean": 0.576874977350235,
      "rewards/MMFormatORM/std": 0.17944467663764954,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.27606874108314516,
      "step": 2615,
      "train_speed(iter/s)": 0.082975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.4,
      "completions/mean_length": 211.975,
      "completions/min_length": 123.8,
      "epoch": 1.257801248199712,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.17242266237735748,
      "kl": 0.03348388671875,
      "learning_rate": 3.3166603840482815e-06,
      "loss": 0.0013363593257963657,
      "memory(GiB)": 27.09,
      "reward": 0.4672499895095825,
      "reward_std": 0.14361337879672648,
      "rewards/MMContentORM/mean": 0.5900000095367431,
      "rewards/MMContentORM/std": 0.5261604383587837,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2620,
      "train_speed(iter/s)": 0.08299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.8,
      "completions/mean_length": 214.225,
      "completions/min_length": 145.2,
      "epoch": 1.2602016322611618,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.12951968610286713,
      "kl": 0.016705322265625,
      "learning_rate": 3.297984049567041e-06,
      "loss": 0.0006685989443212748,
      "memory(GiB)": 27.09,
      "reward": 0.4681499719619751,
      "reward_std": 0.12480434402823448,
      "rewards/MMContentORM/mean": 0.6210000038146972,
      "rewards/MMContentORM/std": 0.6814538955688476,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 2625,
      "train_speed(iter/s)": 0.083002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.8,
      "completions/mean_length": 208.0875,
      "completions/min_length": 115.2,
      "epoch": 1.2626020163226115,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.0806797593832016,
      "kl": 0.017120361328125,
      "learning_rate": 3.2793345358228935e-06,
      "loss": 0.000685088150203228,
      "memory(GiB)": 27.09,
      "reward": 0.4675999879837036,
      "reward_std": 0.09291383468080312,
      "rewards/MMContentORM/mean": 0.6089999973773956,
      "rewards/MMContentORM/std": 0.6673885464668274,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.1443081244826317,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2630,
      "train_speed(iter/s)": 0.083009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.4,
      "completions/mean_length": 225.5125,
      "completions/min_length": 153.2,
      "epoch": 1.2650024003840614,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1779165416955948,
      "kl": 0.016461181640625,
      "learning_rate": 3.2607121366989216e-06,
      "loss": 0.0006584211252629757,
      "memory(GiB)": 27.09,
      "reward": 0.4672499716281891,
      "reward_std": 0.10175266489386559,
      "rewards/MMContentORM/mean": 0.5775000095367432,
      "rewards/MMContentORM/std": 0.6095366299152374,
      "rewards/MMFormatORM/mean": 0.6156249880790711,
      "rewards/MMFormatORM/std": 0.11690345108509063,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2635,
      "train_speed(iter/s)": 0.083015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.8,
      "completions/mean_length": 221.1875,
      "completions/min_length": 122.8,
      "epoch": 1.2674027844455114,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.17611438035964966,
      "kl": 0.022784423828125,
      "learning_rate": 3.242117145650936e-06,
      "loss": 0.0009104921482503414,
      "memory(GiB)": 27.09,
      "reward": 0.4905499994754791,
      "reward_std": 0.13272394693922251,
      "rewards/MMContentORM/mean": 0.6645000100135803,
      "rewards/MMContentORM/std": 0.5864324927330017,
      "rewards/MMFormatORM/mean": 0.5993749856948852,
      "rewards/MMFormatORM/std": 0.12920948565006257,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2640,
      "train_speed(iter/s)": 0.083009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.0,
      "completions/mean_length": 212.8875,
      "completions/min_length": 133.4,
      "epoch": 1.269803168506961,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1824599802494049,
      "kl": 0.016510009765625,
      "learning_rate": 3.2235498557028487e-06,
      "loss": 0.0006610351148992777,
      "memory(GiB)": 27.09,
      "reward": 0.3902499735355377,
      "reward_std": 0.1405021134763956,
      "rewards/MMContentORM/mean": 0.3975000023841858,
      "rewards/MMContentORM/std": 0.6953428506851196,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2645,
      "train_speed(iter/s)": 0.083028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 534.6,
      "completions/mean_length": 226.7,
      "completions/min_length": 137.4,
      "epoch": 1.272203552568411,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.17883527278900146,
      "kl": 0.01495361328125,
      "learning_rate": 3.2050105594420463e-06,
      "loss": 0.0005979948677122593,
      "memory(GiB)": 27.09,
      "reward": 0.4455499768257141,
      "reward_std": 0.17939299046993257,
      "rewards/MMContentORM/mean": 0.5645000159740448,
      "rewards/MMContentORM/std": 0.68505859375,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 2650,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 457.2,
      "completions/mean_length": 217.825,
      "completions/min_length": 132.0,
      "epoch": 1.2746039366298607,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.15864062309265137,
      "kl": 0.01883544921875,
      "learning_rate": 3.186499549014788e-06,
      "loss": 0.0007538811769336462,
      "memory(GiB)": 27.09,
      "reward": 0.3846499860286713,
      "reward_std": 0.18024151772260666,
      "rewards/MMContentORM/mean": 0.4284999966621399,
      "rewards/MMContentORM/std": 0.7736505270004272,
      "rewards/MMFormatORM/mean": 0.5831249833106995,
      "rewards/MMFormatORM/std": 0.19467147588729858,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 2655,
      "train_speed(iter/s)": 0.08292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 220.7875,
      "completions/min_length": 154.4,
      "epoch": 1.2770043206913106,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.20636998116970062,
      "kl": 0.0220458984375,
      "learning_rate": 3.168017116121594e-06,
      "loss": 0.0008822778239846229,
      "memory(GiB)": 27.09,
      "reward": 0.5081999719142913,
      "reward_std": 0.09531799275428057,
      "rewards/MMContentORM/mean": 0.6780000150203704,
      "rewards/MMContentORM/std": 0.5256944436579942,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2660,
      "train_speed(iter/s)": 0.082931
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.8,
      "completions/mean_length": 215.725,
      "completions/min_length": 121.8,
      "epoch": 1.2794047047527606,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.10092300921678543,
      "kl": 0.023101806640625,
      "learning_rate": 3.149563552012662e-06,
      "loss": 0.0009249597787857056,
      "memory(GiB)": 27.09,
      "reward": 0.47155000567436217,
      "reward_std": 0.15959399938583374,
      "rewards/MMContentORM/mean": 0.6170000016689301,
      "rewards/MMContentORM/std": 0.6519209682941437,
      "rewards/MMFormatORM/mean": 0.5993749856948852,
      "rewards/MMFormatORM/std": 0.17476680278778076,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 2665,
      "train_speed(iter/s)": 0.08294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 444.0,
      "completions/mean_length": 218.575,
      "completions/min_length": 132.6,
      "epoch": 1.2818050888142103,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.16917936503887177,
      "kl": 0.01629638671875,
      "learning_rate": 3.1311391474832596e-06,
      "loss": 0.0006522711366415024,
      "memory(GiB)": 27.09,
      "reward": 0.4537999749183655,
      "reward_std": 0.0890954568516463,
      "rewards/MMContentORM/mean": 0.542000013589859,
      "rewards/MMContentORM/std": 0.6675113797187805,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2670,
      "train_speed(iter/s)": 0.082909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.2,
      "completions/mean_length": 205.0625,
      "completions/min_length": 136.0,
      "epoch": 1.28420547287566,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13570167124271393,
      "kl": 0.0154052734375,
      "learning_rate": 3.1127441928691575e-06,
      "loss": 0.0006159848999232054,
      "memory(GiB)": 27.09,
      "reward": 0.4889999747276306,
      "reward_std": 0.09192388076335192,
      "rewards/MMContentORM/mean": 0.6299999952316284,
      "rewards/MMContentORM/std": 0.5938115835189819,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2675,
      "train_speed(iter/s)": 0.082919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.6,
      "completions/mean_length": 207.45,
      "completions/min_length": 135.2,
      "epoch": 1.28660585693711,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.11782620847225189,
      "kl": 0.018231201171875,
      "learning_rate": 3.0943789780420473e-06,
      "loss": 0.0007292300462722779,
      "memory(GiB)": 27.09,
      "reward": 0.41379998326301576,
      "reward_std": 0.06477098376490176,
      "rewards/MMContentORM/mean": 0.4419999986886978,
      "rewards/MMContentORM/std": 0.6502050161361694,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2680,
      "train_speed(iter/s)": 0.08293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.2,
      "completions/mean_length": 218.4,
      "completions/min_length": 146.4,
      "epoch": 1.2890062409985599,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1357801854610443,
      "kl": 0.01868896484375,
      "learning_rate": 3.0760437924049723e-06,
      "loss": 0.0007480094209313393,
      "memory(GiB)": 27.09,
      "reward": 0.4612999796867371,
      "reward_std": 0.14127993900328875,
      "rewards/MMContentORM/mean": 0.5895000040531159,
      "rewards/MMContentORM/std": 0.5788779146969318,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2685,
      "train_speed(iter/s)": 0.082928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.4,
      "completions/mean_length": 213.9875,
      "completions/min_length": 152.0,
      "epoch": 1.2914066250600096,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.18375363945960999,
      "kl": 0.015374755859375,
      "learning_rate": 3.0577389248877737e-06,
      "loss": 0.0006146729923784733,
      "memory(GiB)": 27.09,
      "reward": 0.42199998497962954,
      "reward_std": 0.130673336237669,
      "rewards/MMContentORM/mean": 0.4625000059604645,
      "rewards/MMContentORM/std": 0.6796015799045563,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2690,
      "train_speed(iter/s)": 0.082933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 265.8,
      "completions/mean_length": 197.325,
      "completions/min_length": 133.8,
      "epoch": 1.2938070091214593,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15211942791938782,
      "kl": 0.0177978515625,
      "learning_rate": 3.0394646639425276e-06,
      "loss": 0.0007108286954462528,
      "memory(GiB)": 27.09,
      "reward": 0.4626499831676483,
      "reward_std": 0.11787469983100891,
      "rewards/MMContentORM/mean": 0.5785000056028367,
      "rewards/MMContentORM/std": 0.6342697024345398,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2695,
      "train_speed(iter/s)": 0.082962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.8,
      "completions/mean_length": 215.3875,
      "completions/min_length": 126.2,
      "epoch": 1.2962073931829092,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1444334089756012,
      "kl": 0.0158203125,
      "learning_rate": 3.021221297539007e-06,
      "loss": 0.000632589589804411,
      "memory(GiB)": 27.09,
      "reward": 0.49159998297691343,
      "reward_std": 0.10861160224303604,
      "rewards/MMContentORM/mean": 0.6365000009536743,
      "rewards/MMContentORM/std": 0.5993415236473083,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 2700,
      "train_speed(iter/s)": 0.08297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.4,
      "completions/mean_length": 217.225,
      "completions/min_length": 136.2,
      "epoch": 1.2986077772443592,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1874951273202896,
      "kl": 0.01707763671875,
      "learning_rate": 3.0030091131601458e-06,
      "loss": 0.0006825667340308427,
      "memory(GiB)": 27.09,
      "reward": 0.43964999318122866,
      "reward_std": 0.22167797833681108,
      "rewards/MMContentORM/mean": 0.5785000145435333,
      "rewards/MMContentORM/std": 0.7030053317546845,
      "rewards/MMFormatORM/mean": 0.576874989271164,
      "rewards/MMFormatORM/std": 0.20004121959209442,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.30775573253631594,
      "step": 2705,
      "train_speed(iter/s)": 0.08295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.4,
      "completions/mean_length": 214.0625,
      "completions/min_length": 147.0,
      "epoch": 1.3010081613058089,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13891303539276123,
      "kl": 0.015338134765625,
      "learning_rate": 2.984828397797499e-06,
      "loss": 0.0006134298164397478,
      "memory(GiB)": 27.09,
      "reward": 0.4906999826431274,
      "reward_std": 0.15061374455690385,
      "rewards/MMContentORM/mean": 0.6630000233650207,
      "rewards/MMContentORM/std": 0.5227236907929182,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2710,
      "train_speed(iter/s)": 0.082958
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.2,
      "completions/mean_length": 212.925,
      "completions/min_length": 128.6,
      "epoch": 1.3034085453672588,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.22613218426704407,
      "kl": 0.018865966796875,
      "learning_rate": 2.966679437946732e-06,
      "loss": 0.0007538828998804092,
      "memory(GiB)": 27.09,
      "reward": 0.4224499940872192,
      "reward_std": 0.13795652985572815,
      "rewards/MMContentORM/mean": 0.47800001204013826,
      "rewards/MMContentORM/std": 0.6876972198486329,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2715,
      "train_speed(iter/s)": 0.08295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.6,
      "completions/mean_length": 211.9875,
      "completions/min_length": 144.6,
      "epoch": 1.3058089294287085,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1565045714378357,
      "kl": 0.018109130859375,
      "learning_rate": 2.948562519603093e-06,
      "loss": 0.0007246591150760651,
      "memory(GiB)": 27.09,
      "reward": 0.41704997420310974,
      "reward_std": 0.11052079051733017,
      "rewards/MMContentORM/mean": 0.4644999921321869,
      "rewards/MMContentORM/std": 0.6703303098678589,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2720,
      "train_speed(iter/s)": 0.082952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.0,
      "completions/mean_length": 219.45,
      "completions/min_length": 151.0,
      "epoch": 1.3082093134901585,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.13537226617336273,
      "kl": 0.015643310546875,
      "learning_rate": 2.930477928256921e-06,
      "loss": 0.0006261279806494713,
      "memory(GiB)": 27.09,
      "reward": 0.4939499914646149,
      "reward_std": 0.11151073649525642,
      "rewards/MMContentORM/mean": 0.628000009059906,
      "rewards/MMContentORM/std": 0.6397946953773499,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2725,
      "train_speed(iter/s)": 0.082952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.2,
      "completions/mean_length": 209.675,
      "completions/min_length": 131.4,
      "epoch": 1.3106096975516084,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.148203507065773,
      "kl": 0.014532470703125,
      "learning_rate": 2.912425948889134e-06,
      "loss": 0.000581054575741291,
      "memory(GiB)": 27.09,
      "reward": 0.4759999871253967,
      "reward_std": 0.11653119549155236,
      "rewards/MMContentORM/mean": 0.5975000083446502,
      "rewards/MMContentORM/std": 0.6301550388336181,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2730,
      "train_speed(iter/s)": 0.082965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.6,
      "completions/mean_length": 213.9,
      "completions/min_length": 133.6,
      "epoch": 1.313010081613058,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.2361445128917694,
      "kl": 0.024627685546875,
      "learning_rate": 2.894406865966739e-06,
      "loss": 0.0009845934808254242,
      "memory(GiB)": 27.09,
      "reward": 0.4808999836444855,
      "reward_std": 0.1356230785138905,
      "rewards/MMContentORM/mean": 0.6385000109672546,
      "rewards/MMContentORM/std": 0.6562785744667053,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2735,
      "train_speed(iter/s)": 0.082973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.6,
      "completions/mean_length": 215.15,
      "completions/min_length": 137.4,
      "epoch": 1.3154104656745078,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.13266721367835999,
      "kl": 0.013671875,
      "learning_rate": 2.876420963438369e-06,
      "loss": 0.000547263352200389,
      "memory(GiB)": 27.09,
      "reward": 0.4798999786376953,
      "reward_std": 0.12119809612631798,
      "rewards/MMContentORM/mean": 0.6360000133514404,
      "rewards/MMContentORM/std": 0.6224928319454193,
      "rewards/MMFormatORM/mean": 0.6012499690055847,
      "rewards/MMFormatORM/std": 0.13321036398410796,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.20493902564048766,
      "step": 2740,
      "train_speed(iter/s)": 0.08299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 295.4,
      "completions/mean_length": 208.075,
      "completions/min_length": 129.4,
      "epoch": 1.3178108497359577,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14808304607868195,
      "kl": 0.015924072265625,
      "learning_rate": 2.8584685247297735e-06,
      "loss": 0.0006361417472362518,
      "memory(GiB)": 27.09,
      "reward": 0.455049991607666,
      "reward_std": 0.09468159638345242,
      "rewards/MMContentORM/mean": 0.559500002861023,
      "rewards/MMContentORM/std": 0.5647126242518425,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2745,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.0,
      "completions/mean_length": 217.9125,
      "completions/min_length": 148.2,
      "epoch": 1.3202112337974077,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.20360088348388672,
      "kl": 0.015631103515625,
      "learning_rate": 2.840549832739388e-06,
      "loss": 0.0006251013837754726,
      "memory(GiB)": 27.09,
      "reward": 0.4665999889373779,
      "reward_std": 0.091923877899535,
      "rewards/MMContentORM/mean": 0.5739999890327454,
      "rewards/MMContentORM/std": 0.6347232937812806,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2750,
      "train_speed(iter/s)": 0.082996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/mean_length": 214.2875,
      "completions/min_length": 142.2,
      "epoch": 1.3226116178588574,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.14281363785266876,
      "kl": 0.01690673828125,
      "learning_rate": 2.822665169833851e-06,
      "loss": 0.000676287803798914,
      "memory(GiB)": 27.09,
      "reward": 0.4568999886512756,
      "reward_std": 0.047376152616925536,
      "rewards/MMContentORM/mean": 0.5210000097751617,
      "rewards/MMContentORM/std": 0.6158773601055145,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 2755,
      "train_speed(iter/s)": 0.083002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 486.8,
      "completions/mean_length": 232.45,
      "completions/min_length": 141.2,
      "epoch": 1.3250120019203073,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.2492820769548416,
      "kl": 0.020391845703125,
      "learning_rate": 2.8048148178435666e-06,
      "loss": 0.0008158944547176361,
      "memory(GiB)": 27.09,
      "reward": 0.3429499715566635,
      "reward_std": 0.19226232618093492,
      "rewards/MMContentORM/mean": 0.36550000309944153,
      "rewards/MMContentORM/std": 0.7640251278877258,
      "rewards/MMFormatORM/mean": 0.5606249749660492,
      "rewards/MMFormatORM/std": 0.22384813129901887,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.34438174962997437,
      "step": 2760,
      "train_speed(iter/s)": 0.082952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.6,
      "completions/mean_length": 214.4625,
      "completions/min_length": 140.2,
      "epoch": 1.327412385981757,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1096256673336029,
      "kl": 0.01571044921875,
      "learning_rate": 2.7869990580582584e-06,
      "loss": 0.0006275205872952938,
      "memory(GiB)": 27.09,
      "reward": 0.5268999934196472,
      "reward_std": 0.06434671822935342,
      "rewards/MMContentORM/mean": 0.6960000038146973,
      "rewards/MMContentORM/std": 0.5165394425392151,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2765,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.6,
      "completions/mean_length": 212.7,
      "completions/min_length": 152.4,
      "epoch": 1.329812770043207,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.16367603838443756,
      "kl": 0.01417236328125,
      "learning_rate": 2.769218171222538e-06,
      "loss": 0.0005671579390764236,
      "memory(GiB)": 27.09,
      "reward": 0.4968499898910522,
      "reward_std": 0.1402192786335945,
      "rewards/MMContentORM/mean": 0.6639999985694885,
      "rewards/MMContentORM/std": 0.5903096914291381,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2770,
      "train_speed(iter/s)": 0.08298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.6,
      "completions/mean_length": 211.125,
      "completions/min_length": 140.4,
      "epoch": 1.3322131541046567,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.200842946767807,
      "kl": 0.03021240234375,
      "learning_rate": 2.7514724375314866e-06,
      "loss": 0.0012100426480174064,
      "memory(GiB)": 27.09,
      "reward": 0.5299499869346619,
      "reward_std": 0.06965001099742948,
      "rewards/MMContentORM/mean": 0.7180000185966492,
      "rewards/MMContentORM/std": 0.4512696675956249,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2775,
      "train_speed(iter/s)": 0.082989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 428.0,
      "completions/mean_length": 215.7125,
      "completions/min_length": 139.8,
      "epoch": 1.3346135381661066,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1629835069179535,
      "kl": 0.01583251953125,
      "learning_rate": 2.733762136626229e-06,
      "loss": 0.0006339491344988346,
      "memory(GiB)": 27.09,
      "reward": 0.46864998936653135,
      "reward_std": 0.1297540941275656,
      "rewards/MMContentORM/mean": 0.5935000061988831,
      "rewards/MMContentORM/std": 0.6146703898906708,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2780,
      "train_speed(iter/s)": 0.082955
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.2,
      "completions/mean_length": 217.0375,
      "completions/min_length": 124.8,
      "epoch": 1.3370139222275563,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.20240968465805054,
      "kl": 0.0284912109375,
      "learning_rate": 2.7160875475895336e-06,
      "loss": 0.0011421437375247478,
      "memory(GiB)": 27.09,
      "reward": 0.4283499836921692,
      "reward_std": 0.19070670306682586,
      "rewards/MMContentORM/mean": 0.5214999914169312,
      "rewards/MMContentORM/std": 0.6971070170402527,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 2785,
      "train_speed(iter/s)": 0.082956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/mean_length": 211.175,
      "completions/min_length": 94.6,
      "epoch": 1.3394143062890063,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.21979370713233948,
      "kl": 0.018133544921875,
      "learning_rate": 2.6984489489414123e-06,
      "loss": 0.0007254761178046465,
      "memory(GiB)": 27.09,
      "reward": 0.46289997100830077,
      "reward_std": 0.1593818672001362,
      "rewards/MMContentORM/mean": 0.5935000061988831,
      "rewards/MMContentORM/std": 0.6262759625911712,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 2790,
      "train_speed(iter/s)": 0.082967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.6,
      "completions/mean_length": 213.75,
      "completions/min_length": 154.8,
      "epoch": 1.3418146903504562,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07046330720186234,
      "kl": 0.018560791015625,
      "learning_rate": 2.680846618634741e-06,
      "loss": 0.0007423401810228824,
      "memory(GiB)": 27.09,
      "reward": 0.4933999955654144,
      "reward_std": 0.07155919813085347,
      "rewards/MMContentORM/mean": 0.6410000085830688,
      "rewards/MMContentORM/std": 0.557767578959465,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 2795,
      "train_speed(iter/s)": 0.082976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 333.8,
      "completions/mean_length": 221.375,
      "completions/min_length": 156.6,
      "epoch": 1.344215074411906,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.08354189991950989,
      "kl": 0.01629638671875,
      "learning_rate": 2.6632808340508577e-06,
      "loss": 0.0006520752795040607,
      "memory(GiB)": 27.09,
      "reward": 0.4364499866962433,
      "reward_std": 0.12155165586154908,
      "rewards/MMContentORM/mean": 0.5130000054836273,
      "rewards/MMContentORM/std": 0.6738922476768494,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2800,
      "train_speed(iter/s)": 0.08298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.8,
      "completions/mean_length": 212.125,
      "completions/min_length": 136.2,
      "epoch": 1.3466154584733556,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.07269278913736343,
      "kl": 0.013916015625,
      "learning_rate": 2.6457518719952126e-06,
      "loss": 0.0005559300072491169,
      "memory(GiB)": 27.09,
      "reward": 0.4854999780654907,
      "reward_std": 0.08329717591404914,
      "rewards/MMContentORM/mean": 0.5925000071525574,
      "rewards/MMContentORM/std": 0.5689398109912872,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2805,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.8,
      "completions/mean_length": 207.2375,
      "completions/min_length": 144.4,
      "epoch": 1.3490158425348056,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.21120710670948029,
      "kl": 0.016229248046875,
      "learning_rate": 2.628260008693e-06,
      "loss": 0.0006484090350568295,
      "memory(GiB)": 27.09,
      "reward": 0.4767999827861786,
      "reward_std": 0.12105667740106582,
      "rewards/MMContentORM/mean": 0.5995000123977661,
      "rewards/MMContentORM/std": 0.6707588911056519,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2810,
      "train_speed(iter/s)": 0.082981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.2,
      "completions/mean_length": 215.175,
      "completions/min_length": 147.6,
      "epoch": 1.3514162265962555,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.17420639097690582,
      "kl": 0.013153076171875,
      "learning_rate": 2.6108055197848013e-06,
      "loss": 0.0005263995379209518,
      "memory(GiB)": 27.09,
      "reward": 0.49479998350143434,
      "reward_std": 0.1250164821743965,
      "rewards/MMContentORM/mean": 0.6445000052452088,
      "rewards/MMContentORM/std": 0.6272825956344604,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2815,
      "train_speed(iter/s)": 0.082983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/mean_length": 211.6875,
      "completions/min_length": 148.4,
      "epoch": 1.3538166106577052,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13600178062915802,
      "kl": 0.015380859375,
      "learning_rate": 2.5933886803222453e-06,
      "loss": 0.0006146400235593319,
      "memory(GiB)": 27.09,
      "reward": 0.5410999894142151,
      "reward_std": 0.07990306429564953,
      "rewards/MMContentORM/mean": 0.7315000176429749,
      "rewards/MMContentORM/std": 0.4983065962791443,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2820,
      "train_speed(iter/s)": 0.082998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.6,
      "completions/mean_length": 209.3125,
      "completions/min_length": 116.4,
      "epoch": 1.3562169947191551,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11442702263593674,
      "kl": 0.017779541015625,
      "learning_rate": 2.5760097647636695e-06,
      "loss": 0.0007101839408278465,
      "memory(GiB)": 27.09,
      "reward": 0.48674996495246886,
      "reward_std": 0.1194303346797824,
      "rewards/MMContentORM/mean": 0.6099999904632568,
      "rewards/MMContentORM/std": 0.6200049042701721,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 2825,
      "train_speed(iter/s)": 0.083002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.4,
      "completions/mean_length": 210.4875,
      "completions/min_length": 157.0,
      "epoch": 1.3586173787806048,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.1676364243030548,
      "kl": 0.02005615234375,
      "learning_rate": 2.558669046969802e-06,
      "loss": 0.0008024025708436966,
      "memory(GiB)": 27.09,
      "reward": 0.4595999836921692,
      "reward_std": 0.1962928393855691,
      "rewards/MMContentORM/mean": 0.614000004529953,
      "rewards/MMContentORM/std": 0.6589715838432312,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 2830,
      "train_speed(iter/s)": 0.083023
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.6,
      "completions/mean_length": 207.925,
      "completions/min_length": 124.2,
      "epoch": 1.3610177628420548,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11557711660861969,
      "kl": 0.016168212890625,
      "learning_rate": 2.541366800199441e-06,
      "loss": 0.0006470034830272197,
      "memory(GiB)": 27.09,
      "reward": 0.4768499732017517,
      "reward_std": 0.1373908487148583,
      "rewards/MMContentORM/mean": 0.6140000224113464,
      "rewards/MMContentORM/std": 0.6126730859279632,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2835,
      "train_speed(iter/s)": 0.083045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 455.6,
      "completions/mean_length": 221.3125,
      "completions/min_length": 119.6,
      "epoch": 1.3634181469035045,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.17624257504940033,
      "kl": 0.021038818359375,
      "learning_rate": 2.524103297105147e-06,
      "loss": 0.0008411226794123649,
      "memory(GiB)": 27.09,
      "reward": 0.4879499852657318,
      "reward_std": 0.17599886879324914,
      "rewards/MMContentORM/mean": 0.6705000042915344,
      "rewards/MMContentORM/std": 0.5964474260807038,
      "rewards/MMFormatORM/mean": 0.5931249916553497,
      "rewards/MMFormatORM/std": 0.1556377649307251,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.23944272398948668,
      "step": 2840,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.4,
      "completions/mean_length": 212.0625,
      "completions/min_length": 137.4,
      "epoch": 1.3658185309649544,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11209463328123093,
      "kl": 0.015325927734375,
      "learning_rate": 2.5068788097289563e-06,
      "loss": 0.0006131676957011223,
      "memory(GiB)": 27.09,
      "reward": 0.508549964427948,
      "reward_std": 0.09256027387455106,
      "rewards/MMContentORM/mean": 0.6645000219345093,
      "rewards/MMContentORM/std": 0.49717583805322646,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2845,
      "train_speed(iter/s)": 0.083015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.0,
      "completions/mean_length": 207.475,
      "completions/min_length": 144.2,
      "epoch": 1.3682189150264041,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.14943933486938477,
      "kl": 0.015374755859375,
      "learning_rate": 2.4896936094980813e-06,
      "loss": 0.0006145826540887356,
      "memory(GiB)": 27.09,
      "reward": 0.51869997382164,
      "reward_std": 0.07311484031379223,
      "rewards/MMContentORM/mean": 0.6755000114440918,
      "rewards/MMContentORM/std": 0.5316406607627868,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2850,
      "train_speed(iter/s)": 0.083019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 212.0875,
      "completions/min_length": 142.2,
      "epoch": 1.370619299087854,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13996316492557526,
      "kl": 0.016644287109375,
      "learning_rate": 2.47254796722064e-06,
      "loss": 0.000665975920855999,
      "memory(GiB)": 27.09,
      "reward": 0.477649986743927,
      "reward_std": 0.11419774293899536,
      "rewards/MMContentORM/mean": 0.6160000085830688,
      "rewards/MMContentORM/std": 0.6154688060283661,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 2855,
      "train_speed(iter/s)": 0.083038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.8,
      "completions/mean_length": 202.125,
      "completions/min_length": 120.2,
      "epoch": 1.373019683149304,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09467165917158127,
      "kl": 0.019873046875,
      "learning_rate": 2.455442153081388e-06,
      "loss": 0.0007954918779432774,
      "memory(GiB)": 27.09,
      "reward": 0.4916999876499176,
      "reward_std": 0.07297342019155621,
      "rewards/MMContentORM/mean": 0.6655000030994416,
      "rewards/MMContentORM/std": 0.5675058551132679,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 2860,
      "train_speed(iter/s)": 0.083051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.4,
      "completions/mean_length": 204.1,
      "completions/min_length": 111.6,
      "epoch": 1.3754200672107537,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1891569048166275,
      "kl": 0.01641845703125,
      "learning_rate": 2.4383764366374608e-06,
      "loss": 0.0006566672120243311,
      "memory(GiB)": 27.09,
      "reward": 0.5054999768733979,
      "reward_std": 0.05897270615678281,
      "rewards/MMContentORM/mean": 0.6424999952316284,
      "rewards/MMContentORM/std": 0.5048037022352219,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2865,
      "train_speed(iter/s)": 0.083069
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/mean_length": 197.075,
      "completions/min_length": 130.0,
      "epoch": 1.3778204512722034,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1894003450870514,
      "kl": 0.016998291015625,
      "learning_rate": 2.4213510868141253e-06,
      "loss": 0.0006809456273913384,
      "memory(GiB)": 27.09,
      "reward": 0.46944997906684877,
      "reward_std": 0.14615897387266158,
      "rewards/MMContentORM/mean": 0.5954999923706055,
      "rewards/MMContentORM/std": 0.6364932656288147,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2870,
      "train_speed(iter/s)": 0.083076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 437.6,
      "completions/mean_length": 216.4625,
      "completions/min_length": 132.4,
      "epoch": 1.3802208353336534,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.16716767847537994,
      "kl": 2.116851806640625,
      "learning_rate": 2.404366371900541e-06,
      "loss": 0.08460500240325927,
      "memory(GiB)": 27.09,
      "reward": 0.47039997577667236,
      "reward_std": 0.08881261080969124,
      "rewards/MMContentORM/mean": 0.5835000097751617,
      "rewards/MMContentORM/std": 0.5921829402446747,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2875,
      "train_speed(iter/s)": 0.083038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 434.2,
      "completions/mean_length": 214.5625,
      "completions/min_length": 143.2,
      "epoch": 1.3826212193951033,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.22403933107852936,
      "kl": 0.01729736328125,
      "learning_rate": 2.387422559545539e-06,
      "loss": 0.0006910515949130058,
      "memory(GiB)": 27.09,
      "reward": 0.4853999733924866,
      "reward_std": 0.1501894833520055,
      "rewards/MMContentORM/mean": 0.6535000264644623,
      "rewards/MMContentORM/std": 0.5772003047168255,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.13168290257453918,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2880,
      "train_speed(iter/s)": 0.082999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 366.0,
      "completions/mean_length": 218.0125,
      "completions/min_length": 145.6,
      "epoch": 1.385021603456553,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1463712602853775,
      "kl": 0.01533203125,
      "learning_rate": 2.3705199167533933e-06,
      "loss": 0.0006130510475486517,
      "memory(GiB)": 27.09,
      "reward": 0.5021499812602996,
      "reward_std": 0.08464068132452666,
      "rewards/MMContentORM/mean": 0.6485000193119049,
      "rewards/MMContentORM/std": 0.5746123373508454,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2885,
      "train_speed(iter/s)": 0.082987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.2,
      "completions/mean_length": 221.3625,
      "completions/min_length": 130.8,
      "epoch": 1.387421987518003,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14541618525981903,
      "kl": 0.022015380859375,
      "learning_rate": 2.35365870987962e-06,
      "loss": 0.000881551206111908,
      "memory(GiB)": 27.09,
      "reward": 0.4464499831199646,
      "reward_std": 0.12112738967407495,
      "rewards/MMContentORM/mean": 0.5380000054836274,
      "rewards/MMContentORM/std": 0.587418507039547,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 2890,
      "train_speed(iter/s)": 0.082996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.8,
      "completions/mean_length": 207.3625,
      "completions/min_length": 114.0,
      "epoch": 1.3898223715794527,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.006435598712414503,
      "kl": 0.112371826171875,
      "learning_rate": 2.336839204626781e-06,
      "loss": 0.00448373295366764,
      "memory(GiB)": 27.09,
      "reward": 0.48819997906684875,
      "reward_std": 0.0975807286798954,
      "rewards/MMContentORM/mean": 0.6280000001192093,
      "rewards/MMContentORM/std": 0.5371371787041426,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2895,
      "train_speed(iter/s)": 0.083007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.8,
      "completions/mean_length": 216.225,
      "completions/min_length": 128.0,
      "epoch": 1.3922227556409026,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.12930913269519806,
      "kl": 0.031195068359375,
      "learning_rate": 2.320061666040293e-06,
      "loss": 0.0012484462931752205,
      "memory(GiB)": 27.09,
      "reward": 0.4482999861240387,
      "reward_std": 0.13816866455599666,
      "rewards/MMContentORM/mean": 0.5569999933242797,
      "rewards/MMContentORM/std": 0.6566318869590759,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2900,
      "train_speed(iter/s)": 0.083008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 381.6,
      "completions/mean_length": 225.3125,
      "completions/min_length": 159.4,
      "epoch": 1.3946231397023523,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11358582973480225,
      "kl": 0.016644287109375,
      "learning_rate": 2.303326358504254e-06,
      "loss": 0.0006654250435531139,
      "memory(GiB)": 27.09,
      "reward": 0.5058999717235565,
      "reward_std": 0.08046875060535967,
      "rewards/MMContentORM/mean": 0.643500006198883,
      "rewards/MMContentORM/std": 0.5736395001411438,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2905,
      "train_speed(iter/s)": 0.082965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.8,
      "completions/mean_length": 208.175,
      "completions/min_length": 143.8,
      "epoch": 1.3970235237638022,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.11047236621379852,
      "kl": 0.017657470703125,
      "learning_rate": 2.286633545737275e-06,
      "loss": 0.0007063564844429493,
      "memory(GiB)": 27.09,
      "reward": 0.444299989938736,
      "reward_std": 0.12515790089964868,
      "rewards/MMContentORM/mean": 0.5469999969005584,
      "rewards/MMContentORM/std": 0.6875294208526611,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2910,
      "train_speed(iter/s)": 0.08298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.0,
      "completions/mean_length": 213.2125,
      "completions/min_length": 118.8,
      "epoch": 1.399423907825252,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.18031013011932373,
      "kl": 0.017578125,
      "learning_rate": 2.2699834907883284e-06,
      "loss": 0.0007039817050099373,
      "memory(GiB)": 27.09,
      "reward": 0.4786999821662903,
      "reward_std": 0.13420886383391917,
      "rewards/MMContentORM/mean": 0.6330000162124634,
      "rewards/MMContentORM/std": 0.6391359031200409,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 2915,
      "train_speed(iter/s)": 0.082991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 333.8,
      "completions/mean_length": 220.05,
      "completions/min_length": 153.6,
      "epoch": 1.4018242918867019,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18326731026172638,
      "kl": 0.019744873046875,
      "learning_rate": 2.2533764560325956e-06,
      "loss": 0.0007898284122347832,
      "memory(GiB)": 27.09,
      "reward": 0.4050499856472015,
      "reward_std": 0.2015961468219757,
      "rewards/MMContentORM/mean": 0.49200000166893004,
      "rewards/MMContentORM/std": 0.7459113121032714,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 2920,
      "train_speed(iter/s)": 0.082989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.4,
      "completions/mean_length": 210.2875,
      "completions/min_length": 125.4,
      "epoch": 1.4042246759481518,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.12701493501663208,
      "kl": 0.0131103515625,
      "learning_rate": 2.236812703167337e-06,
      "loss": 0.0005245218984782696,
      "memory(GiB)": 27.09,
      "reward": 0.4417999804019928,
      "reward_std": 0.15414927080273627,
      "rewards/MMContentORM/mean": 0.5445000112056733,
      "rewards/MMContentORM/std": 0.6644897401332855,
      "rewards/MMFormatORM/mean": 0.5974999785423278,
      "rewards/MMFormatORM/std": 0.11980934292078019,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.16124515533447265,
      "step": 2925,
      "train_speed(iter/s)": 0.082983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.8,
      "completions/mean_length": 211.0,
      "completions/min_length": 129.4,
      "epoch": 1.4066250600096015,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.14272558689117432,
      "kl": 0.0160888671875,
      "learning_rate": 2.2202924932077703e-06,
      "loss": 0.0006431899964809418,
      "memory(GiB)": 27.09,
      "reward": 0.44374998211860656,
      "reward_std": 0.1390879049897194,
      "rewards/MMContentORM/mean": 0.5599999845027923,
      "rewards/MMContentORM/std": 0.6930801510810852,
      "rewards/MMFormatORM/mean": 0.5931249976158142,
      "rewards/MMFormatORM/std": 0.18240466713905334,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2806225776672363,
      "step": 2930,
      "train_speed(iter/s)": 0.082994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 213.025,
      "completions/min_length": 138.4,
      "epoch": 1.4090254440710512,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1295127421617508,
      "kl": 0.01728515625,
      "learning_rate": 2.2038160864829516e-06,
      "loss": 0.0006916459649801254,
      "memory(GiB)": 27.09,
      "reward": 0.4630999803543091,
      "reward_std": 0.1404314052313566,
      "rewards/MMContentORM/mean": 0.5940000176429748,
      "rewards/MMContentORM/std": 0.6665144979953765,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 2935,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.8,
      "completions/mean_length": 216.4,
      "completions/min_length": 145.4,
      "epoch": 1.4114258281325012,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1919974982738495,
      "kl": 0.013800048828125,
      "learning_rate": 2.1873837426316775e-06,
      "loss": 0.0005520004779100418,
      "memory(GiB)": 27.09,
      "reward": 0.4706499934196472,
      "reward_std": 0.1478560283780098,
      "rewards/MMContentORM/mean": 0.5984999895095825,
      "rewards/MMContentORM/std": 0.6424413204193116,
      "rewards/MMFormatORM/mean": 0.609375,
      "rewards/MMFormatORM/std": 0.16249999403953552,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.25,
      "step": 2940,
      "train_speed(iter/s)": 0.082999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.8,
      "completions/mean_length": 210.3,
      "completions/min_length": 140.8,
      "epoch": 1.413826212193951,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1101124957203865,
      "kl": 0.01229248046875,
      "learning_rate": 2.1709957205983904e-06,
      "loss": 0.0004918764345347882,
      "memory(GiB)": 27.09,
      "reward": 0.5490499854087829,
      "reward_std": 0.0635689014568925,
      "rewards/MMContentORM/mean": 0.7369999945163727,
      "rewards/MMContentORM/std": 0.4961404323577881,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 2945,
      "train_speed(iter/s)": 0.082996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.8,
      "completions/mean_length": 212.0375,
      "completions/min_length": 128.2,
      "epoch": 1.4162265962554008,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.15772999823093414,
      "kl": 0.01820068359375,
      "learning_rate": 2.1546522786291055e-06,
      "loss": 0.000728009082376957,
      "memory(GiB)": 27.09,
      "reward": 0.5127999722957611,
      "reward_std": 0.09956063730642199,
      "rewards/MMContentORM/mean": 0.6895000219345093,
      "rewards/MMContentORM/std": 0.5332017622888088,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2950,
      "train_speed(iter/s)": 0.082998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.8,
      "completions/mean_length": 197.4125,
      "completions/min_length": 136.6,
      "epoch": 1.4186269803168507,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.005250279791653156,
      "kl": 0.0145751953125,
      "learning_rate": 2.138353674267332e-06,
      "loss": 0.0005831093527376652,
      "memory(GiB)": 27.09,
      "reward": 0.4632999837398529,
      "reward_std": 0.05529574602842331,
      "rewards/MMContentORM/mean": 0.5370000183582306,
      "rewards/MMContentORM/std": 0.5351093679666519,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 2955,
      "train_speed(iter/s)": 0.083011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.4,
      "completions/mean_length": 206.375,
      "completions/min_length": 134.0,
      "epoch": 1.4210273643783005,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15277594327926636,
      "kl": 0.015472412109375,
      "learning_rate": 2.1221001643500124e-06,
      "loss": 0.0006176586262881756,
      "memory(GiB)": 27.09,
      "reward": 0.5094499945640564,
      "reward_std": 0.05168950129300356,
      "rewards/MMContentORM/mean": 0.6379999995231629,
      "rewards/MMContentORM/std": 0.5326842725276947,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 2960,
      "train_speed(iter/s)": 0.083029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.0,
      "completions/mean_length": 210.15,
      "completions/min_length": 145.8,
      "epoch": 1.4234277484397504,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11770177632570267,
      "kl": 0.0151611328125,
      "learning_rate": 2.1058920050034916e-06,
      "loss": 0.0006076030433177948,
      "memory(GiB)": 27.09,
      "reward": 0.45579997897148133,
      "reward_std": 0.13378460630774497,
      "rewards/MMContentORM/mean": 0.546999990940094,
      "rewards/MMContentORM/std": 0.6460906147956849,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 2965,
      "train_speed(iter/s)": 0.08303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.0,
      "completions/mean_length": 208.5375,
      "completions/min_length": 137.4,
      "epoch": 1.4258281325012003,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.18440692126750946,
      "kl": 0.019158935546875,
      "learning_rate": 2.089729451639464e-06,
      "loss": 0.0007669050246477127,
      "memory(GiB)": 27.09,
      "reward": 0.4253999888896942,
      "reward_std": 0.18809040188789367,
      "rewards/MMContentORM/mean": 0.5285000085830689,
      "rewards/MMContentORM/std": 0.6971115171909332,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 2970,
      "train_speed(iter/s)": 0.083041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.0,
      "completions/mean_length": 207.1125,
      "completions/min_length": 120.8,
      "epoch": 1.42822851656265,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.08875837922096252,
      "kl": 0.020159912109375,
      "learning_rate": 2.0736127589509574e-06,
      "loss": 0.0008051252923905849,
      "memory(GiB)": 27.09,
      "reward": 0.4783999741077423,
      "reward_std": 0.09956063062418252,
      "rewards/MMContentORM/mean": 0.6034999847412109,
      "rewards/MMContentORM/std": 0.5641872756183147,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 2975,
      "train_speed(iter/s)": 0.083048
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.2,
      "completions/mean_length": 213.2375,
      "completions/min_length": 142.4,
      "epoch": 1.4306289006240998,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.005619046278297901,
      "kl": 0.016546630859375,
      "learning_rate": 2.057542180908314e-06,
      "loss": 0.0006620488129556179,
      "memory(GiB)": 27.09,
      "reward": 0.4491499841213226,
      "reward_std": 0.0645588494837284,
      "rewards/MMContentORM/mean": 0.5159999966621399,
      "rewards/MMContentORM/std": 0.6301424145698548,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2980,
      "train_speed(iter/s)": 0.083063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.8,
      "completions/mean_length": 204.6625,
      "completions/min_length": 116.0,
      "epoch": 1.4330292846855497,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.2883993685245514,
      "kl": 0.045916748046875,
      "learning_rate": 2.0415179707551972e-06,
      "loss": 0.0018356535583734512,
      "memory(GiB)": 27.09,
      "reward": 0.48004997372627256,
      "reward_std": 0.11250068647786975,
      "rewards/MMContentORM/mean": 0.6220000118017197,
      "rewards/MMContentORM/std": 0.5794163227081299,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 2985,
      "train_speed(iter/s)": 0.083059
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.8,
      "completions/mean_length": 212.075,
      "completions/min_length": 142.8,
      "epoch": 1.4354296687469996,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.005611935164779425,
      "kl": 0.01571044921875,
      "learning_rate": 2.025540381004592e-06,
      "loss": 0.0006283918395638466,
      "memory(GiB)": 27.09,
      "reward": 0.5766499638557434,
      "reward_std": 0.03358757034875452,
      "rewards/MMContentORM/mean": 0.806000006198883,
      "rewards/MMContentORM/std": 0.41324327513575554,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 2990,
      "train_speed(iter/s)": 0.083062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.2,
      "completions/mean_length": 210.15,
      "completions/min_length": 140.6,
      "epoch": 1.4378300528084493,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16042460501194,
      "kl": 0.019024658203125,
      "learning_rate": 2.009609663434823e-06,
      "loss": 0.0007612261921167374,
      "memory(GiB)": 27.09,
      "reward": 0.42854997515678406,
      "reward_std": 0.059184834850020705,
      "rewards/MMContentORM/mean": 0.46450000554323195,
      "rewards/MMContentORM/std": 0.6028416275978088,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 2995,
      "train_speed(iter/s)": 0.083066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.2,
      "completions/mean_length": 213.075,
      "completions/min_length": 123.8,
      "epoch": 1.4402304368698993,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.17296624183654785,
      "kl": 0.014404296875,
      "learning_rate": 1.9937260690856038e-06,
      "loss": 0.0005766497924923897,
      "memory(GiB)": 27.09,
      "reward": 0.5021999835968017,
      "reward_std": 0.1513208493590355,
      "rewards/MMContentORM/mean": 0.6630000114440918,
      "rewards/MMContentORM/std": 0.6147877216339112,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 3000,
      "train_speed(iter/s)": 0.083074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 356.2,
      "completions/mean_length": 213.15,
      "completions/min_length": 137.2,
      "epoch": 1.442630820931349,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.16241255402565002,
      "kl": 0.01876220703125,
      "learning_rate": 1.977889848254063e-06,
      "loss": 0.0007500813342630863,
      "memory(GiB)": 27.09,
      "reward": 0.4236499905586243,
      "reward_std": 0.1413506418466568,
      "rewards/MMContentORM/mean": 0.4810000091791153,
      "rewards/MMContentORM/std": 0.6403470635414124,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3005,
      "train_speed(iter/s)": 0.08304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.4,
      "completions/mean_length": 212.275,
      "completions/min_length": 142.6,
      "epoch": 1.445031204992799,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.06250451505184174,
      "kl": 0.01522216796875,
      "learning_rate": 1.962101250490809e-06,
      "loss": 0.0006091888062655926,
      "memory(GiB)": 27.09,
      "reward": 0.4913999855518341,
      "reward_std": 0.1162483523832634,
      "rewards/MMContentORM/mean": 0.6360000133514404,
      "rewards/MMContentORM/std": 0.5707429587841034,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3010,
      "train_speed(iter/s)": 0.08305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.4,
      "completions/mean_length": 214.075,
      "completions/min_length": 128.6,
      "epoch": 1.4474315890542486,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16592533886432648,
      "kl": 0.014422607421875,
      "learning_rate": 1.946360524595992e-06,
      "loss": 0.0005768738687038421,
      "memory(GiB)": 27.09,
      "reward": 0.4861999869346619,
      "reward_std": 0.09022682073991746,
      "rewards/MMContentORM/mean": 0.6230000138282776,
      "rewards/MMContentORM/std": 0.49670754447579385,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 3015,
      "train_speed(iter/s)": 0.083063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.0,
      "completions/mean_length": 208.425,
      "completions/min_length": 125.8,
      "epoch": 1.4498319731156986,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11563282459974289,
      "kl": 0.017535400390625,
      "learning_rate": 1.930667918615396e-06,
      "loss": 0.0007019482553005218,
      "memory(GiB)": 27.09,
      "reward": 0.5023999869823456,
      "reward_std": 0.08259006794542074,
      "rewards/MMContentORM/mean": 0.6634999990463257,
      "rewards/MMContentORM/std": 0.5144065268337726,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3020,
      "train_speed(iter/s)": 0.083066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.2,
      "completions/mean_length": 217.95,
      "completions/min_length": 129.4,
      "epoch": 1.4522323571771483,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1004854291677475,
      "kl": 0.016015625,
      "learning_rate": 1.915023679836513e-06,
      "loss": 0.0006412723101675511,
      "memory(GiB)": 27.09,
      "reward": 0.44114998579025266,
      "reward_std": 0.08266078755259514,
      "rewards/MMContentORM/mean": 0.4959999889135361,
      "rewards/MMContentORM/std": 0.6346112012863159,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3025,
      "train_speed(iter/s)": 0.083076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.2,
      "completions/mean_length": 208.8,
      "completions/min_length": 140.2,
      "epoch": 1.4546327412385982,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.07408447563648224,
      "kl": 0.017010498046875,
      "learning_rate": 1.8994280547846516e-06,
      "loss": 0.0006803128868341446,
      "memory(GiB)": 27.09,
      "reward": 0.48314996957778933,
      "reward_std": 0.07813529700506479,
      "rewards/MMContentORM/mean": 0.6009999990463257,
      "rewards/MMContentORM/std": 0.6228325486183166,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3030,
      "train_speed(iter/s)": 0.083097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/mean_length": 204.5,
      "completions/min_length": 130.6,
      "epoch": 1.4570331253000481,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.12042010575532913,
      "kl": 0.015240478515625,
      "learning_rate": 1.8838812892190655e-06,
      "loss": 0.000609145499765873,
      "memory(GiB)": 27.09,
      "reward": 0.5214499771595001,
      "reward_std": 0.053386559383943676,
      "rewards/MMContentORM/mean": 0.6680000066757202,
      "rewards/MMContentORM/std": 0.47634573876857755,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3035,
      "train_speed(iter/s)": 0.083108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 371.4,
      "completions/mean_length": 220.7875,
      "completions/min_length": 149.4,
      "epoch": 1.4594335093614978,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14619703590869904,
      "kl": 0.01563720703125,
      "learning_rate": 1.8683836281290608e-06,
      "loss": 0.0006260167807340622,
      "memory(GiB)": 27.09,
      "reward": 0.5266999781131745,
      "reward_std": 0.08329718094319105,
      "rewards/MMContentORM/mean": 0.728000009059906,
      "rewards/MMContentORM/std": 0.5765750944614411,
      "rewards/MMFormatORM/mean": 0.6137499928474426,
      "rewards/MMFormatORM/std": 0.14499999433755875,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 3040,
      "train_speed(iter/s)": 0.083102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.8,
      "completions/mean_length": 221.7625,
      "completions/min_length": 155.8,
      "epoch": 1.4618338934229476,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.12591391801834106,
      "kl": 0.013836669921875,
      "learning_rate": 1.8529353157301477e-06,
      "loss": 0.0005534658208489418,
      "memory(GiB)": 27.09,
      "reward": 0.4464499831199646,
      "reward_std": 0.11136931926012039,
      "rewards/MMContentORM/mean": 0.5380000054836274,
      "rewards/MMContentORM/std": 0.6489728450775146,
      "rewards/MMFormatORM/mean": 0.609375,
      "rewards/MMFormatORM/std": 0.16249999403953552,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.25,
      "step": 3045,
      "train_speed(iter/s)": 0.083104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.8,
      "completions/mean_length": 219.4625,
      "completions/min_length": 134.8,
      "epoch": 1.4642342774843975,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.24321743845939636,
      "kl": 0.030645751953125,
      "learning_rate": 1.8375365954601882e-06,
      "loss": 0.001224792841821909,
      "memory(GiB)": 27.09,
      "reward": 0.4084999799728394,
      "reward_std": 0.11978388726711273,
      "rewards/MMContentORM/mean": 0.45750000774860383,
      "rewards/MMContentORM/std": 0.7140669703483582,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 3050,
      "train_speed(iter/s)": 0.08311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.0,
      "completions/mean_length": 207.55,
      "completions/min_length": 138.4,
      "epoch": 1.4666346615458474,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.17153875529766083,
      "kl": 0.018304443359375,
      "learning_rate": 1.8221877099755635e-06,
      "loss": 0.0007329397834837436,
      "memory(GiB)": 27.09,
      "reward": 0.48879997730255126,
      "reward_std": 0.09842926461715251,
      "rewards/MMContentORM/mean": 0.6295000195503235,
      "rewards/MMContentORM/std": 0.6123105943202972,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3055,
      "train_speed(iter/s)": 0.083119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.4,
      "completions/mean_length": 212.4125,
      "completions/min_length": 142.8,
      "epoch": 1.4690350456072971,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.18333663046360016,
      "kl": 0.01534423828125,
      "learning_rate": 1.8068889011473472e-06,
      "loss": 0.0006133603863418102,
      "memory(GiB)": 27.09,
      "reward": 0.4755499720573425,
      "reward_std": 0.10585388541221619,
      "rewards/MMContentORM/mean": 0.5819999992847442,
      "rewards/MMContentORM/std": 0.6341395020484925,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3060,
      "train_speed(iter/s)": 0.083124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.0,
      "completions/mean_length": 203.5125,
      "completions/min_length": 121.0,
      "epoch": 1.471435429668747,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.26711151003837585,
      "kl": 0.0223388671875,
      "learning_rate": 1.7916404100574858e-06,
      "loss": 0.0008931753225624561,
      "memory(GiB)": 27.09,
      "reward": 0.4269499838352203,
      "reward_std": 0.13951216414570808,
      "rewards/MMContentORM/mean": 0.5180000185966491,
      "rewards/MMContentORM/std": 0.7072037339210511,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 3065,
      "train_speed(iter/s)": 0.083143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.8,
      "completions/mean_length": 204.775,
      "completions/min_length": 127.8,
      "epoch": 1.4738358137301968,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11704003810882568,
      "kl": 0.015966796875,
      "learning_rate": 1.77644247699502e-06,
      "loss": 0.0006390390917658806,
      "memory(GiB)": 27.09,
      "reward": 0.5196999788284302,
      "reward_std": 0.038890871894545855,
      "rewards/MMContentORM/mean": 0.678000009059906,
      "rewards/MMContentORM/std": 0.5452348232269287,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3070,
      "train_speed(iter/s)": 0.083156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.2,
      "completions/mean_length": 212.1375,
      "completions/min_length": 147.4,
      "epoch": 1.4762361977916467,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.11178287863731384,
      "kl": 0.015142822265625,
      "learning_rate": 1.7612953414522787e-06,
      "loss": 0.0006058240309357643,
      "memory(GiB)": 27.09,
      "reward": 0.5580999732017518,
      "reward_std": 0.07170062698423862,
      "rewards/MMContentORM/mean": 0.7740000009536743,
      "rewards/MMContentORM/std": 0.47003708481788636,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3075,
      "train_speed(iter/s)": 0.08317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.2,
      "completions/mean_length": 215.875,
      "completions/min_length": 129.0,
      "epoch": 1.4786365818530964,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1516324132680893,
      "kl": 0.014453125,
      "learning_rate": 1.7461992421211144e-06,
      "loss": 0.0005788389593362808,
      "memory(GiB)": 27.09,
      "reward": 0.4489999830722809,
      "reward_std": 0.09079250320792198,
      "rewards/MMContentORM/mean": 0.5300000131130218,
      "rewards/MMContentORM/std": 0.6716732859611512,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 3080,
      "train_speed(iter/s)": 0.083181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.0,
      "completions/mean_length": 215.9125,
      "completions/min_length": 125.6,
      "epoch": 1.4810369659145464,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1026253029704094,
      "kl": 0.01588134765625,
      "learning_rate": 1.7311544168891397e-06,
      "loss": 0.0006352938711643219,
      "memory(GiB)": 27.09,
      "reward": 0.49314998388290404,
      "reward_std": 0.09171175360679626,
      "rewards/MMContentORM/mean": 0.6260000169277191,
      "rewards/MMContentORM/std": 0.5888873279094696,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3085,
      "train_speed(iter/s)": 0.083182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.0,
      "completions/mean_length": 222.55,
      "completions/min_length": 147.4,
      "epoch": 1.483437349975996,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.19577515125274658,
      "kl": 0.46920166015625,
      "learning_rate": 1.7161611028359776e-06,
      "loss": 0.01879151463508606,
      "memory(GiB)": 27.09,
      "reward": 0.4272999823093414,
      "reward_std": 0.1520279485033825,
      "rewards/MMContentORM/mean": 0.504500013589859,
      "rewards/MMContentORM/std": 0.6994093418121338,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 3090,
      "train_speed(iter/s)": 0.08317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 476.0,
      "completions/mean_length": 229.6,
      "completions/min_length": 144.4,
      "epoch": 1.485837734037446,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17094756662845612,
      "kl": 0.022589111328125,
      "learning_rate": 1.701219536229531e-06,
      "loss": 0.0009042560122907162,
      "memory(GiB)": 27.09,
      "reward": 0.41979997158050536,
      "reward_std": 0.1699884652160108,
      "rewards/MMContentORM/mean": 0.5145000159740448,
      "rewards/MMContentORM/std": 0.6915717840194702,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.1430424392223358,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.22006530165672303,
      "step": 3095,
      "train_speed(iter/s)": 0.083129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 444.0,
      "completions/mean_length": 228.7625,
      "completions/min_length": 142.6,
      "epoch": 1.488238118098896,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.06433889269828796,
      "kl": 0.019317626953125,
      "learning_rate": 1.686329952522251e-06,
      "loss": 0.0007725300267338753,
      "memory(GiB)": 27.09,
      "reward": 0.4120999813079834,
      "reward_std": 0.23122391402721404,
      "rewards/MMContentORM/mean": 0.5240000247955322,
      "rewards/MMContentORM/std": 0.7343219518661499,
      "rewards/MMFormatORM/mean": 0.5687499880790711,
      "rewards/MMFormatORM/std": 0.2142127960920334,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.3295581638813019,
      "step": 3100,
      "train_speed(iter/s)": 0.083097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.4,
      "completions/mean_length": 215.2625,
      "completions/min_length": 146.6,
      "epoch": 1.4906385021603457,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.07017713785171509,
      "kl": 0.014739990234375,
      "learning_rate": 1.6714925863474317e-06,
      "loss": 0.000588908651843667,
      "memory(GiB)": 27.09,
      "reward": 0.43324996829032897,
      "reward_std": 0.1584626256953925,
      "rewards/MMContentORM/mean": 0.5625000119209289,
      "rewards/MMContentORM/std": 0.7162049651145935,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 3105,
      "train_speed(iter/s)": 0.083075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.6,
      "completions/mean_length": 209.9375,
      "completions/min_length": 151.6,
      "epoch": 1.4930388862217954,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1349526196718216,
      "kl": 0.015740966796875,
      "learning_rate": 1.6567076715155118e-06,
      "loss": 0.0006291633006185293,
      "memory(GiB)": 27.09,
      "reward": 0.4481499850749969,
      "reward_std": 0.08690342083573341,
      "rewards/MMContentORM/mean": 0.5135000020265579,
      "rewards/MMContentORM/std": 0.6392456710338592,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3110,
      "train_speed(iter/s)": 0.083088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.2,
      "completions/mean_length": 206.9,
      "completions/min_length": 143.6,
      "epoch": 1.4954392702832453,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15179786086082458,
      "kl": 0.021075439453125,
      "learning_rate": 1.6419754410103949e-06,
      "loss": 0.0008435728028416634,
      "memory(GiB)": 27.09,
      "reward": 0.42634997963905336,
      "reward_std": 0.1286227189935744,
      "rewards/MMContentORM/mean": 0.5165000140666962,
      "rewards/MMContentORM/std": 0.6922470927238464,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3115,
      "train_speed(iter/s)": 0.083093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.2,
      "completions/mean_length": 218.2875,
      "completions/min_length": 119.0,
      "epoch": 1.4978396543446952,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.21460042893886566,
      "kl": 0.032769775390625,
      "learning_rate": 1.6272961269857657e-06,
      "loss": 0.0013143711723387242,
      "memory(GiB)": 27.09,
      "reward": 0.43154999017715456,
      "reward_std": 0.14884596914052964,
      "rewards/MMContentORM/mean": 0.5295000314712525,
      "rewards/MMContentORM/std": 0.7493190169334412,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 3120,
      "train_speed(iter/s)": 0.083091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.2,
      "completions/mean_length": 208.25,
      "completions/min_length": 130.8,
      "epoch": 1.500240038406145,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.12087953835725784,
      "kl": 0.01927490234375,
      "learning_rate": 1.6126699607614427e-06,
      "loss": 0.0007707193493843078,
      "memory(GiB)": 27.09,
      "reward": 0.5104999840259552,
      "reward_std": 0.06943788453936577,
      "rewards/MMContentORM/mean": 0.6549999952316284,
      "rewards/MMContentORM/std": 0.5868445634841919,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3125,
      "train_speed(iter/s)": 0.083097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.8,
      "completions/mean_length": 209.8625,
      "completions/min_length": 131.4,
      "epoch": 1.5026404224675947,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.0041847084648907185,
      "kl": 0.01480712890625,
      "learning_rate": 1.5980971728197342e-06,
      "loss": 0.0005915745161473752,
      "memory(GiB)": 27.09,
      "reward": 0.5453999817371369,
      "reward_std": 0.10776307303458452,
      "rewards/MMContentORM/mean": 0.7710000157356263,
      "rewards/MMContentORM/std": 0.4581117108464241,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3130,
      "train_speed(iter/s)": 0.083106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.4,
      "completions/mean_length": 219.2625,
      "completions/min_length": 140.8,
      "epoch": 1.5050408065290446,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.10535841435194016,
      "kl": 0.013946533203125,
      "learning_rate": 1.583577992801797e-06,
      "loss": 0.0005582999438047409,
      "memory(GiB)": 27.09,
      "reward": 0.5231499969959259,
      "reward_std": 0.07700392559636385,
      "rewards/MMContentORM/mean": 0.7010000109672546,
      "rewards/MMContentORM/std": 0.5700598895549774,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3135,
      "train_speed(iter/s)": 0.083109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.6,
      "completions/mean_length": 214.6,
      "completions/min_length": 149.8,
      "epoch": 1.5074411905904945,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.0759124755859375,
      "kl": 0.015350341796875,
      "learning_rate": 1.5691126495040238e-06,
      "loss": 0.000614680303260684,
      "memory(GiB)": 27.09,
      "reward": 0.47774999141693114,
      "reward_std": 0.1819385740207508,
      "rewards/MMContentORM/mean": 0.6450000107288361,
      "rewards/MMContentORM/std": 0.619084757566452,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.14121158123016359,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21724859476089478,
      "step": 3140,
      "train_speed(iter/s)": 0.083108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.2,
      "completions/mean_length": 209.8875,
      "completions/min_length": 139.0,
      "epoch": 1.5098415746519445,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.12398523837327957,
      "kl": 0.015985107421875,
      "learning_rate": 1.5547013708744347e-06,
      "loss": 0.0006400375626981258,
      "memory(GiB)": 27.09,
      "reward": 0.39759998619556425,
      "reward_std": 0.1776252317475155,
      "rewards/MMContentORM/mean": 0.45900002419948577,
      "rewards/MMContentORM/std": 0.7010067760944366,
      "rewards/MMFormatORM/mean": 0.5849999725818634,
      "rewards/MMFormatORM/std": 0.14694467782974244,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.22606874108314515,
      "step": 3145,
      "train_speed(iter/s)": 0.083126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.6,
      "completions/mean_length": 219.8125,
      "completions/min_length": 149.6,
      "epoch": 1.5122419587133942,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.13619284331798553,
      "kl": 0.0173095703125,
      "learning_rate": 1.5403443840090943e-06,
      "loss": 0.0006929846480488777,
      "memory(GiB)": 27.09,
      "reward": 0.5145999729633332,
      "reward_std": 0.0552957494975999,
      "rewards/MMContentORM/mean": 0.6940000057220459,
      "rewards/MMContentORM/std": 0.4436347268521786,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 3150,
      "train_speed(iter/s)": 0.083117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.4,
      "completions/mean_length": 210.0,
      "completions/min_length": 124.0,
      "epoch": 1.5146423427748439,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1929241418838501,
      "kl": 0.015277099609375,
      "learning_rate": 1.5260419151485151e-06,
      "loss": 0.0006110362242907286,
      "memory(GiB)": 27.09,
      "reward": 0.4635499775409698,
      "reward_std": 0.12282444722950459,
      "rewards/MMContentORM/mean": 0.584500002861023,
      "rewards/MMContentORM/std": 0.5167646646499634,
      "rewards/MMFormatORM/mean": 0.6056249856948852,
      "rewards/MMFormatORM/std": 0.13240466862916947,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3155,
      "train_speed(iter/s)": 0.083126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 382.4,
      "completions/mean_length": 225.3375,
      "completions/min_length": 132.8,
      "epoch": 1.5170427268362938,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.18700656294822693,
      "kl": 0.017669677734375,
      "learning_rate": 1.511794189674109e-06,
      "loss": 0.0007067018188536168,
      "memory(GiB)": 27.09,
      "reward": 0.4364499807357788,
      "reward_std": 0.20866721048951148,
      "rewards/MMContentORM/mean": 0.5704999923706054,
      "rewards/MMContentORM/std": 0.605513896048069,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.14713743329048157,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.22636529207229614,
      "step": 3160,
      "train_speed(iter/s)": 0.083113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.8,
      "completions/mean_length": 209.6875,
      "completions/min_length": 121.6,
      "epoch": 1.5194431108977438,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15477411448955536,
      "kl": 0.014892578125,
      "learning_rate": 1.4976014321046323e-06,
      "loss": 0.000595424510538578,
      "memory(GiB)": 27.09,
      "reward": 0.49574996829032897,
      "reward_std": 0.09482301846146583,
      "rewards/MMContentORM/mean": 0.6325000166893006,
      "rewards/MMContentORM/std": 0.5926263153553009,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3165,
      "train_speed(iter/s)": 0.083112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.0,
      "completions/mean_length": 209.625,
      "completions/min_length": 135.4,
      "epoch": 1.5218434949591935,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.14993643760681152,
      "kl": 0.013580322265625,
      "learning_rate": 1.4834638660926403e-06,
      "loss": 0.0005426953546702861,
      "memory(GiB)": 27.09,
      "reward": 0.44014999866485593,
      "reward_std": 0.0772867701947689,
      "rewards/MMContentORM/mean": 0.4934999912977219,
      "rewards/MMContentORM/std": 0.6292442440986633,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3170,
      "train_speed(iter/s)": 0.083121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.6,
      "completions/mean_length": 217.0125,
      "completions/min_length": 132.2,
      "epoch": 1.5242438790206432,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.181192085146904,
      "kl": 0.0142333984375,
      "learning_rate": 1.4693817144209699e-06,
      "loss": 0.0005688410252332688,
      "memory(GiB)": 27.09,
      "reward": 0.48604997992515564,
      "reward_std": 0.11419774182140827,
      "rewards/MMContentORM/mean": 0.6370000183582306,
      "rewards/MMContentORM/std": 0.6059823155403137,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3175,
      "train_speed(iter/s)": 0.083117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 462.0,
      "completions/mean_length": 227.6375,
      "completions/min_length": 130.4,
      "epoch": 1.5266442630820931,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12335384637117386,
      "kl": 0.0125244140625,
      "learning_rate": 1.4553551989992238e-06,
      "loss": 0.0005013378337025643,
      "memory(GiB)": 27.09,
      "reward": 0.5401999652385712,
      "reward_std": 0.10210621654987335,
      "rewards/MMContentORM/mean": 0.7580000162124634,
      "rewards/MMContentORM/std": 0.5495529055595398,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3180,
      "train_speed(iter/s)": 0.083082
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.8,
      "completions/mean_length": 212.6125,
      "completions/min_length": 139.2,
      "epoch": 1.529044647143543,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.14260004460811615,
      "kl": 0.02462158203125,
      "learning_rate": 1.4413845408602838e-06,
      "loss": 0.0009833592921495438,
      "memory(GiB)": 27.09,
      "reward": 0.4681999832391739,
      "reward_std": 0.07283199802041054,
      "rewards/MMContentORM/mean": 0.5780000060796737,
      "rewards/MMContentORM/std": 0.587296724319458,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 3185,
      "train_speed(iter/s)": 0.083092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.6,
      "completions/mean_length": 221.975,
      "completions/min_length": 147.8,
      "epoch": 1.5314450312049928,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1370711326599121,
      "kl": 0.015081787109375,
      "learning_rate": 1.427469960156812e-06,
      "loss": 0.0006033728364855051,
      "memory(GiB)": 27.09,
      "reward": 0.4931999921798706,
      "reward_std": 0.07085209367796778,
      "rewards/MMContentORM/mean": 0.6405000150203705,
      "rewards/MMContentORM/std": 0.6245416283607483,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 3190,
      "train_speed(iter/s)": 0.083091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.8,
      "completions/mean_length": 206.65,
      "completions/min_length": 127.6,
      "epoch": 1.5338454152664425,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.17985497415065765,
      "kl": 0.018963623046875,
      "learning_rate": 1.4136116761577935e-06,
      "loss": 0.0007579845376312732,
      "memory(GiB)": 27.09,
      "reward": 0.5177499890327454,
      "reward_std": 0.09425732623785735,
      "rewards/MMContentORM/mean": 0.6875000119209289,
      "rewards/MMContentORM/std": 0.5862172305583954,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3195,
      "train_speed(iter/s)": 0.0831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 380.2,
      "completions/mean_length": 223.8,
      "completions/min_length": 136.0,
      "epoch": 1.5362457993278924,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11441948264837265,
      "kl": 0.01436767578125,
      "learning_rate": 1.3998099072450811e-06,
      "loss": 0.0005743363872170448,
      "memory(GiB)": 27.09,
      "reward": 0.4908499836921692,
      "reward_std": 0.11193500682711602,
      "rewards/MMContentORM/mean": 0.6490000128746033,
      "rewards/MMContentORM/std": 0.5852620244026184,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3200,
      "train_speed(iter/s)": 0.083089
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 501.4,
      "completions/mean_length": 236.55,
      "completions/min_length": 149.6,
      "epoch": 1.5386461833893423,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11317011713981628,
      "kl": 0.0179931640625,
      "learning_rate": 1.386064870909946e-06,
      "loss": 0.0007195640355348587,
      "memory(GiB)": 27.09,
      "reward": 0.4382499873638153,
      "reward_std": 0.12918841242790222,
      "rewards/MMContentORM/mean": 0.5174999952316284,
      "rewards/MMContentORM/std": 0.6612499058246613,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3205,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.2,
      "completions/mean_length": 218.575,
      "completions/min_length": 139.2,
      "epoch": 1.5410465674507923,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.14002180099487305,
      "kl": 0.014068603515625,
      "learning_rate": 1.3723767837496571e-06,
      "loss": 0.0005637550726532936,
      "memory(GiB)": 27.09,
      "reward": 0.43539997935295105,
      "reward_std": 0.12756206155754626,
      "rewards/MMContentORM/mean": 0.49599999785423277,
      "rewards/MMContentORM/std": 0.6566171884536743,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 3210,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.8,
      "completions/mean_length": 207.0125,
      "completions/min_length": 145.0,
      "epoch": 1.543446951512242,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.17006883025169373,
      "kl": 0.016265869140625,
      "learning_rate": 1.3587458614640648e-06,
      "loss": 0.0006507603451609611,
      "memory(GiB)": 27.09,
      "reward": 0.5275500059127808,
      "reward_std": 0.07700392962433397,
      "rewards/MMContentORM/mean": 0.7120000004768372,
      "rewards/MMContentORM/std": 0.5522327601909638,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3215,
      "train_speed(iter/s)": 0.08302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 454.8,
      "completions/mean_length": 222.8125,
      "completions/min_length": 118.6,
      "epoch": 1.5458473355736917,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.19454053044319153,
      "kl": 0.02646484375,
      "learning_rate": 1.3451723188522043e-06,
      "loss": 0.0010566259734332561,
      "memory(GiB)": 27.09,
      "reward": 0.3924499750137329,
      "reward_std": 0.19169664829969407,
      "rewards/MMContentORM/mean": 0.46050000190734863,
      "rewards/MMContentORM/std": 0.7452011108398438,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 3220,
      "train_speed(iter/s)": 0.082975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 472.6,
      "completions/mean_length": 222.15,
      "completions/min_length": 142.2,
      "epoch": 1.5482477196351416,
      "frac_reward_zero_std": 0.475,
      "grad_norm": 0.19158095121383667,
      "kl": 0.0150146484375,
      "learning_rate": 1.331656369808908e-06,
      "loss": 0.0006003158167004585,
      "memory(GiB)": 27.09,
      "reward": 0.4775499701499939,
      "reward_std": 0.1092479906976223,
      "rewards/MMContentORM/mean": 0.6195000171661377,
      "rewards/MMContentORM/std": 0.5317566640675068,
      "rewards/MMFormatORM/mean": 0.6056249737739563,
      "rewards/MMFormatORM/std": 0.11180812567472458,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 3225,
      "train_speed(iter/s)": 0.082941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.6,
      "completions/mean_length": 211.1875,
      "completions/min_length": 118.8,
      "epoch": 1.5506481036965916,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1315494179725647,
      "kl": 0.01778564453125,
      "learning_rate": 1.318198227321436e-06,
      "loss": 0.000711181340739131,
      "memory(GiB)": 27.09,
      "reward": 0.5287999749183655,
      "reward_std": 0.011313705006614327,
      "rewards/MMContentORM/mean": 0.6720000028610229,
      "rewards/MMContentORM/std": 0.5012042224407196,
      "rewards/MMFormatORM/mean": 0.6499999761581421,
      "rewards/MMFormatORM/std": 0.0,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 3230,
      "train_speed(iter/s)": 0.082949
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.6,
      "completions/mean_length": 216.4625,
      "completions/min_length": 109.6,
      "epoch": 1.5530484877580413,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.15574294328689575,
      "kl": 0.020379638671875,
      "learning_rate": 1.3047981034661245e-06,
      "loss": 0.0008146503940224647,
      "memory(GiB)": 27.09,
      "reward": 0.46579996943473817,
      "reward_std": 0.16772572547197342,
      "rewards/MMContentORM/mean": 0.62950000166893,
      "rewards/MMContentORM/std": 0.683431351184845,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.19821036159992217,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 3235,
      "train_speed(iter/s)": 0.082953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.2,
      "completions/mean_length": 217.525,
      "completions/min_length": 132.6,
      "epoch": 1.555448871819491,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.20693257451057434,
      "kl": 0.02076416015625,
      "learning_rate": 1.2914562094050343e-06,
      "loss": 0.0008313735015690327,
      "memory(GiB)": 27.09,
      "reward": 0.47934995889663695,
      "reward_std": 0.09482302069664002,
      "rewards/MMContentORM/mean": 0.5915000021457673,
      "rewards/MMContentORM/std": 0.5874766707420349,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3240,
      "train_speed(iter/s)": 0.082959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.8,
      "completions/mean_length": 214.3125,
      "completions/min_length": 146.0,
      "epoch": 1.557849255880941,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.17259366810321808,
      "kl": 0.01396484375,
      "learning_rate": 1.2781727553826307e-06,
      "loss": 0.0005578281357884407,
      "memory(GiB)": 27.09,
      "reward": 0.5059499919414521,
      "reward_std": 0.06173042135778815,
      "rewards/MMContentORM/mean": 0.658000010251999,
      "rewards/MMContentORM/std": 0.44256684333086016,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.05240467190742493,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.08062257766723632,
      "step": 3245,
      "train_speed(iter/s)": 0.082967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.2,
      "completions/mean_length": 201.55,
      "completions/min_length": 137.4,
      "epoch": 1.5602496399423909,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.066941037774086,
      "kl": 0.016973876953125,
      "learning_rate": 1.264947950722467e-06,
      "loss": 0.0006793485023081303,
      "memory(GiB)": 27.09,
      "reward": 0.535649973154068,
      "reward_std": 0.12777419239282609,
      "rewards/MMContentORM/mean": 0.7610000252723694,
      "rewards/MMContentORM/std": 0.5375386297702789,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3250,
      "train_speed(iter/s)": 0.082973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.0,
      "completions/mean_length": 228.2,
      "completions/min_length": 154.6,
      "epoch": 1.5626500240038406,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.09117994457483292,
      "kl": 0.012646484375,
      "learning_rate": 1.2517820038238893e-06,
      "loss": 0.0005060765892267227,
      "memory(GiB)": 27.09,
      "reward": 0.4888499915599823,
      "reward_std": 0.09454017840325832,
      "rewards/MMContentORM/mean": 0.6439999967813492,
      "rewards/MMContentORM/std": 0.5739769160747528,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3255,
      "train_speed(iter/s)": 0.082976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 279.6,
      "completions/mean_length": 197.9125,
      "completions/min_length": 121.4,
      "epoch": 1.5650504080652905,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.2288537472486496,
      "kl": 0.017327880859375,
      "learning_rate": 1.2386751221587478e-06,
      "loss": 0.0006930924020707608,
      "memory(GiB)": 27.09,
      "reward": 0.3989499807357788,
      "reward_std": 0.1745846627280116,
      "rewards/MMContentORM/mean": 0.4479999840259552,
      "rewards/MMContentORM/std": 0.7100707769393921,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3260,
      "train_speed(iter/s)": 0.082991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 465.4,
      "completions/mean_length": 225.6875,
      "completions/min_length": 145.0,
      "epoch": 1.5674507921267402,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.004609475843608379,
      "kl": 0.01778564453125,
      "learning_rate": 1.2256275122681304e-06,
      "loss": 0.0007108909543603658,
      "memory(GiB)": 27.09,
      "reward": 0.4348500072956085,
      "reward_std": 0.10231834650039673,
      "rewards/MMContentORM/mean": 0.5090000003576278,
      "rewards/MMContentORM/std": 0.6001178443431854,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3265,
      "train_speed(iter/s)": 0.082956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.8,
      "completions/mean_length": 213.2625,
      "completions/min_length": 151.2,
      "epoch": 1.5698511761881901,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.18112541735172272,
      "kl": 0.01341552734375,
      "learning_rate": 1.2126393797591112e-06,
      "loss": 0.0005367286503314972,
      "memory(GiB)": 27.09,
      "reward": 0.4611499786376953,
      "reward_std": 0.07771103186532854,
      "rewards/MMContentORM/mean": 0.5460000038146973,
      "rewards/MMContentORM/std": 0.6368870377540589,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3270,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.6,
      "completions/mean_length": 203.625,
      "completions/min_length": 121.0,
      "epoch": 1.57225156024964,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1886938065290451,
      "kl": 0.016790771484375,
      "learning_rate": 1.1997109293015015e-06,
      "loss": 0.0006717256270349026,
      "memory(GiB)": 27.09,
      "reward": 0.4238499701023102,
      "reward_std": 0.12975409450009465,
      "rewards/MMContentORM/mean": 0.48149998784065245,
      "rewards/MMContentORM/std": 0.6749303579330445,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3275,
      "train_speed(iter/s)": 0.082972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.4,
      "completions/mean_length": 217.0375,
      "completions/min_length": 127.0,
      "epoch": 1.5746519443110898,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1641152799129486,
      "kl": 0.017828369140625,
      "learning_rate": 1.1868423646246323e-06,
      "loss": 0.0007128944620490074,
      "memory(GiB)": 27.09,
      "reward": 0.5149999856948853,
      "reward_std": 0.09135819021612405,
      "rewards/MMContentORM/mean": 0.695000022649765,
      "rewards/MMContentORM/std": 0.49438799545168877,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3280,
      "train_speed(iter/s)": 0.082969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.0,
      "completions/mean_length": 208.25,
      "completions/min_length": 136.2,
      "epoch": 1.5770523283725395,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13112139701843262,
      "kl": 0.016351318359375,
      "learning_rate": 1.1740338885141422e-06,
      "loss": 0.0006545517593622207,
      "memory(GiB)": 27.09,
      "reward": 0.4730999946594238,
      "reward_std": 0.11455129862297327,
      "rewards/MMContentORM/mean": 0.6190000176429749,
      "rewards/MMContentORM/std": 0.6247550487518311,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 3285,
      "train_speed(iter/s)": 0.082985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.2,
      "completions/mean_length": 207.8,
      "completions/min_length": 140.6,
      "epoch": 1.5794527124339894,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.18867741525173187,
      "kl": 0.01796875,
      "learning_rate": 1.16128570280878e-06,
      "loss": 0.0007181556895375252,
      "memory(GiB)": 27.09,
      "reward": 0.45814998745918273,
      "reward_std": 0.1034497192595154,
      "rewards/MMContentORM/mean": 0.5959999918937683,
      "rewards/MMContentORM/std": 0.6685267508029937,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3290,
      "train_speed(iter/s)": 0.082978
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.6,
      "completions/mean_length": 207.7875,
      "completions/min_length": 142.6,
      "epoch": 1.5818530964954394,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.2017498016357422,
      "kl": 0.017095947265625,
      "learning_rate": 1.1485980083972242e-06,
      "loss": 0.0006845677271485329,
      "memory(GiB)": 27.09,
      "reward": 0.4696999967098236,
      "reward_std": 0.09899494857527316,
      "rewards/MMContentORM/mean": 0.6105000078678131,
      "rewards/MMContentORM/std": 0.6631593823432922,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3295,
      "train_speed(iter/s)": 0.082991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.0,
      "completions/mean_length": 209.1,
      "completions/min_length": 145.0,
      "epoch": 1.584253480556889,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1147226095199585,
      "kl": 0.01207275390625,
      "learning_rate": 1.1359710052149191e-06,
      "loss": 0.00048305182717740537,
      "memory(GiB)": 27.09,
      "reward": 0.536549985408783,
      "reward_std": 0.05296229436062276,
      "rewards/MMContentORM/mean": 0.7220000147819519,
      "rewards/MMContentORM/std": 0.5010363392531871,
      "rewards/MMFormatORM/mean": 0.6318749904632568,
      "rewards/MMFormatORM/std": 0.07249999642372132,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3300,
      "train_speed(iter/s)": 0.083011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 279.2,
      "completions/mean_length": 204.5875,
      "completions/min_length": 114.2,
      "epoch": 1.5866538646183388,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.22295618057250977,
      "kl": 0.020770263671875,
      "learning_rate": 1.123404892240927e-06,
      "loss": 0.0008308948017656803,
      "memory(GiB)": 27.09,
      "reward": 0.4197499752044678,
      "reward_std": 0.14799744696356357,
      "rewards/MMContentORM/mean": 0.5,
      "rewards/MMContentORM/std": 0.672368848323822,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 3305,
      "train_speed(iter/s)": 0.082994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 389.0,
      "completions/mean_length": 214.7875,
      "completions/min_length": 132.8,
      "epoch": 1.5890542486797887,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08081990480422974,
      "kl": 0.016156005859375,
      "learning_rate": 1.110899867494784e-06,
      "loss": 0.0006469148676842452,
      "memory(GiB)": 27.09,
      "reward": 0.4746500015258789,
      "reward_std": 0.11108647771179676,
      "rewards/MMContentORM/mean": 0.6085000157356262,
      "rewards/MMContentORM/std": 0.6200405597686768,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 3310,
      "train_speed(iter/s)": 0.082984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.8,
      "completions/mean_length": 217.85,
      "completions/min_length": 144.8,
      "epoch": 1.5914546327412387,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.20784571766853333,
      "kl": 0.018511962890625,
      "learning_rate": 1.0984561280333867e-06,
      "loss": 0.0007408755365759135,
      "memory(GiB)": 27.09,
      "reward": 0.48464998602867126,
      "reward_std": 0.1252286109374836,
      "rewards/MMContentORM/mean": 0.6210000038146972,
      "rewards/MMContentORM/std": 0.5666950985789299,
      "rewards/MMFormatORM/mean": 0.615624976158142,
      "rewards/MMFormatORM/std": 0.10976680517196655,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3315,
      "train_speed(iter/s)": 0.082985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 279.4,
      "completions/mean_length": 200.8625,
      "completions/min_length": 88.8,
      "epoch": 1.5938550168026886,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11155827343463898,
      "kl": 0.035028076171875,
      "learning_rate": 1.0860738699478852e-06,
      "loss": 0.001404472440481186,
      "memory(GiB)": 27.09,
      "reward": 0.4386999785900116,
      "reward_std": 0.1506137415766716,
      "rewards/MMContentORM/mean": 0.5330000042915344,
      "rewards/MMContentORM/std": 0.6952720165252686,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 3320,
      "train_speed(iter/s)": 0.083002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 521.0,
      "completions/mean_length": 233.6,
      "completions/min_length": 137.4,
      "epoch": 1.5962554008641383,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.1469486504793167,
      "kl": 0.017987060546875,
      "learning_rate": 1.0737532883605916e-06,
      "loss": 0.0007191974669694901,
      "memory(GiB)": 27.09,
      "reward": 0.4517999827861786,
      "reward_std": 0.19148451760411261,
      "rewards/MMContentORM/mean": 0.5945000112056732,
      "rewards/MMContentORM/std": 0.6807171523571014,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 3325,
      "train_speed(iter/s)": 0.082945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.0,
      "completions/mean_length": 215.8875,
      "completions/min_length": 132.0,
      "epoch": 1.598655784925588,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.13840670883655548,
      "kl": 0.015753173828125,
      "learning_rate": 1.0614945774219082e-06,
      "loss": 0.0006300761830061674,
      "memory(GiB)": 27.09,
      "reward": 0.501199996471405,
      "reward_std": 0.11200571209192275,
      "rewards/MMContentORM/mean": 0.6605000019073486,
      "rewards/MMContentORM/std": 0.5745877206325531,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3330,
      "train_speed(iter/s)": 0.082953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.6,
      "completions/mean_length": 220.6125,
      "completions/min_length": 135.4,
      "epoch": 1.601056168987038,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1523619294166565,
      "kl": 0.014703369140625,
      "learning_rate": 1.049297930307262e-06,
      "loss": 0.0005889554508030414,
      "memory(GiB)": 27.09,
      "reward": 0.39344998002052306,
      "reward_std": 0.12918840944767,
      "rewards/MMContentORM/mean": 0.4055000126361847,
      "rewards/MMContentORM/std": 0.696004319190979,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3335,
      "train_speed(iter/s)": 0.082948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.4,
      "completions/mean_length": 211.5125,
      "completions/min_length": 128.0,
      "epoch": 1.6034565530484879,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.09966878592967987,
      "kl": 0.017742919921875,
      "learning_rate": 1.037163539214072e-06,
      "loss": 0.0007098756264895201,
      "memory(GiB)": 27.09,
      "reward": 0.4519999802112579,
      "reward_std": 0.08032733157742769,
      "rewards/MMContentORM/mean": 0.537500011920929,
      "rewards/MMContentORM/std": 0.5419799767434597,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3340,
      "train_speed(iter/s)": 0.082952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.4,
      "completions/mean_length": 207.275,
      "completions/min_length": 120.8,
      "epoch": 1.6058569371099376,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.15431775152683258,
      "kl": 0.018145751953125,
      "learning_rate": 1.0250915953587088e-06,
      "loss": 0.0007263108156621457,
      "memory(GiB)": 27.09,
      "reward": 0.4955999791622162,
      "reward_std": 0.07580183688551187,
      "rewards/MMContentORM/mean": 0.6215000033378602,
      "rewards/MMContentORM/std": 0.5888689577579498,
      "rewards/MMFormatORM/mean": 0.6299999833106995,
      "rewards/MMFormatORM/std": 0.06737477481365203,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3345,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.4,
      "completions/mean_length": 223.1125,
      "completions/min_length": 131.8,
      "epoch": 1.6082573211713873,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.08975112438201904,
      "kl": 0.01865234375,
      "learning_rate": 1.013082288973481e-06,
      "loss": 0.0007464576978236437,
      "memory(GiB)": 27.09,
      "reward": 0.4766999840736389,
      "reward_std": 0.15117942318320274,
      "rewards/MMContentORM/mean": 0.628000009059906,
      "rewards/MMContentORM/std": 0.6414366006851197,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.14990466833114624,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23062257766723632,
      "step": 3350,
      "train_speed(iter/s)": 0.082961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.2,
      "completions/mean_length": 213.5625,
      "completions/min_length": 143.2,
      "epoch": 1.6106577052328372,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1311890333890915,
      "kl": 0.01627197265625,
      "learning_rate": 1.0011358093036527e-06,
      "loss": 0.0006509319879114628,
      "memory(GiB)": 27.09,
      "reward": 0.46369996666908264,
      "reward_std": 0.08089300859719514,
      "rewards/MMContentORM/mean": 0.595499986410141,
      "rewards/MMContentORM/std": 0.6696452021598815,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 3355,
      "train_speed(iter/s)": 0.082963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.4,
      "completions/mean_length": 210.25,
      "completions/min_length": 101.8,
      "epoch": 1.6130580892942872,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12645810842514038,
      "kl": 0.0197021484375,
      "learning_rate": 9.89252344604444e-07,
      "loss": 0.000787085946649313,
      "memory(GiB)": 27.09,
      "reward": 0.4845999777317047,
      "reward_std": 0.11115718111395836,
      "rewards/MMContentORM/mean": 0.6190000116825104,
      "rewards/MMContentORM/std": 0.6094013214111328,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3360,
      "train_speed(iter/s)": 0.082972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.0,
      "completions/mean_length": 212.8875,
      "completions/min_length": 153.4,
      "epoch": 1.615458473355737,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07932203263044357,
      "kl": 0.014056396484375,
      "learning_rate": 9.774320821380734e-07,
      "loss": 0.0005630974192172289,
      "memory(GiB)": 27.09,
      "reward": 0.43234997391700747,
      "reward_std": 0.0758725541876629,
      "rewards/MMContentORM/mean": 0.47400000095367434,
      "rewards/MMContentORM/std": 0.6691441416740418,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3365,
      "train_speed(iter/s)": 0.08298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/mean_length": 212.225,
      "completions/min_length": 151.6,
      "epoch": 1.6178588574171866,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1142314150929451,
      "kl": 0.014459228515625,
      "learning_rate": 9.656752081708031e-07,
      "loss": 0.0005782804451882839,
      "memory(GiB)": 27.09,
      "reward": 0.43564997911453246,
      "reward_std": 0.10175266563892364,
      "rewards/MMContentORM/mean": 0.510999995470047,
      "rewards/MMContentORM/std": 0.6983252167701721,
      "rewards/MMFormatORM/mean": 0.609375,
      "rewards/MMFormatORM/std": 0.16249999403953552,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.25,
      "step": 3370,
      "train_speed(iter/s)": 0.082987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 461.6,
      "completions/mean_length": 228.4,
      "completions/min_length": 124.0,
      "epoch": 1.6202592414786365,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.15813876688480377,
      "kl": 0.02144775390625,
      "learning_rate": 9.539819079700096e-07,
      "loss": 0.0008579882793128491,
      "memory(GiB)": 27.09,
      "reward": 0.4178499698638916,
      "reward_std": 0.11221784348599613,
      "rewards/MMContentORM/mean": 0.4665000081062317,
      "rewards/MMContentORM/std": 0.6567980706691742,
      "rewards/MMFormatORM/mean": 0.6093749821186065,
      "rewards/MMFormatORM/std": 0.09063776731491088,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.1394427239894867,
      "step": 3375,
      "train_speed(iter/s)": 0.082951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.4,
      "completions/mean_length": 212.875,
      "completions/min_length": 125.2,
      "epoch": 1.6226596255400865,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.28574997186660767,
      "kl": 0.0211181640625,
      "learning_rate": 9.423523658012568e-07,
      "loss": 0.0008457589894533158,
      "memory(GiB)": 27.09,
      "reward": 0.4936999797821045,
      "reward_std": 0.13618875967804342,
      "rewards/MMContentORM/mean": 0.6705000221729278,
      "rewards/MMContentORM/std": 0.5642464995384217,
      "rewards/MMFormatORM/mean": 0.6012499749660491,
      "rewards/MMFormatORM/std": 0.10254122316837311,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.15775573253631592,
      "step": 3380,
      "train_speed(iter/s)": 0.082959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.6,
      "completions/mean_length": 209.95,
      "completions/min_length": 126.0,
      "epoch": 1.6250600096015364,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11802355945110321,
      "kl": 0.012750244140625,
      "learning_rate": 9.30786764925396e-07,
      "loss": 0.000509438058361411,
      "memory(GiB)": 27.09,
      "reward": 0.5361499786376953,
      "reward_std": 0.05635640830732882,
      "rewards/MMContentORM/mean": 0.7210000157356262,
      "rewards/MMContentORM/std": 0.5421726107597351,
      "rewards/MMFormatORM/mean": 0.6318749904632568,
      "rewards/MMFormatORM/std": 0.07249999642372132,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3385,
      "train_speed(iter/s)": 0.082966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.6,
      "completions/mean_length": 208.0,
      "completions/min_length": 138.8,
      "epoch": 1.6274603936629861,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.006833571009337902,
      "kl": 0.015826416015625,
      "learning_rate": 9.192852875956787e-07,
      "loss": 0.0006330645643174649,
      "memory(GiB)": 27.09,
      "reward": 0.4655999720096588,
      "reward_std": 0.1080459140241146,
      "rewards/MMContentORM/mean": 0.571500027179718,
      "rewards/MMContentORM/std": 0.6459370970726013,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3390,
      "train_speed(iter/s)": 0.082977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 362.0,
      "completions/mean_length": 229.1375,
      "completions/min_length": 148.4,
      "epoch": 1.6298607777244358,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.005902289412915707,
      "kl": 0.0166748046875,
      "learning_rate": 9.078481150548824e-07,
      "loss": 0.0006678791251033545,
      "memory(GiB)": 27.09,
      "reward": 0.42405000030994416,
      "reward_std": 0.11476342976093293,
      "rewards/MMContentORM/mean": 0.4819999933242798,
      "rewards/MMContentORM/std": 0.671118414402008,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3395,
      "train_speed(iter/s)": 0.08297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.2,
      "completions/mean_length": 217.4,
      "completions/min_length": 134.8,
      "epoch": 1.6322611617858858,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15501824021339417,
      "kl": 0.016632080078125,
      "learning_rate": 8.964754275324589e-07,
      "loss": 0.0006651143543422222,
      "memory(GiB)": 27.09,
      "reward": 0.4716499984264374,
      "reward_std": 0.07870098501443863,
      "rewards/MMContentORM/mean": 0.6010000109672546,
      "rewards/MMContentORM/std": 0.6552097082138062,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3400,
      "train_speed(iter/s)": 0.082979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 459.4,
      "completions/mean_length": 236.1,
      "completions/min_length": 152.0,
      "epoch": 1.6346615458473357,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.07511002570390701,
      "kl": 0.01353759765625,
      "learning_rate": 8.851674042416852e-07,
      "loss": 0.0005421666894108057,
      "memory(GiB)": 27.09,
      "reward": 0.4685499846935272,
      "reward_std": 0.10839946605265141,
      "rewards/MMContentORM/mean": 0.5644999861717224,
      "rewards/MMContentORM/std": 0.5619328938424587,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3405,
      "train_speed(iter/s)": 0.082918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.8,
      "completions/mean_length": 204.75,
      "completions/min_length": 130.6,
      "epoch": 1.6370619299087854,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1756453961133957,
      "kl": 0.0164794921875,
      "learning_rate": 8.739242233768519e-07,
      "loss": 0.0006595761980861426,
      "memory(GiB)": 27.09,
      "reward": 0.4861499845981598,
      "reward_std": 0.14361338005401195,
      "rewards/MMContentORM/mean": 0.6535000085830689,
      "rewards/MMContentORM/std": 0.6205046653747559,
      "rewards/MMFormatORM/mean": 0.5993749856948852,
      "rewards/MMFormatORM/std": 0.13680812418460847,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 3410,
      "train_speed(iter/s)": 0.082932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.8,
      "completions/mean_length": 216.9875,
      "completions/min_length": 124.0,
      "epoch": 1.6394623139702351,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.06857043504714966,
      "kl": 0.031121826171875,
      "learning_rate": 8.627460621104444e-07,
      "loss": 0.001243231911212206,
      "memory(GiB)": 27.09,
      "reward": 0.46214998364448545,
      "reward_std": 0.17797877669800072,
      "rewards/MMContentORM/mean": 0.6060000151395798,
      "rewards/MMContentORM/std": 0.5733154647052288,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3415,
      "train_speed(iter/s)": 0.082938
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.0,
      "completions/mean_length": 213.0625,
      "completions/min_length": 142.6,
      "epoch": 1.641862698031685,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.1507033109664917,
      "kl": 0.01561279296875,
      "learning_rate": 8.516330965903564e-07,
      "loss": 0.0006242851726710796,
      "memory(GiB)": 27.09,
      "reward": 0.4748999834060669,
      "reward_std": 0.14523972067981958,
      "rewards/MMContentORM/mean": 0.6235000133514405,
      "rewards/MMContentORM/std": 0.6498092889785767,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3420,
      "train_speed(iter/s)": 0.08295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.2,
      "completions/mean_length": 220.0,
      "completions/min_length": 117.2,
      "epoch": 1.644263082093135,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.1359294056892395,
      "kl": 0.0308837890625,
      "learning_rate": 8.405855019371123e-07,
      "loss": 0.0012361595407128334,
      "memory(GiB)": 27.09,
      "reward": 0.3967999845743179,
      "reward_std": 0.17083699703216554,
      "rewards/MMContentORM/mean": 0.4570000171661377,
      "rewards/MMContentORM/std": 0.6885712265968322,
      "rewards/MMFormatORM/mean": 0.5849999964237214,
      "rewards/MMFormatORM/std": 0.1881377637386322,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.28944272398948667,
      "step": 3425,
      "train_speed(iter/s)": 0.082954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.6,
      "completions/mean_length": 209.8,
      "completions/min_length": 152.6,
      "epoch": 1.6466634661545847,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08136511594057083,
      "kl": 0.397613525390625,
      "learning_rate": 8.296034522411078e-07,
      "loss": 0.01587701141834259,
      "memory(GiB)": 27.09,
      "reward": 0.555299985408783,
      "reward_std": 0.0552957494975999,
      "rewards/MMContentORM/mean": 0.7670000076293946,
      "rewards/MMContentORM/std": 0.4387725330889225,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3430,
      "train_speed(iter/s)": 0.082969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.6,
      "completions/mean_length": 210.5875,
      "completions/min_length": 129.6,
      "epoch": 1.6490638502160344,
      "frac_reward_zero_std": 0.45,
      "grad_norm": 0.18326374888420105,
      "kl": 0.018804931640625,
      "learning_rate": 8.186871205598712e-07,
      "loss": 0.0007523265201598405,
      "memory(GiB)": 27.09,
      "reward": 0.4282499849796295,
      "reward_std": 0.175716033577919,
      "rewards/MMContentORM/mean": 0.5500000059604645,
      "rewards/MMContentORM/std": 0.6840834498405457,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.17163621485233307,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.26405572295188906,
      "step": 3435,
      "train_speed(iter/s)": 0.082985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.8,
      "completions/mean_length": 220.225,
      "completions/min_length": 150.8,
      "epoch": 1.6514642342774843,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.11703846603631973,
      "kl": 0.0169677734375,
      "learning_rate": 8.078366789153241e-07,
      "loss": 0.0006778911687433719,
      "memory(GiB)": 27.09,
      "reward": 0.4566999852657318,
      "reward_std": 0.10988439926877618,
      "rewards/MMContentORM/mean": 0.5529999971389771,
      "rewards/MMContentORM/std": 0.635290002822876,
      "rewards/MMFormatORM/mean": 0.6137499809265137,
      "rewards/MMFormatORM/std": 0.11046060025691987,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3440,
      "train_speed(iter/s)": 0.082986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.8,
      "completions/mean_length": 221.65,
      "completions/min_length": 146.4,
      "epoch": 1.6538646183389343,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.17084509134292603,
      "kl": 0.015997314453125,
      "learning_rate": 7.970522982910856e-07,
      "loss": 0.0006411694921553135,
      "memory(GiB)": 27.09,
      "reward": 0.4217999815940857,
      "reward_std": 0.1796051269862801,
      "rewards/MMContentORM/mean": 0.5195000052452088,
      "rewards/MMContentORM/std": 0.6755177021026612,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 3445,
      "train_speed(iter/s)": 0.082994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/mean_length": 222.2875,
      "completions/min_length": 165.8,
      "epoch": 1.6562650024003842,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.17295852303504944,
      "kl": 0.01490478515625,
      "learning_rate": 7.863341486297682e-07,
      "loss": 0.0005966905970126391,
      "memory(GiB)": 27.09,
      "reward": 0.4945999622344971,
      "reward_std": 0.09814641983248293,
      "rewards/MMContentORM/mean": 0.6440000176429749,
      "rewards/MMContentORM/std": 0.5497657291591167,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3450,
      "train_speed(iter/s)": 0.082998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.6,
      "completions/mean_length": 221.95,
      "completions/min_length": 137.8,
      "epoch": 1.658665386461834,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14504937827587128,
      "kl": 0.01641845703125,
      "learning_rate": 7.756823988303025e-07,
      "loss": 0.0006571163889020681,
      "memory(GiB)": 27.09,
      "reward": 0.4818499743938446,
      "reward_std": 0.08124656807631254,
      "rewards/MMContentORM/mean": 0.6264999985694886,
      "rewards/MMContentORM/std": 0.6504538416862488,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3455,
      "train_speed(iter/s)": 0.08299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.0,
      "completions/mean_length": 209.3625,
      "completions/min_length": 125.2,
      "epoch": 1.6610657705232836,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14114868640899658,
      "kl": 0.017041015625,
      "learning_rate": 7.650972167452752e-07,
      "loss": 0.0006805134937167168,
      "memory(GiB)": 27.09,
      "reward": 0.476099956035614,
      "reward_std": 0.13675445076078177,
      "rewards/MMContentORM/mean": 0.626500004529953,
      "rewards/MMContentORM/std": 0.6218415260314941,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 3460,
      "train_speed(iter/s)": 0.082999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.6,
      "completions/mean_length": 210.4875,
      "completions/min_length": 126.6,
      "epoch": 1.6634661545847336,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.21840178966522217,
      "kl": 0.016424560546875,
      "learning_rate": 7.545787691782847e-07,
      "loss": 0.0006578662432730198,
      "memory(GiB)": 27.09,
      "reward": 0.3567999839782715,
      "reward_std": 0.17606958658434452,
      "rewards/MMContentORM/mean": 0.38949999660253526,
      "rewards/MMContentORM/std": 0.7360579133033752,
      "rewards/MMFormatORM/mean": 0.5649999618530274,
      "rewards/MMFormatORM/std": 0.18591444790363312,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.2823687314987183,
      "step": 3465,
      "train_speed(iter/s)": 0.083009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 335.6,
      "completions/mean_length": 217.7875,
      "completions/min_length": 152.2,
      "epoch": 1.6658665386461835,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.13330751657485962,
      "kl": 0.011822509765625,
      "learning_rate": 7.441272218813156e-07,
      "loss": 0.0004730843007564545,
      "memory(GiB)": 27.09,
      "reward": 0.5238499701023102,
      "reward_std": 0.03981010988354683,
      "rewards/MMContentORM/mean": 0.6740000247955322,
      "rewards/MMContentORM/std": 0.5537904977798462,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3470,
      "train_speed(iter/s)": 0.083019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 356.4,
      "completions/mean_length": 227.1375,
      "completions/min_length": 125.0,
      "epoch": 1.6682669227076332,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.19898498058319092,
      "kl": 0.01395263671875,
      "learning_rate": 7.337427395521173e-07,
      "loss": 0.0005571233108639717,
      "memory(GiB)": 27.09,
      "reward": 0.5003499805927276,
      "reward_std": 0.08888331830967218,
      "rewards/MMContentORM/mean": 0.6440000176429749,
      "rewards/MMContentORM/std": 0.6199796617031097,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3475,
      "train_speed(iter/s)": 0.083012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.0,
      "completions/mean_length": 221.5875,
      "completions/min_length": 139.8,
      "epoch": 1.670667306769083,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15592429041862488,
      "kl": 0.01651611328125,
      "learning_rate": 7.234254858316187e-07,
      "loss": 0.0006610705517232418,
      "memory(GiB)": 27.09,
      "reward": 0.4636499762535095,
      "reward_std": 0.10514677353203297,
      "rewards/MMContentORM/mean": 0.581000006198883,
      "rewards/MMContentORM/std": 0.6593972444534302,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3480,
      "train_speed(iter/s)": 0.083008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.8,
      "completions/mean_length": 206.2125,
      "completions/min_length": 124.2,
      "epoch": 1.6730676908305329,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10853126645088196,
      "kl": 0.013946533203125,
      "learning_rate": 7.13175623301347e-07,
      "loss": 0.0005579915829002857,
      "memory(GiB)": 27.09,
      "reward": 0.5001499652862549,
      "reward_std": 0.08407499315217137,
      "rewards/MMContentORM/mean": 0.6435000181198121,
      "rewards/MMContentORM/std": 0.5942914664745331,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3485,
      "train_speed(iter/s)": 0.083022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 208.8,
      "completions/min_length": 114.4,
      "epoch": 1.6754680748919828,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.26080384850502014,
      "kl": 0.019244384765625,
      "learning_rate": 7.02993313480862e-07,
      "loss": 0.0007686344906687737,
      "memory(GiB)": 27.09,
      "reward": 0.5148499727249145,
      "reward_std": 0.1034497192595154,
      "rewards/MMContentORM/mean": 0.7090000152587891,
      "rewards/MMContentORM/std": 0.5670624554157258,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3490,
      "train_speed(iter/s)": 0.08303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.4,
      "completions/mean_length": 218.8125,
      "completions/min_length": 144.0,
      "epoch": 1.6778684589534325,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16066478192806244,
      "kl": 0.015631103515625,
      "learning_rate": 6.928787168252132e-07,
      "loss": 0.0006245138123631477,
      "memory(GiB)": 27.09,
      "reward": 0.45314998030662534,
      "reward_std": 0.11943033039569854,
      "rewards/MMContentORM/mean": 0.5835000038146972,
      "rewards/MMContentORM/std": 0.6094723448157311,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.16571036279201506,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 3495,
      "train_speed(iter/s)": 0.083039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.4,
      "completions/mean_length": 216.3875,
      "completions/min_length": 134.0,
      "epoch": 1.6802688430148822,
      "frac_reward_zero_std": 0.825,
      "grad_norm": 0.00513013731688261,
      "kl": 0.015216064453125,
      "learning_rate": 6.828319927224114e-07,
      "loss": 0.0006088857538998127,
      "memory(GiB)": 27.09,
      "reward": 0.5228999733924866,
      "reward_std": 0.05359869406092912,
      "rewards/MMContentORM/mean": 0.6860000133514405,
      "rewards/MMContentORM/std": 0.5610509395599366,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3500,
      "train_speed(iter/s)": 0.083035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.6,
      "completions/mean_length": 215.85,
      "completions/min_length": 95.2,
      "epoch": 1.6826692270763322,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.17233267426490784,
      "kl": 0.021417236328125,
      "learning_rate": 6.728532994909203e-07,
      "loss": 0.0008568591438233852,
      "memory(GiB)": 27.09,
      "reward": 0.401749986410141,
      "reward_std": 0.15421998733654618,
      "rewards/MMContentORM/mean": 0.4550000071525574,
      "rewards/MMContentORM/std": 0.6894314765930176,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3505,
      "train_speed(iter/s)": 0.082993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.2,
      "completions/mean_length": 211.375,
      "completions/min_length": 151.2,
      "epoch": 1.685069611137782,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14501921832561493,
      "kl": 0.01634521484375,
      "learning_rate": 6.629427943771532e-07,
      "loss": 0.0006534026004374027,
      "memory(GiB)": 27.09,
      "reward": 0.49959996342658997,
      "reward_std": 0.10917728263884782,
      "rewards/MMContentORM/mean": 0.6565000057220459,
      "rewards/MMContentORM/std": 0.628342616558075,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3510,
      "train_speed(iter/s)": 0.082999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.2,
      "completions/mean_length": 209.375,
      "completions/min_length": 115.8,
      "epoch": 1.687469995199232,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.15510372817516327,
      "kl": 0.0161865234375,
      "learning_rate": 6.531006335530016e-07,
      "loss": 0.0006463156081736088,
      "memory(GiB)": 27.09,
      "reward": 0.4707499802112579,
      "reward_std": 0.06851864596828819,
      "rewards/MMContentORM/mean": 0.5699999809265137,
      "rewards/MMContentORM/std": 0.5937826454639434,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3515,
      "train_speed(iter/s)": 0.083008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.2,
      "completions/mean_length": 223.975,
      "completions/min_length": 132.6,
      "epoch": 1.6898703792606817,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.18824124336242676,
      "kl": 0.013726806640625,
      "learning_rate": 6.433269721133767e-07,
      "loss": 0.0005491763353347778,
      "memory(GiB)": 27.09,
      "reward": 0.4896999835968018,
      "reward_std": 0.08810550197958947,
      "rewards/MMContentORM/mean": 0.602999997138977,
      "rewards/MMContentORM/std": 0.617827194929123,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3520,
      "train_speed(iter/s)": 0.083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.0,
      "completions/mean_length": 209.875,
      "completions/min_length": 147.0,
      "epoch": 1.6922707633221314,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.18868878483772278,
      "kl": 0.018115234375,
      "learning_rate": 6.336219640737568e-07,
      "loss": 0.0007253088988363743,
      "memory(GiB)": 27.09,
      "reward": 0.4806499779224396,
      "reward_std": 0.12635998169425874,
      "rewards/MMContentORM/mean": 0.6235000014305114,
      "rewards/MMContentORM/std": 0.6232763528823853,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.09680812656879426,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.14893558621406555,
      "step": 3525,
      "train_speed(iter/s)": 0.083009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.8,
      "completions/mean_length": 211.3375,
      "completions/min_length": 137.4,
      "epoch": 1.6946711473835814,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.15571913123130798,
      "kl": 0.01719970703125,
      "learning_rate": 6.23985762367768e-07,
      "loss": 0.0006875310558825731,
      "memory(GiB)": 27.09,
      "reward": 0.47434998154640196,
      "reward_std": 0.08322646701708436,
      "rewards/MMContentORM/mean": 0.5790000081062316,
      "rewards/MMContentORM/std": 0.6246312737464905,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3530,
      "train_speed(iter/s)": 0.083019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.8,
      "completions/mean_length": 213.8125,
      "completions/min_length": 136.2,
      "epoch": 1.6970715314450313,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14880269765853882,
      "kl": 0.0153564453125,
      "learning_rate": 6.144185188447682e-07,
      "loss": 0.000614521512761712,
      "memory(GiB)": 27.09,
      "reward": 0.5258000135421753,
      "reward_std": 0.08343859082087875,
      "rewards/MMContentORM/mean": 0.7220000326633453,
      "rewards/MMContentORM/std": 0.4758839137852192,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 3535,
      "train_speed(iter/s)": 0.083024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.8,
      "completions/mean_length": 220.625,
      "completions/min_length": 151.2,
      "epoch": 1.699471915506481,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.17675665020942688,
      "kl": 0.01483154296875,
      "learning_rate": 6.049203842674628e-07,
      "loss": 0.0005933211185038089,
      "memory(GiB)": 27.09,
      "reward": 0.4919499814510345,
      "reward_std": 0.08209509402513504,
      "rewards/MMContentORM/mean": 0.6230000138282776,
      "rewards/MMContentORM/std": 0.6088876247406005,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3540,
      "train_speed(iter/s)": 0.083022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.2,
      "completions/mean_length": 214.075,
      "completions/min_length": 130.6,
      "epoch": 1.7018722995679307,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.17425678670406342,
      "kl": 0.015087890625,
      "learning_rate": 5.954915083095164e-07,
      "loss": 0.0006034282967448234,
      "memory(GiB)": 27.09,
      "reward": 0.42609999179840086,
      "reward_std": 0.1848377011716366,
      "rewards/MMContentORM/mean": 0.5015000104904175,
      "rewards/MMContentORM/std": 0.7074744701385498,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3545,
      "train_speed(iter/s)": 0.083032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.2,
      "completions/mean_length": 213.4125,
      "completions/min_length": 126.6,
      "epoch": 1.7042726836293807,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.19085994362831116,
      "kl": 0.01416015625,
      "learning_rate": 5.86132039553205e-07,
      "loss": 0.000567510724067688,
      "memory(GiB)": 27.09,
      "reward": 0.41705000400543213,
      "reward_std": 0.14219917133450508,
      "rewards/MMContentORM/mean": 0.4645000100135803,
      "rewards/MMContentORM/std": 0.6884559154510498,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3550,
      "train_speed(iter/s)": 0.083032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 345.2,
      "completions/mean_length": 222.175,
      "completions/min_length": 140.8,
      "epoch": 1.7066730676908306,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.14451654255390167,
      "kl": 0.016253662109375,
      "learning_rate": 5.768421254870721e-07,
      "loss": 0.0006507723592221737,
      "memory(GiB)": 27.09,
      "reward": 0.4542999863624573,
      "reward_std": 0.08343860041350126,
      "rewards/MMContentORM/mean": 0.5719999969005585,
      "rewards/MMContentORM/std": 0.46381150707602503,
      "rewards/MMFormatORM/mean": 0.6012499749660491,
      "rewards/MMFormatORM/std": 0.10254122316837311,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.15775573253631592,
      "step": 3555,
      "train_speed(iter/s)": 0.083035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.2,
      "completions/mean_length": 211.3375,
      "completions/min_length": 101.4,
      "epoch": 1.7090734517522803,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.10909511148929596,
      "kl": 0.018408203125,
      "learning_rate": 5.676219125036008e-07,
      "loss": 0.0007358456961810589,
      "memory(GiB)": 27.09,
      "reward": 0.4575499951839447,
      "reward_std": 0.17769593372941017,
      "rewards/MMContentORM/mean": 0.5944999873638153,
      "rewards/MMContentORM/std": 0.6650677740573883,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.14121158123016359,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21724859476089478,
      "step": 3560,
      "train_speed(iter/s)": 0.083043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.6,
      "completions/mean_length": 219.425,
      "completions/min_length": 124.2,
      "epoch": 1.7114738358137302,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.20709584653377533,
      "kl": 0.017572021484375,
      "learning_rate": 5.584715458969103e-07,
      "loss": 0.0007023838814347982,
      "memory(GiB)": 27.09,
      "reward": 0.4612499952316284,
      "reward_std": 0.10458109080791474,
      "rewards/MMContentORM/mean": 0.575000011920929,
      "rewards/MMContentORM/std": 0.5526260115206242,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3565,
      "train_speed(iter/s)": 0.083037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.8,
      "completions/mean_length": 209.3125,
      "completions/min_length": 125.0,
      "epoch": 1.71387421987518,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.07817840576171875,
      "kl": 0.021575927734375,
      "learning_rate": 5.493911698604648e-07,
      "loss": 0.0008630914613604546,
      "memory(GiB)": 27.09,
      "reward": 0.4372999846935272,
      "reward_std": 0.12600643069017678,
      "rewards/MMContentORM/mean": 0.5294999957084656,
      "rewards/MMContentORM/std": 0.6551137328147888,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3570,
      "train_speed(iter/s)": 0.083038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.2,
      "completions/mean_length": 208.3125,
      "completions/min_length": 128.4,
      "epoch": 1.71627460393663,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.1356513947248459,
      "kl": 0.015533447265625,
      "learning_rate": 5.403809274848048e-07,
      "loss": 0.0006216357462108136,
      "memory(GiB)": 27.09,
      "reward": 0.5266999721527099,
      "reward_std": 0.05444721775129437,
      "rewards/MMContentORM/mean": 0.6955000042915345,
      "rewards/MMContentORM/std": 0.5412708878517151,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3575,
      "train_speed(iter/s)": 0.083049
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/mean_length": 205.125,
      "completions/min_length": 124.2,
      "epoch": 1.7186749879980798,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.19772173464298248,
      "kl": 0.0181396484375,
      "learning_rate": 5.314409607552845e-07,
      "loss": 0.0007258410565555096,
      "memory(GiB)": 27.09,
      "reward": 0.4547999739646912,
      "reward_std": 0.18611050322651862,
      "rewards/MMContentORM/mean": 0.6020000219345093,
      "rewards/MMContentORM/std": 0.6907771944999694,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 3580,
      "train_speed(iter/s)": 0.083061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.0,
      "completions/mean_length": 212.6,
      "completions/min_length": 129.2,
      "epoch": 1.7210753720595295,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.19165228307247162,
      "kl": 0.016009521484375,
      "learning_rate": 5.225714105498414e-07,
      "loss": 0.0006398680619895458,
      "memory(GiB)": 27.09,
      "reward": 0.4763499915599823,
      "reward_std": 0.07304412834346294,
      "rewards/MMContentORM/mean": 0.5839999854564667,
      "rewards/MMContentORM/std": 0.5775633066892624,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3585,
      "train_speed(iter/s)": 0.083072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.8,
      "completions/mean_length": 220.3,
      "completions/min_length": 126.0,
      "epoch": 1.7234757561209793,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.29149454832077026,
      "kl": 0.015185546875,
      "learning_rate": 5.137724166367763e-07,
      "loss": 0.0006067929789423943,
      "memory(GiB)": 27.09,
      "reward": 0.3497999906539917,
      "reward_std": 0.2576697215437889,
      "rewards/MMContentORM/mean": 0.39700001031160354,
      "rewards/MMContentORM/std": 0.7802090883255005,
      "rewards/MMFormatORM/mean": 0.5524999856948852,
      "rewards/MMFormatORM/std": 0.224040886759758,
      "rewards/MMRubricORM/mean": -0.15,
      "rewards/MMRubricORM/std": 0.34467830061912536,
      "step": 3590,
      "train_speed(iter/s)": 0.083072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.6,
      "completions/mean_length": 212.625,
      "completions/min_length": 145.8,
      "epoch": 1.7258761401824292,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.12896399199962616,
      "kl": 0.014410400390625,
      "learning_rate": 5.050441176725468e-07,
      "loss": 0.0005758726038038731,
      "memory(GiB)": 27.09,
      "reward": 0.46919997930526736,
      "reward_std": 0.05953839020803571,
      "rewards/MMContentORM/mean": 0.5805000185966491,
      "rewards/MMContentORM/std": 0.6441609025001526,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3595,
      "train_speed(iter/s)": 0.083085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 360.2,
      "completions/mean_length": 220.2375,
      "completions/min_length": 122.2,
      "epoch": 1.7282765242438791,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.4579542875289917,
      "kl": 0.030523681640625,
      "learning_rate": 4.96386651199583e-07,
      "loss": 0.0012195698916912078,
      "memory(GiB)": 27.09,
      "reward": 0.4777999818325043,
      "reward_std": 0.1202081507537514,
      "rewards/MMContentORM/mean": 0.6020000159740448,
      "rewards/MMContentORM/std": 0.638184130191803,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.08490467071533203,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13062257766723634,
      "step": 3600,
      "train_speed(iter/s)": 0.08308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.0,
      "completions/mean_length": 222.575,
      "completions/min_length": 138.0,
      "epoch": 1.7306769083053288,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.005367351695895195,
      "kl": 0.0135009765625,
      "learning_rate": 4.878001536441213e-07,
      "loss": 0.0005398348905146122,
      "memory(GiB)": 27.09,
      "reward": 0.49624998569488527,
      "reward_std": 0.043204221641644835,
      "rewards/MMContentORM/mean": 0.6049999952316284,
      "rewards/MMContentORM/std": 0.5939936757087707,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3605,
      "train_speed(iter/s)": 0.083045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.0,
      "completions/mean_length": 211.625,
      "completions/min_length": 125.4,
      "epoch": 1.7330772923667785,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13431750237941742,
      "kl": 0.014501953125,
      "learning_rate": 4.792847603140587e-07,
      "loss": 0.000580282649025321,
      "memory(GiB)": 27.09,
      "reward": 0.48459998369216917,
      "reward_std": 0.09192387647926807,
      "rewards/MMContentORM/mean": 0.6190000116825104,
      "rewards/MMContentORM/std": 0.6144611597061157,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3610,
      "train_speed(iter/s)": 0.083051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.0,
      "completions/mean_length": 216.1125,
      "completions/min_length": 127.0,
      "epoch": 1.7354776764282285,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.14910034835338593,
      "kl": 0.03046875,
      "learning_rate": 4.7084060539681066e-07,
      "loss": 0.0012202151119709015,
      "memory(GiB)": 27.09,
      "reward": 0.37774998843669894,
      "reward_std": 0.15733125656843186,
      "rewards/MMContentORM/mean": 0.4525000035762787,
      "rewards/MMContentORM/std": 0.7233627915382386,
      "rewards/MMFormatORM/mean": 0.5606249868869781,
      "rewards/MMFormatORM/std": 0.21994589269161224,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.33837831020355225,
      "step": 3615,
      "train_speed(iter/s)": 0.08305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.2,
      "completions/mean_length": 217.2375,
      "completions/min_length": 139.0,
      "epoch": 1.7378780604896784,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.12053893506526947,
      "kl": 0.017779541015625,
      "learning_rate": 4.624678219572043e-07,
      "loss": 0.0007117808330804109,
      "memory(GiB)": 27.09,
      "reward": 0.4127999782562256,
      "reward_std": 0.17083699852228165,
      "rewards/MMContentORM/mean": 0.49699999690055846,
      "rewards/MMContentORM/std": 0.7366461873054504,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.19821036159992217,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 3620,
      "train_speed(iter/s)": 0.083055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 345.2,
      "completions/mean_length": 223.6625,
      "completions/min_length": 124.0,
      "epoch": 1.7402784445511283,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.17625129222869873,
      "kl": 0.0965087890625,
      "learning_rate": 4.5416654193538245e-07,
      "loss": 0.003856099024415016,
      "memory(GiB)": 27.09,
      "reward": 0.45974999070167544,
      "reward_std": 0.15648272663820534,
      "rewards/MMContentORM/mean": 0.6000000178813935,
      "rewards/MMContentORM/std": 0.6247810423374176,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3625,
      "train_speed(iter/s)": 0.083045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.8,
      "completions/mean_length": 218.475,
      "completions/min_length": 143.6,
      "epoch": 1.742678828612578,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.15371958911418915,
      "kl": 0.064898681640625,
      "learning_rate": 4.459368961447169e-07,
      "loss": 0.002591692842543125,
      "memory(GiB)": 27.09,
      "reward": 0.47674998044967654,
      "reward_std": 0.08266077786684037,
      "rewards/MMContentORM/mean": 0.5849999964237214,
      "rewards/MMContentORM/std": 0.6398021399974823,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3630,
      "train_speed(iter/s)": 0.083041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 406.4,
      "completions/mean_length": 218.6625,
      "completions/min_length": 125.0,
      "epoch": 1.7450792126740278,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.1884879767894745,
      "kl": 0.022528076171875,
      "learning_rate": 4.3777901426975465e-07,
      "loss": 0.0009016599506139755,
      "memory(GiB)": 27.09,
      "reward": 0.4047499895095825,
      "reward_std": 0.13470384031534194,
      "rewards/MMContentORM/mean": 0.4875000238418579,
      "rewards/MMContentORM/std": 0.7453335165977478,
      "rewards/MMFormatORM/mean": 0.576874977350235,
      "rewards/MMFormatORM/std": 0.17944467663764954,
      "rewards/MMRubricORM/mean": -0.10500000119209289,
      "rewards/MMRubricORM/std": 0.28511459827423097,
      "step": 3635,
      "train_speed(iter/s)": 0.083021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 442.8,
      "completions/mean_length": 224.3125,
      "completions/min_length": 135.2,
      "epoch": 1.7474795967354777,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13846170902252197,
      "kl": 0.021331787109375,
      "learning_rate": 4.2969302486417064e-07,
      "loss": 0.0008540621027350425,
      "memory(GiB)": 27.09,
      "reward": 0.41774998903274535,
      "reward_std": 0.09086322523653508,
      "rewards/MMContentORM/mean": 0.4375,
      "rewards/MMContentORM/std": 0.6664343476295471,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3640,
      "train_speed(iter/s)": 0.082997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.4,
      "completions/mean_length": 217.0375,
      "completions/min_length": 117.4,
      "epoch": 1.7498799807969276,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.18284378945827484,
      "kl": 0.0134521484375,
      "learning_rate": 4.2167905534874153e-07,
      "loss": 0.0005382131785154343,
      "memory(GiB)": 27.09,
      "reward": 0.5565499782562255,
      "reward_std": 0.07672108276747167,
      "rewards/MMContentORM/mean": 0.7845000267028809,
      "rewards/MMContentORM/std": 0.42741707861423495,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3645,
      "train_speed(iter/s)": 0.082998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.0,
      "completions/mean_length": 223.3625,
      "completions/min_length": 120.6,
      "epoch": 1.7522803648583773,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08318620175123215,
      "kl": 0.019390869140625,
      "learning_rate": 4.1373723200934136e-07,
      "loss": 0.0007759532425552606,
      "memory(GiB)": 27.09,
      "reward": 0.5463499784469604,
      "reward_std": 0.0758725541876629,
      "rewards/MMContentORM/mean": 0.7590000092983246,
      "rewards/MMContentORM/std": 0.4582708589732647,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3650,
      "train_speed(iter/s)": 0.083003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.8,
      "completions/mean_length": 210.5,
      "completions/min_length": 139.2,
      "epoch": 1.754680748919827,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.1796911358833313,
      "kl": 0.01278076171875,
      "learning_rate": 4.0586767999494514e-07,
      "loss": 0.0005109596066176891,
      "memory(GiB)": 27.09,
      "reward": 0.5610999763011932,
      "reward_std": 0.055012908577919004,
      "rewards/MMContentORM/mean": 0.7815000295639039,
      "rewards/MMContentORM/std": 0.3631765726953745,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3655,
      "train_speed(iter/s)": 0.083007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 348.2,
      "completions/mean_length": 216.5625,
      "completions/min_length": 132.6,
      "epoch": 1.757081132981277,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.08192643523216248,
      "kl": 0.014990234375,
      "learning_rate": 3.980705233156662e-07,
      "loss": 0.0005991185083985328,
      "memory(GiB)": 27.09,
      "reward": 0.5434999465942383,
      "reward_std": 0.05840701770503074,
      "rewards/MMContentORM/mean": 0.7375,
      "rewards/MMContentORM/std": 0.5282024204730987,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3660,
      "train_speed(iter/s)": 0.083004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 295.8,
      "completions/mean_length": 211.125,
      "completions/min_length": 156.6,
      "epoch": 1.759481517042727,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.11645707488059998,
      "kl": 0.0146240234375,
      "learning_rate": 3.903458848407915e-07,
      "loss": 0.0005853664129972458,
      "memory(GiB)": 27.09,
      "reward": 0.48039997220039365,
      "reward_std": 0.0814586978405714,
      "rewards/MMContentORM/mean": 0.6085000038146973,
      "rewards/MMContentORM/std": 0.6318390727043152,
      "rewards/MMFormatORM/mean": 0.6174999952316285,
      "rewards/MMFormatORM/std": 0.12999999523162842,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.2,
      "step": 3665,
      "train_speed(iter/s)": 0.083016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 457.4,
      "completions/mean_length": 228.6125,
      "completions/min_length": 123.4,
      "epoch": 1.7618819011041766,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.20300821959972382,
      "kl": 0.01519775390625,
      "learning_rate": 3.8269388629685266e-07,
      "loss": 0.0006076143123209477,
      "memory(GiB)": 27.09,
      "reward": 0.436849981546402,
      "reward_std": 0.10740951672196389,
      "rewards/MMContentORM/mean": 0.489000004529953,
      "rewards/MMContentORM/std": 0.6648125410079956,
      "rewards/MMFormatORM/mean": 0.6218749761581421,
      "rewards/MMFormatORM/std": 0.09190345257520675,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3670,
      "train_speed(iter/s)": 0.082985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 451.8,
      "completions/mean_length": 222.0625,
      "completions/min_length": 150.2,
      "epoch": 1.7642822851656264,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.07441962510347366,
      "kl": 0.0164794921875,
      "learning_rate": 3.7511464826570476e-07,
      "loss": 0.0006591953337192535,
      "memory(GiB)": 27.09,
      "reward": 0.43319997787475584,
      "reward_std": 0.14212846159934997,
      "rewards/MMContentORM/mean": 0.5480000078678131,
      "rewards/MMContentORM/std": 0.7250023484230042,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 3675,
      "train_speed(iter/s)": 0.082957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 519.4,
      "completions/mean_length": 235.7625,
      "completions/min_length": 150.4,
      "epoch": 1.7666826692270763,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.07605559378862381,
      "kl": 0.019140625,
      "learning_rate": 3.676082901826267e-07,
      "loss": 0.0007654134184122086,
      "memory(GiB)": 27.09,
      "reward": 0.4716499924659729,
      "reward_std": 0.06908433209173381,
      "rewards/MMContentORM/mean": 0.6010000109672546,
      "rewards/MMContentORM/std": 0.6110691726207733,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.11740466952323914,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18062257766723633,
      "step": 3680,
      "train_speed(iter/s)": 0.082914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.0,
      "completions/mean_length": 215.6375,
      "completions/min_length": 129.6,
      "epoch": 1.7690830532885262,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.12616391479969025,
      "kl": 0.0119415283203125,
      "learning_rate": 3.601749303344415e-07,
      "loss": 0.000477463286370039,
      "memory(GiB)": 27.09,
      "reward": 0.530249971151352,
      "reward_std": 0.04150716739241034,
      "rewards/MMContentORM/mean": 0.6900000095367431,
      "rewards/MMContentORM/std": 0.5334938883781433,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3685,
      "train_speed(iter/s)": 0.082921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.4,
      "completions/mean_length": 211.1875,
      "completions/min_length": 137.8,
      "epoch": 1.7714834373499762,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14239180088043213,
      "kl": 1.172998046875,
      "learning_rate": 3.528146858576464e-07,
      "loss": 0.0469234973192215,
      "memory(GiB)": 27.09,
      "reward": 0.5906499743461608,
      "reward_std": 0.024536601221188902,
      "rewards/MMContentORM/mean": 0.8409999966621399,
      "rewards/MMContentORM/std": 0.2608364664018154,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3690,
      "train_speed(iter/s)": 0.082933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 444.0,
      "completions/mean_length": 225.4375,
      "completions/min_length": 155.2,
      "epoch": 1.7738838214114259,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1946728527545929,
      "kl": 0.014678955078125,
      "learning_rate": 3.4552767273657416e-07,
      "loss": 0.0005875344388186932,
      "memory(GiB)": 27.09,
      "reward": 0.4611999809741974,
      "reward_std": 0.07240773178637028,
      "rewards/MMContentORM/mean": 0.5605000138282776,
      "rewards/MMContentORM/std": 0.6589470744132996,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3695,
      "train_speed(iter/s)": 0.082904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 288.2,
      "completions/mean_length": 204.9,
      "completions/min_length": 115.4,
      "epoch": 1.7762842054728756,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.0957147628068924,
      "kl": 0.017193603515625,
      "learning_rate": 3.383140058015605e-07,
      "loss": 0.0006867312826216221,
      "memory(GiB)": 27.09,
      "reward": 0.4408499926328659,
      "reward_std": 0.15040160596836358,
      "rewards/MMContentORM/mean": 0.5564999967813492,
      "rewards/MMContentORM/std": 0.6231798827648163,
      "rewards/MMFormatORM/mean": 0.5893749713897705,
      "rewards/MMFormatORM/std": 0.1667675107717514,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.25493902564048765,
      "step": 3700,
      "train_speed(iter/s)": 0.082917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.6,
      "completions/mean_length": 209.525,
      "completions/min_length": 106.4,
      "epoch": 1.7786845895343255,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.16963821649551392,
      "kl": 0.039617919921875,
      "learning_rate": 3.3117379872713573e-07,
      "loss": 0.0015896432101726531,
      "memory(GiB)": 27.09,
      "reward": 0.49789999723434447,
      "reward_std": 0.1166726142168045,
      "rewards/MMContentORM/mean": 0.6810000121593476,
      "rewards/MMContentORM/std": 0.6037951707839966,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 3705,
      "train_speed(iter/s)": 0.082899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.0,
      "completions/mean_length": 218.6375,
      "completions/min_length": 135.0,
      "epoch": 1.7810849735957754,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.09570092707872391,
      "kl": 0.014276123046875,
      "learning_rate": 3.2410716403023404e-07,
      "loss": 0.0005716872867196799,
      "memory(GiB)": 27.09,
      "reward": 0.42004998922348025,
      "reward_std": 0.12551144529134034,
      "rewards/MMContentORM/mean": 0.471999990940094,
      "rewards/MMContentORM/std": 0.6835508227348328,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3710,
      "train_speed(iter/s)": 0.082911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.2,
      "completions/mean_length": 211.375,
      "completions/min_length": 131.2,
      "epoch": 1.7834853576572252,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.07856486737728119,
      "kl": 0.01624755859375,
      "learning_rate": 3.1711421306841903e-07,
      "loss": 0.0006491564214229584,
      "memory(GiB)": 27.09,
      "reward": 0.5439499855041504,
      "reward_std": 0.08831763297785074,
      "rewards/MMContentORM/mean": 0.753000020980835,
      "rewards/MMContentORM/std": 0.47651802077889444,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3715,
      "train_speed(iter/s)": 0.082911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.4,
      "completions/mean_length": 217.9125,
      "completions/min_length": 134.4,
      "epoch": 1.7858857417186749,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11409315466880798,
      "kl": 0.01444091796875,
      "learning_rate": 3.101950560381339e-07,
      "loss": 0.0005774036049842835,
      "memory(GiB)": 27.09,
      "reward": 0.5369499802589417,
      "reward_std": 0.08577205196488649,
      "rewards/MMContentORM/mean": 0.7355000257492066,
      "rewards/MMContentORM/std": 0.44938567504286764,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3720,
      "train_speed(iter/s)": 0.082918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.0,
      "completions/mean_length": 220.0125,
      "completions/min_length": 132.8,
      "epoch": 1.7882861257801248,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.13937775790691376,
      "kl": 0.015142822265625,
      "learning_rate": 3.033498019729553e-07,
      "loss": 0.0006057361606508493,
      "memory(GiB)": 27.09,
      "reward": 0.4632499754428864,
      "reward_std": 0.12211733981966973,
      "rewards/MMContentORM/mean": 0.5800000250339508,
      "rewards/MMContentORM/std": 0.6220081090927124,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3725,
      "train_speed(iter/s)": 0.082918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.8,
      "completions/mean_length": 220.2125,
      "completions/min_length": 151.6,
      "epoch": 1.7906865098415747,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12366022914648056,
      "kl": 0.0125,
      "learning_rate": 2.965785587418857e-07,
      "loss": 0.0005001377779990434,
      "memory(GiB)": 27.09,
      "reward": 0.5290499746799469,
      "reward_std": 0.07488261461257935,
      "rewards/MMContentORM/mean": 0.6870000004768372,
      "rewards/MMContentORM/std": 0.5478822708129882,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3730,
      "train_speed(iter/s)": 0.082923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.6,
      "completions/mean_length": 220.45,
      "completions/min_length": 144.8,
      "epoch": 1.7930868939030244,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.23606330156326294,
      "kl": 0.01500244140625,
      "learning_rate": 2.898814330476457e-07,
      "loss": 0.0006001268513500691,
      "memory(GiB)": 27.09,
      "reward": 0.42784997820854187,
      "reward_std": 0.18462557792663575,
      "rewards/MMContentORM/mean": 0.5490000188350678,
      "rewards/MMContentORM/std": 0.7097955226898194,
      "rewards/MMFormatORM/mean": 0.5768749833106994,
      "rewards/MMFormatORM/std": 0.2062115788459778,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.3172485947608948,
      "step": 3735,
      "train_speed(iter/s)": 0.082928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.4,
      "completions/mean_length": 210.825,
      "completions/min_length": 127.2,
      "epoch": 1.7954872779644742,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1833251416683197,
      "kl": 0.017486572265625,
      "learning_rate": 2.8325853042499796e-07,
      "loss": 0.000699461530894041,
      "memory(GiB)": 27.09,
      "reward": 0.42219996452331543,
      "reward_std": 0.21411193013191224,
      "rewards/MMContentORM/mean": 0.5205000072717667,
      "rewards/MMContentORM/std": 0.6509887754917145,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.1430424392223358,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.22006530165672303,
      "step": 3740,
      "train_speed(iter/s)": 0.082937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 427.8,
      "completions/mean_length": 221.6375,
      "completions/min_length": 134.6,
      "epoch": 1.797887662025924,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.09696277230978012,
      "kl": 0.02608642578125,
      "learning_rate": 2.7670995523908007e-07,
      "loss": 0.001044764183461666,
      "memory(GiB)": 27.09,
      "reward": 0.45574997663497924,
      "reward_std": 0.14347196728922426,
      "rewards/MMContentORM/mean": 0.5900000095367431,
      "rewards/MMContentORM/std": 0.580910587310791,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3745,
      "train_speed(iter/s)": 0.082918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 490.8,
      "completions/mean_length": 221.175,
      "completions/min_length": 134.0,
      "epoch": 1.800288046087374,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.1732310652732849,
      "kl": 0.0142822265625,
      "learning_rate": 2.702358106837616e-07,
      "loss": 0.0005715820007026196,
      "memory(GiB)": 27.09,
      "reward": 0.48334997296333315,
      "reward_std": 0.07615540148690343,
      "rewards/MMContentORM/mean": 0.6015000104904175,
      "rewards/MMContentORM/std": 0.6337794065475464,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3750,
      "train_speed(iter/s)": 0.082881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.2,
      "completions/mean_length": 212.7,
      "completions/min_length": 121.8,
      "epoch": 1.802688430148824,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.15966768562793732,
      "kl": 0.017254638671875,
      "learning_rate": 2.63836198780022e-07,
      "loss": 0.0006905402522534132,
      "memory(GiB)": 27.09,
      "reward": 0.4441499710083008,
      "reward_std": 0.11745043210685253,
      "rewards/MMContentORM/mean": 0.5359999895095825,
      "rewards/MMContentORM/std": 0.6547886967658997,
      "rewards/MMFormatORM/mean": 0.6056249737739563,
      "rewards/MMFormatORM/std": 0.13630690723657607,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3755,
      "train_speed(iter/s)": 0.082883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 313.4,
      "completions/mean_length": 210.7375,
      "completions/min_length": 136.6,
      "epoch": 1.8050888142102737,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.17423182725906372,
      "kl": 0.02149658203125,
      "learning_rate": 2.575112203743313e-07,
      "loss": 0.0008604388684034347,
      "memory(GiB)": 27.09,
      "reward": 0.44089998602867125,
      "reward_std": 0.18257496803998946,
      "rewards/MMContentORM/mean": 0.5385000109672546,
      "rewards/MMContentORM/std": 0.6908077597618103,
      "rewards/MMFormatORM/mean": 0.6012499928474426,
      "rewards/MMFormatORM/std": 0.17440344989299775,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.2683130085468292,
      "step": 3760,
      "train_speed(iter/s)": 0.082888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.8,
      "completions/mean_length": 217.0125,
      "completions/min_length": 142.4,
      "epoch": 1.8074891982717234,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.17498211562633514,
      "kl": 0.0125,
      "learning_rate": 2.51260975137077e-07,
      "loss": 0.000500024575740099,
      "memory(GiB)": 27.09,
      "reward": 0.5402999818325043,
      "reward_std": 0.08216580227017403,
      "rewards/MMContentORM/mean": 0.72950000166893,
      "rewards/MMContentORM/std": 0.4286257430911064,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3765,
      "train_speed(iter/s)": 0.08289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.4,
      "completions/mean_length": 211.875,
      "completions/min_length": 135.8,
      "epoch": 1.8098895823331733,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1608082801103592,
      "kl": 0.014971923828125,
      "learning_rate": 2.4508556156097983e-07,
      "loss": 0.0005985355004668236,
      "memory(GiB)": 27.09,
      "reward": 0.49359997510910036,
      "reward_std": 0.05670996003318578,
      "rewards/MMContentORM/mean": 0.6414999842643738,
      "rewards/MMContentORM/std": 0.6027493834495544,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3770,
      "train_speed(iter/s)": 0.082893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 286.4,
      "completions/mean_length": 214.9375,
      "completions/min_length": 139.6,
      "epoch": 1.8122899663946233,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.08479262888431549,
      "kl": 0.022100830078125,
      "learning_rate": 2.3898507695954807e-07,
      "loss": 0.0008829880505800247,
      "memory(GiB)": 27.09,
      "reward": 0.5497499763965606,
      "reward_std": 0.06936717466451228,
      "rewards/MMContentORM/mean": 0.7675000071525574,
      "rewards/MMContentORM/std": 0.3865751329809427,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3775,
      "train_speed(iter/s)": 0.082901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 458.8,
      "completions/mean_length": 231.45,
      "completions/min_length": 149.0,
      "epoch": 1.814690350456073,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.20971421897411346,
      "kl": 0.014501953125,
      "learning_rate": 2.3295961746554464e-07,
      "loss": 0.0005800392478704453,
      "memory(GiB)": 27.09,
      "reward": 0.45644997954368594,
      "reward_std": 0.12833987697958946,
      "rewards/MMContentORM/mean": 0.5630000114440918,
      "rewards/MMContentORM/std": 0.6289644300937652,
      "rewards/MMFormatORM/mean": 0.6093749761581421,
      "rewards/MMFormatORM/std": 0.12130690813064575,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.18662601709365845,
      "step": 3780,
      "train_speed(iter/s)": 0.082871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/mean_length": 209.8125,
      "completions/min_length": 124.8,
      "epoch": 1.8170907345175227,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1644957810640335,
      "kl": 0.022076416015625,
      "learning_rate": 2.2700927802946748e-07,
      "loss": 0.0008836163207888604,
      "memory(GiB)": 27.09,
      "reward": 0.5015999794006347,
      "reward_std": 0.09899494738783687,
      "rewards/MMContentORM/mean": 0.6615000128746032,
      "rewards/MMContentORM/std": 0.5929094016551971,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3785,
      "train_speed(iter/s)": 0.082885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.2,
      "completions/mean_length": 221.825,
      "completions/min_length": 137.6,
      "epoch": 1.8194911185789726,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.14464011788368225,
      "kl": 0.015411376953125,
      "learning_rate": 2.211341524180599e-07,
      "loss": 0.0006168725434690714,
      "memory(GiB)": 27.09,
      "reward": 0.3968499720096588,
      "reward_std": 0.16454374492168428,
      "rewards/MMContentORM/mean": 0.471500039100647,
      "rewards/MMContentORM/std": 0.7294471979141235,
      "rewards/MMFormatORM/mean": 0.576874989271164,
      "rewards/MMFormatORM/std": 0.20004121959209442,
      "rewards/MMRubricORM/mean": -0.1125,
      "rewards/MMRubricORM/std": 0.30775573253631594,
      "step": 3790,
      "train_speed(iter/s)": 0.08288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.025,
      "completions/max_length": 570.2,
      "completions/mean_length": 231.825,
      "completions/min_length": 119.8,
      "epoch": 1.8218915026404225,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1182423084974289,
      "kl": 0.018719482421875,
      "learning_rate": 2.1533433321282548e-07,
      "loss": 0.0007486558984965086,
      "memory(GiB)": 27.09,
      "reward": 0.41229996681213377,
      "reward_std": 0.1336431846022606,
      "rewards/MMContentORM/mean": 0.46700000762939453,
      "rewards/MMContentORM/std": 0.6891016006469727,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3795,
      "train_speed(iter/s)": 0.082825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.6,
      "completions/mean_length": 214.1,
      "completions/min_length": 126.0,
      "epoch": 1.8242918867018723,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13948172330856323,
      "kl": 0.019952392578125,
      "learning_rate": 2.096099118085776e-07,
      "loss": 0.0007983671501278877,
      "memory(GiB)": 27.09,
      "reward": 0.5301999688148499,
      "reward_std": 0.10040915980935097,
      "rewards/MMContentORM/mean": 0.7330000162124634,
      "rewards/MMContentORM/std": 0.554861056804657,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3800,
      "train_speed(iter/s)": 0.082827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.6,
      "completions/mean_length": 209.8625,
      "completions/min_length": 152.0,
      "epoch": 1.826692270763322,
      "frac_reward_zero_std": 0.525,
      "grad_norm": 0.18707101047039032,
      "kl": 0.013671875,
      "learning_rate": 2.039609784119906e-07,
      "loss": 0.0005472441203892231,
      "memory(GiB)": 27.09,
      "reward": 0.4373499691486359,
      "reward_std": 0.0874691043049097,
      "rewards/MMContentORM/mean": 0.4865000069141388,
      "rewards/MMContentORM/std": 0.6470930695533752,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3805,
      "train_speed(iter/s)": 0.082815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.4,
      "completions/mean_length": 209.6125,
      "completions/min_length": 127.2,
      "epoch": 1.829092654824772,
      "frac_reward_zero_std": 0.85,
      "grad_norm": 0.07913219183683395,
      "kl": 0.01658935546875,
      "learning_rate": 1.983876220401848e-07,
      "loss": 0.0006637333892285824,
      "memory(GiB)": 27.09,
      "reward": 0.539849978685379,
      "reward_std": 0.032456200616434214,
      "rewards/MMContentORM/mean": 0.7139999866485596,
      "rewards/MMContentORM/std": 0.5111204564571381,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3810,
      "train_speed(iter/s)": 0.082827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.0,
      "completions/mean_length": 218.7125,
      "completions/min_length": 125.2,
      "epoch": 1.8314930388862218,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.10300786793231964,
      "kl": 0.033880615234375,
      "learning_rate": 1.9288993051932047e-07,
      "loss": 0.0013558823615312577,
      "memory(GiB)": 27.09,
      "reward": 0.518399977684021,
      "reward_std": 0.11200571432709694,
      "rewards/MMContentORM/mean": 0.7035000085830688,
      "rewards/MMContentORM/std": 0.5992733359336853,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3815,
      "train_speed(iter/s)": 0.082827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.6,
      "completions/mean_length": 216.15,
      "completions/min_length": 150.2,
      "epoch": 1.8338934229476718,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.20239703357219696,
      "kl": 0.0139892578125,
      "learning_rate": 1.8746799048321386e-07,
      "loss": 0.0005595901049673558,
      "memory(GiB)": 27.09,
      "reward": 0.5116499781608581,
      "reward_std": 0.08534778701141477,
      "rewards/MMContentORM/mean": 0.6435000181198121,
      "rewards/MMContentORM/std": 0.5361906588077545,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3820,
      "train_speed(iter/s)": 0.082836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/mean_length": 215.5125,
      "completions/min_length": 115.8,
      "epoch": 1.8362938070091215,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1797892451286316,
      "kl": 0.015447998046875,
      "learning_rate": 1.8212188737197657e-07,
      "loss": 0.0006183533929288388,
      "memory(GiB)": 27.09,
      "reward": 0.4594499826431274,
      "reward_std": 0.16086678504943847,
      "rewards/MMContentORM/mean": 0.5705000162124634,
      "rewards/MMContentORM/std": 0.6871401906013489,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3825,
      "train_speed(iter/s)": 0.082844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 494.8,
      "completions/mean_length": 227.725,
      "completions/min_length": 144.0,
      "epoch": 1.8386941910705712,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.10412738472223282,
      "kl": 0.016107177734375,
      "learning_rate": 1.7685170543065955e-07,
      "loss": 0.0006441749632358551,
      "memory(GiB)": 27.09,
      "reward": 0.4660999894142151,
      "reward_std": 0.0735391038004309,
      "rewards/MMContentORM/mean": 0.601500004529953,
      "rewards/MMContentORM/std": 0.6630040287971497,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3830,
      "train_speed(iter/s)": 0.082814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.4,
      "completions/mean_length": 218.1375,
      "completions/min_length": 154.8,
      "epoch": 1.8410945751320211,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1359497755765915,
      "kl": 0.0163330078125,
      "learning_rate": 1.7165752770793742e-07,
      "loss": 0.0006539277732372284,
      "memory(GiB)": 27.09,
      "reward": 0.4121499717235565,
      "reward_std": 0.17345329225063325,
      "rewards/MMContentORM/mean": 0.4809999972581863,
      "rewards/MMContentORM/std": 0.6978591680526733,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 3835,
      "train_speed(iter/s)": 0.082817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.2,
      "completions/mean_length": 205.2,
      "completions/min_length": 118.4,
      "epoch": 1.843494959193471,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.11098845303058624,
      "kl": 0.019683837890625,
      "learning_rate": 1.665394360547895e-07,
      "loss": 0.0007876243442296981,
      "memory(GiB)": 27.09,
      "reward": 0.4245999872684479,
      "reward_std": 0.1688570961356163,
      "rewards/MMContentORM/mean": 0.526499992609024,
      "rewards/MMContentORM/std": 0.7182626962661743,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.19821036159992217,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.3049390256404877,
      "step": 3840,
      "train_speed(iter/s)": 0.082826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 342.2,
      "completions/mean_length": 214.1875,
      "completions/min_length": 125.2,
      "epoch": 1.8458953432549208,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.2774093449115753,
      "kl": 0.01912841796875,
      "learning_rate": 1.6149751112321643e-07,
      "loss": 0.0007657586131244898,
      "memory(GiB)": 27.09,
      "reward": 0.43994998931884766,
      "reward_std": 0.11943033430725336,
      "rewards/MMContentORM/mean": 0.5505000114440918,
      "rewards/MMContentORM/std": 0.5636135444045067,
      "rewards/MMFormatORM/mean": 0.5931249737739563,
      "rewards/MMFormatORM/std": 0.14121158123016359,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.21724859476089478,
      "step": 3845,
      "train_speed(iter/s)": 0.082827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 480.0,
      "completions/mean_length": 232.475,
      "completions/min_length": 149.8,
      "epoch": 1.8482957273163705,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.09440695494413376,
      "kl": 0.0136474609375,
      "learning_rate": 1.565318323649667e-07,
      "loss": 0.0005458991043269634,
      "memory(GiB)": 27.09,
      "reward": 0.4410999774932861,
      "reward_std": 0.15004805505741386,
      "rewards/MMContentORM/mean": 0.539000004529953,
      "rewards/MMContentORM/std": 0.6789550423622132,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3850,
      "train_speed(iter/s)": 0.082796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 389.2,
      "completions/mean_length": 222.3,
      "completions/min_length": 140.8,
      "epoch": 1.8506961113778204,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.08402004837989807,
      "kl": 0.01473388671875,
      "learning_rate": 1.5164247803028443e-07,
      "loss": 0.0005890860687941313,
      "memory(GiB)": 27.09,
      "reward": 0.4956999808549881,
      "reward_std": 0.06378102500457317,
      "rewards/MMContentORM/mean": 0.6180000007152557,
      "rewards/MMContentORM/std": 0.4799440011382103,
      "rewards/MMFormatORM/mean": 0.6337499737739563,
      "rewards/MMFormatORM/std": 0.04440345466136932,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.06831300854682923,
      "step": 3855,
      "train_speed(iter/s)": 0.082787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.2,
      "completions/mean_length": 215.3875,
      "completions/min_length": 143.4,
      "epoch": 1.8530964954392704,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.10355502367019653,
      "kl": 0.012347412109375,
      "learning_rate": 1.4682952516667848e-07,
      "loss": 0.0004940344952046871,
      "memory(GiB)": 27.09,
      "reward": 0.5468499898910523,
      "reward_std": 0.03330472691450268,
      "rewards/MMContentORM/mean": 0.731499993801117,
      "rewards/MMContentORM/std": 0.5080301821231842,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3860,
      "train_speed(iter/s)": 0.082793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 211.8875,
      "completions/min_length": 146.2,
      "epoch": 1.85549687950072,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.11793594062328339,
      "kl": 0.014239501953125,
      "learning_rate": 1.4209304961770364e-07,
      "loss": 0.0005696051754057408,
      "memory(GiB)": 27.09,
      "reward": 0.4437499940395355,
      "reward_std": 0.08237794116139412,
      "rewards/MMContentORM/mean": 0.5025000140070915,
      "rewards/MMContentORM/std": 0.5952349126338958,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3865,
      "train_speed(iter/s)": 0.082799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.6,
      "completions/mean_length": 208.3625,
      "completions/min_length": 135.8,
      "epoch": 1.85789726356217,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.14964303374290466,
      "kl": 0.01424560546875,
      "learning_rate": 1.374331260217726e-07,
      "loss": 0.0005695806816220283,
      "memory(GiB)": 27.09,
      "reward": 0.5307499766349792,
      "reward_std": 0.08266077996231616,
      "rewards/MMContentORM/mean": 0.7200000047683716,
      "rewards/MMContentORM/std": 0.48706189841032027,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3870,
      "train_speed(iter/s)": 0.082801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.8,
      "completions/mean_length": 207.7375,
      "completions/min_length": 128.4,
      "epoch": 1.8602976476236197,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.13720768690109253,
      "kl": 0.014617919921875,
      "learning_rate": 1.32849827810973e-07,
      "loss": 0.0005841460078954697,
      "memory(GiB)": 27.09,
      "reward": 0.46409997940063474,
      "reward_std": 0.13901719748973845,
      "rewards/MMContentORM/mean": 0.5965000092983246,
      "rewards/MMContentORM/std": 0.6498379826545715,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 3875,
      "train_speed(iter/s)": 0.08281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.2,
      "completions/mean_length": 214.3625,
      "completions/min_length": 151.8,
      "epoch": 1.8626980316850696,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.20279008150100708,
      "kl": 0.015106201171875,
      "learning_rate": 1.2834322720991332e-07,
      "loss": 0.0006037722807377577,
      "memory(GiB)": 27.09,
      "reward": 0.5412999749183655,
      "reward_std": 0.049638888845220205,
      "rewards/MMContentORM/mean": 0.7320000052452087,
      "rewards/MMContentORM/std": 0.46277309134602546,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3880,
      "train_speed(iter/s)": 0.082805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.2,
      "completions/mean_length": 211.4375,
      "completions/min_length": 141.4,
      "epoch": 1.8650984157465196,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.08262795954942703,
      "kl": 0.0156005859375,
      "learning_rate": 1.2391339523458502e-07,
      "loss": 0.0006241547875106334,
      "memory(GiB)": 27.09,
      "reward": 0.46244998574256896,
      "reward_std": 0.11985459551215172,
      "rewards/MMContentORM/mean": 0.578000009059906,
      "rewards/MMContentORM/std": 0.6259812593460083,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3885,
      "train_speed(iter/s)": 0.082824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 345.6,
      "completions/mean_length": 223.2,
      "completions/min_length": 161.6,
      "epoch": 1.8674987998079693,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.18606510758399963,
      "kl": 0.015350341796875,
      "learning_rate": 1.1956040169124217e-07,
      "loss": 0.0006135111209005118,
      "memory(GiB)": 27.09,
      "reward": 0.4125999629497528,
      "reward_std": 0.13562307790853084,
      "rewards/MMContentORM/mean": 0.4965000033378601,
      "rewards/MMContentORM/std": 0.707841980457306,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 3890,
      "train_speed(iter/s)": 0.082825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.2,
      "completions/mean_length": 217.7625,
      "completions/min_length": 150.2,
      "epoch": 1.869899183869419,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.08665505051612854,
      "kl": 0.01368408203125,
      "learning_rate": 1.1528431517530414e-07,
      "loss": 0.0005479637067764998,
      "memory(GiB)": 27.09,
      "reward": 0.5135999739170074,
      "reward_std": 0.10069200224243105,
      "rewards/MMContentORM/mean": 0.6915000200271606,
      "rewards/MMContentORM/std": 0.5325116083025933,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3895,
      "train_speed(iter/s)": 0.082832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 321.0,
      "completions/mean_length": 208.8375,
      "completions/min_length": 129.4,
      "epoch": 1.872299567930869,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.10476063936948776,
      "kl": 0.024139404296875,
      "learning_rate": 1.1108520307027026e-07,
      "loss": 0.0009668363258242607,
      "memory(GiB)": 27.09,
      "reward": 0.4625499784946442,
      "reward_std": 0.15648272782564163,
      "rewards/MMContentORM/mean": 0.6070000171661377,
      "rewards/MMContentORM/std": 0.6449923276901245,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.18630690574645997,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2866260170936584,
      "step": 3900,
      "train_speed(iter/s)": 0.082839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.8,
      "completions/mean_length": 210.8875,
      "completions/min_length": 110.4,
      "epoch": 1.8746999519923189,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.15975040197372437,
      "kl": 0.014141845703125,
      "learning_rate": 1.0696313154666016e-07,
      "loss": 0.0005653574131429196,
      "memory(GiB)": 27.09,
      "reward": 0.5340999722480774,
      "reward_std": 0.060952600184828044,
      "rewards/MMContentORM/mean": 0.714000004529953,
      "rewards/MMContentORM/std": 0.5186110436916351,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3905,
      "train_speed(iter/s)": 0.082817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.8,
      "completions/mean_length": 211.0375,
      "completions/min_length": 136.2,
      "epoch": 1.8771003360537686,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.18092653155326843,
      "kl": 0.01676025390625,
      "learning_rate": 1.0291816556097455e-07,
      "loss": 0.000670450646430254,
      "memory(GiB)": 27.09,
      "reward": 0.5369499742984771,
      "reward_std": 0.08633773510809988,
      "rewards/MMContentORM/mean": 0.7355000138282776,
      "rewards/MMContentORM/std": 0.5291013896465302,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3910,
      "train_speed(iter/s)": 0.082831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.4,
      "completions/mean_length": 211.275,
      "completions/min_length": 114.2,
      "epoch": 1.8795007201152183,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.2313622385263443,
      "kl": 0.01806640625,
      "learning_rate": 9.895036885466503e-08,
      "loss": 0.000722192507237196,
      "memory(GiB)": 27.09,
      "reward": 0.4598999798297882,
      "reward_std": 0.1432598352432251,
      "rewards/MMContentORM/mean": 0.5860000014305115,
      "rewards/MMContentORM/std": 0.6623120665550232,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 3915,
      "train_speed(iter/s)": 0.082841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.0,
      "completions/mean_length": 208.8875,
      "completions/min_length": 138.6,
      "epoch": 1.8819011041766682,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13324828445911407,
      "kl": 0.016552734375,
      "learning_rate": 9.505980395313364e-08,
      "loss": 0.0006618403363972903,
      "memory(GiB)": 27.09,
      "reward": 0.5237999677658081,
      "reward_std": 0.10606601641047746,
      "rewards/MMContentORM/mean": 0.717000025510788,
      "rewards/MMContentORM/std": 0.45795624777674676,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 3920,
      "train_speed(iter/s)": 0.08284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.2,
      "completions/mean_length": 211.4875,
      "completions/min_length": 127.4,
      "epoch": 1.8843014882381182,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2311268001794815,
      "kl": 0.02252197265625,
      "learning_rate": 9.124653216474766e-08,
      "loss": 0.0009013652801513672,
      "memory(GiB)": 27.09,
      "reward": 0.43879998922348024,
      "reward_std": 0.22344573587179184,
      "rewards/MMContentORM/mean": 0.5945000112056732,
      "rewards/MMContentORM/std": 0.6892549335956574,
      "rewards/MMFormatORM/mean": 0.5649999797344207,
      "rewards/MMFormatORM/std": 0.21041721403598784,
      "rewards/MMRubricORM/mean": -0.125,
      "rewards/MMRubricORM/std": 0.32006530165672303,
      "step": 3925,
      "train_speed(iter/s)": 0.082839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.2,
      "completions/mean_length": 223.475,
      "completions/min_length": 154.2,
      "epoch": 1.886701872299568,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.16043339669704437,
      "kl": 0.01510009765625,
      "learning_rate": 8.751061357987367e-08,
      "loss": 0.0006042405962944031,
      "memory(GiB)": 27.09,
      "reward": 0.5149499654769898,
      "reward_std": 0.08633773569017648,
      "rewards/MMContentORM/mean": 0.6805000185966492,
      "rewards/MMContentORM/std": 0.5845986545085907,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 3930,
      "train_speed(iter/s)": 0.082841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 222.7875,
      "completions/min_length": 160.2,
      "epoch": 1.8891022563610178,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.07241669297218323,
      "kl": 0.012701416015625,
      "learning_rate": 8.385210706992608e-08,
      "loss": 0.000508300494402647,
      "memory(GiB)": 27.09,
      "reward": 0.49414998292922974,
      "reward_std": 0.07785245187114924,
      "rewards/MMContentORM/mean": 0.6285000085830689,
      "rewards/MMContentORM/std": 0.6101788878440857,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3935,
      "train_speed(iter/s)": 0.082847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.2,
      "completions/mean_length": 216.7625,
      "completions/min_length": 136.4,
      "epoch": 1.8915026404224675,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13122500479221344,
      "kl": 0.016265869140625,
      "learning_rate": 8.027107028644621e-08,
      "loss": 0.0006506592035293579,
      "memory(GiB)": 27.09,
      "reward": 0.4648999750614166,
      "reward_std": 0.1226123157190159,
      "rewards/MMContentORM/mean": 0.5860000073909759,
      "rewards/MMContentORM/std": 0.645108425617218,
      "rewards/MMFormatORM/mean": 0.6074999809265137,
      "rewards/MMFormatORM/std": 0.14226680397987365,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3940,
      "train_speed(iter/s)": 0.082855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.2,
      "completions/mean_length": 215.7375,
      "completions/min_length": 136.6,
      "epoch": 1.8939030244839175,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.10751134157180786,
      "kl": 0.015667724609375,
      "learning_rate": 7.676755966018967e-08,
      "loss": 0.0006263887509703637,
      "memory(GiB)": 27.09,
      "reward": 0.49424999952316284,
      "reward_std": 0.11278352783992887,
      "rewards/MMContentORM/mean": 0.6574999928474426,
      "rewards/MMContentORM/std": 0.5534313529729843,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 3945,
      "train_speed(iter/s)": 0.082853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/mean_length": 221.6625,
      "completions/min_length": 154.8,
      "epoch": 1.8963034085453674,
      "frac_reward_zero_std": 0.65,
      "grad_norm": 0.20207758247852325,
      "kl": 0.014703369140625,
      "learning_rate": 7.334163040023823e-08,
      "loss": 0.000587776442989707,
      "memory(GiB)": 27.09,
      "reward": 0.5048999905586242,
      "reward_std": 0.05699280113913119,
      "rewards/MMContentORM/mean": 0.6285000026226044,
      "rewards/MMContentORM/std": 0.5722138583660126,
      "rewards/MMFormatORM/mean": 0.6399999856948853,
      "rewards/MMFormatORM/std": 0.03999999761581421,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 3950,
      "train_speed(iter/s)": 0.082857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 452.6,
      "completions/mean_length": 224.375,
      "completions/min_length": 155.0,
      "epoch": 1.898703792606817,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1518968939781189,
      "kl": 0.016015625,
      "learning_rate": 6.999333649312933e-08,
      "loss": 0.000639676209539175,
      "memory(GiB)": 27.09,
      "reward": 0.4759999752044678,
      "reward_std": 0.11539982631802559,
      "rewards/MMContentORM/mean": 0.5974999904632569,
      "rewards/MMContentORM/std": 0.6229348480701447,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3955,
      "train_speed(iter/s)": 0.082832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 299.4,
      "completions/mean_length": 207.525,
      "completions/min_length": 128.0,
      "epoch": 1.9011041766682668,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.2073817253112793,
      "kl": 0.019140625,
      "learning_rate": 6.672273070200464e-08,
      "loss": 0.0007669827900826931,
      "memory(GiB)": 27.09,
      "reward": 0.5025999784469605,
      "reward_std": 0.08174153957515955,
      "rewards/MMContentORM/mean": 0.6640000104904175,
      "rewards/MMContentORM/std": 0.534474528580904,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 3960,
      "train_speed(iter/s)": 0.082842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 469.4,
      "completions/mean_length": 225.8875,
      "completions/min_length": 138.0,
      "epoch": 1.9035045607297167,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.11310164630413055,
      "kl": 0.025762939453125,
      "learning_rate": 6.352986456578224e-08,
      "loss": 0.0010307587683200837,
      "memory(GiB)": 27.09,
      "reward": 0.4900999844074249,
      "reward_std": 0.08315575905144215,
      "rewards/MMContentORM/mean": 0.6615000009536743,
      "rewards/MMContentORM/std": 0.6141018033027649,
      "rewards/MMFormatORM/mean": 0.6012499868869782,
      "rewards/MMFormatORM/std": 0.12313776612281799,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.1894427239894867,
      "step": 3965,
      "train_speed(iter/s)": 0.082814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 293.0,
      "completions/mean_length": 207.1125,
      "completions/min_length": 125.6,
      "epoch": 1.9059049447911667,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.1447732150554657,
      "kl": 0.018310546875,
      "learning_rate": 6.041478839834025e-08,
      "loss": 0.0007323446683585644,
      "memory(GiB)": 27.09,
      "reward": 0.4383999824523926,
      "reward_std": 0.1336431846022606,
      "rewards/MMContentORM/mean": 0.5610000193119049,
      "rewards/MMContentORM/std": 0.6906715393066406,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.19430812299251557,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2989355862140656,
      "step": 3970,
      "train_speed(iter/s)": 0.082821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 328.2,
      "completions/mean_length": 213.025,
      "completions/min_length": 144.0,
      "epoch": 1.9083053288526164,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.19179855287075043,
      "kl": 0.013043212890625,
      "learning_rate": 5.7377551287724484e-08,
      "loss": 0.000521748187020421,
      "memory(GiB)": 27.09,
      "reward": 0.48369997143745425,
      "reward_std": 0.05642711967229843,
      "rewards/MMContentORM/mean": 0.5879999935626984,
      "rewards/MMContentORM/std": 0.5680493891239167,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3975,
      "train_speed(iter/s)": 0.082824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.4,
      "completions/mean_length": 207.3,
      "completions/min_length": 132.0,
      "epoch": 1.910705712914066,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.11744437366724014,
      "kl": 0.0150634765625,
      "learning_rate": 5.4418201095377544e-08,
      "loss": 0.000602102093398571,
      "memory(GiB)": 27.09,
      "reward": 0.5488999843597412,
      "reward_std": 0.06491240309551358,
      "rewards/MMContentORM/mean": 0.7509999990463256,
      "rewards/MMContentORM/std": 0.4212790600955486,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 3980,
      "train_speed(iter/s)": 0.082831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.2,
      "completions/mean_length": 211.7875,
      "completions/min_length": 119.4,
      "epoch": 1.913106096975516,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.1685052067041397,
      "kl": 0.018121337890625,
      "learning_rate": 5.153678445538324e-08,
      "loss": 0.0007251160684973001,
      "memory(GiB)": 27.09,
      "reward": 0.3905999720096588,
      "reward_std": 0.2324967123568058,
      "rewards/MMContentORM/mean": 0.48649999499320984,
      "rewards/MMContentORM/std": 0.7621617078781128,
      "rewards/MMFormatORM/mean": 0.5587499678134918,
      "rewards/MMFormatORM/std": 0.19895429015159607,
      "rewards/MMRubricORM/mean": -0.1375,
      "rewards/MMRubricORM/std": 0.30669131875038147,
      "step": 3985,
      "train_speed(iter/s)": 0.08283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/mean_length": 230.875,
      "completions/min_length": 150.2,
      "epoch": 1.915506481036966,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.17441634833812714,
      "kl": 0.015863037109375,
      "learning_rate": 4.873334677373054e-08,
      "loss": 0.0006344456225633622,
      "memory(GiB)": 27.09,
      "reward": 0.4771999716758728,
      "reward_std": 0.11483414098620415,
      "rewards/MMContentORM/mean": 0.6005000114440918,
      "rewards/MMContentORM/std": 0.6646744608879089,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 3990,
      "train_speed(iter/s)": 0.082834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 340.0,
      "completions/mean_length": 215.3625,
      "completions/min_length": 106.6,
      "epoch": 1.917906865098416,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10349483042955399,
      "kl": 0.06673583984375,
      "learning_rate": 4.600793222759858e-08,
      "loss": 0.002681119553744793,
      "memory(GiB)": 27.09,
      "reward": 0.512749969959259,
      "reward_std": 0.08492352233733982,
      "rewards/MMContentORM/mean": 0.675000011920929,
      "rewards/MMContentORM/std": 0.5857814848423004,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 3995,
      "train_speed(iter/s)": 0.082835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 349.8,
      "completions/mean_length": 219.95,
      "completions/min_length": 121.2,
      "epoch": 1.9203072491598656,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.13771557807922363,
      "kl": 0.01771240234375,
      "learning_rate": 4.33605837646639e-08,
      "loss": 0.0007083784788846969,
      "memory(GiB)": 27.09,
      "reward": 0.4103999733924866,
      "reward_std": 0.1940301053225994,
      "rewards/MMContentORM/mean": 0.49100000262260435,
      "rewards/MMContentORM/std": 0.6967435419559479,
      "rewards/MMFormatORM/mean": 0.5849999785423279,
      "rewards/MMFormatORM/std": 0.1737115800380707,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2672485947608948,
      "step": 4000,
      "train_speed(iter/s)": 0.082832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.2,
      "completions/mean_length": 210.9625,
      "completions/min_length": 129.8,
      "epoch": 1.9227076332213153,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.16067036986351013,
      "kl": 0.013800048828125,
      "learning_rate": 4.079134310241706e-08,
      "loss": 0.000552175985649228,
      "memory(GiB)": 27.09,
      "reward": 0.4725499749183655,
      "reward_std": 0.11066220700740814,
      "rewards/MMContentORM/mean": 0.5745000123977662,
      "rewards/MMContentORM/std": 0.6102168440818787,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4005,
      "train_speed(iter/s)": 0.082769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.8,
      "completions/mean_length": 220.4125,
      "completions/min_length": 142.4,
      "epoch": 1.9251080172827653,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.18261726200580597,
      "kl": 0.01759033203125,
      "learning_rate": 3.8300250727510423e-08,
      "loss": 0.0007028756663203239,
      "memory(GiB)": 27.09,
      "reward": 0.43639997243881223,
      "reward_std": 0.1443912021815777,
      "rewards/MMContentORM/mean": 0.5559999942779541,
      "rewards/MMContentORM/std": 0.6905377149581909,
      "rewards/MMFormatORM/mean": 0.5849999845027923,
      "rewards/MMFormatORM/std": 0.16754122078418732,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2577557325363159,
      "step": 4010,
      "train_speed(iter/s)": 0.082768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.4,
      "completions/mean_length": 205.5875,
      "completions/min_length": 133.2,
      "epoch": 1.9275084013442152,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12302592396736145,
      "kl": 0.014111328125,
      "learning_rate": 3.588734589511977e-08,
      "loss": 0.0005644991528242826,
      "memory(GiB)": 27.09,
      "reward": 0.5111499905586243,
      "reward_std": 0.08379215330351145,
      "rewards/MMContentORM/mean": 0.6710000097751617,
      "rewards/MMContentORM/std": 0.5448502898216248,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4015,
      "train_speed(iter/s)": 0.082782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 337.2,
      "completions/mean_length": 221.45,
      "completions/min_length": 142.6,
      "epoch": 1.929908785405665,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.16786423325538635,
      "kl": 0.0176513671875,
      "learning_rate": 3.3552666628323126e-08,
      "loss": 0.0007057101465761662,
      "memory(GiB)": 27.09,
      "reward": 0.521749985218048,
      "reward_std": 0.14743175983894616,
      "rewards/MMContentORM/mean": 0.7550000071525573,
      "rewards/MMContentORM/std": 0.5161954037845135,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 4020,
      "train_speed(iter/s)": 0.082782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.8,
      "completions/mean_length": 215.6625,
      "completions/min_length": 116.0,
      "epoch": 1.9323091694671146,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.36218705773353577,
      "kl": 0.017657470703125,
      "learning_rate": 3.1296249717504e-08,
      "loss": 0.0007065317593514919,
      "memory(GiB)": 27.09,
      "reward": 0.45779996514320376,
      "reward_std": 0.11285423804074526,
      "rewards/MMContentORM/mean": 0.5720000088214874,
      "rewards/MMContentORM/std": 0.6419292092323303,
      "rewards/MMFormatORM/mean": 0.6037499904632568,
      "rewards/MMFormatORM/std": 0.14527987241744994,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 4025,
      "train_speed(iter/s)": 0.082785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.4,
      "completions/mean_length": 222.45,
      "completions/min_length": 143.2,
      "epoch": 1.9347095535285646,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.10553177446126938,
      "kl": 0.015179443359375,
      "learning_rate": 2.91181307197691e-08,
      "loss": 0.0006072814110666513,
      "memory(GiB)": 27.09,
      "reward": 0.49004998803138733,
      "reward_std": 0.09835855364799499,
      "rewards/MMContentORM/mean": 0.647000002861023,
      "rewards/MMContentORM/std": 0.6379193365573883,
      "rewards/MMFormatORM/mean": 0.609375,
      "rewards/MMFormatORM/std": 0.16249999403953552,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.25,
      "step": 4030,
      "train_speed(iter/s)": 0.082792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.8,
      "completions/mean_length": 208.3625,
      "completions/min_length": 128.0,
      "epoch": 1.9371099375900145,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.12949110567569733,
      "kl": 0.022711181640625,
      "learning_rate": 2.7018343958392092e-08,
      "loss": 0.000908501259982586,
      "memory(GiB)": 27.09,
      "reward": 0.41979997158050536,
      "reward_std": 0.18243354400619866,
      "rewards/MMContentORM/mean": 0.5145000040531158,
      "rewards/MMContentORM/std": 0.7357254981994629,
      "rewards/MMFormatORM/mean": 0.5849999904632568,
      "rewards/MMFormatORM/std": 0.16980934143066406,
      "rewards/MMRubricORM/mean": -0.1,
      "rewards/MMRubricORM/std": 0.2612451553344727,
      "step": 4035,
      "train_speed(iter/s)": 0.082792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 369.8,
      "completions/mean_length": 224.0875,
      "completions/min_length": 159.6,
      "epoch": 1.9395103216514642,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.13331717252731323,
      "kl": 0.0154541015625,
      "learning_rate": 2.499692252226793e-08,
      "loss": 0.0006182675249874591,
      "memory(GiB)": 27.09,
      "reward": 0.4871499836444855,
      "reward_std": 0.06908432978671045,
      "rewards/MMContentORM/mean": 0.6109999895095826,
      "rewards/MMContentORM/std": 0.6157109498977661,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 4040,
      "train_speed(iter/s)": 0.082788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.6,
      "completions/mean_length": 209.9125,
      "completions/min_length": 138.4,
      "epoch": 1.941910705712914,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.19583547115325928,
      "kl": 0.014129638671875,
      "learning_rate": 2.3053898265395503e-08,
      "loss": 0.0005656382068991661,
      "memory(GiB)": 27.09,
      "reward": 0.48734999299049375,
      "reward_std": 0.07954950779676437,
      "rewards/MMContentORM/mean": 0.6115000009536743,
      "rewards/MMContentORM/std": 0.6199671626091003,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4045,
      "train_speed(iter/s)": 0.082796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.6,
      "completions/mean_length": 218.2625,
      "completions/min_length": 139.0,
      "epoch": 1.9443110897743638,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.12564736604690552,
      "kl": 0.014019775390625,
      "learning_rate": 2.1189301806372463e-08,
      "loss": 0.0005606723949313164,
      "memory(GiB)": 27.09,
      "reward": 0.5056499779224396,
      "reward_std": 0.040092954062856734,
      "rewards/MMContentORM/mean": 0.6284999966621398,
      "rewards/MMContentORM/std": 0.495737274736166,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 4050,
      "train_speed(iter/s)": 0.082803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.4,
      "completions/mean_length": 209.225,
      "completions/min_length": 111.8,
      "epoch": 1.9467114738358138,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.09130167961120605,
      "kl": 0.019110107421875,
      "learning_rate": 1.940316252791563e-08,
      "loss": 0.0007643857039511204,
      "memory(GiB)": 27.09,
      "reward": 0.49664999842643737,
      "reward_std": 0.11900607645511627,
      "rewards/MMContentORM/mean": 0.6690000057220459,
      "rewards/MMContentORM/std": 0.6181300818920136,
      "rewards/MMFormatORM/mean": 0.6056249737739563,
      "rewards/MMFormatORM/std": 0.1592322736978531,
      "rewards/MMRubricORM/mean": -0.06599999964237213,
      "rewards/MMRubricORM/std": 0.2501555383205414,
      "step": 4055,
      "train_speed(iter/s)": 0.08281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.6,
      "completions/mean_length": 217.1625,
      "completions/min_length": 143.8,
      "epoch": 1.9491118578972637,
      "frac_reward_zero_std": 0.6,
      "grad_norm": 0.15874595940113068,
      "kl": 0.015081787109375,
      "learning_rate": 1.7695508576395237e-08,
      "loss": 0.0006026300135999918,
      "memory(GiB)": 27.09,
      "reward": 0.4948499917984009,
      "reward_std": 0.1311683064326644,
      "rewards/MMContentORM/mean": 0.6590000033378601,
      "rewards/MMContentORM/std": 0.5976063251495362,
      "rewards/MMFormatORM/mean": 0.6093749821186065,
      "rewards/MMFormatORM/std": 0.09063776731491088,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.1394427239894867,
      "step": 4060,
      "train_speed(iter/s)": 0.082818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 215.8125,
      "completions/min_length": 141.2,
      "epoch": 1.9515122419587134,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.14566867053508759,
      "kl": 0.012939453125,
      "learning_rate": 1.6066366861393068e-08,
      "loss": 0.000517718493938446,
      "memory(GiB)": 27.09,
      "reward": 0.5360999763011932,
      "reward_std": 0.08697413904592395,
      "rewards/MMContentORM/mean": 0.7190000057220459,
      "rewards/MMContentORM/std": 0.5173257470130921,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 4065,
      "train_speed(iter/s)": 0.082824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.6,
      "completions/mean_length": 214.15,
      "completions/min_length": 143.2,
      "epoch": 1.9539126260201631,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.17086957395076752,
      "kl": 0.018682861328125,
      "learning_rate": 1.4515763055278354e-08,
      "loss": 0.0007456324063241481,
      "memory(GiB)": 27.09,
      "reward": 0.4182999789714813,
      "reward_std": 0.10818733535706997,
      "rewards/MMContentORM/mean": 0.48199999928474424,
      "rewards/MMContentORM/std": 0.6929208874702454,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 4070,
      "train_speed(iter/s)": 0.082825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 322.0,
      "completions/mean_length": 212.15,
      "completions/min_length": 144.8,
      "epoch": 1.956313010081613,
      "frac_reward_zero_std": 0.8,
      "grad_norm": 0.11877346783876419,
      "kl": 0.013311767578125,
      "learning_rate": 1.3043721592803093e-08,
      "loss": 0.0005328983068466186,
      "memory(GiB)": 27.09,
      "reward": 0.5734499812126159,
      "reward_std": 0.040941482339985666,
      "rewards/MMContentORM/mean": 0.7980000138282776,
      "rewards/MMContentORM/std": 0.42314670234918594,
      "rewards/MMFormatORM/mean": 0.6418749809265136,
      "rewards/MMFormatORM/std": 0.032499998807907104,
      "rewards/MMRubricORM/mean": -0.0125,
      "rewards/MMRubricORM/std": 0.05,
      "step": 4075,
      "train_speed(iter/s)": 0.082833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 331.8,
      "completions/mean_length": 224.875,
      "completions/min_length": 161.8,
      "epoch": 1.958713394143063,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.13452792167663574,
      "kl": 0.0132568359375,
      "learning_rate": 1.1650265670716255e-08,
      "loss": 0.0005301388446241617,
      "memory(GiB)": 27.09,
      "reward": 0.5045499742031098,
      "reward_std": 0.0688014852348715,
      "rewards/MMContentORM/mean": 0.6545000076293945,
      "rewards/MMContentORM/std": 0.592427009344101,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4080,
      "train_speed(iter/s)": 0.082833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 327.6,
      "completions/mean_length": 217.6875,
      "completions/min_length": 136.8,
      "epoch": 1.9611137782045127,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.12339378893375397,
      "kl": 0.014471435546875,
      "learning_rate": 1.0335417247398505e-08,
      "loss": 0.000578406685963273,
      "memory(GiB)": 27.09,
      "reward": 0.49459999799728394,
      "reward_std": 0.06547808232717216,
      "rewards/MMContentORM/mean": 0.6440000057220459,
      "rewards/MMContentORM/std": 0.5158215515315533,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 4085,
      "train_speed(iter/s)": 0.082838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.8,
      "completions/mean_length": 208.3125,
      "completions/min_length": 130.6,
      "epoch": 1.9635141622659624,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.12326997518539429,
      "kl": 0.015618896484375,
      "learning_rate": 9.099197042517493e-09,
      "loss": 0.0006246047094464302,
      "memory(GiB)": 27.09,
      "reward": 0.4959499776363373,
      "reward_std": 0.07756961362902075,
      "rewards/MMContentORM/mean": 0.6329999923706054,
      "rewards/MMContentORM/std": 0.6094204008579254,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4090,
      "train_speed(iter/s)": 0.082846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 311.6,
      "completions/mean_length": 207.375,
      "completions/min_length": 121.8,
      "epoch": 1.9659145463274124,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.16281642019748688,
      "kl": 0.016046142578125,
      "learning_rate": 7.941624536699221e-09,
      "loss": 0.0006411905866116286,
      "memory(GiB)": 27.09,
      "reward": 0.5397499680519104,
      "reward_std": 0.06823580265045166,
      "rewards/MMContentORM/mean": 0.7425000071525574,
      "rewards/MMContentORM/std": 0.47391852661967276,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 4095,
      "train_speed(iter/s)": 0.082849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 305.2,
      "completions/mean_length": 206.6,
      "completions/min_length": 125.0,
      "epoch": 1.9683149303888623,
      "frac_reward_zero_std": 0.55,
      "grad_norm": 0.1633000671863556,
      "kl": 0.0170166015625,
      "learning_rate": 6.8627179712232875e-09,
      "loss": 0.0006804309785366058,
      "memory(GiB)": 27.09,
      "reward": 0.47594999670982363,
      "reward_std": 0.10245976857841015,
      "rewards/MMContentORM/mean": 0.5830000042915344,
      "rewards/MMContentORM/std": 0.6251704752445221,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4100,
      "train_speed(iter/s)": 0.082859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.6,
      "completions/mean_length": 211.1,
      "completions/min_length": 149.2,
      "epoch": 1.970715314450312,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.16619880497455597,
      "kl": 0.02249755859375,
      "learning_rate": 5.862494347733672e-09,
      "loss": 0.0008998697623610497,
      "memory(GiB)": 27.09,
      "reward": 0.5654999852180481,
      "reward_std": 0.047093309834599494,
      "rewards/MMContentORM/mean": 0.7925000190734863,
      "rewards/MMContentORM/std": 0.4002851232886314,
      "rewards/MMFormatORM/mean": 0.6337499856948853,
      "rewards/MMFormatORM/std": 0.06499999761581421,
      "rewards/MMRubricORM/mean": -0.025,
      "rewards/MMRubricORM/std": 0.1,
      "step": 4105,
      "train_speed(iter/s)": 0.082845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/mean_length": 211.35,
      "completions/min_length": 129.2,
      "epoch": 1.9731156985117617,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.11561845242977142,
      "kl": 0.026605224609375,
      "learning_rate": 4.9409694279711765e-09,
      "loss": 0.0010593479499220848,
      "memory(GiB)": 27.09,
      "reward": 0.5204499781131744,
      "reward_std": 0.026516501186415554,
      "rewards/MMContentORM/mean": 0.653000020980835,
      "rewards/MMContentORM/std": 0.4970328502357006,
      "rewards/MMFormatORM/mean": 0.6481249809265137,
      "rewards/MMFormatORM/std": 0.007499998807907105,
      "rewards/MMRubricORM/mean": 0.0,
      "rewards/MMRubricORM/std": 0.0,
      "step": 4110,
      "train_speed(iter/s)": 0.082852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 213.1625,
      "completions/min_length": 146.6,
      "epoch": 1.9755160825732117,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.18078495562076569,
      "kl": 0.017230224609375,
      "learning_rate": 4.098157733525842e-09,
      "loss": 0.0006890918128192424,
      "memory(GiB)": 27.09,
      "reward": 0.472899979352951,
      "reward_std": 0.1401485550450161,
      "rewards/MMContentORM/mean": 0.6185000002384186,
      "rewards/MMContentORM/std": 0.6067943811416626,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.12930812537670136,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.19893558621406554,
      "step": 4115,
      "train_speed(iter/s)": 0.082855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.0,
      "completions/mean_length": 211.8375,
      "completions/min_length": 115.8,
      "epoch": 1.9779164666346616,
      "frac_reward_zero_std": 0.575,
      "grad_norm": 0.14201927185058594,
      "kl": 0.029730224609375,
      "learning_rate": 3.3340725456071364e-09,
      "loss": 0.0011919239535927773,
      "memory(GiB)": 27.09,
      "reward": 0.4554999828338623,
      "reward_std": 0.1658872556872666,
      "rewards/MMContentORM/mean": 0.5750000178813934,
      "rewards/MMContentORM/std": 0.6658959984779358,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 4120,
      "train_speed(iter/s)": 0.082848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.0,
      "completions/mean_length": 218.8875,
      "completions/min_length": 137.2,
      "epoch": 1.9803168506961115,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.19586387276649475,
      "kl": 0.016632080078125,
      "learning_rate": 2.6487259048357803e-09,
      "loss": 0.000665505975484848,
      "memory(GiB)": 27.09,
      "reward": 0.47424999475479124,
      "reward_std": 0.15803836286067963,
      "rewards/MMContentORM/mean": 0.6074999988079071,
      "rewards/MMContentORM/std": 0.6695436835289001,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 4125,
      "train_speed(iter/s)": 0.08285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 356.2,
      "completions/mean_length": 221.2,
      "completions/min_length": 129.6,
      "epoch": 1.9827172347575612,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10946598649024963,
      "kl": 0.015472412109375,
      "learning_rate": 2.0421286110533513e-09,
      "loss": 0.0006184926256537438,
      "memory(GiB)": 27.09,
      "reward": 0.5523499727249146,
      "reward_std": 0.086054896004498,
      "rewards/MMContentORM/mean": 0.7740000247955322,
      "rewards/MMContentORM/std": 0.44600327536463735,
      "rewards/MMFormatORM/mean": 0.6256249904632568,
      "rewards/MMFormatORM/std": 0.09749999642372131,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.15,
      "step": 4130,
      "train_speed(iter/s)": 0.082848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/mean_length": 213.225,
      "completions/min_length": 137.4,
      "epoch": 1.985117618819011,
      "frac_reward_zero_std": 0.775,
      "grad_norm": 0.07553966343402863,
      "kl": 0.01331787109375,
      "learning_rate": 1.5142902231513045e-09,
      "loss": 0.0005324673838913441,
      "memory(GiB)": 27.09,
      "reward": 0.5357499957084656,
      "reward_std": 0.06823580311611295,
      "rewards/MMContentORM/mean": 0.732500022649765,
      "rewards/MMContentORM/std": 0.44778469279408456,
      "rewards/MMFormatORM/mean": 0.6256249785423279,
      "rewards/MMFormatORM/std": 0.07690345346927643,
      "rewards/MMRubricORM/mean": -0.0375,
      "rewards/MMRubricORM/std": 0.11831300854682922,
      "step": 4135,
      "train_speed(iter/s)": 0.082857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/mean_length": 214.9375,
      "completions/min_length": 135.4,
      "epoch": 1.9875180028804609,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.09850002825260162,
      "kl": 0.016082763671875,
      "learning_rate": 1.0652190589210965e-09,
      "loss": 0.0006438469514250756,
      "memory(GiB)": 27.09,
      "reward": 0.44769997596740724,
      "reward_std": 0.1412799373269081,
      "rewards/MMContentORM/mean": 0.5554999947547913,
      "rewards/MMContentORM/std": 0.6557976067066192,
      "rewards/MMFormatORM/mean": 0.6012499809265137,
      "rewards/MMFormatORM/std": 0.15380690693855287,
      "rewards/MMRubricORM/mean": -0.075,
      "rewards/MMRubricORM/std": 0.23662601709365844,
      "step": 4140,
      "train_speed(iter/s)": 0.082857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 319.8,
      "completions/mean_length": 210.8875,
      "completions/min_length": 134.0,
      "epoch": 1.9899183869419108,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.15459950268268585,
      "kl": 0.020318603515625,
      "learning_rate": 6.949221949248408e-10,
      "loss": 0.0008131683804094792,
      "memory(GiB)": 27.09,
      "reward": 0.4830499768257141,
      "reward_std": 0.11561195463873446,
      "rewards/MMContentORM/mean": 0.6294999957084656,
      "rewards/MMContentORM/std": 0.6491626858711242,
      "rewards/MMFormatORM/mean": 0.6093749880790711,
      "rewards/MMFormatORM/std": 0.14190345108509064,
      "rewards/MMRubricORM/mean": -0.0625,
      "rewards/MMRubricORM/std": 0.21831300854682922,
      "step": 4145,
      "train_speed(iter/s)": 0.082861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 300.4,
      "completions/mean_length": 214.8375,
      "completions/min_length": 132.2,
      "epoch": 1.9923187710033605,
      "frac_reward_zero_std": 0.625,
      "grad_norm": 0.1465650200843811,
      "kl": 0.01693115234375,
      "learning_rate": 4.0340546638040213e-10,
      "loss": 0.0006770275533199311,
      "memory(GiB)": 27.09,
      "reward": 0.436549985408783,
      "reward_std": 0.15535135762766003,
      "rewards/MMContentORM/mean": 0.54200000166893,
      "rewards/MMContentORM/std": 0.6834682941436767,
      "rewards/MMFormatORM/mean": 0.5931249797344208,
      "rewards/MMFormatORM/std": 0.1350412219762802,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.2077557325363159,
      "step": 4150,
      "train_speed(iter/s)": 0.082874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0125,
      "completions/max_length": 492.8,
      "completions/mean_length": 222.3125,
      "completions/min_length": 123.2,
      "epoch": 1.9947191550648102,
      "frac_reward_zero_std": 0.675,
      "grad_norm": 0.08558174967765808,
      "kl": 0.0202880859375,
      "learning_rate": 1.9067346707202227e-10,
      "loss": 0.0008112492971122265,
      "memory(GiB)": 27.09,
      "reward": 0.4795499801635742,
      "reward_std": 0.16411948413588107,
      "rewards/MMContentORM/mean": 0.6495000183582306,
      "rewards/MMContentORM/std": 0.5548809096217155,
      "rewards/MMFormatORM/mean": 0.5931249856948853,
      "rewards/MMFormatORM/std": 0.16180812418460847,
      "rewards/MMRubricORM/mean": -0.0875,
      "rewards/MMRubricORM/std": 0.24893558621406556,
      "step": 4155,
      "train_speed(iter/s)": 0.082842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.4,
      "completions/mean_length": 214.2625,
      "completions/min_length": 151.0,
      "epoch": 1.9971195391262602,
      "frac_reward_zero_std": 0.7,
      "grad_norm": 0.1454610973596573,
      "kl": 0.015252685546875,
      "learning_rate": 5.672954927593566e-11,
      "loss": 0.0006094192154705525,
      "memory(GiB)": 27.09,
      "reward": 0.5129999816417694,
      "reward_std": 0.08400428430177272,
      "rewards/MMContentORM/mean": 0.6900000154972077,
      "rewards/MMContentORM/std": 0.49128730222582817,
      "rewards/MMFormatORM/mean": 0.6174999833106994,
      "rewards/MMFormatORM/std": 0.10940345227718354,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.16831300854682923,
      "step": 4160,
      "train_speed(iter/s)": 0.082842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 307.2,
      "completions/mean_length": 208.1375,
      "completions/min_length": 121.0,
      "epoch": 1.99951992318771,
      "frac_reward_zero_std": 0.725,
      "grad_norm": 0.14134319126605988,
      "kl": 0.018817138671875,
      "learning_rate": 1.5758237104090968e-12,
      "loss": 0.0007528647780418396,
      "memory(GiB)": 27.09,
      "reward": 0.478799968957901,
      "reward_std": 0.0989949492039159,
      "rewards/MMContentORM/mean": 0.6045000076293945,
      "rewards/MMContentORM/std": 0.6013319611549377,
      "rewards/MMFormatORM/mean": 0.6174999713897705,
      "rewards/MMFormatORM/std": 0.08880690932273864,
      "rewards/MMRubricORM/mean": -0.05,
      "rewards/MMRubricORM/std": 0.13662601709365846,
      "step": 4165,
      "train_speed(iter/s)": 0.082852
    }
  ],
  "logging_steps": 5,
  "max_steps": 4166,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}