leolemon
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-vocal_thick_opossum

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 44.7968,
     "train_samples": 160,
-    "train_samples_per_second": 7.143,
-    "train_steps_per_second": 0.446
 }

 {
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 41.7979,
     "train_samples": 160,
+    "train_samples_per_second": 7.656,
+    "train_steps_per_second": 0.478
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d9d53ed4f15c7ac98f58f4f70b1f36e41a1562ea7a3e878e1962ac26eb90bdc
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81da7b371edae9af27e81b142b6cd80fe488b17ba084bf175f5098e2c24af53
 size 1976163472

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 44.7968,
     "train_samples": 160,
-    "train_samples_per_second": 7.143,
-    "train_steps_per_second": 0.446
 }

 {
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 41.7979,
     "train_samples": 160,
+    "train_samples_per_second": 7.656,
+    "train_steps_per_second": 0.478
 }

trainer_state.json CHANGED Viewed

@@ -16,9 +16,9 @@
       "kl": 0.0,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0,
-      "reward": 4.07148377597332,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.046500012278557,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -35,9 +35,9 @@
       "kl": 0.0,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0,
-      "reward": 4.081080943346024,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.045749992132187,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -54,9 +54,9 @@
       "kl": 0.0,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0,
-      "reward": 4.075482279062271,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.0467500165104866,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -73,9 +73,9 @@
       "kl": 0.0,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0,
-      "reward": 4.197205916047096,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.170999988913536,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -92,9 +92,9 @@
       "kl": 0.0,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0,
-      "reward": 4.330130845308304,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.296249993145466,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -111,9 +111,9 @@
       "kl": 0.0,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0,
-      "reward": 4.200867220759392,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.1718750298023224,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -130,9 +130,9 @@
       "kl": 0.0,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0,
-      "reward": 4.07891184091568,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.0457500219345093,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -149,9 +149,9 @@
       "kl": 0.0,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0,
-      "reward": 4.098081558942795,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.0510000064969063,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -168,9 +168,9 @@
       "kl": 0.0,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0,
-      "reward": 3.9656456112861633,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 1.9221250116825104,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -187,9 +187,9 @@
       "kl": 0.0,
       "learning_rate": 0.0,
       "loss": 0.0,
-      "reward": 4.329772099852562,
       "reward_std": 0.0,
-      "rewards/concensus_correctness_reward_func": 2.2959999963641167,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
@@ -204,9 +204,9 @@
       "step": 20,
       "total_flos": 0.0,
       "train_loss": 0.0,
-      "train_runtime": 44.7968,
-      "train_samples_per_second": 7.143,
-      "train_steps_per_second": 0.446
     }
   ],
   "logging_steps": 2,

       "kl": 0.0,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0,
+      "reward": 4.071608752012253,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.046625018119812,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0,
+      "reward": 4.081330955028534,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.0459999963641167,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0,
+      "reward": 4.075607255101204,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.0468750298023224,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0,
+      "reward": 3.947580948472023,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 1.921374998986721,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0,
+      "reward": 4.2051308155059814,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.1712500154972076,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0,
+      "reward": 4.200742214918137,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.171750031411648,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0,
+      "reward": 4.079286843538284,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.0461250245571136,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0,
+      "reward": 3.9730815291404724,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 1.9260000139474869,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0,
+      "reward": 4.090770557522774,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.047250024974346,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "kl": 0.0,
       "learning_rate": 0.0,
       "loss": 0.0,
+      "reward": 4.3300221264362335,
       "reward_std": 0.0,
+      "rewards/concensus_correctness_reward_func": 2.2962500005960464,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
       "step": 20,
       "total_flos": 0.0,
       "train_loss": 0.0,
+      "train_runtime": 41.7979,
+      "train_samples_per_second": 7.656,
+      "train_steps_per_second": 0.478
     }
   ],
   "logging_steps": 2,