stojchet
/

dpo4

@@ -18,15 +18,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.9955
-- Rewards/chosen: -57.0781
-- Rewards/rejected: -325.9450
-- Rewards/accuracies: 0.9119
-- Rewards/margins: 268.8669
-- Logps/rejected: -3333.4583
-- Logps/chosen: -608.1487
-- Logits/rejected: -6.5634
-- Logits/chosen: -9.0439
 ## Model description
@@ -61,7 +61,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 13.2368       | 2.3088 | 100  | 2.9955          | -57.0781       | -325.9450        | 0.9119             | 268.8669        | -3333.4583     | -608.1487    | -6.5634         | -9.0439       |
 ### Framework versions

 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 18.2999
+- Rewards/chosen: -55.1127
+- Rewards/rejected: -55.1897
+- Rewards/accuracies: 0.4073
+- Rewards/margins: 0.0770
+- Logps/rejected: -625.9051
+- Logps/chosen: -588.4946
+- Logits/rejected: -8.9525
+- Logits/chosen: -8.9519
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 22.9478       | 2.3088 | 100  | 18.2999         | -55.1127       | -55.1897         | 0.4073             | 0.0770          | -625.9051      | -588.4946    | -8.9525         | -8.9519       |
 ### Framework versions