asellerg
/

Qwen2-7B-GRPO-td_2max_100bb_2.0xL_0.0_50000_trial-4

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

Qwen2-7B-GRPO-td_2max_100bb_2.0xL_0.0_50000_trial-4 / model-00004-of-00004.safetensors

Commit History

End of training

e909d93
verified

asellerg commited on 15 days ago