kevinshin
/

qwen2.5-1.5b-rft-rpo-lr-1e-5-alpha-4-beta-0.01-wc-cw-3k-neg-rethink-pos

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

qwen2.5-1.5b-rft-rpo-lr-1e-5-alpha-4-beta-0.01-wc-cw-3k-neg-rethink-pos / train_results.json

Commit History

Model save

b571663
verified

kevinshin commited on Sep 24