kevinshin
/

qwen2.5-1.5b-rft-rpo-lr-1e-5-alpha-4-beta-0.01-wc-cw-3k-neg-rethink-pos

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

qwen2.5-1.5b-rft-rpo-lr-1e-5-alpha-4-beta-0.01-wc-cw-3k-neg-rethink-pos / .gitattributes

Commit History

Training in progress, epoch 0

29a6383
verified

kevinshin commited on Sep 24

initial commit

f36356a
verified

kevinshin commited on Sep 23