用GRPO实现一个简单的数独游戏。
本次实验我们使用GRPO的方法,用lora来做微调,框架选择trl,我们对比了7B模型的训练效果,并且通过不断地调整参数实现最终准确度达到86%。
- Downloads last month
- 13
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
用GRPO实现一个简单的数独游戏。
本次实验我们使用GRPO的方法,用lora来做微调,框架选择trl,我们对比了7B模型的训练效果,并且通过不断地调整参数实现最终准确度达到86%。