用GRPO实现一个简单的数独游戏。

本次实验我们使用GRPO的方法,用lora来做微调,框架选择trl,我们对比了7B模型的训练效果,并且通过不断地调整参数实现最终准确度达到86%。

Downloads last month
13
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support