用GRPO实现一个简单的数独游戏。

本次实验我们使用GRPO的方法，用lora来做微调，框架选择trl，我们对比了7B模型的训练效果，并且通过不断地调整参数实现最终准确度达到86%。

Safetensors

Model size

8B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support