interesting - a mika5883 Collection

mika5883 's Collections

interesting

updated May 3

DPO Meets PPO: Reinforced Token Optimization for RLHF

Paper • 2404.18922 • Published Apr 29, 2024 • 1