Jack's picture

4 2

Jack

SixPlusSeven13

AI & ML interests

None yet

Recent Activity

upvoted a paper 10 days ago

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

upvoted a paper 15 days ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

new activity about 2 months ago

AgentGym/AgentGym-RL-Data-ID:Upload webarena_train.json

View all activity

Organizations

None yet

upvoted a paper 10 days ago

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

Paper • 2510.24320 • Published 10 days ago • 18

upvoted a paper 15 days ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

Paper • 2510.18927 • Published 17 days ago • 82