Xiangyuan Xue's picture

Xiangyuan Xue

xxyQwQ

·

https://xxyqwq.cn/

xxyQwQ

AI & ML interests

LLM-Based Agents, Multi-Agent Systems, Reinforcement Learning

Recent Activity

updated a collection 11 days ago

StraTA (Miscellaneous)

updated a model 11 days ago

xxyQwQ/train-ppo-sciworld-text-qwen2.5-7b

published a model 11 days ago

xxyQwQ/train-ppo-sciworld-text-qwen2.5-7b

View all activity

Organizations

xxyQwQ 's models 17

xxyQwQ/train-ppo-sciworld-text-qwen2.5-7b

8B • Updated 11 days ago • 15

xxyQwQ/train-grpo-sciworld-text-qwen2.5-7b

8B • Updated 16 days ago • 16

xxyQwQ/train-strata-webshop-text-qwen2.5-3b-ultimate-version

3B • Updated 21 days ago • 9

xxyQwQ/train-strata-webshop-text-qwen2.5-3b-diverse-version

3B • Updated 21 days ago • 14

xxyQwQ/train-strata-webshop-text-qwen2.5-3b-judgment-version

3B • Updated 21 days ago • 18

xxyQwQ/train-strata-webshop-text-qwen2.5-3b-vanilla-version

3B • Updated 21 days ago • 18

xxyQwQ/train-strata-alfworld-text-qwen2.5-3b-diverse-version

3B • Updated 21 days ago • 16

xxyQwQ/train-strata-alfworld-text-qwen2.5-3b-judgment-version

3B • Updated 21 days ago • 16

xxyQwQ/train-strata-alfworld-text-qwen2.5-3b-ultimate-version

3B • Updated 21 days ago • 15

xxyQwQ/train-strata-alfworld-text-qwen2.5-3b-vanilla-version

3B • Updated 21 days ago • 17

xxyQwQ/train-ppo-webshop-text-qwen2.5-7b

8B • Updated 21 days ago • 17

xxyQwQ/train-ppo-alfworld-text-qwen2.5-7b

8B • Updated 21 days ago • 16

xxyQwQ/train-grpo-webshop-text-qwen2.5-7b

8B • Updated 21 days ago • 18

xxyQwQ/train-grpo-alfworld-text-qwen2.5-7b

8B • Updated 21 days ago • 15

xxyQwQ/train-strata-sciworld-text-qwen2.5-7b

8B • Updated 22 days ago • 15

xxyQwQ/train-strata-webshop-text-qwen2.5-7b

8B • Updated Mar 26 • 1

xxyQwQ/train-strata-alfworld-text-qwen2.5-7b

8B • Updated Mar 26 • 2