3 6

Dan Zhang

zd21

https://zhangdan0602.github.io/

AI & ML interests

None yet

Recent Activity

authored a paper 6 days ago

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

authored a paper 6 days ago

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

authored a paper 6 days ago

ZeroFlow: Overcoming Catastrophic Forgetting is Easier than You Think

View all activity

Organizations

None yet

Collections 1

Papers 16

models 18

datasets 27

zd21/DataSciBench

Preview • Updated Sep 23, 2025 • 88 • 2

zd21/TDRM-3-step-TD

Viewer • Updated Aug 24, 2025 • 1.41M • 21

zd21/TDRM-2-step-TD

Viewer • Updated Aug 24, 2025 • 1.41M • 12

zd21/TDRM-1-step-TD

Viewer • Updated Aug 24, 2025 • 1.41M • 12

zd21/ReST-MCTS_SciGLM-6B_Self-Rewarding-DPO_2nd

Viewer • Updated Dec 31, 2024 • 1 • 8

zd21/ReST-MCTS_SciGLM-6B_ReST-MCTS_Policy_2nd

Viewer • Updated Dec 31, 2024 • 40.9k • 15

zd21/ReST-MCTS_SciGLM-6B_ReST-EM-CoT_2nd

Viewer • Updated Dec 31, 2024 • 28.9k • 12

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_Self-Rewarding-DPO_2nd

Viewer • Updated Dec 31, 2024 • 1 • 7

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_ReST-MCTS_2nd

Viewer • Updated Dec 31, 2024 • 26k • 14

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_ReST-EM-CoT_2nd

Viewer • Updated Dec 31, 2024 • 36.6k • 14

View 27 datasets

Dan Zhang

AI & ML interests

Recent Activity

Organizations

Collections 1

zd21/DeepSeek-TD0-PRM

zd21/DeepSeek-TD2-PRM

zd21/DeepSeek-ScalarPRM

zd21/DeepSeek-ScalarORM

zd21/DeepSeek-TD0-PRM

zd21/DeepSeek-TD2-PRM

zd21/DeepSeek-ScalarPRM

zd21/DeepSeek-ScalarORM

Papers 16

models 18

zd21/qwen2.5-7b-td2

zd21/qwen2.5-7b-baseline-prm

zd21/DeepSeek-TD1-PRM

zd21/GLM-Z1-9B-0414-TDRM

zd21/GLM4-9B-0414-TDRM

zd21/Qwen2.5-1.5B-TDRM

zd21/Qwen2.5-0.5B-TDRM

zd21/Qwen2.5-Math-7B-TDRM

zd21/Qwen2.5-Math-1.5B-TDRM

zd21/DS-R1-Distill-Qwen-7.5B-TDRM

datasets 27

zd21/DataSciBench

zd21/TDRM-3-step-TD

zd21/TDRM-2-step-TD

zd21/TDRM-1-step-TD

zd21/ReST-MCTS_SciGLM-6B_Self-Rewarding-DPO_2nd

zd21/ReST-MCTS_SciGLM-6B_ReST-MCTS_Policy_2nd

zd21/ReST-MCTS_SciGLM-6B_ReST-EM-CoT_2nd

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_Self-Rewarding-DPO_2nd

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_ReST-MCTS_2nd

zd21/ReST-MCTS_Mistral-MetaMATH-7b-Instruct_ReST-EM-CoT_2nd

Dan Zhang

AI & ML interests

Recent Activity

Organizations

Collections 1

Papers 16

models 18 Sort: Recently updated

datasets 27 Sort: Recently updated

models 18

datasets 27