Zikang Shan's picture

Zikang Shan PRO

zkshan2002

·

https://zkshan2002.github.io/

zkshan2002

AI & ML interests

Reinforcement Learning

Organizations

Collections 3

View 3 collections

models 0

None public yet

datasets 31

zkshan2002/rstar2a

Viewer • Updated Sep 2, 2025 • 42.3k • 7

zkshan2002/alpaca_eval

Viewer • Updated Aug 26, 2025 • 805 • 471

zkshan2002/ultrafeedback_binarized

Viewer • Updated Aug 22, 2025 • 63.1k • 9

zkshan2002/simple_rl_level1to4

Viewer • Updated Aug 19, 2025 • 8.64k • 6

zkshan2002/simple_rl_level3to5

Viewer • Updated Aug 19, 2025 • 9.02k • 7

zkshan2002/dr_sft

Viewer • Updated Aug 9, 2025 • 5.91k • 5

zkshan2002/prime_sft

Viewer • Updated Aug 9, 2025 • 5.58k • 72

zkshan2002/prime_full

Viewer • Updated Aug 9, 2025 • 456k • 19

zkshan2002/dr_full

Viewer • Updated Aug 9, 2025 • 40.3k • 4

zkshan2002/dr_sft_legacy

Viewer • Updated Aug 8, 2025 • 6.03k • 39

View 31 datasets