Zhaolin Gao

GitBag

·

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Organizations

GitBag 's datasets 484

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485

Viewer • Updated Nov 15, 2024 • 60.8k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_3-1731243878-armo-tokenized_harvard

Viewer • Updated Nov 13, 2024 • 57.2k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_3-1731243878-armo-tokenized

Viewer • Updated Nov 13, 2024 • 57.2k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_3-1731243878-armo

Viewer • Updated Nov 13, 2024 • 60.8k • 9

GitBag/llama3-ultrafeedback-reasoning-iter_3-1731243878

Viewer • Updated Nov 12, 2024 • 60.8k • 8

GitBag/llama3-cs3780

Viewer • Updated Nov 11, 2024 • 1.6k • 4

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941-armo-tokenized_harvard

Viewer • Updated Nov 11, 2024 • 57.2k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941-armo-tokenized

Viewer • Updated Nov 11, 2024 • 57.2k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941-armo

Viewer • Updated Nov 11, 2024 • 60.8k • 9

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731046941

Viewer • Updated Nov 10, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731041913-armo-tokenized_harvard

Viewer • Updated Nov 10, 2024 • 57.5k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731041913-armo-tokenized

Viewer • Updated Nov 10, 2024 • 57.5k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731041913-armo

Viewer • Updated Nov 10, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_2-1731041913

Viewer • Updated Nov 9, 2024 • 60.8k • 7

GitBag/llama3-ultrafeedback-reasoning-armo-tokenized_harvard

Viewer • Updated Nov 8, 2024 • 53.9k • 6

GitBag/llama3-ultrafeedback-reasoning-armo-tokenized

Viewer • Updated Nov 7, 2024 • 53.9k • 6

GitBag/llama-3_1-8b-it-gsm8k

Viewer • Updated Nov 6, 2024 • 7.47k • 5

GitBag/llama-3-70b-it-gsm8k

Viewer • Updated Nov 5, 2024 • 7.47k • 4

GitBag/gemma-2-27b-it-gsm8k

Viewer • Updated Nov 5, 2024 • 7.47k • 10

GitBag/llama-3_1-70b-it-gsm8k

Viewer • Updated Nov 5, 2024 • 7.47k • 18

GitBag/gemma-2-9b-it-gsm8k

Viewer • Updated Nov 5, 2024 • 7.47k • 8

GitBag/llama-3-8b-it-gsm8k

Viewer • Updated Nov 5, 2024 • 7.47k • 7

GitBag/llama3-ultrafeedback-reasoning-armo

Viewer • Updated Nov 3, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning

Viewer • Updated Nov 1, 2024 • 61.8k • 7

GitBag/llama3-ultrafeedback-reasoning-ckp_4

Viewer • Updated Nov 1, 2024 • 61.8k • 7

GitBag/llama3-ultrafeedback-reasoning-ckp_3

Viewer • Updated Nov 1, 2024 • 61.8k • 8

GitBag/llama3-ultrafeedback-reasoning-ckp_2

Viewer • Updated Oct 31, 2024 • 61.8k • 8

GitBag/llama3-ultrafeedback-reasoning-ckp_1

Viewer • Updated Oct 31, 2024 • 61.8k • 8

GitBag/llama3-ultrafeedback-reasoning-ckp_0

Viewer • Updated Oct 31, 2024 • 61.8k • 8

GitBag/rloo_ultrainteract_pair_lr_1e-8_555134_1729977727_eval

Viewer • Updated Oct 27, 2024 • 500 • 5