Zhaolin Gao

GitBag

·

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Organizations

GitBag 's datasets 484

GitBag/llama3-uf-meta-general-tokenized-1024-2048

Viewer • Updated Dec 19, 2024 • 54k • 5

GitBag/llama3-uf-meta-specific-tokenized-1024-1024_harvard

Viewer • Updated Dec 18, 2024 • 33.7k • 6

GitBag/llama3-uf-meta-specific-tokenized-1024-2048_harvard

Viewer • Updated Dec 18, 2024 • 47.6k • 68

GitBag/llama3-uf-meta-specific-tokenized-1024-2048

Viewer • Updated Dec 18, 2024 • 47.6k • 5

GitBag/llama3-uf-meta-specific-tokenized-1024-1024

Viewer • Updated Dec 18, 2024 • 33.7k • 5

GitBag/llama3-uf-meta-specific-tokenized_mosaic

Viewer • Updated Dec 18, 2024 • 56.9k • 4

GitBag/llama3-uf-meta-specific-tokenized_harvard

Viewer • Updated Dec 17, 2024 • 56.9k • 4

GitBag/llama3-uf-meta-specific-tokenized

Viewer • Updated Dec 17, 2024 • 56.9k • 5

GitBag/llama3-uf-meta-general-tokenized

Viewer • Updated Dec 17, 2024 • 57.2k • 5

GitBag/llama3-uf-meta-specific-armo

Viewer • Updated Dec 17, 2024 • 60.8k • 4

GitBag/llama3-uf-meta-general-armo

Viewer • Updated Dec 17, 2024 • 60.8k • 5

GitBag/llama3-uf-meta-general

Viewer • Updated Dec 17, 2024 • 60.8k • 4

GitBag/llama3-uf-meta-specific

Viewer • Updated Dec 17, 2024 • 60.8k • 5

GitBag/temptemp_armo_tokenized_logprob

Viewer • Updated Dec 10, 2024 • 93 • 4

GitBag/temptemp_armo_tokenized

Viewer • Updated Dec 10, 2024 • 93 • 3

GitBag/temptemp_armo

Viewer • Updated Dec 10, 2024 • 100 • 4

GitBag/temptemp

Viewer • Updated Dec 10, 2024 • 100 • 4

GitBag/llama3-ultrafeedback-reasoning-iter_2-1732268914-tokenized_harvard

Viewer • Updated Nov 25, 2024 • 226k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1732268914-tokenized

Viewer • Updated Nov 24, 2024 • 226k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1732268914-armo

Viewer • Updated Nov 24, 2024 • 60.8k • 7

GitBag/llama3-ultrafeedback-reasoning-iter_2-1732268914

Viewer • Updated Nov 23, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning-ReRe-armo-tokenized_harvard

Viewer • Updated Nov 21, 2024 • 229k • 8

GitBag/llama3-ultrafeedback-reasoning-ReRe-armo-tokenized

Viewer • Updated Nov 21, 2024 • 229k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo-tokenized_harvard

Viewer • Updated Nov 18, 2024 • 54.6k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo-tokenized

Viewer • Updated Nov 18, 2024 • 54.6k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556-armo

Viewer • Updated Nov 18, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_5-1731714556

Viewer • Updated Nov 17, 2024 • 60.8k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo-tokenized_harvard

Viewer • Updated Nov 15, 2024 • 56.3k • 9

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo-tokenized

Viewer • Updated Nov 15, 2024 • 56.3k • 8

GitBag/llama3-ultrafeedback-reasoning-iter_4-1731513485-armo

Viewer • Updated Nov 15, 2024 • 60.8k • 8