Kaiwen Wang

kaiwenw

·

https://kaiwenw.github.io/

AI & ML interests

Reinforcement Learning

Organizations

kaiwenw 's datasets 220

kaiwenw/sep19_eft_gpt4o

Viewer • Updated Oct 31, 2024 • 6.28k • 27 • 1

kaiwenw/oct30_oasst_gpt4o_jft_strict

Viewer • Updated Oct 31, 2024 • 3.87k • 7

kaiwenw/oct30_oasst_gpt4o_jft

Viewer • Updated Oct 31, 2024 • 6.7k • 6

kaiwenw/oct30_oasst_llama70b_jft_strict

Viewer • Updated Oct 31, 2024 • 3.69k • 5

kaiwenw/oct30_oasst_llama70b_jft

Viewer • Updated Oct 31, 2024 • 6.25k • 6

kaiwenw/oct28_selfplay_jft_strict

Viewer • Updated Oct 29, 2024 • 1.22k • 6

kaiwenw/oct28_selfplay_jft

Viewer • Updated Oct 29, 2024 • 6.73k • 38

kaiwenw/oct28_selfplay_try2

Viewer • Updated Oct 28, 2024 • 3.64k • 6

kaiwenw/oasst

Viewer • Updated Oct 27, 2024 • 3.64k • 8

kaiwenw/ultrafeedback-gemma2-9b-it-SimPO-vllm

Viewer • Updated Oct 24, 2024 • 61.5k • 6