DRIFT - a AmberYifan Collection

AmberYifan 's Collections

LLMs Can Get "Brain Rot"!

DRIFT

updated Nov 12, 2025

Learning from Abundant User Dissatisfaction in Real-World Preference Learning

AmberYifan/sat-data

Viewer • Updated Oct 8, 2025 • 4.43k • 24
AmberYifan/dsat-data

Viewer • Updated Oct 8, 2025 • 10.6k • 20
AmberYifan/seed-data

Viewer • Updated Oct 8, 2025 • 491 • 19
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Paper • 2510.02341 • Published Sep 27, 2025 • 4
AmberYifan/Qwen2.5-7B-Instruct-wildfeedback-DRIFT-iter2

Text Generation • 8B • Updated Jun 5, 2025 • 20 •
AmberYifan/Qwen2.5-7B-Instruct-wildfeedback-iterDPO-iter2

Text Generation • 8B • Updated Jun 25, 2025 • 20 • • 1
AmberYifan/Qwen2.5-7B-Instruct-wildfeedback-SPIN-iter2

Text Generation • 8B • Updated Jun 21, 2025 • 25 • • 1
AmberYifan/Qwen2.5-14B-Instruct-ultrafeedback-iterdpo-iter2-RPO

Text Generation • 841k • Updated Aug 7, 2025 • 4 • 1
AmberYifan/Qwen2.5-14B-Instruct-ultrafeedback-DRIFT-iter2-RPO

Text Generation • 841k • Updated Aug 7, 2025 • 2
AmberYifan/Qwen2.5-14B-Instruct-ultrafeedback-spin-iter2-RPO

Text Generation • 841k • Updated Aug 7, 2025 • 1
AmberYifan/Qwen2.5-14B-Instruct-wildfeedback-RPO-DRIFT-iter2

Text Generation • 841k • Updated Jul 30, 2025 • 3
AmberYifan/Qwen2.5-14B-Instruct-wildfeedback-RPO-iterDPO-iter2

Text Generation • 841k • Updated Jul 30, 2025 • 3
AmberYifan/Qwen2.5-14B-Instruct-wildfeedback-RPO-SPIN-iter2

Text Generation • 841k • Updated Jul 30, 2025 • 2
AmberYifan/Qwen2.5-7B-Instruct-ultrafeedback-iterDPO-iter2

Text Generation • 8B • Updated Jun 30, 2025 • 10 • 1
AmberYifan/Qwen2.5-7B-Instruct-ultrafeedback-DRIFT-iter2

Text Generation • 8B • Updated Jun 29, 2025 • 5 • 1
AmberYifan/Qwen2.5-7B-Instruct-ultrafeedback-SPIN-iter2

Text Generation • 8B • Updated Jun 30, 2025 • 9 • 1