Zaiyan Xu's picture

Zaiyan Xu

diligentotter

·

https://www.zaiyanxu.com

zaiyan-x

AI & ML interests

None yet

Organizations

None yet

upvoted 2 articles about 2 years ago

Article

Illustrating Reinforcement Learning from Human Feedback (RLHF)

+2

natolambert, LouisCastricato, lvwerra, Dahoas

•

Dec 9, 2022

• 417

Article

Preference Tuning LLMs with Direct Preference Optimization Methods

+3

kashif, edbeeching, lewtun, lvwerra, osanseviero

•

Jan 18, 2024

• 84