Zimo Xu

Movix

·

Moviw

AI & ML interests

modality, reinforcement learning

Organizations

None yet

upvoted 2 articles 8 months ago

Article

Illustrating Reinforcement Learning from Human Feedback (RLHF)

+2

natolambert, LouisCastricato, lvwerra, Dahoas

•

Dec 9, 2022

• 418

Article

ChatGPT 背后的“功臣”——RLHF 技术详解

+2

natolambert, LouisCastricato, lvwerra, Dahoas

•

Dec 9, 2022

• 14