liang

CharlesLi

·

AI & ML interests

Trustworthy Machine Learning

Recent Activity

liked a Space about 2 months ago

aminediroHF/trainer-generator-bf16-mismatch

new activity 7 months ago

deepcs233/Visual-CoT:Not compatible with HF Datasets

upvoted a paper 8 months ago

LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs

View all activity

Organizations

None yet

CharlesLi 's models 515

CharlesLi/OpenELM-1_1B-DPO-full-max-14-reward

Text Generation • 1B • Updated Oct 7, 2024 • 4

CharlesLi/OpenELM-1_1B-DPO-full-max-8-reward

Text Generation • 1B • Updated Oct 7, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-max-12-reward

Text Generation • 1B • Updated Oct 7, 2024 • 1

CharlesLi/OpenELM-1_1B-DPO-full-max-6-reward

Text Generation • 1B • Updated Oct 7, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-max-4-reward

Text Generation • 1B • Updated Oct 7, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-max-10-reward

Text Generation • 1B • Updated Oct 7, 2024 • 4

CharlesLi/OpenELM-1_1B-DPO-full-max-reward-least-similar

Text Generation • 1B • Updated Oct 3, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-least-similar

Text Generation • 1B • Updated Oct 3, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-most-similar

Text Generation • 1B • Updated Oct 3, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-max-reward-most-similar

Text Generation • 1B • Updated Oct 3, 2024 • 3

CharlesLi/OpenELM-1_1B-KTO

Text Generation • 1B • Updated Sep 24, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-max-second-reward

Text Generation • 1B • Updated Sep 23, 2024 • 3

CharlesLi/OpenELM-1_1B-SLiC

Text Generation • 1B • Updated Sep 20, 2024 • 3

CharlesLi/OpenELM-1_1B-SimPO

Text Generation • 1B • Updated Sep 20, 2024 • 2

CharlesLi/OpenELM-1_1B-IPO

Text Generation • 1B • Updated Sep 20, 2024 • 2

CharlesLi/OpenELM-1_1B-CPO

Text Generation • 1B • Updated Sep 20, 2024 • 4

CharlesLi/OpenELM-1_1B-OnlineDPO

Updated Sep 17, 2024

CharlesLi/OpenELM-1_1B-DPO-full-llama-improve-openelm

Text Generation • 1B • Updated Sep 13, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-self-improve

Text Generation • 1B • Updated Sep 11, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-random-pair

Text Generation • 1B • Updated Sep 10, 2024 • 1

CharlesLi/OpenELM-1_1B-SFT-max-reward

Text Generation • 1B • Updated Sep 10, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-max-min-reward

Text Generation • 1B • Updated Sep 10, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-max-random-reward

Text Generation • 1B • Updated Sep 9, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-1-5

Text Generation • 1B • Updated Aug 30, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-3-5

Text Generation • 1B • Updated Aug 30, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-2-5

Text Generation • 1B • Updated Aug 30, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-2

Text Generation • 1B • Updated Aug 29, 2024 • 4

CharlesLi/OpenELM-1_1B-DPO-full-1

Text Generation • 1B • Updated Aug 29, 2024 • 6

CharlesLi/OpenELM-1_1B-SFT-2

Text Generation • 1B • Updated Aug 29, 2024 • 1

CharlesLi/OpenELM-1_1B-SFT-1

Text Generation • 1B • Updated Aug 29, 2024 • 1