🔄 In a Training Loop

Quentin Gallouédec PRO

qgallouedec

huggingface

·

AI & ML interests

None yet

Recent Activity

updated a dataset about 8 hours ago

qgallouedec/tool-calls-mini

published a dataset about 8 hours ago

qgallouedec/tool-calls-mini

liked a model about 22 hours ago

Qwen/Qwen3.6-27B

View all activity

Organizations

qgallouedec 's models 792

qgallouedec/llama3.1-8b-sft

Updated Sep 9, 2024

qgallouedec/llama3.1-8b-instruct

Updated Sep 4, 2024

qgallouedec/online_dpo_uf_1

0.5B • Updated Aug 28, 2024 • 2

qgallouedec/online-dpo-qwen2-0.5B-lr-3e-7

0.5B • Updated Aug 27, 2024 • 3

qgallouedec/online-dpo-qwen2-0.5B-lr-3e-6

0.5B • Updated Aug 25, 2024 • 1

qgallouedec/kto-aligned-model

Text Generation • 2B • Updated Aug 22, 2024 • 7

qgallouedec/gpt2-imdb-pos-v2

Text Generation • 0.1B • Updated Aug 22, 2024 • 3

qgallouedec/reward_modeling_anthropic_hh

0.3B • Updated Aug 18, 2024 • 39

qgallouedec/reward_modeling_anthropic_hh_crc

0.3B • Updated Aug 17, 2024 • 33

qgallouedec/tmp

1B • Updated Aug 17, 2024 • 3

qgallouedec/sft_openassistant-guanaco

Updated Aug 5, 2024

qgallouedec/sft-llava-1.5-7b-hf

Updated Jul 24, 2024

qgallouedec/test

Updated Jul 23, 2024

qgallouedec/ppo-PushCube-v0

Reinforcement Learning • Updated Jun 20, 2024 • 1

qgallouedec/ppo-ReachCube-v0

Reinforcement Learning • Updated Jun 13, 2024

qgallouedec/tqc-ReachCube-v0

Reinforcement Learning • Updated Jun 13, 2024

qgallouedec/ppo-LiftCube-v0

Robotics • Updated Jun 10, 2024 • 1

qgallouedec/tqc-LiftCube-v0

Reinforcement Learning • Updated Jun 9, 2024 • 1

qgallouedec/wildvision-internal-data_formatted

Updated Jun 2, 2024

qgallouedec/idefics2-cord-demo-v2

Updated May 24, 2024

qgallouedec/vsft-idefics2

Updated May 17, 2024

qgallouedec/vsft-llava-1.5-7b-hf

Updated May 17, 2024

qgallouedec/ppo-Acrobot-v1

Reinforcement Learning • Updated May 15, 2024 • 2

qgallouedec/utkusaglm-ppo-LunarLander-v0

Reinforcement Learning • Updated Apr 17, 2024

qgallouedec/ppo_lstm-HumanoidStandup-v2-955016097

Reinforcement Learning • Updated Apr 17, 2024

qgallouedec/ppo-HumanoidStandup-v2-4091961953

Reinforcement Learning • Updated Apr 17, 2024

qgallouedec/ppo-InvertedDoublePendulum-v2-2379934423

Reinforcement Learning • Updated Apr 17, 2024 • 5

qgallouedec/ppo-HumanoidStandup-v2-2078523688

Reinforcement Learning • Updated Apr 17, 2024

qgallouedec/ppo-HumanoidStandup-v2-1409313037

Reinforcement Learning • Updated Apr 17, 2024 • 4

qgallouedec/ppo-HumanoidStandup-v2-3324137422

Reinforcement Learning • Updated Apr 17, 2024