Models

3,200

Full-text search

Active filters: ppo

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_7

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_11

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_12

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_12

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_8

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_13

Reinforcement Learning • Updated Sep 10, 2024 • 3

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_13

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_14

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_9

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_14

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_15

Reinforcement Learning • Updated Sep 10, 2024 • 2

D3MI4N/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated Sep 10, 2024

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_10

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_16

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_15

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_17

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_16

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-DropSus_11

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-1.0-noDropSus_18

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_17

Reinforcement Learning • Updated Sep 10, 2024 • 1

yuansui/llama-160m-PPO-tuned

Reinforcement Learning • Updated Sep 11, 2024 • 1

jvelja/vllm-gemma2b-stringMatcher-newDataset_0

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-stringMatcher-newDataset_1

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-stringMatcher-newDataset_2

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-stringMatcher-newDataset_3

Reinforcement Learning • Updated Sep 10, 2024 • 1

jvelja/vllm-gemma2b-stringMatcher-newDataset_4

Reinforcement Learning • Updated Sep 11, 2024 • 2

YisusLn/ppo-unit8-LunarLancer-v2

Reinforcement Learning • Updated Sep 13, 2024

Vivek-huggingface/ppo_from_scratch

Reinforcement Learning • Updated Sep 15, 2024

mihofer/ppo_reimplement_lunarlanderv2

Reinforcement Learning • Updated Sep 16, 2024

caiiofc/ppo-fs-LunarLander-v2

Reinforcement Learning • Updated Sep 16, 2024