Luckeciano Carvalho Melo's picture

Luckeciano Carvalho Melo

luckeciano

·

https://luckeciano.github.io

AI & ML interests

Reinforcement Learning

Organizations

luckeciano 's models 1,128

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v6-Train-NoKL

Updated Apr 20, 2025

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v5-Train-NoKL-Marg-NormAdv

Text Generation • 8B • Updated Apr 20, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v5-Train-NoKL-Marg

Text Generation • 8B • Updated Apr 19, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v5-Train-Marg-NormAdv

Updated Apr 19, 2025

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v5-Train-Marg

Text Generation • 8B • Updated Apr 19, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v4-Train

Text Generation • 8B • Updated Apr 19, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v4-Train-NoKL

Text Generation • 8B • Updated Apr 19, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v4-Train-ConstLR

Text Generation • 8B • Updated Apr 18, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps6

Text Generation • 8B • Updated Apr 18, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps8

8B • Updated Apr 17, 2025 • 1

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3

8B • Updated Apr 17, 2025

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v2

8B • Updated Apr 17, 2025 • 1

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4

8B • Updated Apr 17, 2025 • 3

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast

8B • Updated Apr 17, 2025 • 1

luckeciano/Qwen-2.5-7B-RL-Baseline

8B • Updated Apr 16, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Eval

8B • Updated Apr 15, 2025 • 1

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3

Text Generation • 8B • Updated Apr 14, 2025 • 2

luckeciano/Qwen-2.5-7B-RL-AC-NoBaseline

Updated Apr 13, 2025

luckeciano/Qwen-2.5-7B-RL-Baseline-BigLR

Updated Apr 12, 2025

luckeciano/Qwen-2.5-7B-RL-AC-BigLRv2

Updated Apr 12, 2025

luckeciano/Qwen-2.5-7B-RL-AC-BigLR

Updated Apr 11, 2025

luckeciano/Qwen-2.5-7B-RL-Baseline-NoKL

Text Generation • 8B • Updated Apr 11, 2025 • 4

luckeciano/Qwen-2.5-7B-RL-AC

Updated Apr 11, 2025

luckeciano/DeepSeek-R1-Distill-Qwen-1.5B-RL-Baseline

Updated Apr 11, 2025

luckeciano/Qwen-2.5-1.5B-RL-Baseline-Long

Updated Apr 11, 2025

luckeciano/Qwen-2.5-7B-Embedding-Entropy-0.45-Missing-Response

Text Generation • 8B • Updated Apr 10, 2025 • 2

luckeciano/Qwen-2.5-7B-DrGRPO-Baseline

Updated Apr 9, 2025

luckeciano/Qwen-2.5-7B-Embedding-Entropy-0.5-Missing-Response

Updated Apr 9, 2025

luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline-v2

Text Generation • 8B • Updated Apr 9, 2025 • 2

luckeciano/Qwen-2.5-7B-Embedding-Entropy-Missing-Response

Updated Apr 8, 2025