LIU Shih-yang's picture

LIU Shih-yang

sliuau

·

AI & ML interests

None yet

Organizations

liked a Space 5 months ago

Reward Policy Intuition

GRPO vs GDPO: Understanding Multi-Reward Policy Optimization

liked a dataset 6 months ago

allenai/Dolci-RL-Zero-Math-7B

Viewer • Updated Jan 5 • 13.3k • 1.31k • 10

liked 4 models 7 months ago

Qwen/Qwen3-4B-Instruct-2507

Text Generation • 4B • Updated Sep 17, 2025 • 5.46M • • 885

EssentialAI/rnj-1-instruct

Text Generation • 8B • Updated Dec 24, 2025 • 843 • • 318

mistralai/Ministral-3-3B-Reasoning-2512

4B • Updated Jan 15 • 30.8k • 116

allenai/Olmo-3-7B-Think

Text Generation • 7B • Updated 1 day ago • 60.3k • 98

liked 3 models 8 months ago

nvidia/DLER-Llama-Nemotron-8B-Merge-Research

8B • Updated Oct 25, 2025 • 43 • 18

nvidia/DLER-R1-1.5B-Research

2B • Updated Oct 25, 2025 • 111 • 19

nvidia/DLER-R1-7B-Research

8B • Updated Oct 25, 2025 • 58 • 16

liked a dataset 9 months ago

SynthLabsAI/Big-Math-RL-Verified

Viewer • Updated Mar 25, 2025 • 251k • 5.16k • 235

liked a model over 1 year ago

nvidia/Hymba-1.5B-Base

Text Generation • 2B • Updated Nov 26, 2025 • 247 • 157

liked a dataset almost 2 years ago

Post-training-Data-Flywheel/flywheel-v2

Updated Aug 29, 2024 • 4 • 1

liked a model almost 2 years ago

nvidia/Mistral-NeMo-Minitron-8B-Base

Text Generation • 8B • Updated Aug 22, 2024 • 1.96k • 180