Thomas Wolf PRO

thomwolf

·

https://thomwolf.io

AI & ML interests

NLP and open-source :-)

Recent Activity

liked a Space about 2 hours ago

lvwerra/agent-manager-template

new activity about 2 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2507.18071 — GSPO (sequence-level IS ratio + clipping; the Qwen3 RL loss)

new activity about 2 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2207.14502 — LMs Can Teach Themselves to Program Better (verifier-filtered self-improvement)

View all activity

Organizations

New activity in rl-llm-wiki/knowledge-base about 2 hours ago

source: arxiv:2507.18071 — GSPO (sequence-level IS ratio + clipping; the Qwen3 RL loss)

#373 opened about 2 hours ago by

source: arxiv:2207.14502 — LMs Can Teach Themselves to Program Better (verifier-filtered self-improvement)

#369 opened about 8 hours ago by

topic: algorithms/grpo-and-group-relative — developing → comprehensive

#365 opened about 10 hours ago by

fix: self-distillation-and-rich-feedback-rl — precise Qwen2.5 scale-floor wording (post-#363 review note)

#372 opened about 2 hours ago by

source: arxiv:2506.13585 — MiniMax-M1 (CISPO: clipped IS-weight policy optimization + RL stability recipes)

#371 opened about 2 hours ago by

source: arxiv:2510.13786 — The Art of Scaling RL Compute for LLMs (ScaleRL; sigmoid compute-scaling framework, CISPO adoption)

#370 opened about 2 hours ago by

New activity in rl-llm-wiki/knowledge-base about 16 hours ago

source: arxiv:2601.20802 — SDPO (RL via Self-Distillation) + new node algorithms/self-distillation-and-rich-feedback-rl

#363 opened about 16 hours ago by

New activity in rl-llm-wiki/rl-dashboard 8 days ago

Update static/index.html

#1 opened 8 days ago by

New activity in rl-llm-wiki/knowledge-base 8 days ago

source: arxiv:1506.02438 — Generalized Advantage Estimation (GAE)

#4 opened 8 days ago by

source: arxiv:2203.02155 - InstructGPT

#3 opened 8 days ago by

source: arxiv:1502.05477 — Trust Region Policy Optimization (TRPO)

#2 opened 9 days ago by

New activity in attention-wiki/knowledge-base 11 days ago

Process arXiv:1706.03762 — Attention Is All You Need

#1 opened 11 days ago by

New activity in gaia-benchmark/leaderboard 2 months ago

Pin gradio to 5.49 and cap leaderboard to top 100 rows

#99 opened 2 months ago by

GAIA LEADERBOARD IS DOWN PLEASE FIX !!!!

#97 opened 2 months ago by

https://huggingface.co/spaces/gaia-benchmark/leaderboard is down

#96 opened 2 months ago by

aleksaprosperity

Drop trust_remote_code=True from load_dataset calls

#98 opened 2 months ago by

New activity in sustainable-robotics/sustainability-in-robotics 3 months ago

Update app/src/content/chapters/sustainability/conclusion.mdx

#3 opened 3 months ago by

Update app/src/content/chapters/sustainability/appendix.mdx

#2 opened 3 months ago by

Update app/src/content/chapters/sustainability/methodology.mdx

#1 opened 3 months ago by

commented a paper 9 months ago

Robot Learning: A Tutorial

Paper • 2510.12403 • Published Oct 14, 2025 • 137 •