Thomas Wolf PRO

thomwolf

·

https://thomwolf.io

AI & ML interests

NLP and open-source :-)

Recent Activity

new activity about 6 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2607.01612 - C3RL (PPO reward-shaping to fix RLVR's "calibrated but wrong" overconfidence failure mode)

new activity about 6 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2607.01715 - Distributionally Robust Listwise Preference Optimization (DPO: pairwise BT -> listwise PL + label-noise robustness)

new activity about 6 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2607.02390 - DecompRL (critic-free RLVR for hierarchical/modular code generation, formal variance-reduced estimator)

View all activity

Organizations