Tony Congqian Wang

TonyCWang

6 14 1

AI & ML interests

None yet

Organizations

None yet

upvoted an article 7 months ago

Article

The Optimal Architecture for Small Language Models

codelion

•

Dec 26, 2025

• 121

upvoted a paper 7 months ago

TiDAR: Think in Diffusion, Talk in Autoregression

Paper • 2511.08923 • Published Nov 12, 2025 • 130

upvoted an article 8 months ago

Article

Why Did MiniMax M2 End Up as a Full Attention Model?

MiniMax-AI

•

Oct 30, 2025

• 80

upvoted 2 papers 8 months ago

Scaling Latent Reasoning via Looped Language Models

Paper • 2510.25741 • Published Oct 29, 2025 • 234

The End of Manual Decoding: Towards Truly End-to-End Language Models

Paper • 2510.26697 • Published Oct 30, 2025 • 121

upvoted 5 papers 9 months ago

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Paper • 2510.18855 • Published Oct 21, 2025 • 73

upvoted a paper 10 months ago

FlowRL: Matching Reward Distributions for LLM Reasoning

Paper • 2509.15207 • Published Sep 18, 2025 • 119

upvoted a paper about 1 year ago

SingLoRA: Low Rank Adaptation Using a Single Matrix

Paper • 2507.05566 • Published Jul 8, 2025 • 116

upvoted an article about 1 year ago

Article

Searching for better (Full) ImageNet ViT Baselines

rwightman

•

Aug 26, 2024

• 6

upvoted a paper about 1 year ago

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9, 2025 • 265

Tony Congqian Wang

AI & ML interests

Organizations

TonyCWang's activity

The Optimal Architecture for Small Language Models

Why Did MiniMax M2 End Up as a Full Attention Model?

Searching for better (Full) ImageNet ViT Baselines