Metal Whale

metalwhale

3 15 20

https://blog.metalwhale.dev/

AI & ML interests

None yet

Organizations

None yet

upvoted 2 papers 6 months ago

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Paper • 2512.02556 • Published Dec 2, 2025 • 270

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Paper • 2503.11576 • Published Mar 14, 2025 • 164

upvoted 2 papers 7 months ago

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Paper • 2512.13586 • Published Dec 15, 2025 • 93

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Paper • 2511.22699 • Published Nov 27, 2025 • 248

upvoted a paper 11 months ago

Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24, 2025 • 320

upvoted a collection about 1 year ago

Qwen3

Collection

84 items • Updated Dec 31, 2025 • 1.82k

upvoted 2 papers over 1 year ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 454

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28, 2025 • 125

upvoted 2 articles over 1 year ago

Article

Open-source DeepResearch – Freeing our search agents

m-ric, albertvillanova, merve, thomwolf, clefourrier

•

Feb 4, 2025

• 1.32k

Article

Open-R1: a fully open reproduction of DeepSeek-R1

eliebak, lvwerra, lewtun

•

Jan 28, 2025

• 890

upvoted a paper over 1 year ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 109

upvoted a collection over 1 year ago

Molmo

Collection

Artifacts for open multimodal language models. • 5 items • Updated Dec 23, 2025 • 310

upvoted an article over 1 year ago

Article

Releasing the largest multilingual open pretraining dataset

Pclanglais

•

Nov 13, 2024

• 108

upvoted a paper over 1 year ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 183

Metal Whale

AI & ML interests

Organizations

metalwhale's activity

Open-source DeepResearch – Freeing our search agents

Open-R1: a fully open reproduction of DeepSeek-R1

Releasing the largest multilingual open pretraining dataset