Ge Zhang

zhangysk

·

AI & ML interests

None yet

Recent Activity

published a dataset 1 day ago

m-a-p/FineLeanCorpusProof

upvoted a paper 21 days ago

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

updated a collection about 1 month ago

View all activity

Organizations

upvoted a paper 21 days ago

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Paper • 2606.11042 • Published 22 days ago • 22

upvoted a paper about 1 month ago

OProver: A Unified Framework for Agentic Formal Theorem Proving

Paper • 2605.17283 • Published May 17 • 31

upvoted 3 papers 4 months ago

InCoder-32B: Code Foundation Model for Industrial Scenarios

Paper • 2603.16790 • Published Mar 17 • 312

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Paper • 2603.11103 • Published Mar 11 • 9

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Paper • 2602.22675 • Published Feb 26 • 23

upvoted 7 papers 5 months ago

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Paper • 2602.10102 • Published Feb 10 • 14

Context Forcing: Consistent Autoregressive Video Generation with Long Context

Paper • 2602.06028 • Published Feb 5 • 36

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Paper • 2601.21937 • Published Jan 29 • 20

BABE: Biology Arena BEnchmark

Paper • 2602.05857 • Published Feb 5 • 10

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Paper • 2602.04575 • Published Feb 4 • 17

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Paper • 2602.01660 • Published Feb 2 • 8

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Paper • 2601.21420 • Published Jan 29 • 42

upvoted 2 papers 6 months ago

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Paper • 2601.06002 • Published Jan 9 • 60

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Paper • 2512.24617 • Published Dec 31, 2025 • 67

upvoted 3 papers 7 months ago

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

Paper • 2512.12730 • Published Dec 14, 2025 • 52

How Far Are We from Genuinely Useful Deep Research Agents?

Paper • 2512.01948 • Published Dec 1, 2025 • 58

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

Paper • 2511.18538 • Published Nov 23, 2025 • 306

upvoted 3 papers 8 months ago

Virtual Width Networks

Paper • 2511.11238 • Published Nov 14, 2025 • 39

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Paper • 2511.08892 • Published Nov 12, 2025 • 218

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Paper • 2511.07250 • Published Nov 10, 2025 • 18