Atsuki Yamaguchi

atsuki-yamaguchi

·

https://gucci-j.github.io/about/

AI & ML interests

Natural Language Processing

Recent Activity

published a model 3 days ago

verify-ppt/ppt-smollm3_smollm3_3b

published a model 3 days ago

verify-ppt/ppt-olmo3_olmo3_3b

submitted a paper 4 days ago

MultiHashFormer: Hash-based Generative Language Models

View all activity

Organizations

upvoted a paper 4 days ago

MultiHashFormer: Hash-based Generative Language Models

Paper • 2606.28057 • Published 7 days ago • 19

upvoted a paper 2 months ago

Where does output diversity collapse in post-training?

Paper • 2604.16027 • Published Apr 17 • 22

upvoted 3 papers 5 months ago

Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

Paper • 2602.08658 • Published Feb 9 • 13

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

Paper • 2602.03709 • Published Feb 3 • 8

Olmo 3

Paper • 2512.13961 • Published Dec 15, 2025 • 36

upvoted 2 papers 6 months ago

An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift

Paper • 2601.05882 • Published Jan 9 • 21

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

Paper • 2601.03448 • Published Jan 6 • 13

upvoted a paper 7 months ago

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

Paper • 2512.04844 • Published Dec 4, 2025 • 5

upvoted a paper 9 months ago

Deconstructing Attention: Investigating Design Principles for Effective Language Modeling

Paper • 2510.11602 • Published Oct 13, 2025 • 15

upvoted 3 papers 10 months ago

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

Paper • 2509.06652 • Published Sep 8, 2025 • 26

Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models

Paper • 2507.11882 • Published Jul 16, 2025 • 1

Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?

Paper • 2508.19827 • Published Aug 27, 2025 • 33

upvoted a paper 11 months ago

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

Paper • 2508.07407 • Published Aug 10, 2025 • 99

upvoted a collection over 1 year ago

Qwen2.5

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B. • 43 items • Updated Mar 2 • 728