Spaces:

AxionLab-Co
/

blog-and-updates

Running

App Files Files Community

AxionLab-official commited on 4 days ago

Commit

6ce7fbd

verified ·

1 Parent(s): 34e9264

Update index.html

Browse files

Files changed (1) hide show

index.html +13 -13

index.html CHANGED Viewed

@@ -208,7 +208,7 @@ footer{background:var(--bg3);border-top:1px solid var(--border);padding:60px 0 4
   <div class="container">
     <div class="hero-eyebrow">AxionLab Research</div>
     <h1 class="hero-title">Scaling <em>Intelligence</em><br>from Zero</h1>
-    <p class="hero-sub">Building DeepSeek-V3 architecture from scratch — MLA, MoE, auxiliary-loss-free load balancing — scaled progressively from 344k to 100M+ parameters. All weights open. All code open.</p>
     <div class="hero-ctas">
       <a href="#models" class="btn-primary">↓ Explore Models</a>
       <a href="https://huggingface.co/AxionLab-Co" target="_blank" class="btn-ghost">View on HuggingFace →</a>
@@ -242,8 +242,8 @@ footer{background:var(--bg3);border-top:1px solid var(--border);padding:60px 0 4
         <a href="https://huggingface.co/AxionLab-Co/Axion1-350k-A250k" target="_blank" class="model-link">View on HuggingFace →</a>
       </div>
       <div class="model-card upcoming reveal">
-        <div class="model-version">v2.0 — Coming Soon</div>
-        <div class="model-name">Axion2</div>
         <div class="model-desc">Same architecture, 4× the capacity. Expanded vocabulary and noticeably more coherent language generation.</div>
         <div class="model-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">d_model 128</span><span class="chip">6 layers</span></div>
         <div class="model-meta">
@@ -252,8 +252,8 @@ footer{background:var(--bg3);border-top:1px solid var(--border);padding:60px 0 4
         </div>
       </div>
       <div class="model-card upcoming reveal">
-        <div class="model-version">v3.0 — Planned</div>
-        <div class="model-name">Axion3</div>
         <div class="model-desc">First model expected to produce grammatically coherent multi-sentence responses. Scaling laws in action.</div>
         <div class="model-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">d_model 256</span></div>
         <div class="model-meta">
@@ -262,8 +262,8 @@ footer{background:var(--bg3);border-top:1px solid var(--border);padding:60px 0 4
         </div>
       </div>
       <div class="model-card upcoming reveal">
-        <div class="model-version">v4–5 — Future</div>
-        <div class="model-name">Axion4 / Axion5</div>
         <div class="model-desc">Scaling to 24M and 100M parameters. Instruction tuning and multi-language support planned.</div>
         <div class="model-chips"><span class="chip">24M → 100M</span><span class="chip amber">Multilingual</span></div>
         <div class="model-meta">
@@ -337,7 +337,7 @@ Quanto é 5 + 3?
           <div class="blog-read-more">Read more →</div>
         </div>
         <div class="blog-visual">
-          <div class="blog-visual-inner">val_loss: 5.49 → epoch 1
 val_loss: 4.59 → epoch 2
 val_loss: 4.30 → epoch 3
 val_loss: 3.88 → epoch 5
@@ -488,31 +488,31 @@ python train.py --resume --epochs 20</div>
     <p class="section-sub">Every Axion release is a scaling experiment. Same architecture, increasing capacity.</p>
     <div class="roadmap-track">
       <div class="roadmap-item done reveal">
-        <div class="roadmap-meta"><span class="roadmap-version">Axion1 — 344k params</span><span class="roadmap-date">March 2025</span><span class="roadmap-badge done">Released</span></div>
         <div class="roadmap-title">Proof of Architecture</div>
         <div class="roadmap-desc">Full DeepSeek-V3 pipeline from scratch. MLA + MoE + BPE tokenizer + HuggingFace integration. Trained on GSM8K in 115 minutes on CPU.</div>
         <div class="roadmap-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">GSM8K</span><span class="chip green">HuggingFace</span></div>
       </div>
       <div class="roadmap-item next reveal">
-        <div class="roadmap-meta"><span class="roadmap-version">Axion2 — ~1.5M params</span><span class="roadmap-date">Coming Soon</span><span class="roadmap-badge next">In Progress</span></div>
         <div class="roadmap-title">First Coherent Sentences</div>
         <div class="roadmap-desc">d_model 128, 6 layers, expanded vocab. Expected to produce grammatically structured responses. Full training log will be published.</div>
         <div class="roadmap-chips"><span class="chip">d_model 128</span><span class="chip">6 layers</span><span class="chip amber">Larger vocab</span></div>
       </div>
       <div class="roadmap-item reveal">
-        <div class="roadmap-meta"><span class="roadmap-version">Axion3 — ~6M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">Reliable Math Reasoning</div>
         <div class="roadmap-desc">d_model 256. Consistent step-by-step reasoning on arithmetic. Broader dataset planned.</div>
         <div class="roadmap-chips"><span class="chip">d_model 256</span><span class="chip amber">Multi-dataset</span></div>
       </div>
       <div class="roadmap-item reveal">
-        <div class="roadmap-meta"><span class="roadmap-version">Axion4 — ~24M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">Instruction Following</div>
         <div class="roadmap-desc">First Axion with instruction tuning. Target: answer general questions in Portuguese and English.</div>
         <div class="roadmap-chips"><span class="chip">Instruction SFT</span><span class="chip amber">PT + EN</span></div>
       </div>
       <div class="roadmap-item reveal">
-        <div class="roadmap-meta"><span class="roadmap-version">Axion5 — ~100M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">General Purpose</div>
         <div class="roadmap-desc">The flagship. Real conversation, multi-turn context, and a full evaluation suite.</div>
         <div class="roadmap-chips"><span class="chip">100M</span><span class="chip cyan">Multi-turn</span><span class="chip amber">Eval suite</span></div>

   <div class="container">
     <div class="hero-eyebrow">AxionLab Research</div>
     <h1 class="hero-title">Scaling <em>Intelligence</em><br>from Zero</h1>
+    <p class="hero-sub">Building architectures from scratch — MLA, MoE, auxiliary-loss-free load balancing — scaled progressively from 344k to 100M+ parameters. All weights open. All code open.</p>
     <div class="hero-ctas">
       <a href="#models" class="btn-primary">↓ Explore Models</a>
       <a href="https://huggingface.co/AxionLab-Co" target="_blank" class="btn-ghost">View on HuggingFace →</a>
         <a href="https://huggingface.co/AxionLab-Co/Axion1-350k-A250k" target="_blank" class="model-link">View on HuggingFace →</a>
       </div>
       <div class="model-card upcoming reveal">
+        <div class="model-version">v0.2 — Coming Soon</div>
+        <div class="model-name">Axion1-v0.2</div>
         <div class="model-desc">Same architecture, 4× the capacity. Expanded vocabulary and noticeably more coherent language generation.</div>
         <div class="model-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">d_model 128</span><span class="chip">6 layers</span></div>
         <div class="model-meta">
         </div>
       </div>
       <div class="model-card upcoming reveal">
+        <div class="model-version">v0.3 — Planned</div>
+        <div class="model-name">Axion1-v0.3</div>
         <div class="model-desc">First model expected to produce grammatically coherent multi-sentence responses. Scaling laws in action.</div>
         <div class="model-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">d_model 256</span></div>
         <div class="model-meta">
         </div>
       </div>
       <div class="model-card upcoming reveal">
+        <div class="model-version">v0.4-0.5 — Future</div>
+        <div class="model-name">Axion1-v0.4 / Axion1-v0.5</div>
         <div class="model-desc">Scaling to 24M and 100M parameters. Instruction tuning and multi-language support planned.</div>
         <div class="model-chips"><span class="chip">24M → 100M</span><span class="chip amber">Multilingual</span></div>
         <div class="model-meta">
           <div class="blog-read-more">Read more →</div>
         </div>
         <div class="blog-visual">
+          <div class="blog-visual-inner">val_loss: 6.49 → epoch 1
 val_loss: 4.59 → epoch 2
 val_loss: 4.30 → epoch 3
 val_loss: 3.88 → epoch 5
     <p class="section-sub">Every Axion release is a scaling experiment. Same architecture, increasing capacity.</p>
     <div class="roadmap-track">
       <div class="roadmap-item done reveal">
+        <div class="roadmap-meta"><span class="roadmap-version">Axion1-v0.1 — 344k params</span><span class="roadmap-date">March 2025</span><span class="roadmap-badge done">Released</span></div>
         <div class="roadmap-title">Proof of Architecture</div>
         <div class="roadmap-desc">Full DeepSeek-V3 pipeline from scratch. MLA + MoE + BPE tokenizer + HuggingFace integration. Trained on GSM8K in 115 minutes on CPU.</div>
         <div class="roadmap-chips"><span class="chip cyan">MLA</span><span class="chip cyan">MoE</span><span class="chip">GSM8K</span><span class="chip green">HuggingFace</span></div>
       </div>
       <div class="roadmap-item next reveal">
+        <div class="roadmap-meta"><span class="roadmap-version">Axion1-v0.2 — ~1.5M params</span><span class="roadmap-date">Coming Soon</span><span class="roadmap-badge next">In Progress</span></div>
         <div class="roadmap-title">First Coherent Sentences</div>
         <div class="roadmap-desc">d_model 128, 6 layers, expanded vocab. Expected to produce grammatically structured responses. Full training log will be published.</div>
         <div class="roadmap-chips"><span class="chip">d_model 128</span><span class="chip">6 layers</span><span class="chip amber">Larger vocab</span></div>
       </div>
       <div class="roadmap-item reveal">
+        <div class="roadmap-meta"><span class="roadmap-version">Axion1-v0.3 — ~6M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">Reliable Math Reasoning</div>
         <div class="roadmap-desc">d_model 256. Consistent step-by-step reasoning on arithmetic. Broader dataset planned.</div>
         <div class="roadmap-chips"><span class="chip">d_model 256</span><span class="chip amber">Multi-dataset</span></div>
       </div>
       <div class="roadmap-item reveal">
+        <div class="roadmap-meta"><span class="roadmap-version">Axion1-v0.4 — ~24M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">Instruction Following</div>
         <div class="roadmap-desc">First Axion with instruction tuning. Target: answer general questions in Portuguese and English.</div>
         <div class="roadmap-chips"><span class="chip">Instruction SFT</span><span class="chip amber">PT + EN</span></div>
       </div>
       <div class="roadmap-item reveal">
+        <div class="roadmap-meta"><span class="roadmap-version">Axion1-v0.5 — ~100M params</span><span class="roadmap-badge planned">Planned</span></div>
         <div class="roadmap-title">General Purpose</div>
         <div class="roadmap-desc">The flagship. Real conversation, multi-turn context, and a full evaluation suite.</div>
         <div class="roadmap-chips"><span class="chip">100M</span><span class="chip cyan">Multi-turn</span><span class="chip amber">Eval suite</span></div>