Spaces:

mindchain
/

react-blog

Running

App Files Files Community

mindchain commited on Dec 30, 2025

Commit

4af9fdb

1 Parent(s): d883c13

Restructure Self-Improving Agent post - 5 components with Docker MCP Server

Browse files

Files changed (1) hide show

index.html +43 -47

index.html CHANGED Viewed

@@ -145,72 +145,68 @@ Plus im Gateway: GitHub, Sentry, Z-Image, Web-Search, Browser Automation
         <div class="post">
             <span class="tag">Agent Training Loop</span>
-            <h2>🔄 Ralph Wiggum + Beads + HF Skills = Self-Improving Agent</h2>
             <div class="date">30. Dez 2025 • Closed-Loop AI Agent Training</div>
             <div class="content"><strong>Die Vision:</strong> Ein Agent, der sich selbst verbessert durch iterative Schleifen.
-<strong>Der Loop:</strong>
-<span style="color: #667eea;">1. Ralph Wiggum startet</span> (/ralph-loop)
-• Agent führt Task aus
 • Stop-Hook fährt Resultat ein
-<span style="color: #667eea;">2. Beads tracked</span>
-• Task wird als Graph-Node gespeichert
-• Dependencies und Blocker werden sichtbar
 • Git-backed - jeder Loop ist versioniert
-<span style="color: #667eea;">3. HF Skills trainieren</span>
-• Ergebnisse aus Loop werden Dataset
-• model-trainer: SFT/DPO/GRPO auf neuen Daten
 • Agent lernt aus eigenen Erfolgen/Fehlern
-<span style="color: #667eea;">4. Loop wiederholt</span>
-• Verbesserter Agent startet nächsten Durchlauf
-• Beads zeigt Fortschritt im Graph
-• Performance wird gemessen
 <strong>Use Cases:</strong>
 • Code-Refactoring Agent trainieren
 • Bug-Finding Skills verbessern
 • Domain-spezifische Tasks optimieren
-<strong>Die Kombination:</strong> Ralph liefert die Schleife, Beads das Gedächtnis, HF Skills das Lernen.
-<strong>5. Gemma Scope 2 + Neuronpedia (Interpretability + Steering)</strong>
-Das Agent-Training wird transparent und steuerbar.
-<span style="color: #667eea;">Discovery Skills</span> - WAS lernt der Agent?
-• SAE Features finden die das Verhalten bestimmen
-• Circuits identifizieren (Kausal-Ketten im Netzwerk)
-• Neuronpedia: 4TB+ activations, explanations, metadata
-• <a href="https://www.neuronpedia.org/gemma-scope-2" class="link">neuronpedia.org/gemma-scope-2</a>
-<span style="color: #667eea;">Steering Skills</span> - Verhalten beeinflussen
-• Feature-Stärke erhöhen/verringern (↑/↓)
-• API: POST /api/steer mit strength_multiplier
-• "Golden Gate Claude" aber für jeden Feature
-• <a href="https://docs.neuronpedia.org/steering" class="link">Neuronpedia Steering Docs</a>
-<span style="color: #667eea;">Freezing Skills</span> - Gelerntes fixieren
-• Wichtige Circuits identifizieren und speichern
-• Feature-Vektoren exportieren und wiederverwenden
-• Agent-Verhalten konsistent halten
-• <a href="https://github.com/hijohnnylin/neuronpedia-python" class="link">neuronpedia-python GitHub</a>
-<strong>Der erweiterte Loop:</strong>
-1. Ralph startet → Agent führt Task aus
-2. Beads tracked → Graph speichert Fortschritt
-3. Gemma Scope 2 → Activations werden analysiert
-4. Neuronpedia → Discovery: Wichtige Features finden
-5. Steering → Agent-Verhalten aktiv korrigieren
-6. HF Skills → Gelerntes in Model trainieren
-7. Freezing → Erfolgreiche Patterns fixieren
-8. Loop wiederholt → Verbesserter Agent
 <strong>Links:</strong>
 <a href="https://github.com/anthropics/claude-code/tree/main/plugins/ralph-wiggum" class="link">Ralph Wiggum GitHub</a>
 <a href="https://github.com/steveyegge/beads" class="link">Beads GitHub</a>
 <a href="https://github.com/huggingface/skills" class="link">HF Skills GitHub</a>
 <a href="https://huggingface.co/blog/hf-skills-training" class="link">HF Skills Blog</a>
 <a href="https://www.neuronpedia.org/api-doc" class="link">Neuronpedia API</a>

         <div class="post">
             <span class="tag">Agent Training Loop</span>
+            <h2>🔄 Self-Improving Agent Loop</h2>
             <div class="date">30. Dez 2025 • Closed-Loop AI Agent Training</div>
             <div class="content"><strong>Die Vision:</strong> Ein Agent, der sich selbst verbessert durch iterative Schleifen.
+<strong>Die Komponenten:</strong>
+<strong>1. Ralph Wiggum</strong> (Loop Engine)
+Iterative AI-Agentenschleifen mit selbstreferenziellem Feedback.
+<a href="https://github.com/anthropics/claude-code/tree/main/plugins/ralph-wiggum" class="link">Ralph Wiggum GitHub</a>
+• /ralph-loop startet die Schleife
 • Stop-Hook fährt Resultat ein
+• /cancel-ralph bricht ab
+<strong>2. Beads</strong> (Task Memory)
+Git-backed graph issue tracker für Tasks.
+<a href="https://github.com/steveyegge/beads" class="link">Beads GitHub</a>
+• Tasks als Graph-Nodes gespeichert
+• Dependencies und Blocker sichtbar
 • Git-backed - jeder Loop ist versioniert
+<strong>3. Docker MCP Server</strong> (Container Runtime)
+Alles läuft in Containern - reproduzierbar und isoliert.
+<a href="https://docs.docker.com/ai/mcp-catalog-and-toolkit/server-docker/" class="link">Docker MCP Server Docs</a>
+• Agent-Umgebungen on-demand erstellen
+• GPU-Container für Training
+• Jeder Loop in frischem Container
+<strong>4. HF Skills</strong> (Model Training)
+HuggingFace Skills für Training auf Loop-Ergebnissen.
+<a href="https://github.com/huggingface/skills" class="link">HF Skills GitHub</a>
+• model-trainer: SFT/DPO/GRPO
+• Ergebnisse werden Dataset
 • Agent lernt aus eigenen Erfolgen/Fehlern
+<strong>5. Gemma Scope 2 + Neuronpedia</strong> (Interpretability)
+Training wird transparent und steuerbar.
+<a href="https://www.neuronpedia.org/gemma-scope-2" class="link">neuronpedia.org/gemma-scope-2</a>
+<span style="color: #667eea;">Discovery:</span> SAE Features finden die Verhalten bestimmen
+<span style="color: #667eea;">Steering:</span> Feature-Stärke ändern (↑/↓)
+<span style="color: #667eea;">Freezing:</span> Gelernte Patterns fixieren
+<strong>Der vollständige Loop:</strong>
+1. Ralph startet → Agent führt Task aus
+2. Beads tracked → Graph speichert Fortschritt
+3. Docker MCP → Frische Container für jeden Schritt
+4. Gemma Scope 2 → Activations werden analysiert
+5. Neuronpedia → Discovery: Wichtige Features finden
+6. Steering → Agent-Verhalten aktiv korrigieren
+7. HF Skills → Gelerntes in Model trainieren
+8. Freezing → Erfolgreiche Patterns fixieren
+9. Loop wiederholt → Verbesserter Agent
 <strong>Use Cases:</strong>
 • Code-Refactoring Agent trainieren
 • Bug-Finding Skills verbessern
 • Domain-spezifische Tasks optimieren
 <strong>Links:</strong>
 <a href="https://github.com/anthropics/claude-code/tree/main/plugins/ralph-wiggum" class="link">Ralph Wiggum GitHub</a>
 <a href="https://github.com/steveyegge/beads" class="link">Beads GitHub</a>
+<a href="https://docs.docker.com/ai/mcp-catalog-and-toolkit/server-docker/" class="link">Docker MCP Server</a>
 <a href="https://github.com/huggingface/skills" class="link">HF Skills GitHub</a>
 <a href="https://huggingface.co/blog/hf-skills-training" class="link">HF Skills Blog</a>
 <a href="https://www.neuronpedia.org/api-doc" class="link">Neuronpedia API</a>