mindchain commited on
Commit
df92f8e
·
1 Parent(s): 55cccea

Separate Finetuning and Steering as two distinct disciplines

Browse files
Files changed (1) hide show
  1. index.html +44 -22
index.html CHANGED
@@ -170,36 +170,58 @@ Alles läuft in Containern - reproduzierbar und isoliert.
170
  <a href="https://docs.docker.com/ai/mcp-catalog-and-toolkit/server-docker/" class="link">Docker MCP Server Docs</a>
171
  • Container <span style="color: #667eea;">on-demand</span> erstellen
172
  • Nach Gebrauch automatisch <span style="color: #667eea;">kill & cleanup</span>
173
- • Jeder Loop in frischem Container
174
  • <span style="color: #667eea;">Alle mit Docker Sandboxes!</span>
175
  • GPU-Container für ML Workloads
176
- • <span style="color: #667eea;">Gilt auch für Agenten im Docker MCP Gateway!</span>
177
 
178
- <strong>4. HF Skills</strong> (Model Training)
179
- HuggingFace Skills für Training auf Loop-Ergebnissen.
180
- <a href="https://github.com/huggingface/skills" class="link">HF Skills GitHub</a>
181
- • model-trainer: SFT/DPO/GRPO
182
- • Ergebnisse werden Dataset
183
- • Agent lernt aus eigenen Erfolgen/Fehlern
184
-
185
- <strong>5. Gemma Scope 2 + Neuronpedia</strong> (Interpretability)
186
- Training wird transparent und steuerbar.
187
- <a href="https://www.neuronpedia.org/gemma-scope-2" class="link">neuronpedia.org/gemma-scope-2</a>
188
 
189
- <span style="color: #667eea;">Discovery:</span> SAE Features finden die Verhalten bestimmen
190
- <span style="color: #667eea;">Steering:</span> Feature-Stärke ändern (↑/↓)
191
- <span style="color: #667eea;">Freezing:</span> Gelernte Patterns fixieren
192
 
193
- <strong>Der vollständige Loop:</strong>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
194
  1. Ralph startet → Agent führt Task aus
195
  2. Beads tracked → Graph speichert Fortschritt
196
  3. Docker MCP → Container on-demand erstellen
197
- 4. Agent arbeitet → Isoliert im Container
198
- 5. Gemma Scope 2Activations werden analysiert
199
- 6. Neuronpedia → Discovery: Wichtige Features finden
200
- 7. SteeringAgent-Verhalten aktiv korrigieren
201
- 8. HF Skills Gelerntes in Model trainieren
202
- 9. Freezing → Erfolgreiche Patterns fixieren
203
  10. Container cleanup → Automatisch kill & löschen
204
  11. Loop wiederholt → Verbesserter Agent
205
 
 
170
  <a href="https://docs.docker.com/ai/mcp-catalog-and-toolkit/server-docker/" class="link">Docker MCP Server Docs</a>
171
  • Container <span style="color: #667eea;">on-demand</span> erstellen
172
  • Nach Gebrauch automatisch <span style="color: #667eea;">kill & cleanup</span>
 
173
  • <span style="color: #667eea;">Alle mit Docker Sandboxes!</span>
174
  • GPU-Container für ML Workloads
 
175
 
176
+ <strong>Zwei Disziplinen für Agent-Verbesserung:</strong>
 
 
 
 
 
 
 
 
 
177
 
178
+ <span style="color: #667eea;">━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━</span>
 
 
179
 
180
+ <strong>🔧 PATH A: Finetuning</strong> (Permanent)
181
+ <a href="https://github.com/huggingface/skills" class="link">HF Skills GitHub</a>
182
+ • <strong>Was:</strong> Model-Gewichte werden dauerhaft geändert
183
+ • <strong>Wie:</strong> SFT, DPO, GRPO auf HF Jobs
184
+ • <strong>Resultat:</strong> Neues Model mit gelerntem Verhalten
185
+ • <strong>Dauer:</strong> Permanent
186
+ • <strong>Vorteil:</strong> Gelerntes Wissen bleibt erhalten
187
+
188
+ <strong>🎯 PATH B: Steering</strong> (Runtime)
189
+ <a href="https://www.neuronpedia.org/gemma-scope-2" class="link">Gemma Scope 2 + Neuronpedia</a>
190
+ • <strong>Was:</strong> Verhalten zur Laufzeit beeinflussen
191
+ • <strong>Wie:</strong> Activation Engineering / Feature Steering
192
+ • <strong>Resultat:</strong> Verändert Output ohne Gewichtsänderung
193
+ • <strong>Dauer:</strong> Nur während Inference
194
+ • <strong>Vorteil:</strong> Reversible, kein Retraining nötig
195
+
196
+ <span style="color: #667eea;">━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━</span>
197
+
198
+ <strong>Beide Pfade kombinieren:</strong>
199
+
200
+ <strong>Discovery Skills</strong> (Gemma Scope 2 + Neuronpedia)
201
+ • SAE Features finden die Verhalten bestimmen
202
+ • Circuits identifizieren (Kausal-Ketten)
203
+ • 4TB+ activations, explanations, metadata
204
+
205
+ <strong>Steering Skills</strong> (Runtime Control)
206
+ • Feature-Stärke erhöhen/verringern (↑/↓)
207
+ • API: POST /api/steer mit strength_multiplier
208
+ • Sofortige Wirkung ohne Training
209
+
210
+ <strong>Freezing Skills</strong> (Persistenz)
211
+ • Wichtige Circuits identifizieren und speichern
212
+ • Erfolgreiche Patterns in Finetuning übernehmen
213
+ • Agent-Verhalten konsistent halten
214
+
215
+ <strong>Der Loop mit beiden Disziplinen:</strong>
216
  1. Ralph startet → Agent führt Task aus
217
  2. Beads tracked → Graph speichert Fortschritt
218
  3. Docker MCP → Container on-demand erstellen
219
+ 4. Agent arbeitet → Isoliert im Sandbox-Container
220
+ 5. <span style="color: #667eea;">[PATH A]</span> HF Skills Finetuning für permanentes Lernen
221
+ 6. <span style="color: #667eea;">[PATH B]</span> Gemma Scope → Activations analysieren
222
+ 7. <span style="color: #667eea;">[PATH B]</span> Neuronpedia Discovery: Features finden
223
+ 8. <span style="color: #667eea;">[PATH B]</span> Steering Laufzeit-Korrektur
224
+ 9. <span style="color: #667eea;">[BOTH]</span> Freezing → Erfolgreiche Patterns fixieren
225
  10. Container cleanup → Automatisch kill & löschen
226
  11. Loop wiederholt → Verbesserter Agent
227