AbstractPhil
/

vit-beans-v3

+# Run: cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737
+## Configuration
+- **Dataset**: CIFAR100
+- **Fusion Mode**: consciousness
+- **Parameters**: 7,207,237
+- **Simplex**: 8-simplex (9 vertices)
+## Performance
+- **Best Validation Accuracy**: 64.34%
+- **Training Time**: 3.5 hours
+- **Final Epoch**: 200
+## Training Setup: AdamW + Warm Restarts
+- **Optimizer**: AdamW (lr=0.0003, wd=0.05)
+- **Scheduler**: CosineAnnealingWarmRestarts
+- **Restart Period (T_0)**: 12 epochs
+- **Cycle Multiplier (T_mult)**: 1.75x
+- **Restart LR Mult**: 1.2x 🚀
+- **Min LR**: 1e-07
+- **Batch Size**: 512
+- **Mixed Precision**: False
+### 🚀 LR Boost Feature
+This run uses **restart_lr_mult = 1.2x** for aggressive exploration:
+**How it works:**
+```
+Cycle 1: 3.00e-04 → 1.00e-07 (standard convergence)
+Restart:  → 3.60e-04 (BOOSTED!)
+Cycle 2: 3.60e-04 → 1.00e-07 (wider exploration)
+Restart:  → 4.32e-04 (EVEN MORE BOOSTED!)
+Cycle 3: 4.32e-04 → 1.00e-07
+...
+```
+**Benefits:**
+- 🔓 **Escape solidified local minima** with aggressive LR spikes
+- 🌊 **Wider exploration curves** after each restart
+- 💪 **Progressively stronger exploration** as training proceeds
+- 🎯 **Combat training plateaus** that plague long runs
+### Learning Rate Schedule
+```
+Cycle 1: Epochs 0-12
+  LR: 0.0003 → 1e-07 (drop)
+  Expected: Convergence to local minimum
+Epoch 12: RESTART 🔄
+  LR: 1e-07 → 0.00035999999999999997 (jump!)
+  Expected: Escape local minimum, explore new regions
+Cycle 2: Epochs 12-33.0
+  LR: 0.00035999999999999997 → 1e-07 (longer cycle)
+  Expected: Deeper convergence
+... and so on
+```
+## Files
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737/checkpoints/best_model.safetensors` - Model weights
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737/checkpoints/best_training_state.pt` - Optimizer state
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737/config.yaml` - Full configuration
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737/tensorboard/` - TensorBoard logs (LR tracking!)
+## Usage
+```python
+from safetensors.torch import load_file
+from huggingface_hub import hf_hub_download
+model_path = hf_hub_download(
+    repo_id="AbstractPhil/vit-beans-v3",
+    filename="runs/cifar100_consciousness_ADAMW_WarmRestart_boost1.2x_20251123_063737/checkpoints/best_model.safetensors"
+)
+state_dict = load_file(model_path)
+model.load_state_dict(state_dict)
+```
+## Training Notes
+**Warm Restarts Benefits:**
+- 🔄 **Exploration**: Periodic LR jumps escape local minima
+- 📉 **Exploitation**: Long drop phases converge deeply
+- 🎯 **Robustness**: Multiple restarts find better solutions
+- 📊 **Monitoring**: Watch TensorBoard for restart effects!
+**Expected Behavior:**
+- Accuracy improves during each drop phase
+- Brief accuracy dips after restarts (exploration)
+- Overall upward trend across cycles
+- Best models often found late in long cycles
+---
+Built with geometric consciousness-aware routing using the Devil's Staircase (Beatrix) and pentachoron parameterization.
+**Training completed**: 2025-11-23 10:05:21
+[← Back to main repository](https://huggingface.co/AbstractPhil/vit-beans-v3)