AbstractPhil
/

vit-beans-v3

+# Run: cifar100_consciousness_ADAMW_WarmRestart_20251120_030614
+## Configuration
+- **Dataset**: CIFAR100
+- **Fusion Mode**: consciousness
+- **Parameters**: 42,341,608
+- **Simplex**: 4-simplex (5 vertices)
+## Performance
+- **Best Validation Accuracy**: 45.96%
+- **Training Time**: 6.1 hours
+- **Final Epoch**: 200
+## Training Setup: AdamW + Warm Restarts
+- **Optimizer**: AdamW (lr=0.0001, wd=0.05)
+- **Scheduler**: CosineAnnealingWarmRestarts
+- **Restart Period (T_0)**: 20 epochs
+- **Cycle Multiplier (T_mult)**: 1x
+- **Min LR**: 1e-07
+- **Batch Size**: 256
+- **Mixed Precision**: False
+### Learning Rate Schedule
+```
+Cycle 1: Epochs 0-20
+  LR: 0.0001 → 1e-07 (drop)
+  Expected: Convergence to local minimum
+Epoch 20: RESTART 🔄
+  LR: 1e-07 → 0.0001 (jump!)
+  Expected: Escape local minimum, explore new regions
+Cycle 2: Epochs 20-40
+  LR: 0.0001 → 1e-07 (longer cycle)
+  Expected: Deeper convergence
+... and so on
+```
+## Files
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_20251120_030614/checkpoints/best_model.safetensors` - Model weights
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_20251120_030614/checkpoints/best_training_state.pt` - Optimizer state
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_20251120_030614/config.yaml` - Full configuration
+- `runs/cifar100_consciousness_ADAMW_WarmRestart_20251120_030614/tensorboard/` - TensorBoard logs (LR tracking!)
+## Usage
+```python
+from safetensors.torch import load_file
+from huggingface_hub import hf_hub_download
+model_path = hf_hub_download(
+    repo_id="AbstractPhil/vit-beans-v3",
+    filename="runs/cifar100_consciousness_ADAMW_WarmRestart_20251120_030614/checkpoints/best_model.safetensors"
+)
+state_dict = load_file(model_path)
+model.load_state_dict(state_dict)
+```
+## Training Notes
+**Warm Restarts Benefits:**
+- 🔄 **Exploration**: Periodic LR jumps escape local minima
+- 📉 **Exploitation**: Long drop phases converge deeply
+- 🎯 **Robustness**: Multiple restarts find better solutions
+- 📊 **Monitoring**: Watch TensorBoard for restart effects!
+**Expected Behavior:**
+- Accuracy improves during each drop phase
+- Brief accuracy dips after restarts (exploration)
+- Overall upward trend across cycles
+- Best models often found late in long cycles
+---
+Built with geometric consciousness-aware routing using the Devil's Staircase (Beatrix) and pentachoron parameterization.
+**Training completed**: 2025-11-20 09:15:30
+[← Back to main repository](https://huggingface.co/AbstractPhil/vit-beans-v3)