Add files using upload-large-folder tool

Browse files

Files changed (10) hide show

.cache/._huggingface +0 -0
README.md +120 -93
index.json +1726 -0
pythia-160m/W_E/cross-snapshot-32/d8192/seed0.metrics_recomputed.json +23 -0
pythia-160m/W_U/architecture-comparison/d8192/gated-retuned/seed0.config.json +2 -1
pythia-160m/W_U/architecture-comparison/d8192/gated/seed0.config.json +4 -2
pythia-160m/W_U/cross-snapshot-16/d8192/seed0.metrics_recomputed.json +24 -0
pythia-160m/W_U/cross-snapshot-32/d16384/seed0.metrics_recomputed.json +23 -0
pythia-160m/W_U/cross-snapshot-32/d24576/seed0.metrics_recomputed.json +24 -0
pythia-160m/W_U/cross-snapshot-32/d24576/seed1.metrics_recomputed.json +24 -0

.cache/._huggingface ADDED Viewed

Binary file (4.1 kB). View file

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-license: apache-2.0
 tags:
 - crosscoder
 - sparse-autoencoder
@@ -11,109 +11,136 @@ tags:
 # Parameter-trajectory crosscoders for vocabulary readout evolution
-Companion checkpoints to the paper *Parameter-trajectory crosscoders for
-vocabulary readout evolution* (NeurIPS 2026; arXiv:XXXX.XXXXX).
-We train **snapshot crosscoders** on parameter tensors (rather than
-activations) sampled across pretraining checkpoints. In Pythia-160M's output
-unembedding $W_U$, this reveals a sparse, reproducible **readout
-consolidation event** at training step ~1,000.
-## Repository layout
-| What you want | Path |
-|---|---|
-| Headline 5-seed Pythia-160M $W_U$ crosscoder | `pythia-160m/W_U/cross-snapshot-32/d8192/seed{0..4}.safetensors` |
-| 32 single-snapshot SAEs (in-time view) | `pythia-160m/W_U/per-snapshot-saes/d8192/step*.safetensors` |
-| Higher-capacity Pythia-160M $W_U$ crosscoders | `pythia-160m/W_U/cross-snapshot-32/d{16384,24576}/` |
-| Architecture-invariance comparison (vs. JumpReLU baseline) | `pythia-160m/W_U/architecture-comparison/d8192/{batchtopk,gated,gated-retuned}/` |
-| Snapshot-density downsample | `pythia-160m/W_U/cross-snapshot-16/d8192/` |
-| Final-snapshot-only SAE Pareto | `pythia-160m/W_U/final-snapshot-saes/d{6144..65536}.safetensors` |
-| Read/write asymmetry: $W_E$ side | `pythia-160m/W_E/cross-snapshot-32/d{8192,24576}/` |
-| Cross-scale (Pythia-1B) | `pythia-1b/W_U/cross-snapshot-32/d{8192,16384,24576}/` |
-| Larger-scale (Pythia-6.9B) | `pythia-6.9b/W_U/cross-snapshot-32/d32768/` |
-| Cross-family (OLMo-2-7B) | `olmo-2-7b/W_U/cross-snapshot-32/d32768/` |
-| §5 attribution-patching artifacts | `attribution/pythia-160m/` |
-Each directory contains `<name>.safetensors` (weights),
-`<name>.config.json` (training hparams + quality metrics), and `<name>.md`
-(one-page model card). The metadata format is unified across all artifacts.
-## Repository tree
-```
-.
-├── README.md
-│
-├── attribution/pythia-160m/
-│   ├── induction-{results.pt, verdict.json}
-│   ├── ioi-{results.pt, verdict.json}
-│   └── sva-{results.pt, verdict.json}
-│
-├── pythia-160m/
-│   ├── W_E/cross-snapshot-32/
-│   │   ├── d8192/seed{0..4}.{safetensors, config.json, md}
-│   │   └── d24576/seed0.{safetensors, config.json, md}
-│   │
-│   └── W_U/
-│       ├── cross-snapshot-32/
-│       │   ├── d8192/seed{0..4}.{safetensors, config.json, md}
-│       │   ├── d16384/seed0.{safetensors, config.json, md}
-│       │   └── d24576/seed{0..2}.{safetensors, config.json, md}
-│       │
-│       ├── cross-snapshot-16/d8192/seed0.{...}
-│       │
-│       ├── per-snapshot-saes/d8192/step{0..143000}.{safetensors, config.json, md}   # 32 snapshots
-│       │
-│       ├── architecture-comparison/d8192/
-│       │   ├── batchtopk/seed0.{...}
-│       │   ├── gated/seed0.{...}
-│       │   └── gated-retuned/seed0.{...}
-│       │
-│       └── final-snapshot-saes/d{6144, 8192, 16384, 32768, 65536}.{safetensors, config.json, md}
-│
-└── pythia-1b/W_U/cross-snapshot-32/d{8192, 16384, 24576}/seed0.{safetensors, config.json, md}
 ```
-## Quick start
-```python
-from huggingface_hub import hf_hub_download
-from safetensors.torch import load_file
-import json
-# Download the headline Pythia-160M crosscoder, seed 0
-weights_path = hf_hub_download(
-    "matteohe/parameter-trajectory-crosscoders",
-    "pythia-160m/W_U/cross-snapshot-32/d8192/seed0.safetensors",
-)
-config_path = hf_hub_download(
-    "matteohe/parameter-trajectory-crosscoders",
-    "pythia-160m/W_U/cross-snapshot-32/d8192/seed0.config.json",
-)
-weights = load_file(weights_path)  # dict[str, Tensor]
-config = json.load(open(config_path))
-print(config["public_label"])  # "Pythia-160M W_U crosscoder, ..."
-```
-The crosscoder weight tensors are:
-- `W_E`: encoder, shape $(K, d_{\text{model}}, d_{\text{sae}})$
-- `W_D`: decoder, shape $(K, d_{\text{sae}}, d_{\text{model}})$
-- `b_E`: encoder bias, shape $(K, d_{\text{sae}})$
-- `b_D`: decoder bias, shape $(K, d_{\text{model}})$
-- `activation_function.log_jumprelu_threshold`: shape $(d_{\text{sae}},)$
-For per-snapshot SAEs `K=1`. The companion paper code (open-source, see
-`https://github.com/...`) provides `wu_adapter.build_crosscoder` which
-reconstructs the full module.
 ## Citation
 ```bibtex
-@inproceedings{{...,
-  title={{Parameter-trajectory crosscoders for vocabulary readout evolution}},
-  author={{...}},
-  booktitle={{NeurIPS 2026}},
-  year={{2026}},
-}}
 ```

 ---
+license: mit
 tags:
 - crosscoder
 - sparse-autoencoder
 # Parameter-trajectory crosscoders for vocabulary readout evolution
+Trained-dictionary release for **Learning to Read Out: Unembedding Dynamics in
+Language Model Pretraining**. We train **snapshot crosscoders** on parameter
+tensors (rather than activations) sampled across pretraining checkpoints. In
+the output unembedding $W_U$ this reveals how a sparse vocabulary readout
+forms, reorganizes, and becomes load-bearing during pretraining.
+Code, figure-by-figure reproduction map, and retraining recipes:
+**https://github.com/hematteo/learning-to-read-out** (see `docs/REPRODUCE.md`
+and `docs/DATA.md`; per-run settings of record in `configs/runs/`).
+## Quick start
+```bash
+# everything (~180 GB)
+hf download matteohe/parameter-trajectory-crosscoders --local-dir $UM_SSD_ROOT/hf_release/parameter-trajectory-crosscoders
+# one model only
+hf download matteohe/parameter-trajectory-crosscoders --include "pythia-1b/**" --local-dir ...
 ```
+Each artifact is `<name>.safetensors` + `<name>.config.json` (training
+hyperparameters and recomputed quality metrics) + `<name>.md` (card).
+`index.json` is the machine-readable inventory of everything below.
+## What you probably want
+| What | Path |
+|---|---|
+| Headline 5-seed Pythia-160M $W_U$ crosscoder | `pythia-160m/W_U/cross-snapshot-32/d8192/seed{0..4}.safetensors` |
+| High-resolution 160M instrument (atlas) | `pythia-160m/W_U/cross-snapshot-32/d24576/seed0.safetensors` |
+| Cross-scale (Pythia-1B) | `pythia-1b/W_U/cross-snapshot-32/d24576/seed0.safetensors` |
+| Large-scale, selected sparse run | `pythia-6.9b/W_U/cross-snapshot-32/d32768/seed0-sparse.safetensors` |
+| Cross-family (OLMo-2-7B) | `olmo-2-7b/W_U/cross-snapshot-32/d32768/seed0.safetensors` |
+| Read/write asymmetry ($W_E$ side) | `pythia-160m/W_E/cross-snapshot-32/...` |
+| Activation-rate aggregates (lifecycle figures) | `derived/aggregates/`, `derived/rates/` |
+| Attribution-patching artifacts | `attribution/pythia-160m/` |
+| Held-out eval token corpus | `evaluation/eval-corpus/eval_tokens.pt` |
+## Full inventory
+| Path | Model | Matrix | Kind | d_sae | Seed | Quality |
+|---|---|---|---|---|---|---|
+| `olmo-2-7b/W_U/cross-snapshot-32/d32768/seed0.safetensors` | allenai/OLMo-2-1124-7B | W_U | cross-snapshot-32 | 32768 | 0 | EV 0.853 / L0 557 |
+| `pythia-160m/W_E/cross-snapshot-32/d24576/seed0.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 24576 | 0 | EV 0.831 / L0 118 |
+| `pythia-160m/W_E/cross-snapshot-32/d8192/seed0.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 8192 | 0 | EV 0.581 / L0 82 |
+| `pythia-160m/W_E/cross-snapshot-32/d8192/seed1.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 8192 | 1 | EV 0.580 / L0 82 |
+| `pythia-160m/W_E/cross-snapshot-32/d8192/seed2.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 8192 | 2 | EV 0.582 / L0 82 |
+| `pythia-160m/W_E/cross-snapshot-32/d8192/seed3.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 8192 | 3 | EV 0.581 / L0 82 |
+| `pythia-160m/W_E/cross-snapshot-32/d8192/seed4.safetensors` | EleutherAI/pythia-160m | W_E | cross-snapshot-32 | 8192 | 4 | EV 0.583 / L0 83 |
+| `pythia-160m/W_U/architecture-comparison/d8192/batchtopk/seed0.safetensors` | EleutherAI/pythia-160m | W_U | architecture-comparison/d8192 | 8192 | 0 | EV 0.725 / L0 203 |
+| `pythia-160m/W_U/architecture-comparison/d8192/gated/seed0.safetensors` | EleutherAI/pythia-160m | W_U | architecture-comparison/d8192 | 8192 | 0 | EV 0.214 / L0 12 |
+| `pythia-160m/W_U/architecture-comparison/d8192/gated-retuned/seed0.safetensors` | EleutherAI/pythia-160m | W_U | architecture-comparison/d8192 | 8192 | 0 | EV 0.827 / L0 654 |
+| `pythia-160m/W_U/cross-snapshot-16/d8192/seed0.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-16 | 8192 | 0 | EV 0.773 / L0 216 |
+| `pythia-160m/W_U/cross-snapshot-32/d16384/seed0.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 16384 | 0 | EV 0.780 / L0 103 |
+| `pythia-160m/W_U/cross-snapshot-32/d24576/seed0.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 24576 | 0 | EV 0.920 / L0 286 |
+| `pythia-160m/W_U/cross-snapshot-32/d24576/seed1.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 24576 | 1 | EV 0.920 / L0 286 |
+| `pythia-160m/W_U/cross-snapshot-32/d24576/seed2.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 24576 | 2 | EV 0.920 / L0 286 |
+| `pythia-160m/W_U/cross-snapshot-32/d8192/seed0.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 8192 | 0 | EV 0.776 / L0 203 |
+| `pythia-160m/W_U/cross-snapshot-32/d8192/seed1.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 8192 | 1 | EV 0.776 / L0 203 |
+| `pythia-160m/W_U/cross-snapshot-32/d8192/seed2.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 8192 | 2 | EV 0.776 / L0 203 |
+| `pythia-160m/W_U/cross-snapshot-32/d8192/seed3.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 8192 | 3 | EV 0.776 / L0 203 |
+| `pythia-160m/W_U/cross-snapshot-32/d8192/seed4.safetensors` | EleutherAI/pythia-160m | W_U | cross-snapshot-32 | 8192 | 4 | EV 0.777 / L0 203 |
+| `pythia-160m/W_U/final-snapshot-saes/d16384.safetensors` | EleutherAI/pythia-160m | W_U | final-snapshot-saes | 16384 | 0 | EV 0.870 / L0 1913 |
+| `pythia-160m/W_U/final-snapshot-saes/d32768.safetensors` | EleutherAI/pythia-160m | W_U | final-snapshot-saes | 32768 | 0 | EV 0.926 / L0 3410 |
+| `pythia-160m/W_U/final-snapshot-saes/d6144.safetensors` | EleutherAI/pythia-160m | W_U | final-snapshot-saes | 6144 | 0 | EV 0.765 / L0 862 |
+| `pythia-160m/W_U/final-snapshot-saes/d65536.safetensors` | EleutherAI/pythia-160m | W_U | final-snapshot-saes | 65536 | 0 | EV 0.964 / L0 5943 |
+| `pythia-160m/W_U/final-snapshot-saes/d8192.safetensors` | EleutherAI/pythia-160m | W_U | final-snapshot-saes | 8192 | 0 | EV 0.799 / L0 1084 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam0p40_seed0.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 0 | EV 0.748 / L0 160 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p00_seed0.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 0 | EV 0.632 / L0 58 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p20_seed0.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 0 | EV 0.603 / L0 45 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed0.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 0 | EV 0.582 / L0 38 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed1.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 1 | EV 0.582 / L0 38 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed2.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 2 | EV 0.582 / L0 38 |
+| `pythia-160m/W_U/lambda-sweep/d8192/lam1p80_seed0.safetensors` | EleutherAI/pythia-160m | W_U | lambda-sweep | 8192 | 0 | EV 0.528 / L0 23 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step0.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step1.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step1000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.786 / L0 997 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step102000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.800 / L0 983 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step116000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.812 / L0 958 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step128.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step130000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.820 / L0 940 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step14000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.791 / L0 996 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step143000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.824 / L0 924 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step16.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step2.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step2000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.799 / L0 969 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step21000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.791 / L0 998 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step256.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.732 / L0 1142 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step27000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.791 / L0 999 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step3000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.799 / L0 972 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step32.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step34000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.791 / L0 1000 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step4.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step4000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.798 / L0 977 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step47000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.791 / L0 1000 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step5000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.796 / L0 982 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step512.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.754 / L0 1087 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step6000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.795 / L0 985 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step61000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.790 / L0 1002 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step64.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step7000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.794 / L0 988 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step75000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.790 / L0 1004 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step8.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.729 / L0 1150 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step8000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.793 / L0 990 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step89000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.792 / L0 1002 |
+| `pythia-160m/W_U/per-snapshot-saes/d8192/step9000.safetensors` | EleutherAI/pythia-160m | W_U | per-snapshot-saes | 8192 | 0 | EV 0.792 / L0 992 |
+| `pythia-1b/W_U/cross-snapshot-32/d16384/seed0.safetensors` | EleutherAI/pythia-1b | W_U | cross-snapshot-32 | 16384 | 0 | EV 0.781 / L0 499 |
+| `pythia-1b/W_U/cross-snapshot-32/d24576/seed0.safetensors` | EleutherAI/pythia-1b | W_U | cross-snapshot-32 | 24576 | 0 | EV 0.861 / L0 517 |
+| `pythia-1b/W_U/cross-snapshot-32/d8192/seed0.safetensors` | EleutherAI/pythia-1b | W_U | cross-snapshot-32 | 8192 | 0 | EV 0.628 / L0 374 |
+| `pythia-1b/W_U/cross-snapshot-32-matched-window/d24576/seed0.safetensors` | EleutherAI/pythia-1b | W_U | cross-snapshot-32-matched-window | 24576 | 0 | EV 0.884 / L0 264 |
+| `pythia-6.9b/W_U/cross-snapshot-32/d32768/seed0-sparse.safetensors` | EleutherAI/pythia-6.9b | W_U | cross-snapshot-32 | 32768 | 0 | EV 0.808 / L0 742 |
+| `pythia-6.9b/W_U/cross-snapshot-32/d32768/seed0.safetensors` | EleutherAI/pythia-6.9b | W_U | cross-snapshot-32 | 32768 | 0 | EV 0.833 / L0 1957 |
+Quality metrics are recomputed from the released weights on the released
+snapshot schedule (see the code repo's `scripts/eval/recompute_metrics.py`).
+The `gated` architecture-comparison run intentionally documents
+λ-transfer failure (default λ=0.3 moved across architectures); see
+`gated-retuned` (λ=0.05) for the tuned comparison point.
 ## Citation
 ```bibtex
+@misc{he2026learningtoreadout,
+  title  = {Learning to Read Out: Unembedding Dynamics in Language Model Pretraining},
+  author = {He, Matteo and Shen, William F. and Iacob, Alex and Jovanovic, Andrej
+            and Qiu, Xinchi and Lane, Nicholas D.},
+  year   = {2026},
+  note   = {Under review. Code: https://github.com/hematteo/learning-to-read-out},
+}
 ```
+MIT. W_U/W_E source tensors derive from public Apache-2.0 checkpoints
+(EleutherAI Pythia, AllenAI OLMo-2). The eval corpus derives from Wikipedia
+(CC-BY-SA 4.0).

index.json ADDED Viewed

	@@ -0,0 +1,1726 @@

+{
+ "release": "parameter-trajectory-crosscoders",
+ "paper": "Learning to Read Out: Unembedding Dynamics in Language Model Pretraining",
+ "code": "https://github.com/hematteo/learning-to-read-out",
+ "loading_recipe": "from safetensors.torch import safe_open; f = safe_open(path, framework='pt'); W_D = f.get_tensor('W_D'); thr = f.get_tensor('activation_function.log_jumprelu_threshold').exp() # or use src.crosscoder.checkpoints.load_checkpoint from the code repo",
+ "checkpoints": [
+  {
+   "path": "olmo-2-7b/W_U/cross-snapshot-32/d32768/seed0.safetensors",
+   "model_name": "allenai/OLMo-2-1124-7B",
+   "model": "olmo-2-7b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 32768,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "OLMo-2-7B W_U crosscoder, 32 snapshots, d_sae=32768, seed 0",
+   "quality": {
+    "explained_variance": 0.8526035831389717,
+    "mean_l0": 557.2795322963169,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 1e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d24576/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 24576,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=24576, seed 0",
+   "quality": {
+    "explained_variance": 0.8305442370487662,
+    "mean_l0": 117.50901977539063,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d8192/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.5807971126242004,
+    "mean_l0": 82.08435302734375
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d8192/seed1.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 1,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=8192, seed 1",
+   "quality": {
+    "explained_variance": 0.580104140268709,
+    "mean_l0": 82.01199279785156,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d8192/seed2.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 2,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=8192, seed 2",
+   "quality": {
+    "explained_variance": 0.5815380601296635,
+    "mean_l0": 82.31076721191407,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d8192/seed3.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 3,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=8192, seed 3",
+   "quality": {
+    "explained_variance": 0.5805984141666259,
+    "mean_l0": 82.13521545410157,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_E/cross-snapshot-32/d8192/seed4.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_E",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 4,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_E crosscoder, 32 snapshots, d_sae=8192, seed 4",
+   "quality": {
+    "explained_variance": 0.5825219599393371,
+    "mean_l0": 82.5084307861328,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/architecture-comparison/d8192/batchtopk/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "architecture-comparison/d8192",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "batchtopk",
+   "public_label": "Pythia-160M W_U crosscoder (batchtopk activation), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.7249162974116965,
+    "mean_l0": 203.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/architecture-comparison/d8192/gated/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "architecture-comparison/d8192",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "gated",
+   "public_label": "Pythia-160M W_U crosscoder (gated activation), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.21442979106557436,
+    "mean_l0": 11.51853515625
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/architecture-comparison/d8192/gated-retuned/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "architecture-comparison/d8192",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "gated",
+   "public_label": "Pythia-160M W_U crosscoder (Gated activation, L1=0.05), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.827462127951851,
+    "mean_l0": 653.64568359375
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-16/d8192/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-16",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 16,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 16-snapshot downsample, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.7734329300485889,
+    "mean_l0": 215.73649780273436,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d16384/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 16384,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=16384, seed 0",
+   "quality": {
+    "explained_variance": 0.7802076016978367,
+    "mean_l0": 103.0708544921875
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d24576/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 24576,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=24576, seed 0",
+   "quality": {
+    "explained_variance": 0.9196719747097695,
+    "mean_l0": 285.9946594238281,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d24576/seed1.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 24576,
+   "seed": 1,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=24576, seed 1",
+   "quality": {
+    "explained_variance": 0.9195844996740984,
+    "mean_l0": 286.09990661621094,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d24576/seed2.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 24576,
+   "seed": 2,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=24576, seed 2",
+   "quality": {
+    "explained_variance": 0.9196765967343927,
+    "mean_l0": 286.3446789550781,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d8192/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.7763740924044573,
+    "mean_l0": 203.14466369628906
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d8192/seed1.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 1,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=8192, seed 1",
+   "quality": {
+    "explained_variance": 0.7763600972452054,
+    "mean_l0": 203.26546752929687
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d8192/seed2.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 2,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=8192, seed 2",
+   "quality": {
+    "explained_variance": 0.7764523546944131,
+    "mean_l0": 203.14273071289062
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d8192/seed3.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 3,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=8192, seed 3",
+   "quality": {
+    "explained_variance": 0.7762290236129058,
+    "mean_l0": 203.09911560058595
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/cross-snapshot-32/d8192/seed4.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 4,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, 32 snapshots, d_sae=8192, seed 4",
+   "quality": {
+    "explained_variance": 0.7765168883427946,
+    "mean_l0": 203.4711474609375
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/final-snapshot-saes/d16384.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "final-snapshot-saes",
+   "d_sae": 16384,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U final-snapshot SAE (step 143000 only), d_sae=16384",
+   "quality": {
+    "explained_variance": 0.8703331309369664,
+    "mean_l0": 1913.29353515625
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.05,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/final-snapshot-saes/d32768.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "final-snapshot-saes",
+   "d_sae": 32768,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U final-snapshot SAE (step 143000 only), d_sae=32768",
+   "quality": {
+    "explained_variance": 0.926354609914279,
+    "mean_l0": 3410.36810546875
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.05,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/final-snapshot-saes/d6144.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "final-snapshot-saes",
+   "d_sae": 6144,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U final-snapshot SAE (step 143000 only), d_sae=6144",
+   "quality": {
+    "explained_variance": 0.7649826125102704,
+    "mean_l0": 861.8197265625
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.05,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/final-snapshot-saes/d65536.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "final-snapshot-saes",
+   "d_sae": 65536,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U final-snapshot SAE (step 143000 only), d_sae=65536",
+   "quality": {
+    "explained_variance": 0.9642323011052749,
+    "mean_l0": 5943.19078125
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.05,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/final-snapshot-saes/d8192.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "final-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U final-snapshot SAE (step 143000 only), d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7989936757858394,
+    "mean_l0": 1084.4333984375
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.05,
+    "batch_size": 1024,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam0p40_seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=0.4), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.7479858952216084,
+    "mean_l0": 160.0768243408203,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.4,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p00_seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.0), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.6323049070911215,
+    "mean_l0": 58.49865539550781,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.0,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p20_seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.2), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.6027639222075235,
+    "mean_l0": 45.41338317871094,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.2,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.35), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.5819729868726617,
+    "mean_l0": 37.971342163085936,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.35,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed1.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 1,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.35), 32 snapshots, d_sae=8192, seed 1",
+   "quality": {
+    "explained_variance": 0.581652004193779,
+    "mean_l0": 37.79685302734375,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.35,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p35_seed2.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 2,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.35), 32 snapshots, d_sae=8192, seed 2",
+   "quality": {
+    "explained_variance": 0.582366028895355,
+    "mean_l0": 37.980972900390626,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.35,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/lambda-sweep/d8192/lam1p80_seed0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "lambda-sweep",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U crosscoder, \u03bb-sweep iso-L0 (\u03bb=1.8), 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.527703732469858,
+    "mean_l0": 23.033436279296875,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 1.8,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step0.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 0, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288661622516968,
+    "mean_l0": 1150.079375,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step1.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 1, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288661622516968,
+    "mean_l0": 1150.079375,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step1000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 1000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7862491472291859,
+    "mean_l0": 996.89369140625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step102000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 102000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7998127382951936,
+    "mean_l0": 983.041015625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step116000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 116000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.8120686966847851,
+    "mean_l0": 957.6841577148438,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step128.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 128, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7290331109474104,
+    "mean_l0": 1149.5578076171876,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step130000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 130000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.8195671283611181,
+    "mean_l0": 940.0407983398437,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step14000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 14000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7912227686750525,
+    "mean_l0": 996.466455078125,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step143000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 143000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.8244679775563315,
+    "mean_l0": 924.0657104492187,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step16.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 16, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288671871864183,
+    "mean_l0": 1150.0855908203125,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step2.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 2, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.72886850366392,
+    "mean_l0": 1150.0986572265624,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step2000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 2000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7992791212506758,
+    "mean_l0": 969.1734448242188,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step21000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 21000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7907924441773572,
+    "mean_l0": 998.4695678710938,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step256.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 256, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7317386038736777,
+    "mean_l0": 1142.36794921875,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step27000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 27000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7907578681617007,
+    "mean_l0": 999.3178100585938,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step3000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 3000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7993412040992963,
+    "mean_l0": 972.4029614257812,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step32.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 32, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288681571269175,
+    "mean_l0": 1150.0745947265625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step34000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 34000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7906181564574442,
+    "mean_l0": 999.5078881835938,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step4.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 4, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288676993559831,
+    "mean_l0": 1150.087177734375,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step4000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 4000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7977749784323522,
+    "mean_l0": 977.3629370117187,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step47000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 47000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.790620026518176,
+    "mean_l0": 1000.2795385742188,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step5000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 5000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7960998419245482,
+    "mean_l0": 981.8336376953125,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step512.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 512, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7542853862655656,
+    "mean_l0": 1086.609990234375,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step6000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 6000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7947783648659816,
+    "mean_l0": 985.470498046875,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step61000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 61000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7904375219119095,
+    "mean_l0": 1001.8048901367188,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step64.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 64, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.728867046997959,
+    "mean_l0": 1150.0748681640625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step7000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 7000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7938394341974695,
+    "mean_l0": 988.107509765625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step75000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 75000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.790395516481567,
+    "mean_l0": 1004.148408203125,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step8.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 8, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7288677026395104,
+    "mean_l0": 1150.0938623046875,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step8000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 8000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7931325520036884,
+    "mean_l0": 990.1047631835937,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step89000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 89000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7924073402250866,
+    "mean_l0": 1001.9916259765625,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-160m/W_U/per-snapshot-saes/d8192/step9000.safetensors",
+   "model_name": "EleutherAI/pythia-160m",
+   "model": "pythia-160m",
+   "matrix": "W_U",
+   "kind": "per-snapshot-saes",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 1,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-160M W_U per-snapshot SAE at training step 9000, d_sae=8192",
+   "quality": {
+    "explained_variance": 0.7924251809723794,
+    "mean_l0": 992.0130297851563,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 2048,
+    "n_epochs": 100,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-1b/W_U/cross-snapshot-32/d16384/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-1b",
+   "model": "pythia-1b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 16384,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-1B W_U crosscoder, 32 snapshots, d_sae=16384, seed 0",
+   "quality": {
+    "explained_variance": 0.7812400637275599,
+    "mean_l0": 499.1909545898437,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 2e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-1b/W_U/cross-snapshot-32/d24576/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-1b",
+   "model": "pythia-1b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 24576,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-1B W_U crosscoder, 32 snapshots, d_sae=24576, seed 0",
+   "quality": {
+    "explained_variance": 0.861217602606241,
+    "mean_l0": 517.0205554199218,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 2e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-1b/W_U/cross-snapshot-32/d8192/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-1b",
+   "model": "pythia-1b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 8192,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-1B W_U crosscoder, 32 snapshots, d_sae=8192, seed 0",
+   "quality": {
+    "explained_variance": 0.628030172619609,
+    "mean_l0": 374.1408770751953,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 2e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-1b/W_U/cross-snapshot-32-matched-window/d24576/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-1b",
+   "model": "pythia-1b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32-matched-window",
+   "d_sae": 24576,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-1B W_U crosscoder, OLMo-matched late-start 32-snapshot window, d_sae=24576, seed 0",
+   "quality": {
+    "explained_variance": 0.8844067825487556,
+    "mean_l0": 263.98009787989025,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 5e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-6.9b/W_U/cross-snapshot-32/d32768/seed0-sparse.safetensors",
+   "model_name": "EleutherAI/pythia-6.9b",
+   "model": "pythia-6.9b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 32768,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-6.9B W_U crosscoder, 32 snapshots, d_sae=32768, seed 0, selected sparse run (lambda=0.6)",
+   "quality": {
+    "explained_variance": 0.8080785315044828,
+    "mean_l0": 741.8141662287833,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 1e-05,
+    "l1_coefficient": 0.6,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  },
+  {
+   "path": "pythia-6.9b/W_U/cross-snapshot-32/d32768/seed0.safetensors",
+   "model_name": "EleutherAI/pythia-6.9b",
+   "model": "pythia-6.9b",
+   "matrix": "W_U",
+   "kind": "cross-snapshot-32",
+   "d_sae": 32768,
+   "seed": 0,
+   "n_snapshots": 32,
+   "arch": "jumprelu-crosscoder",
+   "public_label": "Pythia-6.9B W_U crosscoder, 32 snapshots, d_sae=32768, seed 0",
+   "quality": {
+    "explained_variance": 0.8331843988901371,
+    "mean_l0": 1956.59887943171,
+    "dead_rate": 0.0
+   },
+   "training": {
+    "lr": 1e-05,
+    "l1_coefficient": 0.3,
+    "batch_size": 1024,
+    "n_epochs": 300,
+    "input_preprocess": "center_scale"
+   }
+  }
+ ],
+ "auxiliary": {
+  "derived/aggregates": [
+   "aggregates_dsae16384_seed0.pt",
+   "aggregates_dsae24576_seed0.pt",
+   "aggregates_dsae8192_seed0.pt",
+   "aggregates_pythia-160m_d24576_seed0.pt",
+   "aggregates_pythia-1b_d16384_seed0.pt",
+   "aggregates_pythia-1b_d24576_seed0.pt",
+   "aggregates_pythia-1b_d8192_seed0.pt",
+   "aggregates_pythia-6.9b_d32768_seed0.pt"
+  ],
+  "derived/rates": [
+   "we-d24576/we_cc_dsae24576_seed0_norms.npy",
+   "we-d24576/we_rates_dsae24576_seed0.pt",
+   "we-d8192-multiseed/we_cc_dsae8192_seed0_norms.npy",
+   "we-d8192-multiseed/we_cc_dsae8192_seed1_norms.npy",
+   "we-d8192-multiseed/we_cc_dsae8192_seed2_norms.npy",
+   "we-d8192-multiseed/we_cc_dsae8192_seed3_norms.npy",
+   "we-d8192-multiseed/we_cc_dsae8192_seed4_norms.npy",
+   "we-d8192-multiseed/we_rates_dsae8192_seed0.pt",
+   "we-d8192-multiseed/we_rates_dsae8192_seed1.pt",
+   "we-d8192-multiseed/we_rates_dsae8192_seed2.pt",
+   "we-d8192-multiseed/we_rates_dsae8192_seed3.pt",
+   "we-d8192-multiseed/we_rates_dsae8192_seed4.pt",
+   "wu-1b-d24576/decoder_norms_dsae24576_seed0.npy",
+   "wu-d24576-multiseed/decoder_norms_dsae24576_seed0.npy",
+   "wu-d24576-multiseed/decoder_norms_dsae24576_seed1.npy",
+   "wu-d24576-multiseed/decoder_norms_dsae24576_seed2.npy",
+   "wu-d24576-multiseed/wu_cc_dsae24576_seed0_norms.npy",
+   "wu-d24576-multiseed/wu_cc_dsae24576_seed1_norms.npy",
+   "wu-d24576-multiseed/wu_cc_dsae24576_seed2_norms.npy",
+   "wu-d24576-multiseed/wu_rates_dsae24576_seed0.pt",
+   "wu-d24576-multiseed/wu_rates_dsae24576_seed1.pt",
+   "wu-d24576-multiseed/wu_rates_dsae24576_seed2.pt",
+   "wu-d8192-cs16/wu_cc_dsae8192_seed0_norms.npy",
+   "wu-d8192-cs16/wu_rates_dsae8192_seed0.pt",
+   "wu-d8192-multiseed/decoder_norms_all_seeds.npy",
+   "wu-d8192-multiseed/firing_rates_all_seeds.npy",
+   "wu-d8192-persnap/train.log"
+  ],
+  "evaluation": [
+   "eval-corpus/README.md",
+   "eval-corpus/eval_tokens.pt"
+  ],
+  "attribution": [
+   "pythia-160m/induction-results.pt",
+   "pythia-160m/induction-verdict.json",
+   "pythia-160m/ioi-results.pt",
+   "pythia-160m/ioi-verdict.json",
+   "pythia-160m/sva-results.pt",
+   "pythia-160m/sva-verdict.json"
+  ]
+ }
+}

pythia-160m/W_E/cross-snapshot-32/d8192/seed0.metrics_recomputed.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "recomputed": {
+    "explained_variance": 0.5807971329492893,
+    "reconstruction_mse": 0.4182338160276413,
+    "mean_l0": 82.08435302734375,
+    "dead_rate": 0.0,
+    "d_sae": 8192,
+    "n_snapshots": 32,
+    "n_rows": 50304,
+    "n_batches": 50,
+    "preprocess_mode": "center_scale",
+    "model_name": "EleutherAI/pythia-160m",
+    "runtime_s": 53.8
+  },
+  "stored": {
+    "explained_variance": 0.5807971126242004,
+    "reconstruction_mse": 0.4182338178157806,
+    "mean_l0": 82.08435302734375,
+    "d_sae": 8192,
+    "n_snapshots": 32,
+    "n_rows": 50304
+  }
+}

pythia-160m/W_U/architecture-comparison/d8192/gated-retuned/seed0.config.json CHANGED Viewed

@@ -5,7 +5,8 @@
     "d_sae": 8192,
     "n_snapshots": 32,
     "d_model": 768,
-    "batchtopk_k": null
   },
   "training": {
     "lr": 5e-05,

     "d_sae": 8192,
     "n_snapshots": 32,
     "d_model": 768,
+    "batchtopk_k": null,
+    "gated_l1_coefficient": 0.05
   },
   "training": {
     "lr": 5e-05,

pythia-160m/W_U/architecture-comparison/d8192/gated/seed0.config.json CHANGED Viewed

@@ -5,7 +5,8 @@
     "d_sae": 8192,
     "n_snapshots": 32,
     "d_model": 768,
-    "batchtopk_k": null
   },
   "training": {
     "lr": 5e-05,
@@ -70,5 +71,6 @@
   "model_name": "EleutherAI/pythia-160m",
   "seed": 0,
   "kind": "cross-snapshot",
-  "preprocess_mode": "center_scale"
 }

     "d_sae": 8192,
     "n_snapshots": 32,
     "d_model": 768,
+    "batchtopk_k": null,
+    "gated_l1_coefficient": 0.3
   },
   "training": {
     "lr": 5e-05,
   "model_name": "EleutherAI/pythia-160m",
   "seed": 0,
   "kind": "cross-snapshot",
+  "preprocess_mode": "center_scale",
+  "note": "Default-lambda gated run (lambda=0.3 transferred from the JumpReLU recipe): low EV/L0 is the documented lambda-transfer failure, not a broken artifact. See gated-retuned (lambda=0.05) for the tuned comparison point."
 }

pythia-160m/W_U/cross-snapshot-16/d8192/seed0.metrics_recomputed.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "recomputed": {
+    "explained_variance": 0.7734329322856591,
+    "reconstruction_mse": 0.22638386040925979,
+    "mean_l0": 215.73648681640626,
+    "dead_rate": 0.0,
+    "d_sae": 8192,
+    "n_snapshots": 16,
+    "n_rows": 50304,
+    "n_batches": 50,
+    "preprocess_mode": "center_scale",
+    "model_name": "EleutherAI/pythia-160m",
+    "runtime_s": 12.7
+  },
+  "stored": {
+    "explained_variance": 0.7734329300485889,
+    "reconstruction_mse": 0.22638385832309724,
+    "mean_l0": 215.73649780273436,
+    "dead_rate": 0.0,
+    "d_sae": 8192,
+    "n_snapshots": 16,
+    "n_rows": 50304
+  }
+}

pythia-160m/W_U/cross-snapshot-32/d16384/seed0.metrics_recomputed.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "recomputed": {
+    "explained_variance": 0.7802076050852021,
+    "reconstruction_mse": 0.21972236514091492,
+    "mean_l0": 103.07085510253906,
+    "dead_rate": 0.0,
+    "d_sae": 16384,
+    "n_snapshots": 32,
+    "n_rows": 50304,
+    "n_batches": 50,
+    "preprocess_mode": "center_scale",
+    "model_name": "EleutherAI/pythia-160m",
+    "runtime_s": 169.3
+  },
+  "stored": {
+    "explained_variance": 0.7802076016978367,
+    "reconstruction_mse": 0.21972236931324005,
+    "mean_l0": 103.0708544921875,
+    "d_sae": 16384,
+    "n_snapshots": 32,
+    "n_rows": 50304
+  }
+}

pythia-160m/W_U/cross-snapshot-32/d24576/seed0.metrics_recomputed.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "recomputed": {
+    "explained_variance": 0.9196719720912131,
+    "reconstruction_mse": 0.08030243396759033,
+    "mean_l0": 285.9946276855469,
+    "dead_rate": 0.0,
+    "d_sae": 24576,
+    "n_snapshots": 32,
+    "n_rows": 50304,
+    "n_batches": 50,
+    "preprocess_mode": "center_scale",
+    "model_name": "EleutherAI/pythia-160m",
+    "runtime_s": 416.6
+  },
+  "stored": {
+    "explained_variance": 0.9196719747097695,
+    "reconstruction_mse": 0.08030243307352065,
+    "mean_l0": 285.9946594238281,
+    "dead_rate": 0.0,
+    "d_sae": 24576,
+    "n_snapshots": 32,
+    "n_rows": 50304
+  }
+}

pythia-160m/W_U/cross-snapshot-32/d24576/seed1.metrics_recomputed.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "recomputed": {
+    "explained_variance": 0.9195844969046052,
+    "reconstruction_mse": 0.08038988128304482,
+    "mean_l0": 286.0998828125,
+    "dead_rate": 0.0,
+    "d_sae": 24576,
+    "n_snapshots": 32,
+    "n_rows": 50304,
+    "n_batches": 50,
+    "preprocess_mode": "center_scale",
+    "model_name": "EleutherAI/pythia-160m",
+    "runtime_s": 508.2
+  },
+  "stored": {
+    "explained_variance": 0.9195844996740984,
+    "reconstruction_mse": 0.08038988023996353,
+    "mean_l0": 286.09990661621094,
+    "dead_rate": 0.0,
+    "d_sae": 24576,
+    "n_snapshots": 32,
+    "n_rows": 50304
+  }
+}