AwesomeInterpretability commited on Aug 22, 2025

Commit

3f727bf

verified ·

1 Parent(s): 2582ed9

Upload folder using huggingface_hub

Browse files

Files changed (36) hide show

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/config.json +28 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/eval_results.json +1 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/ae.pt +3 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/config.json +31 -0
saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/eval_results.json +1 -0

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7287d32b548e85207380f64716a571b658dd900b88388a713f7175238dab4195
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.012,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_0",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 87.735, "l1_loss": 4957.44, "l0": 1075.277412109375, "frac_variance_explained": 0.90373046875, "cossim": 0.9609765625, "l2_ratio": 0.98017578125, "relative_reconstruction_bias": 1.0157421875, "frac_alive": 0.99969482421875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3354b4d2a4a59614ce4e35a318649c015233093cbf08fe88593e6356a235dc55
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.018,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_1",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_1/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 113.965, "l1_loss": 3329.68, "l0": 588.0986450195312, "frac_variance_explained": 0.83859375, "cossim": 0.93375, "l2_ratio": 0.95302734375, "relative_reconstruction_bias": 1.0163671875, "frac_alive": 0.99969482421875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dedb475894a93b1779529b99fcb6ce5a9b13d6f866ff664f2991724582639d72
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 520,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_10",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_10/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 113.86, "l1_loss": 5125.76, "l0": 520.0, "frac_variance_explained": 0.8334765625, "cossim": 0.93181640625, "l2_ratio": 0.93533203125, "relative_reconstruction_bias": 1.0069140625, "frac_alive": 0.990966796875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5eacd75569a86b967446a313db70c78958ebbf3ed5051a78326969fc03f0bb
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 820,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_11",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_11/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 96.89, "l1_loss": 7614.88, "l0": 819.844775390625, "frac_variance_explained": 0.87978515625, "cossim": 0.9515625, "l2_ratio": 0.9532421875, "relative_reconstruction_bias": 1.00515625, "frac_alive": 0.9375, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c8ffb2ffa77c88ff1d2f0acac889949e3b782230fc336a3166160ac75b61a7f
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.024,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_2",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_2/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 126.7625, "l1_loss": 2603.68, "l0": 380.984443359375, "frac_variance_explained": 0.79826171875, "cossim": 0.917109375, "l2_ratio": 0.93357421875, "relative_reconstruction_bias": 1.0162890625, "frac_alive": 0.99957275390625, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c936ec79b1ed8e8ae835af9599a2d8d9deba32b343539421d162493dd1b491d
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.04,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_3",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_3/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 145.97, "l1_loss": 1698.52, "l0": 177.76378173828124, "frac_variance_explained": 0.73365234375, "cossim": 0.886796875, "l2_ratio": 0.903671875, "relative_reconstruction_bias": 1.0166796875, "frac_alive": 0.999267578125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57d8f5f17428af979b15f5b4584ab2e267d3745176a6d2f8ed50bca817747b7f
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.06,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_4",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_4/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 158.47, "l1_loss": 1224.36, "l0": 95.532060546875, "frac_variance_explained": 0.6854296875, "cossim": 0.864609375, "l2_ratio": 0.8821484375, "relative_reconstruction_bias": 1.0178515625, "frac_alive": 0.98486328125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1e4278959a7dded2f3b07f1b6f0fea7d806f2e266778564a8b25a2839e52c37
+size 302197782

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.08,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "GatedTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_5",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_5/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 167.68, "l1_loss": 965.12, "l0": 60.30049072265625, "frac_variance_explained": 0.65095703125, "cossim": 0.84716796875, "l2_ratio": 0.86693359375, "relative_reconstruction_bias": 1.01984375, "frac_alive": 0.91766357421875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bb68c1f3317df30a7529bec14093f07f8acc862138244f49f0b9138058189f9
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 50,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_6",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_6/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 166.79, "l1_loss": 959.04, "l0": 50.0, "frac_variance_explained": 0.652578125, "cossim": 0.84830078125, "l2_ratio": 0.85529296875, "relative_reconstruction_bias": 1.008046875, "frac_alive": 0.96368408203125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:485f14e5c19e18db5b8567ffc4ed86b1819005dda0767cfaecab12c46a166223
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 80,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_7",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_7/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 158.07, "l1_loss": 1239.16, "l0": 80.0, "frac_variance_explained": 0.6846875, "cossim": 0.86419921875, "l2_ratio": 0.86859375, "relative_reconstruction_bias": 1.0065625, "frac_alive": 0.9910888671875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f85443d41829094a8dde4ffc854290ec213d545a621014c29fedb558f0c67257
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 160,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_8",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_8/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 144.01, "l1_loss": 2041.28, "l0": 160.0, "frac_variance_explained": 0.73591796875, "cossim": 0.88822265625, "l2_ratio": 0.89185546875, "relative_reconstruction_bias": 1.0048046875, "frac_alive": 0.99383544921875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eb50245f8e18fcd3d3c321594811c1302a6ee78dc37201639c1213a9a73e7f9
+size 302066710

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "trainer": {
+        "trainer_class": "TopKTrainer",
+        "dict_class": "AutoEncoderTopK",
+        "lr": 0.0003,
+        "steps": 244140,
+        "auxk_alpha": 0.03125,
+        "warmup_steps": 1000,
+        "decay_start": 195312,
+        "threshold_beta": 0.999,
+        "threshold_start_step": 1000,
+        "seed": 3407,
+        "activation_dim": 2304,
+        "dict_size": 16384,
+        "k": 320,
+        "device": "cuda:0",
+        "layer": 20,
+        "lm_name": "google/gemma-2-2b",
+        "wandb_name": "TopKTrainer-google/gemma-2-2b-resid_post_layer_20_trainer_9",
+        "submodule_name": "resid_post_layer_20"
+    },
+    "buffer": {
+        "d_submodule": 2304,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes___google_gemma-2-2b_gated_top_k/resid_post_layer_20/trainer_9/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 127.5125, "l1_loss": 3438.56, "l0": 320.0, "frac_variance_explained": 0.792578125, "cossim": 0.91349609375, "l2_ratio": 0.916171875, "relative_reconstruction_bias": 1.003515625, "frac_alive": 0.99798583984375, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}