AwesomeInterpretability commited on Aug 30, 2025

Commit

ebdaa38

verified ·

1 Parent(s): 0ed8675

Upload folder using huggingface_hub

Browse files

Files changed (36) hide show

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/config.json +28 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/eval_results.json +1 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/ae.pt +3 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/config.json +29 -0
saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/eval_results.json +1 -0

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60a266f9b068fe719d627bb29eaddc2c3853e6879f5554ee39d477e95e509636
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.012,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_0",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 12.2196875, "l1_loss": 1372.04, "l0": 1367.4111694335938, "frac_variance_explained": 0.98203125, "cossim": 0.984375, "l2_ratio": 0.9921875, "relative_reconstruction_bias": 1.0142578125, "frac_alive": 0.70623779296875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d3dde24921304918bd58d1a51e6e302dd0bf9f00e85dd8d76e014d47a324997
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.018,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_1",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_1/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.78125, "l1_loss": 1044.2, "l0": 821.8675390625, "frac_variance_explained": 0.92845703125, "cossim": 0.96484375, "l2_ratio": 0.98046875, "relative_reconstruction_bias": 1.0677734375, "frac_alive": 0.6866455078125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d22747c5455a74980c6155fce0b7941bf2bb1b25d14dc8b53747e897dffbd41e
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_10",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 520
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_10/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.468125, "l1_loss": 1107.92, "l0": 702.7858447265625, "frac_variance_explained": 0.8687109375, "cossim": 0.9716796875, "l2_ratio": 0.97255859375, "relative_reconstruction_bias": 1.1478125, "frac_alive": 0.7852783203125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1025281f62be938a2aa4123d9e3bbb89753474e3c075afa2c70139f74f484c99
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_11",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 820
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_11/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 14.44125, "l1_loss": 1379.92, "l0": 1029.4306958007812, "frac_variance_explained": 0.7501171875, "cossim": 0.9871484375, "l2_ratio": 0.98044921875, "relative_reconstruction_bias": 1.27765625, "frac_alive": 0.7373046875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f29db634e70181d4df02c6e30994f96d43344e842565ed063280d06d1da0c15
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.024,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_2",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_2/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 24.874375, "l1_loss": 776.98, "l0": 538.7327001953125, "frac_variance_explained": 0.8634375, "cossim": 0.943828125, "l2_ratio": 0.97255859375, "relative_reconstruction_bias": 1.1173046875, "frac_alive": 0.85833740234375, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23b0aaed920e9e784de2aa9bb98b7bde5827dacc0b85a355d72ae5a5e6692629
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.04,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_3",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_3/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 33.95875, "l1_loss": 616.2, "l0": 244.115693359375, "frac_variance_explained": 0.18302734375, "cossim": 0.911484375, "l2_ratio": 0.94169921875, "relative_reconstruction_bias": 1.8098828125, "frac_alive": 0.9603271484375, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d41a7bbf4e4982bcdec356ec964d4c776084c69cecd5ecfc0f5da9f07e799bed
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.06,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_4",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_4/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 40.5625, "l1_loss": 533.01, "l0": 127.6876123046875, "frac_variance_explained": -0.9258984375, "cossim": 0.88744140625, "l2_ratio": 0.912578125, "relative_reconstruction_bias": 2.539921875, "frac_alive": 0.98638916015625, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:790dca52197745fc5f423affa4404f4e3d71631a15f3a7c3b0c27236d2f9b0c1
+size 268642326

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "trainer": {
+        "dict_class": "GatedAutoEncoder",
+        "trainer_class": "GatedSAETrainer",
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "lr": 0.0003,
+        "l1_penalty": 0.08,
+        "warmup_steps": 1000,
+        "sparsity_warmup_steps": 5000,
+        "decay_start": 195312,
+        "seed": 3407,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "GatedTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_5",
+        "submodule_name": "resid_post_layer_17"
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_5/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 45.7825, "l1_loss": 521.67, "l0": 83.32489013671875, "frac_variance_explained": -2.35384765625, "cossim": 0.86951171875, "l2_ratio": 0.8946484375, "relative_reconstruction_bias": 3.444765625, "frac_alive": 0.9918212890625, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f754711c5eb9fb3efa66e7f48bde3c4a13adba9f02bd2fccda8e63eb6df0fd4a
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_6",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 50
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_6/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 46.2725, "l1_loss": 535.03, "l0": 91.0372119140625, "frac_variance_explained": -2.8964453125, "cossim": 0.8753515625, "l2_ratio": 0.89658203125, "relative_reconstruction_bias": 3.8642578125, "frac_alive": 0.90679931640625, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c8126809fe46e690d7654829e41ebd53b224173a39c17fea4871d06d65450ea
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_7",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 80
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_7/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 40.113125, "l1_loss": 596.38, "l0": 144.140771484375, "frac_variance_explained": -1.090703125, "cossim": 0.89466796875, "l2_ratio": 0.91369140625, "relative_reconstruction_bias": 2.720859375, "frac_alive": 0.93548583984375, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19698ed0e41ed5ed2742a24eabaa79659d655126b0754171c308b1c08669f02f
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_8",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 160
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_8/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 33.8125, "l1_loss": 729.92, "l0": 268.7391748046875, "frac_variance_explained": -0.30419921875, "cossim": 0.92208984375, "l2_ratio": 0.93826171875, "relative_reconstruction_bias": 2.160234375, "frac_alive": 0.9718017578125, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90688675e31224222dd5c121063a9f3118eb290b9b74fadc80db98b21f3598a1
+size 268576543

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "trainer": {
+        "trainer_class": "JumpReluTrainer",
+        "dict_class": "JumpReluAutoEncoder",
+        "lr": 0.0003,
+        "steps": 244140,
+        "seed": 3407,
+        "activation_dim": 2048,
+        "dict_size": 16384,
+        "device": "cuda:0",
+        "layer": 17,
+        "lm_name": "Qwen/Qwen2.5-3B",
+        "wandb_name": "JumpReluTrainer-Qwen/Qwen2.5-3B-resid_post_layer_17_trainer_9",
+        "submodule_name": "resid_post_layer_17",
+        "bandwidth": 0.001,
+        "sparsity_penalty": 1.0,
+        "sparsity_warmup_steps": 5000,
+        "target_l0": 320
+    },
+    "buffer": {
+        "d_submodule": 2048,
+        "io": "out",
+        "n_ctxs": 122,
+        "ctx_len": 2048,
+        "refresh_batch_size": 4,
+        "out_batch_size": 2048,
+        "device": "cuda:0"
+    }
+}

saes_Qwen_Qwen2.5-3B_gated_jump_relu/resid_post_layer_17/trainer_9/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 26.50875, "l1_loss": 944.58, "l0": 479.80275634765627, "frac_variance_explained": 0.22033203125, "cossim": 0.953125, "l2_ratio": 0.96046875, "relative_reconstruction_bias": 1.7778515625, "frac_alive": 0.89794921875, "hyperparameters": {"n_inputs": 200, "context_length": 2048}}