eoinf commited on Aug 22, 2025

Commit

fee88ac

verified ·

1 Parent(s): 0235c7a

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
.ipynb_checkpoints/config-checkpoint.toml +32 -0
checkpoints/metadata_000000032768.json +1 -0
checkpoints/metadata_000000327680.json +1 -0
checkpoints/metadata_000000360448.json +1 -0
checkpoints/metadata_000000393216.json +1 -0
checkpoints/metadata_000000425984.json +1 -0
checkpoints/metadata_000000458752.json +1 -0
checkpoints/metadata_000000491520.json +1 -0
checkpoints/metadata_000000524288.json +1 -0
checkpoints/metadata_000000557056.json +1 -0
checkpoints/metadata_000000589824.json +1 -0
checkpoints/metadata_000000622592.json +1 -0
checkpoints/metadata_000000655360.json +1 -0
checkpoints/metadata_000000688128.json +1 -0
checkpoints/metadata_000000753664.json +1 -0
checkpoints/metadata_000000786432.json +1 -0
checkpoints/metadata_000000851968.json +1 -0
checkpoints/metadata_000000884736.json +1 -0
checkpoints/metadata_000000950272.json +1 -0
checkpoints/metadata_000001015808.json +1 -0
checkpoints/metadata_000001048576.json +1 -0
checkpoints/metadata_000001114112.json +1 -0
checkpoints/metadata_000001212416.json +1 -0
checkpoints/metadata_000001277952.json +1 -0
checkpoints/metadata_000001343488.json +1 -0
checkpoints/metadata_000001441792.json +1 -0
checkpoints/metadata_000001507328.json +1 -0
checkpoints/metadata_000001605632.json +1 -0
checkpoints/metadata_000001703936.json +1 -0
checkpoints/metadata_000001802240.json +1 -0
checkpoints/metadata_000001933312.json +1 -0
checkpoints/metadata_000002031616.json +1 -0
checkpoints/metadata_000002162688.json +1 -0
checkpoints/metadata_000002293760.json +1 -0
checkpoints/metadata_000002424832.json +1 -0
checkpoints/metadata_000002588672.json +1 -0
checkpoints/metadata_000002719744.json +1 -0
checkpoints/metadata_000002883584.json +1 -0
checkpoints/metadata_000003080192.json +1 -0
checkpoints/metadata_000003244032.json +1 -0
checkpoints/metadata_000003440640.json +1 -0
checkpoints/metadata_000003670016.json +1 -0
checkpoints/metadata_000003866624.json +1 -0
checkpoints/metadata_000004128768.json +1 -0
checkpoints/metadata_000004358144.json +1 -0
checkpoints/metadata_000004620288.json +1 -0
checkpoints/metadata_000004915200.json +1 -0
checkpoints/metadata_000005210112.json +1 -0
checkpoints/metadata_000005505024.json +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250817_231334-ztcapltu/run-ztcapltu.wandb filter=lfs diff=lfs merge=lfs -text

.ipynb_checkpoints/config-checkpoint.toml ADDED Viewed

	@@ -0,0 +1,32 @@

+model_name = "gelu_2l_v4"
+n_layers = 2
+d_model = 512
+d_mlp = 2048
+d_head = 64
+n_heads = 8
+attn_only = false
+layer_norm_eps = 1e-05
+init_range = 0.02
+n_ctx = 1024
+d_vocab = 48262
+dataset_name = "NeelNanda/c4-code-tokenized-2b"
+tokenizer_name = "NeelNanda/gpt-neox-tokenizer-digits"
+seed = 10
+device = "cuda"
+use_bfloat16_matmul = false
+batch_size_per_device = 32
+n_devices = 1
+batches_per_step = 1
+max_tokens = 22000000000
+lr_hidden = 0.002
+lr_vector = 0.001
+lr_schedule = "cosine_warmup"
+warmup_tokens = 30000000
+weight_decay = 0.05
+grad_norm_clip = 1.0
+train_loss_moving_average_beta = 0.99
+log_interval = 25
+save_checkpoints = true
+checkpoint_interval = 500
+checkpoint_interval_ratio = 1.06
+save_log_checkpoints = true

checkpoints/metadata_000000032768.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 1, "tokens_seen": 32768, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.872627258300781}

checkpoints/metadata_000000327680.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 10, "tokens_seen": 327680, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.866761351790585}

checkpoints/metadata_000000360448.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 11, "tokens_seen": 360448, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.864644593909276}

checkpoints/metadata_000000393216.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 12, "tokens_seen": 393216, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.862174114233001}

checkpoints/metadata_000000425984.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 13, "tokens_seen": 425984, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.859094050565647}

checkpoints/metadata_000000458752.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 14, "tokens_seen": 458752, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.855491923460258}

checkpoints/metadata_000000491520.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 15, "tokens_seen": 491520, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.851487270491525}

checkpoints/metadata_000000524288.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 16, "tokens_seen": 524288, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.84698640344762}

checkpoints/metadata_000000557056.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 17, "tokens_seen": 557056, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.84191619761627}

checkpoints/metadata_000000589824.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 18, "tokens_seen": 589824, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.836490857737884}

checkpoints/metadata_000000622592.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 19, "tokens_seen": 622592, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.831044011370588}

checkpoints/metadata_000000655360.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 20, "tokens_seen": 655360, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.825376021589523}

checkpoints/metadata_000000688128.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 21, "tokens_seen": 688128, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.818837015478243}

checkpoints/metadata_000000753664.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 23, "tokens_seen": 753664, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.805813345984943}

checkpoints/metadata_000000786432.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 24, "tokens_seen": 786432, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.798696908692087}

checkpoints/metadata_000000851968.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 26, "tokens_seen": 851968, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.7840466634513}

checkpoints/metadata_000000884736.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 27, "tokens_seen": 884736, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.776380309136732}

checkpoints/metadata_000000950272.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 29, "tokens_seen": 950272, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.760829628399462}

checkpoints/metadata_000001015808.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 31, "tokens_seen": 1015808, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.744669876221526}

checkpoints/metadata_000001048576.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 32, "tokens_seen": 1048576, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.73648620655782}

checkpoints/metadata_000001114112.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 34, "tokens_seen": 1114112, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.719629249470781}

checkpoints/metadata_000001212416.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 37, "tokens_seen": 1212416, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.692299968132296}

checkpoints/metadata_000001277952.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 39, "tokens_seen": 1277952, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.673439214296094}

checkpoints/metadata_000001343488.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 41, "tokens_seen": 1343488, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.653080189741232}

checkpoints/metadata_000001441792.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 44, "tokens_seen": 1441792, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.62168992813459}

checkpoints/metadata_000001507328.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 46, "tokens_seen": 1507328, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.599969859538833}

checkpoints/metadata_000001605632.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 49, "tokens_seen": 1605632, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.565739813182214}

checkpoints/metadata_000001703936.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 52, "tokens_seen": 1703936, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.530182852771613}

checkpoints/metadata_000001802240.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 55, "tokens_seen": 1802240, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.492692989176277}

checkpoints/metadata_000001933312.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 59, "tokens_seen": 1933312, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.438970700236368}

checkpoints/metadata_000002031616.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 62, "tokens_seen": 2031616, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.396784224738186}

checkpoints/metadata_000002162688.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 66, "tokens_seen": 2162688, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.336795163256}

checkpoints/metadata_000002293760.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 70, "tokens_seen": 2293760, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.274848059392296}

checkpoints/metadata_000002424832.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 74, "tokens_seen": 2424832, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.2076555970393}

checkpoints/metadata_000002588672.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 79, "tokens_seen": 2588672, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.11923377988726}

checkpoints/metadata_000002719744.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 83, "tokens_seen": 2719744, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 10.045257050081743}

checkpoints/metadata_000002883584.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 88, "tokens_seen": 2883584, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.949561085556693}

checkpoints/metadata_000003080192.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 94, "tokens_seen": 3080192, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.829012673974832}

checkpoints/metadata_000003244032.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 99, "tokens_seen": 3244032, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.727049145615627}

checkpoints/metadata_000003440640.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 105, "tokens_seen": 3440640, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.603069449854939}

checkpoints/metadata_000003670016.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 112, "tokens_seen": 3670016, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.458391938448699}

checkpoints/metadata_000003866624.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 118, "tokens_seen": 3866624, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.336868231558974}

checkpoints/metadata_000004128768.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 126, "tokens_seen": 4128768, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.178058547104627}

checkpoints/metadata_000004358144.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 133, "tokens_seen": 4358144, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 9.040881959507956}

checkpoints/metadata_000004620288.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 141, "tokens_seen": 4620288, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 8.890883279587326}

checkpoints/metadata_000004915200.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 150, "tokens_seen": 4915200, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 8.731224113445938}

checkpoints/metadata_000005210112.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 159, "tokens_seen": 5210112, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 8.573775043540326}

checkpoints/metadata_000005505024.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"step": 168, "tokens_seen": 5505024, "config": {"model_name": "gelu_2l_v4", "n_layers": 2, "d_model": 512, "d_mlp": 2048, "d_head": 64, "n_heads": 8, "attn_only": false, "layer_norm_eps": 1e-05, "init_range": 0.02, "n_ctx": 1024, "d_vocab": 48262, "dataset_name": "NeelNanda/c4-code-tokenized-2b", "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits", "seed": 10, "device": "cuda", "use_bfloat16_matmul": false, "batch_size_per_device": 32, "n_devices": 1, "batches_per_step": 1, "max_tokens": 22000000000, "lr_hidden": 0.002, "lr_vector": 0.001, "lr_schedule": "cosine_warmup", "warmup_tokens": 30000000, "weight_decay": 0.05, "grad_norm_clip": 1.0, "train_loss_moving_average_beta": 0.99, "log_interval": 25, "save_checkpoints": true, "checkpoint_interval": 500, "checkpoint_interval_ratio": 1.06, "save_log_checkpoints": true, "use_wandb": true, "batch_size": 32, "tokens_per_step": 32768, "warmup_steps": 915, "max_steps": 671386}, "train_loss_ewma": 8.426512230695142}