NeelNanda
/

v170_4L512W_solu

Model card Files Files and versions

NeelNanda commited on Oct 18, 2022

Commit

6e03152

·

1 Parent(s): 7d2de7e

Auto Commit

Files changed (2) hide show

config.json +55 -0
model_final.pth +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "n_layers": 4,
+  "d_model": 512,
+  "d_mlp": 2048,
+  "d_head": 64,
+  "n_heads": 8,
+  "lr_hidden": 0.002,
+  "lr_vector": 0.001,
+  "batch_size_per_device": 32,
+  "batches_per_step": 1,
+  "seed": 9153,
+  "save_checkpoints": true,
+  "debug": false,
+  "debug_batch": false,
+  "normalization": "LN",
+  "max_tokens": 22000000000,
+  "version": 170,
+  "use_bfloat16_matmul": true,
+  "n_ctx": 1024,
+  "d_vocab": 48262,
+  "tokenizer_name": "NeelNanda/gpt-neox-tokenizer-digits",
+  "betas": [
+    0.9,
+    0.99
+  ],
+  "weight_decay": 0.05,
+  "dataset_name": "c4+code",
+  "grad_norm_clip": 1.0,
+  "n_devices": 8,
+  "act_fn": "solu_ln",
+  "shortformer_pos": false,
+  "attn_only": false,
+  "ln_eps": 1e-05,
+  "lr_schedule": "cosine_warmup",
+  "warmup_tokens": 300000000,
+  "train_loss_ewma_beta": 0.99,
+  "truncate_tokens": 1000000000000,
+  "log_interval": 50,
+  "initializer_scale_global": 1.0,
+  "initializer_scale_hidden": 0.02,
+  "initializer_scale_embed": 0.1,
+  "initializer_scale_unembed": 0.02,
+  "neuron_scale": 1.0,
+  "neuron_temp": 1.0,
+  "use_acc": false,
+  "weight_init_scheme": "gpt2",
+  "fixed_init": "",
+  "store_init": true,
+  "control": 1.0,
+  "tokens_per_step": 262144,
+  "batch_size": 256,
+  "max_steps": 83923,
+  "warmup_steps": 1144,
+  "n_params": 12582912
+}

model_final.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83f3252f6eb13d5d1c23de3aeaf6ca5dacfaee1839a58e4c2bef02d552ac4dcb
+size 254510118