Upload folder using huggingface_hub

Files changed (4) hide show

.gitattributes CHANGED Viewed

@@ -35,3 +35,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 5m-chinchilla/final.jld2 filter=lfs diff=lfs merge=lfs -text
 5m-chinchilla/step_12000.jld2 filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 5m-chinchilla/final.jld2 filter=lfs diff=lfs merge=lfs -text
 5m-chinchilla/step_12000.jld2 filter=lfs diff=lfs merge=lfs -text
+5m-monarch/final.jld2 filter=lfs diff=lfs merge=lfs -text
+5m-monarch/step_12000.jld2 filter=lfs diff=lfs merge=lfs -text

5m-monarch/config.toml ADDED Viewed

+# 5M Monarch Mixer config — same param budget as 5m.toml
+# 8 blocks (vs 6 for transformer) due to cheaper sequence mixing
+# Monarch sequence mixer: 67K params/block vs 262K for attention
+[model]
+arch = "monarch"
+embed_dim = 256
+n_layers = 8
+n_heads = 4           # unused by Monarch, kept for struct compat
+head_dim = 64          # unused by Monarch
+n_monarch_heads = 8
+conv_kernel_size = 4
+ffn_mult = 4
+context_length = 256
+dropout = 0.0
+bias = false
+weight_tying = true
+[training]
+optimizer = "adamw"
+lr = 6e-4
+min_lr = 6e-5
+warmup_steps = 500
+max_steps = 12305
+batch_size = 32
+grad_clip = 1.0
+precision = "f16"
+eval_interval = 500
+eval_steps = 25
+checkpoint_interval = 2000
+seed = 42
+[training.curriculum]
+enabled = false
+[training.coreset]
+enabled = false
+[data]
+train_path = "../text-pipeline/output/train.txt"
+val_path = "../text-pipeline/output/val.txt"
+tokenizer_dir = "../text-pipeline/output"
+[inference]
+precision = "f16"
+compile = false
+temperature = 0.8
+top_k = 40
+max_new_tokens = 500

5m-monarch/final.jld2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5364f0702509441887b48e740aa155436b25ff6967fde9c5825a54c921456ee2
+size 76817788

5m-monarch/step_12000.jld2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9252801d35e3f4ae6134a8535be8dca0b7262351958ac6d5af78bdf2d0b21b1
+size 76817788