edeneldith
/

COLM

+{
+  "architecture": {
+    "n_embd": 512,
+    "n_layer": 12,
+    "embed_dim": 512,
+    "block_size": 256,
+    "vocab_size": 499
+  },
+  "training": {
+    "batch_size": 2,
+    "max_iters": 1000000,
+    "learning_rate": 6e-4,
+    "min_lr": 6e-5,
+    "warmup_iters": 20000,
+    "weight_decay": 0.1,
+    "grad_clip": 1
+  },
+  "evaluation": {
+    "eval_interval": 25000,
+    "eval_iters": 100,
+    "save_interval": 25000,
+    "patience": 15
+  },
+  "lr_schedule": {
+    "lr_cycle_length": 25000,
+    "lr_cycle_warmup": 10000,
+    "lr_decay_rate": 0.95
+  },
+  "scanner": {
+    "scanner_clamp": 70.0
+  },
+  "paths": {
+    "checkpoint_path": "checkpoints/colm_checkpoint_big.pt",
+    "best_checkpoint_path": "checkpoints/colm_best_big.pt",
+    "tokenizer_path": "colm_tokenizer.json",
+    "dataset_path": "datasets/DCDM_big_dataset.txt"
+  }
+}