michaelbzhu
/

test-3.2B-base

custom-mbz-test

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions

michaelbzhu commited on Aug 29, 2025

Commit

c5c82ce

·

verified ·

1 Parent(s): dae91fa

Update README.md

Files changed (1) hide show

README.md +16 -1

README.md CHANGED Viewed

@@ -9,4 +9,19 @@ language:
 - en
 ---
-3.2B parameter base model trained for ~64B tokens from the FineWeb dataset

 - en
 ---
+3.2B parameter base model trained for ~64B tokens from the FineWeb dataset
+uses gpt2 tokenizer from tiktoken
+[wandb training metrics](https://api.wandb.ai/links/teammapo-mapo-labs/zooq3iig)
+- note: increased batch size from 8 to 512 at step 2,160,000
+- Final checkpoint: step 2,187,000, val_loss: 2.7489
+- Trained on a 8xH100 80GB node using data parallel
+```
+"d_head": 128,
+"d_model": 8192,
+"n_heads": 64,
+"n_layers": 3,
+"n_vocab": 50257
+```