Add files using upload-large-folder tool

Browse files

Files changed (7) hide show

bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/meta_008960.json +64 -0
bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/model_008960.pt +3 -0
bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/optim_008960_rank0.pt +3 -0
bd3lm_d8_b4_ts2_r40/report/base-model-training.md +51 -0
bd3lm_d8_b4_ts2_r40/report/header.md +36 -0
bd3lm_d8_b4_ts2_r40/tokenizer/token_bytes.pt +3 -0
bd3lm_d8_b4_ts2_r40/tokenizer/tokenizer.pkl +3 -0

bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/meta_008960.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "step": 8960,
+  "model_config": {
+    "sequence_len": 512,
+    "pure_vocab_size": 4096,
+    "all_vocab_size": 4097,
+    "n_layer": 8,
+    "n_head": 4,
+    "n_kv_head": 4,
+    "n_embd": 512,
+    "prefix_pure_tokens": 1,
+    "mask_token_id": 4096,
+    "is_causal": false,
+    "bucket_size": 4,
+    "model_name": "bd3lm_d8_b4_ts2_r40",
+    "target_shift": 2
+  },
+  "user_config": {
+    "run": "bd3lm_d8_b4_ts2_r40",
+    "device_type": "",
+    "model_architecture": "Karpathy_gpt2",
+    "model_type": "bd3lm",
+    "target_shift": 2,
+    "depth": 8,
+    "max_seq_len": 512,
+    "block_size": 4,
+    "prefix_pure_tokens": 1,
+    "is_causal": false,
+    "noise_total_steps": 16,
+    "bd3lm_compute_matched": true,
+    "debug": false,
+    "num_iterations": -1,
+    "target_flops": -1.0,
+    "target_param_data_ratio": 40,
+    "device_batch_size": 128,
+    "total_batch_size": 131072,
+    "embedding_lr": 0.2,
+    "unembedding_lr": 0.004,
+    "weight_decay": 0.0,
+    "matrix_lr": 0.02,
+    "grad_clip": 1.0,
+    "warmup_ratio": 0.0,
+    "warmdown_ratio": 0.2,
+    "final_lr_frac": 0.0,
+    "resume_from_step": -1,
+    "eval_every": 2500,
+    "eval_num_batches": 20,
+    "eval_num_batches_final": 100,
+    "save_every": -1,
+    "model_tag": ""
+  },
+  "device_batch_size": 128,
+  "max_seq_len": 512,
+  "dataloader_state_dict": {
+    "pq_idx": 9,
+    "rg_idx": 183,
+    "epoch": 1
+  },
+  "loop_state": {
+    "smooth_train_loss": 2.180243093118573,
+    "total_training_time": 5075.819852352142,
+    "total_effective_tokens": 292458624
+  }
+}

bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/model_008960.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:468ad76ba1ecf696b2c7f915d2d72e1b0265d3d034c2ad31bbabb1004ae25ca2
+size 113267941

bd3lm_d8_b4_ts2_r40/base_checkpoints/d8/optim_008960_rank0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f69213febca1125560ad292c3babe2a5dcd04b7feebcd96e109ebf0d2957311
+size 125849109

bd3lm_d8_b4_ts2_r40/report/base-model-training.md ADDED Viewed

	@@ -0,0 +1,51 @@

+## Base model training
+timestamp: 2026-01-21 07:00:20
+- run: bd3lm_d8_b4_ts2_r40
+- device_type:
+- model_architecture: Karpathy_gpt2
+- model_type: bd3lm
+- target_shift: 2
+- depth: 8
+- max_seq_len: 512
+- block_size: 4
+- prefix_pure_tokens: 1
+- is_causal: False
+- noise_total_steps: 16
+- bd3lm_compute_matched: True
+- debug: False
+- num_iterations: -1
+- target_flops: -1.0000
+- target_param_data_ratio: 40
+- device_batch_size: 128
+- total_batch_size: 131,072
+- embedding_lr: 0.2000
+- unembedding_lr: 0.0040
+- weight_decay: 0.0000
+- matrix_lr: 0.0200
+- grad_clip: 1.0000
+- warmup_ratio: 0.0000
+- warmdown_ratio: 0.2000
+- final_lr_frac: 0.0000
+- resume_from_step: -1
+- eval_every: 2500
+- eval_num_batches: 20
+- eval_num_batches_final: 100
+- save_every: -1
+- model_tag:
+- Number of parameters: 29,360,640
+- Number of FLOPs per token: 1.887437e+08
+- Calculated number of iterations: 8960
+- Number of training tokens: 1,174,405,120
+- Tokens : Params ratio: 39.9993
+- DDP world size: 1
+- warmup_ratio: 0.0000
+- warmdown_ratio: 0.2000
+- final_lr_frac: 0.0000
+- MFU %: 4.41%
+- Total training flops: 2.216615e+17
+- Total training time: 84.60m
+- Peak memory usage: 21211.15MiB
+- Total effective tokens: 292,458,624
+- Actual effective ratio: 0.2490

bd3lm_d8_b4_ts2_r40/report/header.md ADDED Viewed

	@@ -0,0 +1,36 @@

+# nanochat training report
+Generated: 2026-01-21 05:33:05
+## Environment
+### Git Information
+- Branch: bd3lm
+- Commit: 2b786fb (clean)
+- Message: update train bd3lm
+### Hardware
+- Platform: Linux
+- CPUs: 6 cores (12 logical)
+- Memory: 167.1 GB
+- GPUs: 1x NVIDIA A100-SXM4-80GB
+- GPU Memory: 79.3 GB total
+- CUDA Version: 12.6
+- Hourly Rate: $1.79/hour
+### Software
+- Python: 3.12.12
+- PyTorch: 2.9.0+cu126
+### Bloat
+- Characters: 0
+- Lines: 1
+- Files: 0
+- Tokens (approx): 0
+- Dependencies (uv.lock lines): 2,749
+Run started: 2026-01-21 05:33:05
+---

bd3lm_d8_b4_ts2_r40/tokenizer/token_bytes.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c9fc16eea9e2ae748a805af58bc1421b6f3bf428bb13182d855422ac9861ac1
+size 17961

bd3lm_d8_b4_ts2_r40/tokenizer/tokenizer.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28812600bbe6a7417775a1b7f79577659b515e3a86380b72ebe7c481b58bbd5e
+size 45939