Upload via push_to_hf.py

Browse files

Files changed (12) hide show

report/latest/chat-evaluation-mid-(r=16).md +25 -0
report/latest/chat-evaluation-mid-(r=2).md +25 -0
report/latest/chat-evaluation-mid-(r=4).md +25 -0
report/latest/chat-evaluation-mid-(r=8).md +25 -0
report/latest/chat-evaluation-sft-(r=16).md +25 -0
report/latest/chat-evaluation-sft-(r=2).md +25 -0
report/latest/chat-evaluation-sft-(r=4).md +25 -0
report/latest/chat-evaluation-sft-(r=8).md +25 -0
report/latest/chat-sft.md +25 -0
report/latest/header.md +8 -8
report/latest/midtraining.md +22 -0
report/latest/report.md +97 -0

report/latest/chat-evaluation-mid-(r=16).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation mid (r=16)
+timestamp: 2025-12-17 12:06:20
+- source: mid
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 16
+- ARC-Easy: 0.4251
+- ARC-Challenge: 0.3012
+- MMLU: 0.3262
+- GSM8K: 0.0387
+- HumanEval: 0.0976
+- SpellingBee: 0.9805
+- ChatCORE metric: 0.2533

report/latest/chat-evaluation-mid-(r=2).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation mid (r=2)
+timestamp: 2025-12-17 11:20:38
+- source: mid
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 2
+- ARC-Easy: 0.3805
+- ARC-Challenge: 0.2799
+- MMLU: 0.3157
+- GSM8K: 0.0273
+- HumanEval: 0.0671
+- SpellingBee: 0.9688
+- ChatCORE metric: 0.2274

report/latest/chat-evaluation-mid-(r=4).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation mid (r=4)
+timestamp: 2025-12-17 11:28:21
+- source: mid
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 4
+- ARC-Easy: 0.4276
+- ARC-Challenge: 0.3038
+- MMLU: 0.3237
+- GSM8K: 0.0447
+- HumanEval: 0.0854
+- SpellingBee: 0.9805
+- ChatCORE metric: 0.2529

report/latest/chat-evaluation-mid-(r=8).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation mid (r=8)
+timestamp: 2025-12-17 11:41:15
+- source: mid
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 8
+- ARC-Easy: 0.4268
+- ARC-Challenge: 0.3106
+- MMLU: 0.3246
+- GSM8K: 0.0417
+- HumanEval: 0.0854
+- SpellingBee: 0.9805
+- ChatCORE metric: 0.2539

report/latest/chat-evaluation-sft-(r=16).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation sft (r=16)
+timestamp: 2025-12-17 12:56:07
+- source: sft
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 16
+- ARC-Easy: 0.4381
+- ARC-Challenge: 0.3123
+- MMLU: 0.3179
+- GSM8K: 0.0644
+- HumanEval: 0.0793
+- SpellingBee: 0.9844
+- ChatCORE metric: 0.2588

report/latest/chat-evaluation-sft-(r=2).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation sft (r=2)
+timestamp: 2025-12-17 12:13:50
+- source: sft
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 2
+- ARC-Easy: 0.4141
+- ARC-Challenge: 0.3063
+- MMLU: 0.3119
+- GSM8K: 0.0356
+- HumanEval: 0.0793
+- SpellingBee: 0.9844
+- ChatCORE metric: 0.2459

report/latest/chat-evaluation-sft-(r=4).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation sft (r=4)
+timestamp: 2025-12-17 12:20:55
+- source: sft
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 4
+- ARC-Easy: 0.4306
+- ARC-Challenge: 0.3114
+- MMLU: 0.3158
+- GSM8K: 0.0614
+- HumanEval: 0.0793
+- SpellingBee: 0.9883
+- ChatCORE metric: 0.2566

report/latest/chat-evaluation-sft-(r=8).md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat evaluation sft (r=8)
+timestamp: 2025-12-17 12:33:26
+- source: sft
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- device_type:
+- num_recur: 2,4,8,16
+- num_recur: 8
+- ARC-Easy: 0.4423
+- ARC-Challenge: 0.3106
+- MMLU: 0.3185
+- GSM8K: 0.0599
+- HumanEval: 0.0915
+- SpellingBee: 0.9883
+- ChatCORE metric: 0.2614

report/latest/chat-sft.md ADDED Viewed

	@@ -0,0 +1,25 @@

+## Chat SFT
+timestamp: 2025-12-17 12:09:10
+- run: recursive-d20
+- source: mid
+- device_type:
+- dtype: bfloat16
+- device_batch_size: 4
+- num_epochs: 1
+- num_iterations: -1
+- target_examples_per_step: 32
+- unembedding_lr: 0.0040
+- embedding_lr: 0.2000
+- matrix_lr: 0.0200
+- weight_decay: 0.0000
+- init_lr_frac: 0.0200
+- eval_every: 100
+- eval_steps: 100
+- eval_metrics_every: 200
+- eval_metrics_max_problems: 1024
+- Training rows: 22,440
+- Number of iterations: 701
+- Training loss: 1.4988
+- Validation loss: 1.0783

report/latest/header.md CHANGED Viewed

@@ -1,13 +1,13 @@
 # nanochat training report
-Generated: 2025-12-17 08:44:33
 ## Environment
 ### Git Information
 - Branch: recursive
-- Commit: f008f9b (dirty)
-- Message: feat: add Poisson sampling to mid/sft training and multi-recur chat eval
 ### Hardware
 - Platform: Linux
@@ -24,13 +24,13 @@ Generated: 2025-12-17 08:44:33
 ### Bloat
-- Characters: 464,005
-- Lines: 11,225
 - Files: 55
-- Tokens (approx): 116,001
-- Dependencies (uv.lock lines): 2,252
-Run started: 2025-12-17 08:44:37
 ---

 # nanochat training report
+Generated: 2025-12-17 09:42:24
 ## Environment
 ### Git Information
 - Branch: recursive
+- Commit: 427e3f4 (dirty)
+- Message: skip identity conv gen if present
 ### Hardware
 - Platform: Linux
 ### Bloat
+- Characters: 464,857
+- Lines: 11,239
 - Files: 55
+- Tokens (approx): 116,214
+- Dependencies (uv.lock lines): 2,254
+Run started: 2025-12-17 09:42:27
 ---

report/latest/midtraining.md ADDED Viewed

	@@ -0,0 +1,22 @@

+## Midtraining
+timestamp: 2025-12-17 11:15:09
+- run: recursive-d20
+- device_type:
+- dtype: bfloat16
+- num_iterations: -1
+- max_seq_len: 2048
+- device_batch_size: 4
+- unembedding_lr: 0.0040
+- embedding_lr: 0.2000
+- matrix_lr: 0.0200
+- init_lr_frac: 1.0000
+- weight_decay: 0.0000
+- eval_every: 150
+- eval_tokens: 10,485,760
+- total_batch_size: 524,288
+- dry_run: 0
+- Number of iterations: 810
+- DDP world size: 8
+- Minimum validation bpb: 0.4178

report/latest/report.md ADDED Viewed

	@@ -0,0 +1,97 @@

+# nanochat training report
+Generated: 2025-12-17 09:42:24
+## Environment
+### Git Information
+- Branch: recursive
+- Commit: 427e3f4 (dirty)
+- Message: skip identity conv gen if present
+### Hardware
+- Platform: Linux
+- CPUs: 128 cores (256 logical)
+- Memory: 1511.5 GB
+- GPUs: 8x NVIDIA H100 80GB HBM3
+- GPU Memory: 632.8 GB total
+- CUDA Version: 12.8
+- Hourly Rate: $24.00/hour
+### Software
+- Python: 3.10.12
+- PyTorch: 2.8.0+cu128
+### Bloat
+- Characters: 464,857
+- Lines: 11,239
+- Files: 55
+- Tokens (approx): 116,214
+- Dependencies (uv.lock lines): 2,254
+Run started: 2025-12-17 09:42:27
+---
+## Midtraining
+timestamp: 2025-12-17 11:15:09
+- run: recursive-d20
+- device_type:
+- dtype: bfloat16
+- num_iterations: -1
+- max_seq_len: 2048
+- device_batch_size: 4
+- unembedding_lr: 0.0040
+- embedding_lr: 0.2000
+- matrix_lr: 0.0200
+- init_lr_frac: 1.0000
+- weight_decay: 0.0000
+- eval_every: 150
+- eval_tokens: 10,485,760
+- total_batch_size: 524,288
+- dry_run: 0
+- Number of iterations: 810
+- DDP world size: 8
+- Minimum validation bpb: 0.4178
+## Chat SFT
+timestamp: 2025-12-17 12:09:10
+- run: recursive-d20
+- source: mid
+- device_type:
+- dtype: bfloat16
+- device_batch_size: 4
+- num_epochs: 1
+- num_iterations: -1
+- target_examples_per_step: 32
+- unembedding_lr: 0.0040
+- embedding_lr: 0.2000
+- matrix_lr: 0.0200
+- weight_decay: 0.0000
+- init_lr_frac: 0.0200
+- eval_every: 100
+- eval_steps: 100
+- eval_metrics_every: 200
+- eval_metrics_max_problems: 1024
+- Training rows: 22,440
+- Number of iterations: 701
+- Training loss: 1.4988
+- Validation loss: 1.0783
+## Summary
+- Characters: 464,857
+- Lines: 11,239
+- Files: 55
+- Tokens (approx): 116,214
+- Dependencies (uv.lock lines): 2,254
+| Metric          | BASE     | MID      | SFT      | RL       |
+|-----------------|----------|----------|----------|----------|
+Total wall clock time: 2h26m