Upload folder using huggingface_hub

Files changed (7) hide show

README.md CHANGED Viewed

@@ -1,3 +1,22 @@
----
-license: mit
----

+# Dingo d20 (All Intermediate Checkpoints)
+Repo: jayasuryajsk/Dingo
+Architecture: 20 layers, 10 heads, 10 KV heads, d_model=1280, seq_len=2048, vocab=65536
+Each checkpoint is stored in:
+    checkpoints/<step>/{model_<step>.pt, meta_<step>.json}
+Example eval (step 000650):
+- MMLU: 32.62 %
+- ARC-Easy: 44.82 %
+- ARC-Challenge: 31.14 %
+- GSM8K: 5.08 %
+- HumanEval: 6.71 %
+Load example (custom Dingo):
+    import torch, json
+    step="000650"
+    base="checkpoints"
+    ckpt = torch.load(f"{base}/{step}/model_{step}.pt", map_location="cpu")
+    with open(f"{base}/{step}/meta_{step}.json") as f:
+        meta = json.load(f)

checkpoints/000650/meta_000650.json ADDED Viewed

+{
+  "step": 650,
+  "val_loss": 1.067014455795288,
+  "mmlu_acc": 0.3359375,
+  "arc_easy_acc": 0.4365234375,
+  "gsm8k_acc": 0.046875,
+  "humaneval_acc": 0.046875,
+  "model_config": {
+    "sequence_len": 2048,
+    "vocab_size": 65536,
+    "n_layer": 20,
+    "n_head": 10,
+    "n_kv_head": 10,
+    "n_embd": 1280
+  }
+}

checkpoints/000650/model_000650.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:74e0093dc972469615c2bca3aed909d37783a3829ef21ce85e78de0ad9c14e38
+size 2076230219

report/chat-evaluation-sft.md ADDED Viewed

+## Chat evaluation sft
+timestamp: 2025-10-15 14:45:38
+- source: sft
+- task_name: None
+- dtype: bfloat16
+- temperature: 0.0000
+- max_new_tokens: 512
+- num_samples: 1
+- top_k: 50
+- batch_size: 8
+- model_tag: None
+- step: None
+- max_problems: None
+- ARC-Easy: 0.4482
+- ARC-Challenge: 0.3114
+- MMLU: 0.3262
+- GSM8K: 0.0508
+- HumanEval: 0.0671
+- ChatCORE metric: 0.1131

report/chat-sft.md ADDED Viewed

+## Chat SFT
+timestamp: 2025-10-15 14:39:09
+- run: dummy
+- source: mid
+- dtype: bfloat16
+- device_batch_size: 4
+- num_epochs: 1
+- max_iterations: -1
+- target_examples_per_step: 32
+- unembedding_lr: 0.0040
+- embedding_lr: 0.2000
+- matrix_lr: 0.0200
+- weight_decay: 0.0000
+- init_lr_frac: 0.0200
+- eval_every: 100
+- eval_steps: 100
+- eval_metrics_every: 200
+- Training rows: 20,843
+- Number of iterations: 651
+- Training loss: 1.2182
+- Validation loss: 1.0670

token_bytes.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae39c27aae519d14071efc95f9a558ba0b7ede47e7d83ad4f198422b44c5f70e
+size 263721

tokenizer.pkl ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c060565a46fe83b49d99005acba796f2a630daa7970eb49f7513b89f9fb40e0
+size 846208