trixyL commited on Feb 5

Commit

a81731e

1 Parent(s): bbd1c10

dump: train artifacts

Files changed (30) hide show

README.md +41 -42
aliases/best.json +12 -0
aliases/latest.json +9 -0
config/config.json +115 -0
config/train.toml +88 -0
manifest.json +84 -0
versions/v001000/manifest.json +50 -0
versions/v001000/model.safetensors +3 -0
versions/v001000/opt_shard_rank0000.bin +3 -0
versions/v001000/rng_rank0000.json +0 -0
versions/v002000/manifest.json +50 -0
versions/v002000/model.safetensors +3 -0
versions/v002000/opt_shard_rank0000.bin +3 -0
versions/v002000/rng_rank0000.json +0 -0
versions/v003000/manifest.json +50 -0
versions/v003000/model.safetensors +3 -0
versions/v003000/opt_shard_rank0000.bin +3 -0
versions/v003000/rng_rank0000.json +0 -0
versions/v004000/manifest.json +50 -0
versions/v004000/model.safetensors +3 -0
versions/v004000/opt_shard_rank0000.bin +3 -0
versions/v004000/rng_rank0000.json +0 -0
versions/v005000/manifest.json +50 -0
versions/v005000/model.safetensors +3 -0
versions/v005000/opt_shard_rank0000.bin +3 -0
versions/v005000/rng_rank0000.json +0 -0
versions/v006000/manifest.json +50 -0
versions/v006000/model.safetensors +3 -0
versions/v006000/opt_shard_rank0000.bin +3 -0
versions/v006000/rng_rank0000.json +0 -0

README.md CHANGED Viewed

@@ -1,42 +1,41 @@
----
-license: apache-2.0
-datasets:
-- ylecun/mnist
-language:
-- en
-tags:
-- mnist
-- '784'
-- '32'
-- transformerlm
-- diffusion
----
-# 🧠✨ TransformerLM (Diffusion 512, 32) — MNIST
-This is the result of the code from https://github.com/triloy8/transformerlm, a minimal diffusion Transformer trained on **MNIST** with a **784 fixed token context** =. ✨
-## ✅ Key Facts
-- **Model type:** Diffusion Transformer w/ LLaDA like objective
-- **Dataset:** SimpleStories
-- **Context length:** 784 	tokens -> 28 * 28 image
-- **Layers:** 12
-- **Heads:** 8
-- **d_model:** 256
-- **d_ff:** 1024
-- **Training setup:** Single **NVIDIA A40 48GB**
-- **Runtime:** ~2 hours ⏱️
-## 📦 What’s Inside
-- 6k steps from a 6k run, including:
-  - Optimizer state
-  - RNG state
-  - Safetensors weights
-- Run config
-## 🚀 Reproducibility
-To reproduce the run:
-Exact commit that launched the train: https://github.com/triloy8/transformerlm/commit/84a190a106ecefb7cad49f47eac24963d97fe000

+---
+license: apache-2.0
+datasets:
+- ylecun/mnist
+language:
+- en
+tags:
+- mnist
+- '784'
+- '32'
+- transformerlm
+- diffusion
+---
+# 🧠✨ TransformerLM (Diffusion 784, 32) — MNIST
+Training run artifacts from https://github.com/triloy8/transformerlm: a minimal masked discrete diffusion Transformer trained on **MNIST** with a **fixed 784‑token context** (28×28 image tokens).
+## ✅ Key Facts
+- **Model type:** Diffusion Transformer with LLaDA‑style objective
+- **Dataset:** MNIST
+- **Context length:** 784 tokens (28×28 image)
+- **Layers:** 12
+- **Heads:** 8
+- **d_model:** 256
+- **d_ff:** 1024
+- **Training setup:** Single NVIDIA A40 (48GB)
+- **Runtime:** ~2 hours ⏱️
+## 📦 What’s Inside
+- 6k steps (full run), including:
+  - Optimizer state
+  - RNG state
+  - Safetensors weights
+- Run config
+## 🚀 Reproducibility
+Exact commit that launched the run:
+https://github.com/triloy8/transformerlm/commit/84a190a106ecefb7cad49f47eac24963d97fe000

aliases/best.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "alias": "best",
+  "manifest_key": "runs/2026-02-04_21-50-53/versions/v005000/manifest.json",
+  "metric_name": "val_loss",
+  "mode": "min",
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "status": "active",
+  "step": 5000,
+  "value": 0.35444357991218567,
+  "version_id": "v005000"
+}

aliases/latest.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "alias": "latest",
+  "manifest_key": "runs/2026-02-04_21-50-53/versions/v006000/manifest.json",
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "status": "active",
+  "step": 6000,
+  "version_id": "v006000"
+}

config/config.json ADDED Viewed

	@@ -0,0 +1,115 @@

+{
+  "checkpointing": {
+    "best_metric_name": "val_loss",
+    "best_mode": "min",
+    "ckpting_save_iter": 1000,
+    "enabled": true,
+    "resume_from": null,
+    "resume_optimizer": true,
+    "run_id": null
+  },
+  "compile": null,
+  "data": {
+    "cache_all": true,
+    "dataset_config": null,
+    "dataset_name": "ylecun/mnist",
+    "megatron_train_prefix": null,
+    "megatron_val_prefix": null,
+    "pad_random_shift": false,
+    "pad_token_id": null,
+    "pipeline_mode": "mnist",
+    "runs_path": "runs",
+    "shuffle_buffer_size": 0,
+    "shuffle_seed": 3407,
+    "text_field": "image",
+    "tokenizer": null,
+    "train_split": "train",
+    "val_split": "test"
+  },
+  "ddp": {
+    "backend": "nccl",
+    "bucket_size_mb": 200,
+    "master_addr": "127.0.0.1",
+    "master_port": "29500",
+    "nccl_p2p_disable": true,
+    "node_rank": 0,
+    "num_gpus_per_node": 1,
+    "num_nodes": 1
+  },
+  "logging": {
+    "architecture": "TransformerImage",
+    "backend": "wandb",
+    "dataset": "MNIST",
+    "log_activation_norms": false,
+    "log_grad_norms": true,
+    "log_p_mask_bucket_loss": false,
+    "log_weight_norms": true,
+    "p_mask_bucket_edges": null,
+    "run_name": null,
+    "val_log_every": 8,
+    "val_log_samples": 1
+  },
+  "model": {
+    "attention_backend": "torch_sdpa",
+    "attention_sdp_backend": "auto",
+    "context_length": 784,
+    "d_ff": 1024,
+    "d_model": 256,
+    "device": "cuda",
+    "dtype": "float32",
+    "eot_token_id": null,
+    "label_vocab_size": 11,
+    "mask_token_id": 32,
+    "model_type": "image",
+    "noise_epsilon": 0.001,
+    "null_label_id": 10,
+    "num_heads": 16,
+    "num_layers": 8,
+    "pixel_bins": 32,
+    "random_trunc_prob": 0.0,
+    "rope_theta": 10000.0,
+    "vocab_size": 33
+  },
+  "optimizer": {
+    "betas": [
+      0.9,
+      0.95
+    ],
+    "cosine_cycle_iters": 60000,
+    "eps": 1e-08,
+    "grad_clip_max_l2_norm": 3.0,
+    "initial_learning_rate": 0.0001,
+    "lr_schedule": "constant_with_warmup",
+    "max_learning_rate": 0.003,
+    "min_learning_rate": 0.0003,
+    "muon": null,
+    "optimizer_name": "adamw",
+    "warmup_iters": 200,
+    "weight_decay": 0.1
+  },
+  "train_infer": null,
+  "training": {
+    "amp_dtype": "bfloat16",
+    "amp_enabled": true,
+    "batch_size": 256,
+    "deterministic_mask": false,
+    "eot_mask_loss": false,
+    "grad_accum_steps": 1,
+    "max_train_iteration": 120000,
+    "max_val_iteration": 10,
+    "objective": "diffusion",
+    "p_mask_override": null,
+    "repeat_masking_seed": null,
+    "seed": 3407,
+    "skip_validation": false,
+    "train_loss_ema_decay": 0.99,
+    "uncond_label_dropout_prob": 0.1,
+    "val_freq_iteration": 250
+  },
+  "wandb": {
+    "architecture": null,
+    "dataset": null,
+    "entity": "yiltro8-org",
+    "project": "mnist_diffusion"
+  }
+}

config/train.toml ADDED Viewed

	@@ -0,0 +1,88 @@

+[model]
+model_type = "image"
+label_vocab_size = 11
+vocab_size = 33
+pixel_bins = 32
+context_length = 784
+d_model = 256
+num_layers = 8
+num_heads = 16
+d_ff = 1024
+rope_theta = 10000.0
+attention_backend = "torch_sdpa"
+attention_sdp_backend = "auto"
+device = "cuda"
+dtype = "float32"
+mask_token_id = 32
+null_label_id = 10
+random_trunc_prob = 0.0
+[optimizer]
+optimizer_name = "adamw"
+betas = [0.9, 0.95]
+eps = 1e-8
+weight_decay = 0.1
+initial_learning_rate = 0.0001
+max_learning_rate = 0.003
+min_learning_rate = 0.0003
+warmup_iters = 200
+cosine_cycle_iters = 60000
+grad_clip_max_l2_norm = 3.0
+lr_schedule = "constant_with_warmup"
+[training]
+batch_size = 256
+max_train_iteration = 120000
+max_val_iteration = 10
+val_freq_iteration = 250
+seed = 3407
+skip_validation = false
+grad_accum_steps = 1
+train_loss_ema_decay = 0.99
+amp_enabled = true
+amp_dtype = "bfloat16"
+objective = "diffusion"
+uncond_label_dropout_prob = 0.1
+[data]
+runs_path = "./runs"
+dataset_name = "ylecun/mnist"
+train_split = "train"
+val_split = "test"
+text_field = "image"
+pipeline_mode = "mnist"
+shuffle_buffer_size = 0
+cache_all = true
+shuffle_seed = 3407
+[logging]
+backend = "wandb"
+architecture = "TransformerImage"
+dataset = "MNIST"
+log_activation_norms = false
+log_weight_norms = true
+log_grad_norms = true
+log_p_mask_bucket_loss = false
+val_log_every = 8
+val_log_samples = 1
+[wandb]
+entity = "yiltro8-org"
+project = "mnist_diffusion"
+[ddp]
+backend = "nccl"
+num_nodes = 1
+num_gpus_per_node = 1
+node_rank = 0
+master_addr = "127.0.0.1"
+master_port = "29500"
+bucket_size_mb = 200
+nccl_p2p_disable = true
+[checkpointing]
+enabled = true
+ckpting_save_iter = 1000
+resume_optimizer = true
+best_metric_name = "val_loss"
+best_mode = "min"

manifest.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "aliases": {
+    "best": {
+      "metric_name": "val_loss",
+      "mode": "min",
+      "status": "active",
+      "step": 5000,
+      "value": 0.35444357991218567,
+      "version_id": "v005000"
+    },
+    "latest": {
+      "step": 6000,
+      "version_id": "v006000"
+    }
+  },
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T21:50:55.488444Z",
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "versions": [
+    {
+      "created_at": "2026-02-04T22:13:06.568747Z",
+      "metrics": {
+        "val_loss": 0.39340153336524963
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v001000/model.safetensors",
+      "step": 1000,
+      "version_id": "v001000"
+    },
+    {
+      "created_at": "2026-02-04T22:35:00.278291Z",
+      "metrics": {
+        "val_loss": 0.3754102289676666
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v002000/model.safetensors",
+      "step": 2000,
+      "version_id": "v002000"
+    },
+    {
+      "created_at": "2026-02-04T22:56:53.759137Z",
+      "metrics": {
+        "val_loss": 0.3638891577720642
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v003000/model.safetensors",
+      "step": 3000,
+      "version_id": "v003000"
+    },
+    {
+      "created_at": "2026-02-04T23:18:47.962640Z",
+      "metrics": {
+        "val_loss": 0.3601241409778595
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v004000/model.safetensors",
+      "step": 4000,
+      "version_id": "v004000"
+    },
+    {
+      "created_at": "2026-02-04T23:40:37.656498Z",
+      "metrics": {
+        "val_loss": 0.35444357991218567
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v005000/model.safetensors",
+      "step": 5000,
+      "version_id": "v005000"
+    },
+    {
+      "created_at": "2026-02-05T00:02:31.367167Z",
+      "metrics": {
+        "val_loss": 0.35603439807891846
+      },
+      "model_key": "runs/2026-02-04_21-50-53/versions/v006000/model.safetensors",
+      "step": 6000,
+      "version_id": "v006000"
+    }
+  ]
+}

versions/v001000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T22:13:06.568747Z",
+  "metrics": {
+    "val_loss": 0.39340153336524963
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v001000/model.safetensors",
+    "sha256": "ebb11d87c5025c61bd4ab43d5b68eb9ff3e55cf5c7fca808b6c1515a051d2a31"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v001000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "206f53052a9aebc2e21613a571a3ed22f51c66697990f9d227dd4b1e46e7e4d5"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 1001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v001000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 1000,
+  "version_id": "v001000"
+}

versions/v001000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebb11d87c5025c61bd4ab43d5b68eb9ff3e55cf5c7fca808b6c1515a051d2a31
+size 42058920

versions/v001000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:206f53052a9aebc2e21613a571a3ed22f51c66697990f9d227dd4b1e46e7e4d5
+size 84167913

versions/v001000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

versions/v002000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T22:35:00.278291Z",
+  "metrics": {
+    "val_loss": 0.3754102289676666
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v002000/model.safetensors",
+    "sha256": "370edaeeb9ef1fcd3b9b6c32d40541851f1bc884d64fc2bfecc9c968472d16d6"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v002000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "d4d7423c4d74633a72d4ab0f00202566d80817559fd2b8fcac56f31688af9e98"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 2001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v002000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 2000,
+  "version_id": "v002000"
+}

versions/v002000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:370edaeeb9ef1fcd3b9b6c32d40541851f1bc884d64fc2bfecc9c968472d16d6
+size 42058920

versions/v002000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4d7423c4d74633a72d4ab0f00202566d80817559fd2b8fcac56f31688af9e98
+size 84167913

versions/v002000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

versions/v003000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T22:56:53.759137Z",
+  "metrics": {
+    "val_loss": 0.3638891577720642
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v003000/model.safetensors",
+    "sha256": "67f022191a131ad52b4f6efc1fc53e98f9d5d314f04c4e6862ed5eadc555a722"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v003000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "a3c8d55a6d1c0da06c531b4fb6a0895588ad004d500c84a1e2550b9ad648621a"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 3001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v003000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 3000,
+  "version_id": "v003000"
+}

versions/v003000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67f022191a131ad52b4f6efc1fc53e98f9d5d314f04c4e6862ed5eadc555a722
+size 42058920

versions/v003000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3c8d55a6d1c0da06c531b4fb6a0895588ad004d500c84a1e2550b9ad648621a
+size 84167913

versions/v003000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

versions/v004000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T23:18:47.962640Z",
+  "metrics": {
+    "val_loss": 0.3601241409778595
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v004000/model.safetensors",
+    "sha256": "78f02963ef05ad8a637ecfb3a7ac40ad473ed11332b17214ed9aaa23d728d77b"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v004000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "7fde52ddeef434b923da0ac4420d1ec51880349dd8ba165dd9b4f372a73076c2"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 4001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v004000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 4000,
+  "version_id": "v004000"
+}

versions/v004000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78f02963ef05ad8a637ecfb3a7ac40ad473ed11332b17214ed9aaa23d728d77b
+size 42058920

versions/v004000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fde52ddeef434b923da0ac4420d1ec51880349dd8ba165dd9b4f372a73076c2
+size 84167913

versions/v004000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

versions/v005000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-04T23:40:37.656498Z",
+  "metrics": {
+    "val_loss": 0.35444357991218567
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v005000/model.safetensors",
+    "sha256": "7a3d231a2049a290f190ffa8dd6c33fa95419cfc7fbbb52c73b635e472e62252"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v005000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "ee794b557148fe2f9a5076107ce616de0abae8dd2d010fb37f9b3573c2050373"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 5001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v005000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 5000,
+  "version_id": "v005000"
+}

versions/v005000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a3d231a2049a290f190ffa8dd6c33fa95419cfc7fbbb52c73b635e472e62252
+size 42058920

versions/v005000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee794b557148fe2f9a5076107ce616de0abae8dd2d010fb37f9b3573c2050373
+size 84167913

versions/v005000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

versions/v006000/manifest.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "amp_scaler": null,
+  "code": {},
+  "config": {
+    "bytes": 1700,
+    "key": "runs/2026-02-04_21-50-53/config/train.toml",
+    "sha256": "391209bbf0737f88212f9f90b609e8db15c2ed63b217ca26bb56dbb84ced42e5"
+  },
+  "created_at": "2026-02-05T00:02:31.367167Z",
+  "metrics": {
+    "val_loss": 0.35603439807891846
+  },
+  "model": {
+    "bytes": 42058920,
+    "key": "runs/2026-02-04_21-50-53/versions/v006000/model.safetensors",
+    "sha256": "f863ca7bfd2fc11fc6cf4f3df57567655a43bf4cf9ccaa66f254ed6ed248c9e0"
+  },
+  "optimizer": {
+    "sharding": "custom",
+    "shards": [
+      {
+        "bytes": 84167913,
+        "key": "runs/2026-02-04_21-50-53/versions/v006000/opt_shard_rank0000.bin",
+        "rank": 0,
+        "sha256": "96198f5eb55fde3b7040b5ee768b14a6d28e1c6539d49f9953c71e22367a5dad"
+      }
+    ]
+  },
+  "paths": {
+    "layout_version": 1,
+    "root_local": "runs/2026-02-04_21-50-53"
+  },
+  "resume": {
+    "base_step": 6001,
+    "exact": true
+  },
+  "rng": {
+    "keys": [
+      {
+        "key": "runs/2026-02-04_21-50-53/versions/v006000/rng_rank0000.json",
+        "rank": 0
+      }
+    ],
+    "per_rank": true
+  },
+  "run_id": "2026-02-04_21-50-53",
+  "schema_version": 1,
+  "step": 6000,
+  "version_id": "v006000"
+}

versions/v006000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f863ca7bfd2fc11fc6cf4f3df57567655a43bf4cf9ccaa66f254ed6ed248c9e0
+size 42058920

versions/v006000/opt_shard_rank0000.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96198f5eb55fde3b7040b5ee768b14a6d28e1c6539d49f9953c71e22367a5dad
+size 84167913

versions/v006000/rng_rank0000.json ADDED Viewed

The diff for this file is too large to render. See raw diff