Trelis
/

smol-v7-1M_aa2

RonanMcGovern commited on Oct 11, 2025

Commit

c1ebe1b

verified ·

1 Parent(s): ac42fcc

Upload config.json with huggingface_hub

Files changed (1) hide show

config.json CHANGED Viewed

@@ -1,52 +1,56 @@
 {
   "model_version": "smol-v7-1M",
   "tag": "aa2",
-  "vocab_size": 11,
-  "d_model": 384,
-  "nhead": 6,
-  "num_layers": 4,
-  "max_size": 30,
-  "embedding_dropout": 0.1,
-  "input_grid_dropout": 0.05,
-  "num_timesteps": 128,
-  "schedule_type": "cosine",
-  "batch_size": 128,
-  "learning_rate": 0.0004,
-  "weight_decay": 0.01,
-  "optimizer_steps": 1000000,
-  "lr_warmup_steps": 2000,
-  "gradient_accumulation_steps": 1,
-  "augment": true,
-  "log_every": 100,
-  "val_every_steps": 1000,
-  "vis_every_steps": 16000,
-  "eval_every_steps": 25000,
-  "num_eval_tasks": 120,
-  "best_model_metric": "eval_score",
-  "eval_dataset": "evaluation",
-  "use_mixed_precision": true,
-  "pixel_noise_prob": 0.0,
-  "pixel_noise_rate": 0.0,
-  "use_ema": true,
-  "ema_decay": 0.9995,
-  "ema_warmup_steps": 2000,
-  "data_dir": "data/arc-prize-2025",
-  "datasets": [
-    "training_challenges",
-    "evaluation_challenges"
-  ],
-  "include_training_test_examples": true,
-  "max_val_examples": 128,
-  "eval_weight": 10.0,
-  "output_dir": "experimental/diffusion/outputs/smol",
-  "use_wandb": true,
-  "save_best": true,
-  "save_final": true,
   "auxiliary_loss": {
     "include_size_head": true,
     "size_head_hidden_dim": 256,
     "auxiliary_size_loss_weight": 0.1,
     "auxiliary_size_loss_warmup": 0
   },
-  "profile_mode": false
 }

 {
   "model_version": "smol-v7-1M",
   "tag": "aa2",
+  "model": {
+    "vocab_size": 11,
+    "d_model": 384,
+    "nhead": 6,
+    "num_layers": 4,
+    "max_size": 30,
+    "embedding_dropout": 0.1,
+    "input_grid_dropout": 0.05
+  },
+  "training": {
+    "num_timesteps": 128,
+    "schedule_type": "cosine",
+    "batch_size": 128,
+    "learning_rate": 0.0004,
+    "weight_decay": 0.01,
+    "optimizer_steps": 1000000,
+    "lr_warmup_steps": 2000,
+    "gradient_accumulation_steps": 1,
+    "augment": true,
+    "log_every": 100,
+    "val_every_steps": 1000,
+    "vis_every_steps": 16000,
+    "eval_every_steps": 25000,
+    "num_eval_tasks": 120,
+    "best_model_metric": "eval_score",
+    "eval_dataset": "evaluation",
+    "use_mixed_precision": true,
+    "pixel_noise_prob": 0.0,
+    "pixel_noise_rate": 0.0,
+    "use_ema": true,
+    "ema_decay": 0.9995,
+    "ema_warmup_steps": 2000
+  },
+  "data": {
+    "data_dir": "data/arc-prize-2025",
+    "datasets": ["training_challenges", "evaluation_challenges"],
+    "include_training_test_examples": true,
+    "max_val_examples": 128,
+    "eval_weight": 10.0
+  },
   "auxiliary_loss": {
     "include_size_head": true,
     "size_head_hidden_dim": 256,
     "auxiliary_size_loss_weight": 0.1,
     "auxiliary_size_loss_warmup": 0
   },
+  "output": {
+    "output_dir": "experimental/diffusion/outputs/smol",
+    "use_wandb": true,
+    "save_best": true,
+    "save_final": true
+  }
 }