Upload add_sub_sorl_v1_abs10_50K

Files changed (3) hide show

add_sub_sorl_v1_abs10_50K/metrics.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

add_sub_sorl_v1_abs10_50K/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb609285c5151c0d0634d5d2b7a3d5ff7ec57d8acf496116f999081eba9e3749
 size 650303660

 version https://git-lfs.github.com/spec/v1
+oid sha256:45c37fed66bed3773e1e69fae722c5dc56192e47f3b8468245de3448610fb81a
 size 650303660

add_sub_sorl_v1_abs10_50K/train_config.json CHANGED Viewed

@@ -17,10 +17,10 @@
   "target_vocab_util": 0.8,
   "min_abs_ppl": 0.0,
   "zipf_alpha": 1.0,
-  "lr": 4e-05,
   "emb_lr_mult": 1.0,
   "weight_decay": 0.01,
-  "warmup_steps": 234,
   "cooldown_frac": 0.4,
   "max_grad_norm": 1.0,
   "vq_abs_pretrain_steps": 0,
@@ -30,7 +30,7 @@
   "vq_abs_pretrain_target_vectors": 20000,
   "batch_size": 64,
   "gradient_accumulation_steps": 1,
-  "num_epochs": 10,
   "emb_warmup_steps": 0,
   "log_every": 50,
   "eval_every": 781,
@@ -69,16 +69,16 @@
   "no_wandb": false,
   "n_params": 162499262,
   "run_name": "add_sub_sorl_v1_abs10_50K",
-  "git_commit": "f447da529caceac8c7d256cbb2cd185cbc50feac",
-  "timestamp": "2026-04-12T19:31:11.043883+00:00",
   "tokenizer": "Qwen/Qwen3-0.6B",
   "dataset_repo": "thoughtworks/arithmetic-sorl-data",
   "dataset_config": "add_sub_6digit",
   "model_repo": "thoughtworks/arithmetic-sorl",
   "trainer_version": "v1",
-  "wandb_run_id": "ajnrconh",
-  "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/ajnrconh",
-  "final_accuracy": 0.8245833333333333,
-  "sft_accuracy": 0.19958333333333333,
   "eval_method": "ArithmeticEvaluator"
 }

   "target_vocab_util": 0.8,
   "min_abs_ppl": 0.0,
   "zipf_alpha": 1.0,
+  "lr": 8e-05,
   "emb_lr_mult": 1.0,
   "weight_decay": 0.01,
+  "warmup_steps": 468,
   "cooldown_frac": 0.4,
   "max_grad_norm": 1.0,
   "vq_abs_pretrain_steps": 0,
   "vq_abs_pretrain_target_vectors": 20000,
   "batch_size": 64,
   "gradient_accumulation_steps": 1,
+  "num_epochs": 20,
   "emb_warmup_steps": 0,
   "log_every": 50,
   "eval_every": 781,
   "no_wandb": false,
   "n_params": 162499262,
   "run_name": "add_sub_sorl_v1_abs10_50K",
+  "git_commit": "8d5ee5420119746ef4e2c87570eb250c9718f643",
+  "timestamp": "2026-04-12T20:32:49.376051+00:00",
   "tokenizer": "Qwen/Qwen3-0.6B",
   "dataset_repo": "thoughtworks/arithmetic-sorl-data",
   "dataset_config": "add_sub_6digit",
   "model_repo": "thoughtworks/arithmetic-sorl",
   "trainer_version": "v1",
+  "wandb_run_id": "2jm1c18r",
+  "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/2jm1c18r",
+  "final_accuracy": 1.0,
+  "sft_accuracy": 0.7220833333333333,
   "eval_method": "ArithmeticEvaluator"
 }