Upload add_sub_sorl_v1_abs16_1K

Browse files

Files changed (5) hide show

add_sub_sorl_v1_abs16_1K/config.json +37 -0
add_sub_sorl_v1_abs16_1K/generation_config.json +7 -0
add_sub_sorl_v1_abs16_1K/metrics.json +1031 -0
add_sub_sorl_v1_abs16_1K/model.safetensors +3 -0
add_sub_sorl_v1_abs16_1K/train_config.json +35 -0

add_sub_sorl_v1_abs16_1K/config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "architectures": [
+    "SorlModelWrapper"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 510,
+  "initializer_range": 0.02,
+  "intermediate_size": 2040,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 128,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 3,
+  "pad_token_id": null,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "rope_theta": 10000.0,
+    "rope_type": "default"
+  },
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "5.5.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151660
+}

add_sub_sorl_v1_abs16_1K/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "transformers_version": "5.5.0",
+  "use_cache": true
+}

add_sub_sorl_v1_abs16_1K/metrics.json ADDED Viewed

	@@ -0,0 +1,1031 @@

+{
+  "history": {
+    "step": [],
+    "loss": [],
+    "base_loss": [],
+    "info_loss": [],
+    "abs_loss": [],
+    "zipf_loss": [],
+    "denoise_loss": [],
+    "ortho_loss": [],
+    "lr": [],
+    "emb_lr": [],
+    "eval_step": [
+      0
+    ],
+    "eval_accuracy": [
+      0.01
+    ]
+  },
+  "final_accuracy": 0.0,
+  "sft_eval": {
+    "config": {
+      "ops": "add_sub",
+      "K": null,
+      "mode": "sft",
+      "n_digits": 6,
+      "n_per_split": 50
+    },
+    "splits": {
+      "add_S0": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.17627118644067796,
+            "count": 295
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 55
+          }
+        }
+      },
+      "add_S1": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.30158730158730157,
+            "count": 126
+          },
+          "SC": {
+            "accuracy": 0.25316455696202533,
+            "count": 79
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 21
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 124
+          }
+        }
+      },
+      "add_S2": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.24,
+            "count": 75
+          },
+          "SC": {
+            "accuracy": 0.2903225806451613,
+            "count": 62
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 39
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 111
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 63
+          }
+        }
+      },
+      "add_S3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.26666666666666666,
+            "count": 60
+          },
+          "SC": {
+            "accuracy": 0.21052631578947367,
+            "count": 57
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 19
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 104
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 110
+          }
+        }
+      },
+      "add_S4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.20833333333333334,
+            "count": 48
+          },
+          "SC": {
+            "accuracy": 0.2692307692307692,
+            "count": 52
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 7
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 89
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 154
+          }
+        }
+      },
+      "add_S5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.54,
+            "count": 50
+          },
+          "SC": {
+            "accuracy": 0.36,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 200
+          }
+        }
+      },
+      "add_S6": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SC": {
+            "accuracy": 0.34,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 250
+          }
+        }
+      },
+      "add_random": {
+        "full_accuracy": 0.0,
+        "n_examples": 200,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.23665893271461716,
+            "count": 431
+          },
+          "SC": {
+            "accuracy": 0.1962025316455696,
+            "count": 316
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 39
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 560
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 54
+          }
+        }
+      },
+      "add_C3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.3466666666666667,
+            "count": 150
+          },
+          "SC": {
+            "accuracy": 0.22,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 104
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 46
+          }
+        }
+      },
+      "add_C4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.35,
+            "count": 100
+          },
+          "SC": {
+            "accuracy": 0.26,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 123
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 77
+          }
+        }
+      },
+      "add_C5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.42,
+            "count": 50
+          },
+          "SC": {
+            "accuracy": 0.34,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 154
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 96
+          }
+        }
+      },
+      "add_C6": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SC": {
+            "accuracy": 0.2,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 182
+          },
+          "US": {
+            "accuracy": 1.0,
+            "count": 118
+          }
+        }
+      },
+      "sub_M0": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.21428571428571427,
+            "count": 294
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 56
+          }
+        }
+      },
+      "sub_M1": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.38461538461538464,
+            "count": 143
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 69
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 15
+          },
+          "UB": {
+            "accuracy": 0.10569105691056911,
+            "count": 123
+          }
+        }
+      },
+      "sub_M2": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.6759259259259259,
+            "count": 108
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 52
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 52
+          },
+          "UB": {
+            "accuracy": 0.14942528735632185,
+            "count": 87
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 51
+          }
+        }
+      },
+      "sub_M3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.6276595744680851,
+            "count": 94
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 51
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 25
+          },
+          "UB": {
+            "accuracy": 0.08974358974358974,
+            "count": 78
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 102
+          }
+        }
+      },
+      "sub_M4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.5,
+            "count": 100
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.32,
+            "count": 50
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 150
+          }
+        }
+      },
+      "sub_M5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 1.0,
+            "count": 50
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.2,
+            "count": 50
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 200
+          }
+        }
+      },
+      "sub_random": {
+        "full_accuracy": 0.0,
+        "n_examples": 200,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.3758503401360544,
+            "count": 588
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 268
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 60
+          },
+          "UB": {
+            "accuracy": 0.1610738255033557,
+            "count": 447
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 37
+          }
+        }
+      },
+      "sub_B3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.3333333333333333,
+            "count": 150
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.11214953271028037,
+            "count": 107
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 43
+          }
+        }
+      },
+      "sub_B4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.5,
+            "count": 100
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.14035087719298245,
+            "count": 114
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 86
+          }
+        }
+      },
+      "sub_B5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 1.0,
+            "count": 50
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.09803921568627451,
+            "count": 153
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 97
+          }
+        }
+      }
+    },
+    "summary": {
+      "overall_accuracy": 0.0,
+      "total_examples": 1400,
+      "n_splits": 22
+    }
+  },
+  "sorl_eval": {
+    "config": {
+      "ops": "add_sub",
+      "K": 4,
+      "mode": "sorl",
+      "n_digits": 6,
+      "n_per_split": 50
+    },
+    "splits": {
+      "add_S0": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.20677966101694914,
+            "count": 295
+          },
+          "SS": {
+            "accuracy": 0.34545454545454546,
+            "count": 55
+          }
+        }
+      },
+      "add_S1": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.2857142857142857,
+            "count": 126
+          },
+          "SC": {
+            "accuracy": 0.17721518987341772,
+            "count": 79
+          },
+          "SS": {
+            "accuracy": 0.47619047619047616,
+            "count": 21
+          },
+          "UC": {
+            "accuracy": 0.03225806451612903,
+            "count": 124
+          }
+        }
+      },
+      "add_S2": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.32,
+            "count": 75
+          },
+          "SC": {
+            "accuracy": 0.1774193548387097,
+            "count": 62
+          },
+          "SS": {
+            "accuracy": 0.3076923076923077,
+            "count": 39
+          },
+          "UC": {
+            "accuracy": 0.02702702702702703,
+            "count": 111
+          },
+          "US": {
+            "accuracy": 0.7301587301587301,
+            "count": 63
+          }
+        }
+      },
+      "add_S3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.43333333333333335,
+            "count": 60
+          },
+          "SC": {
+            "accuracy": 0.10526315789473684,
+            "count": 57
+          },
+          "SS": {
+            "accuracy": 0.5263157894736842,
+            "count": 19
+          },
+          "UC": {
+            "accuracy": 0.019230769230769232,
+            "count": 104
+          },
+          "US": {
+            "accuracy": 0.4909090909090909,
+            "count": 110
+          }
+        }
+      },
+      "add_S4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.2916666666666667,
+            "count": 48
+          },
+          "SC": {
+            "accuracy": 0.19230769230769232,
+            "count": 52
+          },
+          "SS": {
+            "accuracy": 0.0,
+            "count": 7
+          },
+          "UC": {
+            "accuracy": 0.011235955056179775,
+            "count": 89
+          },
+          "US": {
+            "accuracy": 0.7012987012987013,
+            "count": 154
+          }
+        }
+      },
+      "add_S5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.5,
+            "count": 50
+          },
+          "SC": {
+            "accuracy": 0.28,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.02,
+            "count": 50
+          },
+          "US": {
+            "accuracy": 0.7,
+            "count": 200
+          }
+        }
+      },
+      "add_S6": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SC": {
+            "accuracy": 0.22,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "US": {
+            "accuracy": 0.552,
+            "count": 250
+          }
+        }
+      },
+      "add_random": {
+        "full_accuracy": 0.0,
+        "n_examples": 200,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.2482598607888631,
+            "count": 431
+          },
+          "SC": {
+            "accuracy": 0.10759493670886076,
+            "count": 316
+          },
+          "SS": {
+            "accuracy": 0.28205128205128205,
+            "count": 39
+          },
+          "UC": {
+            "accuracy": 0.03571428571428571,
+            "count": 560
+          },
+          "US": {
+            "accuracy": 0.5925925925925926,
+            "count": 54
+          }
+        }
+      },
+      "add_C3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.3,
+            "count": 150
+          },
+          "SC": {
+            "accuracy": 0.16,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 104
+          },
+          "US": {
+            "accuracy": 0.6086956521739131,
+            "count": 46
+          }
+        }
+      },
+      "add_C4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.34,
+            "count": 100
+          },
+          "SC": {
+            "accuracy": 0.14,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.016260162601626018,
+            "count": 123
+          },
+          "US": {
+            "accuracy": 0.5974025974025974,
+            "count": 77
+          }
+        }
+      },
+      "add_C5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SA": {
+            "accuracy": 0.42,
+            "count": 50
+          },
+          "SC": {
+            "accuracy": 0.2,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 154
+          },
+          "US": {
+            "accuracy": 0.71875,
+            "count": 96
+          }
+        }
+      },
+      "add_C6": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "SC": {
+            "accuracy": 0.18,
+            "count": 50
+          },
+          "UC": {
+            "accuracy": 0.0,
+            "count": 182
+          },
+          "US": {
+            "accuracy": 0.711864406779661,
+            "count": 118
+          }
+        }
+      },
+      "sub_M0": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.2108843537414966,
+            "count": 294
+          },
+          "ME": {
+            "accuracy": 0.9821428571428571,
+            "count": 56
+          }
+        }
+      },
+      "sub_M1": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.38461538461538464,
+            "count": 143
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 69
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 15
+          },
+          "UB": {
+            "accuracy": 0.10569105691056911,
+            "count": 123
+          }
+        }
+      },
+      "sub_M2": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.6666666666666666,
+            "count": 108
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 52
+          },
+          "ME": {
+            "accuracy": 0.9807692307692307,
+            "count": 52
+          },
+          "UB": {
+            "accuracy": 0.14942528735632185,
+            "count": 87
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 51
+          }
+        }
+      },
+      "sub_M3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.6276595744680851,
+            "count": 94
+          },
+          "MB": {
+            "accuracy": 0.0196078431372549,
+            "count": 51
+          },
+          "ME": {
+            "accuracy": 1.0,
+            "count": 25
+          },
+          "UB": {
+            "accuracy": 0.08974358974358974,
+            "count": 78
+          },
+          "UD": {
+            "accuracy": 0.00980392156862745,
+            "count": 102
+          }
+        }
+      },
+      "sub_M4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.5,
+            "count": 100
+          },
+          "MB": {
+            "accuracy": 0.02,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.32,
+            "count": 50
+          },
+          "UD": {
+            "accuracy": 0.006666666666666667,
+            "count": 150
+          }
+        }
+      },
+      "sub_M5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 1.0,
+            "count": 50
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.2,
+            "count": 50
+          },
+          "UD": {
+            "accuracy": 0.02,
+            "count": 200
+          }
+        }
+      },
+      "sub_random": {
+        "full_accuracy": 0.0,
+        "n_examples": 200,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.37755102040816324,
+            "count": 588
+          },
+          "MB": {
+            "accuracy": 0.0037313432835820895,
+            "count": 268
+          },
+          "ME": {
+            "accuracy": 0.9666666666666667,
+            "count": 60
+          },
+          "UB": {
+            "accuracy": 0.1476510067114094,
+            "count": 447
+          },
+          "UD": {
+            "accuracy": 0.0,
+            "count": 37
+          }
+        }
+      },
+      "sub_B3": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.3333333333333333,
+            "count": 150
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.102803738317757,
+            "count": 107
+          },
+          "UD": {
+            "accuracy": 0.06976744186046512,
+            "count": 43
+          }
+        }
+      },
+      "sub_B4": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 0.5,
+            "count": 100
+          },
+          "MB": {
+            "accuracy": 0.0,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.13157894736842105,
+            "count": 114
+          },
+          "UD": {
+            "accuracy": 0.03488372093023256,
+            "count": 86
+          }
+        }
+      },
+      "sub_B5": {
+        "full_accuracy": 0.0,
+        "n_examples": 50,
+        "per_subtask": {
+          "MD": {
+            "accuracy": 1.0,
+            "count": 50
+          },
+          "MB": {
+            "accuracy": 0.02,
+            "count": 50
+          },
+          "UB": {
+            "accuracy": 0.0784313725490196,
+            "count": 153
+          },
+          "UD": {
+            "accuracy": 0.041237113402061855,
+            "count": 97
+          }
+        }
+      }
+    },
+    "summary": {
+      "overall_accuracy": 0.0,
+      "total_examples": 1400,
+      "n_splits": 22
+    }
+  },
+  "sorl_overall_accuracy": 0.0,
+  "sft_overall_accuracy": 0.0
+}

add_sub_sorl_v1_abs16_1K/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43959975cf6b60c99df3f5ee2d6977064967c94752ab5550e4d46030cdbb8767
+size 650328152

add_sub_sorl_v1_abs16_1K/train_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "mode": "sorl",
+  "ops": "add_sub",
+  "n_digits": 6,
+  "n_layer": 2,
+  "n_head": 3,
+  "n_embd": 510,
+  "abs_vocab": 16,
+  "K": 4,
+  "alpha_info_gain": 10.0,
+  "alpha_abs": 0.1,
+  "alpha_soft_zipf": 1.0,
+  "batch_size": 64,
+  "num_epochs": 1,
+  "dataset_size": 1000,
+  "lr": 8e-05,
+  "output_dir": "ckpt/smoke_sorl",
+  "device": "cuda:0",
+  "push_to_hub": true,
+  "no_wandb": true,
+  "n_params": 162505382,
+  "run_name": "add_sub_sorl_v1_abs16_1K",
+  "git_commit": "800625019270114adcda289bbd550c4f1109a514",
+  "timestamp": "2026-04-12T01:47:31.805763+00:00",
+  "tokenizer": "Qwen/Qwen3-0.6B",
+  "dataset_repo": "thoughtworks/arithmetic-sorl-data",
+  "dataset_config": "add_sub_6digit",
+  "model_repo": "thoughtworks/arithmetic-sorl",
+  "trainer_version": "v1",
+  "wandb_run_id": null,
+  "wandb_url": null,
+  "final_accuracy": 0.0,
+  "sft_accuracy": 0.0,
+  "eval_method": "ArithmeticEvaluator"
+}