K2triinK commited on 27 days ago

Commit

cf1151b

verified ·

1 Parent(s): 9199d2c

Retrained model Qwen3_14B_Base

Browse files

Files changed (41) hide show

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/README.md +2 -2
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/trainer_state.json +158 -158
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/trainer_state.json +210 -210
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/trainer_state.json +262 -262
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/trainer_state.json +312 -312
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/trainer_state.json +364 -364
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/trainer_state.json +416 -416
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/trainer_state.json +468 -468
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/trainer_state.json +54 -54
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/trainer_state.json +520 -520
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/training_args.bin +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/adapter_config.json +5 -5
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/adapter_model.safetensors +1 -1
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/trainer_state.json +106 -106
substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/training_args.bin +1 -1

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/README.md CHANGED Viewed

@@ -4,8 +4,8 @@ library_name: transformers
 model_name: Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1
 tags:
 - generated_from_trainer
-- sft
 - trl
 licence: license
 ---
@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/katriin-kukk/Cross_lingual_morphological_generalization/runs/q9yyd3lj)

 model_name: Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1
 tags:
 - generated_from_trainer
 - trl
+- sft
 licence: license
 ---
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/katriin-kukk/Cross_lingual_morphological_generalization/runs/8n422oft)

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a7fa0cbcc4014800c9436dbb090d14e70b5e7fcdbe9736a023ffb09c88cfc49
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:984ac46ac781a731b273b9c88cf1b4a3c13339cc6d367d4780df48014fa31bf8
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/trainer_state.json CHANGED Viewed

@@ -10,309 +10,309 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     }
   ],
@@ -333,8 +333,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.155969099958989e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 4.926439897662259e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1206/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2633d84e9af32accfb364c9dfc552be8d2fc44e68460c66daa75524132a9e58e
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ac0edf81a88525b0f3a34ecc5c5aa48cf35bbd2a544ec94398e1ffec140d9d
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/trainer_state.json CHANGED Viewed

@@ -10,411 +10,411 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     }
   ],
@@ -435,8 +435,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.198780834091725e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 6.557655587098829e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-1608/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8744fba0c42f30c651ebb41300658386d096002d77f02f6198a09ae8c04509e
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:955028c0f839459bb48b0b40d0a2a6fd5bf484d3ff2ef74a57b663f80f02f033
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/trainer_state.json CHANGED Viewed

@@ -10,513 +10,513 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     }
   ],
@@ -537,8 +537,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0251185354115686e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 8.195668813557658e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2010/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:149f6b3a2d3a05bc60fa87032bbad932350de2daacf8ebee6eda07fb5d39e107
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:eabb9930fbd0d966b39c4afd562574aa9dfcc917f507e0db6d1909d38d983fa7
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/trainer_state.json CHANGED Viewed

@@ -10,613 +10,613 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     },
     {
-      "entropy": 1.345623204202363,
       "epoch": 5.099626400996264,
-      "grad_norm": 0.8724157214164734,
-      "learning_rate": 0.00017244781808693755,
-      "loss": 1.323695831298828,
-      "mean_token_accuracy": 0.6866910710479274,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
-      "entropy": 1.3074172997474671,
       "epoch": 5.224159402241594,
-      "grad_norm": 0.8229172825813293,
-      "learning_rate": 0.00016592835587866364,
-      "loss": 1.295655517578125,
-      "mean_token_accuracy": 0.6931505644321442,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
-      "entropy": 1.298924881219864,
       "epoch": 5.348692403486924,
-      "grad_norm": 0.9111100435256958,
-      "learning_rate": 0.0001593812163688578,
-      "loss": 1.2771641540527343,
-      "mean_token_accuracy": 0.6941236406564713,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
-      "entropy": 1.3120970189571382,
       "epoch": 5.473225404732254,
-      "grad_norm": 0.7868310213088989,
-      "learning_rate": 0.000152818738729123,
-      "loss": 1.2942347717285156,
-      "mean_token_accuracy": 0.6939822369813919,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
-      "entropy": 1.2729843455553054,
       "epoch": 5.597758405977584,
-      "grad_norm": 0.9405992031097412,
-      "learning_rate": 0.00014625329103831503,
-      "loss": 1.2503909301757812,
-      "mean_token_accuracy": 0.7005668586492538,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
-      "entropy": 1.2202323937416077,
       "epoch": 5.722291407222914,
-      "grad_norm": 0.7629554271697998,
-      "learning_rate": 0.00013969724697284394,
-      "loss": 1.199918212890625,
-      "mean_token_accuracy": 0.7085251879692077,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
-      "entropy": 1.1850077486038209,
       "epoch": 5.846824408468244,
-      "grad_norm": 0.9016424417495728,
-      "learning_rate": 0.00013316296248642664,
-      "loss": 1.166585693359375,
-      "mean_token_accuracy": 0.7123788893222809,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
-      "entropy": 1.2040903121232986,
       "epoch": 5.971357409713574,
-      "grad_norm": 0.8533362150192261,
-      "learning_rate": 0.0001266627525232398,
-      "loss": 1.1885869598388672,
-      "mean_token_accuracy": 0.7100468480587006,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.2157157427349756,
-      "eval_mean_token_accuracy": 0.7150737251653227,
-      "eval_not_syn_loss": 1.2506903409957886,
-      "eval_not_syn_runtime": 95.9618,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.178627569661584,
-      "eval_mean_token_accuracy": 0.7016614221556242,
       "eval_num_tokens": 5996340.0,
-      "eval_syn_loss": 1.2114850282669067,
-      "eval_syn_runtime": 98.9234,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
@@ -639,8 +639,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2306720169962086e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     },
     {
+      "entropy": 0.19132825570425602,
       "epoch": 5.099626400996264,
+      "grad_norm": 0.45538511872291565,
+      "learning_rate": 0.0001130760491123961,
+      "loss": 0.153853759765625,
+      "mean_token_accuracy": 0.9434747304579224,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
+      "entropy": 0.17422323439270257,
       "epoch": 5.224159402241594,
+      "grad_norm": 0.4580552279949188,
+      "learning_rate": 0.00010880116157234302,
+      "loss": 0.13612208366394044,
+      "mean_token_accuracy": 0.9487342464923859,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
+      "entropy": 0.1799074411019683,
       "epoch": 5.348692403486924,
+      "grad_norm": 0.39040836691856384,
+      "learning_rate": 0.00010450812570230789,
+      "loss": 0.14250579833984375,
+      "mean_token_accuracy": 0.9467630323767662,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
+      "entropy": 0.18116022080183028,
       "epoch": 5.473225404732254,
+      "grad_norm": 0.3805501163005829,
+      "learning_rate": 0.00010020503244127544,
+      "loss": 0.14014955520629882,
+      "mean_token_accuracy": 0.946874064207077,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
+      "entropy": 0.1810251370444894,
       "epoch": 5.597758405977584,
+      "grad_norm": 0.36377736926078796,
+      "learning_rate": 9.589999168305372e-05,
+      "loss": 0.14044331550598144,
+      "mean_token_accuracy": 0.9467302888631821,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
+      "entropy": 0.17202148117125035,
       "epoch": 5.722291407222914,
+      "grad_norm": 0.38708847761154175,
+      "learning_rate": 9.16011169918326e-05,
+      "loss": 0.13840054512023925,
+      "mean_token_accuracy": 0.9480020496249199,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
+      "entropy": 0.1769936926662922,
       "epoch": 5.846824408468244,
+      "grad_norm": 0.4674988389015198,
+      "learning_rate": 8.73165103108249e-05,
+      "loss": 0.1404121208190918,
+      "mean_token_accuracy": 0.9461787036061287,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
+      "entropy": 0.17118842527270317,
       "epoch": 5.971357409713574,
+      "grad_norm": 0.4454115629196167,
+      "learning_rate": 8.305424669280888e-05,
+      "loss": 0.1366124439239502,
+      "mean_token_accuracy": 0.9484315186738967,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.2494078171114589,
+      "eval_mean_token_accuracy": 0.851767166062843,
+      "eval_not_syn_loss": 0.7222095131874084,
+      "eval_not_syn_runtime": 95.8715,
+      "eval_not_syn_samples_per_second": 14.342,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.239824180079754,
+      "eval_mean_token_accuracy": 0.8484749911829482,
       "eval_num_tokens": 5996340.0,
+      "eval_syn_loss": 0.7036991119384766,
+      "eval_syn_runtime": 98.923,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
       "attributes": {}
     }
   },
+  "total_flos": 9.832542010122854e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2412/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d12a47e34a306382397f74cbcf0e39f1683fa5eab3a83931deec91c7a768aab
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:565e0a2c65111239b0973cf73addff4ab61c83d8ea5bda8d6fd11ccd2c60425b
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/trainer_state.json CHANGED Viewed

@@ -10,717 +10,717 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     },
     {
-      "entropy": 1.345623204202363,
       "epoch": 5.099626400996264,
-      "grad_norm": 0.8724157214164734,
-      "learning_rate": 0.00017244781808693755,
-      "loss": 1.323695831298828,
-      "mean_token_accuracy": 0.6866910710479274,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
-      "entropy": 1.3074172997474671,
       "epoch": 5.224159402241594,
-      "grad_norm": 0.8229172825813293,
-      "learning_rate": 0.00016592835587866364,
-      "loss": 1.295655517578125,
-      "mean_token_accuracy": 0.6931505644321442,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
-      "entropy": 1.298924881219864,
       "epoch": 5.348692403486924,
-      "grad_norm": 0.9111100435256958,
-      "learning_rate": 0.0001593812163688578,
-      "loss": 1.2771641540527343,
-      "mean_token_accuracy": 0.6941236406564713,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
-      "entropy": 1.3120970189571382,
       "epoch": 5.473225404732254,
-      "grad_norm": 0.7868310213088989,
-      "learning_rate": 0.000152818738729123,
-      "loss": 1.2942347717285156,
-      "mean_token_accuracy": 0.6939822369813919,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
-      "entropy": 1.2729843455553054,
       "epoch": 5.597758405977584,
-      "grad_norm": 0.9405992031097412,
-      "learning_rate": 0.00014625329103831503,
-      "loss": 1.2503909301757812,
-      "mean_token_accuracy": 0.7005668586492538,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
-      "entropy": 1.2202323937416077,
       "epoch": 5.722291407222914,
-      "grad_norm": 0.7629554271697998,
-      "learning_rate": 0.00013969724697284394,
-      "loss": 1.199918212890625,
-      "mean_token_accuracy": 0.7085251879692077,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
-      "entropy": 1.1850077486038209,
       "epoch": 5.846824408468244,
-      "grad_norm": 0.9016424417495728,
-      "learning_rate": 0.00013316296248642664,
-      "loss": 1.166585693359375,
-      "mean_token_accuracy": 0.7123788893222809,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
-      "entropy": 1.2040903121232986,
       "epoch": 5.971357409713574,
-      "grad_norm": 0.8533362150192261,
-      "learning_rate": 0.0001266627525232398,
-      "loss": 1.1885869598388672,
-      "mean_token_accuracy": 0.7100468480587006,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.2157157427349756,
-      "eval_mean_token_accuracy": 0.7150737251653227,
-      "eval_not_syn_loss": 1.2506903409957886,
-      "eval_not_syn_runtime": 95.9618,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.178627569661584,
-      "eval_mean_token_accuracy": 0.7016614221556242,
       "eval_num_tokens": 5996340.0,
-      "eval_syn_loss": 1.2114850282669067,
-      "eval_syn_runtime": 98.9234,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
-      "entropy": 1.0982752972178988,
       "epoch": 6.094645080946451,
-      "grad_norm": 1.295694351196289,
-      "learning_rate": 0.00012020886780836267,
-      "loss": 1.0774417877197267,
-      "mean_token_accuracy": 0.7259544272615452,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
-      "entropy": 1.0651295524835587,
       "epoch": 6.219178082191781,
-      "grad_norm": 0.9243665337562561,
-      "learning_rate": 0.0001138134717592517,
-      "loss": 1.0521366119384765,
-      "mean_token_accuracy": 0.7293049448728561,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
-      "entropy": 1.0358434236049652,
       "epoch": 6.34371108343711,
-      "grad_norm": 0.9286350011825562,
-      "learning_rate": 0.00010748861756175999,
-      "loss": 1.018977813720703,
-      "mean_token_accuracy": 0.7370841908454895,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
-      "entropy": 1.0522522723674774,
       "epoch": 6.468244084682441,
-      "grad_norm": 0.9158058762550354,
-      "learning_rate": 0.00010124622545390751,
-      "loss": 1.0335795593261718,
-      "mean_token_accuracy": 0.7348936641216278,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
-      "entropy": 1.0202285438776015,
       "epoch": 6.592777085927771,
-      "grad_norm": 0.8085289597511292,
-      "learning_rate": 9.509806026021276e-05,
-      "loss": 1.0074135589599609,
-      "mean_token_accuracy": 0.7410361844301224,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
-      "entropy": 0.9939206629991532,
       "epoch": 6.717310087173101,
-      "grad_norm": 0.7527234554290771,
-      "learning_rate": 8.90557092189276e-05,
-      "loss": 0.9766032409667968,
-      "mean_token_accuracy": 0.7435237610340119,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
-      "entropy": 0.985169340968132,
       "epoch": 6.841843088418431,
-      "grad_norm": 0.9773848056793213,
-      "learning_rate": 8.313056014396262e-05,
-      "loss": 0.9680111694335938,
-      "mean_token_accuracy": 0.7455707538127899,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
-      "entropy": 0.9864326739311218,
       "epoch": 6.966376089663761,
-      "grad_norm": 0.7536692023277283,
-      "learning_rate": 7.733377996266039e-05,
-      "loss": 0.9636287689208984,
-      "mean_token_accuracy": 0.7498565518856048,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 1.0250733893278032,
-      "eval_mean_token_accuracy": 0.7460000244683997,
-      "eval_not_syn_loss": 1.0630079507827759,
-      "eval_not_syn_runtime": 96.0062,
-      "eval_not_syn_samples_per_second": 14.322,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 0.9910203045190766,
-      "eval_mean_token_accuracy": 0.7360078449859175,
       "eval_num_tokens": 6995730.0,
-      "eval_syn_loss": 1.0268242359161377,
-      "eval_syn_runtime": 99.1365,
-      "eval_syn_samples_per_second": 13.87,
-      "eval_syn_steps_per_second": 1.735,
       "step": 2814
     }
   ],
@@ -741,8 +741,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4366868190744474e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     },
     {
+      "entropy": 0.19132825570425602,
       "epoch": 5.099626400996264,
+      "grad_norm": 0.45538511872291565,
+      "learning_rate": 0.0001130760491123961,
+      "loss": 0.153853759765625,
+      "mean_token_accuracy": 0.9434747304579224,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
+      "entropy": 0.17422323439270257,
       "epoch": 5.224159402241594,
+      "grad_norm": 0.4580552279949188,
+      "learning_rate": 0.00010880116157234302,
+      "loss": 0.13612208366394044,
+      "mean_token_accuracy": 0.9487342464923859,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
+      "entropy": 0.1799074411019683,
       "epoch": 5.348692403486924,
+      "grad_norm": 0.39040836691856384,
+      "learning_rate": 0.00010450812570230789,
+      "loss": 0.14250579833984375,
+      "mean_token_accuracy": 0.9467630323767662,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
+      "entropy": 0.18116022080183028,
       "epoch": 5.473225404732254,
+      "grad_norm": 0.3805501163005829,
+      "learning_rate": 0.00010020503244127544,
+      "loss": 0.14014955520629882,
+      "mean_token_accuracy": 0.946874064207077,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
+      "entropy": 0.1810251370444894,
       "epoch": 5.597758405977584,
+      "grad_norm": 0.36377736926078796,
+      "learning_rate": 9.589999168305372e-05,
+      "loss": 0.14044331550598144,
+      "mean_token_accuracy": 0.9467302888631821,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
+      "entropy": 0.17202148117125035,
       "epoch": 5.722291407222914,
+      "grad_norm": 0.38708847761154175,
+      "learning_rate": 9.16011169918326e-05,
+      "loss": 0.13840054512023925,
+      "mean_token_accuracy": 0.9480020496249199,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
+      "entropy": 0.1769936926662922,
       "epoch": 5.846824408468244,
+      "grad_norm": 0.4674988389015198,
+      "learning_rate": 8.73165103108249e-05,
+      "loss": 0.1404121208190918,
+      "mean_token_accuracy": 0.9461787036061287,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
+      "entropy": 0.17118842527270317,
       "epoch": 5.971357409713574,
+      "grad_norm": 0.4454115629196167,
+      "learning_rate": 8.305424669280888e-05,
+      "loss": 0.1366124439239502,
+      "mean_token_accuracy": 0.9484315186738967,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.2494078171114589,
+      "eval_mean_token_accuracy": 0.851767166062843,
+      "eval_not_syn_loss": 0.7222095131874084,
+      "eval_not_syn_runtime": 95.8715,
+      "eval_not_syn_samples_per_second": 14.342,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.239824180079754,
+      "eval_mean_token_accuracy": 0.8484749911829482,
       "eval_num_tokens": 5996340.0,
+      "eval_syn_loss": 0.7036991119384766,
+      "eval_syn_runtime": 98.923,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
+      "entropy": 0.14340858902744572,
       "epoch": 6.094645080946451,
+      "grad_norm": 0.270256370306015,
+      "learning_rate": 7.88223590813502e-05,
+      "loss": 0.10398475646972656,
+      "mean_token_accuracy": 0.9604840600731397,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
+      "entropy": 0.13108037687838078,
       "epoch": 6.219178082191781,
+      "grad_norm": 0.2870016396045685,
+      "learning_rate": 7.462882317138628e-05,
+      "loss": 0.09566926002502442,
+      "mean_token_accuracy": 0.9636739170551301,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
+      "entropy": 0.1305130884796381,
       "epoch": 6.34371108343711,
+      "grad_norm": 0.34119686484336853,
+      "learning_rate": 7.048154237770433e-05,
+      "loss": 0.0943364143371582,
+      "mean_token_accuracy": 0.9643464788794518,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
+      "entropy": 0.12516659261658789,
       "epoch": 6.468244084682441,
+      "grad_norm": 0.2851012051105499,
+      "learning_rate": 6.638833293964401e-05,
+      "loss": 0.09339779853820801,
+      "mean_token_accuracy": 0.9654107868671418,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
+      "entropy": 0.12894487291574477,
       "epoch": 6.592777085927771,
+      "grad_norm": 0.22259071469306946,
+      "learning_rate": 6.235690919009636e-05,
+      "loss": 0.09672751426696777,
+      "mean_token_accuracy": 0.9641611188650131,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
+      "entropy": 0.13079525250941515,
       "epoch": 6.717310087173101,
+      "grad_norm": 0.2873247265815735,
+      "learning_rate": 5.839486901656255e-05,
+      "loss": 0.09482893943786622,
+      "mean_token_accuracy": 0.963907478749752,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
+      "entropy": 0.13382539574056865,
       "epoch": 6.841843088418431,
+      "grad_norm": 0.26538875699043274,
+      "learning_rate": 5.450967954167317e-05,
+      "loss": 0.09817559242248536,
+      "mean_token_accuracy": 0.9620411720871925,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
+      "entropy": 0.12861237980425358,
       "epoch": 6.966376089663761,
+      "grad_norm": 0.3292505443096161,
+      "learning_rate": 5.070866305015545e-05,
+      "loss": 0.09485826492309571,
+      "mean_token_accuracy": 0.9636287876963615,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.2065339538073817,
+      "eval_mean_token_accuracy": 0.8418768654729045,
+      "eval_not_syn_loss": 0.8473101854324341,
+      "eval_not_syn_runtime": 95.8493,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.19768535250494645,
+      "eval_mean_token_accuracy": 0.8554798219093057,
       "eval_num_tokens": 6995730.0,
+      "eval_syn_loss": 0.8169878125190735,
+      "eval_syn_runtime": 98.9508,
+      "eval_syn_samples_per_second": 13.896,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2814
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.1459814588530381e+18,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-2814/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2351094b49b2e98cbe019fb745c46a4f81e1065edbccf9cab85581d857ca1d71
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0505bdf3521dce71d1db6e646a36a0a89a4d874f31e1b35dab9425e8d503662
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/trainer_state.json CHANGED Viewed

@@ -10,819 +10,819 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     },
     {
-      "entropy": 1.345623204202363,
       "epoch": 5.099626400996264,
-      "grad_norm": 0.8724157214164734,
-      "learning_rate": 0.00017244781808693755,
-      "loss": 1.323695831298828,
-      "mean_token_accuracy": 0.6866910710479274,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
-      "entropy": 1.3074172997474671,
       "epoch": 5.224159402241594,
-      "grad_norm": 0.8229172825813293,
-      "learning_rate": 0.00016592835587866364,
-      "loss": 1.295655517578125,
-      "mean_token_accuracy": 0.6931505644321442,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
-      "entropy": 1.298924881219864,
       "epoch": 5.348692403486924,
-      "grad_norm": 0.9111100435256958,
-      "learning_rate": 0.0001593812163688578,
-      "loss": 1.2771641540527343,
-      "mean_token_accuracy": 0.6941236406564713,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
-      "entropy": 1.3120970189571382,
       "epoch": 5.473225404732254,
-      "grad_norm": 0.7868310213088989,
-      "learning_rate": 0.000152818738729123,
-      "loss": 1.2942347717285156,
-      "mean_token_accuracy": 0.6939822369813919,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
-      "entropy": 1.2729843455553054,
       "epoch": 5.597758405977584,
-      "grad_norm": 0.9405992031097412,
-      "learning_rate": 0.00014625329103831503,
-      "loss": 1.2503909301757812,
-      "mean_token_accuracy": 0.7005668586492538,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
-      "entropy": 1.2202323937416077,
       "epoch": 5.722291407222914,
-      "grad_norm": 0.7629554271697998,
-      "learning_rate": 0.00013969724697284394,
-      "loss": 1.199918212890625,
-      "mean_token_accuracy": 0.7085251879692077,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
-      "entropy": 1.1850077486038209,
       "epoch": 5.846824408468244,
-      "grad_norm": 0.9016424417495728,
-      "learning_rate": 0.00013316296248642664,
-      "loss": 1.166585693359375,
-      "mean_token_accuracy": 0.7123788893222809,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
-      "entropy": 1.2040903121232986,
       "epoch": 5.971357409713574,
-      "grad_norm": 0.8533362150192261,
-      "learning_rate": 0.0001266627525232398,
-      "loss": 1.1885869598388672,
-      "mean_token_accuracy": 0.7100468480587006,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.2157157427349756,
-      "eval_mean_token_accuracy": 0.7150737251653227,
-      "eval_not_syn_loss": 1.2506903409957886,
-      "eval_not_syn_runtime": 95.9618,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.178627569661584,
-      "eval_mean_token_accuracy": 0.7016614221556242,
       "eval_num_tokens": 5996340.0,
-      "eval_syn_loss": 1.2114850282669067,
-      "eval_syn_runtime": 98.9234,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
-      "entropy": 1.0982752972178988,
       "epoch": 6.094645080946451,
-      "grad_norm": 1.295694351196289,
-      "learning_rate": 0.00012020886780836267,
-      "loss": 1.0774417877197267,
-      "mean_token_accuracy": 0.7259544272615452,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
-      "entropy": 1.0651295524835587,
       "epoch": 6.219178082191781,
-      "grad_norm": 0.9243665337562561,
-      "learning_rate": 0.0001138134717592517,
-      "loss": 1.0521366119384765,
-      "mean_token_accuracy": 0.7293049448728561,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
-      "entropy": 1.0358434236049652,
       "epoch": 6.34371108343711,
-      "grad_norm": 0.9286350011825562,
-      "learning_rate": 0.00010748861756175999,
-      "loss": 1.018977813720703,
-      "mean_token_accuracy": 0.7370841908454895,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
-      "entropy": 1.0522522723674774,
       "epoch": 6.468244084682441,
-      "grad_norm": 0.9158058762550354,
-      "learning_rate": 0.00010124622545390751,
-      "loss": 1.0335795593261718,
-      "mean_token_accuracy": 0.7348936641216278,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
-      "entropy": 1.0202285438776015,
       "epoch": 6.592777085927771,
-      "grad_norm": 0.8085289597511292,
-      "learning_rate": 9.509806026021276e-05,
-      "loss": 1.0074135589599609,
-      "mean_token_accuracy": 0.7410361844301224,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
-      "entropy": 0.9939206629991532,
       "epoch": 6.717310087173101,
-      "grad_norm": 0.7527234554290771,
-      "learning_rate": 8.90557092189276e-05,
-      "loss": 0.9766032409667968,
-      "mean_token_accuracy": 0.7435237610340119,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
-      "entropy": 0.985169340968132,
       "epoch": 6.841843088418431,
-      "grad_norm": 0.9773848056793213,
-      "learning_rate": 8.313056014396262e-05,
-      "loss": 0.9680111694335938,
-      "mean_token_accuracy": 0.7455707538127899,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
-      "entropy": 0.9864326739311218,
       "epoch": 6.966376089663761,
-      "grad_norm": 0.7536692023277283,
-      "learning_rate": 7.733377996266039e-05,
-      "loss": 0.9636287689208984,
-      "mean_token_accuracy": 0.7498565518856048,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 1.0250733893278032,
-      "eval_mean_token_accuracy": 0.7460000244683997,
-      "eval_not_syn_loss": 1.0630079507827759,
-      "eval_not_syn_runtime": 96.0062,
-      "eval_not_syn_samples_per_second": 14.322,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 0.9910203045190766,
-      "eval_mean_token_accuracy": 0.7360078449859175,
       "eval_num_tokens": 6995730.0,
-      "eval_syn_loss": 1.0268242359161377,
-      "eval_syn_runtime": 99.1365,
-      "eval_syn_samples_per_second": 13.87,
-      "eval_syn_steps_per_second": 1.735,
       "step": 2814
     },
     {
-      "entropy": 0.8933790849916863,
       "epoch": 7.089663760896638,
-      "grad_norm": 0.9901642799377441,
-      "learning_rate": 7.16762936698672e-05,
-      "loss": 0.870389404296875,
-      "mean_token_accuracy": 0.7670638844220325,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
-      "entropy": 0.8327929264307022,
       "epoch": 7.214196762141968,
-      "grad_norm": 0.9863399267196655,
-      "learning_rate": 6.616876373796547e-05,
-      "loss": 0.8118631744384766,
-      "mean_token_accuracy": 0.7749309521913529,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
-      "entropy": 0.8421830326318741,
       "epoch": 7.338729763387297,
-      "grad_norm": 0.9192395210266113,
-      "learning_rate": 6.082157002167449e-05,
-      "loss": 0.8261887359619141,
-      "mean_token_accuracy": 0.7743502056598663,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
-      "entropy": 0.8124729514122009,
       "epoch": 7.463262764632628,
-      "grad_norm": 0.807341456413269,
-      "learning_rate": 5.564479019549013e-05,
-      "loss": 0.79787353515625,
-      "mean_token_accuracy": 0.7786311388015748,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
-      "entropy": 0.8328139960765839,
       "epoch": 7.587795765877957,
-      "grad_norm": 0.8058074116706848,
-      "learning_rate": 5.064818076063412e-05,
-      "loss": 0.8112649536132812,
-      "mean_token_accuracy": 0.7778408378362656,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
-      "entropy": 0.8063498467206955,
       "epoch": 7.712328767123288,
-      "grad_norm": 1.1108580827713013,
-      "learning_rate": 4.584115865730714e-05,
-      "loss": 0.7904315185546875,
-      "mean_token_accuracy": 0.7799610030651093,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
-      "entropy": 0.8056518918275833,
       "epoch": 7.8368617683686175,
-      "grad_norm": 1.0046204328536987,
-      "learning_rate": 4.123278351690132e-05,
-      "loss": 0.7889098358154297,
-      "mean_token_accuracy": 0.781885308623314,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
-      "entropy": 0.7862150323390961,
       "epoch": 7.961394769613948,
-      "grad_norm": 0.8963404893875122,
-      "learning_rate": 3.683174058762063e-05,
-      "loss": 0.7703626251220703,
-      "mean_token_accuracy": 0.7862878423929215,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.8138092035471007,
-      "eval_mean_token_accuracy": 0.7570307982522387,
-      "eval_not_syn_loss": 0.9443947076797485,
-      "eval_not_syn_runtime": 96.0009,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.7856217716322389,
-      "eval_mean_token_accuracy": 0.7748590402824934,
       "eval_num_tokens": 7995120.0,
-      "eval_syn_loss": 0.9141804575920105,
-      "eval_syn_runtime": 99.0213,
-      "eval_syn_samples_per_second": 13.886,
-      "eval_syn_steps_per_second": 1.737,
       "step": 3216
     }
   ],
@@ -843,8 +843,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6434446421627494e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     },
     {
+      "entropy": 0.19132825570425602,
       "epoch": 5.099626400996264,
+      "grad_norm": 0.45538511872291565,
+      "learning_rate": 0.0001130760491123961,
+      "loss": 0.153853759765625,
+      "mean_token_accuracy": 0.9434747304579224,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
+      "entropy": 0.17422323439270257,
       "epoch": 5.224159402241594,
+      "grad_norm": 0.4580552279949188,
+      "learning_rate": 0.00010880116157234302,
+      "loss": 0.13612208366394044,
+      "mean_token_accuracy": 0.9487342464923859,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
+      "entropy": 0.1799074411019683,
       "epoch": 5.348692403486924,
+      "grad_norm": 0.39040836691856384,
+      "learning_rate": 0.00010450812570230789,
+      "loss": 0.14250579833984375,
+      "mean_token_accuracy": 0.9467630323767662,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
+      "entropy": 0.18116022080183028,
       "epoch": 5.473225404732254,
+      "grad_norm": 0.3805501163005829,
+      "learning_rate": 0.00010020503244127544,
+      "loss": 0.14014955520629882,
+      "mean_token_accuracy": 0.946874064207077,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
+      "entropy": 0.1810251370444894,
       "epoch": 5.597758405977584,
+      "grad_norm": 0.36377736926078796,
+      "learning_rate": 9.589999168305372e-05,
+      "loss": 0.14044331550598144,
+      "mean_token_accuracy": 0.9467302888631821,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
+      "entropy": 0.17202148117125035,
       "epoch": 5.722291407222914,
+      "grad_norm": 0.38708847761154175,
+      "learning_rate": 9.16011169918326e-05,
+      "loss": 0.13840054512023925,
+      "mean_token_accuracy": 0.9480020496249199,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
+      "entropy": 0.1769936926662922,
       "epoch": 5.846824408468244,
+      "grad_norm": 0.4674988389015198,
+      "learning_rate": 8.73165103108249e-05,
+      "loss": 0.1404121208190918,
+      "mean_token_accuracy": 0.9461787036061287,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
+      "entropy": 0.17118842527270317,
       "epoch": 5.971357409713574,
+      "grad_norm": 0.4454115629196167,
+      "learning_rate": 8.305424669280888e-05,
+      "loss": 0.1366124439239502,
+      "mean_token_accuracy": 0.9484315186738967,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.2494078171114589,
+      "eval_mean_token_accuracy": 0.851767166062843,
+      "eval_not_syn_loss": 0.7222095131874084,
+      "eval_not_syn_runtime": 95.8715,
+      "eval_not_syn_samples_per_second": 14.342,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.239824180079754,
+      "eval_mean_token_accuracy": 0.8484749911829482,
       "eval_num_tokens": 5996340.0,
+      "eval_syn_loss": 0.7036991119384766,
+      "eval_syn_runtime": 98.923,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
+      "entropy": 0.14340858902744572,
       "epoch": 6.094645080946451,
+      "grad_norm": 0.270256370306015,
+      "learning_rate": 7.88223590813502e-05,
+      "loss": 0.10398475646972656,
+      "mean_token_accuracy": 0.9604840600731397,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
+      "entropy": 0.13108037687838078,
       "epoch": 6.219178082191781,
+      "grad_norm": 0.2870016396045685,
+      "learning_rate": 7.462882317138628e-05,
+      "loss": 0.09566926002502442,
+      "mean_token_accuracy": 0.9636739170551301,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
+      "entropy": 0.1305130884796381,
       "epoch": 6.34371108343711,
+      "grad_norm": 0.34119686484336853,
+      "learning_rate": 7.048154237770433e-05,
+      "loss": 0.0943364143371582,
+      "mean_token_accuracy": 0.9643464788794518,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
+      "entropy": 0.12516659261658789,
       "epoch": 6.468244084682441,
+      "grad_norm": 0.2851012051105499,
+      "learning_rate": 6.638833293964401e-05,
+      "loss": 0.09339779853820801,
+      "mean_token_accuracy": 0.9654107868671418,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
+      "entropy": 0.12894487291574477,
       "epoch": 6.592777085927771,
+      "grad_norm": 0.22259071469306946,
+      "learning_rate": 6.235690919009636e-05,
+      "loss": 0.09672751426696777,
+      "mean_token_accuracy": 0.9641611188650131,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
+      "entropy": 0.13079525250941515,
       "epoch": 6.717310087173101,
+      "grad_norm": 0.2873247265815735,
+      "learning_rate": 5.839486901656255e-05,
+      "loss": 0.09482893943786622,
+      "mean_token_accuracy": 0.963907478749752,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
+      "entropy": 0.13382539574056865,
       "epoch": 6.841843088418431,
+      "grad_norm": 0.26538875699043274,
+      "learning_rate": 5.450967954167317e-05,
+      "loss": 0.09817559242248536,
+      "mean_token_accuracy": 0.9620411720871925,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
+      "entropy": 0.12861237980425358,
       "epoch": 6.966376089663761,
+      "grad_norm": 0.3292505443096161,
+      "learning_rate": 5.070866305015545e-05,
+      "loss": 0.09485826492309571,
+      "mean_token_accuracy": 0.9636287876963615,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.2065339538073817,
+      "eval_mean_token_accuracy": 0.8418768654729045,
+      "eval_not_syn_loss": 0.8473101854324341,
+      "eval_not_syn_runtime": 95.8493,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.19768535250494645,
+      "eval_mean_token_accuracy": 0.8554798219093057,
       "eval_num_tokens": 6995730.0,
+      "eval_syn_loss": 0.8169878125190735,
+      "eval_syn_runtime": 98.9508,
+      "eval_syn_samples_per_second": 13.896,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2814
     },
     {
+      "entropy": 0.12029899715097865,
       "epoch": 7.089663760896638,
+      "grad_norm": 0.18435120582580566,
+      "learning_rate": 4.699898318877223e-05,
+      "loss": 0.08083279609680176,
+      "mean_token_accuracy": 0.9689394840688417,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
+      "entropy": 0.10581521928310395,
       "epoch": 7.214196762141968,
+      "grad_norm": 0.2981043756008148,
+      "learning_rate": 4.338763146523955e-05,
+      "loss": 0.07383342266082764,
+      "mean_token_accuracy": 0.9726339945197106,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
+      "entropy": 0.10466793559491634,
       "epoch": 7.338729763387297,
+      "grad_norm": 0.24411630630493164,
+      "learning_rate": 3.988141407156982e-05,
+      "loss": 0.07236807346343994,
+      "mean_token_accuracy": 0.9726200112700463,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
+      "entropy": 0.10792888538911939,
       "epoch": 7.463262764632628,
+      "grad_norm": 0.15558083355426788,
+      "learning_rate": 3.6486939056672404e-05,
+      "loss": 0.0738653564453125,
+      "mean_token_accuracy": 0.9714727732539177,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
+      "entropy": 0.10735130561515689,
       "epoch": 7.587795765877957,
+      "grad_norm": 0.1883469820022583,
+      "learning_rate": 3.321060387238841e-05,
+      "loss": 0.07414769649505615,
+      "mean_token_accuracy": 0.9723327186703682,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
+      "entropy": 0.10272138025611639,
       "epoch": 7.712328767123288,
+      "grad_norm": 0.15312588214874268,
+      "learning_rate": 3.0058583316430158e-05,
+      "loss": 0.07302286624908447,
+      "mean_token_accuracy": 0.9726834264397621,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
+      "entropy": 0.10020780436694622,
       "epoch": 7.8368617683686175,
+      "grad_norm": 0.15675754845142365,
+      "learning_rate": 2.7036817894949623e-05,
+      "loss": 0.06891141891479492,
+      "mean_token_accuracy": 0.9731867194175721,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
+      "entropy": 0.10623522130772471,
       "epoch": 7.961394769613948,
+      "grad_norm": 0.28400713205337524,
+      "learning_rate": 2.415100262666817e-05,
+      "loss": 0.07267386436462403,
+      "mean_token_accuracy": 0.9713605433702469,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.18371209263974844,
+      "eval_mean_token_accuracy": 0.8438690238913824,
+      "eval_not_syn_loss": 0.9368809461593628,
+      "eval_not_syn_runtime": 95.8165,
+      "eval_not_syn_samples_per_second": 14.35,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.17606536935754988,
+      "eval_mean_token_accuracy": 0.8541917884072592,
       "eval_num_tokens": 7995120.0,
+      "eval_syn_loss": 0.905842661857605,
+      "eval_syn_runtime": 98.8452,
+      "eval_syn_samples_per_second": 13.911,
+      "eval_syn_steps_per_second": 1.74,
       "step": 3216
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.3106142200946278e+18,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3216/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f5ff33740ef685048e8f2403f165f907b8ea0f2064c8153354a3b2e734db35c
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae74308deabc0838dec9482819893f19f9a0c7baf003066c29407ba658bda3fd
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/trainer_state.json CHANGED Viewed

@@ -10,921 +10,921 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     },
     {
-      "entropy": 1.345623204202363,
       "epoch": 5.099626400996264,
-      "grad_norm": 0.8724157214164734,
-      "learning_rate": 0.00017244781808693755,
-      "loss": 1.323695831298828,
-      "mean_token_accuracy": 0.6866910710479274,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
-      "entropy": 1.3074172997474671,
       "epoch": 5.224159402241594,
-      "grad_norm": 0.8229172825813293,
-      "learning_rate": 0.00016592835587866364,
-      "loss": 1.295655517578125,
-      "mean_token_accuracy": 0.6931505644321442,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
-      "entropy": 1.298924881219864,
       "epoch": 5.348692403486924,
-      "grad_norm": 0.9111100435256958,
-      "learning_rate": 0.0001593812163688578,
-      "loss": 1.2771641540527343,
-      "mean_token_accuracy": 0.6941236406564713,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
-      "entropy": 1.3120970189571382,
       "epoch": 5.473225404732254,
-      "grad_norm": 0.7868310213088989,
-      "learning_rate": 0.000152818738729123,
-      "loss": 1.2942347717285156,
-      "mean_token_accuracy": 0.6939822369813919,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
-      "entropy": 1.2729843455553054,
       "epoch": 5.597758405977584,
-      "grad_norm": 0.9405992031097412,
-      "learning_rate": 0.00014625329103831503,
-      "loss": 1.2503909301757812,
-      "mean_token_accuracy": 0.7005668586492538,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
-      "entropy": 1.2202323937416077,
       "epoch": 5.722291407222914,
-      "grad_norm": 0.7629554271697998,
-      "learning_rate": 0.00013969724697284394,
-      "loss": 1.199918212890625,
-      "mean_token_accuracy": 0.7085251879692077,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
-      "entropy": 1.1850077486038209,
       "epoch": 5.846824408468244,
-      "grad_norm": 0.9016424417495728,
-      "learning_rate": 0.00013316296248642664,
-      "loss": 1.166585693359375,
-      "mean_token_accuracy": 0.7123788893222809,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
-      "entropy": 1.2040903121232986,
       "epoch": 5.971357409713574,
-      "grad_norm": 0.8533362150192261,
-      "learning_rate": 0.0001266627525232398,
-      "loss": 1.1885869598388672,
-      "mean_token_accuracy": 0.7100468480587006,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.2157157427349756,
-      "eval_mean_token_accuracy": 0.7150737251653227,
-      "eval_not_syn_loss": 1.2506903409957886,
-      "eval_not_syn_runtime": 95.9618,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.178627569661584,
-      "eval_mean_token_accuracy": 0.7016614221556242,
       "eval_num_tokens": 5996340.0,
-      "eval_syn_loss": 1.2114850282669067,
-      "eval_syn_runtime": 98.9234,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
-      "entropy": 1.0982752972178988,
       "epoch": 6.094645080946451,
-      "grad_norm": 1.295694351196289,
-      "learning_rate": 0.00012020886780836267,
-      "loss": 1.0774417877197267,
-      "mean_token_accuracy": 0.7259544272615452,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
-      "entropy": 1.0651295524835587,
       "epoch": 6.219178082191781,
-      "grad_norm": 0.9243665337562561,
-      "learning_rate": 0.0001138134717592517,
-      "loss": 1.0521366119384765,
-      "mean_token_accuracy": 0.7293049448728561,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
-      "entropy": 1.0358434236049652,
       "epoch": 6.34371108343711,
-      "grad_norm": 0.9286350011825562,
-      "learning_rate": 0.00010748861756175999,
-      "loss": 1.018977813720703,
-      "mean_token_accuracy": 0.7370841908454895,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
-      "entropy": 1.0522522723674774,
       "epoch": 6.468244084682441,
-      "grad_norm": 0.9158058762550354,
-      "learning_rate": 0.00010124622545390751,
-      "loss": 1.0335795593261718,
-      "mean_token_accuracy": 0.7348936641216278,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
-      "entropy": 1.0202285438776015,
       "epoch": 6.592777085927771,
-      "grad_norm": 0.8085289597511292,
-      "learning_rate": 9.509806026021276e-05,
-      "loss": 1.0074135589599609,
-      "mean_token_accuracy": 0.7410361844301224,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
-      "entropy": 0.9939206629991532,
       "epoch": 6.717310087173101,
-      "grad_norm": 0.7527234554290771,
-      "learning_rate": 8.90557092189276e-05,
-      "loss": 0.9766032409667968,
-      "mean_token_accuracy": 0.7435237610340119,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
-      "entropy": 0.985169340968132,
       "epoch": 6.841843088418431,
-      "grad_norm": 0.9773848056793213,
-      "learning_rate": 8.313056014396262e-05,
-      "loss": 0.9680111694335938,
-      "mean_token_accuracy": 0.7455707538127899,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
-      "entropy": 0.9864326739311218,
       "epoch": 6.966376089663761,
-      "grad_norm": 0.7536692023277283,
-      "learning_rate": 7.733377996266039e-05,
-      "loss": 0.9636287689208984,
-      "mean_token_accuracy": 0.7498565518856048,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 1.0250733893278032,
-      "eval_mean_token_accuracy": 0.7460000244683997,
-      "eval_not_syn_loss": 1.0630079507827759,
-      "eval_not_syn_runtime": 96.0062,
-      "eval_not_syn_samples_per_second": 14.322,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 0.9910203045190766,
-      "eval_mean_token_accuracy": 0.7360078449859175,
       "eval_num_tokens": 6995730.0,
-      "eval_syn_loss": 1.0268242359161377,
-      "eval_syn_runtime": 99.1365,
-      "eval_syn_samples_per_second": 13.87,
-      "eval_syn_steps_per_second": 1.735,
       "step": 2814
     },
     {
-      "entropy": 0.8933790849916863,
       "epoch": 7.089663760896638,
-      "grad_norm": 0.9901642799377441,
-      "learning_rate": 7.16762936698672e-05,
-      "loss": 0.870389404296875,
-      "mean_token_accuracy": 0.7670638844220325,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
-      "entropy": 0.8327929264307022,
       "epoch": 7.214196762141968,
-      "grad_norm": 0.9863399267196655,
-      "learning_rate": 6.616876373796547e-05,
-      "loss": 0.8118631744384766,
-      "mean_token_accuracy": 0.7749309521913529,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
-      "entropy": 0.8421830326318741,
       "epoch": 7.338729763387297,
-      "grad_norm": 0.9192395210266113,
-      "learning_rate": 6.082157002167449e-05,
-      "loss": 0.8261887359619141,
-      "mean_token_accuracy": 0.7743502056598663,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
-      "entropy": 0.8124729514122009,
       "epoch": 7.463262764632628,
-      "grad_norm": 0.807341456413269,
-      "learning_rate": 5.564479019549013e-05,
-      "loss": 0.79787353515625,
-      "mean_token_accuracy": 0.7786311388015748,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
-      "entropy": 0.8328139960765839,
       "epoch": 7.587795765877957,
-      "grad_norm": 0.8058074116706848,
-      "learning_rate": 5.064818076063412e-05,
-      "loss": 0.8112649536132812,
-      "mean_token_accuracy": 0.7778408378362656,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
-      "entropy": 0.8063498467206955,
       "epoch": 7.712328767123288,
-      "grad_norm": 1.1108580827713013,
-      "learning_rate": 4.584115865730714e-05,
-      "loss": 0.7904315185546875,
-      "mean_token_accuracy": 0.7799610030651093,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
-      "entropy": 0.8056518918275833,
       "epoch": 7.8368617683686175,
-      "grad_norm": 1.0046204328536987,
-      "learning_rate": 4.123278351690132e-05,
-      "loss": 0.7889098358154297,
-      "mean_token_accuracy": 0.781885308623314,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
-      "entropy": 0.7862150323390961,
       "epoch": 7.961394769613948,
-      "grad_norm": 0.8963404893875122,
-      "learning_rate": 3.683174058762063e-05,
-      "loss": 0.7703626251220703,
-      "mean_token_accuracy": 0.7862878423929215,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.8138092035471007,
-      "eval_mean_token_accuracy": 0.7570307982522387,
-      "eval_not_syn_loss": 0.9443947076797485,
-      "eval_not_syn_runtime": 96.0009,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.7856217716322389,
-      "eval_mean_token_accuracy": 0.7748590402824934,
       "eval_num_tokens": 7995120.0,
-      "eval_syn_loss": 0.9141804575920105,
-      "eval_syn_runtime": 99.0213,
-      "eval_syn_samples_per_second": 13.886,
-      "eval_syn_steps_per_second": 1.737,
       "step": 3216
     },
     {
-      "entropy": 0.717324167188972,
       "epoch": 8.084682440846825,
-      "grad_norm": 0.7706292271614075,
-      "learning_rate": 3.26463243656881e-05,
-      "loss": 0.6817562103271484,
-      "mean_token_accuracy": 0.8034305211269495,
       "num_tokens": 8081323.0,
       "step": 3250
     },
     {
-      "entropy": 0.7076752084493637,
       "epoch": 8.209215442092155,
-      "grad_norm": 0.7392331957817078,
-      "learning_rate": 2.8684422962990643e-05,
-      "loss": 0.6874848175048828,
-      "mean_token_accuracy": 0.8040069764852524,
       "num_tokens": 8208468.0,
       "step": 3300
     },
     {
-      "entropy": 0.7056704825162887,
       "epoch": 8.333748443337484,
-      "grad_norm": 0.9019565582275391,
-      "learning_rate": 2.4953503240622073e-05,
-      "loss": 0.6827576446533203,
-      "mean_token_accuracy": 0.8037591743469238,
       "num_tokens": 8329436.0,
       "step": 3350
     },
     {
-      "entropy": 0.6830038994550705,
       "epoch": 8.458281444582815,
-      "grad_norm": 0.9338183999061584,
-      "learning_rate": 2.146059673634357e-05,
-      "loss": 0.6555431365966797,
-      "mean_token_accuracy": 0.80817536175251,
       "num_tokens": 8449737.0,
       "step": 3400
     },
     {
-      "entropy": 0.6841743963956833,
       "epoch": 8.582814445828145,
-      "grad_norm": 0.8519166707992554,
-      "learning_rate": 1.8212286412483148e-05,
-      "loss": 0.6660543823242188,
-      "mean_token_accuracy": 0.8084699755907059,
       "num_tokens": 8572556.0,
       "step": 3450
     },
     {
-      "entropy": 0.6859753090143204,
       "epoch": 8.707347447073474,
-      "grad_norm": 0.8856426477432251,
-      "learning_rate": 1.5214694249249967e-05,
-      "loss": 0.6608637237548828,
-      "mean_token_accuracy": 0.8085391563177109,
       "num_tokens": 8703112.0,
       "step": 3500
     },
     {
-      "entropy": 0.6650526940822601,
       "epoch": 8.831880448318804,
-      "grad_norm": 0.8123352527618408,
-      "learning_rate": 1.2473469706846106e-05,
-      "loss": 0.636329345703125,
-      "mean_token_accuracy": 0.8127367502450943,
       "num_tokens": 8829124.0,
       "step": 3550
     },
     {
-      "entropy": 0.674993228316307,
       "epoch": 8.956413449564135,
-      "grad_norm": 0.8388631343841553,
-      "learning_rate": 9.993779078120502e-06,
-      "loss": 0.6549046325683594,
-      "mean_token_accuracy": 0.8100328993797302,
       "num_tokens": 8951338.0,
       "step": 3600
     },
     {
       "epoch": 9.0,
-      "eval_entropy": 0.7291332736264827,
-      "eval_mean_token_accuracy": 0.7639909365842509,
-      "eval_not_syn_loss": 0.9260964393615723,
-      "eval_not_syn_runtime": 96.0349,
-      "eval_not_syn_samples_per_second": 14.318,
-      "eval_not_syn_steps_per_second": 1.791,
       "eval_num_tokens": 8994510.0,
       "step": 3618
     },
     {
       "epoch": 9.0,
-      "eval_entropy": 0.7045032125572825,
-      "eval_mean_token_accuracy": 0.7828773402197416,
       "eval_num_tokens": 8994510.0,
-      "eval_syn_loss": 0.891645610332489,
-      "eval_syn_runtime": 99.041,
-      "eval_syn_samples_per_second": 13.883,
-      "eval_syn_steps_per_second": 1.737,
       "step": 3618
     }
   ],
@@ -945,8 +945,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8473447323008922e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     },
     {
+      "entropy": 0.19132825570425602,
       "epoch": 5.099626400996264,
+      "grad_norm": 0.45538511872291565,
+      "learning_rate": 0.0001130760491123961,
+      "loss": 0.153853759765625,
+      "mean_token_accuracy": 0.9434747304579224,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
+      "entropy": 0.17422323439270257,
       "epoch": 5.224159402241594,
+      "grad_norm": 0.4580552279949188,
+      "learning_rate": 0.00010880116157234302,
+      "loss": 0.13612208366394044,
+      "mean_token_accuracy": 0.9487342464923859,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
+      "entropy": 0.1799074411019683,
       "epoch": 5.348692403486924,
+      "grad_norm": 0.39040836691856384,
+      "learning_rate": 0.00010450812570230789,
+      "loss": 0.14250579833984375,
+      "mean_token_accuracy": 0.9467630323767662,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
+      "entropy": 0.18116022080183028,
       "epoch": 5.473225404732254,
+      "grad_norm": 0.3805501163005829,
+      "learning_rate": 0.00010020503244127544,
+      "loss": 0.14014955520629882,
+      "mean_token_accuracy": 0.946874064207077,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
+      "entropy": 0.1810251370444894,
       "epoch": 5.597758405977584,
+      "grad_norm": 0.36377736926078796,
+      "learning_rate": 9.589999168305372e-05,
+      "loss": 0.14044331550598144,
+      "mean_token_accuracy": 0.9467302888631821,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
+      "entropy": 0.17202148117125035,
       "epoch": 5.722291407222914,
+      "grad_norm": 0.38708847761154175,
+      "learning_rate": 9.16011169918326e-05,
+      "loss": 0.13840054512023925,
+      "mean_token_accuracy": 0.9480020496249199,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
+      "entropy": 0.1769936926662922,
       "epoch": 5.846824408468244,
+      "grad_norm": 0.4674988389015198,
+      "learning_rate": 8.73165103108249e-05,
+      "loss": 0.1404121208190918,
+      "mean_token_accuracy": 0.9461787036061287,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
+      "entropy": 0.17118842527270317,
       "epoch": 5.971357409713574,
+      "grad_norm": 0.4454115629196167,
+      "learning_rate": 8.305424669280888e-05,
+      "loss": 0.1366124439239502,
+      "mean_token_accuracy": 0.9484315186738967,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.2494078171114589,
+      "eval_mean_token_accuracy": 0.851767166062843,
+      "eval_not_syn_loss": 0.7222095131874084,
+      "eval_not_syn_runtime": 95.8715,
+      "eval_not_syn_samples_per_second": 14.342,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.239824180079754,
+      "eval_mean_token_accuracy": 0.8484749911829482,
       "eval_num_tokens": 5996340.0,
+      "eval_syn_loss": 0.7036991119384766,
+      "eval_syn_runtime": 98.923,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
+      "entropy": 0.14340858902744572,
       "epoch": 6.094645080946451,
+      "grad_norm": 0.270256370306015,
+      "learning_rate": 7.88223590813502e-05,
+      "loss": 0.10398475646972656,
+      "mean_token_accuracy": 0.9604840600731397,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
+      "entropy": 0.13108037687838078,
       "epoch": 6.219178082191781,
+      "grad_norm": 0.2870016396045685,
+      "learning_rate": 7.462882317138628e-05,
+      "loss": 0.09566926002502442,
+      "mean_token_accuracy": 0.9636739170551301,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
+      "entropy": 0.1305130884796381,
       "epoch": 6.34371108343711,
+      "grad_norm": 0.34119686484336853,
+      "learning_rate": 7.048154237770433e-05,
+      "loss": 0.0943364143371582,
+      "mean_token_accuracy": 0.9643464788794518,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
+      "entropy": 0.12516659261658789,
       "epoch": 6.468244084682441,
+      "grad_norm": 0.2851012051105499,
+      "learning_rate": 6.638833293964401e-05,
+      "loss": 0.09339779853820801,
+      "mean_token_accuracy": 0.9654107868671418,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
+      "entropy": 0.12894487291574477,
       "epoch": 6.592777085927771,
+      "grad_norm": 0.22259071469306946,
+      "learning_rate": 6.235690919009636e-05,
+      "loss": 0.09672751426696777,
+      "mean_token_accuracy": 0.9641611188650131,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
+      "entropy": 0.13079525250941515,
       "epoch": 6.717310087173101,
+      "grad_norm": 0.2873247265815735,
+      "learning_rate": 5.839486901656255e-05,
+      "loss": 0.09482893943786622,
+      "mean_token_accuracy": 0.963907478749752,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
+      "entropy": 0.13382539574056865,
       "epoch": 6.841843088418431,
+      "grad_norm": 0.26538875699043274,
+      "learning_rate": 5.450967954167317e-05,
+      "loss": 0.09817559242248536,
+      "mean_token_accuracy": 0.9620411720871925,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
+      "entropy": 0.12861237980425358,
       "epoch": 6.966376089663761,
+      "grad_norm": 0.3292505443096161,
+      "learning_rate": 5.070866305015545e-05,
+      "loss": 0.09485826492309571,
+      "mean_token_accuracy": 0.9636287876963615,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.2065339538073817,
+      "eval_mean_token_accuracy": 0.8418768654729045,
+      "eval_not_syn_loss": 0.8473101854324341,
+      "eval_not_syn_runtime": 95.8493,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.19768535250494645,
+      "eval_mean_token_accuracy": 0.8554798219093057,
       "eval_num_tokens": 6995730.0,
+      "eval_syn_loss": 0.8169878125190735,
+      "eval_syn_runtime": 98.9508,
+      "eval_syn_samples_per_second": 13.896,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2814
     },
     {
+      "entropy": 0.12029899715097865,
       "epoch": 7.089663760896638,
+      "grad_norm": 0.18435120582580566,
+      "learning_rate": 4.699898318877223e-05,
+      "loss": 0.08083279609680176,
+      "mean_token_accuracy": 0.9689394840688417,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
+      "entropy": 0.10581521928310395,
       "epoch": 7.214196762141968,
+      "grad_norm": 0.2981043756008148,
+      "learning_rate": 4.338763146523955e-05,
+      "loss": 0.07383342266082764,
+      "mean_token_accuracy": 0.9726339945197106,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
+      "entropy": 0.10466793559491634,
       "epoch": 7.338729763387297,
+      "grad_norm": 0.24411630630493164,
+      "learning_rate": 3.988141407156982e-05,
+      "loss": 0.07236807346343994,
+      "mean_token_accuracy": 0.9726200112700463,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
+      "entropy": 0.10792888538911939,
       "epoch": 7.463262764632628,
+      "grad_norm": 0.15558083355426788,
+      "learning_rate": 3.6486939056672404e-05,
+      "loss": 0.0738653564453125,
+      "mean_token_accuracy": 0.9714727732539177,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
+      "entropy": 0.10735130561515689,
       "epoch": 7.587795765877957,
+      "grad_norm": 0.1883469820022583,
+      "learning_rate": 3.321060387238841e-05,
+      "loss": 0.07414769649505615,
+      "mean_token_accuracy": 0.9723327186703682,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
+      "entropy": 0.10272138025611639,
       "epoch": 7.712328767123288,
+      "grad_norm": 0.15312588214874268,
+      "learning_rate": 3.0058583316430158e-05,
+      "loss": 0.07302286624908447,
+      "mean_token_accuracy": 0.9726834264397621,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
+      "entropy": 0.10020780436694622,
       "epoch": 7.8368617683686175,
+      "grad_norm": 0.15675754845142365,
+      "learning_rate": 2.7036817894949623e-05,
+      "loss": 0.06891141891479492,
+      "mean_token_accuracy": 0.9731867194175721,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
+      "entropy": 0.10623522130772471,
       "epoch": 7.961394769613948,
+      "grad_norm": 0.28400713205337524,
+      "learning_rate": 2.415100262666817e-05,
+      "loss": 0.07267386436462403,
+      "mean_token_accuracy": 0.9713605433702469,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.18371209263974844,
+      "eval_mean_token_accuracy": 0.8438690238913824,
+      "eval_not_syn_loss": 0.9368809461593628,
+      "eval_not_syn_runtime": 95.8165,
+      "eval_not_syn_samples_per_second": 14.35,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.17606536935754988,
+      "eval_mean_token_accuracy": 0.8541917884072592,
       "eval_num_tokens": 7995120.0,
+      "eval_syn_loss": 0.905842661857605,
+      "eval_syn_runtime": 98.8452,
+      "eval_syn_samples_per_second": 13.911,
+      "eval_syn_steps_per_second": 1.74,
       "step": 3216
     },
     {
+      "entropy": 0.09641267131600115,
       "epoch": 8.084682440846825,
+      "grad_norm": 0.10478409379720688,
+      "learning_rate": 2.1406576309667927e-05,
+      "loss": 0.06422062397003174,
+      "mean_token_accuracy": 0.974858273761441,
       "num_tokens": 8081323.0,
       "step": 3250
     },
     {
+      "entropy": 0.09412769414484501,
       "epoch": 8.209215442092155,
+      "grad_norm": 0.1294923573732376,
+      "learning_rate": 1.8808711271073835e-05,
+      "loss": 0.06173128604888916,
+      "mean_token_accuracy": 0.9750720876455307,
       "num_tokens": 8208468.0,
       "step": 3300
     },
     {
+      "entropy": 0.09561639416962862,
       "epoch": 8.333748443337484,
+      "grad_norm": 0.1887606382369995,
+      "learning_rate": 1.6362303618944128e-05,
+      "loss": 0.06482413768768311,
+      "mean_token_accuracy": 0.9742087376117706,
       "num_tokens": 8329436.0,
       "step": 3350
     },
     {
+      "entropy": 0.09427102731540798,
       "epoch": 8.458281444582815,
+      "grad_norm": 0.09633524715900421,
+      "learning_rate": 1.407196401474173e-05,
+      "loss": 0.06472210884094239,
+      "mean_token_accuracy": 0.974975728392601,
       "num_tokens": 8449737.0,
       "step": 3400
     },
     {
+      "entropy": 0.09517974983900786,
       "epoch": 8.582814445828145,
+      "grad_norm": 0.09141165018081665,
+      "learning_rate": 1.194200898377711e-05,
+      "loss": 0.06492462158203124,
+      "mean_token_accuracy": 0.9747303375601768,
       "num_tokens": 8572556.0,
       "step": 3450
     },
     {
+      "entropy": 0.09041798285208642,
       "epoch": 8.707347447073474,
+      "grad_norm": 0.22126418352127075,
+      "learning_rate": 9.976452779999523e-06,
+      "loss": 0.061339192390441895,
+      "mean_token_accuracy": 0.9752290603518486,
       "num_tokens": 8703112.0,
       "step": 3500
     },
     {
+      "entropy": 0.09546036465093494,
       "epoch": 8.831880448318804,
+      "grad_norm": 0.15855053067207336,
+      "learning_rate": 8.178999820468898e-06,
+      "loss": 0.06384926795959472,
+      "mean_token_accuracy": 0.9744252774119377,
       "num_tokens": 8829124.0,
       "step": 3550
     },
     {
+      "entropy": 0.10058791788294912,
       "epoch": 8.956413449564135,
+      "grad_norm": 0.10365262627601624,
+      "learning_rate": 6.553037703766629e-06,
+      "loss": 0.06539971351623536,
+      "mean_token_accuracy": 0.972833506166935,
       "num_tokens": 8951338.0,
       "step": 3600
     },
     {
       "epoch": 9.0,
+      "eval_entropy": 0.1707501579509225,
+      "eval_mean_token_accuracy": 0.8436840848867283,
+      "eval_not_syn_loss": 1.025063157081604,
+      "eval_not_syn_runtime": 95.8518,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 8994510.0,
       "step": 3618
     },
     {
       "epoch": 9.0,
+      "eval_entropy": 0.163228454977967,
+      "eval_mean_token_accuracy": 0.8539366458737573,
       "eval_num_tokens": 8994510.0,
+      "eval_syn_loss": 0.985819399356842,
+      "eval_syn_runtime": 98.9324,
+      "eval_syn_samples_per_second": 13.898,
+      "eval_syn_steps_per_second": 1.739,
       "step": 3618
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.474001737996677e+18,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-3618/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82bf059fef568bdb8d1163d8674420e29b607b7570d5ff862eca2952ec8de6ae
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe24ed9b42c27216cd5d12ca0400d02f41cbd9005692cdd75755209030018078
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/trainer_state.json CHANGED Viewed

@@ -10,105 +10,105 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     }
   ],
@@ -129,8 +129,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0613594113258496e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.6443486597608448e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-402/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50e070bee072e5e4cc08e77783f9c22d1eee1a9c05da39322918bd3d1239158c
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e6e0bcbf66c8d5573af14450a8cdf7e8a8e6c9b590dc9dbae935d312b3e32f2
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/trainer_state.json CHANGED Viewed

@@ -10,1023 +10,1023 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     },
     {
-      "entropy": 2.380885266294383,
       "epoch": 2.1145703611457036,
-      "grad_norm": 0.7961218953132629,
-      "learning_rate": 0.00029123539186406294,
-      "loss": 2.3589501953125,
-      "mean_token_accuracy": 0.550012742630159,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
-      "entropy": 2.3139565205574035,
       "epoch": 2.2391033623910337,
-      "grad_norm": 0.7128121256828308,
-      "learning_rate": 0.00028861908897689166,
-      "loss": 2.2914646911621093,
-      "mean_token_accuracy": 0.5581977427005768,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
-      "entropy": 2.247106301784515,
       "epoch": 2.3636363636363638,
-      "grad_norm": 0.7539874315261841,
-      "learning_rate": 0.00028574387772804067,
-      "loss": 2.212442169189453,
-      "mean_token_accuracy": 0.5661728882789612,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
-      "entropy": 2.177862950563431,
       "epoch": 2.488169364881694,
-      "grad_norm": 1.169326663017273,
-      "learning_rate": 0.00028261517693055664,
-      "loss": 2.1524928283691405,
-      "mean_token_accuracy": 0.574029511809349,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
-      "entropy": 2.11708885550499,
       "epoch": 2.6127023661270234,
-      "grad_norm": 0.6508749723434448,
-      "learning_rate": 0.0002792388831406343,
-      "loss": 2.0897698974609376,
-      "mean_token_accuracy": 0.5808322209119797,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
-      "entropy": 2.0785110569000245,
       "epoch": 2.7372353673723535,
-      "grad_norm": 1.4157167673110962,
-      "learning_rate": 0.0002756213595445772,
-      "loss": 2.0574497985839844,
-      "mean_token_accuracy": 0.5843770909309387,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
-      "entropy": 2.091529769897461,
       "epoch": 2.8617683686176836,
-      "grad_norm": 1.6840300559997559,
-      "learning_rate": 0.00027176942396631626,
-      "loss": 2.062296142578125,
-      "mean_token_accuracy": 0.58568293094635,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
-      "entropy": 2.0315397584438326,
       "epoch": 2.9863013698630136,
-      "grad_norm": 1.153908133506775,
-      "learning_rate": 0.0002676903360180885,
-      "loss": 2.0053924560546874,
-      "mean_token_accuracy": 0.5878721660375595,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 2.0182155738043233,
-      "eval_mean_token_accuracy": 0.5854449913252232,
-      "eval_not_syn_loss": 2.0105812549591064,
-      "eval_not_syn_runtime": 95.9278,
-      "eval_not_syn_samples_per_second": 14.334,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 1.9446905400863914,
-      "eval_mean_token_accuracy": 0.5995188099007274,
       "eval_num_tokens": 2998170.0,
-      "eval_syn_loss": 1.9396028518676758,
-      "eval_syn_runtime": 98.8737,
-      "eval_syn_samples_per_second": 13.907,
-      "eval_syn_steps_per_second": 1.74,
       "step": 1206
     },
     {
-      "entropy": 1.9578519951213489,
       "epoch": 3.1095890410958904,
-      "grad_norm": 0.6903329491615295,
-      "learning_rate": 0.00026339178341849265,
-      "loss": 1.9289002990722657,
-      "mean_token_accuracy": 0.5986791457792725,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
-      "entropy": 1.9225856459140778,
       "epoch": 3.2341220423412205,
-      "grad_norm": 0.9334422945976257,
-      "learning_rate": 0.00025888186750370616,
-      "loss": 1.9024064636230469,
-      "mean_token_accuracy": 0.6029617834091187,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
-      "entropy": 1.8814079523086549,
       "epoch": 3.3586550435865505,
-      "grad_norm": 0.779586911201477,
-      "learning_rate": 0.00025416908795917244,
-      "loss": 1.8609922790527345,
-      "mean_token_accuracy": 0.6097110098600388,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
-      "entropy": 1.8681990671157838,
       "epoch": 3.4831880448318806,
-      "grad_norm": 0.941205620765686,
-      "learning_rate": 0.0002492623268005321,
-      "loss": 1.8448422241210938,
-      "mean_token_accuracy": 0.6135021150112152,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
-      "entropy": 1.8034737646579742,
       "epoch": 3.6077210460772102,
-      "grad_norm": 1.2094346284866333,
-      "learning_rate": 0.0002441708316339893,
-      "loss": 1.7913978576660157,
-      "mean_token_accuracy": 0.622687805891037,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
-      "entropy": 1.8016248047351837,
       "epoch": 3.7322540473225407,
-      "grad_norm": 0.7303705215454102,
-      "learning_rate": 0.00023890419822766254,
-      "loss": 1.7701612854003905,
-      "mean_token_accuracy": 0.6246249091625213,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
-      "entropy": 1.7500162029266357,
       "epoch": 3.8567870485678704,
-      "grad_norm": 0.954683244228363,
-      "learning_rate": 0.0002334723524267661,
-      "loss": 1.7250523376464844,
-      "mean_token_accuracy": 0.6312138819694519,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
-      "entropy": 1.6828746914863586,
       "epoch": 3.9813200498132004,
-      "grad_norm": 0.8929846882820129,
-      "learning_rate": 0.0002278855314467064,
-      "loss": 1.6539949035644532,
-      "mean_token_accuracy": 0.6412730294466019,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.7406537913998892,
-      "eval_mean_token_accuracy": 0.6226560525422873,
-      "eval_not_syn_loss": 1.707612156867981,
-      "eval_not_syn_runtime": 95.956,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 1.6662698221761127,
-      "eval_mean_token_accuracy": 0.6587355476479198,
       "eval_num_tokens": 3997560.0,
-      "eval_syn_loss": 1.6402223110198975,
-      "eval_syn_runtime": 99.0503,
-      "eval_syn_samples_per_second": 13.882,
-      "eval_syn_steps_per_second": 1.736,
       "step": 1608
     },
     {
-      "entropy": 1.634241136637601,
       "epoch": 4.104607721046078,
-      "grad_norm": 0.7396109700202942,
-      "learning_rate": 0.0002221542645793497,
-      "loss": 1.610531768798828,
-      "mean_token_accuracy": 0.6454936681371747,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
-      "entropy": 1.588758965730667,
       "epoch": 4.229140722291407,
-      "grad_norm": 0.779146134853363,
-      "learning_rate": 0.00021628935334882304,
-      "loss": 1.5645944213867187,
-      "mean_token_accuracy": 0.6525067055225372,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
-      "entropy": 1.5439102852344513,
       "epoch": 4.353673723536737,
-      "grad_norm": 0.614967942237854,
-      "learning_rate": 0.00021030185115424846,
-      "loss": 1.5180734252929688,
-      "mean_token_accuracy": 0.6614933741092682,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
-      "entropy": 1.5201536059379577,
       "epoch": 4.478206724782067,
-      "grad_norm": 0.6725050210952759,
-      "learning_rate": 0.00020420304243777673,
-      "loss": 1.4964521789550782,
-      "mean_token_accuracy": 0.6630363047122956,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
-      "entropy": 1.503999525308609,
       "epoch": 4.602739726027397,
-      "grad_norm": 0.7740678191184998,
-      "learning_rate": 0.00019800442141718245,
-      "loss": 1.4821170043945313,
-      "mean_token_accuracy": 0.6658095389604568,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
-      "entropy": 1.4707296586036682,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7613642811775208,
-      "learning_rate": 0.00019171767042310182,
-      "loss": 1.451023406982422,
-      "mean_token_accuracy": 0.6706610345840454,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
-      "entropy": 1.449094181060791,
       "epoch": 4.851805728518057,
-      "grad_norm": 0.7195038199424744,
-      "learning_rate": 0.00018535463788174053,
-      "loss": 1.4288282775878907,
-      "mean_token_accuracy": 0.6740301263332367,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
-      "entropy": 1.4346733844280244,
       "epoch": 4.976338729763388,
-      "grad_norm": 0.7584077715873718,
-      "learning_rate": 0.00017892731598454726,
-      "loss": 1.4155799865722656,
-      "mean_token_accuracy": 0.6788010179996491,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4948647777701534,
-      "eval_mean_token_accuracy": 0.661396715876668,
-      "eval_not_syn_loss": 1.4358112812042236,
-      "eval_not_syn_runtime": 95.9987,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 1.4439531952835793,
-      "eval_mean_token_accuracy": 0.6999529783808908,
       "eval_num_tokens": 4996950.0,
-      "eval_syn_loss": 1.3766233921051025,
-      "eval_syn_runtime": 99.0602,
-      "eval_syn_samples_per_second": 13.88,
-      "eval_syn_steps_per_second": 1.736,
       "step": 2010
     },
     {
-      "entropy": 1.345623204202363,
       "epoch": 5.099626400996264,
-      "grad_norm": 0.8724157214164734,
-      "learning_rate": 0.00017244781808693755,
-      "loss": 1.323695831298828,
-      "mean_token_accuracy": 0.6866910710479274,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
-      "entropy": 1.3074172997474671,
       "epoch": 5.224159402241594,
-      "grad_norm": 0.8229172825813293,
-      "learning_rate": 0.00016592835587866364,
-      "loss": 1.295655517578125,
-      "mean_token_accuracy": 0.6931505644321442,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
-      "entropy": 1.298924881219864,
       "epoch": 5.348692403486924,
-      "grad_norm": 0.9111100435256958,
-      "learning_rate": 0.0001593812163688578,
-      "loss": 1.2771641540527343,
-      "mean_token_accuracy": 0.6941236406564713,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
-      "entropy": 1.3120970189571382,
       "epoch": 5.473225404732254,
-      "grad_norm": 0.7868310213088989,
-      "learning_rate": 0.000152818738729123,
-      "loss": 1.2942347717285156,
-      "mean_token_accuracy": 0.6939822369813919,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
-      "entropy": 1.2729843455553054,
       "epoch": 5.597758405977584,
-      "grad_norm": 0.9405992031097412,
-      "learning_rate": 0.00014625329103831503,
-      "loss": 1.2503909301757812,
-      "mean_token_accuracy": 0.7005668586492538,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
-      "entropy": 1.2202323937416077,
       "epoch": 5.722291407222914,
-      "grad_norm": 0.7629554271697998,
-      "learning_rate": 0.00013969724697284394,
-      "loss": 1.199918212890625,
-      "mean_token_accuracy": 0.7085251879692077,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
-      "entropy": 1.1850077486038209,
       "epoch": 5.846824408468244,
-      "grad_norm": 0.9016424417495728,
-      "learning_rate": 0.00013316296248642664,
-      "loss": 1.166585693359375,
-      "mean_token_accuracy": 0.7123788893222809,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
-      "entropy": 1.2040903121232986,
       "epoch": 5.971357409713574,
-      "grad_norm": 0.8533362150192261,
-      "learning_rate": 0.0001266627525232398,
-      "loss": 1.1885869598388672,
-      "mean_token_accuracy": 0.7100468480587006,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.2157157427349756,
-      "eval_mean_token_accuracy": 0.7150737251653227,
-      "eval_not_syn_loss": 1.2506903409957886,
-      "eval_not_syn_runtime": 95.9618,
-      "eval_not_syn_samples_per_second": 14.329,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
-      "eval_entropy": 1.178627569661584,
-      "eval_mean_token_accuracy": 0.7016614221556242,
       "eval_num_tokens": 5996340.0,
-      "eval_syn_loss": 1.2114850282669067,
-      "eval_syn_runtime": 98.9234,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
-      "entropy": 1.0982752972178988,
       "epoch": 6.094645080946451,
-      "grad_norm": 1.295694351196289,
-      "learning_rate": 0.00012020886780836267,
-      "loss": 1.0774417877197267,
-      "mean_token_accuracy": 0.7259544272615452,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
-      "entropy": 1.0651295524835587,
       "epoch": 6.219178082191781,
-      "grad_norm": 0.9243665337562561,
-      "learning_rate": 0.0001138134717592517,
-      "loss": 1.0521366119384765,
-      "mean_token_accuracy": 0.7293049448728561,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
-      "entropy": 1.0358434236049652,
       "epoch": 6.34371108343711,
-      "grad_norm": 0.9286350011825562,
-      "learning_rate": 0.00010748861756175999,
-      "loss": 1.018977813720703,
-      "mean_token_accuracy": 0.7370841908454895,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
-      "entropy": 1.0522522723674774,
       "epoch": 6.468244084682441,
-      "grad_norm": 0.9158058762550354,
-      "learning_rate": 0.00010124622545390751,
-      "loss": 1.0335795593261718,
-      "mean_token_accuracy": 0.7348936641216278,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
-      "entropy": 1.0202285438776015,
       "epoch": 6.592777085927771,
-      "grad_norm": 0.8085289597511292,
-      "learning_rate": 9.509806026021276e-05,
-      "loss": 1.0074135589599609,
-      "mean_token_accuracy": 0.7410361844301224,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
-      "entropy": 0.9939206629991532,
       "epoch": 6.717310087173101,
-      "grad_norm": 0.7527234554290771,
-      "learning_rate": 8.90557092189276e-05,
-      "loss": 0.9766032409667968,
-      "mean_token_accuracy": 0.7435237610340119,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
-      "entropy": 0.985169340968132,
       "epoch": 6.841843088418431,
-      "grad_norm": 0.9773848056793213,
-      "learning_rate": 8.313056014396262e-05,
-      "loss": 0.9680111694335938,
-      "mean_token_accuracy": 0.7455707538127899,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
-      "entropy": 0.9864326739311218,
       "epoch": 6.966376089663761,
-      "grad_norm": 0.7536692023277283,
-      "learning_rate": 7.733377996266039e-05,
-      "loss": 0.9636287689208984,
-      "mean_token_accuracy": 0.7498565518856048,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 1.0250733893278032,
-      "eval_mean_token_accuracy": 0.7460000244683997,
-      "eval_not_syn_loss": 1.0630079507827759,
-      "eval_not_syn_runtime": 96.0062,
-      "eval_not_syn_samples_per_second": 14.322,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
-      "eval_entropy": 0.9910203045190766,
-      "eval_mean_token_accuracy": 0.7360078449859175,
       "eval_num_tokens": 6995730.0,
-      "eval_syn_loss": 1.0268242359161377,
-      "eval_syn_runtime": 99.1365,
-      "eval_syn_samples_per_second": 13.87,
-      "eval_syn_steps_per_second": 1.735,
       "step": 2814
     },
     {
-      "entropy": 0.8933790849916863,
       "epoch": 7.089663760896638,
-      "grad_norm": 0.9901642799377441,
-      "learning_rate": 7.16762936698672e-05,
-      "loss": 0.870389404296875,
-      "mean_token_accuracy": 0.7670638844220325,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
-      "entropy": 0.8327929264307022,
       "epoch": 7.214196762141968,
-      "grad_norm": 0.9863399267196655,
-      "learning_rate": 6.616876373796547e-05,
-      "loss": 0.8118631744384766,
-      "mean_token_accuracy": 0.7749309521913529,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
-      "entropy": 0.8421830326318741,
       "epoch": 7.338729763387297,
-      "grad_norm": 0.9192395210266113,
-      "learning_rate": 6.082157002167449e-05,
-      "loss": 0.8261887359619141,
-      "mean_token_accuracy": 0.7743502056598663,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
-      "entropy": 0.8124729514122009,
       "epoch": 7.463262764632628,
-      "grad_norm": 0.807341456413269,
-      "learning_rate": 5.564479019549013e-05,
-      "loss": 0.79787353515625,
-      "mean_token_accuracy": 0.7786311388015748,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
-      "entropy": 0.8328139960765839,
       "epoch": 7.587795765877957,
-      "grad_norm": 0.8058074116706848,
-      "learning_rate": 5.064818076063412e-05,
-      "loss": 0.8112649536132812,
-      "mean_token_accuracy": 0.7778408378362656,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
-      "entropy": 0.8063498467206955,
       "epoch": 7.712328767123288,
-      "grad_norm": 1.1108580827713013,
-      "learning_rate": 4.584115865730714e-05,
-      "loss": 0.7904315185546875,
-      "mean_token_accuracy": 0.7799610030651093,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
-      "entropy": 0.8056518918275833,
       "epoch": 7.8368617683686175,
-      "grad_norm": 1.0046204328536987,
-      "learning_rate": 4.123278351690132e-05,
-      "loss": 0.7889098358154297,
-      "mean_token_accuracy": 0.781885308623314,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
-      "entropy": 0.7862150323390961,
       "epoch": 7.961394769613948,
-      "grad_norm": 0.8963404893875122,
-      "learning_rate": 3.683174058762063e-05,
-      "loss": 0.7703626251220703,
-      "mean_token_accuracy": 0.7862878423929215,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.8138092035471007,
-      "eval_mean_token_accuracy": 0.7570307982522387,
-      "eval_not_syn_loss": 0.9443947076797485,
-      "eval_not_syn_runtime": 96.0009,
-      "eval_not_syn_samples_per_second": 14.323,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
-      "eval_entropy": 0.7856217716322389,
-      "eval_mean_token_accuracy": 0.7748590402824934,
       "eval_num_tokens": 7995120.0,
-      "eval_syn_loss": 0.9141804575920105,
-      "eval_syn_runtime": 99.0213,
-      "eval_syn_samples_per_second": 13.886,
-      "eval_syn_steps_per_second": 1.737,
       "step": 3216
     },
     {
-      "entropy": 0.717324167188972,
       "epoch": 8.084682440846825,
-      "grad_norm": 0.7706292271614075,
-      "learning_rate": 3.26463243656881e-05,
-      "loss": 0.6817562103271484,
-      "mean_token_accuracy": 0.8034305211269495,
       "num_tokens": 8081323.0,
       "step": 3250
     },
     {
-      "entropy": 0.7076752084493637,
       "epoch": 8.209215442092155,
-      "grad_norm": 0.7392331957817078,
-      "learning_rate": 2.8684422962990643e-05,
-      "loss": 0.6874848175048828,
-      "mean_token_accuracy": 0.8040069764852524,
       "num_tokens": 8208468.0,
       "step": 3300
     },
     {
-      "entropy": 0.7056704825162887,
       "epoch": 8.333748443337484,
-      "grad_norm": 0.9019565582275391,
-      "learning_rate": 2.4953503240622073e-05,
-      "loss": 0.6827576446533203,
-      "mean_token_accuracy": 0.8037591743469238,
       "num_tokens": 8329436.0,
       "step": 3350
     },
     {
-      "entropy": 0.6830038994550705,
       "epoch": 8.458281444582815,
-      "grad_norm": 0.9338183999061584,
-      "learning_rate": 2.146059673634357e-05,
-      "loss": 0.6555431365966797,
-      "mean_token_accuracy": 0.80817536175251,
       "num_tokens": 8449737.0,
       "step": 3400
     },
     {
-      "entropy": 0.6841743963956833,
       "epoch": 8.582814445828145,
-      "grad_norm": 0.8519166707992554,
-      "learning_rate": 1.8212286412483148e-05,
-      "loss": 0.6660543823242188,
-      "mean_token_accuracy": 0.8084699755907059,
       "num_tokens": 8572556.0,
       "step": 3450
     },
     {
-      "entropy": 0.6859753090143204,
       "epoch": 8.707347447073474,
-      "grad_norm": 0.8856426477432251,
-      "learning_rate": 1.5214694249249967e-05,
-      "loss": 0.6608637237548828,
-      "mean_token_accuracy": 0.8085391563177109,
       "num_tokens": 8703112.0,
       "step": 3500
     },
     {
-      "entropy": 0.6650526940822601,
       "epoch": 8.831880448318804,
-      "grad_norm": 0.8123352527618408,
-      "learning_rate": 1.2473469706846106e-05,
-      "loss": 0.636329345703125,
-      "mean_token_accuracy": 0.8127367502450943,
       "num_tokens": 8829124.0,
       "step": 3550
     },
     {
-      "entropy": 0.674993228316307,
       "epoch": 8.956413449564135,
-      "grad_norm": 0.8388631343841553,
-      "learning_rate": 9.993779078120502e-06,
-      "loss": 0.6549046325683594,
-      "mean_token_accuracy": 0.8100328993797302,
       "num_tokens": 8951338.0,
       "step": 3600
     },
     {
       "epoch": 9.0,
-      "eval_entropy": 0.7291332736264827,
-      "eval_mean_token_accuracy": 0.7639909365842509,
-      "eval_not_syn_loss": 0.9260964393615723,
-      "eval_not_syn_runtime": 96.0349,
-      "eval_not_syn_samples_per_second": 14.318,
-      "eval_not_syn_steps_per_second": 1.791,
       "eval_num_tokens": 8994510.0,
       "step": 3618
     },
     {
       "epoch": 9.0,
-      "eval_entropy": 0.7045032125572825,
-      "eval_mean_token_accuracy": 0.7828773402197416,
       "eval_num_tokens": 8994510.0,
-      "eval_syn_loss": 0.891645610332489,
-      "eval_syn_runtime": 99.041,
-      "eval_syn_samples_per_second": 13.883,
-      "eval_syn_steps_per_second": 1.737,
       "step": 3618
     },
     {
-      "entropy": 0.651277188700859,
       "epoch": 9.079701120797012,
-      "grad_norm": 0.7400560975074768,
-      "learning_rate": 7.780295751832365e-06,
-      "loss": 0.6093550872802734,
-      "mean_token_accuracy": 0.8217923815804299,
       "num_tokens": 9069880.0,
       "step": 3650
     },
     {
-      "entropy": 0.6303536769747734,
       "epoch": 9.204234122042342,
-      "grad_norm": 0.7051271796226501,
-      "learning_rate": 5.8371914048739546e-06,
-      "loss": 0.594953498840332,
-      "mean_token_accuracy": 0.8226762419939041,
       "num_tokens": 9198937.0,
       "step": 3700
     },
     {
-      "entropy": 0.6400952243804932,
       "epoch": 9.32876712328767,
-      "grad_norm": 0.6884015202522278,
-      "learning_rate": 4.168128140052653e-06,
-      "loss": 0.6061803817749023,
-      "mean_token_accuracy": 0.8216804820299148,
       "num_tokens": 9320870.0,
       "step": 3750
     },
     {
-      "entropy": 0.6408041715621948,
       "epoch": 9.453300124533001,
-      "grad_norm": 0.7845977544784546,
-      "learning_rate": 2.7762515842502636e-06,
-      "loss": 0.601903190612793,
-      "mean_token_accuracy": 0.8218631267547607,
       "num_tokens": 9451044.0,
       "step": 3800
     },
     {
-      "entropy": 0.6254262709617615,
       "epoch": 9.577833125778332,
-      "grad_norm": 0.6794775128364563,
-      "learning_rate": 1.6641849599666836e-06,
-      "loss": 0.5901885986328125,
-      "mean_token_accuracy": 0.8238948655128479,
       "num_tokens": 9569101.0,
       "step": 3850
     },
     {
-      "entropy": 0.6379631841182709,
       "epoch": 9.70236612702366,
-      "grad_norm": 0.7553540468215942,
-      "learning_rate": 8.340241414215602e-07,
-      "loss": 0.599051742553711,
-      "mean_token_accuracy": 0.8235908967256546,
       "num_tokens": 9694849.0,
       "step": 3900
     },
     {
-      "entropy": 0.6264688801765442,
       "epoch": 9.826899128268991,
-      "grad_norm": 0.6769167184829712,
-      "learning_rate": 2.8733370453123033e-07,
-      "loss": 0.5899434280395508,
-      "mean_token_accuracy": 0.8249167394638062,
       "num_tokens": 9824230.0,
       "step": 3950
     },
     {
-      "entropy": 0.6334065935015678,
       "epoch": 9.951432129514322,
-      "grad_norm": 0.8305081129074097,
-      "learning_rate": 2.514397820565199e-08,
-      "loss": 0.5924297714233399,
-      "mean_token_accuracy": 0.8238646203279495,
       "num_tokens": 9945501.0,
       "step": 4000
     },
     {
       "epoch": 10.0,
-      "eval_entropy": 0.6948450613160466,
-      "eval_mean_token_accuracy": 0.7657531517189603,
-      "eval_not_syn_loss": 0.9340860247612,
-      "eval_not_syn_runtime": 95.9417,
-      "eval_not_syn_samples_per_second": 14.332,
-      "eval_not_syn_steps_per_second": 1.793,
       "eval_num_tokens": 9993900.0,
       "step": 4020
     },
     {
       "epoch": 10.0,
-      "eval_entropy": 0.6709783749524937,
-      "eval_mean_token_accuracy": 0.7841822120339371,
       "eval_num_tokens": 9993900.0,
-      "eval_syn_loss": 0.90080726146698,
-      "eval_syn_runtime": 99.1594,
-      "eval_syn_samples_per_second": 13.867,
-      "eval_syn_steps_per_second": 1.735,
       "step": 4020
     }
   ],
@@ -1047,8 +1047,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0545133142516326e+18,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     },
     {
+      "entropy": 0.4303537303149098,
       "epoch": 2.1145703611457036,
+      "grad_norm": 0.35502323508262634,
+      "learning_rate": 0.00019096644909178583,
+      "loss": 0.38930774688720704,
+      "mean_token_accuracy": 0.8710548519486129,
       "num_tokens": 2114788.0,
       "step": 850
     },
     {
+      "entropy": 0.431627052128315,
       "epoch": 2.2391033623910337,
+      "grad_norm": 0.4276222288608551,
+      "learning_rate": 0.00018925090872111246,
+      "loss": 0.38792034149169924,
+      "mean_token_accuracy": 0.8717547968029976,
       "num_tokens": 2239579.0,
       "step": 900
     },
     {
+      "entropy": 0.43496647477149963,
       "epoch": 2.3636363636363638,
+      "grad_norm": 0.3478545546531677,
+      "learning_rate": 0.00018736559911273178,
+      "loss": 0.3930927276611328,
+      "mean_token_accuracy": 0.8688642394542694,
       "num_tokens": 2358308.0,
       "step": 950
     },
     {
+      "entropy": 0.4360816968977451,
       "epoch": 2.488169364881694,
+      "grad_norm": 0.4233720898628235,
+      "learning_rate": 0.00018531407344566915,
+      "loss": 0.39427772521972654,
+      "mean_token_accuracy": 0.867885695695877,
       "num_tokens": 2484444.0,
       "step": 1000
     },
     {
+      "entropy": 0.43084816545248034,
       "epoch": 2.6127023661270234,
+      "grad_norm": 0.3549717664718628,
+      "learning_rate": 0.0001831001981607139,
+      "loss": 0.3911524200439453,
+      "mean_token_accuracy": 0.8704073330760003,
       "num_tokens": 2609374.0,
       "step": 1050
     },
     {
+      "entropy": 0.42635570630431174,
       "epoch": 2.7372353673723535,
+      "grad_norm": 0.3825649917125702,
+      "learning_rate": 0.00018072814567346936,
+      "loss": 0.39040073394775393,
+      "mean_token_accuracy": 0.8706874567270279,
       "num_tokens": 2738852.0,
       "step": 1100
     },
     {
+      "entropy": 0.4457248793542385,
       "epoch": 2.8617683686176836,
+      "grad_norm": 0.393543541431427,
+      "learning_rate": 0.00017820238651074317,
+      "loss": 0.40400577545166017,
+      "mean_token_accuracy": 0.8659286299347877,
       "num_tokens": 2860031.0,
       "step": 1150
     },
     {
+      "entropy": 0.44322004675865173,
       "epoch": 2.9863013698630136,
+      "grad_norm": 0.32433032989501953,
+      "learning_rate": 0.0001755276808850968,
+      "loss": 0.3956157684326172,
+      "mean_token_accuracy": 0.8679120713472366,
       "num_tokens": 2984557.0,
       "step": 1200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4656750720947288,
+      "eval_mean_token_accuracy": 0.8436482773963795,
+      "eval_not_syn_loss": 0.502048671245575,
+      "eval_not_syn_runtime": 96.1696,
+      "eval_not_syn_samples_per_second": 14.298,
+      "eval_not_syn_steps_per_second": 1.789,
       "eval_num_tokens": 2998170.0,
       "step": 1206
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 0.4488667759091355,
+      "eval_mean_token_accuracy": 0.86770307186038,
       "eval_num_tokens": 2998170.0,
+      "eval_syn_loss": 0.47810930013656616,
+      "eval_syn_runtime": 98.894,
+      "eval_syn_samples_per_second": 13.904,
+      "eval_syn_steps_per_second": 1.739,
       "step": 1206
     },
     {
+      "entropy": 0.34708237489967636,
       "epoch": 3.1095890410958904,
+      "grad_norm": 0.36334800720214844,
+      "learning_rate": 0.00017270906972343466,
+      "loss": 0.306053466796875,
+      "mean_token_accuracy": 0.8936621320970131,
       "num_tokens": 3110419.0,
       "step": 1250
     },
     {
+      "entropy": 0.3444848913699389,
       "epoch": 3.2341220423412205,
+      "grad_norm": 0.3762398660182953,
+      "learning_rate": 0.00016975186516654035,
+      "loss": 0.30163915634155275,
+      "mean_token_accuracy": 0.8941574484109879,
       "num_tokens": 3233570.0,
       "step": 1300
     },
     {
+      "entropy": 0.3394099518656731,
       "epoch": 3.3586550435865505,
+      "grad_norm": 0.4982982873916626,
+      "learning_rate": 0.00016666164055746508,
+      "loss": 0.2992570495605469,
+      "mean_token_accuracy": 0.8951553416252136,
       "num_tokens": 3360467.0,
       "step": 1350
     },
     {
+      "entropy": 0.3437681415677071,
       "epoch": 3.4831880448318806,
+      "grad_norm": 0.48411592841148376,
+      "learning_rate": 0.00016344421993763733,
+      "loss": 0.30575496673583985,
+      "mean_token_accuracy": 0.8930543160438538,
       "num_tokens": 3485765.0,
       "step": 1400
     },
     {
+      "entropy": 0.34468906089663504,
       "epoch": 3.6077210460772102,
+      "grad_norm": 0.4013198912143707,
+      "learning_rate": 0.00016010566707048957,
+      "loss": 0.3041123008728027,
+      "mean_token_accuracy": 0.8934586471319199,
       "num_tokens": 3609897.0,
       "step": 1450
     },
     {
+      "entropy": 0.3555850328505039,
       "epoch": 3.7322540473225407,
+      "grad_norm": 0.3677787184715271,
+      "learning_rate": 0.00015665227401328915,
+      "loss": 0.31248834609985354,
+      "mean_token_accuracy": 0.8907824546098709,
       "num_tokens": 3734361.0,
       "step": 1500
     },
     {
+      "entropy": 0.3529116767644882,
       "epoch": 3.8567870485678704,
+      "grad_norm": 0.3733390271663666,
+      "learning_rate": 0.00015309054925871163,
+      "loss": 0.3145001220703125,
+      "mean_token_accuracy": 0.8914457809925079,
       "num_tokens": 3857540.0,
       "step": 1550
     },
     {
+      "entropy": 0.3519477976113558,
       "epoch": 3.9813200498132004,
+      "grad_norm": 0.4491842985153198,
+      "learning_rate": 0.0001494272054685054,
+      "loss": 0.31178840637207034,
+      "mean_token_accuracy": 0.8901231214404106,
       "num_tokens": 3978269.0,
       "step": 1600
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.4111844826229783,
+      "eval_mean_token_accuracy": 0.8401426447685375,
+      "eval_not_syn_loss": 0.5313173532485962,
+      "eval_not_syn_runtime": 95.84,
+      "eval_not_syn_samples_per_second": 14.347,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 3997560.0,
       "step": 1608
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 0.39694498886549195,
+      "eval_mean_token_accuracy": 0.8641166465226994,
       "eval_num_tokens": 3997560.0,
+      "eval_syn_loss": 0.5080230832099915,
+      "eval_syn_runtime": 98.944,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 1608
     },
     {
+      "entropy": 0.26439598014559407,
       "epoch": 4.104607721046078,
+      "grad_norm": 0.4967460632324219,
+      "learning_rate": 0.0001456691468223661,
+      "loss": 0.22732419967651368,
+      "mean_token_accuracy": 0.9187829334928532,
       "num_tokens": 4101042.0,
       "step": 1650
     },
     {
+      "entropy": 0.2497277507185936,
       "epoch": 4.229140722291407,
+      "grad_norm": 0.3764539659023285,
+      "learning_rate": 0.00014182345600586332,
+      "loss": 0.21029539108276368,
+      "mean_token_accuracy": 0.9221936762332916,
       "num_tokens": 4224060.0,
       "step": 1700
     },
     {
+      "entropy": 0.2486180279403925,
       "epoch": 4.353673723536737,
+      "grad_norm": 0.37183400988578796,
+      "learning_rate": 0.0001378973808619437,
+      "loss": 0.21009698867797852,
+      "mean_token_accuracy": 0.9225871834158897,
       "num_tokens": 4350859.0,
       "step": 1750
     },
     {
+      "entropy": 0.26017799742519854,
       "epoch": 4.478206724782067,
+      "grad_norm": 0.43216991424560547,
+      "learning_rate": 0.00013389832073116724,
+      "loss": 0.2177184295654297,
+      "mean_token_accuracy": 0.9205843013525009,
       "num_tokens": 4472466.0,
       "step": 1800
     },
     {
+      "entropy": 0.26708075165748596,
       "epoch": 4.602739726027397,
+      "grad_norm": 0.37948140501976013,
+      "learning_rate": 0.00012983381250642132,
+      "loss": 0.22203298568725585,
+      "mean_token_accuracy": 0.9184661367535591,
       "num_tokens": 4592096.0,
       "step": 1850
     },
     {
+      "entropy": 0.25188380032777785,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.4874045252799988,
+      "learning_rate": 0.00012571151642839446,
+      "loss": 0.21441835403442383,
+      "mean_token_accuracy": 0.9194883331656456,
       "num_tokens": 4719831.0,
       "step": 1900
     },
     {
+      "entropy": 0.2515877375751734,
       "epoch": 4.851805728518057,
+      "grad_norm": 0.43732911348342896,
+      "learning_rate": 0.00012153920164858083,
+      "loss": 0.21374931335449218,
+      "mean_token_accuracy": 0.921038504242897,
       "num_tokens": 4850857.0,
       "step": 1950
     },
     {
+      "entropy": 0.254078243970871,
       "epoch": 4.976338729763388,
+      "grad_norm": 0.41199925541877747,
+      "learning_rate": 0.00011732473158702397,
+      "loss": 0.21298355102539063,
+      "mean_token_accuracy": 0.9217021322250366,
       "num_tokens": 4973013.0,
       "step": 2000
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.31937412129238596,
+      "eval_mean_token_accuracy": 0.8401600659586662,
+      "eval_not_syn_loss": 0.6070574522018433,
+      "eval_not_syn_runtime": 95.8354,
+      "eval_not_syn_samples_per_second": 14.348,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 4996950.0,
       "step": 2010
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 0.30796578786400863,
+      "eval_mean_token_accuracy": 0.8628802147022513,
       "eval_num_tokens": 4996950.0,
+      "eval_syn_loss": 0.5800920128822327,
+      "eval_syn_runtime": 98.9566,
+      "eval_syn_samples_per_second": 13.895,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2010
     },
     {
+      "entropy": 0.19132825570425602,
       "epoch": 5.099626400996264,
+      "grad_norm": 0.45538511872291565,
+      "learning_rate": 0.0001130760491123961,
+      "loss": 0.153853759765625,
+      "mean_token_accuracy": 0.9434747304579224,
       "num_tokens": 5097696.0,
       "step": 2050
     },
     {
+      "entropy": 0.17422323439270257,
       "epoch": 5.224159402241594,
+      "grad_norm": 0.4580552279949188,
+      "learning_rate": 0.00010880116157234302,
+      "loss": 0.13612208366394044,
+      "mean_token_accuracy": 0.9487342464923859,
       "num_tokens": 5222620.0,
       "step": 2100
     },
     {
+      "entropy": 0.1799074411019683,
       "epoch": 5.348692403486924,
+      "grad_norm": 0.39040836691856384,
+      "learning_rate": 0.00010450812570230789,
+      "loss": 0.14250579833984375,
+      "mean_token_accuracy": 0.9467630323767662,
       "num_tokens": 5342227.0,
       "step": 2150
     },
     {
+      "entropy": 0.18116022080183028,
       "epoch": 5.473225404732254,
+      "grad_norm": 0.3805501163005829,
+      "learning_rate": 0.00010020503244127544,
+      "loss": 0.14014955520629882,
+      "mean_token_accuracy": 0.946874064207077,
       "num_tokens": 5467337.0,
       "step": 2200
     },
     {
+      "entropy": 0.1810251370444894,
       "epoch": 5.597758405977584,
+      "grad_norm": 0.36377736926078796,
+      "learning_rate": 9.589999168305372e-05,
+      "loss": 0.14044331550598144,
+      "mean_token_accuracy": 0.9467302888631821,
       "num_tokens": 5591523.0,
       "step": 2250
     },
     {
+      "entropy": 0.17202148117125035,
       "epoch": 5.722291407222914,
+      "grad_norm": 0.38708847761154175,
+      "learning_rate": 9.16011169918326e-05,
+      "loss": 0.13840054512023925,
+      "mean_token_accuracy": 0.9480020496249199,
       "num_tokens": 5716383.0,
       "step": 2300
     },
     {
+      "entropy": 0.1769936926662922,
       "epoch": 5.846824408468244,
+      "grad_norm": 0.4674988389015198,
+      "learning_rate": 8.73165103108249e-05,
+      "loss": 0.1404121208190918,
+      "mean_token_accuracy": 0.9461787036061287,
       "num_tokens": 5839380.0,
       "step": 2350
     },
     {
+      "entropy": 0.17118842527270317,
       "epoch": 5.971357409713574,
+      "grad_norm": 0.4454115629196167,
+      "learning_rate": 8.305424669280888e-05,
+      "loss": 0.1366124439239502,
+      "mean_token_accuracy": 0.9484315186738967,
       "num_tokens": 5968087.0,
       "step": 2400
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.2494078171114589,
+      "eval_mean_token_accuracy": 0.851767166062843,
+      "eval_not_syn_loss": 0.7222095131874084,
+      "eval_not_syn_runtime": 95.8715,
+      "eval_not_syn_samples_per_second": 14.342,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 5996340.0,
       "step": 2412
     },
     {
       "epoch": 6.0,
+      "eval_entropy": 0.239824180079754,
+      "eval_mean_token_accuracy": 0.8484749911829482,
       "eval_num_tokens": 5996340.0,
+      "eval_syn_loss": 0.7036991119384766,
+      "eval_syn_runtime": 98.923,
       "eval_syn_samples_per_second": 13.9,
       "eval_syn_steps_per_second": 1.739,
       "step": 2412
     },
     {
+      "entropy": 0.14340858902744572,
       "epoch": 6.094645080946451,
+      "grad_norm": 0.270256370306015,
+      "learning_rate": 7.88223590813502e-05,
+      "loss": 0.10398475646972656,
+      "mean_token_accuracy": 0.9604840600731397,
       "num_tokens": 6091666.0,
       "step": 2450
     },
     {
+      "entropy": 0.13108037687838078,
       "epoch": 6.219178082191781,
+      "grad_norm": 0.2870016396045685,
+      "learning_rate": 7.462882317138628e-05,
+      "loss": 0.09566926002502442,
+      "mean_token_accuracy": 0.9636739170551301,
       "num_tokens": 6214889.0,
       "step": 2500
     },
     {
+      "entropy": 0.1305130884796381,
       "epoch": 6.34371108343711,
+      "grad_norm": 0.34119686484336853,
+      "learning_rate": 7.048154237770433e-05,
+      "loss": 0.0943364143371582,
+      "mean_token_accuracy": 0.9643464788794518,
       "num_tokens": 6337795.0,
       "step": 2550
     },
     {
+      "entropy": 0.12516659261658789,
       "epoch": 6.468244084682441,
+      "grad_norm": 0.2851012051105499,
+      "learning_rate": 6.638833293964401e-05,
+      "loss": 0.09339779853820801,
+      "mean_token_accuracy": 0.9654107868671418,
       "num_tokens": 6466252.0,
       "step": 2600
     },
     {
+      "entropy": 0.12894487291574477,
       "epoch": 6.592777085927771,
+      "grad_norm": 0.22259071469306946,
+      "learning_rate": 6.235690919009636e-05,
+      "loss": 0.09672751426696777,
+      "mean_token_accuracy": 0.9641611188650131,
       "num_tokens": 6592128.0,
       "step": 2650
     },
     {
+      "entropy": 0.13079525250941515,
       "epoch": 6.717310087173101,
+      "grad_norm": 0.2873247265815735,
+      "learning_rate": 5.839486901656255e-05,
+      "loss": 0.09482893943786622,
+      "mean_token_accuracy": 0.963907478749752,
       "num_tokens": 6716885.0,
       "step": 2700
     },
     {
+      "entropy": 0.13382539574056865,
       "epoch": 6.841843088418431,
+      "grad_norm": 0.26538875699043274,
+      "learning_rate": 5.450967954167317e-05,
+      "loss": 0.09817559242248536,
+      "mean_token_accuracy": 0.9620411720871925,
       "num_tokens": 6836942.0,
       "step": 2750
     },
     {
+      "entropy": 0.12861237980425358,
       "epoch": 6.966376089663761,
+      "grad_norm": 0.3292505443096161,
+      "learning_rate": 5.070866305015545e-05,
+      "loss": 0.09485826492309571,
+      "mean_token_accuracy": 0.9636287876963615,
       "num_tokens": 6963394.0,
       "step": 2800
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.2065339538073817,
+      "eval_mean_token_accuracy": 0.8418768654729045,
+      "eval_not_syn_loss": 0.8473101854324341,
+      "eval_not_syn_runtime": 95.8493,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 6995730.0,
       "step": 2814
     },
     {
       "epoch": 7.0,
+      "eval_entropy": 0.19768535250494645,
+      "eval_mean_token_accuracy": 0.8554798219093057,
       "eval_num_tokens": 6995730.0,
+      "eval_syn_loss": 0.8169878125190735,
+      "eval_syn_runtime": 98.9508,
+      "eval_syn_samples_per_second": 13.896,
+      "eval_syn_steps_per_second": 1.738,
       "step": 2814
     },
     {
+      "entropy": 0.12029899715097865,
       "epoch": 7.089663760896638,
+      "grad_norm": 0.18435120582580566,
+      "learning_rate": 4.699898318877223e-05,
+      "loss": 0.08083279609680176,
+      "mean_token_accuracy": 0.9689394840688417,
       "num_tokens": 7081846.0,
       "step": 2850
     },
     {
+      "entropy": 0.10581521928310395,
       "epoch": 7.214196762141968,
+      "grad_norm": 0.2981043756008148,
+      "learning_rate": 4.338763146523955e-05,
+      "loss": 0.07383342266082764,
+      "mean_token_accuracy": 0.9726339945197106,
       "num_tokens": 7202092.0,
       "step": 2900
     },
     {
+      "entropy": 0.10466793559491634,
       "epoch": 7.338729763387297,
+      "grad_norm": 0.24411630630493164,
+      "learning_rate": 3.988141407156982e-05,
+      "loss": 0.07236807346343994,
+      "mean_token_accuracy": 0.9726200112700463,
       "num_tokens": 7328180.0,
       "step": 2950
     },
     {
+      "entropy": 0.10792888538911939,
       "epoch": 7.463262764632628,
+      "grad_norm": 0.15558083355426788,
+      "learning_rate": 3.6486939056672404e-05,
+      "loss": 0.0738653564453125,
+      "mean_token_accuracy": 0.9714727732539177,
       "num_tokens": 7449031.0,
       "step": 3000
     },
     {
+      "entropy": 0.10735130561515689,
       "epoch": 7.587795765877957,
+      "grad_norm": 0.1883469820022583,
+      "learning_rate": 3.321060387238841e-05,
+      "loss": 0.07414769649505615,
+      "mean_token_accuracy": 0.9723327186703682,
       "num_tokens": 7574561.0,
       "step": 3050
     },
     {
+      "entropy": 0.10272138025611639,
       "epoch": 7.712328767123288,
+      "grad_norm": 0.15312588214874268,
+      "learning_rate": 3.0058583316430158e-05,
+      "loss": 0.07302286624908447,
+      "mean_token_accuracy": 0.9726834264397621,
       "num_tokens": 7700071.0,
       "step": 3100
     },
     {
+      "entropy": 0.10020780436694622,
       "epoch": 7.8368617683686175,
+      "grad_norm": 0.15675754845142365,
+      "learning_rate": 2.7036817894949623e-05,
+      "loss": 0.06891141891479492,
+      "mean_token_accuracy": 0.9731867194175721,
       "num_tokens": 7831577.0,
       "step": 3150
     },
     {
+      "entropy": 0.10623522130772471,
       "epoch": 7.961394769613948,
+      "grad_norm": 0.28400713205337524,
+      "learning_rate": 2.415100262666817e-05,
+      "loss": 0.07267386436462403,
+      "mean_token_accuracy": 0.9713605433702469,
       "num_tokens": 7954099.0,
       "step": 3200
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.18371209263974844,
+      "eval_mean_token_accuracy": 0.8438690238913824,
+      "eval_not_syn_loss": 0.9368809461593628,
+      "eval_not_syn_runtime": 95.8165,
+      "eval_not_syn_samples_per_second": 14.35,
+      "eval_not_syn_steps_per_second": 1.795,
       "eval_num_tokens": 7995120.0,
       "step": 3216
     },
     {
       "epoch": 8.0,
+      "eval_entropy": 0.17606536935754988,
+      "eval_mean_token_accuracy": 0.8541917884072592,
       "eval_num_tokens": 7995120.0,
+      "eval_syn_loss": 0.905842661857605,
+      "eval_syn_runtime": 98.8452,
+      "eval_syn_samples_per_second": 13.911,
+      "eval_syn_steps_per_second": 1.74,
       "step": 3216
     },
     {
+      "entropy": 0.09641267131600115,
       "epoch": 8.084682440846825,
+      "grad_norm": 0.10478409379720688,
+      "learning_rate": 2.1406576309667927e-05,
+      "loss": 0.06422062397003174,
+      "mean_token_accuracy": 0.974858273761441,
       "num_tokens": 8081323.0,
       "step": 3250
     },
     {
+      "entropy": 0.09412769414484501,
       "epoch": 8.209215442092155,
+      "grad_norm": 0.1294923573732376,
+      "learning_rate": 1.8808711271073835e-05,
+      "loss": 0.06173128604888916,
+      "mean_token_accuracy": 0.9750720876455307,
       "num_tokens": 8208468.0,
       "step": 3300
     },
     {
+      "entropy": 0.09561639416962862,
       "epoch": 8.333748443337484,
+      "grad_norm": 0.1887606382369995,
+      "learning_rate": 1.6362303618944128e-05,
+      "loss": 0.06482413768768311,
+      "mean_token_accuracy": 0.9742087376117706,
       "num_tokens": 8329436.0,
       "step": 3350
     },
     {
+      "entropy": 0.09427102731540798,
       "epoch": 8.458281444582815,
+      "grad_norm": 0.09633524715900421,
+      "learning_rate": 1.407196401474173e-05,
+      "loss": 0.06472210884094239,
+      "mean_token_accuracy": 0.974975728392601,
       "num_tokens": 8449737.0,
       "step": 3400
     },
     {
+      "entropy": 0.09517974983900786,
       "epoch": 8.582814445828145,
+      "grad_norm": 0.09141165018081665,
+      "learning_rate": 1.194200898377711e-05,
+      "loss": 0.06492462158203124,
+      "mean_token_accuracy": 0.9747303375601768,
       "num_tokens": 8572556.0,
       "step": 3450
     },
     {
+      "entropy": 0.09041798285208642,
       "epoch": 8.707347447073474,
+      "grad_norm": 0.22126418352127075,
+      "learning_rate": 9.976452779999523e-06,
+      "loss": 0.061339192390441895,
+      "mean_token_accuracy": 0.9752290603518486,
       "num_tokens": 8703112.0,
       "step": 3500
     },
     {
+      "entropy": 0.09546036465093494,
       "epoch": 8.831880448318804,
+      "grad_norm": 0.15855053067207336,
+      "learning_rate": 8.178999820468898e-06,
+      "loss": 0.06384926795959472,
+      "mean_token_accuracy": 0.9744252774119377,
       "num_tokens": 8829124.0,
       "step": 3550
     },
     {
+      "entropy": 0.10058791788294912,
       "epoch": 8.956413449564135,
+      "grad_norm": 0.10365262627601624,
+      "learning_rate": 6.553037703766629e-06,
+      "loss": 0.06539971351623536,
+      "mean_token_accuracy": 0.972833506166935,
       "num_tokens": 8951338.0,
       "step": 3600
     },
     {
       "epoch": 9.0,
+      "eval_entropy": 0.1707501579509225,
+      "eval_mean_token_accuracy": 0.8436840848867283,
+      "eval_not_syn_loss": 1.025063157081604,
+      "eval_not_syn_runtime": 95.8518,
+      "eval_not_syn_samples_per_second": 14.345,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 8994510.0,
       "step": 3618
     },
     {
       "epoch": 9.0,
+      "eval_entropy": 0.163228454977967,
+      "eval_mean_token_accuracy": 0.8539366458737573,
       "eval_num_tokens": 8994510.0,
+      "eval_syn_loss": 0.985819399356842,
+      "eval_syn_runtime": 98.9324,
+      "eval_syn_samples_per_second": 13.898,
+      "eval_syn_steps_per_second": 1.739,
       "step": 3618
     },
     {
+      "entropy": 0.09734603306372659,
       "epoch": 9.079701120797012,
+      "grad_norm": 0.12082593142986298,
+      "learning_rate": 5.101630825503631e-06,
+      "loss": 0.06284617900848388,
+      "mean_token_accuracy": 0.9750350075538712,
       "num_tokens": 9069880.0,
       "step": 3650
     },
     {
+      "entropy": 0.08707131499424577,
       "epoch": 9.204234122042342,
+      "grad_norm": 0.11582205444574356,
+      "learning_rate": 3.827514602957916e-06,
+      "loss": 0.058627347946166995,
+      "mean_token_accuracy": 0.9766133311390877,
       "num_tokens": 9198937.0,
       "step": 3700
     },
     {
+      "entropy": 0.09363717755302786,
       "epoch": 9.32876712328767,
+      "grad_norm": 0.0942605510354042,
+      "learning_rate": 2.733090319726434e-06,
+      "loss": 0.061338043212890624,
+      "mean_token_accuracy": 0.9756769821047783,
       "num_tokens": 9320870.0,
       "step": 3750
     },
     {
+      "entropy": 0.08440944708883763,
       "epoch": 9.453300124533001,
+      "grad_norm": 0.09462074190378189,
+      "learning_rate": 1.820420600107491e-06,
+      "loss": 0.05633291721343994,
+      "mean_token_accuracy": 0.9779263830184937,
       "num_tokens": 9451044.0,
       "step": 3800
     },
     {
+      "entropy": 0.09060163488611579,
       "epoch": 9.577833125778332,
+      "grad_norm": 0.12719611823558807,
+      "learning_rate": 1.091225521742671e-06,
+      "loss": 0.06255305767059326,
+      "mean_token_accuracy": 0.9757561111450195,
       "num_tokens": 9569101.0,
       "step": 3850
     },
     {
+      "entropy": 0.09161491643637419,
       "epoch": 9.70236612702366,
+      "grad_norm": 0.13942484557628632,
+      "learning_rate": 5.468793738449273e-07,
+      "loss": 0.059427495002746585,
+      "mean_token_accuracy": 0.9759828591346741,
       "num_tokens": 9694849.0,
       "step": 3900
     },
     {
+      "entropy": 0.08649967277422548,
       "epoch": 9.826899128268991,
+      "grad_norm": 0.0871015340089798,
+      "learning_rate": 1.8840806712231278e-07,
+      "loss": 0.058426890373229984,
+      "mean_token_accuracy": 0.9768971011042595,
       "num_tokens": 9824230.0,
       "step": 3950
     },
     {
+      "entropy": 0.09529741924256087,
       "epoch": 9.951432129514322,
+      "grad_norm": 0.13722798228263855,
+      "learning_rate": 1.648720027892707e-08,
+      "loss": 0.061555180549621585,
+      "mean_token_accuracy": 0.9747346398234368,
       "num_tokens": 9945501.0,
       "step": 4000
     },
     {
       "epoch": 10.0,
+      "eval_entropy": 0.16450819373130798,
+      "eval_mean_token_accuracy": 0.8425282915664274,
+      "eval_not_syn_loss": 1.067739725112915,
+      "eval_not_syn_runtime": 95.886,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 9993900.0,
       "step": 4020
     },
     {
       "epoch": 10.0,
+      "eval_entropy": 0.1571650807854048,
+      "eval_mean_token_accuracy": 0.8542020715946375,
       "eval_num_tokens": 9993900.0,
+      "eval_syn_loss": 1.0270220041275024,
+      "eval_syn_runtime": 99.001,
+      "eval_syn_samples_per_second": 13.889,
+      "eval_syn_steps_per_second": 1.737,
       "step": 4020
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.6386593884405248e+18,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-4020/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/adapter_config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
-  "lora_dropout": 0.08281179805341743,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -30,12 +30,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "up_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "o_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "loftq_config": {},
   "lora_alpha": 256,
   "lora_bias": false,
+  "lora_dropout": 0.0006939672790126417,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "down_proj",
     "o_proj",
+    "up_proj",
+    "k_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1280238392858e52564a64a8548695fec8db5b3faad8b8749210a88ec62e32d
 size 2055285904

 version https://git-lfs.github.com/spec/v1
+oid sha256:695790e95b266cd193861415705ef49fdfe8c9854104b61cbd1bcea74824634d
 size 2055285904

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/trainer_state.json CHANGED Viewed

@@ -10,207 +10,207 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.2452277278900146,
       "epoch": 0.12453300124533001,
-      "grad_norm": 0.6758179664611816,
-      "learning_rate": 3.687014401013371e-05,
-      "loss": 1.1777716064453125,
-      "mean_token_accuracy": 0.7337397015094758,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
-      "entropy": 0.623466266989708,
       "epoch": 0.24906600249066002,
-      "grad_norm": 0.4892372190952301,
-      "learning_rate": 7.449273993884157e-05,
-      "loss": 0.5864884948730469,
-      "mean_token_accuracy": 0.826547600030899,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
-      "entropy": 0.5896120843291283,
       "epoch": 0.37359900373599003,
-      "grad_norm": 0.6126167178153992,
-      "learning_rate": 0.00011211533586754944,
-      "loss": 0.5540548706054688,
-      "mean_token_accuracy": 0.8330936986207962,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
-      "entropy": 0.5726784431934356,
       "epoch": 0.49813200498132004,
-      "grad_norm": 0.4206934869289398,
-      "learning_rate": 0.0001497379317962573,
-      "loss": 0.5407680130004883,
-      "mean_token_accuracy": 0.8367659395933151,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
-      "entropy": 0.5651785597205162,
       "epoch": 0.6226650062266501,
-      "grad_norm": 0.3723851144313812,
-      "learning_rate": 0.00018736052772496518,
-      "loss": 0.5335340881347657,
-      "mean_token_accuracy": 0.8389524459838867,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
-      "entropy": 0.5669016176462174,
       "epoch": 0.7471980074719801,
-      "grad_norm": 0.7901780009269714,
-      "learning_rate": 0.00022498312365367305,
-      "loss": 0.5371434020996094,
-      "mean_token_accuracy": 0.8372388821840286,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
-      "entropy": 0.5642251417040824,
       "epoch": 0.8717310087173101,
-      "grad_norm": 0.46209225058555603,
-      "learning_rate": 0.0002626057195823809,
-      "loss": 0.5336666870117187,
-      "mean_token_accuracy": 0.8379119431972504,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
-      "entropy": 0.5746454495191574,
       "epoch": 0.9962640099626401,
-      "grad_norm": 0.6201167702674866,
-      "learning_rate": 0.00030022831551108876,
-      "loss": 0.5476604461669922,
-      "mean_token_accuracy": 0.8346919983625412,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.6157312128086423,
-      "eval_mean_token_accuracy": 0.8423293849756551,
-      "eval_not_syn_loss": 0.5686389207839966,
-      "eval_not_syn_runtime": 95.9634,
-      "eval_not_syn_samples_per_second": 14.328,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 0.5961947804966639,
-      "eval_mean_token_accuracy": 0.8205934797608575,
       "eval_num_tokens": 999390.0,
-      "eval_syn_loss": 0.5787935256958008,
-      "eval_syn_runtime": 98.9136,
-      "eval_syn_samples_per_second": 13.901,
-      "eval_syn_steps_per_second": 1.739,
       "step": 402
     },
     {
-      "entropy": 0.5431136073488178,
       "epoch": 1.1195516811955168,
-      "grad_norm": 0.6364207863807678,
-      "learning_rate": 0.0003023597373031377,
-      "loss": 0.5128697204589844,
-      "mean_token_accuracy": 0.8424755226482045,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
-      "entropy": 0.5492669984698295,
       "epoch": 1.244084682440847,
-      "grad_norm": 0.7887948155403137,
-      "learning_rate": 0.00030194951160062724,
-      "loss": 0.5205921554565429,
-      "mean_token_accuracy": 0.8417876678705215,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
-      "entropy": 0.8709675747156144,
       "epoch": 1.3686176836861768,
-      "grad_norm": 0.734591007232666,
-      "learning_rate": 0.00030125525414139597,
-      "loss": 0.9426271057128907,
-      "mean_token_accuracy": 0.7773911562561989,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
-      "entropy": 0.5833489724993706,
       "epoch": 1.4931506849315068,
-      "grad_norm": 1.1496635675430298,
-      "learning_rate": 0.000300278273368912,
-      "loss": 0.560246467590332,
-      "mean_token_accuracy": 0.8333927792310715,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
-      "entropy": 3.3383523294329644,
       "epoch": 1.6176836861768369,
-      "grad_norm": 4.88291597366333,
-      "learning_rate": 0.0002990204105656753,
-      "loss": 3.895135803222656,
-      "mean_token_accuracy": 0.4006860972382128,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
-      "entropy": 4.406278321743011,
       "epoch": 1.7422166874221667,
-      "grad_norm": 2.488743305206299,
-      "learning_rate": 0.0002974840363830152,
-      "loss": 4.424278259277344,
-      "mean_token_accuracy": 0.2545871638506651,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
-      "entropy": 3.0789780139923097,
       "epoch": 1.8667496886674968,
-      "grad_norm": 2.5833027362823486,
-      "learning_rate": 0.00029567204637320413,
-      "loss": 3.105696716308594,
-      "mean_token_accuracy": 0.4513031896948814,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
-      "entropy": 2.616127333641052,
       "epoch": 1.9912826899128269,
-      "grad_norm": 1.0389364957809448,
-      "learning_rate": 0.00029358785553230884,
-      "loss": 2.6003131103515624,
-      "mean_token_accuracy": 0.5205484080314636,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5684494819752004,
-      "eval_mean_token_accuracy": 0.547617181095966,
-      "eval_not_syn_loss": 2.458150863647461,
-      "eval_not_syn_runtime": 95.9896,
-      "eval_not_syn_samples_per_second": 14.324,
-      "eval_not_syn_steps_per_second": 1.792,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 2.5337963104248047,
-      "eval_mean_token_accuracy": 0.5359611507765082,
       "eval_num_tokens": 1998780.0,
-      "eval_syn_loss": 2.417705535888672,
-      "eval_syn_runtime": 99.0288,
-      "eval_syn_samples_per_second": 13.885,
-      "eval_syn_steps_per_second": 1.737,
       "step": 804
     }
   ],
@@ -231,8 +231,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.094726302377984e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3927546733617782,
       "epoch": 0.12453300124533001,
+      "grad_norm": 0.6564610600471497,
+      "learning_rate": 2.4176184199496093e-05,
+      "loss": 1.279773941040039,
+      "mean_token_accuracy": 0.7125072094798088,
       "num_tokens": 121654.0,
       "step": 50
     },
     {
+      "entropy": 0.6483061632514,
       "epoch": 0.24906600249066002,
+      "grad_norm": 0.5326434373855591,
+      "learning_rate": 4.884575991326762e-05,
+      "loss": 0.6029399490356445,
+      "mean_token_accuracy": 0.8237514534592628,
       "num_tokens": 249217.0,
       "step": 100
     },
     {
+      "entropy": 0.6041012638807297,
       "epoch": 0.37359900373599003,
+      "grad_norm": 0.4256225526332855,
+      "learning_rate": 7.351533562703914e-05,
+      "loss": 0.5617047500610352,
+      "mean_token_accuracy": 0.8304081869125366,
       "num_tokens": 373541.0,
       "step": 150
     },
     {
+      "entropy": 0.5842884615063667,
       "epoch": 0.49813200498132004,
+      "grad_norm": 0.4419579803943634,
+      "learning_rate": 9.818491134081067e-05,
+      "loss": 0.5414250946044922,
+      "mean_token_accuracy": 0.8352482566237449,
       "num_tokens": 502382.0,
       "step": 200
     },
     {
+      "entropy": 0.5728985281288623,
       "epoch": 0.6226650062266501,
+      "grad_norm": 0.3333401679992676,
+      "learning_rate": 0.0001228544870545822,
+      "loss": 0.5301421356201171,
+      "mean_token_accuracy": 0.8379305830597877,
       "num_tokens": 627269.0,
       "step": 250
     },
     {
+      "entropy": 0.5716245217621326,
       "epoch": 0.7471980074719801,
+      "grad_norm": 0.8607395887374878,
+      "learning_rate": 0.00014752406276835373,
+      "loss": 0.529751205444336,
+      "mean_token_accuracy": 0.8380016613006592,
       "num_tokens": 751192.0,
       "step": 300
     },
     {
+      "entropy": 0.5588358563184738,
       "epoch": 0.8717310087173101,
+      "grad_norm": 0.3857034146785736,
+      "learning_rate": 0.00017219363848212525,
+      "loss": 0.5205639266967773,
+      "mean_token_accuracy": 0.83995147138834,
       "num_tokens": 873624.0,
       "step": 350
     },
     {
+      "entropy": 0.5598713609576226,
       "epoch": 0.9962640099626401,
+      "grad_norm": 0.39146995544433594,
+      "learning_rate": 0.00019686321419589678,
+      "loss": 0.5207630920410157,
+      "mean_token_accuracy": 0.8398478266596794,
       "num_tokens": 996128.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5604686953647192,
+      "eval_mean_token_accuracy": 0.82587467099345,
+      "eval_not_syn_loss": 0.5411113500595093,
+      "eval_not_syn_runtime": 96.4062,
+      "eval_not_syn_samples_per_second": 14.263,
+      "eval_not_syn_steps_per_second": 1.784,
       "eval_num_tokens": 999390.0,
       "step": 402
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 0.5405109611361526,
+      "eval_mean_token_accuracy": 0.8581878334976906,
       "eval_num_tokens": 999390.0,
+      "eval_syn_loss": 0.5110779404640198,
+      "eval_syn_runtime": 99.0382,
+      "eval_syn_samples_per_second": 13.884,
+      "eval_syn_steps_per_second": 1.737,
       "step": 402
     },
     {
+      "entropy": 0.5251132612577593,
       "epoch": 1.1195516811955168,
+      "grad_norm": 0.409588098526001,
+      "learning_rate": 0.00019826081236739378,
+      "loss": 0.48452903747558596,
+      "mean_token_accuracy": 0.8485486621808525,
       "num_tokens": 1121021.0,
       "step": 450
     },
     {
+      "entropy": 0.5255133463442325,
       "epoch": 1.244084682440847,
+      "grad_norm": 0.4035375416278839,
+      "learning_rate": 0.00019799182258138876,
+      "loss": 0.48237808227539064,
+      "mean_token_accuracy": 0.8493754121661187,
       "num_tokens": 1244321.0,
       "step": 500
     },
     {
+      "entropy": 0.5253566785156727,
       "epoch": 1.3686176836861768,
+      "grad_norm": 0.42013707756996155,
+      "learning_rate": 0.000197536589854019,
+      "loss": 0.4848367691040039,
+      "mean_token_accuracy": 0.8477037993073463,
       "num_tokens": 1365615.0,
       "step": 550
     },
     {
+      "entropy": 0.520346013456583,
       "epoch": 1.4931506849315068,
+      "grad_norm": 0.3776898980140686,
+      "learning_rate": 0.00019689597214695372,
+      "loss": 0.483323860168457,
+      "mean_token_accuracy": 0.8489549401402473,
       "num_tokens": 1489869.0,
       "step": 600
     },
     {
+      "entropy": 0.5263906873762607,
       "epoch": 1.6176836861768369,
+      "grad_norm": 0.7503569722175598,
+      "learning_rate": 0.00019607117681064075,
+      "loss": 0.4831574630737305,
+      "mean_token_accuracy": 0.8504172155261039,
       "num_tokens": 1611614.0,
       "step": 650
     },
     {
+      "entropy": 0.5092925234138965,
       "epoch": 1.7422166874221667,
+      "grad_norm": 0.3184664249420166,
+      "learning_rate": 0.00019506375830885428,
+      "loss": 0.4734436798095703,
+      "mean_token_accuracy": 0.8517335096001625,
       "num_tokens": 1741391.0,
       "step": 700
     },
     {
+      "entropy": 0.504551088064909,
       "epoch": 1.8667496886674968,
+      "grad_norm": 0.381900429725647,
+      "learning_rate": 0.00019387561528904946,
+      "loss": 0.4666786193847656,
+      "mean_token_accuracy": 0.8514578703045845,
       "num_tokens": 1865156.0,
       "step": 750
     },
     {
+      "entropy": 0.5108272171020508,
       "epoch": 1.9912826899128269,
+      "grad_norm": 0.3435378670692444,
+      "learning_rate": 0.00019250898700404634,
+      "loss": 0.4672324752807617,
+      "mean_token_accuracy": 0.8505285969376564,
       "num_tokens": 1989335.0,
       "step": 800
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.515417086177094,
+      "eval_mean_token_accuracy": 0.8423887543206992,
+      "eval_not_syn_loss": 0.49809959530830383,
+      "eval_not_syn_runtime": 95.8874,
+      "eval_not_syn_samples_per_second": 14.34,
+      "eval_not_syn_steps_per_second": 1.794,
       "eval_num_tokens": 1998780.0,
       "step": 804
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 0.4982072594900464,
+      "eval_mean_token_accuracy": 0.8627851702446161,
       "eval_num_tokens": 1998780.0,
+      "eval_syn_loss": 0.47842374444007874,
+      "eval_syn_runtime": 98.9429,
+      "eval_syn_samples_per_second": 13.897,
+      "eval_syn_steps_per_second": 1.738,
       "step": 804
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.2783709113401344e+17,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

substitutivity_original_Swedish/Qwen3-14B-Base_substitutivity_splits_original_features_train_substitutivity_splits_original_features_test1/checkpoint-804/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74142dc500724b654709fbf32f054b101be2d9c54ca0316d8943f678e5b71e45
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeaf279dfd18b1ffce5396928b676844e293f17352f1ed8b10806362686fc25
 size 6033