Upload 15 files

Browse files

Files changed (7) hide show

config.json +1 -1
model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
trainer_state.json +19 -64
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -55,7 +55,7 @@
   "tie_word_embeddings": true,
   "transformers_version": "4.57.3",
   "unsloth_fixed": true,
-  "unsloth_version": "2025.12.9",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936

   "tie_word_embeddings": true,
   "transformers_version": "4.57.3",
   "unsloth_fixed": true,
+  "unsloth_version": "2026.1.3",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7da59e792ad516b8a2f9f5e215efb662008dd708fda2ec18696a45034fcd72f
 size 1192135096

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d966d83e7218d61061d4dd032d5d3509e90257a66ad90bfbe6c9c61a8efe60d
 size 1192135096

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68dbc6b8518536cc5f3ede29c31c8553b5a0f7a80a366868075afc89068e50a4
-size 2384459962

 version https://git-lfs.github.com/spec/v1
+oid sha256:9debb92fecbcd38bbdf87706bccbe4e8625be93df931d21f11c01f0003adb89d
+size 2384460363

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07247e14bef85c4a3ea4639a866bfcfde6b11d94c7a29fcde66ef77b8da6768f
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:947683e18f75e99925fce99fd9ad8bd89c0ab043c3fe5a98850f3f75077a397b
+size 14709

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2a046dc5a4f5be7e5b3adfb83205f0a2e6b3fca9848e27c9a0e7c3757b7fff
-size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da22aa9d04ee073542d7ab226a2d0b649f7ddd41601fe6dd5c5ce8c95f63d3d2
+size 1465

trainer_state.json CHANGED Viewed

@@ -1,88 +1,43 @@
 {
-  "best_global_step": 3000,
-  "best_metric": 2.1779088973999023,
-  "best_model_checkpoint": "./results/checkpoint-3000",
-  "epoch": 1.0,
   "eval_steps": 600,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2,
-      "grad_norm": 4.78125,
       "learning_rate": 0.00018033388981636062,
-      "loss": 0.5121,
       "step": 600
     },
     {
       "epoch": 0.2,
-      "eval_loss": 2.3121278285980225,
-      "eval_runtime": 172.1996,
-      "eval_samples_per_second": 69.687,
-      "eval_steps_per_second": 17.422,
       "step": 600
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.5,
       "learning_rate": 0.00016030050083472454,
-      "loss": 0.2471,
       "step": 1200
     },
     {
       "epoch": 0.4,
-      "eval_loss": 2.2023062705993652,
-      "eval_runtime": 171.6931,
-      "eval_samples_per_second": 69.892,
-      "eval_steps_per_second": 17.473,
       "step": 1200
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 0.490234375,
-      "learning_rate": 0.0001402671118530885,
-      "loss": 0.1818,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 2.3628954887390137,
-      "eval_runtime": 171.601,
-      "eval_samples_per_second": 69.93,
-      "eval_steps_per_second": 17.482,
-      "step": 1800
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 0.443359375,
-      "learning_rate": 0.00012023372287145242,
-      "loss": 0.1599,
-      "step": 2400
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 2.1811935901641846,
-      "eval_runtime": 171.4037,
-      "eval_samples_per_second": 70.01,
-      "eval_steps_per_second": 17.503,
-      "step": 2400
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 0.4140625,
-      "learning_rate": 0.00010020033388981636,
-      "loss": 0.1483,
-      "step": 3000
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 2.1779088973999023,
-      "eval_runtime": 171.5443,
-      "eval_samples_per_second": 69.953,
-      "eval_steps_per_second": 17.488,
-      "step": 3000
     }
   ],
   "logging_steps": 600,
@@ -93,7 +48,7 @@
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
-        "early_stopping_patience": 3,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
@@ -111,7 +66,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.009492668828877e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1200,
+  "best_metric": 2.1439664363861084,
+  "best_model_checkpoint": "./results/checkpoint-1200",
+  "epoch": 0.4,
   "eval_steps": 600,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2,
+      "grad_norm": 1.328125,
       "learning_rate": 0.00018033388981636062,
+      "loss": 0.5064,
       "step": 600
     },
     {
       "epoch": 0.2,
+      "eval_loss": 2.144320249557495,
+      "eval_runtime": 183.765,
+      "eval_samples_per_second": 65.301,
+      "eval_steps_per_second": 16.325,
       "step": 600
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.478515625,
       "learning_rate": 0.00016030050083472454,
+      "loss": 0.244,
       "step": 1200
     },
     {
       "epoch": 0.4,
+      "eval_loss": 2.1439664363861084,
+      "eval_runtime": 201.3005,
+      "eval_samples_per_second": 59.612,
+      "eval_steps_per_second": 14.903,
       "step": 1200
     }
   ],
   "logging_steps": 600,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
+        "early_stopping_patience": 2,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
       "attributes": {}
     }
   },
+  "total_flos": 2.004344603816755e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d164cd25651fd3af62c9b44ebeea3505e3fc6dc73e7ee7a02fdc18786b3d4def
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e2ce04f5e18277ed5449999fe959f5ccd3d3d76d5f4313948e741633eb0e88d
+size 6353