Emil7018 commited on Oct 11, 2025

Commit

dd2f84b

verified ·

1 Parent(s): c52d45c

Training in progress, epoch 1

Browse files

Files changed (19) hide show

model.safetensors +1 -1
run-0/checkpoint-1272/model.safetensors +1 -1
run-0/checkpoint-1272/optimizer.pt +1 -1
run-0/checkpoint-1272/scaler.pt +1 -1
run-0/checkpoint-1272/trainer_state.json +36 -40
run-0/checkpoint-1272/training_args.bin +1 -1
run-0/checkpoint-954/model.safetensors +1 -1
run-0/checkpoint-954/optimizer.pt +1 -1
run-0/checkpoint-954/scaler.pt +1 -1
run-0/checkpoint-954/trainer_state.json +28 -31
run-0/checkpoint-954/training_args.bin +1 -1
run-1/checkpoint-318/model.safetensors +1 -1
run-1/checkpoint-318/optimizer.pt +1 -1
run-1/checkpoint-318/scheduler.pt +1 -1
run-1/checkpoint-318/trainer_state.json +15 -15
run-1/checkpoint-318/training_args.bin +1 -1
runs/Oct11_19-55-54_cd07aeb3aeb4/events.out.tfevents.1760213687.cd07aeb3aeb4.2948.1 +2 -2
runs/Oct11_19-55-54_cd07aeb3aeb4/events.out.tfevents.1760214697.cd07aeb3aeb4.2948.2 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf658bcb3d6e926ee8e4606c9b8822870aeb69f28f4d04ca4eeb4ef7b23b422c
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d0ed4dbafa14012febf6308c9744c75bd232a710108fe5bac07bdb489e756bd
 size 598898116

run-0/checkpoint-1272/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b907c506df32ce38d7a707871e5d9a0026c32cf7bae7ea2a4214047a26467f97
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:33e6dbc017e7f64ef220016fdf9f9fba336aee3835bc3d931dd5126c94babbfe
 size 598898116

run-0/checkpoint-1272/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33a3708f7d8d8c9159f3183f4973427edd1e5707aed0c0628abddd827ec93310
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:535b6a8cdba5634d3fa7bc11df77c8659c420cab7e6b5f4eefa671b370f15ad7
 size 1197886411

run-0/checkpoint-1272/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd8d98d53657814f4efe9b4118b1c951c2a1001b48ef247f242d5ab768eba07d
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:353485bb1bbc64112c48bfd9c1dfdca238051fa65ea0255593541aaa6b2ac608
 size 1383

run-0/checkpoint-1272/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 1272,
-  "best_metric": 0.9419235697866993,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-0/checkpoint-1272",
   "epoch": 4.0,
   "eval_steps": 500,
@@ -11,74 +11,70 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 7.658935546875,
       "learning_rate": 1.5015723270440253e-05,
-      "loss": 4.0156,
       "step": 318
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8916129032258064,
-      "eval_f1": 0.8897418223159607,
-      "eval_loss": 2.2384302616119385,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.8082,
-      "eval_samples_per_second": 174.077,
-      "eval_steps_per_second": 3.65,
       "step": 318
     },
     {
       "epoch": 2.0,
-      "grad_norm": 6.194184303283691,
       "learning_rate": 1.0015723270440252e-05,
-      "loss": 1.6502,
       "step": 636
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9319354838709677,
-      "eval_f1": 0.9309773954881618,
-      "eval_loss": 1.2816612720489502,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.5976,
-      "eval_samples_per_second": 176.161,
-      "eval_steps_per_second": 3.694,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "grad_norm": 5.453166484832764,
       "learning_rate": 5.015723270440252e-06,
-      "loss": 1.0071,
       "step": 954
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.942258064516129,
-      "eval_f1": 0.9412083289174236,
-      "eval_loss": 1.0026001930236816,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.5687,
-      "eval_samples_per_second": 176.45,
-      "eval_steps_per_second": 3.7,
       "step": 954
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.245698928833008,
       "learning_rate": 1.5723270440251573e-08,
-      "loss": 0.7999,
       "step": 1272
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9429032258064516,
-      "eval_f1": 0.9419235697866993,
-      "eval_loss": 0.9279481172561646,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.6313,
-      "eval_samples_per_second": 175.824,
-      "eval_steps_per_second": 3.687,
       "step": 1272
     }
   ],
@@ -108,12 +104,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 901477353837708.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.0728812223134534,
     "num_train_epochs": 4,
-    "temperature": 15
   }
 }

 {
   "best_global_step": 1272,
+  "best_metric": 0.9489170488645581,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-0/checkpoint-1272",
   "epoch": 4.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 7.095359802246094,
       "learning_rate": 1.5015723270440253e-05,
+      "loss": 4.2443,
       "step": 318
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9070967741935484,
+      "eval_f1": 0.9051373620810793,
+      "eval_loss": 2.06101655960083,
+      "eval_runtime": 16.6455,
+      "eval_samples_per_second": 186.236,
+      "eval_steps_per_second": 3.905,
       "step": 318
     },
     {
       "epoch": 2.0,
+      "grad_norm": 6.176209449768066,
       "learning_rate": 1.0015723270440252e-05,
+      "loss": 1.4635,
       "step": 636
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9425806451612904,
+      "eval_f1": 0.9414720571915698,
+      "eval_loss": 1.1604701280593872,
+      "eval_runtime": 16.5771,
+      "eval_samples_per_second": 187.005,
+      "eval_steps_per_second": 3.921,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.269500255584717,
       "learning_rate": 5.015723270440252e-06,
+      "loss": 0.8556,
       "step": 954
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_f1": 0.9483440674472702,
+      "eval_loss": 0.8985261917114258,
+      "eval_runtime": 16.5526,
+      "eval_samples_per_second": 187.281,
+      "eval_steps_per_second": 3.927,
       "step": 954
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.268059015274048,
       "learning_rate": 1.5723270440251573e-08,
+      "loss": 0.6622,
       "step": 1272
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_f1": 0.9489170488645581,
+      "eval_loss": 0.8302651047706604,
+      "eval_runtime": 16.8761,
+      "eval_samples_per_second": 183.692,
+      "eval_steps_per_second": 3.852,
       "step": 1272
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1007104147373484.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.362336107066899,
     "num_train_epochs": 4,
+    "temperature": 10
   }
 }

run-0/checkpoint-1272/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:080327bf308da3daf1342344694cc74997103a3dbc9b586e2e8dc0503c895f98
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:e57990bfcffc7508b1aa41cf9c14f9a33fd6a76ae0e5b564184c21c4e65e1398
 size 5905

run-0/checkpoint-954/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57f80ba04e05067b7be0cc159a0131656a1feb8b2d3f603b75429e0d8a499f84
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:556f7f3f069edc811e32fdb21dbb7851b0b99ce22f87a1fe6ba9e29fd7412872
 size 598898116

run-0/checkpoint-954/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16657c9327a7680545b663c22830919c89a19c29ac5a37ebe774ec442158e1b1
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:4874410d1e9e2085b42708e088a24661bb2a1629bceff5d3bf81b4484d2e7bb7
 size 1197886411

run-0/checkpoint-954/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09a405e0a62be2573bcce9ada4e872e06fcdfbb19dcc19f52fadc704a3877584
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f8d06ed524870ae790a674ab8105f40437ad4925ef629d9d365a68268f03ed3
 size 1383

run-0/checkpoint-954/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 954,
-  "best_metric": 0.9412083289174236,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-0/checkpoint-954",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,56 +11,53 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 7.658935546875,
       "learning_rate": 1.5015723270440253e-05,
-      "loss": 4.0156,
       "step": 318
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8916129032258064,
-      "eval_f1": 0.8897418223159607,
-      "eval_loss": 2.2384302616119385,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.8082,
-      "eval_samples_per_second": 174.077,
-      "eval_steps_per_second": 3.65,
       "step": 318
     },
     {
       "epoch": 2.0,
-      "grad_norm": 6.194184303283691,
       "learning_rate": 1.0015723270440252e-05,
-      "loss": 1.6502,
       "step": 636
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9319354838709677,
-      "eval_f1": 0.9309773954881618,
-      "eval_loss": 1.2816612720489502,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.5976,
-      "eval_samples_per_second": 176.161,
-      "eval_steps_per_second": 3.694,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "grad_norm": 5.453166484832764,
       "learning_rate": 5.015723270440252e-06,
-      "loss": 1.0071,
       "step": 954
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.942258064516129,
-      "eval_f1": 0.9412083289174236,
-      "eval_loss": 1.0026001930236816,
-      "eval_model_preparation_time": 0.0029,
-      "eval_runtime": 17.5687,
-      "eval_samples_per_second": 176.45,
-      "eval_steps_per_second": 3.7,
       "step": 954
     }
   ],
@@ -90,12 +87,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 676280902103244.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.0728812223134534,
     "num_train_epochs": 4,
-    "temperature": 15
   }
 }

 {
   "best_global_step": 954,
+  "best_metric": 0.9483440674472702,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-0/checkpoint-954",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 7.095359802246094,
       "learning_rate": 1.5015723270440253e-05,
+      "loss": 4.2443,
       "step": 318
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9070967741935484,
+      "eval_f1": 0.9051373620810793,
+      "eval_loss": 2.06101655960083,
+      "eval_runtime": 16.6455,
+      "eval_samples_per_second": 186.236,
+      "eval_steps_per_second": 3.905,
       "step": 318
     },
     {
       "epoch": 2.0,
+      "grad_norm": 6.176209449768066,
       "learning_rate": 1.0015723270440252e-05,
+      "loss": 1.4635,
       "step": 636
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9425806451612904,
+      "eval_f1": 0.9414720571915698,
+      "eval_loss": 1.1604701280593872,
+      "eval_runtime": 16.5771,
+      "eval_samples_per_second": 187.005,
+      "eval_steps_per_second": 3.921,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.269500255584717,
       "learning_rate": 5.015723270440252e-06,
+      "loss": 0.8556,
       "step": 954
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_f1": 0.9483440674472702,
+      "eval_loss": 0.8985261917114258,
+      "eval_runtime": 16.5526,
+      "eval_samples_per_second": 187.281,
+      "eval_steps_per_second": 3.927,
       "step": 954
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 781907695639020.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.362336107066899,
     "num_train_epochs": 4,
+    "temperature": 10
   }
 }

run-0/checkpoint-954/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:080327bf308da3daf1342344694cc74997103a3dbc9b586e2e8dc0503c895f98
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:e57990bfcffc7508b1aa41cf9c14f9a33fd6a76ae0e5b564184c21c4e65e1398
 size 5905

run-1/checkpoint-318/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbe5fc7ba60f16342a2cea677db69c8ae5f868fc72eeac6a4b913d0533dcab28
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d0ed4dbafa14012febf6308c9744c75bd232a710108fe5bac07bdb489e756bd
 size 598898116

run-1/checkpoint-318/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b11b582e5ffc77ee3ed977efe9243dc7503ddbfa0daca77e34d8be765bdba076
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1a1f3fe531a83a4ec091d28753109f9c0da4c20e130b3462720cecb12f2e7e9
 size 1197886411

run-1/checkpoint-318/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c75430e9735ac2401cc5dd787d1ea32f7e26f6e97fda72fd2cd23a50888689e7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f5820fad84020b09d881b4b6d6ce78d3731e06e52d3401636c1604c2a2630f2
 size 1465

run-1/checkpoint-318/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 318,
-  "best_metric": 0.8534546726797415,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-1/checkpoint-318",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,26 +11,26 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 7.506621360778809,
-      "learning_rate": 1.3354297693920338e-05,
-      "loss": 3.6598,
       "step": 318
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8554838709677419,
-      "eval_f1": 0.8534546726797415,
-      "eval_loss": 2.181856393814087,
-      "eval_runtime": 16.5545,
-      "eval_samples_per_second": 187.26,
-      "eval_steps_per_second": 3.926,
       "step": 318
     }
   ],
   "logging_steps": 500,
-  "max_steps": 954,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -57,8 +57,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.008550262771937045,
-    "num_train_epochs": 3,
-    "temperature": 20
   }
 }

 {
   "best_global_step": 318,
+  "best_metric": 0.9026327188116668,
   "best_model_checkpoint": "ModernBERT-base-distilled/run-1/checkpoint-318",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 9.185647964477539,
+      "learning_rate": 1.5015723270440253e-05,
+      "loss": 5.2764,
       "step": 318
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9051612903225806,
+      "eval_f1": 0.9026327188116668,
+      "eval_loss": 2.4359920024871826,
+      "eval_runtime": 16.8274,
+      "eval_samples_per_second": 184.223,
+      "eval_steps_per_second": 3.863,
       "step": 318
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1272,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.1772263993418024,
+    "num_train_epochs": 4,
+    "temperature": 9
   }
 }

run-1/checkpoint-318/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4d1f48d83021324c19290eb8526bd37db5d8c6569e5318a75916976ce927e32
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:758afc652d099f48a625a20bc0a6608ca13318a564c979a2c3084b7d294ae3f3
 size 5905

runs/Oct11_19-55-54_cd07aeb3aeb4/events.out.tfevents.1760213687.cd07aeb3aeb4.2948.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4325dfbf291448b9a1983f1cfad1c5aec6e8ea31c0fdf2bbb3ee2ec29d3515ed
-size 28072

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1096071cb8f68624662034c2365584aa867e8f143e61a07502f0b65d16341fb
+size 29586

runs/Oct11_19-55-54_cd07aeb3aeb4/events.out.tfevents.1760214697.cd07aeb3aeb4.2948.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af9663bb3be7e58d752f689c4a9c6f6a950849257d681b9eca968e5ed7459922
+size 13790

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e57990bfcffc7508b1aa41cf9c14f9a33fd6a76ae0e5b564184c21c4e65e1398
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:758afc652d099f48a625a20bc0a6608ca13318a564c979a2c3084b7d294ae3f3
 size 5905