EmreAkgul commited on Apr 13, 2025

Commit

99ae96f

verified ·

1 Parent(s): 80170b1

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-0/checkpoint-312/model.safetensors +1 -1
run-0/checkpoint-312/optimizer.pt +1 -1
run-0/checkpoint-312/rng_state.pth +1 -1
run-0/checkpoint-312/scheduler.pt +1 -1
run-0/checkpoint-312/trainer_state.json +15 -25
run-0/checkpoint-312/training_args.bin +1 -1
run-0/checkpoint-624/model.safetensors +1 -1
run-0/checkpoint-624/optimizer.pt +1 -1
run-0/checkpoint-624/rng_state.pth +1 -1
run-0/checkpoint-624/scheduler.pt +1 -1
run-0/checkpoint-624/trainer_state.json +29 -48
run-0/checkpoint-624/training_args.bin +1 -1
run-0/checkpoint-936/model.safetensors +1 -1
run-0/checkpoint-936/optimizer.pt +1 -1
run-0/checkpoint-936/scheduler.pt +1 -1
run-0/checkpoint-936/trainer_state.json +30 -31
run-0/checkpoint-936/training_args.bin +1 -1
run-1/checkpoint-156/model.safetensors +1 -1
run-1/checkpoint-156/optimizer.pt +1 -1
run-1/checkpoint-156/rng_state.pth +1 -1
run-1/checkpoint-156/scheduler.pt +1 -1
run-1/checkpoint-156/trainer_state.json +24 -16
run-1/checkpoint-156/training_args.bin +1 -1
run-1/checkpoint-312/trainer_state.json +39 -22
run-1/checkpoint-468/trainer_state.json +55 -29
run-1/checkpoint-78/model.safetensors +1 -1
run-1/checkpoint-78/optimizer.pt +1 -1
run-1/checkpoint-78/rng_state.pth +1 -1
run-1/checkpoint-78/scheduler.pt +1 -1
run-1/checkpoint-78/trainer_state.json +18 -25
run-1/checkpoint-78/training_args.bin +1 -1
run-14/checkpoint-78/config.json +24 -0
run-14/checkpoint-78/model.safetensors +3 -0
run-14/checkpoint-78/optimizer.pt +3 -0
run-14/checkpoint-78/rng_state.pth +3 -0
run-14/checkpoint-78/scheduler.pt +3 -0
run-14/checkpoint-78/special_tokens_map.json +7 -0
run-14/checkpoint-78/tokenizer.json +0 -0
run-14/checkpoint-78/tokenizer_config.json +56 -0
run-14/checkpoint-78/trainer_state.json +59 -0
run-14/checkpoint-78/training_args.bin +3 -0
run-14/checkpoint-78/vocab.txt +0 -0
run-15/checkpoint-117/config.json +24 -0
run-15/checkpoint-117/model.safetensors +3 -0
run-15/checkpoint-39/config.json +24 -0
run-15/checkpoint-39/model.safetensors +3 -0
run-15/checkpoint-39/optimizer.pt +3 -0
run-15/checkpoint-39/rng_state.pth +3 -0
run-15/checkpoint-39/scheduler.pt +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:241ef8da471fb80623dcdb3856d66bf30562de8db05eb5a4d49671d305f4f620
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7c3867cd6186c0f0fdda1b2286dbb5072fbb55d0c7c1781ce71197da52eaa00
 size 267832560

run-0/checkpoint-312/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a031297c1dc8843b31163f23de3749bda5f9d01fe5a1b6258d993fda8d0c2d99
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:af33864575a010cdd1bf7b28c93d761c4018380479fc38d0a247071d4b8e870f
 size 267832560

run-0/checkpoint-312/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f016ca179d63f128dc92d87c1e84b990732ff5c1cc5a57718d06db18a51c002
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:05713f040f19f66a8b5974c3e8efad7c98a94e42cad9ebc3ae3ff273e3d9a545
 size 535727290

run-0/checkpoint-312/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c636584a35981a860659e9c392382609636f3e7f8bb3e4c194cd479b3b5ce959
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:464294b8f8d20e1c4ddec59fa526f01ab0118297dfdf6d7f16bfc2ad4e7c10ef
 size 14244

run-0/checkpoint-312/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:582d7d3c47473a240a197819a84edd7bd0c7b6a0e536041de49db2ca04f17cd5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:092bc1a854310f6eb6f681c4f33e75605c297e62a5634fbc23fcff624e36a1ff
 size 1064

run-0/checkpoint-312/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 312,
-  "best_metric": 0.6064981949458483,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-312",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 312,
   "is_hyper_param_search": true,
@@ -11,27 +11,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.48014440433212996,
-      "eval_loss": 0.697701096534729,
-      "eval_runtime": 1.8239,
-      "eval_samples_per_second": 151.874,
-      "eval_steps_per_second": 2.741,
-      "step": 156
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.6064981949458483,
-      "eval_loss": 0.6758008599281311,
-      "eval_runtime": 1.7015,
-      "eval_samples_per_second": 162.797,
-      "eval_steps_per_second": 2.939,
       "step": 312
     }
   ],
   "logging_steps": 500,
-  "max_steps": 624,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -46,14 +37,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "dropout_rate": 0.3011303001917175,
-    "learning_rate": 2.946052203220992e-05,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16,
-    "warmup_steps": 31,
-    "weight_decay": 0.08563849483087554
   }
 }

 {
   "best_global_step": 312,
+  "best_metric": 0.4657039711191336,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-312",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 312,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4657039711191336,
+      "eval_loss": 0.6989437341690063,
+      "eval_runtime": 1.7076,
+      "eval_samples_per_second": 162.213,
+      "eval_steps_per_second": 2.928,
       "step": 312
     }
   ],
   "logging_steps": 500,
+  "max_steps": 936,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.4164977664597427,
+    "learning_rate": 4.970849395732763e-05,
+    "max_length": 128,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 8
   }
 }

run-0/checkpoint-312/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93434644324cfac8db4668812aba61eebff369e3a69662bad12ec95e4ac4e62b
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae215d94645660c249574c56f55fb76e2b43588ee2ee4a9b6a5129bf4169f594
 size 5432

run-0/checkpoint-624/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16d22ba48b8134e790f95240578748be30681cddc71d13eb059685daa7d35b65
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f0cbfdbe4df5c0442239884b7fccaeb69336b685ac4bd48383868a2e2df8a18
 size 267832560

run-0/checkpoint-624/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:226ab04ce95224545fe84cc1ec0f3eb709d183548038581ea73e4936f85730c4
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:46b7727af781df4329eaa833381479243bdc243bf60c8847aecd36c17ed8b888
 size 535727290

run-0/checkpoint-624/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5ca439a6f762b0d07da29657e36660ea25e1e816d9088ca8e9cfe99d642a720
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4ded0337946703ddd48342fbb3bd34798462c4463e30ff7ada3890c4901afa1
 size 14244

run-0/checkpoint-624/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:509a94f1a30314dc509063c0ea6790d33341068fa0d1b44b4a26ba4e64606abc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:732129b8ff652ae97bb18868f4953153172787dad0894d12dd8bdf98f1c55547
 size 1064

run-0/checkpoint-624/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 468,
-  "best_metric": 0.6245487364620939,
-  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-468",
-  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 624,
   "is_hyper_param_search": true,
@@ -11,52 +11,34 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.48014440433212996,
-      "eval_loss": 0.697701096534729,
-      "eval_runtime": 1.8239,
-      "eval_samples_per_second": 151.874,
-      "eval_steps_per_second": 2.741,
-      "step": 156
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.6064981949458483,
-      "eval_loss": 0.6758008599281311,
-      "eval_runtime": 1.7015,
-      "eval_samples_per_second": 162.797,
-      "eval_steps_per_second": 2.939,
       "step": 312
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.6245487364620939,
-      "eval_loss": 0.7540601491928101,
-      "eval_runtime": 1.8182,
-      "eval_samples_per_second": 152.351,
-      "eval_steps_per_second": 2.75,
-      "step": 468
-    },
-    {
-      "epoch": 3.2051282051282053,
-      "grad_norm": 11.614490509033203,
-      "learning_rate": 6.1603789746948225e-06,
-      "loss": 0.5768,
       "step": 500
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.6173285198555957,
-      "eval_loss": 0.8625991940498352,
-      "eval_runtime": 1.7067,
-      "eval_samples_per_second": 162.302,
-      "eval_steps_per_second": 2.93,
       "step": 624
     }
   ],
   "logging_steps": 500,
-  "max_steps": 624,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -65,20 +47,19 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 376629134565480.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "dropout_rate": 0.3011303001917175,
-    "learning_rate": 2.946052203220992e-05,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16,
-    "warmup_steps": 31,
-    "weight_decay": 0.08563849483087554
   }
 }

 {
+  "best_global_step": 624,
+  "best_metric": 0.5415162454873647,
+  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-624",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 624,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4657039711191336,
+      "eval_loss": 0.6989437341690063,
+      "eval_runtime": 1.7076,
+      "eval_samples_per_second": 162.213,
+      "eval_steps_per_second": 2.928,
       "step": 312
     },
     {
+      "epoch": 1.6025641025641026,
+      "grad_norm": 2.613506555557251,
+      "learning_rate": 2.5924525556692398e-05,
+      "loss": 0.6844,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.7258058190345764,
+      "eval_runtime": 1.8248,
+      "eval_samples_per_second": 151.793,
+      "eval_steps_per_second": 2.74,
       "step": 624
     }
   ],
   "logging_steps": 500,
+  "max_steps": 936,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 2457345275431320.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.4164977664597427,
+    "learning_rate": 4.970849395732763e-05,
+    "max_length": 128,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 8
   }
 }

run-0/checkpoint-624/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93434644324cfac8db4668812aba61eebff369e3a69662bad12ec95e4ac4e62b
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae215d94645660c249574c56f55fb76e2b43588ee2ee4a9b6a5129bf4169f594
 size 5432

run-0/checkpoint-936/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:526a605fe2da7b2ad734d4ee7394237a876bd3e73c82dbfa97fae876d00cf792
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f8f3e2273546bac6160e79ccd41b9434a5cc5cb61c5e9904f7bf6fb95c082d2
 size 267832560

run-0/checkpoint-936/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c313ba9e4820ca87e9021fd5e8f09d57c03055ee426062d7707c75e24c6ae0
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:63cb4b91ac772fbba08ff7ae8ee7bc0ec70d5f70060e504203d37b33fb9d8de2
 size 535727290

run-0/checkpoint-936/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cc2e8dd33a72a46e342f84a895ce3b3b031318c5f55f97f294bb4de1e7121cc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a447a8c0282d073f8870604335911a6d882470042208ce485c5335cda624ed58
 size 1064

run-0/checkpoint-936/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 624,
-  "best_metric": 0.6462093862815884,
-  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-624",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 936,
@@ -11,43 +11,43 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5090252707581228,
-      "eval_loss": 0.6910260915756226,
-      "eval_runtime": 1.5124,
-      "eval_samples_per_second": 183.157,
-      "eval_steps_per_second": 3.306,
       "step": 312
     },
     {
       "epoch": 1.6025641025641026,
-      "grad_norm": 3.160397529602051,
-      "learning_rate": 1.4005781344298294e-05,
-      "loss": 0.6824,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6462093862815884,
-      "eval_loss": 0.6472051739692688,
-      "eval_runtime": 1.485,
-      "eval_samples_per_second": 186.536,
-      "eval_steps_per_second": 3.367,
       "step": 624
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6389891696750902,
-      "eval_loss": 0.7419655919075012,
-      "eval_runtime": 1.4972,
-      "eval_samples_per_second": 185.016,
-      "eval_steps_per_second": 3.34,
       "step": 936
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1248,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -56,20 +56,19 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 540033880216968.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
-    "adam_epsilon": 5.546915994232822e-07,
-    "learning_rate": 2.164529844118827e-05,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 8,
-    "warmup_steps": 92,
-    "weight_decay": 0.08085514196621982
   }
 }

 {
+  "best_global_step": 936,
+  "best_metric": 0.5595667870036101,
+  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-936",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 936,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4657039711191336,
+      "eval_loss": 0.6989437341690063,
+      "eval_runtime": 1.7076,
+      "eval_samples_per_second": 162.213,
+      "eval_steps_per_second": 2.928,
       "step": 312
     },
     {
       "epoch": 1.6025641025641026,
+      "grad_norm": 2.613506555557251,
+      "learning_rate": 2.5924525556692398e-05,
+      "loss": 0.6844,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.7258058190345764,
+      "eval_runtime": 1.8248,
+      "eval_samples_per_second": 151.793,
+      "eval_steps_per_second": 2.74,
       "step": 624
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5595667870036101,
+      "eval_loss": 1.0762841701507568,
+      "eval_runtime": 1.7848,
+      "eval_samples_per_second": 155.197,
+      "eval_steps_per_second": 2.801,
       "step": 936
     }
   ],
   "logging_steps": 500,
+  "max_steps": 936,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2457345275431320.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.4164977664597427,
+    "learning_rate": 4.970849395732763e-05,
+    "max_length": 128,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 8
   }
 }

run-0/checkpoint-936/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:526f4e75b1078dde13fd1d7bfa0e0694a6c559e22cc26dfd75dd18df37f301c9
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae215d94645660c249574c56f55fb76e2b43588ee2ee4a9b6a5129bf4169f594
 size 5432

run-1/checkpoint-156/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dec9d489f4f05da8b1d480f8079c39b7047e50e7277384b61aa2cf3fe156e329
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:68702cd791f78aa3d10c4b935448583f849b856f89f33cef64354903ed420c83
 size 267832560

run-1/checkpoint-156/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9804e9390a2e23fc3aa462a1a625ab372e053d2d09a8eda8ebdc5e76821a82f
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:9866a8fbd0a3705928bbc94824a7717215313b36162edc78e0fb9f3dd1c5ec36
 size 535727290

run-1/checkpoint-156/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11e40e8c9d9b9b8131cef13eddb6f2ff0afb61d421f8b11d654da2d6c72c34ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfb9a0ae2285bf813c7659c509c0aad02f3b9ebf80caa88b2e061183e7605ba5
 size 14244

run-1/checkpoint-156/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc811ac5797046cb43ddf681f6eb73d8669b5e92648272ac91a97b2551d60959
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7ccbd3dce6fd4a5ce81ed931b07c38cd4d9cab7da262d5994f34f6c5acfae67
 size 1064

run-1/checkpoint-156/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 156,
-  "best_metric": 0.49458483754512633,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-156",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
@@ -11,18 +11,27 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.49458483754512633,
-      "eval_loss": 0.6931370496749878,
-      "eval_runtime": 1.6099,
-      "eval_samples_per_second": 172.065,
-      "eval_steps_per_second": 3.106,
       "step": 156
     }
   ],
   "logging_steps": 500,
-  "max_steps": 780,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -37,14 +46,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "dropout_rate": 0.34335779036160474,
-    "learning_rate": 3.2907757924840336e-05,
-    "num_train_epochs": 5,
-    "per_device_train_batch_size": 16,
-    "warmup_steps": 7,
-    "weight_decay": 0.011718685414344022
   }
 }

 {
   "best_global_step": 156,
+  "best_metric": 0.5415162454873647,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-156",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.6928116083145142,
+      "eval_runtime": 1.6157,
+      "eval_samples_per_second": 171.444,
+      "eval_steps_per_second": 3.095,
+      "step": 78
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.6922104954719543,
+      "eval_runtime": 1.6727,
+      "eval_samples_per_second": 165.597,
+      "eval_steps_per_second": 2.989,
       "step": 156
     }
   ],
   "logging_steps": 500,
+  "max_steps": 468,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.20824535211573575,
+    "learning_rate": 2.1654651991046377e-05,
+    "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-156/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49857bf60516390ac64bdbd74b4e19cf501005742d1303351a514c72c9f73bcc
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:17d3f3ef87c93cc8393d6c6caeddd95144003bfa8d2fe1483588901c4b973a6e
 size 5432

run-1/checkpoint-312/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 312,
-  "best_metric": 0.6137184115523465,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-312",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 312,
   "is_hyper_param_search": true,
@@ -11,27 +11,45 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.49458483754512633,
-      "eval_loss": 0.6931370496749878,
-      "eval_runtime": 1.6099,
-      "eval_samples_per_second": 172.065,
-      "eval_steps_per_second": 3.106,
-      "step": 156
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6137184115523465,
-      "eval_loss": 0.6719065308570862,
-      "eval_runtime": 1.7819,
-      "eval_samples_per_second": 155.451,
-      "eval_steps_per_second": 2.806,
       "step": 312
     }
   ],
   "logging_steps": 500,
-  "max_steps": 780,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -46,14 +64,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "dropout_rate": 0.34335779036160474,
-    "learning_rate": 3.2907757924840336e-05,
-    "num_train_epochs": 5,
-    "per_device_train_batch_size": 16,
-    "warmup_steps": 7,
-    "weight_decay": 0.011718685414344022
   }
 }

 {
   "best_global_step": 312,
+  "best_metric": 0.6101083032490975,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-312",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 312,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.6928116083145142,
+      "eval_runtime": 1.6157,
+      "eval_samples_per_second": 171.444,
+      "eval_steps_per_second": 3.095,
+      "step": 78
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.6922104954719543,
+      "eval_runtime": 1.6727,
+      "eval_samples_per_second": 165.597,
+      "eval_steps_per_second": 2.989,
+      "step": 156
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6028880866425993,
+      "eval_loss": 0.675690770149231,
+      "eval_runtime": 1.7034,
+      "eval_samples_per_second": 162.612,
+      "eval_steps_per_second": 2.935,
+      "step": 234
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6101083032490975,
+      "eval_loss": 0.7228259444236755,
+      "eval_runtime": 1.7254,
+      "eval_samples_per_second": 160.54,
+      "eval_steps_per_second": 2.898,
       "step": 312
     }
   ],
   "logging_steps": 500,
+  "max_steps": 468,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.20824535211573575,
+    "learning_rate": 2.1654651991046377e-05,
+    "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-468/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 312,
-  "best_metric": 0.6137184115523465,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-312",
-  "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 468,
   "is_hyper_param_search": true,
@@ -11,36 +11,63 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.49458483754512633,
-      "eval_loss": 0.6931370496749878,
-      "eval_runtime": 1.6099,
-      "eval_samples_per_second": 172.065,
-      "eval_steps_per_second": 3.106,
-      "step": 156
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6137184115523465,
-      "eval_loss": 0.6719065308570862,
-      "eval_runtime": 1.7819,
-      "eval_samples_per_second": 155.451,
-      "eval_steps_per_second": 2.806,
-      "step": 312
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6137184115523465,
-      "eval_loss": 0.7334751486778259,
-      "eval_runtime": 1.7429,
-      "eval_samples_per_second": 158.932,
-      "eval_steps_per_second": 2.869,
       "step": 468
     }
   ],
   "logging_steps": 500,
-  "max_steps": 780,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -49,20 +76,19 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "dropout_rate": 0.34335779036160474,
-    "learning_rate": 3.2907757924840336e-05,
-    "num_train_epochs": 5,
-    "per_device_train_batch_size": 16,
-    "warmup_steps": 7,
-    "weight_decay": 0.011718685414344022
   }
 }

 {
   "best_global_step": 312,
+  "best_metric": 0.6101083032490975,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-312",
+  "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 468,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.6928116083145142,
+      "eval_runtime": 1.6157,
+      "eval_samples_per_second": 171.444,
+      "eval_steps_per_second": 3.095,
+      "step": 78
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.6922104954719543,
+      "eval_runtime": 1.6727,
+      "eval_samples_per_second": 165.597,
+      "eval_steps_per_second": 2.989,
+      "step": 156
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6028880866425993,
+      "eval_loss": 0.675690770149231,
+      "eval_runtime": 1.7034,
+      "eval_samples_per_second": 162.612,
+      "eval_steps_per_second": 2.935,
+      "step": 234
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6101083032490975,
+      "eval_loss": 0.7228259444236755,
+      "eval_runtime": 1.7254,
+      "eval_samples_per_second": 160.54,
+      "eval_steps_per_second": 2.898,
+      "step": 312
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6028880866425993,
+      "eval_loss": 0.8196464776992798,
+      "eval_runtime": 1.753,
+      "eval_samples_per_second": 158.017,
+      "eval_steps_per_second": 2.852,
+      "step": 390
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6064981949458483,
+      "eval_loss": 0.8347622156143188,
+      "eval_runtime": 1.7803,
+      "eval_samples_per_second": 155.595,
+      "eval_steps_per_second": 2.809,
       "step": 468
     }
   ],
   "logging_steps": 500,
+  "max_steps": 468,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.20824535211573575,
+    "learning_rate": 2.1654651991046377e-05,
+    "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-78/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1dd982c1b553fdbc9b8a952e55d40e0d9cc04e480bf34f82e10d6a4ee181d7c
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7c3867cd6186c0f0fdda1b2286dbb5072fbb55d0c7c1781ce71197da52eaa00
 size 267832560

run-1/checkpoint-78/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16db6ef328621a03925d474c105d56d3a7a135c9e1fc5f110eae061fd10cdbf1
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cb6279516369d1f42661dc60594da50d063d4e57ff8a5753461560cf4ccc592
 size 535727290

run-1/checkpoint-78/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:867b92593652105b5f08fe70d622012e55758c900eaf343351c736e7b1b4f3b7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e987394b080855104b2fc9e8a2a35b19f86d7761afc384f7d53b7c8b88c979
 size 14244

run-1/checkpoint-78/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb86949775bdf4d5e2bdaa6717a36cdf0553b78032ab7e03d20cb7dce25cdd05
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:add46fb887d204aa07c58146414bb54dad8684c70c657f66e4e33b99005a5e26
 size 1064

run-1/checkpoint-78/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5487364620938628,
-  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 78,
   "is_hyper_param_search": true,
@@ -11,27 +11,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5487364620938628,
-      "eval_loss": 0.6909578442573547,
-      "eval_runtime": 1.5004,
-      "eval_samples_per_second": 184.621,
-      "eval_steps_per_second": 3.333,
-      "step": 39
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.5415162454873647,
-      "eval_loss": 0.6907435655593872,
-      "eval_runtime": 1.4749,
-      "eval_samples_per_second": 187.809,
-      "eval_steps_per_second": 3.39,
       "step": 78
     }
   ],
   "logging_steps": 500,
-  "max_steps": 78,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -40,17 +31,19 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 2.8881628279456785e-06,
-    "num_train_epochs": 2,
-    "per_device_train_batch_size": 64
   }
 }

 {
+  "best_global_step": 78,
+  "best_metric": 0.5126353790613718,
+  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-78",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 78,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.6928116083145142,
+      "eval_runtime": 1.6157,
+      "eval_samples_per_second": 171.444,
+      "eval_steps_per_second": 3.095,
       "step": 78
     }
   ],
   "logging_steps": 500,
+  "max_steps": 468,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.20824535211573575,
+    "learning_rate": 2.1654651991046377e-05,
+    "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 32
   }
 }

run-1/checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9941fba4fa1cff2a9aead33409263ffd88455374346eacff95cdb699559ad3a2
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:17d3f3ef87c93cc8393d6c6caeddd95144003bfa8d2fe1483588901c4b973a6e
 size 5432

run-14/checkpoint-78/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "vocab_size": 30522
+}

run-14/checkpoint-78/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9255c1aa08f2793046152f416df11bd80559ef9ea1e0557df60f36bedc6e91f9
+size 267832560

run-14/checkpoint-78/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b61d22b7b46522e10f1520816173ba7a938c922fb0f9bcf3820919d5cf91e57
+size 535727290

run-14/checkpoint-78/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:867b92593652105b5f08fe70d622012e55758c900eaf343351c736e7b1b4f3b7
+size 14244

run-14/checkpoint-78/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:100a001fd73a2ba0549b8cca6f0f390a0f4ae4d0f5358e55dec6aef4ad278851
+size 1064

run-14/checkpoint-78/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-78/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-14/checkpoint-78/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-78/trainer_state.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "best_global_step": 78,
+  "best_metric": 0.5703971119133574,
+  "best_model_checkpoint": "distilbert-base-uncased-finetuned-rte-run_3/run-14/checkpoint-78",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 78,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5667870036101083,
+      "eval_loss": 0.6876252889633179,
+      "eval_runtime": 1.7048,
+      "eval_samples_per_second": 162.48,
+      "eval_steps_per_second": 2.933,
+      "step": 39
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5703971119133574,
+      "eval_loss": 0.6807517409324646,
+      "eval_runtime": 1.7318,
+      "eval_samples_per_second": 159.948,
+      "eval_steps_per_second": 2.887,
+      "step": 78
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 234,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "dropout_rate": 0.3994557877518572,
+    "learning_rate": 2.1686743677849786e-05,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 64,
+    "warmup_steps": 43,
+    "weight_decay": 0.03886015775146907
+  }
+}

run-14/checkpoint-78/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93cf3e2688a47066a6179d8c03b9819776b74f37d7be7c152adb78bb2ef5fc54
+size 5432

run-14/checkpoint-78/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-15/checkpoint-117/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "vocab_size": 30522
+}

run-15/checkpoint-117/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e645faf68fcad32039a193b1ed2a0cba07856ff74ed3b370c63140833bfe7b77
+size 267832560

run-15/checkpoint-39/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "vocab_size": 30522
+}

run-15/checkpoint-39/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e8c12dc3f66123eab2367a79cd511d6b837cdeb7e30137ed49309c6b5b97b42
+size 267832560

run-15/checkpoint-39/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b82f4235e2b9f409dcc0a3fbfd06e28192a39d5ebc232065d985ce39e175dc5f
+size 535727290

run-15/checkpoint-39/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aec26492c01f8533e964548678a9125c8479f466e501c830c64a60759451765d
+size 14244

run-15/checkpoint-39/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb107eb384085ed0d49f9d397f7e0b79d61dbe3389ce8f1927c4dd2e29b35555
+size 1064