Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +48 -24
last-checkpoint/model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +15 -388
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -17,34 +17,58 @@
     "5": "displaced_people_and_evacuations",
     "6": "requests_or_urgent_needs",
     "7": "missing_or_found_people",
-    "8": "Country",
-    "9": "State",
-    "10": "City/town",
-    "11": "Island",
-    "12": "Human-made Point-of-Interest",
-    "13": "County",
-    "14": "Natural Point-of-Interest",
-    "15": "District",
-    "16": "Neighborhood",
-    "17": "Continent",
-    "18": "Road/street",
-    "19": "Other locations"
   },
   "initializer_range": 0.02,
   "label2id": {
-    "City/town": 10,
-    "Continent": 17,
-    "Country": 8,
-    "County": 13,
-    "District": 15,
-    "Human-made Point-of-Interest": 12,
-    "Island": 11,
-    "Natural Point-of-Interest": 14,
-    "Neighborhood": 16,
     "O": 0,
-    "Other locations": 19,
-    "Road/street": 18,
-    "State": 9,
     "caution_and_advice": 4,
     "displaced_people_and_evacuations": 5,
     "infrastructure_and_utility_damage": 3,

     "5": "displaced_people_and_evacuations",
     "6": "requests_or_urgent_needs",
     "7": "missing_or_found_people",
+    "8": "B-Country",
+    "9": "I-Country",
+    "10": "B-State",
+    "11": "I-State",
+    "12": "B-City/town",
+    "13": "I-City/town",
+    "14": "B-Island",
+    "15": "I-Island",
+    "16": "B-Human-made Point-of-Interest",
+    "17": "I-Human-made Point-of-Interest",
+    "18": "B-County",
+    "19": "I-County",
+    "20": "B-Natural Point-of-Interest",
+    "21": "I-Natural Point-of-Interest",
+    "22": "B-District",
+    "23": "I-District",
+    "24": "B-Neighborhood",
+    "25": "I-Neighborhood",
+    "26": "B-Continent",
+    "27": "I-Continent",
+    "28": "B-Road/street",
+    "29": "I-Road/street",
+    "30": "B-Other locations",
+    "31": "I-Other locations"
   },
   "initializer_range": 0.02,
   "label2id": {
+    "B-City/town": 12,
+    "B-Continent": 26,
+    "B-Country": 8,
+    "B-County": 18,
+    "B-District": 22,
+    "B-Human-made Point-of-Interest": 16,
+    "B-Island": 14,
+    "B-Natural Point-of-Interest": 20,
+    "B-Neighborhood": 24,
+    "B-Other locations": 30,
+    "B-Road/street": 28,
+    "B-State": 10,
+    "I-City/town": 13,
+    "I-Continent": 27,
+    "I-Country": 9,
+    "I-County": 19,
+    "I-District": 23,
+    "I-Human-made Point-of-Interest": 17,
+    "I-Island": 15,
+    "I-Natural Point-of-Interest": 21,
+    "I-Neighborhood": 25,
+    "I-Other locations": 31,
+    "I-Road/street": 29,
+    "I-State": 11,
     "O": 0,
     "caution_and_advice": 4,
     "displaced_people_and_evacuations": 5,
     "infrastructure_and_utility_damage": 3,

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe766e0b8632065a6bd6c2d51570e0eda4ff40f454181a068f78597426befa2a
-size 265525384

 version https://git-lfs.github.com/spec/v1
+oid sha256:c20beb9281697dd72a2c9b79220b5bc24246bd84f72c5c7d07ff540153684288
+size 265562304

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01ecf6026893bb1cf098c8783b309ec1dbcddfaa3a9486c6b327d16f9af1bd9b
-size 531111610

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5f787f1f49a9b156f0a2aa56b5b58fd2fc3f6bb05d5891123dc11eb807235fd
+size 531185466

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b050c94d670cbde7ca88601b5407bb3c59a1dedf3072aaaf736c68772003708c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2009c2d27df1c9a086e2642227c50c01871b01b0d4305ab7ccac00b30505e9f4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6ff39835f6fc0ab5432bbe426fb9e017df9b359be5fad96f2d6b3dde669dc72
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e04c20da2a8ea2306a9e7dacd4d7bbc3b1ebf30daa3e10e935bba3579631954
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,398 +1,25 @@
 {
-  "best_metric": 0.04970533400774002,
-  "best_model_checkpoint": "BERT_NER/checkpoint-1800",
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9815011440278754,
-      "eval_f1": 0.8315608104093637,
-      "eval_loss": 0.07077562808990479,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8226166686258376,
-      "eval_recall": 0.8407015857760692,
-      "eval_runtime": 5.986,
-      "eval_samples_per_second": 343.465,
-      "eval_steps_per_second": 10.859,
       "step": 450
-    },
-    {
-      "epoch": 1.1111111111111112,
-      "grad_norm": 0.3698432445526123,
-      "learning_rate": 9.924038765061042e-06,
-      "loss": 0.2215,
-      "step": 500
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9855239348577068,
-      "eval_f1": 0.8632174908149131,
-      "eval_loss": 0.05390042066574097,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8655634738494987,
-      "eval_recall": 0.8608841902931283,
-      "eval_runtime": 5.7287,
-      "eval_samples_per_second": 358.897,
-      "eval_steps_per_second": 11.346,
-      "step": 900
-    },
-    {
-      "epoch": 2.2222222222222223,
-      "grad_norm": 0.47045743465423584,
-      "learning_rate": 9.698463103929542e-06,
-      "loss": 0.0594,
-      "step": 1000
-    },
-    {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9859576186274657,
-      "eval_f1": 0.8661595150362533,
-      "eval_loss": 0.05013062804937363,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8570924488355681,
-      "eval_recall": 0.8754204709274387,
-      "eval_runtime": 5.8189,
-      "eval_samples_per_second": 353.33,
-      "eval_steps_per_second": 11.17,
-      "step": 1350
-    },
-    {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 0.3303043842315674,
-      "learning_rate": 9.330127018922195e-06,
-      "loss": 0.0463,
-      "step": 1500
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9863464385589735,
-      "eval_f1": 0.8724599569686828,
-      "eval_loss": 0.04970533400774002,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8681018078020932,
-      "eval_recall": 0.8768620855358001,
-      "eval_runtime": 7.8485,
-      "eval_samples_per_second": 261.959,
-      "eval_steps_per_second": 8.282,
-      "step": 1800
-    },
-    {
-      "epoch": 4.444444444444445,
-      "grad_norm": 0.4745778739452362,
-      "learning_rate": 8.83022221559489e-06,
-      "loss": 0.0402,
-      "step": 2000
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9854940256322062,
-      "eval_f1": 0.867238946378175,
-      "eval_loss": 0.05161146819591522,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8492630124366651,
-      "eval_recall": 0.8859923113887554,
-      "eval_runtime": 5.7267,
-      "eval_samples_per_second": 359.017,
-      "eval_steps_per_second": 11.35,
-      "step": 2250
-    },
-    {
-      "epoch": 5.555555555555555,
-      "grad_norm": 0.5098891854286194,
-      "learning_rate": 8.213938048432697e-06,
-      "loss": 0.0342,
-      "step": 2500
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.9856585263724595,
-      "eval_f1": 0.8698832134009673,
-      "eval_loss": 0.051208045333623886,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8544611819235226,
-      "eval_recall": 0.8858721768380586,
-      "eval_runtime": 5.795,
-      "eval_samples_per_second": 354.791,
-      "eval_steps_per_second": 11.217,
-      "step": 2700
-    },
-    {
-      "epoch": 6.666666666666667,
-      "grad_norm": 0.45609113574028015,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.0315,
-      "step": 3000
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.9857931178872124,
-      "eval_f1": 0.8688388625592418,
-      "eval_loss": 0.05190838873386383,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8570593735390369,
-      "eval_recall": 0.8809466602594906,
-      "eval_runtime": 5.7723,
-      "eval_samples_per_second": 356.186,
-      "eval_steps_per_second": 11.261,
-      "step": 3150
-    },
-    {
-      "epoch": 7.777777777777778,
-      "grad_norm": 0.41619575023651123,
-      "learning_rate": 6.710100716628345e-06,
-      "loss": 0.027,
-      "step": 3500
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.9856884355979602,
-      "eval_f1": 0.8677279990530864,
-      "eval_loss": 0.05590701475739479,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8551265601306427,
-      "eval_recall": 0.8807063911580971,
-      "eval_runtime": 5.7795,
-      "eval_samples_per_second": 355.739,
-      "eval_steps_per_second": 11.247,
-      "step": 3600
-    },
-    {
-      "epoch": 8.88888888888889,
-      "grad_norm": 0.45251068472862244,
-      "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.024,
-      "step": 4000
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.9858379817254632,
-      "eval_f1": 0.8688417424377488,
-      "eval_loss": 0.05611706152558327,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8596965776784664,
-      "eval_recall": 0.8781835655934647,
-      "eval_runtime": 6.5884,
-      "eval_samples_per_second": 312.065,
-      "eval_steps_per_second": 9.866,
-      "step": 4050
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.7303150296211243,
-      "learning_rate": 5e-06,
-      "loss": 0.0217,
-      "step": 4500
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.9853893433429541,
-      "eval_f1": 0.8651399491094148,
-      "eval_loss": 0.0589301772415638,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8524781341107872,
-      "eval_recall": 0.8781835655934647,
-      "eval_runtime": 5.7566,
-      "eval_samples_per_second": 357.158,
-      "eval_steps_per_second": 11.291,
-      "step": 4500
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.9851650241516996,
-      "eval_f1": 0.8654674137422589,
-      "eval_loss": 0.06038934364914894,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8500753099293246,
-      "eval_recall": 0.8814271984622778,
-      "eval_runtime": 5.7196,
-      "eval_samples_per_second": 359.467,
-      "eval_steps_per_second": 11.364,
-      "step": 4950
-    },
-    {
-      "epoch": 11.11111111111111,
-      "grad_norm": 0.4123375117778778,
-      "learning_rate": 4.131759111665349e-06,
-      "loss": 0.0192,
-      "step": 5000
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.9849855687986959,
-      "eval_f1": 0.8646989374262102,
-      "eval_loss": 0.062446460127830505,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8500464252553389,
-      "eval_recall": 0.8798654493032196,
-      "eval_runtime": 7.3929,
-      "eval_samples_per_second": 278.104,
-      "eval_steps_per_second": 8.792,
-      "step": 5400
-    },
-    {
-      "epoch": 12.222222222222221,
-      "grad_norm": 0.4480305016040802,
-      "learning_rate": 3.289899283371657e-06,
-      "loss": 0.0175,
-      "step": 5500
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.9847762042201917,
-      "eval_f1": 0.8635264988504392,
-      "eval_loss": 0.06442124396562576,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8477833082532701,
-      "eval_recall": 0.8798654493032196,
-      "eval_runtime": 5.7298,
-      "eval_samples_per_second": 358.825,
-      "eval_steps_per_second": 11.344,
-      "step": 5850
-    },
-    {
-      "epoch": 13.333333333333334,
-      "grad_norm": 0.5093116164207458,
-      "learning_rate": 2.5000000000000015e-06,
-      "loss": 0.0161,
-      "step": 6000
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.9852248426027008,
-      "eval_f1": 0.8660221813652809,
-      "eval_loss": 0.06543978303670883,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8552184608176174,
-      "eval_recall": 0.8771023546371937,
-      "eval_runtime": 5.7165,
-      "eval_samples_per_second": 359.659,
-      "eval_steps_per_second": 11.371,
-      "step": 6300
-    },
-    {
-      "epoch": 14.444444444444445,
-      "grad_norm": 0.40885716676712036,
-      "learning_rate": 1.7860619515673034e-06,
-      "loss": 0.0158,
-      "step": 6500
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.9852547518282014,
-      "eval_f1": 0.8643162393162392,
-      "eval_loss": 0.06607560068368912,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8541764429845143,
-      "eval_recall": 0.874699663623258,
-      "eval_runtime": 6.1942,
-      "eval_samples_per_second": 331.924,
-      "eval_steps_per_second": 10.494,
-      "step": 6750
-    },
-    {
-      "epoch": 15.555555555555555,
-      "grad_norm": 0.3801928758621216,
-      "learning_rate": 1.1697777844051105e-06,
-      "loss": 0.0146,
-      "step": 7000
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9849407049604451,
-      "eval_f1": 0.8640490508194788,
-      "eval_loss": 0.06781567633152008,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8483445241954156,
-      "eval_recall": 0.8803459875060067,
-      "eval_runtime": 5.773,
-      "eval_samples_per_second": 356.139,
-      "eval_steps_per_second": 11.259,
-      "step": 7200
-    },
-    {
-      "epoch": 16.666666666666668,
-      "grad_norm": 0.9012673497200012,
-      "learning_rate": 6.698729810778065e-07,
-      "loss": 0.0142,
-      "step": 7500
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.9852697064409517,
-      "eval_f1": 0.8662367627048454,
-      "eval_loss": 0.06687122583389282,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8533628628045227,
-      "eval_recall": 0.8795050456511293,
-      "eval_runtime": 8.3056,
-      "eval_samples_per_second": 247.545,
-      "eval_steps_per_second": 7.826,
-      "step": 7650
-    },
-    {
-      "epoch": 17.77777777777778,
-      "grad_norm": 0.35803523659706116,
-      "learning_rate": 3.015368960704584e-07,
-      "loss": 0.0133,
-      "step": 8000
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.9852697064409517,
-      "eval_f1": 0.866493076103681,
-      "eval_loss": 0.06717605888843536,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8538605085141124,
-      "eval_recall": 0.8795050456511293,
-      "eval_runtime": 7.6906,
-      "eval_samples_per_second": 267.341,
-      "eval_steps_per_second": 8.452,
-      "step": 8100
-    },
-    {
-      "epoch": 18.88888888888889,
-      "grad_norm": 0.4534122347831726,
-      "learning_rate": 7.59612349389599e-08,
-      "loss": 0.0135,
-      "step": 8500
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.9852697064409517,
-      "eval_f1": 0.8665246716364927,
-      "eval_loss": 0.06741219013929367,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.8536955001165772,
-      "eval_recall": 0.8797453147525228,
-      "eval_runtime": 5.7401,
-      "eval_samples_per_second": 358.185,
-      "eval_steps_per_second": 11.324,
-      "step": 8550
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.877216637134552,
-      "learning_rate": 0.0,
-      "loss": 0.0136,
-      "step": 9000
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.9852098879899505,
-      "eval_f1": 0.8659488878371983,
-      "eval_loss": 0.06747559458017349,
-      "eval_model_preparation_time": 0.0017,
-      "eval_precision": 0.853030303030303,
-      "eval_recall": 0.8792647765497357,
-      "eval_runtime": 6.657,
-      "eval_samples_per_second": 308.846,
-      "eval_steps_per_second": 9.764,
-      "step": 9000
     }
   ],
   "logging_steps": 500,
@@ -407,12 +34,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 5375523723085680.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08145938068628311,
+  "best_model_checkpoint": "BERT_NER/checkpoint-450",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9804094572971033,
+      "eval_f1": 0.8147548566142461,
+      "eval_loss": 0.08145938068628311,
+      "eval_model_preparation_time": 0.0016,
+      "eval_precision": 0.82274638019617,
+      "eval_recall": 0.8069170865781036,
+      "eval_runtime": 6.1379,
+      "eval_samples_per_second": 334.97,
+      "eval_steps_per_second": 10.59,
       "step": 450
     }
   ],
   "logging_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 267692054324736.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c6b238c26e3ba30d9b9af91c8aa8015cec7340426e32ad5ab9db5e57a1039ae
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7acf25ca8b5c50a95fbce5413fdcfdf4adca9ac5d976622a6bde786e93911884
 size 5176