Add nanoBERT model

Browse files

Files changed (9) hide show

config.json +26 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +551 -0
training_args.bin +3 -0
vocab.json +27 -0

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 320,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 202,
+  "model_type": "roberta",
+  "num_attention_heads": 20,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 25
+}

merges.txt ADDED Viewed

File without changes

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:166ae04df4551eeabfffcf5a7d7bf1e445e2e9bf30575c14ab33b1b596f4cbac
+size 115823034

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abc474c6c6f23215d913d511eb771242317837f1e1880243e0076eae498e7fe2
+size 57903730

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a90152373dab951875e92c43446a0ac8948d44ed5965f9bb310bfa2b43bd3423
+size 14180

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b914267d1a6232aa34982b741df9a8419974f9bd7ab32e4784e35ee04f2e5332
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,551 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.722424669879707,
+  "eval_steps": 10000,
+  "global_step": 380000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.83937751004016e-06,
+      "loss": 1.4799,
+      "step": 10000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.0304539203643799,
+      "eval_runtime": 69.6877,
+      "eval_samples_per_second": 1434.973,
+      "eval_steps_per_second": 14.952,
+      "step": 10000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.638654618473896e-06,
+      "loss": 0.9736,
+      "step": 20000
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.9039866328239441,
+      "eval_runtime": 65.2654,
+      "eval_samples_per_second": 1532.205,
+      "eval_steps_per_second": 15.966,
+      "step": 20000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.437951807228917e-06,
+      "loss": 0.8922,
+      "step": 30000
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.8560834527015686,
+      "eval_runtime": 64.4642,
+      "eval_samples_per_second": 1551.248,
+      "eval_steps_per_second": 16.164,
+      "step": 30000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.237228915662652e-06,
+      "loss": 0.8531,
+      "step": 40000
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.8226799368858337,
+      "eval_runtime": 64.3868,
+      "eval_samples_per_second": 1553.114,
+      "eval_steps_per_second": 16.183,
+      "step": 40000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.036526104417672e-06,
+      "loss": 0.829,
+      "step": 50000
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.8042359948158264,
+      "eval_runtime": 64.3396,
+      "eval_samples_per_second": 1554.254,
+      "eval_steps_per_second": 16.195,
+      "step": 50000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 8.835823293172691e-06,
+      "loss": 0.811,
+      "step": 60000
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.7950388789176941,
+      "eval_runtime": 64.5291,
+      "eval_samples_per_second": 1549.687,
+      "eval_steps_per_second": 16.148,
+      "step": 60000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 8.635120481927711e-06,
+      "loss": 0.7976,
+      "step": 70000
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.7777369022369385,
+      "eval_runtime": 64.862,
+      "eval_samples_per_second": 1541.734,
+      "eval_steps_per_second": 16.065,
+      "step": 70000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 8.434417670682732e-06,
+      "loss": 0.7872,
+      "step": 80000
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.7702258825302124,
+      "eval_runtime": 64.4619,
+      "eval_samples_per_second": 1551.303,
+      "eval_steps_per_second": 16.165,
+      "step": 80000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 8.233714859437752e-06,
+      "loss": 0.778,
+      "step": 90000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.760698139667511,
+      "eval_runtime": 64.4008,
+      "eval_samples_per_second": 1552.775,
+      "eval_steps_per_second": 16.18,
+      "step": 90000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.033012048192772e-06,
+      "loss": 0.7695,
+      "step": 100000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.7517786622047424,
+      "eval_runtime": 64.56,
+      "eval_samples_per_second": 1548.946,
+      "eval_steps_per_second": 16.14,
+      "step": 100000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 7.832309236947791e-06,
+      "loss": 0.7638,
+      "step": 110000
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.7468145489692688,
+      "eval_runtime": 64.9838,
+      "eval_samples_per_second": 1538.846,
+      "eval_steps_per_second": 16.035,
+      "step": 110000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.631606425702813e-06,
+      "loss": 0.7573,
+      "step": 120000
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.739628255367279,
+      "eval_runtime": 64.2595,
+      "eval_samples_per_second": 1556.191,
+      "eval_steps_per_second": 16.216,
+      "step": 120000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 7.4309036144578315e-06,
+      "loss": 0.7512,
+      "step": 130000
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.7346537709236145,
+      "eval_runtime": 64.911,
+      "eval_samples_per_second": 1540.57,
+      "eval_steps_per_second": 16.053,
+      "step": 130000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.2301807228915665e-06,
+      "loss": 0.7468,
+      "step": 140000
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.7300976514816284,
+      "eval_runtime": 64.8445,
+      "eval_samples_per_second": 1542.15,
+      "eval_steps_per_second": 16.069,
+      "step": 140000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.029477911646587e-06,
+      "loss": 0.7418,
+      "step": 150000
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.7252103686332703,
+      "eval_runtime": 64.5503,
+      "eval_samples_per_second": 1549.179,
+      "eval_steps_per_second": 16.142,
+      "step": 150000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.828775100401607e-06,
+      "loss": 0.7379,
+      "step": 160000
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.7203709483146667,
+      "eval_runtime": 64.4763,
+      "eval_samples_per_second": 1550.958,
+      "eval_steps_per_second": 16.161,
+      "step": 160000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.628072289156627e-06,
+      "loss": 0.7333,
+      "step": 170000
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.7167079448699951,
+      "eval_runtime": 64.7852,
+      "eval_samples_per_second": 1543.562,
+      "eval_steps_per_second": 16.084,
+      "step": 170000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.427369477911647e-06,
+      "loss": 0.7298,
+      "step": 180000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.7129059433937073,
+      "eval_runtime": 64.609,
+      "eval_samples_per_second": 1547.772,
+      "eval_steps_per_second": 16.128,
+      "step": 180000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 6.2266666666666675e-06,
+      "loss": 0.7258,
+      "step": 190000
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.7089965343475342,
+      "eval_runtime": 64.6825,
+      "eval_samples_per_second": 1546.013,
+      "eval_steps_per_second": 16.109,
+      "step": 190000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.025963855421687e-06,
+      "loss": 0.7229,
+      "step": 200000
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.7047411799430847,
+      "eval_runtime": 64.3501,
+      "eval_samples_per_second": 1553.999,
+      "eval_steps_per_second": 16.193,
+      "step": 200000
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 5.825261044176708e-06,
+      "loss": 0.7194,
+      "step": 210000
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.7026636004447937,
+      "eval_runtime": 64.4785,
+      "eval_samples_per_second": 1550.905,
+      "eval_steps_per_second": 16.16,
+      "step": 210000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 5.624558232931727e-06,
+      "loss": 0.7171,
+      "step": 220000
+    },
+    {
+      "epoch": 2.16,
+      "eval_loss": 0.702177107334137,
+      "eval_runtime": 64.5209,
+      "eval_samples_per_second": 1549.886,
+      "eval_steps_per_second": 16.15,
+      "step": 220000
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 5.423855421686748e-06,
+      "loss": 0.7138,
+      "step": 230000
+    },
+    {
+      "epoch": 2.25,
+      "eval_loss": 0.6978575587272644,
+      "eval_runtime": 64.573,
+      "eval_samples_per_second": 1548.634,
+      "eval_steps_per_second": 16.137,
+      "step": 230000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 5.2231526104417676e-06,
+      "loss": 0.7113,
+      "step": 240000
+    },
+    {
+      "epoch": 2.35,
+      "eval_loss": 0.6939824819564819,
+      "eval_runtime": 64.7414,
+      "eval_samples_per_second": 1544.606,
+      "eval_steps_per_second": 16.095,
+      "step": 240000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.022449799196788e-06,
+      "loss": 0.7087,
+      "step": 250000
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.6922757029533386,
+      "eval_runtime": 64.5094,
+      "eval_samples_per_second": 1550.162,
+      "eval_steps_per_second": 16.153,
+      "step": 250000
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.821746987951808e-06,
+      "loss": 0.7071,
+      "step": 260000
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.6915081739425659,
+      "eval_runtime": 65.0605,
+      "eval_samples_per_second": 1537.031,
+      "eval_steps_per_second": 16.016,
+      "step": 260000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 4.6210441767068274e-06,
+      "loss": 0.7047,
+      "step": 270000
+    },
+    {
+      "epoch": 2.64,
+      "eval_loss": 0.6870027184486389,
+      "eval_runtime": 64.7199,
+      "eval_samples_per_second": 1545.119,
+      "eval_steps_per_second": 16.1,
+      "step": 270000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.420341365461848e-06,
+      "loss": 0.7027,
+      "step": 280000
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.6844470500946045,
+      "eval_runtime": 64.906,
+      "eval_samples_per_second": 1540.69,
+      "eval_steps_per_second": 16.054,
+      "step": 280000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 4.219638554216868e-06,
+      "loss": 0.6999,
+      "step": 290000
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.6833365559577942,
+      "eval_runtime": 64.5739,
+      "eval_samples_per_second": 1548.614,
+      "eval_steps_per_second": 16.137,
+      "step": 290000
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 4.018935742971888e-06,
+      "loss": 0.6992,
+      "step": 300000
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.6834575533866882,
+      "eval_runtime": 64.6706,
+      "eval_samples_per_second": 1546.298,
+      "eval_steps_per_second": 16.112,
+      "step": 300000
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 3.818253012048193e-06,
+      "loss": 0.6975,
+      "step": 310000
+    },
+    {
+      "epoch": 3.04,
+      "eval_loss": 0.6793897151947021,
+      "eval_runtime": 64.8495,
+      "eval_samples_per_second": 1542.031,
+      "eval_steps_per_second": 16.068,
+      "step": 310000
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 3.617530120481928e-06,
+      "loss": 0.6947,
+      "step": 320000
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.6794592142105103,
+      "eval_runtime": 64.6554,
+      "eval_samples_per_second": 1546.661,
+      "eval_steps_per_second": 16.116,
+      "step": 320000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 3.416827309236948e-06,
+      "loss": 0.6947,
+      "step": 330000
+    },
+    {
+      "epoch": 3.23,
+      "eval_loss": 0.6781629920005798,
+      "eval_runtime": 65.93,
+      "eval_samples_per_second": 1516.76,
+      "eval_steps_per_second": 15.805,
+      "step": 330000
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 3.216124497991968e-06,
+      "loss": 0.6932,
+      "step": 340000
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.6771513819694519,
+      "eval_runtime": 64.7971,
+      "eval_samples_per_second": 1543.279,
+      "eval_steps_per_second": 16.081,
+      "step": 340000
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 3.015401606425703e-06,
+      "loss": 0.6914,
+      "step": 350000
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.6757428050041199,
+      "eval_runtime": 64.8856,
+      "eval_samples_per_second": 1541.173,
+      "eval_steps_per_second": 16.059,
+      "step": 350000
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 2.8146987951807233e-06,
+      "loss": 0.6907,
+      "step": 360000
+    },
+    {
+      "epoch": 3.53,
+      "eval_loss": 0.6730121374130249,
+      "eval_runtime": 65.1098,
+      "eval_samples_per_second": 1535.867,
+      "eval_steps_per_second": 16.004,
+      "step": 360000
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.6139959839357434e-06,
+      "loss": 0.689,
+      "step": 370000
+    },
+    {
+      "epoch": 3.62,
+      "eval_loss": 0.6724720597267151,
+      "eval_runtime": 65.1981,
+      "eval_samples_per_second": 1533.787,
+      "eval_steps_per_second": 15.982,
+      "step": 370000
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 2.413293172690763e-06,
+      "loss": 0.6885,
+      "step": 380000
+    },
+    {
+      "epoch": 3.72,
+      "eval_loss": 0.6744215488433838,
+      "eval_runtime": 64.9859,
+      "eval_samples_per_second": 1538.796,
+      "eval_steps_per_second": 16.034,
+      "step": 380000
+    }
+  ],
+  "logging_steps": 10000,
+  "max_steps": 500000,
+  "num_train_epochs": 5,
+  "save_steps": 10000,
+  "total_flos": 6.301004166565632e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52cfee9909bae69ef99be6ff3749cceaf5f5a35741ce1b069ebf8f2caea16cef
+size 4600

vocab.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "<s>": 0,
+  "</s>": 2,
+  "<pad>": 1,
+  "<unk>": 3,
+  "<mask>": 4,
+  "A": 5,
+  "C": 6,
+  "D": 7,
+  "E": 8,
+  "F": 9,
+  "G": 10,
+  "H": 11,
+  "I": 12,
+  "K": 13,
+  "L": 14,
+  "M": 15,
+  "N": 16,
+  "P": 17,
+  "Q": 18,
+  "R": 19,
+  "S": 20,
+  "T": 21,
+  "V": 22,
+  "W": 23,
+  "Y": 24
+}