Upload 10 files

Browse files

Files changed (10) hide show

hf_bert_pro_20_epochs/config.json +25 -0
hf_bert_pro_20_epochs/model.safetensors +3 -0
hf_bert_pro_20_epochs/optimizer.pt +3 -0
hf_bert_pro_20_epochs/rng_state.pth +3 -0
hf_bert_pro_20_epochs/scheduler.pt +3 -0
hf_bert_pro_20_epochs/special_tokens_map.json +7 -0
hf_bert_pro_20_epochs/tokenizer_config.json +58 -0
hf_bert_pro_20_epochs/trainer_state.json +575 -0
hf_bert_pro_20_epochs/training_args.bin +3 -0
hf_bert_pro_20_epochs/vocab.txt +0 -0

hf_bert_pro_20_epochs/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

hf_bert_pro_20_epochs/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c75dcaa4c0a8882aeff6076d9c9c831468dd5cf4705344abd39081a07d309e1d
+size 438080896

hf_bert_pro_20_epochs/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a36a06c9bf3dce81b1985ab339b90923af77dbd4698852ef6da9fadaae6e97
+size 876283258

hf_bert_pro_20_epochs/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:684f71dc1df0e694759ed6bbef1ad2a0a5bae49b4730ac5c9f3ae44cd2457a6a
+size 14244

hf_bert_pro_20_epochs/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4170c39a78ba24967ff6c2afbeb63788a3da9095ea34b1afdb0875d95d31831c
+size 1064

hf_bert_pro_20_epochs/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

hf_bert_pro_20_epochs/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

hf_bert_pro_20_epochs/trainer_state.json ADDED Viewed

	@@ -0,0 +1,575 @@

+{
+  "best_global_step": 26250,
+  "best_metric": 1.6726031303405762,
+  "best_model_checkpoint": "output/checkpoint-26250",
+  "epoch": 21.0,
+  "eval_steps": 500,
+  "global_step": 26250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.4,
+      "grad_norm": 3.792271852493286,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 2.1127,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.493194341659546,
+      "learning_rate": 4.96e-05,
+      "loss": 2.0322,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.8727474212646484,
+      "eval_runtime": 79.5418,
+      "eval_samples_per_second": 125.72,
+      "eval_steps_per_second": 3.935,
+      "step": 1250
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 3.216500759124756,
+      "learning_rate": 4.94e-05,
+      "loss": 1.9934,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.296123743057251,
+      "learning_rate": 4.92e-05,
+      "loss": 1.9576,
+      "step": 2000
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.778991460800171,
+      "learning_rate": 4.9e-05,
+      "loss": 1.9395,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8361996412277222,
+      "eval_runtime": 79.8291,
+      "eval_samples_per_second": 125.268,
+      "eval_steps_per_second": 3.921,
+      "step": 2500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 3.35451340675354,
+      "learning_rate": 4.88e-05,
+      "loss": 1.9039,
+      "step": 3000
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.2007856369018555,
+      "learning_rate": 4.86e-05,
+      "loss": 1.899,
+      "step": 3500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.8026707172393799,
+      "eval_runtime": 79.3622,
+      "eval_samples_per_second": 126.005,
+      "eval_steps_per_second": 3.944,
+      "step": 3750
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 3.4291458129882812,
+      "learning_rate": 4.8400000000000004e-05,
+      "loss": 1.8836,
+      "step": 4000
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 3.329169988632202,
+      "learning_rate": 4.82e-05,
+      "loss": 1.8707,
+      "step": 4500
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 3.29327392578125,
+      "learning_rate": 4.8e-05,
+      "loss": 1.8571,
+      "step": 5000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.793080449104309,
+      "eval_runtime": 79.2565,
+      "eval_samples_per_second": 126.173,
+      "eval_steps_per_second": 3.949,
+      "step": 5000
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 3.511061429977417,
+      "learning_rate": 4.78e-05,
+      "loss": 1.8375,
+      "step": 5500
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 2.9841179847717285,
+      "learning_rate": 4.76e-05,
+      "loss": 1.8261,
+      "step": 6000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.7694125175476074,
+      "eval_runtime": 79.3477,
+      "eval_samples_per_second": 126.028,
+      "eval_steps_per_second": 3.945,
+      "step": 6250
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 3.2486345767974854,
+      "learning_rate": 4.74e-05,
+      "loss": 1.8106,
+      "step": 6500
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 3.1133296489715576,
+      "learning_rate": 4.72e-05,
+      "loss": 1.797,
+      "step": 7000
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.72696852684021,
+      "learning_rate": 4.7e-05,
+      "loss": 1.7989,
+      "step": 7500
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.752471685409546,
+      "eval_runtime": 79.6162,
+      "eval_samples_per_second": 125.603,
+      "eval_steps_per_second": 3.931,
+      "step": 7500
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 3.4890694618225098,
+      "learning_rate": 4.6800000000000006e-05,
+      "loss": 1.7788,
+      "step": 8000
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 3.2990198135375977,
+      "learning_rate": 4.660000000000001e-05,
+      "loss": 1.7786,
+      "step": 8500
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.743485927581787,
+      "eval_runtime": 79.3229,
+      "eval_samples_per_second": 126.067,
+      "eval_steps_per_second": 3.946,
+      "step": 8750
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 3.170145034790039,
+      "learning_rate": 4.64e-05,
+      "loss": 1.7718,
+      "step": 9000
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 3.1817779541015625,
+      "learning_rate": 4.6200000000000005e-05,
+      "loss": 1.7558,
+      "step": 9500
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.174926519393921,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.756,
+      "step": 10000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.7325628995895386,
+      "eval_runtime": 79.3253,
+      "eval_samples_per_second": 126.063,
+      "eval_steps_per_second": 3.946,
+      "step": 10000
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 3.2396745681762695,
+      "learning_rate": 4.58e-05,
+      "loss": 1.7342,
+      "step": 10500
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 3.2978265285491943,
+      "learning_rate": 4.5600000000000004e-05,
+      "loss": 1.7325,
+      "step": 11000
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.7237361669540405,
+      "eval_runtime": 79.3397,
+      "eval_samples_per_second": 126.04,
+      "eval_steps_per_second": 3.945,
+      "step": 11250
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 3.6129040718078613,
+      "learning_rate": 4.5400000000000006e-05,
+      "loss": 1.7311,
+      "step": 11500
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 3.5869312286376953,
+      "learning_rate": 4.52e-05,
+      "loss": 1.721,
+      "step": 12000
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 3.2217297554016113,
+      "learning_rate": 4.5e-05,
+      "loss": 1.7256,
+      "step": 12500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.7248116731643677,
+      "eval_runtime": 79.9338,
+      "eval_samples_per_second": 125.104,
+      "eval_steps_per_second": 3.916,
+      "step": 12500
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 3.1793668270111084,
+      "learning_rate": 4.4800000000000005e-05,
+      "loss": 1.6923,
+      "step": 13000
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 2.925715684890747,
+      "learning_rate": 4.46e-05,
+      "loss": 1.7066,
+      "step": 13500
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 1.7208353281021118,
+      "eval_runtime": 79.1759,
+      "eval_samples_per_second": 126.301,
+      "eval_steps_per_second": 3.953,
+      "step": 13750
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 3.0651283264160156,
+      "learning_rate": 4.44e-05,
+      "loss": 1.6894,
+      "step": 14000
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 2.897967576980591,
+      "learning_rate": 4.4200000000000004e-05,
+      "loss": 1.6852,
+      "step": 14500
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 3.138188123703003,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.6891,
+      "step": 15000
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.7089905738830566,
+      "eval_runtime": 79.1389,
+      "eval_samples_per_second": 126.36,
+      "eval_steps_per_second": 3.955,
+      "step": 15000
+    },
+    {
+      "epoch": 12.4,
+      "grad_norm": 3.3055591583251953,
+      "learning_rate": 4.38e-05,
+      "loss": 1.6685,
+      "step": 15500
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 3.092822551727295,
+      "learning_rate": 4.36e-05,
+      "loss": 1.6747,
+      "step": 16000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 1.7045754194259644,
+      "eval_runtime": 79.6544,
+      "eval_samples_per_second": 125.542,
+      "eval_steps_per_second": 3.929,
+      "step": 16250
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 3.1481597423553467,
+      "learning_rate": 4.3400000000000005e-05,
+      "loss": 1.662,
+      "step": 16500
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 3.1880903244018555,
+      "learning_rate": 4.32e-05,
+      "loss": 1.6573,
+      "step": 17000
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 3.1915714740753174,
+      "learning_rate": 4.3e-05,
+      "loss": 1.656,
+      "step": 17500
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.699405312538147,
+      "eval_runtime": 79.9022,
+      "eval_samples_per_second": 125.153,
+      "eval_steps_per_second": 3.917,
+      "step": 17500
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 3.177797317504883,
+      "learning_rate": 4.2800000000000004e-05,
+      "loss": 1.6334,
+      "step": 18000
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 3.0355215072631836,
+      "learning_rate": 4.26e-05,
+      "loss": 1.646,
+      "step": 18500
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 1.6880792379379272,
+      "eval_runtime": 79.6882,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.928,
+      "step": 18750
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 3.201802968978882,
+      "learning_rate": 4.24e-05,
+      "loss": 1.6369,
+      "step": 19000
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 2.9140782356262207,
+      "learning_rate": 4.22e-05,
+      "loss": 1.6254,
+      "step": 19500
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 2.9663515090942383,
+      "learning_rate": 4.2e-05,
+      "loss": 1.6272,
+      "step": 20000
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.6963340044021606,
+      "eval_runtime": 79.4158,
+      "eval_samples_per_second": 125.919,
+      "eval_steps_per_second": 3.941,
+      "step": 20000
+    },
+    {
+      "epoch": 16.4,
+      "grad_norm": 3.0621337890625,
+      "learning_rate": 4.18e-05,
+      "loss": 1.6149,
+      "step": 20500
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 3.031522750854492,
+      "learning_rate": 4.16e-05,
+      "loss": 1.6216,
+      "step": 21000
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 1.6839699745178223,
+      "eval_runtime": 79.786,
+      "eval_samples_per_second": 125.335,
+      "eval_steps_per_second": 3.923,
+      "step": 21250
+    },
+    {
+      "epoch": 17.2,
+      "grad_norm": 3.0754151344299316,
+      "learning_rate": 4.14e-05,
+      "loss": 1.6137,
+      "step": 21500
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 3.2484161853790283,
+      "learning_rate": 4.12e-05,
+      "loss": 1.601,
+      "step": 22000
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 2.982337236404419,
+      "learning_rate": 4.1e-05,
+      "loss": 1.6163,
+      "step": 22500
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.6896445751190186,
+      "eval_runtime": 79.3863,
+      "eval_samples_per_second": 125.966,
+      "eval_steps_per_second": 3.943,
+      "step": 22500
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 3.2979774475097656,
+      "learning_rate": 4.08e-05,
+      "loss": 1.5941,
+      "step": 23000
+    },
+    {
+      "epoch": 18.8,
+      "grad_norm": 3.40487003326416,
+      "learning_rate": 4.0600000000000004e-05,
+      "loss": 1.5928,
+      "step": 23500
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 1.6783804893493652,
+      "eval_runtime": 79.4878,
+      "eval_samples_per_second": 125.805,
+      "eval_steps_per_second": 3.938,
+      "step": 23750
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 3.0854432582855225,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 1.5911,
+      "step": 24000
+    },
+    {
+      "epoch": 19.6,
+      "grad_norm": 3.0497543811798096,
+      "learning_rate": 4.02e-05,
+      "loss": 1.5861,
+      "step": 24500
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 3.2561333179473877,
+      "learning_rate": 4e-05,
+      "loss": 1.5906,
+      "step": 25000
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.686535358428955,
+      "eval_runtime": 79.4354,
+      "eval_samples_per_second": 125.888,
+      "eval_steps_per_second": 3.94,
+      "step": 25000
+    },
+    {
+      "epoch": 20.4,
+      "grad_norm": 2.977836847305298,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 1.5759,
+      "step": 25500
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 3.172325849533081,
+      "learning_rate": 3.960000000000001e-05,
+      "loss": 1.5745,
+      "step": 26000
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 1.6726031303405762,
+      "eval_runtime": 79.5286,
+      "eval_samples_per_second": 125.741,
+      "eval_steps_per_second": 3.936,
+      "step": 26250
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 125000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.21092042752e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

hf_bert_pro_20_epochs/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a869cfb5e8648cac80034c3c19dd58178378a28654fb923b5a7f7ee5de136ecf
+size 5304

hf_bert_pro_20_epochs/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff