Training in progress, step 2757, checkpoint

Browse files

Files changed (11) hide show

checkpoint-2757/config.json +42 -0
checkpoint-2757/model.safetensors +3 -0
checkpoint-2757/optimizer.pt +3 -0
checkpoint-2757/rng_state.pth +3 -0
checkpoint-2757/scheduler.pt +3 -0
checkpoint-2757/special_tokens_map.json +7 -0
checkpoint-2757/tokenizer.json +0 -0
checkpoint-2757/tokenizer_config.json +56 -0
checkpoint-2757/trainer_state.json +289 -0
checkpoint-2757/training_args.bin +3 -0
checkpoint-2757/vocab.txt +0 -0

checkpoint-2757/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-2757/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8e4fb2af5ee8e1f3c9390708755cc7bbaf6115f1d1dc4575f37e36d48377062
+size 437970952

checkpoint-2757/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3119bb5be41a44a66470a5edc14a091d27eae569f07bb92d178a5cbee68ea918
+size 876057338

checkpoint-2757/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf79a53fc98a5b7e06fe6f31f9b2f4e3db9e4fd20a727ab58c5eb9a955d859ab
+size 13990

checkpoint-2757/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54b126dfd06c2c8cade44d4cb8c18debef4b5b797b239c0b3a2c094da223442b
+size 1064

checkpoint-2757/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-2757/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2757/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2757/trainer_state.json ADDED Viewed

	@@ -0,0 +1,289 @@

+{
+  "best_global_step": 2500,
+  "best_metric": 0.07224167883396149,
+  "best_model_checkpoint": "C:\\Users\\Daniel\\Desktop\\GitHub\\NLPinitiative\\models\\dlsmallw\\NLPinitiative-Multilabel-Regression\\checkpoint-2500",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 2757,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.544069640914037,
+      "grad_norm": 0.5715875625610352,
+      "learning_rate": 1.637286906057309e-05,
+      "loss": 0.0289,
+      "step": 500
+    },
+    {
+      "epoch": 0.544069640914037,
+      "eval_loss": 0.011422036215662956,
+      "eval_mae_per_cat": [
+        0.0535765178501606,
+        0.059359531849622726,
+        0.05057797580957413,
+        0.031064841896295547,
+        0.06608528643846512,
+        0.015492343343794346
+      ],
+      "eval_mean_mae": 0.0460260808467865,
+      "eval_mean_pearson": 0.9106294274330139,
+      "eval_mean_r2": 0.6782520413398743,
+      "eval_mean_rmse": 0.09810739755630493,
+      "eval_pearson_per_cat": [
+        0.9014391899108887,
+        0.923698365688324,
+        0.8990985155105591,
+        0.9024374485015869,
+        0.9264736175537109,
+        NaN
+      ],
+      "eval_r2_per_cat": [
+        0.7889423370361328,
+        0.8516361713409424,
+        0.7870068550109863,
+        0.8109977841377258,
+        0.8309295177459717,
+        0.0
+      ],
+      "eval_rmse_per_cat": [
+        0.11551735550165176,
+        0.1352391391992569,
+        0.10884607583284378,
+        0.0673733726143837,
+        0.1418396383523941,
+        0.019828785210847855
+      ],
+      "eval_runtime": 100.9453,
+      "eval_samples_per_second": 31.225,
+      "eval_steps_per_second": 3.903,
+      "step": 500
+    },
+    {
+      "epoch": 1.088139281828074,
+      "grad_norm": 0.3862350583076477,
+      "learning_rate": 1.2745738121146174e-05,
+      "loss": 0.0108,
+      "step": 1000
+    },
+    {
+      "epoch": 1.088139281828074,
+      "eval_loss": 0.008166518062353134,
+      "eval_mae_per_cat": [
+        0.0379190668463707,
+        0.0694158673286438,
+        0.032430507242679596,
+        0.025210702791810036,
+        0.03987590968608856,
+        0.0133794154971838
+      ],
+      "eval_mean_mae": 0.03637191280722618,
+      "eval_mean_pearson": 0.9361262321472168,
+      "eval_mean_r2": 0.7225764393806458,
+      "eval_mean_rmse": 0.0826454609632492,
+      "eval_pearson_per_cat": [
+        0.9333711266517639,
+        0.9291742444038391,
+        0.9329087138175964,
+        0.9267426133155823,
+        0.9584344625473022,
+        NaN
+      ],
+      "eval_r2_per_cat": [
+        0.8588278889656067,
+        0.8505284190177917,
+        0.8572311997413635,
+        0.8514397144317627,
+        0.9174313545227051,
+        0.0
+      ],
+      "eval_rmse_per_cat": [
+        0.09447590261697769,
+        0.13574306666851044,
+        0.08911412954330444,
+        0.05973187834024429,
+        0.09912225604057312,
+        0.01768551953136921
+      ],
+      "eval_runtime": 99.9899,
+      "eval_samples_per_second": 31.523,
+      "eval_steps_per_second": 3.94,
+      "step": 1000
+    },
+    {
+      "epoch": 1.632208922742111,
+      "grad_norm": 0.17565102875232697,
+      "learning_rate": 9.11860718171926e-06,
+      "loss": 0.0059,
+      "step": 1500
+    },
+    {
+      "epoch": 1.632208922742111,
+      "eval_loss": 0.007027682848274708,
+      "eval_mae_per_cat": [
+        0.02809344045817852,
+        0.039010003209114075,
+        0.03197040781378746,
+        0.01924479752779007,
+        0.033096104860305786,
+        0.00918651558458805
+      ],
+      "eval_mean_mae": 0.026766879484057426,
+      "eval_mean_pearson": 0.9401901483535766,
+      "eval_mean_r2": 0.7350945472717285,
+      "eval_mean_rmse": 0.07674583047628403,
+      "eval_pearson_per_cat": [
+        0.9324471950531006,
+        0.9467915296554565,
+        0.9339689612388611,
+        0.9317143559455872,
+        0.9560286998748779,
+        NaN
+      ],
+      "eval_r2_per_cat": [
+        0.8691833019256592,
+        0.8961314558982849,
+        0.8661218285560608,
+        0.8654465675354004,
+        0.9136843681335449,
+        0.0
+      ],
+      "eval_rmse_per_cat": [
+        0.09094487875699997,
+        0.11315672099590302,
+        0.08629484474658966,
+        0.05684630945324898,
+        0.10134641826152802,
+        0.01188575103878975
+      ],
+      "eval_runtime": 102.2428,
+      "eval_samples_per_second": 30.829,
+      "eval_steps_per_second": 3.854,
+      "step": 1500
+    },
+    {
+      "epoch": 2.176278563656148,
+      "grad_norm": 0.19192808866500854,
+      "learning_rate": 5.491476242292347e-06,
+      "loss": 0.005,
+      "step": 2000
+    },
+    {
+      "epoch": 2.176278563656148,
+      "eval_loss": 0.006472242530435324,
+      "eval_mae_per_cat": [
+        0.02706627920269966,
+        0.04395332559943199,
+        0.024061929434537888,
+        0.016889315098524094,
+        0.033904846757650375,
+        0.007554503157734871
+      ],
+      "eval_mean_mae": 0.025571702048182487,
+      "eval_mean_pearson": 0.9477012753486633,
+      "eval_mean_r2": 0.7445929050445557,
+      "eval_mean_rmse": 0.07305774837732315,
+      "eval_pearson_per_cat": [
+        0.9431683421134949,
+        0.9483680725097656,
+        0.9359709024429321,
+        0.9474267959594727,
+        0.9635722637176514,
+        NaN
+      ],
+      "eval_r2_per_cat": [
+        0.8886928558349609,
+        0.8949806690216064,
+        0.8702350854873657,
+        0.8879827260971069,
+        0.9256656765937805,
+        0.0
+      ],
+      "eval_rmse_per_cat": [
+        0.08388959616422653,
+        0.11378183960914612,
+        0.08495883643627167,
+        0.051867734640836716,
+        0.09404993057250977,
+        0.009798564948141575
+      ],
+      "eval_runtime": 103.1288,
+      "eval_samples_per_second": 30.564,
+      "eval_steps_per_second": 3.82,
+      "step": 2000
+    },
+    {
+      "epoch": 2.7203482045701852,
+      "grad_norm": 0.12346106767654419,
+      "learning_rate": 1.8643453028654336e-06,
+      "loss": 0.0034,
+      "step": 2500
+    },
+    {
+      "epoch": 2.7203482045701852,
+      "eval_loss": 0.006370748393237591,
+      "eval_mae_per_cat": [
+        0.025086652487516403,
+        0.03752453625202179,
+        0.02304081991314888,
+        0.013712005689740181,
+        0.030296988785266876,
+        0.006659933365881443
+      ],
+      "eval_mean_mae": 0.022720156237483025,
+      "eval_mean_pearson": 0.9476440191268921,
+      "eval_mean_r2": 0.7471505999565125,
+      "eval_mean_rmse": 0.07224167883396149,
+      "eval_pearson_per_cat": [
+        0.9419375658035278,
+        0.9502590894699097,
+        0.9368577599525452,
+        0.948063850402832,
+        0.9611018300056458,
+        NaN
+      ],
+      "eval_r2_per_cat": [
+        0.8866956233978271,
+        0.8990016579627991,
+        0.8755217790603638,
+        0.8987970352172852,
+        0.9228875637054443,
+        0.0
+      ],
+      "eval_rmse_per_cat": [
+        0.08463889360427856,
+        0.11158231645822525,
+        0.08321022242307663,
+        0.04930051788687706,
+        0.09579125046730042,
+        0.008926868438720703
+      ],
+      "eval_runtime": 104.2098,
+      "eval_samples_per_second": 30.247,
+      "eval_steps_per_second": 3.781,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2757,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1450846463643648.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2757/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a4da5aebe6b89fd7e07911bd4c7fa268b697325176b9687d4960d3c59a2a59b
+size 5560

checkpoint-2757/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff