Upload 11 files

Browse files

atualização do modelo, com um novo label "RUIDO"

Files changed (11) hide show

config.json +41 -41
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +7 -7
tokenizer.json +0 -0
tokenizer_config.json +56 -58
trainer_state.json +224 -167
training_args.bin +2 -2
vocab.txt +0 -0

config.json CHANGED Viewed

@@ -1,41 +1,41 @@
-{
-  "_name_or_path": "neuralmind/bert-base-portuguese-cased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "directionality": "bidi",
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "TESE",
-    "1": "FATO"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "FATO": 1,
-    "TESE": 0
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "output_past": true,
-  "pad_token_id": 0,
-  "pooler_fc_size": 768,
-  "pooler_num_attention_heads": 12,
-  "pooler_num_fc_layers": 3,
-  "pooler_size_per_head": 128,
-  "pooler_type": "first_token_transform",
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 29794
-}

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TESE",
+    "1": "FATO",
+    "2": "RUIDO"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "FATO": 1,
+    "RUIDO": 2,
+    "TESE": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a597861f209c325bdb0c9a1de0f1871e057cfb90439626dc6ef4c918316cde4
-size 435722224

 version https://git-lfs.github.com/spec/v1
+oid sha256:2de1e06daab2515672323fb9be7cfd4b13ba2352edcbabb98d90fddf64358e75
+size 711446532

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2370006cdbc3fc607e39df14c0ce60f013544782f5869e1442e47fded7aefef
-size 871559930

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c1d1d1ec8a3ce7cd018b2d040490720d40fc9aaf77197cba25a1dcb9d84f6c1
+size 1423008506

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:862c52e12566446fb74babfa164eb66eacbd2bdba0c993bc568c8b80b2fd576a
 size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:85eeb6471f65295b3454f24aa5343a9c665d4af2810a5b9428b38718a8ea8d4e
 size 13990

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd7737f7f28f9b23ccf7b2a3ce0b5ef642fa341fb7e72703bf9977a6c5aada9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a141896d041f2762af0a64ef0acd25fdd2f3b377bcc28cf0d0a99878198d9ba
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,7 @@
-{
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
-}

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,58 +1,56 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "100": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "101": {
-      "content": "[CLS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "102": {
-      "content": "[SEP]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "103": {
-      "content": "[MASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "clean_up_tokenization_spaces": true,
-  "cls_token": "[CLS]",
-  "do_basic_tokenize": true,
-  "do_lower_case": false,
-  "extra_special_tokens": {},
-  "mask_token": "[MASK]",
-  "model_max_length": 512,
-  "never_split": null,
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "strip_accents": null,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
-  "unk_token": "[UNK]"
-}

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json CHANGED Viewed

@@ -1,167 +1,224 @@
-{
-  "best_metric": 0.3189895749092102,
-  "best_model_checkpoint": "my_awesome_model_truncaded_split_36k\\checkpoint-1837",
-  "epoch": 4.0,
-  "eval_steps": 500,
-  "global_step": 7348,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.2721829069134458,
-      "grad_norm": 4.77004337310791,
-      "learning_rate": 9.319542732716386e-06,
-      "loss": 0.5661,
-      "step": 500
-    },
-    {
-      "epoch": 0.5443658138268916,
-      "grad_norm": 13.415882110595703,
-      "learning_rate": 8.639085465432772e-06,
-      "loss": 0.457,
-      "step": 1000
-    },
-    {
-      "epoch": 0.8165487207403375,
-      "grad_norm": 13.942790985107422,
-      "learning_rate": 7.958628198149157e-06,
-      "loss": 0.3841,
-      "step": 1500
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.8633455832312509,
-      "eval_loss": 0.3189895749092102,
-      "eval_runtime": 2115.733,
-      "eval_samples_per_second": 3.473,
-      "eval_steps_per_second": 0.217,
-      "step": 1837
-    },
-    {
-      "epoch": 1.0887316276537833,
-      "grad_norm": 21.668664932250977,
-      "learning_rate": 7.2781709308655426e-06,
-      "loss": 0.343,
-      "step": 2000
-    },
-    {
-      "epoch": 1.360914534567229,
-      "grad_norm": 14.608024597167969,
-      "learning_rate": 6.597713663581927e-06,
-      "loss": 0.3067,
-      "step": 2500
-    },
-    {
-      "epoch": 1.633097441480675,
-      "grad_norm": 11.27497673034668,
-      "learning_rate": 5.917256396298313e-06,
-      "loss": 0.2714,
-      "step": 3000
-    },
-    {
-      "epoch": 1.905280348394121,
-      "grad_norm": 8.441925048828125,
-      "learning_rate": 5.236799129014698e-06,
-      "loss": 0.2698,
-      "step": 3500
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.8595345038791343,
-      "eval_loss": 0.3298398554325104,
-      "eval_runtime": 2168.9042,
-      "eval_samples_per_second": 3.387,
-      "eval_steps_per_second": 0.212,
-      "step": 3674
-    },
-    {
-      "epoch": 2.1774632553075666,
-      "grad_norm": 35.317108154296875,
-      "learning_rate": 4.5563418617310835e-06,
-      "loss": 0.2298,
-      "step": 4000
-    },
-    {
-      "epoch": 2.4496461622210126,
-      "grad_norm": 9.94012451171875,
-      "learning_rate": 3.875884594447469e-06,
-      "loss": 0.2087,
-      "step": 4500
-    },
-    {
-      "epoch": 2.721829069134458,
-      "grad_norm": 24.299028396606445,
-      "learning_rate": 3.1954273271638544e-06,
-      "loss": 0.2119,
-      "step": 5000
-    },
-    {
-      "epoch": 2.9940119760479043,
-      "grad_norm": 5.556156158447266,
-      "learning_rate": 2.5149700598802396e-06,
-      "loss": 0.2042,
-      "step": 5500
-    },
-    {
-      "epoch": 3.0,
-      "eval_accuracy": 0.881312100176943,
-      "eval_loss": 0.3292213976383209,
-      "eval_runtime": 2182.1168,
-      "eval_samples_per_second": 3.367,
-      "eval_steps_per_second": 0.211,
-      "step": 5511
-    },
-    {
-      "epoch": 3.26619488296135,
-      "grad_norm": 30.425508499145508,
-      "learning_rate": 1.834512792596625e-06,
-      "loss": 0.1642,
-      "step": 6000
-    },
-    {
-      "epoch": 3.538377789874796,
-      "grad_norm": 10.257048606872559,
-      "learning_rate": 1.1540555253130105e-06,
-      "loss": 0.1731,
-      "step": 6500
-    },
-    {
-      "epoch": 3.810560696788242,
-      "grad_norm": 37.602664947509766,
-      "learning_rate": 4.735982580293958e-07,
-      "loss": 0.1641,
-      "step": 7000
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.8960119776779638,
-      "eval_loss": 0.34636014699935913,
-      "eval_runtime": 2178.6484,
-      "eval_samples_per_second": 3.372,
-      "eval_steps_per_second": 0.211,
-      "step": 7348
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 7348,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2.907596283903792e+16,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

+{
+  "best_global_step": 8265,
+  "best_metric": 0.10672979801893234,
+  "best_model_checkpoint": "modelos/treinados/modelo_bert_fato_teses_bert_multilingual_cased/checkpoint-8265",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 11020,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18148820326678766,
+      "grad_norm": 0.9450770020484924,
+      "learning_rate": 1.9094373865698732e-05,
+      "loss": 0.3273,
+      "step": 500
+    },
+    {
+      "epoch": 0.3629764065335753,
+      "grad_norm": 1.8763504028320312,
+      "learning_rate": 1.8186932849364793e-05,
+      "loss": 0.213,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5444646098003629,
+      "grad_norm": 6.744544982910156,
+      "learning_rate": 1.7279491833030854e-05,
+      "loss": 0.1823,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7259528130671506,
+      "grad_norm": 0.1076168492436409,
+      "learning_rate": 1.6372050816696915e-05,
+      "loss": 0.1568,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9074410163339383,
+      "grad_norm": 0.03117656148970127,
+      "learning_rate": 1.5464609800362976e-05,
+      "loss": 0.1619,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9738704409363091,
+      "eval_loss": 0.11249715089797974,
+      "eval_runtime": 700.568,
+      "eval_samples_per_second": 7.866,
+      "eval_steps_per_second": 0.983,
+      "step": 2755
+    },
+    {
+      "epoch": 1.0889292196007259,
+      "grad_norm": 0.010204868391156197,
+      "learning_rate": 1.4557168784029038e-05,
+      "loss": 0.1101,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2704174228675136,
+      "grad_norm": 0.07266418635845184,
+      "learning_rate": 1.36497277676951e-05,
+      "loss": 0.1146,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4519056261343013,
+      "grad_norm": 16.94893455505371,
+      "learning_rate": 1.2742286751361164e-05,
+      "loss": 0.0961,
+      "step": 4000
+    },
+    {
+      "epoch": 1.633393829401089,
+      "grad_norm": 4.739220142364502,
+      "learning_rate": 1.1834845735027225e-05,
+      "loss": 0.0783,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8148820326678767,
+      "grad_norm": 0.09760759770870209,
+      "learning_rate": 1.0927404718693286e-05,
+      "loss": 0.0901,
+      "step": 5000
+    },
+    {
+      "epoch": 1.9963702359346642,
+      "grad_norm": 7.626439571380615,
+      "learning_rate": 1.0019963702359348e-05,
+      "loss": 0.0863,
+      "step": 5500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9740518962075848,
+      "eval_loss": 0.1354905664920807,
+      "eval_runtime": 699.3375,
+      "eval_samples_per_second": 7.88,
+      "eval_steps_per_second": 0.985,
+      "step": 5510
+    },
+    {
+      "epoch": 2.1778584392014517,
+      "grad_norm": 0.00856301560997963,
+      "learning_rate": 9.11252268602541e-06,
+      "loss": 0.0625,
+      "step": 6000
+    },
+    {
+      "epoch": 2.3593466424682394,
+      "grad_norm": 0.054624781012535095,
+      "learning_rate": 8.20508166969147e-06,
+      "loss": 0.0416,
+      "step": 6500
+    },
+    {
+      "epoch": 2.540834845735027,
+      "grad_norm": 1.524115800857544,
+      "learning_rate": 7.297640653357533e-06,
+      "loss": 0.0478,
+      "step": 7000
+    },
+    {
+      "epoch": 2.722323049001815,
+      "grad_norm": 0.007021903060376644,
+      "learning_rate": 6.390199637023594e-06,
+      "loss": 0.0378,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9038112522686026,
+      "grad_norm": 0.003797353943809867,
+      "learning_rate": 5.4827586206896556e-06,
+      "loss": 0.0482,
+      "step": 8000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9834875703139176,
+      "eval_loss": 0.10672979801893234,
+      "eval_runtime": 708.5009,
+      "eval_samples_per_second": 7.778,
+      "eval_steps_per_second": 0.972,
+      "step": 8265
+    },
+    {
+      "epoch": 3.0852994555353903,
+      "grad_norm": 0.0551212877035141,
+      "learning_rate": 4.575317604355717e-06,
+      "loss": 0.0396,
+      "step": 8500
+    },
+    {
+      "epoch": 3.266787658802178,
+      "grad_norm": 0.003503380110487342,
+      "learning_rate": 3.6678765880217788e-06,
+      "loss": 0.0258,
+      "step": 9000
+    },
+    {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 0.034748516976833344,
+      "learning_rate": 2.7604355716878406e-06,
+      "loss": 0.0168,
+      "step": 9500
+    },
+    {
+      "epoch": 3.629764065335753,
+      "grad_norm": 0.28772714734077454,
+      "learning_rate": 1.8529945553539021e-06,
+      "loss": 0.0246,
+      "step": 10000
+    },
+    {
+      "epoch": 3.8112522686025407,
+      "grad_norm": 0.008872357197105885,
+      "learning_rate": 9.455535390199638e-07,
+      "loss": 0.0172,
+      "step": 10500
+    },
+    {
+      "epoch": 3.9927404718693285,
+      "grad_norm": 0.0023940089158713818,
+      "learning_rate": 3.8112522686025416e-08,
+      "loss": 0.0149,
+      "step": 11000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9831246597713663,
+      "eval_loss": 0.11994421482086182,
+      "eval_runtime": 701.1801,
+      "eval_samples_per_second": 7.86,
+      "eval_steps_per_second": 0.983,
+      "step": 11020
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 11020,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.319607890690048e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c38d559860d0ab1110e8f338bc12f77eba2b935bd16546c70c18b5be03ec9ce
-size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:104e102d00914bb4c1dc475d344189724634888a455631eceaac535c4e3e1b2c
+size 5432

vocab.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff