Upload 7 files

Browse files

Files changed (7) hide show

config.json +55 -0
pytorch_model.bin +3 -0
special_tokens_map.json +7 -0
tokenizer_config.json +57 -0
trainer_state.json +375 -0
training_args.bin +3 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "_name_or_path": "../model/tibetan-bert",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Politics",
+    "1": "Economics",
+    "2": "Education",
+    "3": "Tourism",
+    "4": "Environment",
+    "5": "Language",
+    "6": "Literature",
+    "7": "Religion",
+    "8": "Arts",
+    "9": "Medicine",
+    "10": "Customs",
+    "11": "Instruments"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Arts": 8,
+    "Customs": 10,
+    "Economics": 1,
+    "Education": 2,
+    "Environment": 4,
+    "Instruments": 11,
+    "Language": 5,
+    "Literature": 6,
+    "Medicine": 9,
+    "Politics": 0,
+    "Religion": 7,
+    "Tourism": 3
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32267
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067ad937a4aafc747cc081c0e95c7fe00364b02ec3b3707b515063e119b4cdf2
+size 443393007

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,375 @@

+{
+  "best_metric": 0.6611545464384188,
+  "best_model_checkpoint": "../saved_model/tibetan-bert_tncc-document_v3/checkpoint-3234",
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 4620,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6271739130434782,
+      "eval_loss": 1.15811288356781,
+      "eval_macro-f1": 0.5321491435605941,
+      "eval_macro-precision": 0.5499509034708364,
+      "eval_macro-recall": 0.5513303846525741,
+      "eval_runtime": 7.2664,
+      "eval_samples_per_second": 126.61,
+      "eval_steps_per_second": 3.991,
+      "eval_weighted-f1": 0.6286606311348418,
+      "eval_weighted-precision": 0.6570526714130747,
+      "eval_weighted-recall": 0.6271739130434782,
+      "step": 231
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6467391304347826,
+      "eval_loss": 1.068244218826294,
+      "eval_macro-f1": 0.5647362494157037,
+      "eval_macro-precision": 0.6183747770237591,
+      "eval_macro-recall": 0.5557985823725112,
+      "eval_runtime": 7.286,
+      "eval_samples_per_second": 126.269,
+      "eval_steps_per_second": 3.98,
+      "eval_weighted-f1": 0.6340133102826743,
+      "eval_weighted-precision": 0.661646599688849,
+      "eval_weighted-recall": 0.6467391304347826,
+      "step": 462
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 4.458874458874459e-05,
+      "loss": 1.1735,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6760869565217391,
+      "eval_loss": 0.9934693574905396,
+      "eval_macro-f1": 0.5945571067918397,
+      "eval_macro-precision": 0.6219488737703451,
+      "eval_macro-recall": 0.5845017075090547,
+      "eval_runtime": 7.2737,
+      "eval_samples_per_second": 126.483,
+      "eval_steps_per_second": 3.987,
+      "eval_weighted-f1": 0.6693675078151828,
+      "eval_weighted-precision": 0.6716730940106624,
+      "eval_weighted-recall": 0.6760869565217391,
+      "step": 693
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6760869565217391,
+      "eval_loss": 1.0614756345748901,
+      "eval_macro-f1": 0.6069076519660962,
+      "eval_macro-precision": 0.6513367891333143,
+      "eval_macro-recall": 0.5927988194005301,
+      "eval_runtime": 7.33,
+      "eval_samples_per_second": 125.511,
+      "eval_steps_per_second": 3.956,
+      "eval_weighted-f1": 0.668192819938365,
+      "eval_weighted-precision": 0.6913129775105903,
+      "eval_weighted-recall": 0.6760869565217391,
+      "step": 924
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 3.917748917748918e-05,
+      "loss": 0.6662,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6608695652173913,
+      "eval_loss": 1.1701490879058838,
+      "eval_macro-f1": 0.594957375773476,
+      "eval_macro-precision": 0.6170952632020997,
+      "eval_macro-recall": 0.6011833102671116,
+      "eval_runtime": 7.2756,
+      "eval_samples_per_second": 126.45,
+      "eval_steps_per_second": 3.986,
+      "eval_weighted-f1": 0.6654696189795196,
+      "eval_weighted-precision": 0.6851333084994409,
+      "eval_weighted-recall": 0.6608695652173913,
+      "step": 1155
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6510869565217391,
+      "eval_loss": 1.292517066001892,
+      "eval_macro-f1": 0.607937784808065,
+      "eval_macro-precision": 0.630719857369284,
+      "eval_macro-recall": 0.6225829586625629,
+      "eval_runtime": 7.2833,
+      "eval_samples_per_second": 126.317,
+      "eval_steps_per_second": 3.982,
+      "eval_weighted-f1": 0.6579657588719497,
+      "eval_weighted-precision": 0.68649865311892,
+      "eval_weighted-recall": 0.6510869565217391,
+      "step": 1386
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 3.376623376623377e-05,
+      "loss": 0.3247,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.6695652173913044,
+      "eval_loss": 1.3797581195831299,
+      "eval_macro-f1": 0.6129092280782845,
+      "eval_macro-precision": 0.6387021571282967,
+      "eval_macro-recall": 0.609094564757661,
+      "eval_runtime": 7.2749,
+      "eval_samples_per_second": 126.461,
+      "eval_steps_per_second": 3.986,
+      "eval_weighted-f1": 0.6640159054651581,
+      "eval_weighted-precision": 0.6700483998986603,
+      "eval_weighted-recall": 0.6695652173913044,
+      "step": 1617
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6706521739130434,
+      "eval_loss": 1.4838347434997559,
+      "eval_macro-f1": 0.6061542359667785,
+      "eval_macro-precision": 0.611272244576803,
+      "eval_macro-recall": 0.6146650230118652,
+      "eval_runtime": 7.2825,
+      "eval_samples_per_second": 126.33,
+      "eval_steps_per_second": 3.982,
+      "eval_weighted-f1": 0.6720993101087696,
+      "eval_weighted-precision": 0.6820628069048843,
+      "eval_weighted-recall": 0.6706521739130434,
+      "step": 1848
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 2.8354978354978357e-05,
+      "loss": 0.1507,
+      "step": 2000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6880434782608695,
+      "eval_loss": 1.5808299779891968,
+      "eval_macro-f1": 0.6506642163845188,
+      "eval_macro-precision": 0.6540683372674448,
+      "eval_macro-recall": 0.6603270904104771,
+      "eval_runtime": 7.2595,
+      "eval_samples_per_second": 126.731,
+      "eval_steps_per_second": 3.995,
+      "eval_weighted-f1": 0.6915267384661025,
+      "eval_weighted-precision": 0.7075992309158492,
+      "eval_weighted-recall": 0.6880434782608695,
+      "step": 2079
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.6717391304347826,
+      "eval_loss": 1.650195837020874,
+      "eval_macro-f1": 0.6034609083187376,
+      "eval_macro-precision": 0.6321546665662738,
+      "eval_macro-recall": 0.5917026419660609,
+      "eval_runtime": 7.2865,
+      "eval_samples_per_second": 126.261,
+      "eval_steps_per_second": 3.98,
+      "eval_weighted-f1": 0.6684456866047149,
+      "eval_weighted-precision": 0.6745276629705688,
+      "eval_weighted-recall": 0.6717391304347826,
+      "step": 2310
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 2.2943722943722946e-05,
+      "loss": 0.0896,
+      "step": 2500
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.6804347826086956,
+      "eval_loss": 1.738294005393982,
+      "eval_macro-f1": 0.6302114432029545,
+      "eval_macro-precision": 0.64659326690522,
+      "eval_macro-recall": 0.6353590685660309,
+      "eval_runtime": 7.3402,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.951,
+      "eval_weighted-f1": 0.6820100289567567,
+      "eval_weighted-precision": 0.6975783236550734,
+      "eval_weighted-recall": 0.6804347826086956,
+      "step": 2541
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6989130434782609,
+      "eval_loss": 1.7147595882415771,
+      "eval_macro-f1": 0.6515414811628367,
+      "eval_macro-precision": 0.6658442974988088,
+      "eval_macro-recall": 0.6496260625897462,
+      "eval_runtime": 7.2787,
+      "eval_samples_per_second": 126.396,
+      "eval_steps_per_second": 3.984,
+      "eval_weighted-f1": 0.6976782715450106,
+      "eval_weighted-precision": 0.7017023034717548,
+      "eval_weighted-recall": 0.6989130434782609,
+      "step": 2772
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 1.7532467532467535e-05,
+      "loss": 0.0646,
+      "step": 3000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6891304347826087,
+      "eval_loss": 1.7946357727050781,
+      "eval_macro-f1": 0.648332711071471,
+      "eval_macro-precision": 0.6479765490771864,
+      "eval_macro-recall": 0.6515217848664077,
+      "eval_runtime": 7.3066,
+      "eval_samples_per_second": 125.913,
+      "eval_steps_per_second": 3.969,
+      "eval_weighted-f1": 0.6915983518325557,
+      "eval_weighted-precision": 0.6986485129748002,
+      "eval_weighted-recall": 0.6891304347826087,
+      "step": 3003
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 1.7724699974060059,
+      "eval_macro-f1": 0.6611545464384188,
+      "eval_macro-precision": 0.667409141168159,
+      "eval_macro-recall": 0.6627804433172214,
+      "eval_runtime": 7.2494,
+      "eval_samples_per_second": 126.906,
+      "eval_steps_per_second": 4.0,
+      "eval_weighted-f1": 0.7033455944346818,
+      "eval_weighted-precision": 0.7140252489602517,
+      "eval_weighted-recall": 0.7,
+      "step": 3234
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6923913043478261,
+      "eval_loss": 1.819846510887146,
+      "eval_macro-f1": 0.6556012492821643,
+      "eval_macro-precision": 0.6602686382879858,
+      "eval_macro-recall": 0.6668664107682606,
+      "eval_runtime": 7.2775,
+      "eval_samples_per_second": 126.418,
+      "eval_steps_per_second": 3.985,
+      "eval_weighted-f1": 0.6965952163097968,
+      "eval_weighted-precision": 0.7083445248462037,
+      "eval_weighted-recall": 0.6923913043478261,
+      "step": 3465
+    },
+    {
+      "epoch": 15.15,
+      "learning_rate": 1.2121212121212122e-05,
+      "loss": 0.042,
+      "step": 3500
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6945652173913044,
+      "eval_loss": 1.784122109413147,
+      "eval_macro-f1": 0.6563585998978742,
+      "eval_macro-precision": 0.6655291218706761,
+      "eval_macro-recall": 0.6534120619783158,
+      "eval_runtime": 7.297,
+      "eval_samples_per_second": 126.08,
+      "eval_steps_per_second": 3.974,
+      "eval_weighted-f1": 0.6949462526633576,
+      "eval_weighted-precision": 0.6993999521302994,
+      "eval_weighted-recall": 0.6945652173913044,
+      "step": 3696
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.6945652173913044,
+      "eval_loss": 1.7921020984649658,
+      "eval_macro-f1": 0.654978142271046,
+      "eval_macro-precision": 0.6614421486999998,
+      "eval_macro-recall": 0.657140253465508,
+      "eval_runtime": 7.359,
+      "eval_samples_per_second": 125.018,
+      "eval_steps_per_second": 3.941,
+      "eval_weighted-f1": 0.6972072799287201,
+      "eval_weighted-precision": 0.705999712282921,
+      "eval_weighted-recall": 0.6945652173913044,
+      "step": 3927
+    },
+    {
+      "epoch": 17.32,
+      "learning_rate": 6.709956709956711e-06,
+      "loss": 0.0314,
+      "step": 4000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6945652173913044,
+      "eval_loss": 1.824020266532898,
+      "eval_macro-f1": 0.6548614235086001,
+      "eval_macro-precision": 0.6544996322588115,
+      "eval_macro-recall": 0.660921203092836,
+      "eval_runtime": 7.3304,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.956,
+      "eval_weighted-f1": 0.6960752624759597,
+      "eval_weighted-precision": 0.7018632204313372,
+      "eval_weighted-recall": 0.6945652173913044,
+      "step": 4158
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.6923913043478261,
+      "eval_loss": 1.8412573337554932,
+      "eval_macro-f1": 0.6506506908222951,
+      "eval_macro-precision": 0.6468541951851238,
+      "eval_macro-recall": 0.6600299174294355,
+      "eval_runtime": 7.2351,
+      "eval_samples_per_second": 127.157,
+      "eval_steps_per_second": 4.008,
+      "eval_weighted-f1": 0.69621624934211,
+      "eval_weighted-precision": 0.7054368084525598,
+      "eval_weighted-recall": 0.6923913043478261,
+      "step": 4389
+    },
+    {
+      "epoch": 19.48,
+      "learning_rate": 1.2987012987012988e-06,
+      "loss": 0.0233,
+      "step": 4500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.691304347826087,
+      "eval_loss": 1.8325966596603394,
+      "eval_macro-f1": 0.6463398836192601,
+      "eval_macro-precision": 0.6403230244612891,
+      "eval_macro-recall": 0.6567581821874694,
+      "eval_runtime": 7.2741,
+      "eval_samples_per_second": 126.476,
+      "eval_steps_per_second": 3.987,
+      "eval_weighted-f1": 0.6940975925997279,
+      "eval_weighted-precision": 0.7008420722361637,
+      "eval_weighted-recall": 0.691304347826087,
+      "step": 4620
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4620,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 3.87544755290112e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d09a8b1217d68c16be078162fca229fc44ec2ee2b8bf5eb7b87dc0918594bfa5
+size 4335

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff