add updated model files

Browse files

Files changed (7) hide show

config.json +1 -1
generation_config.json +1 -2
playaling_words.json +0 -0
pytorch_model.bin +1 -1
tokenizer_config.json +1 -2
trainer_state.json +377 -0
training_args.bin +3 -0

config.json CHANGED Viewed

@@ -55,7 +55,7 @@
   "share_encoder_decoder_embeddings": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.26.0",
   "use_cache": true,
   "vocab_size": 64172
 }

   "share_encoder_decoder_embeddings": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
   "use_cache": true,
   "vocab_size": 64172
 }

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "bad_words_ids": [
     [
       64171
@@ -12,5 +11,5 @@
   "max_length": 512,
   "num_beams": 6,
   "pad_token_id": 64171,
-  "transformers_version": "4.26.0"
 }

 {
   "bad_words_ids": [
     [
       64171
   "max_length": 512,
   "num_beams": 6,
   "pad_token_id": 64171,
+  "transformers_version": "4.29.2"
 }

playaling_words.json DELETED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62dc9701b0fabe7beca6d2a021bf914326b13f0525901bff24e792324c8a0594
 size 308321413

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e16a00f3b7f5e5a385a1ce482a06886aaa158f7810c2d751cc6c06faba66b9d
 size 308321413

tokenizer_config.json CHANGED Viewed

@@ -1,13 +1,12 @@
 {
   "eos_token": "</s>",
   "model_max_length": 512,
-  "name_or_path": "Helsinki-NLP/opus-mt-mul-en",
   "pad_token": "<pad>",
   "return_tensors": "pt",
   "separate_vocabs": false,
   "source_lang": "mul",
   "sp_model_kwargs": {},
-  "special_tokens_map_file": null,
   "target_lang": "eng",
   "tokenizer_class": "MarianTokenizer",
   "unk_token": "<unk>"

 {
+  "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "model_max_length": 512,
   "pad_token": "<pad>",
   "return_tensors": "pt",
   "separate_vocabs": false,
   "source_lang": "mul",
   "sp_model_kwargs": {},
   "target_lang": "eng",
   "tokenizer_class": "MarianTokenizer",
   "unk_token": "<unk>"

trainer_state.json ADDED Viewed

	@@ -0,0 +1,377 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 24.983073798239676,
+  "global_step": 3075,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.3861538956236535,
+      "eval_bleu": 58.02299639521676,
+      "eval_loss": 0.3069784641265869,
+      "eval_perfect_accuracy": 0.0773067331670823,
+      "eval_runtime": 1188.6804,
+      "eval_samples_per_second": 3.036,
+      "eval_simple_accuracy": 0.6000514485996334,
+      "eval_steps_per_second": 0.051,
+      "eval_token_accuracy": 0.4887938518923438,
+      "step": 123
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4548114329807414,
+      "eval_bleu": 65.34000395485323,
+      "eval_loss": 0.21667715907096863,
+      "eval_perfect_accuracy": 0.10446106954835134,
+      "eval_runtime": 1040.2638,
+      "eval_samples_per_second": 3.469,
+      "eval_simple_accuracy": 0.6507732373082983,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.5523261421727808,
+      "step": 246
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.49269371274754853,
+      "eval_bleu": 68.74113419920226,
+      "eval_loss": 0.18049955368041992,
+      "eval_perfect_accuracy": 0.11831532280410086,
+      "eval_runtime": 1030.6108,
+      "eval_samples_per_second": 3.502,
+      "eval_simple_accuracy": 0.667243478818176,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.5896942895597,
+      "step": 369
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5115833811985449,
+      "eval_bleu": 70.81806278651923,
+      "eval_loss": 0.1621144413948059,
+      "eval_perfect_accuracy": 0.13022998060404545,
+      "eval_runtime": 1015.4894,
+      "eval_samples_per_second": 3.554,
+      "eval_simple_accuracy": 0.6820154445082647,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6063884102367733,
+      "step": 492
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 4.186991869918699e-05,
+      "loss": 0.6023,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.528468272733082,
+      "eval_bleu": 72.98982499035274,
+      "eval_loss": 0.15042348206043243,
+      "eval_perfect_accuracy": 0.13577168190634525,
+      "eval_runtime": 1033.5998,
+      "eval_samples_per_second": 3.492,
+      "eval_simple_accuracy": 0.6923445587577481,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.6224039874752381,
+      "step": 615
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5492471073070218,
+      "eval_bleu": 74.56394107515801,
+      "eval_loss": 0.14072531461715698,
+      "eval_perfect_accuracy": 0.14657799944582986,
+      "eval_runtime": 1023.0499,
+      "eval_samples_per_second": 3.528,
+      "eval_simple_accuracy": 0.7019495958155016,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6440957362498019,
+      "step": 738
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.564568482688391,
+      "eval_bleu": 75.61656636338704,
+      "eval_loss": 0.13451269268989563,
+      "eval_perfect_accuracy": 0.14934885009697976,
+      "eval_runtime": 1024.191,
+      "eval_samples_per_second": 3.524,
+      "eval_simple_accuracy": 0.7093622708757638,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6577774949083504,
+      "step": 861
+    },
+    {
+      "epoch": 7.99,
+      "eval_accuracy": 0.5669532973180321,
+      "eval_bleu": 76.49084761884065,
+      "eval_loss": 0.13158030807971954,
+      "eval_perfect_accuracy": 0.14768633970628983,
+      "eval_runtime": 1031.2577,
+      "eval_samples_per_second": 3.5,
+      "eval_simple_accuracy": 0.7093948790077678,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.661253716075824,
+      "step": 984
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 3.373983739837399e-05,
+      "loss": 0.1587,
+      "step": 1000
+    },
+    {
+      "epoch": 8.99,
+      "eval_accuracy": 0.5799008390541571,
+      "eval_bleu": 77.12937097778037,
+      "eval_loss": 0.12549354135990143,
+      "eval_perfect_accuracy": 0.16098642283180936,
+      "eval_runtime": 1023.3584,
+      "eval_samples_per_second": 3.527,
+      "eval_simple_accuracy": 0.7213640986524281,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6679379608441394,
+      "step": 1107
+    },
+    {
+      "epoch": 9.99,
+      "eval_accuracy": 0.5873817235028894,
+      "eval_bleu": 77.65888247465986,
+      "eval_loss": 0.12297692894935608,
+      "eval_perfect_accuracy": 0.16181767802715433,
+      "eval_runtime": 1023.9043,
+      "eval_samples_per_second": 3.525,
+      "eval_simple_accuracy": 0.7230901124023623,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6762557947545564,
+      "step": 1230
+    },
+    {
+      "epoch": 10.99,
+      "eval_accuracy": 0.59429296131896,
+      "eval_bleu": 78.01343118892193,
+      "eval_loss": 0.12066468596458435,
+      "eval_perfect_accuracy": 0.171515655306179,
+      "eval_runtime": 1021.8584,
+      "eval_samples_per_second": 3.532,
+      "eval_simple_accuracy": 0.7276157260621433,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6818008877615727,
+      "step": 1353
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6051917739086551,
+      "eval_bleu": 78.9493434619066,
+      "eval_loss": 0.11863834410905838,
+      "eval_perfect_accuracy": 0.17594901634801885,
+      "eval_runtime": 1010.8004,
+      "eval_samples_per_second": 3.57,
+      "eval_simple_accuracy": 0.7328412818571789,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6936664143325764,
+      "step": 1477
+    },
+    {
+      "epoch": 12.19,
+      "learning_rate": 2.5609756097560977e-05,
+      "loss": 0.1271,
+      "step": 1500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6046047631112237,
+      "eval_bleu": 79.73687831704848,
+      "eval_loss": 0.11646737158298492,
+      "eval_perfect_accuracy": 0.17650318647824884,
+      "eval_runtime": 1016.1798,
+      "eval_samples_per_second": 3.552,
+      "eval_simple_accuracy": 0.733183430453509,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6896060298961236,
+      "step": 1600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.6090549311381985,
+      "eval_bleu": 79.73048335421603,
+      "eval_loss": 0.11454274505376816,
+      "eval_perfect_accuracy": 0.17955112219451372,
+      "eval_runtime": 1021.0729,
+      "eval_samples_per_second": 3.535,
+      "eval_simple_accuracy": 0.7366154820326104,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6950767769510844,
+      "step": 1723
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6126954921803128,
+      "eval_bleu": 79.95232854185171,
+      "eval_loss": 0.11355158686637878,
+      "eval_perfect_accuracy": 0.18149071765031866,
+      "eval_runtime": 1019.1512,
+      "eval_samples_per_second": 3.541,
+      "eval_simple_accuracy": 0.738064270532627,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.6964121435142594,
+      "step": 1846
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6142770873724692,
+      "eval_bleu": 80.17800049091872,
+      "eval_loss": 0.11310549825429916,
+      "eval_perfect_accuracy": 0.17871986699916875,
+      "eval_runtime": 1000.0367,
+      "eval_samples_per_second": 3.609,
+      "eval_simple_accuracy": 0.7383911260846073,
+      "eval_steps_per_second": 0.061,
+      "eval_token_accuracy": 0.6993293710072148,
+      "step": 1969
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 1.747967479674797e-05,
+      "loss": 0.1109,
+      "step": 2000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.6165277159040286,
+      "eval_bleu": 80.11868616750657,
+      "eval_loss": 0.11200028657913208,
+      "eval_perfect_accuracy": 0.17899695206428373,
+      "eval_runtime": 994.6715,
+      "eval_samples_per_second": 3.628,
+      "eval_simple_accuracy": 0.7413924775663463,
+      "eval_steps_per_second": 0.061,
+      "eval_token_accuracy": 0.6986571628587793,
+      "step": 2092
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.622873435767464,
+      "eval_bleu": 80.72391323382952,
+      "eval_loss": 0.1101086214184761,
+      "eval_perfect_accuracy": 0.18703241895261846,
+      "eval_runtime": 1022.8027,
+      "eval_samples_per_second": 3.529,
+      "eval_simple_accuracy": 0.7436717883731981,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.7055916363060352,
+      "step": 2215
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.6222941661905669,
+      "eval_bleu": 80.76914319903946,
+      "eval_loss": 0.11085215210914612,
+      "eval_perfect_accuracy": 0.18647824882238848,
+      "eval_runtime": 1021.7653,
+      "eval_samples_per_second": 3.532,
+      "eval_simple_accuracy": 0.7428426331492414,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.7042150701453691,
+      "step": 2338
+    },
+    {
+      "epoch": 19.99,
+      "eval_accuracy": 0.6245798719005644,
+      "eval_bleu": 80.78924704054619,
+      "eval_loss": 0.11003228276968002,
+      "eval_perfect_accuracy": 0.19229703518980326,
+      "eval_runtime": 1016.0765,
+      "eval_samples_per_second": 3.552,
+      "eval_simple_accuracy": 0.7465914135328809,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.7053395903354683,
+      "step": 2461
+    },
+    {
+      "epoch": 20.31,
+      "learning_rate": 9.34959349593496e-06,
+      "loss": 0.1009,
+      "step": 2500
+    },
+    {
+      "epoch": 20.99,
+      "eval_accuracy": 0.6269267364414843,
+      "eval_bleu": 81.12519074317272,
+      "eval_loss": 0.10916706919670105,
+      "eval_perfect_accuracy": 0.1886949293433084,
+      "eval_runtime": 1038.5849,
+      "eval_samples_per_second": 3.475,
+      "eval_simple_accuracy": 0.7457342213764668,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.708499841420869,
+      "step": 2584
+    },
+    {
+      "epoch": 21.99,
+      "eval_accuracy": 0.6295486935866983,
+      "eval_bleu": 81.28558003169574,
+      "eval_loss": 0.10952065885066986,
+      "eval_perfect_accuracy": 0.1886949293433084,
+      "eval_runtime": 1037.9043,
+      "eval_samples_per_second": 3.477,
+      "eval_simple_accuracy": 0.7463499604117181,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.7121773555027712,
+      "step": 2707
+    },
+    {
+      "epoch": 22.99,
+      "eval_accuracy": 0.6287138141188421,
+      "eval_bleu": 80.93511268093461,
+      "eval_loss": 0.1084115132689476,
+      "eval_perfect_accuracy": 0.19479080077583819,
+      "eval_runtime": 1032.8176,
+      "eval_samples_per_second": 3.494,
+      "eval_simple_accuracy": 0.7478732859319451,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.7086084306754697,
+      "step": 2830
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6307677671011321,
+      "eval_bleu": 81.11966959311552,
+      "eval_loss": 0.10846742242574692,
+      "eval_perfect_accuracy": 0.19201995012468828,
+      "eval_runtime": 1015.3974,
+      "eval_samples_per_second": 3.554,
+      "eval_simple_accuracy": 0.7478197443947611,
+      "eval_steps_per_second": 0.06,
+      "eval_token_accuracy": 0.7126502394317065,
+      "step": 2954
+    },
+    {
+      "epoch": 24.37,
+      "learning_rate": 1.2195121951219514e-06,
+      "loss": 0.0953,
+      "step": 3000
+    },
+    {
+      "epoch": 24.98,
+      "eval_accuracy": 0.6323030591218893,
+      "eval_bleu": 81.29208359004284,
+      "eval_loss": 0.10844007134437561,
+      "eval_perfect_accuracy": 0.19257412025491827,
+      "eval_runtime": 1029.0079,
+      "eval_samples_per_second": 3.507,
+      "eval_simple_accuracy": 0.7477571722935489,
+      "eval_steps_per_second": 0.059,
+      "eval_token_accuracy": 0.7139641781581867,
+      "step": 3075
+    }
+  ],
+  "max_steps": 3075,
+  "num_train_epochs": 25,
+  "total_flos": 9686690034941952.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fb8a43a695feecbdd75975e3545d24ccd9aed989a14888afb3e50c07eee1c23
+size 4219