stage best lsp fine adapt wce model

Files changed (14) hide show

config.json +62 -0
generation_config.json +15 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
source.spm +0 -0
special_tokens_map.json +5 -0
target.spm +0 -0
tokenizer_config.json +12 -0
trainer_state.json +336 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "Helsinki-NLP/opus-mt-en-fr",
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bad_words_ids": [
+    [
+      59513
+    ]
+  ],
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 59513,
+  "decoder_vocab_size": 59514,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": 512,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 59513,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "use_cache": true,
+  "vocab_size": 59514
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bad_words_ids": [
+    [
+      59513
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 59513,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 59513,
+  "transformers_version": "4.28.0"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95d3b1a11cb849fe5d459a046a2f15663b510d9abcf01061e6d896ee14520a4e
+size 597026309

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dc6fa5bc690b742d20bd466d6d82ac35b11325a9695e151bacbf329b3a3157f
+size 298763205

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3315841ff60adfa45417d1ec100c4d4993bcb371765c46294abbd0a98541b16
+size 14575

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c6a06f9335e73c8ed93e221404b263810c470efc986283819aa2cfdfea7f275
+size 557

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1378d1da724b1a77da62e79047ad80c84a64145612cd1941ad7ce9dd55ac66d8
+size 627

source.spm ADDED Viewed

Binary file (778 kB). View file

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

target.spm ADDED Viewed

Binary file (802 kB). View file

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "fr",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,336 @@

+{
+  "best_metric": 42.8215,
+  "best_model_checkpoint": "opus_base_lsp_adapt_wce_precision_1_ubweight_1.5/checkpoint-80000",
+  "epoch": 3.943217665615142,
+  "global_step": 80000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9753918572555207e-05,
+      "loss": 0.2154,
+      "step": 4000
+    },
+    {
+      "epoch": 0.2,
+      "eval_bleu": 34.2623,
+      "eval_gen_len": 41.1879,
+      "eval_loss": 0.10916412621736526,
+      "eval_runtime": 200.4936,
+      "eval_samples_per_second": 5.202,
+      "eval_steps_per_second": 0.165,
+      "step": 4000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.950746746845426e-05,
+      "loss": 0.1812,
+      "step": 8000
+    },
+    {
+      "epoch": 0.39,
+      "eval_bleu": 36.6395,
+      "eval_gen_len": 39.3643,
+      "eval_loss": 0.10679356753826141,
+      "eval_runtime": 186.1745,
+      "eval_samples_per_second": 5.602,
+      "eval_steps_per_second": 0.177,
+      "step": 8000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.9261016364353314e-05,
+      "loss": 0.1738,
+      "step": 12000
+    },
+    {
+      "epoch": 0.59,
+      "eval_bleu": 40.923,
+      "eval_gen_len": 35.1668,
+      "eval_loss": 0.10544949769973755,
+      "eval_runtime": 209.6195,
+      "eval_samples_per_second": 4.976,
+      "eval_steps_per_second": 0.157,
+      "step": 12000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.9014565260252367e-05,
+      "loss": 0.168,
+      "step": 16000
+    },
+    {
+      "epoch": 0.79,
+      "eval_bleu": 40.9075,
+      "eval_gen_len": 35.9712,
+      "eval_loss": 0.10438334196805954,
+      "eval_runtime": 166.702,
+      "eval_samples_per_second": 6.257,
+      "eval_steps_per_second": 0.198,
+      "step": 16000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.876811415615142e-05,
+      "loss": 0.1655,
+      "step": 20000
+    },
+    {
+      "epoch": 0.99,
+      "eval_bleu": 41.7323,
+      "eval_gen_len": 34.9559,
+      "eval_loss": 0.10381767153739929,
+      "eval_runtime": 172.3391,
+      "eval_samples_per_second": 6.052,
+      "eval_steps_per_second": 0.191,
+      "step": 20000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.8521786277602524e-05,
+      "loss": 0.1534,
+      "step": 24000
+    },
+    {
+      "epoch": 1.18,
+      "eval_bleu": 41.8326,
+      "eval_gen_len": 35.2637,
+      "eval_loss": 0.10374099761247635,
+      "eval_runtime": 157.0866,
+      "eval_samples_per_second": 6.64,
+      "eval_steps_per_second": 0.21,
+      "step": 24000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.8275520011829655e-05,
+      "loss": 0.1531,
+      "step": 28000
+    },
+    {
+      "epoch": 1.38,
+      "eval_bleu": 41.7809,
+      "eval_gen_len": 35.3979,
+      "eval_loss": 0.10289370268583298,
+      "eval_runtime": 156.7657,
+      "eval_samples_per_second": 6.653,
+      "eval_steps_per_second": 0.211,
+      "step": 28000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1.8029130520504733e-05,
+      "loss": 0.1526,
+      "step": 32000
+    },
+    {
+      "epoch": 1.58,
+      "eval_bleu": 41.3462,
+      "eval_gen_len": 35.5944,
+      "eval_loss": 0.1023290827870369,
+      "eval_runtime": 150.6754,
+      "eval_samples_per_second": 6.922,
+      "eval_steps_per_second": 0.219,
+      "step": 32000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.7782741029179815e-05,
+      "loss": 0.1511,
+      "step": 36000
+    },
+    {
+      "epoch": 1.77,
+      "eval_bleu": 41.1111,
+      "eval_gen_len": 37.4535,
+      "eval_loss": 0.10196707397699356,
+      "eval_runtime": 127.7267,
+      "eval_samples_per_second": 8.166,
+      "eval_steps_per_second": 0.258,
+      "step": 36000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.7536413150630914e-05,
+      "loss": 0.1503,
+      "step": 40000
+    },
+    {
+      "epoch": 1.97,
+      "eval_bleu": 42.3732,
+      "eval_gen_len": 34.6405,
+      "eval_loss": 0.1020611822605133,
+      "eval_runtime": 161.2219,
+      "eval_samples_per_second": 6.469,
+      "eval_steps_per_second": 0.205,
+      "step": 40000
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.729008527208202e-05,
+      "loss": 0.1425,
+      "step": 44000
+    },
+    {
+      "epoch": 2.17,
+      "eval_bleu": 42.0327,
+      "eval_gen_len": 35.7593,
+      "eval_loss": 0.10245819389820099,
+      "eval_runtime": 141.648,
+      "eval_samples_per_second": 7.363,
+      "eval_steps_per_second": 0.233,
+      "step": 44000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.70436957807571e-05,
+      "loss": 0.1415,
+      "step": 48000
+    },
+    {
+      "epoch": 2.37,
+      "eval_bleu": 41.9016,
+      "eval_gen_len": 35.8274,
+      "eval_loss": 0.10226458311080933,
+      "eval_runtime": 136.9293,
+      "eval_samples_per_second": 7.617,
+      "eval_steps_per_second": 0.241,
+      "step": 48000
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.6797367902208205e-05,
+      "loss": 0.1404,
+      "step": 52000
+    },
+    {
+      "epoch": 2.56,
+      "eval_bleu": 42.2252,
+      "eval_gen_len": 34.9367,
+      "eval_loss": 0.10195090621709824,
+      "eval_runtime": 152.282,
+      "eval_samples_per_second": 6.849,
+      "eval_steps_per_second": 0.217,
+      "step": 52000
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 1.6551040023659308e-05,
+      "loss": 0.1406,
+      "step": 56000
+    },
+    {
+      "epoch": 2.76,
+      "eval_bleu": 42.1866,
+      "eval_gen_len": 35.0451,
+      "eval_loss": 0.10183615982532501,
+      "eval_runtime": 157.3058,
+      "eval_samples_per_second": 6.63,
+      "eval_steps_per_second": 0.21,
+      "step": 56000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.630471214511041e-05,
+      "loss": 0.1409,
+      "step": 60000
+    },
+    {
+      "epoch": 2.96,
+      "eval_bleu": 42.5067,
+      "eval_gen_len": 34.4919,
+      "eval_loss": 0.10114634037017822,
+      "eval_runtime": 120.4194,
+      "eval_samples_per_second": 8.661,
+      "eval_steps_per_second": 0.274,
+      "step": 60000
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.6058384266561514e-05,
+      "loss": 0.1344,
+      "step": 64000
+    },
+    {
+      "epoch": 3.15,
+      "eval_bleu": 42.1356,
+      "eval_gen_len": 33.9348,
+      "eval_loss": 0.10190291702747345,
+      "eval_runtime": 128.9076,
+      "eval_samples_per_second": 8.091,
+      "eval_steps_per_second": 0.256,
+      "step": 64000
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.581205638801262e-05,
+      "loss": 0.1338,
+      "step": 68000
+    },
+    {
+      "epoch": 3.35,
+      "eval_bleu": 42.4556,
+      "eval_gen_len": 34.3605,
+      "eval_loss": 0.10205747187137604,
+      "eval_runtime": 124.6309,
+      "eval_samples_per_second": 8.369,
+      "eval_steps_per_second": 0.265,
+      "step": 68000
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.55656668966877e-05,
+      "loss": 0.1326,
+      "step": 72000
+    },
+    {
+      "epoch": 3.55,
+      "eval_bleu": 42.1887,
+      "eval_gen_len": 34.8015,
+      "eval_loss": 0.1019921749830246,
+      "eval_runtime": 93.2673,
+      "eval_samples_per_second": 11.183,
+      "eval_steps_per_second": 0.354,
+      "step": 72000
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.5319339018138805e-05,
+      "loss": 0.133,
+      "step": 76000
+    },
+    {
+      "epoch": 3.75,
+      "eval_bleu": 42.457,
+      "eval_gen_len": 35.441,
+      "eval_loss": 0.10184559971094131,
+      "eval_runtime": 125.2762,
+      "eval_samples_per_second": 8.326,
+      "eval_steps_per_second": 0.263,
+      "step": 76000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.5073011139589906e-05,
+      "loss": 0.1338,
+      "step": 80000
+    },
+    {
+      "epoch": 3.94,
+      "eval_bleu": 42.8215,
+      "eval_gen_len": 35.1419,
+      "eval_loss": 0.10159751027822495,
+      "eval_runtime": 138.4069,
+      "eval_samples_per_second": 7.536,
+      "eval_steps_per_second": 0.238,
+      "step": 80000
+    }
+  ],
+  "max_steps": 324608,
+  "num_train_epochs": 16,
+  "total_flos": 1.3796012702564352e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba45336c9f12b033cd935962b2af3b14ae1af95dfaa4241f509088de04c4ec00
+size 3771

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff