Training in progress, step 62500

Browse files

Files changed (9) hide show

last-checkpoint/config.json +2 -2
last-checkpoint/generation_config.json +3 -4
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +2 -2
last-checkpoint/trainer_state.json +6 -1058
last-checkpoint/training_args.bin +2 -2
model.safetensors +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -9,7 +9,6 @@
   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
-  "dtype": "float32",
   "eos_token_id": 1,
   "feed_forward_proj": "gated-gelu",
   "gradient_checkpointing": false,
@@ -26,7 +25,8 @@
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
-  "transformers_version": "4.57.1",
   "use_cache": true,
   "vocab_size": 32102
 }

   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
   "eos_token_id": 1,
   "feed_forward_proj": "gated-gelu",
   "gradient_checkpointing": false,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.1",
   "use_cache": true,
   "vocab_size": 32102
 }

last-checkpoint/generation_config.json CHANGED Viewed

@@ -1,8 +1,7 @@
 {
   "decoder_start_token_id": 0,
-  "eos_token_id": [
-    1
-  ],
   "pad_token_id": 0,
-  "transformers_version": "4.57.1"
 }

 {
+  "_from_model_config": true,
   "decoder_start_token_id": 0,
+  "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.54.1"
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aabc3fced6b151fc05539357053d33bcd4755e4e98846d06507236d52dd7e5c3
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7d9005889552e029ae0f4ad6c88f14926c5f00dadfc9d159f3073b9bd1ed7e5
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8c1b4f6030f249330c726f7011b5a52b7644567b3e4c984cbf366482b29f109
-size 1980541387

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbc2f647bccc068bd4031b56c17c84cc33de7c9cbadfbc3408e9aad88ac8b8cf
+size 1980540922

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dafbbb5ddc2c29002833b6ed5711dc2af1472fffb6629ad247f578cd6fa9666
-size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab3a3008648501d24764fe333294c85c928d239dc3b0530f6dceccd81d60bc59
+size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7ae60dd4b0e7ec1532f15a7f6a52644b055c6120f550f8d7c91916c45516a59
-size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:25f0268140834c71b91899b9158c0b00cd62b9c624ee206b9aa4ff7a0e9ff469
+size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 22.878228782287824,
   "eval_steps": 500,
-  "global_step": 62000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3696,1064 +3696,12 @@
       "eval_samples_per_second": 47.97,
       "eval_steps_per_second": 6.004,
       "step": 50420
-    },
-    {
-      "epoch": 18.634686346863468,
-      "grad_norm": 6.383838176727295,
-      "learning_rate": 2.3379546652609387e-05,
-      "loss": 1.0453,
-      "step": 50500
-    },
-    {
-      "epoch": 18.634686346863468,
-      "eval_bleu": 45.041038890307775,
-      "eval_chrf": 69.41451182032911,
-      "eval_loss": 1.023424744606018,
-      "eval_runtime": 93.238,
-      "eval_samples_per_second": 8.752,
-      "eval_steps_per_second": 1.094,
-      "step": 50500
-    },
-    {
-      "epoch": 18.671586715867157,
-      "grad_norm": 3.4755825996398926,
-      "learning_rate": 2.332683183974697e-05,
-      "loss": 1.0585,
-      "step": 50600
-    },
-    {
-      "epoch": 18.70848708487085,
-      "grad_norm": 4.731332302093506,
-      "learning_rate": 2.3274117026884556e-05,
-      "loss": 1.0681,
-      "step": 50700
-    },
-    {
-      "epoch": 18.74538745387454,
-      "grad_norm": 3.3240673542022705,
-      "learning_rate": 2.3221402214022142e-05,
-      "loss": 0.9811,
-      "step": 50800
-    },
-    {
-      "epoch": 18.782287822878228,
-      "grad_norm": 4.01174783706665,
-      "learning_rate": 2.316868740115973e-05,
-      "loss": 0.9955,
-      "step": 50900
-    },
-    {
-      "epoch": 18.81918819188192,
-      "grad_norm": 3.45139741897583,
-      "learning_rate": 2.3115972588297315e-05,
-      "loss": 1.0291,
-      "step": 51000
-    },
-    {
-      "epoch": 18.81918819188192,
-      "eval_bleu": 45.05869645905028,
-      "eval_chrf": 69.40206039350805,
-      "eval_loss": 1.0173133611679077,
-      "eval_runtime": 93.4838,
-      "eval_samples_per_second": 8.729,
-      "eval_steps_per_second": 1.091,
-      "step": 51000
-    },
-    {
-      "epoch": 18.85608856088561,
-      "grad_norm": 5.509322643280029,
-      "learning_rate": 2.3063257775434898e-05,
-      "loss": 1.0201,
-      "step": 51100
-    },
-    {
-      "epoch": 18.8929889298893,
-      "grad_norm": 3.0491347312927246,
-      "learning_rate": 2.3010542962572484e-05,
-      "loss": 1.0014,
-      "step": 51200
-    },
-    {
-      "epoch": 18.929889298892988,
-      "grad_norm": 2.939685821533203,
-      "learning_rate": 2.295782814971007e-05,
-      "loss": 1.0372,
-      "step": 51300
-    },
-    {
-      "epoch": 18.96678966789668,
-      "grad_norm": 6.572051525115967,
-      "learning_rate": 2.2905113336847657e-05,
-      "loss": 1.0221,
-      "step": 51400
-    },
-    {
-      "epoch": 19.00369003690037,
-      "grad_norm": 6.473498821258545,
-      "learning_rate": 2.285239852398524e-05,
-      "loss": 1.0437,
-      "step": 51500
-    },
-    {
-      "epoch": 19.00369003690037,
-      "eval_bleu": 45.377464139800466,
-      "eval_chrf": 69.57987345624291,
-      "eval_loss": 1.0092017650604248,
-      "eval_runtime": 92.7751,
-      "eval_samples_per_second": 8.795,
-      "eval_steps_per_second": 1.099,
-      "step": 51500
-    },
-    {
-      "epoch": 19.04059040590406,
-      "grad_norm": 5.248044967651367,
-      "learning_rate": 2.2799683711122826e-05,
-      "loss": 1.0291,
-      "step": 51600
-    },
-    {
-      "epoch": 19.077490774907748,
-      "grad_norm": 3.91925311088562,
-      "learning_rate": 2.2746968898260412e-05,
-      "loss": 1.0228,
-      "step": 51700
-    },
-    {
-      "epoch": 19.11439114391144,
-      "grad_norm": 4.581681728363037,
-      "learning_rate": 2.2694254085398e-05,
-      "loss": 0.9896,
-      "step": 51800
-    },
-    {
-      "epoch": 19.15129151291513,
-      "grad_norm": 3.2478437423706055,
-      "learning_rate": 2.2641539272535585e-05,
-      "loss": 0.9898,
-      "step": 51900
-    },
-    {
-      "epoch": 19.18819188191882,
-      "grad_norm": 4.589653015136719,
-      "learning_rate": 2.2588824459673168e-05,
-      "loss": 0.9883,
-      "step": 52000
-    },
-    {
-      "epoch": 19.18819188191882,
-      "eval_bleu": 45.182278437943154,
-      "eval_chrf": 69.60795584033274,
-      "eval_loss": 0.9994527101516724,
-      "eval_runtime": 93.0344,
-      "eval_samples_per_second": 8.771,
-      "eval_steps_per_second": 1.096,
-      "step": 52000
-    },
-    {
-      "epoch": 19.225092250922508,
-      "grad_norm": 3.865722179412842,
-      "learning_rate": 2.2536109646810754e-05,
-      "loss": 0.9701,
-      "step": 52100
-    },
-    {
-      "epoch": 19.2619926199262,
-      "grad_norm": 3.5048811435699463,
-      "learning_rate": 2.248339483394834e-05,
-      "loss": 0.986,
-      "step": 52200
-    },
-    {
-      "epoch": 19.29889298892989,
-      "grad_norm": 4.171955585479736,
-      "learning_rate": 2.2430680021085927e-05,
-      "loss": 1.0095,
-      "step": 52300
-    },
-    {
-      "epoch": 19.33579335793358,
-      "grad_norm": 2.502441644668579,
-      "learning_rate": 2.237796520822351e-05,
-      "loss": 0.9996,
-      "step": 52400
-    },
-    {
-      "epoch": 19.372693726937268,
-      "grad_norm": 4.4848737716674805,
-      "learning_rate": 2.2325250395361096e-05,
-      "loss": 0.9496,
-      "step": 52500
-    },
-    {
-      "epoch": 19.372693726937268,
-      "eval_bleu": 45.2363393703102,
-      "eval_chrf": 69.37454521026567,
-      "eval_loss": 0.9982830882072449,
-      "eval_runtime": 93.5422,
-      "eval_samples_per_second": 8.723,
-      "eval_steps_per_second": 1.09,
-      "step": 52500
-    },
-    {
-      "epoch": 19.40959409594096,
-      "grad_norm": 4.602016925811768,
-      "learning_rate": 2.2272535582498682e-05,
-      "loss": 0.9874,
-      "step": 52600
-    },
-    {
-      "epoch": 19.44649446494465,
-      "grad_norm": 3.7375121116638184,
-      "learning_rate": 2.221982076963627e-05,
-      "loss": 0.9843,
-      "step": 52700
-    },
-    {
-      "epoch": 19.48339483394834,
-      "grad_norm": 3.5808184146881104,
-      "learning_rate": 2.2167105956773855e-05,
-      "loss": 1.0236,
-      "step": 52800
-    },
-    {
-      "epoch": 19.52029520295203,
-      "grad_norm": 1.8931940793991089,
-      "learning_rate": 2.2114391143911438e-05,
-      "loss": 1.0546,
-      "step": 52900
-    },
-    {
-      "epoch": 19.55719557195572,
-      "grad_norm": 3.6316375732421875,
-      "learning_rate": 2.2061676331049024e-05,
-      "loss": 0.989,
-      "step": 53000
-    },
-    {
-      "epoch": 19.55719557195572,
-      "eval_bleu": 45.49473361839618,
-      "eval_chrf": 69.6430207436413,
-      "eval_loss": 0.9908942580223083,
-      "eval_runtime": 94.2497,
-      "eval_samples_per_second": 8.658,
-      "eval_steps_per_second": 1.082,
-      "step": 53000
-    },
-    {
-      "epoch": 19.59409594095941,
-      "grad_norm": 4.76518440246582,
-      "learning_rate": 2.200896151818661e-05,
-      "loss": 1.0023,
-      "step": 53100
-    },
-    {
-      "epoch": 19.6309963099631,
-      "grad_norm": 3.2376883029937744,
-      "learning_rate": 2.1956246705324197e-05,
-      "loss": 1.0358,
-      "step": 53200
-    },
-    {
-      "epoch": 19.66789667896679,
-      "grad_norm": 4.3444318771362305,
-      "learning_rate": 2.190353189246178e-05,
-      "loss": 1.0315,
-      "step": 53300
-    },
-    {
-      "epoch": 19.70479704797048,
-      "grad_norm": 5.0184102058410645,
-      "learning_rate": 2.1850817079599366e-05,
-      "loss": 1.0637,
-      "step": 53400
-    },
-    {
-      "epoch": 19.74169741697417,
-      "grad_norm": 3.515033483505249,
-      "learning_rate": 2.1798102266736953e-05,
-      "loss": 1.0379,
-      "step": 53500
-    },
-    {
-      "epoch": 19.74169741697417,
-      "eval_bleu": 45.418676252884964,
-      "eval_chrf": 69.78137735109217,
-      "eval_loss": 0.9870654940605164,
-      "eval_runtime": 93.9848,
-      "eval_samples_per_second": 8.682,
-      "eval_steps_per_second": 1.085,
-      "step": 53500
-    },
-    {
-      "epoch": 19.77859778597786,
-      "grad_norm": 3.5330288410186768,
-      "learning_rate": 2.1745387453874542e-05,
-      "loss": 0.9752,
-      "step": 53600
-    },
-    {
-      "epoch": 19.81549815498155,
-      "grad_norm": 4.465782642364502,
-      "learning_rate": 2.1692672641012125e-05,
-      "loss": 1.0044,
-      "step": 53700
-    },
-    {
-      "epoch": 19.85239852398524,
-      "grad_norm": 5.873017311096191,
-      "learning_rate": 2.163995782814971e-05,
-      "loss": 1.0744,
-      "step": 53800
-    },
-    {
-      "epoch": 19.88929889298893,
-      "grad_norm": 3.305344581604004,
-      "learning_rate": 2.1587243015287298e-05,
-      "loss": 0.8986,
-      "step": 53900
-    },
-    {
-      "epoch": 19.92619926199262,
-      "grad_norm": 3.4520583152770996,
-      "learning_rate": 2.1534528202424884e-05,
-      "loss": 1.0354,
-      "step": 54000
-    },
-    {
-      "epoch": 19.92619926199262,
-      "eval_bleu": 45.40658414024313,
-      "eval_chrf": 69.79824864043482,
-      "eval_loss": 0.9898651242256165,
-      "eval_runtime": 93.077,
-      "eval_samples_per_second": 8.767,
-      "eval_steps_per_second": 1.096,
-      "step": 54000
-    },
-    {
-      "epoch": 19.96309963099631,
-      "grad_norm": 4.757823944091797,
-      "learning_rate": 2.148181338956247e-05,
-      "loss": 1.0031,
-      "step": 54100
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 3.4500021934509277,
-      "learning_rate": 2.1429098576700054e-05,
-      "loss": 1.0126,
-      "step": 54200
-    },
-    {
-      "epoch": 20.03690036900369,
-      "grad_norm": 3.2020909786224365,
-      "learning_rate": 2.137638376383764e-05,
-      "loss": 0.96,
-      "step": 54300
-    },
-    {
-      "epoch": 20.07380073800738,
-      "grad_norm": 4.481809616088867,
-      "learning_rate": 2.1323668950975226e-05,
-      "loss": 0.9614,
-      "step": 54400
-    },
-    {
-      "epoch": 20.11070110701107,
-      "grad_norm": 3.2812538146972656,
-      "learning_rate": 2.1270954138112813e-05,
-      "loss": 0.9636,
-      "step": 54500
-    },
-    {
-      "epoch": 20.11070110701107,
-      "eval_bleu": 45.41666654146133,
-      "eval_chrf": 69.96897005750033,
-      "eval_loss": 0.9812939167022705,
-      "eval_runtime": 93.5969,
-      "eval_samples_per_second": 8.718,
-      "eval_steps_per_second": 1.09,
-      "step": 54500
-    },
-    {
-      "epoch": 20.14760147601476,
-      "grad_norm": 4.628011703491211,
-      "learning_rate": 2.1218239325250395e-05,
-      "loss": 0.9792,
-      "step": 54600
-    },
-    {
-      "epoch": 20.18450184501845,
-      "grad_norm": 4.964925765991211,
-      "learning_rate": 2.1165524512387982e-05,
-      "loss": 0.9477,
-      "step": 54700
-    },
-    {
-      "epoch": 20.22140221402214,
-      "grad_norm": 3.1874473094940186,
-      "learning_rate": 2.1112809699525568e-05,
-      "loss": 0.9928,
-      "step": 54800
-    },
-    {
-      "epoch": 20.25830258302583,
-      "grad_norm": 3.8035147190093994,
-      "learning_rate": 2.1060094886663154e-05,
-      "loss": 0.9688,
-      "step": 54900
-    },
-    {
-      "epoch": 20.29520295202952,
-      "grad_norm": 4.595950603485107,
-      "learning_rate": 2.100738007380074e-05,
-      "loss": 0.9575,
-      "step": 55000
-    },
-    {
-      "epoch": 20.29520295202952,
-      "eval_bleu": 45.26791746653591,
-      "eval_chrf": 69.59072341748964,
-      "eval_loss": 0.9762688279151917,
-      "eval_runtime": 93.4589,
-      "eval_samples_per_second": 8.731,
-      "eval_steps_per_second": 1.091,
-      "step": 55000
-    },
-    {
-      "epoch": 20.33210332103321,
-      "grad_norm": 4.018571853637695,
-      "learning_rate": 2.0954665260938324e-05,
-      "loss": 0.9425,
-      "step": 55100
-    },
-    {
-      "epoch": 20.3690036900369,
-      "grad_norm": 5.99881649017334,
-      "learning_rate": 2.090195044807591e-05,
-      "loss": 0.9874,
-      "step": 55200
-    },
-    {
-      "epoch": 20.40590405904059,
-      "grad_norm": 3.563143253326416,
-      "learning_rate": 2.0849235635213496e-05,
-      "loss": 0.9795,
-      "step": 55300
-    },
-    {
-      "epoch": 20.44280442804428,
-      "grad_norm": 5.876094341278076,
-      "learning_rate": 2.0796520822351083e-05,
-      "loss": 0.9751,
-      "step": 55400
-    },
-    {
-      "epoch": 20.47970479704797,
-      "grad_norm": 2.8638973236083984,
-      "learning_rate": 2.0743806009488666e-05,
-      "loss": 0.9223,
-      "step": 55500
-    },
-    {
-      "epoch": 20.47970479704797,
-      "eval_bleu": 45.916257953363164,
-      "eval_chrf": 69.76962902573563,
-      "eval_loss": 0.9757766127586365,
-      "eval_runtime": 92.5471,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.102,
-      "step": 55500
-    },
-    {
-      "epoch": 20.51660516605166,
-      "grad_norm": 6.471508502960205,
-      "learning_rate": 2.0691091196626252e-05,
-      "loss": 0.9933,
-      "step": 55600
-    },
-    {
-      "epoch": 20.55350553505535,
-      "grad_norm": 3.317532539367676,
-      "learning_rate": 2.0638376383763838e-05,
-      "loss": 0.9708,
-      "step": 55700
-    },
-    {
-      "epoch": 20.59040590405904,
-      "grad_norm": 3.4863741397857666,
-      "learning_rate": 2.0585661570901425e-05,
-      "loss": 0.9717,
-      "step": 55800
-    },
-    {
-      "epoch": 20.627306273062732,
-      "grad_norm": 3.6253013610839844,
-      "learning_rate": 2.053294675803901e-05,
-      "loss": 0.9628,
-      "step": 55900
-    },
-    {
-      "epoch": 20.66420664206642,
-      "grad_norm": 4.725039958953857,
-      "learning_rate": 2.0480231945176594e-05,
-      "loss": 0.9179,
-      "step": 56000
-    },
-    {
-      "epoch": 20.66420664206642,
-      "eval_bleu": 46.28172619461589,
-      "eval_chrf": 70.11693794292695,
-      "eval_loss": 0.968273401260376,
-      "eval_runtime": 93.3175,
-      "eval_samples_per_second": 8.744,
-      "eval_steps_per_second": 1.093,
-      "step": 56000
-    },
-    {
-      "epoch": 20.70110701107011,
-      "grad_norm": 2.480011463165283,
-      "learning_rate": 2.042751713231418e-05,
-      "loss": 0.9707,
-      "step": 56100
-    },
-    {
-      "epoch": 20.7380073800738,
-      "grad_norm": 4.387946605682373,
-      "learning_rate": 2.0374802319451766e-05,
-      "loss": 0.9964,
-      "step": 56200
-    },
-    {
-      "epoch": 20.774907749077492,
-      "grad_norm": 4.427938461303711,
-      "learning_rate": 2.0322087506589353e-05,
-      "loss": 0.947,
-      "step": 56300
-    },
-    {
-      "epoch": 20.81180811808118,
-      "grad_norm": 3.5348544120788574,
-      "learning_rate": 2.0269372693726936e-05,
-      "loss": 0.9539,
-      "step": 56400
-    },
-    {
-      "epoch": 20.84870848708487,
-      "grad_norm": 3.754854440689087,
-      "learning_rate": 2.0216657880864522e-05,
-      "loss": 0.9696,
-      "step": 56500
-    },
-    {
-      "epoch": 20.84870848708487,
-      "eval_bleu": 46.21577470581903,
-      "eval_chrf": 70.26264135399155,
-      "eval_loss": 0.9621157646179199,
-      "eval_runtime": 92.5871,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.102,
-      "step": 56500
-    },
-    {
-      "epoch": 20.88560885608856,
-      "grad_norm": 6.947758197784424,
-      "learning_rate": 2.016394306800211e-05,
-      "loss": 1.0204,
-      "step": 56600
-    },
-    {
-      "epoch": 20.922509225092252,
-      "grad_norm": 4.733431339263916,
-      "learning_rate": 2.0111228255139695e-05,
-      "loss": 1.0111,
-      "step": 56700
-    },
-    {
-      "epoch": 20.95940959409594,
-      "grad_norm": 4.140303134918213,
-      "learning_rate": 2.005851344227728e-05,
-      "loss": 0.9599,
-      "step": 56800
-    },
-    {
-      "epoch": 20.99630996309963,
-      "grad_norm": 6.344222068786621,
-      "learning_rate": 2.0005798629414864e-05,
-      "loss": 0.9768,
-      "step": 56900
-    },
-    {
-      "epoch": 21.03321033210332,
-      "grad_norm": 4.12951135635376,
-      "learning_rate": 1.995308381655245e-05,
-      "loss": 1.002,
-      "step": 57000
-    },
-    {
-      "epoch": 21.03321033210332,
-      "eval_bleu": 45.90122957003376,
-      "eval_chrf": 70.13557288840417,
-      "eval_loss": 0.9641706943511963,
-      "eval_runtime": 92.0161,
-      "eval_samples_per_second": 8.868,
-      "eval_steps_per_second": 1.109,
-      "step": 57000
-    },
-    {
-      "epoch": 21.070110701107012,
-      "grad_norm": 2.7685956954956055,
-      "learning_rate": 1.990036900369004e-05,
-      "loss": 0.9171,
-      "step": 57100
-    },
-    {
-      "epoch": 21.1070110701107,
-      "grad_norm": 3.8239712715148926,
-      "learning_rate": 1.9847654190827626e-05,
-      "loss": 0.935,
-      "step": 57200
-    },
-    {
-      "epoch": 21.14391143911439,
-      "grad_norm": 3.2187681198120117,
-      "learning_rate": 1.979493937796521e-05,
-      "loss": 0.9205,
-      "step": 57300
-    },
-    {
-      "epoch": 21.18081180811808,
-      "grad_norm": 3.0021488666534424,
-      "learning_rate": 1.9742224565102796e-05,
-      "loss": 0.9241,
-      "step": 57400
-    },
-    {
-      "epoch": 21.217712177121772,
-      "grad_norm": 2.5294923782348633,
-      "learning_rate": 1.9689509752240382e-05,
-      "loss": 0.9327,
-      "step": 57500
-    },
-    {
-      "epoch": 21.217712177121772,
-      "eval_bleu": 46.11265350722499,
-      "eval_chrf": 70.36260746480464,
-      "eval_loss": 0.9620640873908997,
-      "eval_runtime": 93.0763,
-      "eval_samples_per_second": 8.767,
-      "eval_steps_per_second": 1.096,
-      "step": 57500
-    },
-    {
-      "epoch": 21.25461254612546,
-      "grad_norm": 3.535879135131836,
-      "learning_rate": 1.9636794939377968e-05,
-      "loss": 0.9289,
-      "step": 57600
-    },
-    {
-      "epoch": 21.29151291512915,
-      "grad_norm": 4.959736347198486,
-      "learning_rate": 1.958408012651555e-05,
-      "loss": 0.9379,
-      "step": 57700
-    },
-    {
-      "epoch": 21.328413284132843,
-      "grad_norm": 4.482137203216553,
-      "learning_rate": 1.9531365313653138e-05,
-      "loss": 0.9173,
-      "step": 57800
-    },
-    {
-      "epoch": 21.365313653136532,
-      "grad_norm": 4.553799629211426,
-      "learning_rate": 1.9478650500790724e-05,
-      "loss": 0.8799,
-      "step": 57900
-    },
-    {
-      "epoch": 21.40221402214022,
-      "grad_norm": 5.203136444091797,
-      "learning_rate": 1.942593568792831e-05,
-      "loss": 0.8895,
-      "step": 58000
-    },
-    {
-      "epoch": 21.40221402214022,
-      "eval_bleu": 46.48714823641416,
-      "eval_chrf": 70.45381756168473,
-      "eval_loss": 0.9568957090377808,
-      "eval_runtime": 92.5969,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.102,
-      "step": 58000
-    },
-    {
-      "epoch": 21.43911439114391,
-      "grad_norm": 4.262024879455566,
-      "learning_rate": 1.9373220875065897e-05,
-      "loss": 0.959,
-      "step": 58100
-    },
-    {
-      "epoch": 21.476014760147603,
-      "grad_norm": 3.5024478435516357,
-      "learning_rate": 1.932050606220348e-05,
-      "loss": 0.9557,
-      "step": 58200
-    },
-    {
-      "epoch": 21.512915129151292,
-      "grad_norm": 5.715458393096924,
-      "learning_rate": 1.9267791249341066e-05,
-      "loss": 0.9356,
-      "step": 58300
-    },
-    {
-      "epoch": 21.54981549815498,
-      "grad_norm": 3.2510526180267334,
-      "learning_rate": 1.9215076436478652e-05,
-      "loss": 0.9177,
-      "step": 58400
-    },
-    {
-      "epoch": 21.58671586715867,
-      "grad_norm": 3.2294719219207764,
-      "learning_rate": 1.916236162361624e-05,
-      "loss": 0.955,
-      "step": 58500
-    },
-    {
-      "epoch": 21.58671586715867,
-      "eval_bleu": 46.45543563139011,
-      "eval_chrf": 70.41267683825878,
-      "eval_loss": 0.9556043148040771,
-      "eval_runtime": 93.5764,
-      "eval_samples_per_second": 8.72,
-      "eval_steps_per_second": 1.09,
-      "step": 58500
-    },
-    {
-      "epoch": 21.623616236162363,
-      "grad_norm": 4.483983039855957,
-      "learning_rate": 1.910964681075382e-05,
-      "loss": 0.9296,
-      "step": 58600
-    },
-    {
-      "epoch": 21.660516605166052,
-      "grad_norm": 5.226687431335449,
-      "learning_rate": 1.9056931997891408e-05,
-      "loss": 0.9644,
-      "step": 58700
-    },
-    {
-      "epoch": 21.69741697416974,
-      "grad_norm": 4.515336036682129,
-      "learning_rate": 1.9004217185028994e-05,
-      "loss": 0.9485,
-      "step": 58800
-    },
-    {
-      "epoch": 21.73431734317343,
-      "grad_norm": 4.825827121734619,
-      "learning_rate": 1.895150237216658e-05,
-      "loss": 0.9554,
-      "step": 58900
-    },
-    {
-      "epoch": 21.771217712177123,
-      "grad_norm": 3.3719112873077393,
-      "learning_rate": 1.8898787559304167e-05,
-      "loss": 0.937,
-      "step": 59000
-    },
-    {
-      "epoch": 21.771217712177123,
-      "eval_bleu": 46.87817019053264,
-      "eval_chrf": 70.79154520929303,
-      "eval_loss": 0.9485617280006409,
-      "eval_runtime": 92.225,
-      "eval_samples_per_second": 8.848,
-      "eval_steps_per_second": 1.106,
-      "step": 59000
-    },
-    {
-      "epoch": 21.80811808118081,
-      "grad_norm": 3.7261431217193604,
-      "learning_rate": 1.884607274644175e-05,
-      "loss": 0.983,
-      "step": 59100
-    },
-    {
-      "epoch": 21.8450184501845,
-      "grad_norm": 5.664323329925537,
-      "learning_rate": 1.8793357933579336e-05,
-      "loss": 0.9468,
-      "step": 59200
-    },
-    {
-      "epoch": 21.881918819188193,
-      "grad_norm": 3.194990873336792,
-      "learning_rate": 1.8740643120716922e-05,
-      "loss": 0.9457,
-      "step": 59300
-    },
-    {
-      "epoch": 21.918819188191883,
-      "grad_norm": 6.040603160858154,
-      "learning_rate": 1.868792830785451e-05,
-      "loss": 0.8814,
-      "step": 59400
-    },
-    {
-      "epoch": 21.95571955719557,
-      "grad_norm": 3.8153860569000244,
-      "learning_rate": 1.863521349499209e-05,
-      "loss": 0.8858,
-      "step": 59500
-    },
-    {
-      "epoch": 21.95571955719557,
-      "eval_bleu": 47.37172520377558,
-      "eval_chrf": 71.22515832818081,
-      "eval_loss": 0.9359919428825378,
-      "eval_runtime": 92.8284,
-      "eval_samples_per_second": 8.79,
-      "eval_steps_per_second": 1.099,
-      "step": 59500
-    },
-    {
-      "epoch": 21.99261992619926,
-      "grad_norm": 6.741827487945557,
-      "learning_rate": 1.8582498682129678e-05,
-      "loss": 0.9004,
-      "step": 59600
-    },
-    {
-      "epoch": 22.029520295202953,
-      "grad_norm": 3.961733818054199,
-      "learning_rate": 1.8529783869267264e-05,
-      "loss": 0.9092,
-      "step": 59700
-    },
-    {
-      "epoch": 22.066420664206642,
-      "grad_norm": 3.397977352142334,
-      "learning_rate": 1.847706905640485e-05,
-      "loss": 0.9474,
-      "step": 59800
-    },
-    {
-      "epoch": 22.10332103321033,
-      "grad_norm": 4.655407428741455,
-      "learning_rate": 1.8424354243542437e-05,
-      "loss": 0.9012,
-      "step": 59900
-    },
-    {
-      "epoch": 22.14022140221402,
-      "grad_norm": 5.649438381195068,
-      "learning_rate": 1.837163943068002e-05,
-      "loss": 0.8825,
-      "step": 60000
-    },
-    {
-      "epoch": 22.14022140221402,
-      "eval_bleu": 46.5005676140855,
-      "eval_chrf": 70.5285416310898,
-      "eval_loss": 0.9432012438774109,
-      "eval_runtime": 93.2807,
-      "eval_samples_per_second": 8.748,
-      "eval_steps_per_second": 1.093,
-      "step": 60000
-    },
-    {
-      "epoch": 22.177121771217713,
-      "grad_norm": 4.629878520965576,
-      "learning_rate": 1.8318924617817606e-05,
-      "loss": 0.942,
-      "step": 60100
-    },
-    {
-      "epoch": 22.214022140221402,
-      "grad_norm": 3.1749112606048584,
-      "learning_rate": 1.8266209804955192e-05,
-      "loss": 0.8875,
-      "step": 60200
-    },
-    {
-      "epoch": 22.25092250922509,
-      "grad_norm": 4.075937271118164,
-      "learning_rate": 1.821349499209278e-05,
-      "loss": 0.8974,
-      "step": 60300
-    },
-    {
-      "epoch": 22.28782287822878,
-      "grad_norm": 4.900486946105957,
-      "learning_rate": 1.816078017923036e-05,
-      "loss": 0.8756,
-      "step": 60400
-    },
-    {
-      "epoch": 22.324723247232473,
-      "grad_norm": 5.85085391998291,
-      "learning_rate": 1.8108065366367948e-05,
-      "loss": 0.9037,
-      "step": 60500
-    },
-    {
-      "epoch": 22.324723247232473,
-      "eval_bleu": 46.80960057807192,
-      "eval_chrf": 70.97934673749698,
-      "eval_loss": 0.9416308403015137,
-      "eval_runtime": 93.7729,
-      "eval_samples_per_second": 8.702,
-      "eval_steps_per_second": 1.088,
-      "step": 60500
-    },
-    {
-      "epoch": 22.361623616236162,
-      "grad_norm": 3.0147836208343506,
-      "learning_rate": 1.8055350553505538e-05,
-      "loss": 0.9062,
-      "step": 60600
-    },
-    {
-      "epoch": 22.39852398523985,
-      "grad_norm": 4.866212368011475,
-      "learning_rate": 1.8002635740643124e-05,
-      "loss": 0.8591,
-      "step": 60700
-    },
-    {
-      "epoch": 22.435424354243544,
-      "grad_norm": 5.024223804473877,
-      "learning_rate": 1.7949920927780707e-05,
-      "loss": 0.9472,
-      "step": 60800
-    },
-    {
-      "epoch": 22.472324723247233,
-      "grad_norm": 4.542778968811035,
-      "learning_rate": 1.7897206114918293e-05,
-      "loss": 0.8968,
-      "step": 60900
-    },
-    {
-      "epoch": 22.509225092250922,
-      "grad_norm": 4.99670934677124,
-      "learning_rate": 1.784449130205588e-05,
-      "loss": 0.8718,
-      "step": 61000
-    },
-    {
-      "epoch": 22.509225092250922,
-      "eval_bleu": 47.081381775180894,
-      "eval_chrf": 70.98627232269999,
-      "eval_loss": 0.9361989498138428,
-      "eval_runtime": 92.7139,
-      "eval_samples_per_second": 8.801,
-      "eval_steps_per_second": 1.1,
-      "step": 61000
-    },
-    {
-      "epoch": 22.54612546125461,
-      "grad_norm": 4.439650535583496,
-      "learning_rate": 1.7791776489193466e-05,
-      "loss": 0.9003,
-      "step": 61100
-    },
-    {
-      "epoch": 22.583025830258304,
-      "grad_norm": 3.1378018856048584,
-      "learning_rate": 1.7739061676331052e-05,
-      "loss": 0.8969,
-      "step": 61200
-    },
-    {
-      "epoch": 22.619926199261993,
-      "grad_norm": 4.780954837799072,
-      "learning_rate": 1.7686346863468635e-05,
-      "loss": 0.923,
-      "step": 61300
-    },
-    {
-      "epoch": 22.656826568265682,
-      "grad_norm": 3.4595189094543457,
-      "learning_rate": 1.763363205060622e-05,
-      "loss": 0.8594,
-      "step": 61400
-    },
-    {
-      "epoch": 22.69372693726937,
-      "grad_norm": 3.2997348308563232,
-      "learning_rate": 1.7580917237743808e-05,
-      "loss": 0.9022,
-      "step": 61500
-    },
-    {
-      "epoch": 22.69372693726937,
-      "eval_bleu": 47.1028817880757,
-      "eval_chrf": 71.06093863096652,
-      "eval_loss": 0.9276468753814697,
-      "eval_runtime": 93.0419,
-      "eval_samples_per_second": 8.77,
-      "eval_steps_per_second": 1.096,
-      "step": 61500
-    },
-    {
-      "epoch": 22.730627306273064,
-      "grad_norm": 3.217003583908081,
-      "learning_rate": 1.7528202424881394e-05,
-      "loss": 0.9786,
-      "step": 61600
-    },
-    {
-      "epoch": 22.767527675276753,
-      "grad_norm": 3.641460418701172,
-      "learning_rate": 1.7475487612018977e-05,
-      "loss": 0.9548,
-      "step": 61700
-    },
-    {
-      "epoch": 22.804428044280442,
-      "grad_norm": 4.382227420806885,
-      "learning_rate": 1.7422772799156563e-05,
-      "loss": 0.885,
-      "step": 61800
-    },
-    {
-      "epoch": 22.84132841328413,
-      "grad_norm": 4.368484973907471,
-      "learning_rate": 1.737005798629415e-05,
-      "loss": 0.8851,
-      "step": 61900
-    },
-    {
-      "epoch": 22.878228782287824,
-      "grad_norm": 3.0234997272491455,
-      "learning_rate": 1.7317343173431736e-05,
-      "loss": 0.8995,
-      "step": 62000
-    },
-    {
-      "epoch": 22.878228782287824,
-      "eval_bleu": 46.956009820086116,
-      "eval_chrf": 71.03846001924904,
-      "eval_loss": 0.9235355257987976,
-      "eval_runtime": 92.5602,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.102,
-      "step": 62000
     }
   ],
   "logging_steps": 100,
-  "max_steps": 94850,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 35,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -4762,12 +3710,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.0073932406194176e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 50420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.97,
       "eval_steps_per_second": 6.004,
       "step": 50420
     }
   ],
   "logging_steps": 100,
+  "max_steps": 50420,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.902420484390912e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f204478991a1e565717112446a50fbdebbfc0c2fa1e8885ad052d434d413f2f
-size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:75188bd643b1477939c9a6819e9a5ad3a7a388c5c13a37c2fcbd210bd1b5fc26
+size 5496

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aabc3fced6b151fc05539357053d33bcd4755e4e98846d06507236d52dd7e5c3
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a29e0afbdf7dacbda2541986ccaba1c2707ac1b4969c8e3a880d544bb15612e
 size 990185320