Training in progress, step 10000, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/config.json +6 -2
last-checkpoint/generation_config.json +3 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +5 -64
last-checkpoint/trainer_state.json +942 -6
last-checkpoint/training_args.bin +2 -2

last-checkpoint/config.json CHANGED Viewed

@@ -20,9 +20,13 @@
   "pad_token_id": 3,
   "partial_rotary_factor": 0.5,
   "rms_norm_eps": 1.5625e-07,
-  "rope_theta": 10000.0,
   "tie_word_embeddings": false,
-  "transformers_version": "4.57.1",
   "use_cache": false,
   "vocab_size": 32000
 }

   "pad_token_id": 3,
   "partial_rotary_factor": 0.5,
   "rms_norm_eps": 1.5625e-07,
+  "rope_parameters": {
+    "partial_rotary_factor": 0.5,
+    "rope_theta": 10000.0,
+    "rope_type": "default"
+  },
   "tie_word_embeddings": false,
+  "transformers_version": "5.0.0",
   "use_cache": false,
   "vocab_size": 32000
 }

last-checkpoint/generation_config.json CHANGED Viewed

@@ -2,7 +2,9 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 3,
-  "transformers_version": "4.57.1",
   "use_cache": false
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "output_attentions": false,
+  "output_hidden_states": false,
   "pad_token_id": 3,
+  "transformers_version": "5.0.0",
   "use_cache": false
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a828e44ea590620dd6e370c9d40ba9bc1bbd4f4347064955ff8f505a434b8f7
 size 846294848

 version https://git-lfs.github.com/spec/v1
+oid sha256:90da201742c3407f5b628001559e8cf49801a87f3a796b6cdea47d50c92b281f
 size 846294848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca08361236dad76d92438e8c7f7d4ff7f0211f5008cdfe13993144a24be3871d
 size 1692647947

 version https://git-lfs.github.com/spec/v1
+oid sha256:8513713413166c8f257a9925e268ea1a0d5430a79d9d6d7fa6952d27dbe62557
 size 1692647947

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97f621c40c37c796d75663f728f7490ddcd9db068eaa82d92691bb9a37ff256f
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9445552595536daf5bd8731be4eabb308bd26e76a3f4f0c20c4aa55fcf9ea202
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ef18b6bb7867a00caaf997560388e8adda0cd2d38d75f02294c699351b4d5ce
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c604541636f2426a1e67c6a83e8d4da5024a11c0f0ec5748139dfa5cdd27427
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc5ce31d63bcbfc2427ac8bcbb3ed9994536852fec0d908b961baa42c8630d30
 size 1465

last-checkpoint/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -1,73 +1,14 @@
 {
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "[CLS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "[SEP]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "4": {
-      "content": "[MASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "5": {
-      "content": "[gMASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "6": {
-      "content": "[sMASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
     "[gMASK]",
     "[sMASK]"
   ],
-  "bos_token": "[CLS]",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "[SEP]",
-  "extra_special_tokens": {},
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
-  "tokenizer_class": "PreTrainedTokenizerFast",
   "unk_token": "[UNK]"
 }

 {
+  "backend": "tokenizers",
+  "bos_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "extra_special_tokens": [
     "[gMASK]",
     "[sMASK]"
   ],
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
+  "tokenizer_class": "TokenizersBackend",
   "unk_token": "[UNK]"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 3000,
   "best_metric": 3.3578011989593506,
   "best_model_checkpoint": "./vi-en-glm-model/checkpoint-3000",
-  "epoch": 6.441579371474617,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -632,10 +632,946 @@
       "eval_samples_per_second": 51.891,
       "eval_steps_per_second": 3.244,
       "step": 4000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 6210,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -646,7 +1582,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
@@ -655,12 +1591,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.135453553629594e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 3000,
   "best_metric": 3.3578011989593506,
   "best_model_checkpoint": "./vi-en-glm-model/checkpoint-3000",
+  "epoch": 8.006406406406406,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 51.891,
       "eval_steps_per_second": 3.244,
       "step": 4000
+    },
+    {
+      "epoch": 3.2426426426426427,
+      "grad_norm": 0.7968094944953918,
+      "learning_rate": 0.0004041065569523268,
+      "loss": 9.003502197265625,
+      "step": 4050
+    },
+    {
+      "epoch": 3.2826826826826827,
+      "grad_norm": 0.8398051261901855,
+      "learning_rate": 0.00040148700747181376,
+      "loss": 7.386565551757813,
+      "step": 4100
+    },
+    {
+      "epoch": 3.3227227227227227,
+      "grad_norm": 0.6804362535476685,
+      "learning_rate": 0.0003988409074541256,
+      "loss": 6.411687622070312,
+      "step": 4150
+    },
+    {
+      "epoch": 3.3627627627627628,
+      "grad_norm": 0.5826159119606018,
+      "learning_rate": 0.0003961687206708958,
+      "loss": 5.595321044921875,
+      "step": 4200
+    },
+    {
+      "epoch": 3.402802802802803,
+      "grad_norm": 0.5103576183319092,
+      "learning_rate": 0.0003934709154658834,
+      "loss": 5.196689453125,
+      "step": 4250
+    },
+    {
+      "epoch": 3.442842842842843,
+      "grad_norm": 0.5858429670333862,
+      "learning_rate": 0.00039074796467288833,
+      "loss": 4.971948852539063,
+      "step": 4300
+    },
+    {
+      "epoch": 3.482882882882883,
+      "grad_norm": 0.5835692286491394,
+      "learning_rate": 0.00038800034553287976,
+      "loss": 4.809457397460937,
+      "step": 4350
+    },
+    {
+      "epoch": 3.522922922922923,
+      "grad_norm": 0.5084450244903564,
+      "learning_rate": 0.0003852285396103518,
+      "loss": 4.6604766845703125,
+      "step": 4400
+    },
+    {
+      "epoch": 3.562962962962963,
+      "grad_norm": 0.5399057269096375,
+      "learning_rate": 0.0003824330327089215,
+      "loss": 4.551234436035156,
+      "step": 4450
+    },
+    {
+      "epoch": 3.603003003003003,
+      "grad_norm": 0.4749791920185089,
+      "learning_rate": 0.0003796143147861845,
+      "loss": 4.42959228515625,
+      "step": 4500
+    },
+    {
+      "epoch": 3.603003003003003,
+      "eval_loss": 4.379153728485107,
+      "eval_runtime": 236.0735,
+      "eval_samples_per_second": 83.385,
+      "eval_steps_per_second": 10.425,
+      "step": 4500
+    },
+    {
+      "epoch": 3.643043043043043,
+      "grad_norm": 0.4609665274620056,
+      "learning_rate": 0.000376772879867841,
+      "loss": 4.312644653320312,
+      "step": 4550
+    },
+    {
+      "epoch": 3.683083083083083,
+      "grad_norm": 0.48116734623908997,
+      "learning_rate": 0.0003739092259611112,
+      "loss": 4.297572326660156,
+      "step": 4600
+    },
+    {
+      "epoch": 3.723123123123123,
+      "grad_norm": 0.43770402669906616,
+      "learning_rate": 0.00037102385496745025,
+      "loss": 4.211837158203125,
+      "step": 4650
+    },
+    {
+      "epoch": 3.763163163163163,
+      "grad_norm": 0.44192102551460266,
+      "learning_rate": 0.00036811727259458243,
+      "loss": 4.156084594726562,
+      "step": 4700
+    },
+    {
+      "epoch": 3.803203203203203,
+      "grad_norm": 0.45893535017967224,
+      "learning_rate": 0.0003651899882678681,
+      "loss": 4.092442626953125,
+      "step": 4750
+    },
+    {
+      "epoch": 3.8432432432432435,
+      "grad_norm": 0.4549737870693207,
+      "learning_rate": 0.0003622425150410182,
+      "loss": 4.083527526855469,
+      "step": 4800
+    },
+    {
+      "epoch": 3.8832832832832835,
+      "grad_norm": 0.42553290724754333,
+      "learning_rate": 0.00035927536950617326,
+      "loss": 4.043920288085937,
+      "step": 4850
+    },
+    {
+      "epoch": 3.9233233233233236,
+      "grad_norm": 0.4284481108188629,
+      "learning_rate": 0.00035628907170336295,
+      "loss": 3.9837408447265625,
+      "step": 4900
+    },
+    {
+      "epoch": 3.9633633633633636,
+      "grad_norm": 0.438009649515152,
+      "learning_rate": 0.00035328414502935993,
+      "loss": 3.967952880859375,
+      "step": 4950
+    },
+    {
+      "epoch": 4.003203203203203,
+      "grad_norm": 0.4328106641769409,
+      "learning_rate": 0.0003502611161459465,
+      "loss": 3.903425598144531,
+      "step": 5000
+    },
+    {
+      "epoch": 4.003203203203203,
+      "eval_loss": 3.910961627960205,
+      "eval_runtime": 235.6942,
+      "eval_samples_per_second": 83.519,
+      "eval_steps_per_second": 10.441,
+      "step": 5000
+    },
+    {
+      "epoch": 4.043243243243243,
+      "grad_norm": 0.43771296739578247,
+      "learning_rate": 0.000347220514887609,
+      "loss": 3.749495849609375,
+      "step": 5050
+    },
+    {
+      "epoch": 4.083283283283284,
+      "grad_norm": 0.4155007600784302,
+      "learning_rate": 0.0003441628741686749,
+      "loss": 3.7494277954101562,
+      "step": 5100
+    },
+    {
+      "epoch": 4.123323323323324,
+      "grad_norm": 0.45008692145347595,
+      "learning_rate": 0.0003410887298899118,
+      "loss": 3.7609121704101565,
+      "step": 5150
+    },
+    {
+      "epoch": 4.163363363363364,
+      "grad_norm": 0.4209502935409546,
+      "learning_rate": 0.00033799862084460196,
+      "loss": 3.71232177734375,
+      "step": 5200
+    },
+    {
+      "epoch": 4.203403403403404,
+      "grad_norm": 0.4234021306037903,
+      "learning_rate": 0.00033489308862410974,
+      "loss": 3.7151113891601564,
+      "step": 5250
+    },
+    {
+      "epoch": 4.243443443443444,
+      "grad_norm": 0.4215286374092102,
+      "learning_rate": 0.00033177267752295943,
+      "loss": 3.697460021972656,
+      "step": 5300
+    },
+    {
+      "epoch": 4.283483483483484,
+      "grad_norm": 0.38700735569000244,
+      "learning_rate": 0.0003286379344434388,
+      "loss": 3.68086669921875,
+      "step": 5350
+    },
+    {
+      "epoch": 4.323523523523524,
+      "grad_norm": 0.44765904545783997,
+      "learning_rate": 0.00032548940879974545,
+      "loss": 3.6621414184570313,
+      "step": 5400
+    },
+    {
+      "epoch": 4.363563563563564,
+      "grad_norm": 0.4115334451198578,
+      "learning_rate": 0.00032232765242169346,
+      "loss": 3.6620281982421874,
+      "step": 5450
+    },
+    {
+      "epoch": 4.403603603603604,
+      "grad_norm": 0.40621140599250793,
+      "learning_rate": 0.0003191532194579959,
+      "loss": 3.614684753417969,
+      "step": 5500
+    },
+    {
+      "epoch": 4.403603603603604,
+      "eval_loss": 3.704507350921631,
+      "eval_runtime": 236.3805,
+      "eval_samples_per_second": 83.277,
+      "eval_steps_per_second": 10.411,
+      "step": 5500
+    },
+    {
+      "epoch": 4.443643643643644,
+      "grad_norm": 0.41125524044036865,
+      "learning_rate": 0.0003159666662791416,
+      "loss": 3.634700927734375,
+      "step": 5550
+    },
+    {
+      "epoch": 4.483683683683684,
+      "grad_norm": 0.4052564203739166,
+      "learning_rate": 0.00031276855137988256,
+      "loss": 3.620810241699219,
+      "step": 5600
+    },
+    {
+      "epoch": 4.523723723723724,
+      "grad_norm": 0.40402984619140625,
+      "learning_rate": 0.0003095594352813481,
+      "loss": 3.6102496337890626,
+      "step": 5650
+    },
+    {
+      "epoch": 4.563763763763764,
+      "grad_norm": 0.3992173969745636,
+      "learning_rate": 0.00030633988043280493,
+      "loss": 3.5947637939453125,
+      "step": 5700
+    },
+    {
+      "epoch": 4.603803803803804,
+      "grad_norm": 0.3955991566181183,
+      "learning_rate": 0.00030311045111307885,
+      "loss": 3.5669595336914064,
+      "step": 5750
+    },
+    {
+      "epoch": 4.643843843843844,
+      "grad_norm": 0.37418413162231445,
+      "learning_rate": 0.0002998717133316557,
+      "loss": 3.546644287109375,
+      "step": 5800
+    },
+    {
+      "epoch": 4.683883883883884,
+      "grad_norm": 0.3923473656177521,
+      "learning_rate": 0.00029662423472947896,
+      "loss": 3.5425369262695314,
+      "step": 5850
+    },
+    {
+      "epoch": 4.723923923923924,
+      "grad_norm": 0.3697595000267029,
+      "learning_rate": 0.00029336858447946197,
+      "loss": 3.53588623046875,
+      "step": 5900
+    },
+    {
+      "epoch": 4.763963963963964,
+      "grad_norm": 0.3823640048503876,
+      "learning_rate": 0.0002901053331867307,
+      "loss": 3.5406414794921877,
+      "step": 5950
+    },
+    {
+      "epoch": 4.804004004004004,
+      "grad_norm": 0.4052514433860779,
+      "learning_rate": 0.00028683505278861635,
+      "loss": 3.522510681152344,
+      "step": 6000
+    },
+    {
+      "epoch": 4.804004004004004,
+      "eval_loss": 3.566638231277466,
+      "eval_runtime": 236.1197,
+      "eval_samples_per_second": 83.369,
+      "eval_steps_per_second": 10.423,
+      "step": 6000
+    },
+    {
+      "epoch": 4.844044044044044,
+      "grad_norm": 0.4094746708869934,
+      "learning_rate": 0.0002835583164544139,
+      "loss": 3.519625549316406,
+      "step": 6050
+    },
+    {
+      "epoch": 4.884084084084084,
+      "grad_norm": 0.6515923738479614,
+      "learning_rate": 0.0002802756984849252,
+      "loss": 3.4766189575195314,
+      "step": 6100
+    },
+    {
+      "epoch": 4.924124124124124,
+      "grad_norm": 0.384624719619751,
+      "learning_rate": 0.00027698777421180336,
+      "loss": 3.4937869262695314,
+      "step": 6150
+    },
+    {
+      "epoch": 4.964164164164164,
+      "grad_norm": 0.3783823549747467,
+      "learning_rate": 0.00027369511989671665,
+      "loss": 3.4830267333984377,
+      "step": 6200
+    },
+    {
+      "epoch": 5.004004004004004,
+      "grad_norm": 0.4266754984855652,
+      "learning_rate": 0.00027039831263034916,
+      "loss": 3.453427734375,
+      "step": 6250
+    },
+    {
+      "epoch": 5.044044044044044,
+      "grad_norm": 0.39402705430984497,
+      "learning_rate": 0.0002670979302312569,
+      "loss": 3.2129632568359376,
+      "step": 6300
+    },
+    {
+      "epoch": 5.084084084084084,
+      "grad_norm": 0.4370722472667694,
+      "learning_rate": 0.00026379455114459527,
+      "loss": 3.241674499511719,
+      "step": 6350
+    },
+    {
+      "epoch": 5.124124124124124,
+      "grad_norm": 0.397320419549942,
+      "learning_rate": 0.00026048875434073724,
+      "loss": 3.1959967041015624,
+      "step": 6400
+    },
+    {
+      "epoch": 5.1641641641641645,
+      "grad_norm": 0.4379047751426697,
+      "learning_rate": 0.00025718111921380006,
+      "loss": 3.222423400878906,
+      "step": 6450
+    },
+    {
+      "epoch": 5.2042042042042045,
+      "grad_norm": 0.4231470227241516,
+      "learning_rate": 0.00025387222548009633,
+      "loss": 3.236834716796875,
+      "step": 6500
+    },
+    {
+      "epoch": 5.2042042042042045,
+      "eval_loss": 3.5047855377197266,
+      "eval_runtime": 237.1477,
+      "eval_samples_per_second": 83.007,
+      "eval_steps_per_second": 10.377,
+      "step": 6500
+    },
+    {
+      "epoch": 5.2442442442442445,
+      "grad_norm": 0.40576690435409546,
+      "learning_rate": 0.00025056265307652983,
+      "loss": 3.2533297729492188,
+      "step": 6550
+    },
+    {
+      "epoch": 5.2842842842842845,
+      "grad_norm": 0.40202781558036804,
+      "learning_rate": 0.0002472529820589524,
+      "loss": 3.2079669189453126,
+      "step": 6600
+    },
+    {
+      "epoch": 5.324324324324325,
+      "grad_norm": 0.40235257148742676,
+      "learning_rate": 0.00024394379250049927,
+      "loss": 3.2289459228515627,
+      "step": 6650
+    },
+    {
+      "epoch": 5.364364364364365,
+      "grad_norm": 0.39760297536849976,
+      "learning_rate": 0.00024063566438992237,
+      "loss": 3.222519836425781,
+      "step": 6700
+    },
+    {
+      "epoch": 5.404404404404405,
+      "grad_norm": 0.3901459276676178,
+      "learning_rate": 0.00023732917752993768,
+      "loss": 3.235470886230469,
+      "step": 6750
+    },
+    {
+      "epoch": 5.444444444444445,
+      "grad_norm": 0.4042525291442871,
+      "learning_rate": 0.0002340249114356058,
+      "loss": 3.236663513183594,
+      "step": 6800
+    },
+    {
+      "epoch": 5.484484484484485,
+      "grad_norm": 0.3963824510574341,
+      "learning_rate": 0.00023072344523276218,
+      "loss": 3.2130169677734375,
+      "step": 6850
+    },
+    {
+      "epoch": 5.524524524524525,
+      "grad_norm": 0.4119073450565338,
+      "learning_rate": 0.00022742535755651623,
+      "loss": 3.2359417724609374,
+      "step": 6900
+    },
+    {
+      "epoch": 5.564564564564565,
+      "grad_norm": 0.41091352701187134,
+      "learning_rate": 0.00022413122644983637,
+      "loss": 3.218328552246094,
+      "step": 6950
+    },
+    {
+      "epoch": 5.604604604604605,
+      "grad_norm": 0.37782832980155945,
+      "learning_rate": 0.00022084162926223823,
+      "loss": 3.2080789184570313,
+      "step": 7000
+    },
+    {
+      "epoch": 5.604604604604605,
+      "eval_loss": 3.4369895458221436,
+      "eval_runtime": 235.6375,
+      "eval_samples_per_second": 83.539,
+      "eval_steps_per_second": 10.444,
+      "step": 7000
+    },
+    {
+      "epoch": 5.644644644644645,
+      "grad_norm": 0.4090370833873749,
+      "learning_rate": 0.00021755714254859533,
+      "loss": 3.2288442993164064,
+      "step": 7050
+    },
+    {
+      "epoch": 5.684684684684685,
+      "grad_norm": 0.4288695752620697,
+      "learning_rate": 0.00021427834196808816,
+      "loss": 3.22770751953125,
+      "step": 7100
+    },
+    {
+      "epoch": 5.724724724724725,
+      "grad_norm": 0.3806166648864746,
+      "learning_rate": 0.00021100580218331094,
+      "loss": 3.2031744384765624,
+      "step": 7150
+    },
+    {
+      "epoch": 5.764764764764765,
+      "grad_norm": 0.41686615347862244,
+      "learning_rate": 0.00020774009675955278,
+      "loss": 3.198349609375,
+      "step": 7200
+    },
+    {
+      "epoch": 5.804804804804805,
+      "grad_norm": 0.39290764927864075,
+      "learning_rate": 0.00020448179806427068,
+      "loss": 3.1860992431640627,
+      "step": 7250
+    },
+    {
+      "epoch": 5.844844844844845,
+      "grad_norm": 0.40635761618614197,
+      "learning_rate": 0.0002012314771667734,
+      "loss": 3.2112152099609377,
+      "step": 7300
+    },
+    {
+      "epoch": 5.884884884884885,
+      "grad_norm": 0.3944772779941559,
+      "learning_rate": 0.00019798970373813214,
+      "loss": 3.1969940185546877,
+      "step": 7350
+    },
+    {
+      "epoch": 5.924924924924925,
+      "grad_norm": 0.39625492691993713,
+      "learning_rate": 0.0001947570459513365,
+      "loss": 3.2008709716796875,
+      "step": 7400
+    },
+    {
+      "epoch": 5.964964964964965,
+      "grad_norm": 0.4190053343772888,
+      "learning_rate": 0.0001915340703817131,
+      "loss": 3.2011529541015626,
+      "step": 7450
+    },
+    {
+      "epoch": 6.004804804804805,
+      "grad_norm": 0.48919281363487244,
+      "learning_rate": 0.00018832134190762434,
+      "loss": 3.156895751953125,
+      "step": 7500
+    },
+    {
+      "epoch": 6.004804804804805,
+      "eval_loss": 3.4287805557250977,
+      "eval_runtime": 237.2268,
+      "eval_samples_per_second": 82.98,
+      "eval_steps_per_second": 10.374,
+      "step": 7500
+    },
+    {
+      "epoch": 6.044844844844845,
+      "grad_norm": 0.4277288615703583,
+      "learning_rate": 0.0001851194236114638,
+      "loss": 2.862073974609375,
+      "step": 7550
+    },
+    {
+      "epoch": 6.084884884884885,
+      "grad_norm": 0.4406304955482483,
+      "learning_rate": 0.00018192887668096752,
+      "loss": 2.8927264404296875,
+      "step": 7600
+    },
+    {
+      "epoch": 6.124924924924925,
+      "grad_norm": 0.4504638612270355,
+      "learning_rate": 0.00017875026031085648,
+      "loss": 2.8985806274414063,
+      "step": 7650
+    },
+    {
+      "epoch": 6.164964964964965,
+      "grad_norm": 0.45850783586502075,
+      "learning_rate": 0.0001755841316048289,
+      "loss": 2.907267761230469,
+      "step": 7700
+    },
+    {
+      "epoch": 6.205005005005005,
+      "grad_norm": 0.437261700630188,
+      "learning_rate": 0.000172431045477919,
+      "loss": 2.9213519287109375,
+      "step": 7750
+    },
+    {
+      "epoch": 6.245045045045045,
+      "grad_norm": 0.46647876501083374,
+      "learning_rate": 0.00016929155455923872,
+      "loss": 2.9296710205078127,
+      "step": 7800
+    },
+    {
+      "epoch": 6.285085085085085,
+      "grad_norm": 0.445600301027298,
+      "learning_rate": 0.00016616620909512108,
+      "loss": 2.9163543701171877,
+      "step": 7850
+    },
+    {
+      "epoch": 6.325125125125125,
+      "grad_norm": 0.45171597599983215,
+      "learning_rate": 0.00016305555685268026,
+      "loss": 2.937907409667969,
+      "step": 7900
+    },
+    {
+      "epoch": 6.365165165165165,
+      "grad_norm": 0.44579142332077026,
+      "learning_rate": 0.0001599601430238068,
+      "loss": 2.953569030761719,
+      "step": 7950
+    },
+    {
+      "epoch": 6.405205205205205,
+      "grad_norm": 0.4332555830478668,
+      "learning_rate": 0.00015688051012961395,
+      "loss": 2.922398681640625,
+      "step": 8000
+    },
+    {
+      "epoch": 6.405205205205205,
+      "eval_loss": 3.403954029083252,
+      "eval_runtime": 236.6606,
+      "eval_samples_per_second": 83.178,
+      "eval_steps_per_second": 10.399,
+      "step": 8000
+    },
+    {
+      "epoch": 6.445245245245245,
+      "grad_norm": 0.4661726951599121,
+      "learning_rate": 0.0001538171979253522,
+      "loss": 2.911597900390625,
+      "step": 8050
+    },
+    {
+      "epoch": 6.485285285285285,
+      "grad_norm": 0.442968487739563,
+      "learning_rate": 0.0001507707433058081,
+      "loss": 2.927822265625,
+      "step": 8100
+    },
+    {
+      "epoch": 6.525325325325325,
+      "grad_norm": 0.478756844997406,
+      "learning_rate": 0.00014774168021120516,
+      "loss": 2.9317803955078126,
+      "step": 8150
+    },
+    {
+      "epoch": 6.565365365365365,
+      "grad_norm": 0.45225295424461365,
+      "learning_rate": 0.00014473053953362208,
+      "loss": 2.931801452636719,
+      "step": 8200
+    },
+    {
+      "epoch": 6.605405405405405,
+      "grad_norm": 0.49030792713165283,
+      "learning_rate": 0.0001417378490239455,
+      "loss": 2.9215069580078126,
+      "step": 8250
+    },
+    {
+      "epoch": 6.6454454454454455,
+      "grad_norm": 0.46768876910209656,
+      "learning_rate": 0.00013876413319937315,
+      "loss": 2.9123870849609377,
+      "step": 8300
+    },
+    {
+      "epoch": 6.6854854854854855,
+      "grad_norm": 0.46513912081718445,
+      "learning_rate": 0.00013580991325148323,
+      "loss": 2.9105740356445313,
+      "step": 8350
+    },
+    {
+      "epoch": 6.7255255255255255,
+      "grad_norm": 0.4525302052497864,
+      "learning_rate": 0.00013287570695488826,
+      "loss": 2.909984130859375,
+      "step": 8400
+    },
+    {
+      "epoch": 6.7655655655655655,
+      "grad_norm": 0.4305197596549988,
+      "learning_rate": 0.0001299620285764856,
+      "loss": 2.899495849609375,
+      "step": 8450
+    },
+    {
+      "epoch": 6.805605605605606,
+      "grad_norm": 0.4248438775539398,
+      "learning_rate": 0.00012706938878532484,
+      "loss": 2.9081976318359377,
+      "step": 8500
+    },
+    {
+      "epoch": 6.805605605605606,
+      "eval_loss": 3.3699452877044678,
+      "eval_runtime": 237.0014,
+      "eval_samples_per_second": 83.059,
+      "eval_steps_per_second": 10.384,
+      "step": 8500
+    },
+    {
+      "epoch": 6.845645645645646,
+      "grad_norm": 0.5702593922615051,
+      "learning_rate": 0.00012419829456310392,
+      "loss": 2.9158230590820313,
+      "step": 8550
+    },
+    {
+      "epoch": 6.885685685685686,
+      "grad_norm": 0.4605788290500641,
+      "learning_rate": 0.00012134924911531359,
+      "loss": 2.8952603149414062,
+      "step": 8600
+    },
+    {
+      "epoch": 6.925725725725726,
+      "grad_norm": 0.4367736279964447,
+      "learning_rate": 0.00011852275178304123,
+      "loss": 2.9171136474609374,
+      "step": 8650
+    },
+    {
+      "epoch": 6.965765765765766,
+      "grad_norm": 0.43834176659584045,
+      "learning_rate": 0.00011571929795545438,
+      "loss": 2.9009600830078126,
+      "step": 8700
+    },
+    {
+      "epoch": 7.005605605605606,
+      "grad_norm": 0.5653858184814453,
+      "learning_rate": 0.00011293937898297496,
+      "loss": 2.8570040893554687,
+      "step": 8750
+    },
+    {
+      "epoch": 7.045645645645646,
+      "grad_norm": 0.48288777470588684,
+      "learning_rate": 0.00011018348209116297,
+      "loss": 2.59486572265625,
+      "step": 8800
+    },
+    {
+      "epoch": 7.085685685685686,
+      "grad_norm": 0.48602017760276794,
+      "learning_rate": 0.00010745209029532161,
+      "loss": 2.60861328125,
+      "step": 8850
+    },
+    {
+      "epoch": 7.125725725725726,
+      "grad_norm": 0.5394498109817505,
+      "learning_rate": 0.00010474568231584194,
+      "loss": 2.6064111328125,
+      "step": 8900
+    },
+    {
+      "epoch": 7.165765765765766,
+      "grad_norm": 0.5203927159309387,
+      "learning_rate": 0.00010206473249429843,
+      "loss": 2.6003097534179687,
+      "step": 8950
+    },
+    {
+      "epoch": 7.205805805805806,
+      "grad_norm": 0.5133360624313354,
+      "learning_rate": 9.940971071031388e-05,
+      "loss": 2.5918447875976565,
+      "step": 9000
+    },
+    {
+      "epoch": 7.205805805805806,
+      "eval_loss": 3.4392001628875732,
+      "eval_runtime": 237.0678,
+      "eval_samples_per_second": 83.035,
+      "eval_steps_per_second": 10.381,
+      "step": 9000
+    },
+    {
+      "epoch": 7.245845845845846,
+      "grad_norm": 0.5268146991729736,
+      "learning_rate": 9.678108229920465e-05,
+      "loss": 2.6212808227539064,
+      "step": 9050
+    },
+    {
+      "epoch": 7.285885885885886,
+      "grad_norm": 0.5330535173416138,
+      "learning_rate": 9.417930797042384e-05,
+      "loss": 2.595316162109375,
+      "step": 9100
+    },
+    {
+      "epoch": 7.325925925925926,
+      "grad_norm": 0.552038311958313,
+      "learning_rate": 9.160484372681411e-05,
+      "loss": 2.61090576171875,
+      "step": 9150
+    },
+    {
+      "epoch": 7.365965965965966,
+      "grad_norm": 0.5219402313232422,
+      "learning_rate": 8.90581407846861e-05,
+      "loss": 2.6292263793945314,
+      "step": 9200
+    },
+    {
+      "epoch": 7.406006006006006,
+      "grad_norm": 0.5238960385322571,
+      "learning_rate": 8.653964549473512e-05,
+      "loss": 2.6288876342773437,
+      "step": 9250
+    },
+    {
+      "epoch": 7.446046046046046,
+      "grad_norm": 0.5215076208114624,
+      "learning_rate": 8.404979926381154e-05,
+      "loss": 2.629596862792969,
+      "step": 9300
+    },
+    {
+      "epoch": 7.486086086086086,
+      "grad_norm": 0.5718568563461304,
+      "learning_rate": 8.158903847755661e-05,
+      "loss": 2.601263122558594,
+      "step": 9350
+    },
+    {
+      "epoch": 7.526126126126126,
+      "grad_norm": 0.5244564414024353,
+      "learning_rate": 7.915779442391924e-05,
+      "loss": 2.6586846923828125,
+      "step": 9400
+    },
+    {
+      "epoch": 7.566166166166166,
+      "grad_norm": 0.5422726273536682,
+      "learning_rate": 7.67564932175657e-05,
+      "loss": 2.623194580078125,
+      "step": 9450
+    },
+    {
+      "epoch": 7.606206206206206,
+      "grad_norm": 0.5429977774620056,
+      "learning_rate": 7.438555572519621e-05,
+      "loss": 2.619925842285156,
+      "step": 9500
+    },
+    {
+      "epoch": 7.606206206206206,
+      "eval_loss": 3.4265189170837402,
+      "eval_runtime": 236.5041,
+      "eval_samples_per_second": 83.233,
+      "eval_steps_per_second": 10.406,
+      "step": 9500
+    },
+    {
+      "epoch": 7.646246246246246,
+      "grad_norm": 0.5386999249458313,
+      "learning_rate": 7.204539749178094e-05,
+      "loss": 2.637367858886719,
+      "step": 9550
+    },
+    {
+      "epoch": 7.686286286286286,
+      "grad_norm": 0.518723726272583,
+      "learning_rate": 6.973642866772973e-05,
+      "loss": 2.627269592285156,
+      "step": 9600
+    },
+    {
+      "epoch": 7.726326326326326,
+      "grad_norm": 0.5138410329818726,
+      "learning_rate": 6.74590539370058e-05,
+      "loss": 2.6370574951171877,
+      "step": 9650
+    },
+    {
+      "epoch": 7.766366366366366,
+      "grad_norm": 0.5250265002250671,
+      "learning_rate": 6.521367244619942e-05,
+      "loss": 2.63766845703125,
+      "step": 9700
+    },
+    {
+      "epoch": 7.806406406406406,
+      "grad_norm": 0.5369194149971008,
+      "learning_rate": 6.300067773456983e-05,
+      "loss": 2.625033264160156,
+      "step": 9750
+    },
+    {
+      "epoch": 7.846446446446446,
+      "grad_norm": 0.536523163318634,
+      "learning_rate": 6.082045766507213e-05,
+      "loss": 2.63074462890625,
+      "step": 9800
+    },
+    {
+      "epoch": 7.886486486486486,
+      "grad_norm": 0.5119531154632568,
+      "learning_rate": 5.8673394356377474e-05,
+      "loss": 2.653492126464844,
+      "step": 9850
+    },
+    {
+      "epoch": 7.926526526526526,
+      "grad_norm": 0.5774253606796265,
+      "learning_rate": 5.6559864115901e-05,
+      "loss": 2.6246636962890624,
+      "step": 9900
+    },
+    {
+      "epoch": 7.966566566566566,
+      "grad_norm": 0.5321469306945801,
+      "learning_rate": 5.448023737384744e-05,
+      "loss": 2.6052349853515624,
+      "step": 9950
+    },
+    {
+      "epoch": 8.006406406406406,
+      "grad_norm": 0.576283872127533,
+      "learning_rate": 5.243487861828802e-05,
+      "loss": 2.5904965209960937,
+      "step": 10000
+    },
+    {
+      "epoch": 8.006406406406406,
+      "eval_loss": 3.4888463020324707,
+      "eval_runtime": 236.9925,
+      "eval_samples_per_second": 83.062,
+      "eval_steps_per_second": 10.384,
+      "step": 10000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 12490,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0738938356537754e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b06587b0bc69f524cde3061d77fd09bc473e0f46d4bfe76becdc179a84f8c0e4
-size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:86ddcc39c2e432cced0213ba777fee5802b9462879abc1b1e88fa34ebf71af14
+size 5265