Training in progress, step 500, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/config.json +4 -4
last-checkpoint/generation_config.json +3 -3
last-checkpoint/model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +1 -4
last-checkpoint/trainer_state.json +362 -11
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -5,10 +5,10 @@
     "GPT2LMHeadModel"
   ],
   "attn_pdrop": 0.0,
-  "bos_token_id": 1,
   "dtype": "float32",
   "embd_pdrop": 0.0,
-  "eos_token_id": 2,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
@@ -18,7 +18,7 @@
   "n_inner": 3072,
   "n_layer": 8,
   "n_positions": 1024,
-  "pad_token_id": 3,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.0,
   "scale_attn_by_inverse_layer_idx": false,
@@ -31,5 +31,5 @@
   "tie_word_embeddings": true,
   "transformers_version": "5.0.0",
   "use_cache": false,
-  "vocab_size": 4
 }

     "GPT2LMHeadModel"
   ],
   "attn_pdrop": 0.0,
+  "bos_token_id": 2,
   "dtype": "float32",
   "embd_pdrop": 0.0,
+  "eos_token_id": 3,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
   "n_inner": 3072,
   "n_layer": 8,
   "n_positions": 1024,
+  "pad_token_id": 0,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.0,
   "scale_attn_by_inverse_layer_idx": false,
   "tie_word_embeddings": true,
   "transformers_version": "5.0.0",
   "use_cache": false,
+  "vocab_size": 32000
 }

last-checkpoint/generation_config.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
   "_from_model_config": true,
-  "bos_token_id": 1,
   "eos_token_id": [
-    2
   ],
   "output_attentions": false,
   "output_hidden_states": false,
-  "pad_token_id": 3,
   "transformers_version": "5.0.0",
   "use_cache": true
 }

 {
   "_from_model_config": true,
+  "bos_token_id": 2,
   "eos_token_id": [
+    3
   ],
   "output_attentions": false,
   "output_hidden_states": false,
+  "pad_token_id": 0,
   "transformers_version": "5.0.0",
   "use_cache": true
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e7506a1280aec2dd18c1213ed1020dae2e07f4f943a5bd4dd04540876174160
-size 229986128

 version https://git-lfs.github.com/spec/v1
+oid sha256:87ff9a10f70d200b2c856dee103d85c0b4769807377164ae058876c9b2f8cdf4
+size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8570213bcbaacf39c48f95d9aef6027fc1317ef916ca936ef3f3e3b83eb71b21
-size 122063307

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3e3d47782f2acc46ebaf4d2a3bfa3f0989afdba6a7eed3d7d950f2b764c9119
+size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61c19bab1174704a4a4441475683bf1270277af15d2e2c95e964789128e482c4
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a9464afe392ee166598218bbc5440e93bb5f6227028ba0c26fc8e4fdcf73ae8
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2458121b795ce86cf99025460230b02abd4a71e9c5777618f7febb360b86c2e1
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d6f69db244377919464a655cd8dc38a3ecd36738e8ab7fd789261995d39f57a
 size 1465

last-checkpoint/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -1,13 +1,10 @@
 {
-  "add_prefix_space": null,
   "backend": "tokenizers",
   "bos_token": "<s>",
-  "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "is_local": true,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "tokenizer_class": "TokenizersBackend",
-  "unk_token": "<unk>",
-  "use_default_system_prompt": false
 }

 {
   "backend": "tokenizers",
   "bos_token": "<s>",
   "eos_token": "</s>",
   "is_local": true,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "tokenizer_class": "TokenizersBackend",
+  "unk_token": "<unk>"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,30 +2,381 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.14285714285714285,
-      "grad_norm": 78.03356170654297,
       "learning_rate": 0.0,
-      "loss": 1.7032254934310913,
       "step": 1
     },
     {
-      "epoch": 1.4285714285714286,
-      "grad_norm": 45.858306884765625,
       "learning_rate": 1.3499999999999998e-06,
-      "loss": 1.292690912882487,
       "step": 10
     }
   ],
   "logging_steps": 10,
-  "max_steps": 14,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
@@ -36,12 +387,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 440368147464192.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08447372867038351,
   "eval_steps": 500,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.00016894745734076703,
+      "grad_norm": 6.621576309204102,
       "learning_rate": 0.0,
+      "loss": 10.540443420410156,
       "step": 1
     },
     {
+      "epoch": 0.0016894745734076701,
+      "grad_norm": 6.755827903747559,
       "learning_rate": 1.3499999999999998e-06,
+      "loss": 10.498292711046007,
       "step": 10
+    },
+    {
+      "epoch": 0.0033789491468153403,
+      "grad_norm": 5.475645542144775,
+      "learning_rate": 2.85e-06,
+      "loss": 10.21649169921875,
+      "step": 20
+    },
+    {
+      "epoch": 0.00506842372022301,
+      "grad_norm": 2.392394781112671,
+      "learning_rate": 4.35e-06,
+      "loss": 9.751205444335938,
+      "step": 30
+    },
+    {
+      "epoch": 0.0067578982936306806,
+      "grad_norm": 2.019033670425415,
+      "learning_rate": 5.85e-06,
+      "loss": 9.445993041992187,
+      "step": 40
+    },
+    {
+      "epoch": 0.00844737286703835,
+      "grad_norm": 1.1508617401123047,
+      "learning_rate": 7.35e-06,
+      "loss": 9.269256591796875,
+      "step": 50
+    },
+    {
+      "epoch": 0.01013684744044602,
+      "grad_norm": 0.9643108248710632,
+      "learning_rate": 8.849999999999998e-06,
+      "loss": 9.148248291015625,
+      "step": 60
+    },
+    {
+      "epoch": 0.011826322013853691,
+      "grad_norm": 0.9441804885864258,
+      "learning_rate": 1.035e-05,
+      "loss": 9.042961120605469,
+      "step": 70
+    },
+    {
+      "epoch": 0.013515796587261361,
+      "grad_norm": 0.8737426996231079,
+      "learning_rate": 1.1849999999999998e-05,
+      "loss": 8.958677673339844,
+      "step": 80
+    },
+    {
+      "epoch": 0.015205271160669031,
+      "grad_norm": 0.7889962792396545,
+      "learning_rate": 1.3349999999999998e-05,
+      "loss": 8.854808044433593,
+      "step": 90
+    },
+    {
+      "epoch": 0.0168947457340767,
+      "grad_norm": 0.8155699968338013,
+      "learning_rate": 1.485e-05,
+      "loss": 8.736964416503906,
+      "step": 100
+    },
+    {
+      "epoch": 0.018584220307484373,
+      "grad_norm": 0.686811625957489,
+      "learning_rate": 1.6349999999999998e-05,
+      "loss": 8.659473419189453,
+      "step": 110
+    },
+    {
+      "epoch": 0.02027369488089204,
+      "grad_norm": 0.6954357624053955,
+      "learning_rate": 1.7849999999999997e-05,
+      "loss": 8.550489807128907,
+      "step": 120
+    },
+    {
+      "epoch": 0.021963169454299714,
+      "grad_norm": 0.6710366010665894,
+      "learning_rate": 1.935e-05,
+      "loss": 8.454399108886719,
+      "step": 130
+    },
+    {
+      "epoch": 0.023652644027707382,
+      "grad_norm": 0.5743041634559631,
+      "learning_rate": 2.085e-05,
+      "loss": 8.361704254150391,
+      "step": 140
+    },
+    {
+      "epoch": 0.025342118601115054,
+      "grad_norm": 0.5449837446212769,
+      "learning_rate": 2.2349999999999998e-05,
+      "loss": 8.286068725585938,
+      "step": 150
+    },
+    {
+      "epoch": 0.027031593174522722,
+      "grad_norm": 0.6015759706497192,
+      "learning_rate": 2.3849999999999997e-05,
+      "loss": 8.23370819091797,
+      "step": 160
+    },
+    {
+      "epoch": 0.028721067747930394,
+      "grad_norm": 0.5669003129005432,
+      "learning_rate": 2.535e-05,
+      "loss": 8.169088745117188,
+      "step": 170
+    },
+    {
+      "epoch": 0.030410542321338063,
+      "grad_norm": 0.42918503284454346,
+      "learning_rate": 2.6849999999999995e-05,
+      "loss": 8.121391296386719,
+      "step": 180
+    },
+    {
+      "epoch": 0.03210001689474573,
+      "grad_norm": 0.5449455976486206,
+      "learning_rate": 2.8349999999999998e-05,
+      "loss": 8.079780578613281,
+      "step": 190
+    },
+    {
+      "epoch": 0.0337894914681534,
+      "grad_norm": 0.47680142521858215,
+      "learning_rate": 2.985e-05,
+      "loss": 8.047093200683594,
+      "step": 200
+    },
+    {
+      "epoch": 0.035478966041561075,
+      "grad_norm": 0.46382999420166016,
+      "learning_rate": 3.1349999999999996e-05,
+      "loss": 7.9976959228515625,
+      "step": 210
+    },
+    {
+      "epoch": 0.03716844061496875,
+      "grad_norm": 0.4039631485939026,
+      "learning_rate": 3.285e-05,
+      "loss": 7.981047821044922,
+      "step": 220
+    },
+    {
+      "epoch": 0.03885791518837641,
+      "grad_norm": 0.3981921374797821,
+      "learning_rate": 3.435e-05,
+      "loss": 7.976937103271484,
+      "step": 230
+    },
+    {
+      "epoch": 0.04054738976178408,
+      "grad_norm": 0.6785397529602051,
+      "learning_rate": 3.585e-05,
+      "loss": 7.935275268554688,
+      "step": 240
+    },
+    {
+      "epoch": 0.042236864335191755,
+      "grad_norm": 0.47772353887557983,
+      "learning_rate": 3.735e-05,
+      "loss": 7.9202117919921875,
+      "step": 250
+    },
+    {
+      "epoch": 0.04392633890859943,
+      "grad_norm": 0.4412820041179657,
+      "learning_rate": 3.8849999999999996e-05,
+      "loss": 7.917314910888672,
+      "step": 260
+    },
+    {
+      "epoch": 0.0456158134820071,
+      "grad_norm": 0.49126797914505005,
+      "learning_rate": 4.035e-05,
+      "loss": 7.892892456054687,
+      "step": 270
+    },
+    {
+      "epoch": 0.047305288055414764,
+      "grad_norm": 0.41135749220848083,
+      "learning_rate": 4.185e-05,
+      "loss": 7.873385620117188,
+      "step": 280
+    },
+    {
+      "epoch": 0.048994762628822436,
+      "grad_norm": 0.3579074442386627,
+      "learning_rate": 4.334999999999999e-05,
+      "loss": 7.852500915527344,
+      "step": 290
+    },
+    {
+      "epoch": 0.05068423720223011,
+      "grad_norm": 0.47334495186805725,
+      "learning_rate": 4.484999999999999e-05,
+      "loss": 7.833164215087891,
+      "step": 300
+    },
+    {
+      "epoch": 0.05237371177563778,
+      "grad_norm": 0.5246961712837219,
+      "learning_rate": 4.6349999999999995e-05,
+      "loss": 7.8142242431640625,
+      "step": 310
+    },
+    {
+      "epoch": 0.054063186349045445,
+      "grad_norm": 0.4747469127178192,
+      "learning_rate": 4.785e-05,
+      "loss": 7.786991119384766,
+      "step": 320
+    },
+    {
+      "epoch": 0.055752660922453116,
+      "grad_norm": 0.5847325921058655,
+      "learning_rate": 4.935e-05,
+      "loss": 7.7430572509765625,
+      "step": 330
+    },
+    {
+      "epoch": 0.05744213549586079,
+      "grad_norm": 0.5468484163284302,
+      "learning_rate": 5.0849999999999996e-05,
+      "loss": 7.7266845703125,
+      "step": 340
+    },
+    {
+      "epoch": 0.05913161006926846,
+      "grad_norm": 0.5309090614318848,
+      "learning_rate": 5.234999999999999e-05,
+      "loss": 7.715785217285156,
+      "step": 350
+    },
+    {
+      "epoch": 0.060821084642676125,
+      "grad_norm": 0.45586320757865906,
+      "learning_rate": 5.3849999999999994e-05,
+      "loss": 7.676018524169922,
+      "step": 360
+    },
+    {
+      "epoch": 0.0625105592160838,
+      "grad_norm": 0.6824954748153687,
+      "learning_rate": 5.535e-05,
+      "loss": 7.658743286132813,
+      "step": 370
+    },
+    {
+      "epoch": 0.06420003378949146,
+      "grad_norm": 0.4770432710647583,
+      "learning_rate": 5.684999999999999e-05,
+      "loss": 7.6480712890625,
+      "step": 380
+    },
+    {
+      "epoch": 0.06588950836289914,
+      "grad_norm": 0.4217078387737274,
+      "learning_rate": 5.8349999999999995e-05,
+      "loss": 7.612128448486328,
+      "step": 390
+    },
+    {
+      "epoch": 0.0675789829363068,
+      "grad_norm": 0.6638941168785095,
+      "learning_rate": 5.985e-05,
+      "loss": 7.605058288574218,
+      "step": 400
+    },
+    {
+      "epoch": 0.06926845750971448,
+      "grad_norm": 0.5383668541908264,
+      "learning_rate": 6.134999999999999e-05,
+      "loss": 7.576911926269531,
+      "step": 410
+    },
+    {
+      "epoch": 0.07095793208312215,
+      "grad_norm": 0.6174895763397217,
+      "learning_rate": 6.285e-05,
+      "loss": 7.5539703369140625,
+      "step": 420
+    },
+    {
+      "epoch": 0.07264740665652981,
+      "grad_norm": 0.5723831653594971,
+      "learning_rate": 6.434999999999999e-05,
+      "loss": 7.541629028320313,
+      "step": 430
+    },
+    {
+      "epoch": 0.0743368812299375,
+      "grad_norm": 0.6536343693733215,
+      "learning_rate": 6.584999999999999e-05,
+      "loss": 7.522487640380859,
+      "step": 440
+    },
+    {
+      "epoch": 0.07602635580334516,
+      "grad_norm": 0.654776394367218,
+      "learning_rate": 6.735e-05,
+      "loss": 7.4989463806152346,
+      "step": 450
+    },
+    {
+      "epoch": 0.07771583037675282,
+      "grad_norm": 0.865844190120697,
+      "learning_rate": 6.884999999999999e-05,
+      "loss": 7.476695251464844,
+      "step": 460
+    },
+    {
+      "epoch": 0.0794053049501605,
+      "grad_norm": 0.5125293731689453,
+      "learning_rate": 7.034999999999999e-05,
+      "loss": 7.4570671081542965,
+      "step": 470
+    },
+    {
+      "epoch": 0.08109477952356817,
+      "grad_norm": 0.5413561463356018,
+      "learning_rate": 7.184999999999998e-05,
+      "loss": 7.443260192871094,
+      "step": 480
+    },
+    {
+      "epoch": 0.08278425409697585,
+      "grad_norm": 0.5976828932762146,
+      "learning_rate": 7.335e-05,
+      "loss": 7.403485107421875,
+      "step": 490
+    },
+    {
+      "epoch": 0.08447372867038351,
+      "grad_norm": 0.6476218700408936,
+      "learning_rate": 7.484999999999999e-05,
+      "loss": 7.4032142639160154,
+      "step": 500
+    },
+    {
+      "epoch": 0.08447372867038351,
+      "eval_loss": 7.389806747436523,
+      "eval_runtime": 8.5684,
+      "eval_samples_per_second": 116.708,
+      "eval_steps_per_second": 2.451,
+      "step": 500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 11838,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.6722841042944e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b2c5bf738d3dfdf4bb29b32f549e85540e511a9724f3a1b5d213bbd748c534c
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:fce02471cb82f83442a696c0b3bab66a52bc0f41341df1b015701dd7299e8f59
 size 5201