Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

latest +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
rng_state_2.pth +1 -1
rng_state_3.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +1 -7
tokenizer_config.json +1 -1
trainer_state.json +524 -159
training_args.bin +1 -1

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step600~~


1	+ global_step1000

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cf9bfd707812d72f5a2f40c45ba5c2ade438173337e1c29834fd3e3037011ff
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:e879af4cfa1deedcfcbfbc79c36f3b79e64cfeb25e69353f59f22fbbed30b4b2
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b975c10a07b708e742e7cb498fcced0a973fbd8859b789e4dfe3301444028446
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a6bbeaab087a68ed068c163998873e84898552a6dd7657797aa8e18dd6e37c9
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5ef815689ef6c0bfa2fae21d058410ddac52f6dfa497f61ce0528c0048e28ca
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:940e1d12d2759eb1985ee34c381129f7669b5e7c9efa0fe113b07ae8e3d703f5
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb613ac98d3bc9000f0580b9a04c39b421463de536c85e884bc163960196f35
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:63b91ba3198a47e3c90a19a1e47dd4672c7a645b066c6f451d99e859350ba8db
 size 1089994880

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de9d8745000adb7215ca2521877edd5f094afa53a74774ac8b3b63564f5f3057
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c235c10397ca3fb3b82475883c48d3bb786206feaee53c2199c913179faf1fb
 size 15429

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e2026ab04e5d49d3c8b494900054aef11e6e952a7529a1b927d1dccc8ad5fe6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:937bfac24cd2fe886a72cb180e9d726f8629acaf1e31b2beab1f7a03381ca0ca
 size 15429

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acf8ba155a6d9b407b1f2ecfea487928997ad3435515ffd02fa7f8b6b705e24e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee0687693332dd9f28a675c2a9f27590ae650095d80dac61354fce4437e7f9de
 size 15429

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2f2069bbf3d6817bcbd84d46ca0b94f0c93abcc2a02a30fca9f617c28b5b80
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffb4dab4ba8c60d5f5c48a1048c1ecc4e949aff462fd8340d7ad1a380fc12fdd
 size 15429

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaf33a5037307809cc6622bc68eb6bedd2e4cb1aa2db28d8b3d6793d8a9e807d
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f0808edf6ea4e8e5c26a90c425f750ca5d24bb19176e28af0a072f41d725a49
 size 1465

special_tokens_map.json CHANGED Viewed

@@ -21,11 +21,5 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|im_end|>"
 }

tokenizer_config.json CHANGED Viewed

@@ -201,7 +201,7 @@
   "extra_special_tokens": {},
   "model_max_length": 131072,
   "pad_token": "<|im_end|>",
-  "padding_size": "left",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

   "extra_special_tokens": {},
   "model_max_length": 131072,
   "pad_token": "<|im_end|>",
+  "padding_size": "right",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

trainer_state.json CHANGED Viewed

@@ -1,565 +1,930 @@
 {
-  "best_global_step": 600,
-  "best_metric": 1.239326000213623,
-  "best_model_checkpoint": "./chess_format_aligned/checkpoint-600",
-  "epoch": 60.0,
   "eval_steps": 75,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 23.66467355431497,
       "learning_rate": 0.0018,
-      "loss": 3.5194,
       "num_tokens": 223219.0,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "grad_norm": 18.97579249164185,
       "learning_rate": 0.0038,
-      "loss": 3.2502,
       "num_tokens": 445754.0,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.499377192523346,
       "learning_rate": 0.0058,
-      "loss": 2.7908,
       "num_tokens": 668444.0,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.822190158164025,
       "learning_rate": 0.0078000000000000005,
-      "loss": 2.3016,
       "num_tokens": 890313.0,
       "step": 40
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.814810084102039,
       "learning_rate": 0.0098,
-      "loss": 1.9667,
       "num_tokens": 1113242.0,
       "step": 50
     },
     {
       "epoch": 6.0,
-      "grad_norm": 3.0120886424271407,
       "learning_rate": 0.009905263157894736,
-      "loss": 1.7411,
       "num_tokens": 1335423.0,
       "step": 60
     },
     {
       "epoch": 7.0,
-      "grad_norm": 2.2025365118435607,
       "learning_rate": 0.0098,
-      "loss": 1.5805,
       "num_tokens": 1555919.0,
       "step": 70
     },
     {
       "epoch": 7.5,
-      "eval_loss": 1.6486115455627441,
       "eval_num_tokens": 1666144.0,
-      "eval_runtime": 0.3228,
-      "eval_samples_per_second": 83.636,
-      "eval_steps_per_second": 3.098,
       "step": 75
     },
     {
       "epoch": 8.0,
-      "grad_norm": 1.8389871017060493,
       "learning_rate": 0.009694736842105263,
-      "loss": 1.4891,
       "num_tokens": 1777537.0,
       "step": 80
     },
     {
       "epoch": 9.0,
-      "grad_norm": 1.6813718221774028,
       "learning_rate": 0.009589473684210526,
-      "loss": 1.4132,
       "num_tokens": 1998166.0,
       "step": 90
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.553358734659622,
       "learning_rate": 0.00948421052631579,
-      "loss": 1.3635,
       "num_tokens": 2219390.0,
       "step": 100
     },
     {
       "epoch": 11.0,
-      "grad_norm": 1.492953948601938,
       "learning_rate": 0.009378947368421053,
-      "loss": 1.3262,
       "num_tokens": 2443706.0,
       "step": 110
     },
     {
       "epoch": 12.0,
-      "grad_norm": 1.4241915097241344,
       "learning_rate": 0.009273684210526316,
-      "loss": 1.2886,
       "num_tokens": 2666784.0,
       "step": 120
     },
     {
       "epoch": 13.0,
-      "grad_norm": 1.5227222988900821,
       "learning_rate": 0.00916842105263158,
-      "loss": 1.2587,
       "num_tokens": 2888489.0,
       "step": 130
     },
     {
       "epoch": 14.0,
-      "grad_norm": 1.4868248858393083,
       "learning_rate": 0.009063157894736842,
-      "loss": 1.2396,
       "num_tokens": 3110642.0,
       "step": 140
     },
     {
       "epoch": 15.0,
-      "grad_norm": 1.7084794653006408,
       "learning_rate": 0.008957894736842106,
-      "loss": 1.2227,
       "num_tokens": 3334174.0,
       "step": 150
     },
     {
       "epoch": 15.0,
-      "eval_loss": 1.3719849586486816,
       "eval_num_tokens": 3334174.0,
-      "eval_runtime": 0.3187,
-      "eval_samples_per_second": 84.722,
-      "eval_steps_per_second": 3.138,
       "step": 150
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.5476765935969736,
       "learning_rate": 0.008852631578947369,
-      "loss": 1.2045,
       "num_tokens": 3556307.0,
       "step": 160
     },
     {
       "epoch": 17.0,
-      "grad_norm": 1.5643988157955648,
       "learning_rate": 0.008747368421052632,
-      "loss": 1.1964,
       "num_tokens": 3777446.0,
       "step": 170
     },
     {
       "epoch": 18.0,
-      "grad_norm": 1.6887729685493036,
       "learning_rate": 0.008642105263157894,
-      "loss": 1.185,
       "num_tokens": 3999051.0,
       "step": 180
     },
     {
       "epoch": 19.0,
-      "grad_norm": 1.5181448057389182,
       "learning_rate": 0.008536842105263159,
-      "loss": 1.1795,
       "num_tokens": 4221841.0,
       "step": 190
     },
     {
       "epoch": 20.0,
-      "grad_norm": 1.8257922196416516,
       "learning_rate": 0.008431578947368422,
-      "loss": 1.1638,
       "num_tokens": 4443930.0,
       "step": 200
     },
     {
       "epoch": 21.0,
-      "grad_norm": 1.776889058864946,
       "learning_rate": 0.008326315789473683,
-      "loss": 1.165,
       "num_tokens": 4665914.0,
       "step": 210
     },
     {
       "epoch": 22.0,
-      "grad_norm": 1.728259368892959,
       "learning_rate": 0.008221052631578948,
-      "loss": 1.1465,
       "num_tokens": 4887092.0,
       "step": 220
     },
     {
       "epoch": 22.5,
-      "eval_loss": 1.312962293624878,
       "eval_num_tokens": 4995523.0,
-      "eval_runtime": 0.3193,
-      "eval_samples_per_second": 84.567,
-      "eval_steps_per_second": 3.132,
       "step": 225
     },
     {
       "epoch": 23.0,
-      "grad_norm": 1.7248452098513343,
       "learning_rate": 0.008115789473684212,
-      "loss": 1.1489,
       "num_tokens": 5109590.0,
       "step": 230
     },
     {
       "epoch": 24.0,
-      "grad_norm": 1.7410335554485061,
       "learning_rate": 0.008010526315789473,
-      "loss": 1.1396,
       "num_tokens": 5331354.0,
       "step": 240
     },
     {
       "epoch": 25.0,
-      "grad_norm": 2.1297185700103336,
       "learning_rate": 0.007905263157894736,
-      "loss": 1.1435,
       "num_tokens": 5555613.0,
       "step": 250
     },
     {
       "epoch": 26.0,
-      "grad_norm": 1.9138585710908027,
       "learning_rate": 0.0078000000000000005,
-      "loss": 1.1313,
       "num_tokens": 5777356.0,
       "step": 260
     },
     {
       "epoch": 27.0,
-      "grad_norm": 1.9212944582494524,
       "learning_rate": 0.007694736842105263,
-      "loss": 1.1313,
       "num_tokens": 6001492.0,
       "step": 270
     },
     {
       "epoch": 28.0,
-      "grad_norm": 1.5807029569566686,
       "learning_rate": 0.007589473684210526,
-      "loss": 1.1158,
       "num_tokens": 6223232.0,
       "step": 280
     },
     {
       "epoch": 29.0,
-      "grad_norm": 1.5146177252013164,
       "learning_rate": 0.00748421052631579,
-      "loss": 1.1208,
       "num_tokens": 6447091.0,
       "step": 290
     },
     {
       "epoch": 30.0,
-      "grad_norm": 1.3929929601301219,
       "learning_rate": 0.007378947368421053,
-      "loss": 1.1057,
       "num_tokens": 6668779.0,
       "step": 300
     },
     {
       "epoch": 30.0,
-      "eval_loss": 1.2842637300491333,
       "eval_num_tokens": 6668779.0,
-      "eval_runtime": 0.3216,
-      "eval_samples_per_second": 83.962,
-      "eval_steps_per_second": 3.11,
       "step": 300
     },
     {
       "epoch": 31.0,
-      "grad_norm": 1.633018099421827,
       "learning_rate": 0.007273684210526316,
-      "loss": 1.1048,
       "num_tokens": 6889939.0,
       "step": 310
     },
     {
       "epoch": 32.0,
-      "grad_norm": 1.6493326218561297,
       "learning_rate": 0.00716842105263158,
-      "loss": 1.1072,
       "num_tokens": 7113839.0,
       "step": 320
     },
     {
       "epoch": 33.0,
-      "grad_norm": 1.7909614789226167,
       "learning_rate": 0.007063157894736842,
-      "loss": 1.0959,
       "num_tokens": 7335019.0,
       "step": 330
     },
     {
       "epoch": 34.0,
-      "grad_norm": 1.5940239518396466,
       "learning_rate": 0.006957894736842106,
-      "loss": 1.0992,
       "num_tokens": 7558222.0,
       "step": 340
     },
     {
       "epoch": 35.0,
-      "grad_norm": 1.5769271621614351,
       "learning_rate": 0.006852631578947368,
-      "loss": 1.0877,
       "num_tokens": 7780865.0,
       "step": 350
     },
     {
       "epoch": 36.0,
-      "grad_norm": 1.678971550670819,
       "learning_rate": 0.006747368421052632,
-      "loss": 1.0895,
       "num_tokens": 8003119.0,
       "step": 360
     },
     {
       "epoch": 37.0,
-      "grad_norm": 1.6441297827560035,
       "learning_rate": 0.0066421052631578945,
-      "loss": 1.0916,
       "num_tokens": 8227584.0,
       "step": 370
     },
     {
       "epoch": 37.5,
-      "eval_loss": 1.2667254209518433,
       "eval_num_tokens": 8343208.0,
-      "eval_runtime": 0.317,
-      "eval_samples_per_second": 85.162,
-      "eval_steps_per_second": 3.154,
       "step": 375
     },
     {
       "epoch": 38.0,
-      "grad_norm": 1.562161162484757,
       "learning_rate": 0.006536842105263158,
-      "loss": 1.0788,
       "num_tokens": 8449768.0,
       "step": 380
     },
     {
       "epoch": 39.0,
-      "grad_norm": 1.5481332327502733,
       "learning_rate": 0.006431578947368422,
-      "loss": 1.0735,
       "num_tokens": 8670822.0,
       "step": 390
     },
     {
       "epoch": 40.0,
-      "grad_norm": 1.6710119570197965,
       "learning_rate": 0.006326315789473684,
-      "loss": 1.0691,
       "num_tokens": 8892114.0,
       "step": 400
     },
     {
       "epoch": 41.0,
-      "grad_norm": 1.6213897605104313,
       "learning_rate": 0.0062210526315789475,
-      "loss": 1.0743,
       "num_tokens": 9115676.0,
       "step": 410
     },
     {
       "epoch": 42.0,
-      "grad_norm": 1.584290915233654,
       "learning_rate": 0.00611578947368421,
-      "loss": 1.0642,
       "num_tokens": 9336910.0,
       "step": 420
     },
     {
       "epoch": 43.0,
-      "grad_norm": 1.638009204812852,
       "learning_rate": 0.006010526315789474,
-      "loss": 1.0584,
       "num_tokens": 9557990.0,
       "step": 430
     },
     {
       "epoch": 44.0,
-      "grad_norm": 1.5462442741556879,
       "learning_rate": 0.005905263157894737,
-      "loss": 1.0636,
       "num_tokens": 9780068.0,
       "step": 440
     },
     {
       "epoch": 45.0,
-      "grad_norm": 2.0666288780886912,
       "learning_rate": 0.0058,
-      "loss": 1.059,
       "num_tokens": 10001728.0,
       "step": 450
     },
     {
       "epoch": 45.0,
-      "eval_loss": 1.2540942430496216,
       "eval_num_tokens": 10001728.0,
-      "eval_runtime": 0.3199,
-      "eval_samples_per_second": 84.39,
-      "eval_steps_per_second": 3.126,
       "step": 450
     },
     {
       "epoch": 46.0,
-      "grad_norm": 2.0435408178858805,
       "learning_rate": 0.005694736842105264,
-      "loss": 1.0511,
       "num_tokens": 10223307.0,
       "step": 460
     },
     {
       "epoch": 47.0,
-      "grad_norm": 1.6699802100100627,
       "learning_rate": 0.005589473684210526,
-      "loss": 1.0636,
       "num_tokens": 10447321.0,
       "step": 470
     },
     {
       "epoch": 48.0,
-      "grad_norm": 1.8435894012332885,
       "learning_rate": 0.005484210526315789,
-      "loss": 1.0479,
       "num_tokens": 10670049.0,
       "step": 480
     },
     {
       "epoch": 49.0,
-      "grad_norm": 1.7083885546579185,
       "learning_rate": 0.0053789473684210535,
-      "loss": 1.0456,
       "num_tokens": 10891067.0,
       "step": 490
     },
     {
       "epoch": 50.0,
-      "grad_norm": 1.6697717392243483,
       "learning_rate": 0.005273684210526316,
-      "loss": 1.0446,
       "num_tokens": 11111551.0,
       "step": 500
     },
     {
       "epoch": 51.0,
-      "grad_norm": 1.6862974388818066,
       "learning_rate": 0.005168421052631579,
-      "loss": 1.045,
       "num_tokens": 11332291.0,
       "step": 510
     },
     {
       "epoch": 52.0,
-      "grad_norm": 1.6031127839314492,
       "learning_rate": 0.0050631578947368415,
-      "loss": 1.0396,
       "num_tokens": 11553533.0,
       "step": 520
     },
     {
       "epoch": 52.5,
-      "eval_loss": 1.2458847761154175,
       "eval_num_tokens": 11665840.0,
-      "eval_runtime": 0.3246,
-      "eval_samples_per_second": 83.174,
-      "eval_steps_per_second": 3.081,
       "step": 525
     },
     {
       "epoch": 53.0,
-      "grad_norm": 1.6444188469318939,
       "learning_rate": 0.004957894736842105,
-      "loss": 1.0384,
       "num_tokens": 11776548.0,
       "step": 530
     },
     {
       "epoch": 54.0,
-      "grad_norm": 1.904756015833275,
       "learning_rate": 0.004852631578947369,
-      "loss": 1.0331,
       "num_tokens": 11997805.0,
       "step": 540
     },
     {
       "epoch": 55.0,
-      "grad_norm": 1.670301671264176,
       "learning_rate": 0.004747368421052632,
-      "loss": 1.0286,
       "num_tokens": 12219453.0,
       "step": 550
     },
     {
       "epoch": 56.0,
-      "grad_norm": 1.7460051405724548,
       "learning_rate": 0.0046421052631578945,
-      "loss": 1.0371,
       "num_tokens": 12442555.0,
       "step": 560
     },
     {
       "epoch": 57.0,
-      "grad_norm": 1.6995407527097683,
       "learning_rate": 0.004536842105263158,
-      "loss": 1.0284,
       "num_tokens": 12664583.0,
       "step": 570
     },
     {
       "epoch": 58.0,
-      "grad_norm": 1.5330059340993094,
       "learning_rate": 0.004431578947368421,
-      "loss": 1.036,
       "num_tokens": 12887745.0,
       "step": 580
     },
     {
       "epoch": 59.0,
-      "grad_norm": 1.6962640828440887,
       "learning_rate": 0.004326315789473684,
-      "loss": 1.0303,
       "num_tokens": 13112833.0,
       "step": 590
     },
     {
       "epoch": 60.0,
-      "grad_norm": 1.751524405194981,
       "learning_rate": 0.0042210526315789474,
-      "loss": 1.0245,
       "num_tokens": 13333925.0,
       "step": 600
     },
     {
       "epoch": 60.0,
-      "eval_loss": 1.239326000213623,
       "eval_num_tokens": 13333925.0,
-      "eval_runtime": 0.3217,
-      "eval_samples_per_second": 83.927,
-      "eval_steps_per_second": 3.108,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -574,12 +939,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 43112136835072.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 975,
+  "best_metric": 1.1944328546524048,
+  "best_model_checkpoint": "./chess_format_aligned/checkpoint-900",
+  "epoch": 100.0,
   "eval_steps": 75,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 17.83828250762641,
       "learning_rate": 0.0018,
+      "loss": 1.8323,
       "num_tokens": 223219.0,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "grad_norm": 9.01867006533579,
       "learning_rate": 0.0038,
+      "loss": 1.673,
       "num_tokens": 445754.0,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "grad_norm": 6.94008470876228,
       "learning_rate": 0.0058,
+      "loss": 1.5482,
       "num_tokens": 668444.0,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "grad_norm": 70.78811181835867,
       "learning_rate": 0.0078000000000000005,
+      "loss": 1.4254,
       "num_tokens": 890313.0,
       "step": 40
     },
     {
       "epoch": 5.0,
+      "grad_norm": 3.1662635788659146,
       "learning_rate": 0.0098,
+      "loss": 1.3487,
       "num_tokens": 1113242.0,
       "step": 50
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.556648918505806,
       "learning_rate": 0.009905263157894736,
+      "loss": 1.2985,
       "num_tokens": 1335423.0,
       "step": 60
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.4375270330993013,
       "learning_rate": 0.0098,
+      "loss": 1.2586,
       "num_tokens": 1555919.0,
       "step": 70
     },
     {
       "epoch": 7.5,
+      "eval_loss": 1.381267786026001,
       "eval_num_tokens": 1666144.0,
+      "eval_runtime": 0.3185,
+      "eval_samples_per_second": 84.763,
+      "eval_steps_per_second": 3.139,
       "step": 75
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.7644229869799037,
       "learning_rate": 0.009694736842105263,
+      "loss": 1.2423,
       "num_tokens": 1777537.0,
       "step": 80
     },
     {
       "epoch": 9.0,
+      "grad_norm": 3.1156791872493654,
       "learning_rate": 0.009589473684210526,
+      "loss": 1.2221,
       "num_tokens": 1998166.0,
       "step": 90
     },
     {
       "epoch": 10.0,
+      "grad_norm": 2.4278915778023373,
       "learning_rate": 0.00948421052631579,
+      "loss": 1.2127,
       "num_tokens": 2219390.0,
       "step": 100
     },
     {
       "epoch": 11.0,
+      "grad_norm": 2.4188045848334006,
       "learning_rate": 0.009378947368421053,
+      "loss": 1.2062,
       "num_tokens": 2443706.0,
       "step": 110
     },
     {
       "epoch": 12.0,
+      "grad_norm": 3.2611655554691295,
       "learning_rate": 0.009273684210526316,
+      "loss": 1.1925,
       "num_tokens": 2666784.0,
       "step": 120
     },
     {
       "epoch": 13.0,
+      "grad_norm": 2.7245785280374597,
       "learning_rate": 0.00916842105263158,
+      "loss": 1.1798,
       "num_tokens": 2888489.0,
       "step": 130
     },
     {
       "epoch": 14.0,
+      "grad_norm": 2.4379435102787324,
       "learning_rate": 0.009063157894736842,
+      "loss": 1.1723,
       "num_tokens": 3110642.0,
       "step": 140
     },
     {
       "epoch": 15.0,
+      "grad_norm": 2.9693195241863073,
       "learning_rate": 0.008957894736842106,
+      "loss": 1.1649,
       "num_tokens": 3334174.0,
       "step": 150
     },
     {
       "epoch": 15.0,
+      "eval_loss": 1.3144068717956543,
       "eval_num_tokens": 3334174.0,
+      "eval_runtime": 0.3186,
+      "eval_samples_per_second": 84.741,
+      "eval_steps_per_second": 3.139,
       "step": 150
     },
     {
       "epoch": 16.0,
+      "grad_norm": 4.741318971535345,
       "learning_rate": 0.008852631578947369,
+      "loss": 1.153,
       "num_tokens": 3556307.0,
       "step": 160
     },
     {
       "epoch": 17.0,
+      "grad_norm": 3.3424312070631905,
       "learning_rate": 0.008747368421052632,
+      "loss": 1.1505,
       "num_tokens": 3777446.0,
       "step": 170
     },
     {
       "epoch": 18.0,
+      "grad_norm": 3.9043733611223996,
       "learning_rate": 0.008642105263157894,
+      "loss": 1.1432,
       "num_tokens": 3999051.0,
       "step": 180
     },
     {
       "epoch": 19.0,
+      "grad_norm": 2.508990648808123,
       "learning_rate": 0.008536842105263159,
+      "loss": 1.1415,
       "num_tokens": 4221841.0,
       "step": 190
     },
     {
       "epoch": 20.0,
+      "grad_norm": 2.7614256983207572,
       "learning_rate": 0.008431578947368422,
+      "loss": 1.1295,
       "num_tokens": 4443930.0,
       "step": 200
     },
     {
       "epoch": 21.0,
+      "grad_norm": 2.820857768625703,
       "learning_rate": 0.008326315789473683,
+      "loss": 1.1316,
       "num_tokens": 4665914.0,
       "step": 210
     },
     {
       "epoch": 22.0,
+      "grad_norm": 3.176834461080823,
       "learning_rate": 0.008221052631578948,
+      "loss": 1.1162,
       "num_tokens": 4887092.0,
       "step": 220
     },
     {
       "epoch": 22.5,
+      "eval_loss": 1.2824864387512207,
       "eval_num_tokens": 4995523.0,
+      "eval_runtime": 0.3183,
+      "eval_samples_per_second": 84.823,
+      "eval_steps_per_second": 3.142,
       "step": 225
     },
     {
       "epoch": 23.0,
+      "grad_norm": 2.989691496498352,
       "learning_rate": 0.008115789473684212,
+      "loss": 1.1164,
       "num_tokens": 5109590.0,
       "step": 230
     },
     {
       "epoch": 24.0,
+      "grad_norm": 2.959771702308034,
       "learning_rate": 0.008010526315789473,
+      "loss": 1.1082,
       "num_tokens": 5331354.0,
       "step": 240
     },
     {
       "epoch": 25.0,
+      "grad_norm": 2.9095338362857075,
       "learning_rate": 0.007905263157894736,
+      "loss": 1.1124,
       "num_tokens": 5555613.0,
       "step": 250
     },
     {
       "epoch": 26.0,
+      "grad_norm": 3.340734142845819,
       "learning_rate": 0.0078000000000000005,
+      "loss": 1.0985,
       "num_tokens": 5777356.0,
       "step": 260
     },
     {
       "epoch": 27.0,
+      "grad_norm": 2.78338780839128,
       "learning_rate": 0.007694736842105263,
+      "loss": 1.0985,
       "num_tokens": 6001492.0,
       "step": 270
     },
     {
       "epoch": 28.0,
+      "grad_norm": 3.8541351179946823,
       "learning_rate": 0.007589473684210526,
+      "loss": 1.0844,
       "num_tokens": 6223232.0,
       "step": 280
     },
     {
       "epoch": 29.0,
+      "grad_norm": 2.757976381041582,
       "learning_rate": 0.00748421052631579,
+      "loss": 1.0873,
       "num_tokens": 6447091.0,
       "step": 290
     },
     {
       "epoch": 30.0,
+      "grad_norm": 3.292959575183194,
       "learning_rate": 0.007378947368421053,
+      "loss": 1.074,
       "num_tokens": 6668779.0,
       "step": 300
     },
     {
       "epoch": 30.0,
+      "eval_loss": 1.257373571395874,
       "eval_num_tokens": 6668779.0,
+      "eval_runtime": 0.3211,
+      "eval_samples_per_second": 84.075,
+      "eval_steps_per_second": 3.114,
       "step": 300
     },
     {
       "epoch": 31.0,
+      "grad_norm": 3.618991428419505,
       "learning_rate": 0.007273684210526316,
+      "loss": 1.0714,
       "num_tokens": 6889939.0,
       "step": 310
     },
     {
       "epoch": 32.0,
+      "grad_norm": 2.834779698695166,
       "learning_rate": 0.00716842105263158,
+      "loss": 1.0733,
       "num_tokens": 7113839.0,
       "step": 320
     },
     {
       "epoch": 33.0,
+      "grad_norm": 3.069229341212673,
       "learning_rate": 0.007063157894736842,
+      "loss": 1.0607,
       "num_tokens": 7335019.0,
       "step": 330
     },
     {
       "epoch": 34.0,
+      "grad_norm": 3.435945397864499,
       "learning_rate": 0.006957894736842106,
+      "loss": 1.0623,
       "num_tokens": 7558222.0,
       "step": 340
     },
     {
       "epoch": 35.0,
+      "grad_norm": 3.9823610333754242,
       "learning_rate": 0.006852631578947368,
+      "loss": 1.0501,
       "num_tokens": 7780865.0,
       "step": 350
     },
     {
       "epoch": 36.0,
+      "grad_norm": 3.0337688363785995,
       "learning_rate": 0.006747368421052632,
+      "loss": 1.0507,
       "num_tokens": 8003119.0,
       "step": 360
     },
     {
       "epoch": 37.0,
+      "grad_norm": 3.0380173399070407,
       "learning_rate": 0.0066421052631578945,
+      "loss": 1.0519,
       "num_tokens": 8227584.0,
       "step": 370
     },
     {
       "epoch": 37.5,
+      "eval_loss": 1.2381330728530884,
       "eval_num_tokens": 8343208.0,
+      "eval_runtime": 0.3201,
+      "eval_samples_per_second": 84.347,
+      "eval_steps_per_second": 3.124,
       "step": 375
     },
     {
       "epoch": 38.0,
+      "grad_norm": 3.790903744111934,
       "learning_rate": 0.006536842105263158,
+      "loss": 1.0392,
       "num_tokens": 8449768.0,
       "step": 380
     },
     {
       "epoch": 39.0,
+      "grad_norm": 4.32554367560641,
       "learning_rate": 0.006431578947368422,
+      "loss": 1.0331,
       "num_tokens": 8670822.0,
       "step": 390
     },
     {
       "epoch": 40.0,
+      "grad_norm": 4.251822793877274,
       "learning_rate": 0.006326315789473684,
+      "loss": 1.0271,
       "num_tokens": 8892114.0,
       "step": 400
     },
     {
       "epoch": 41.0,
+      "grad_norm": 4.560423157551954,
       "learning_rate": 0.0062210526315789475,
+      "loss": 1.0329,
       "num_tokens": 9115676.0,
       "step": 410
     },
     {
       "epoch": 42.0,
+      "grad_norm": 4.265073330832839,
       "learning_rate": 0.00611578947368421,
+      "loss": 1.0213,
       "num_tokens": 9336910.0,
       "step": 420
     },
     {
       "epoch": 43.0,
+      "grad_norm": 3.23555980855867,
       "learning_rate": 0.006010526315789474,
+      "loss": 1.0158,
       "num_tokens": 9557990.0,
       "step": 430
     },
     {
       "epoch": 44.0,
+      "grad_norm": 4.755857183286942,
       "learning_rate": 0.005905263157894737,
+      "loss": 1.0199,
       "num_tokens": 9780068.0,
       "step": 440
     },
     {
       "epoch": 45.0,
+      "grad_norm": 4.566195384062095,
       "learning_rate": 0.0058,
+      "loss": 1.0146,
       "num_tokens": 10001728.0,
       "step": 450
     },
     {
       "epoch": 45.0,
+      "eval_loss": 1.2229516506195068,
       "eval_num_tokens": 10001728.0,
+      "eval_runtime": 0.3204,
+      "eval_samples_per_second": 84.271,
+      "eval_steps_per_second": 3.121,
       "step": 450
     },
     {
       "epoch": 46.0,
+      "grad_norm": 5.067438161876945,
       "learning_rate": 0.005694736842105264,
+      "loss": 1.0058,
       "num_tokens": 10223307.0,
       "step": 460
     },
     {
       "epoch": 47.0,
+      "grad_norm": 3.1567080114120674,
       "learning_rate": 0.005589473684210526,
+      "loss": 1.0161,
       "num_tokens": 10447321.0,
       "step": 470
     },
     {
       "epoch": 48.0,
+      "grad_norm": 3.5448737550653515,
       "learning_rate": 0.005484210526315789,
+      "loss": 1.0003,
       "num_tokens": 10670049.0,
       "step": 480
     },
     {
       "epoch": 49.0,
+      "grad_norm": 4.0815007389042455,
       "learning_rate": 0.0053789473684210535,
+      "loss": 0.9985,
       "num_tokens": 10891067.0,
       "step": 490
     },
     {
       "epoch": 50.0,
+      "grad_norm": 3.54375709976258,
       "learning_rate": 0.005273684210526316,
+      "loss": 0.9957,
       "num_tokens": 11111551.0,
       "step": 500
     },
     {
       "epoch": 51.0,
+      "grad_norm": 4.260407472183029,
       "learning_rate": 0.005168421052631579,
+      "loss": 0.9968,
       "num_tokens": 11332291.0,
       "step": 510
     },
     {
       "epoch": 52.0,
+      "grad_norm": 4.6691095377196286,
       "learning_rate": 0.0050631578947368415,
+      "loss": 0.9897,
       "num_tokens": 11553533.0,
       "step": 520
     },
     {
       "epoch": 52.5,
+      "eval_loss": 1.2112921476364136,
       "eval_num_tokens": 11665840.0,
+      "eval_runtime": 0.3231,
+      "eval_samples_per_second": 83.56,
+      "eval_steps_per_second": 3.095,
       "step": 525
     },
     {
       "epoch": 53.0,
+      "grad_norm": 4.956977136862753,
       "learning_rate": 0.004957894736842105,
+      "loss": 0.9882,
       "num_tokens": 11776548.0,
       "step": 530
     },
     {
       "epoch": 54.0,
+      "grad_norm": 3.432387228754158,
       "learning_rate": 0.004852631578947369,
+      "loss": 0.9819,
       "num_tokens": 11997805.0,
       "step": 540
     },
     {
       "epoch": 55.0,
+      "grad_norm": 3.6460618813546453,
       "learning_rate": 0.004747368421052632,
+      "loss": 0.9781,
       "num_tokens": 12219453.0,
       "step": 550
     },
     {
       "epoch": 56.0,
+      "grad_norm": 3.8194375303151307,
       "learning_rate": 0.0046421052631578945,
+      "loss": 0.9863,
       "num_tokens": 12442555.0,
       "step": 560
     },
     {
       "epoch": 57.0,
+      "grad_norm": 5.39295222734748,
       "learning_rate": 0.004536842105263158,
+      "loss": 0.9751,
       "num_tokens": 12664583.0,
       "step": 570
     },
     {
       "epoch": 58.0,
+      "grad_norm": 4.147654144194828,
       "learning_rate": 0.004431578947368421,
+      "loss": 0.9835,
       "num_tokens": 12887745.0,
       "step": 580
     },
     {
       "epoch": 59.0,
+      "grad_norm": 3.644549538967929,
       "learning_rate": 0.004326315789473684,
+      "loss": 0.9779,
       "num_tokens": 13112833.0,
       "step": 590
     },
     {
       "epoch": 60.0,
+      "grad_norm": 5.504838132470386,
       "learning_rate": 0.0042210526315789474,
+      "loss": 0.9717,
       "num_tokens": 13333925.0,
       "step": 600
     },
     {
       "epoch": 60.0,
+      "eval_loss": 1.2046301364898682,
       "eval_num_tokens": 13333925.0,
+      "eval_runtime": 0.3213,
+      "eval_samples_per_second": 84.046,
+      "eval_steps_per_second": 3.113,
       "step": 600
+    },
+    {
+      "epoch": 61.0,
+      "grad_norm": 4.293620012289861,
+      "learning_rate": 0.004115789473684211,
+      "loss": 0.9714,
+      "num_tokens": 13556685.0,
+      "step": 610
+    },
+    {
+      "epoch": 62.0,
+      "grad_norm": 3.506756001951183,
+      "learning_rate": 0.004010526315789474,
+      "loss": 0.9723,
+      "num_tokens": 13778897.0,
+      "step": 620
+    },
+    {
+      "epoch": 63.0,
+      "grad_norm": 4.378783254083467,
+      "learning_rate": 0.0039052631578947367,
+      "loss": 0.967,
+      "num_tokens": 14001358.0,
+      "step": 630
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 3.305892841637407,
+      "learning_rate": 0.0038,
+      "loss": 0.9622,
+      "num_tokens": 14222983.0,
+      "step": 640
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 3.8912634544994047,
+      "learning_rate": 0.0036947368421052637,
+      "loss": 0.9679,
+      "num_tokens": 14445938.0,
+      "step": 650
+    },
+    {
+      "epoch": 66.0,
+      "grad_norm": 4.409907613658091,
+      "learning_rate": 0.0035894736842105265,
+      "loss": 0.968,
+      "num_tokens": 14668829.0,
+      "step": 660
+    },
+    {
+      "epoch": 67.0,
+      "grad_norm": 3.3890926337654688,
+      "learning_rate": 0.0034842105263157897,
+      "loss": 0.9633,
+      "num_tokens": 14890816.0,
+      "step": 670
+    },
+    {
+      "epoch": 67.5,
+      "eval_loss": 1.2010632753372192,
+      "eval_num_tokens": 15003360.0,
+      "eval_runtime": 0.3201,
+      "eval_samples_per_second": 84.356,
+      "eval_steps_per_second": 3.124,
+      "step": 675
+    },
+    {
+      "epoch": 68.0,
+      "grad_norm": 3.934065351717797,
+      "learning_rate": 0.0033789473684210525,
+      "loss": 0.9555,
+      "num_tokens": 15111361.0,
+      "step": 680
+    },
+    {
+      "epoch": 69.0,
+      "grad_norm": 3.5775176080596656,
+      "learning_rate": 0.003273684210526316,
+      "loss": 0.9591,
+      "num_tokens": 15332355.0,
+      "step": 690
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 3.3110436862073906,
+      "learning_rate": 0.0031684210526315786,
+      "loss": 0.9549,
+      "num_tokens": 15554378.0,
+      "step": 700
+    },
+    {
+      "epoch": 71.0,
+      "grad_norm": 3.880549759257821,
+      "learning_rate": 0.0030631578947368423,
+      "loss": 0.9472,
+      "num_tokens": 15774738.0,
+      "step": 710
+    },
+    {
+      "epoch": 72.0,
+      "grad_norm": 3.731395551097834,
+      "learning_rate": 0.0029578947368421055,
+      "loss": 0.9507,
+      "num_tokens": 15995583.0,
+      "step": 720
+    },
+    {
+      "epoch": 73.0,
+      "grad_norm": 3.430579284839533,
+      "learning_rate": 0.0028526315789473683,
+      "loss": 0.9556,
+      "num_tokens": 16219509.0,
+      "step": 730
+    },
+    {
+      "epoch": 74.0,
+      "grad_norm": 4.143480775832373,
+      "learning_rate": 0.0027473684210526316,
+      "loss": 0.9579,
+      "num_tokens": 16443780.0,
+      "step": 740
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 3.6743106053855814,
+      "learning_rate": 0.0026421052631578944,
+      "loss": 0.9452,
+      "num_tokens": 16665238.0,
+      "step": 750
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 1.1967283487319946,
+      "eval_num_tokens": 16665238.0,
+      "eval_runtime": 0.3185,
+      "eval_samples_per_second": 84.784,
+      "eval_steps_per_second": 3.14,
+      "step": 750
+    },
+    {
+      "epoch": 76.0,
+      "grad_norm": 4.197306578134703,
+      "learning_rate": 0.002536842105263158,
+      "loss": 0.9493,
+      "num_tokens": 16887354.0,
+      "step": 760
+    },
+    {
+      "epoch": 77.0,
+      "grad_norm": 3.9942870331698868,
+      "learning_rate": 0.002431578947368421,
+      "loss": 0.9472,
+      "num_tokens": 17109856.0,
+      "step": 770
+    },
+    {
+      "epoch": 78.0,
+      "grad_norm": 4.209686621558697,
+      "learning_rate": 0.002326315789473684,
+      "loss": 0.9493,
+      "num_tokens": 17332931.0,
+      "step": 780
+    },
+    {
+      "epoch": 79.0,
+      "grad_norm": 5.511737064443916,
+      "learning_rate": 0.0022210526315789474,
+      "loss": 0.9463,
+      "num_tokens": 17553676.0,
+      "step": 790
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 4.390465832236099,
+      "learning_rate": 0.0021157894736842106,
+      "loss": 0.9425,
+      "num_tokens": 17776111.0,
+      "step": 800
+    },
+    {
+      "epoch": 81.0,
+      "grad_norm": 5.005842824438807,
+      "learning_rate": 0.002010526315789474,
+      "loss": 0.9448,
+      "num_tokens": 17997428.0,
+      "step": 810
+    },
+    {
+      "epoch": 82.0,
+      "grad_norm": 4.881807931973373,
+      "learning_rate": 0.001905263157894737,
+      "loss": 0.9422,
+      "num_tokens": 18219176.0,
+      "step": 820
+    },
+    {
+      "epoch": 82.5,
+      "eval_loss": 1.196116328239441,
+      "eval_num_tokens": 18330757.0,
+      "eval_runtime": 0.3188,
+      "eval_samples_per_second": 84.702,
+      "eval_steps_per_second": 3.137,
+      "step": 825
+    },
+    {
+      "epoch": 83.0,
+      "grad_norm": 4.1644693854831365,
+      "learning_rate": 0.0018,
+      "loss": 0.9387,
+      "num_tokens": 18440948.0,
+      "step": 830
+    },
+    {
+      "epoch": 84.0,
+      "grad_norm": 3.403286465588362,
+      "learning_rate": 0.001694736842105263,
+      "loss": 0.9404,
+      "num_tokens": 18662723.0,
+      "step": 840
+    },
+    {
+      "epoch": 85.0,
+      "grad_norm": 3.9479844988657042,
+      "learning_rate": 0.0015894736842105264,
+      "loss": 0.9402,
+      "num_tokens": 18884234.0,
+      "step": 850
+    },
+    {
+      "epoch": 86.0,
+      "grad_norm": 3.293992963000251,
+      "learning_rate": 0.0014842105263157895,
+      "loss": 0.936,
+      "num_tokens": 19106137.0,
+      "step": 860
+    },
+    {
+      "epoch": 87.0,
+      "grad_norm": 3.0634247251244884,
+      "learning_rate": 0.0013789473684210527,
+      "loss": 0.9371,
+      "num_tokens": 19327897.0,
+      "step": 870
+    },
+    {
+      "epoch": 88.0,
+      "grad_norm": 3.4274407097867443,
+      "learning_rate": 0.0012736842105263158,
+      "loss": 0.9344,
+      "num_tokens": 19549151.0,
+      "step": 880
+    },
+    {
+      "epoch": 89.0,
+      "grad_norm": 3.4140297161368003,
+      "learning_rate": 0.001168421052631579,
+      "loss": 0.9348,
+      "num_tokens": 19770623.0,
+      "step": 890
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 3.1168838509225285,
+      "learning_rate": 0.001063157894736842,
+      "loss": 0.936,
+      "num_tokens": 19992317.0,
+      "step": 900
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 1.1946989297866821,
+      "eval_num_tokens": 19992317.0,
+      "eval_runtime": 0.3217,
+      "eval_samples_per_second": 83.935,
+      "eval_steps_per_second": 3.109,
+      "step": 900
+    },
+    {
+      "epoch": 91.0,
+      "grad_norm": 3.079611135216578,
+      "learning_rate": 0.0009578947368421053,
+      "loss": 0.9372,
+      "num_tokens": 20214731.0,
+      "step": 910
+    },
+    {
+      "epoch": 92.0,
+      "grad_norm": 3.792032956614427,
+      "learning_rate": 0.0008526315789473685,
+      "loss": 0.932,
+      "num_tokens": 20436683.0,
+      "step": 920
+    },
+    {
+      "epoch": 93.0,
+      "grad_norm": 3.6470806092555166,
+      "learning_rate": 0.0007473684210526316,
+      "loss": 0.9344,
+      "num_tokens": 20659388.0,
+      "step": 930
+    },
+    {
+      "epoch": 94.0,
+      "grad_norm": 3.370001392101702,
+      "learning_rate": 0.0006421052631578947,
+      "loss": 0.9348,
+      "num_tokens": 20881755.0,
+      "step": 940
+    },
+    {
+      "epoch": 95.0,
+      "grad_norm": 3.326107539027494,
+      "learning_rate": 0.0005368421052631579,
+      "loss": 0.934,
+      "num_tokens": 21103662.0,
+      "step": 950
+    },
+    {
+      "epoch": 96.0,
+      "grad_norm": 3.1738358139915475,
+      "learning_rate": 0.000431578947368421,
+      "loss": 0.9327,
+      "num_tokens": 21325035.0,
+      "step": 960
+    },
+    {
+      "epoch": 97.0,
+      "grad_norm": 3.9648314762416943,
+      "learning_rate": 0.0003263157894736842,
+      "loss": 0.9287,
+      "num_tokens": 21545180.0,
+      "step": 970
+    },
+    {
+      "epoch": 97.5,
+      "eval_loss": 1.1944328546524048,
+      "eval_num_tokens": 21651877.0,
+      "eval_runtime": 0.3188,
+      "eval_samples_per_second": 84.685,
+      "eval_steps_per_second": 3.136,
+      "step": 975
+    },
+    {
+      "epoch": 98.0,
+      "grad_norm": 3.313089750576275,
+      "learning_rate": 0.00022105263157894735,
+      "loss": 0.9323,
+      "num_tokens": 21767119.0,
+      "step": 980
+    },
+    {
+      "epoch": 99.0,
+      "grad_norm": 3.179576833461792,
+      "learning_rate": 0.00011578947368421053,
+      "loss": 0.9301,
+      "num_tokens": 21989272.0,
+      "step": 990
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 3.1836571339116047,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.9298,
+      "num_tokens": 22211321.0,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 71815179534336.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cdc7f5c1ee11e13f289f3d3a6ae1dd489ba7111db7c7b217a9d756782d57af3
 size 7377

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aaaa9ea2a04a7fc17c0d0b878afd9a08d3174e85e74b74a2eee6684ba9b3065
 size 7377