Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +434 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:635adffaeb09dbb7a664651d5421d2072d6032c31bd3760a8d552e0fe2a86f3e
 size 369133600

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8bcbd57b5881ae329bb1c641f134c0e7e34dc8a10c269f9bef1144855507336
 size 369133600

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:770091e990e6db7a8ac8842db96d2c20c9b97b4bd60932176cd2127ad3bd7c4f
+size 738417355

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8ebf0c029a2d2b49dc7dbaff0f2c313f2655675d94aa9e96c6aa9ea3ce9d185
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9da6c927c97f3fdf917426312ae7a36977f7cc25e99d53c6db7c5bf832d85594
+size 1465

trainer_state.json ADDED Viewed

	@@ -0,0 +1,434 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.686695278969957,
+  "eval_steps": 500,
+  "global_step": 40,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 2.0594023689627647,
+      "epoch": 0.06866952789699571,
+      "grad_norm": 13.235921859741211,
+      "learning_rate": 0.0,
+      "loss": 2.0981,
+      "mean_token_accuracy": 0.47590671852231026,
+      "num_tokens": 3141.0,
+      "step": 1
+    },
+    {
+      "entropy": 2.0151727944612503,
+      "epoch": 0.13733905579399142,
+      "grad_norm": 12.92041015625,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.0398,
+      "mean_token_accuracy": 0.4710495248436928,
+      "num_tokens": 6354.0,
+      "step": 2
+    },
+    {
+      "entropy": 2.1832356229424477,
+      "epoch": 0.20600858369098712,
+      "grad_norm": 9.109127044677734,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.9638,
+      "mean_token_accuracy": 0.4837193079292774,
+      "num_tokens": 9122.0,
+      "step": 3
+    },
+    {
+      "entropy": 2.1158930361270905,
+      "epoch": 0.27467811158798283,
+      "grad_norm": 6.479565143585205,
+      "learning_rate": 4e-05,
+      "loss": 1.791,
+      "mean_token_accuracy": 0.5011687465012074,
+      "num_tokens": 12598.0,
+      "step": 4
+    },
+    {
+      "entropy": 2.1543598622083664,
+      "epoch": 0.34334763948497854,
+      "grad_norm": 6.700535774230957,
+      "learning_rate": 5.333333333333333e-05,
+      "loss": 1.7927,
+      "mean_token_accuracy": 0.5191793460398912,
+      "num_tokens": 15894.0,
+      "step": 5
+    },
+    {
+      "entropy": 2.190734125673771,
+      "epoch": 0.41201716738197425,
+      "grad_norm": 6.992319583892822,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 1.7767,
+      "mean_token_accuracy": 0.5401564333587885,
+      "num_tokens": 18120.0,
+      "step": 6
+    },
+    {
+      "entropy": 1.8032616525888443,
+      "epoch": 0.48068669527896996,
+      "grad_norm": 4.852386951446533,
+      "learning_rate": 8e-05,
+      "loss": 1.4557,
+      "mean_token_accuracy": 0.5802906360477209,
+      "num_tokens": 21398.0,
+      "step": 7
+    },
+    {
+      "entropy": 1.911305882036686,
+      "epoch": 0.5493562231759657,
+      "grad_norm": 5.9996657371521,
+      "learning_rate": 9.333333333333334e-05,
+      "loss": 1.7139,
+      "mean_token_accuracy": 0.5444964710623026,
+      "num_tokens": 24176.0,
+      "step": 8
+    },
+    {
+      "entropy": 1.6898048743605614,
+      "epoch": 0.6180257510729614,
+      "grad_norm": 4.547244071960449,
+      "learning_rate": 0.00010666666666666667,
+      "loss": 1.534,
+      "mean_token_accuracy": 0.5793795734643936,
+      "num_tokens": 27757.0,
+      "step": 9
+    },
+    {
+      "entropy": 1.9274577349424362,
+      "epoch": 0.6866952789699571,
+      "grad_norm": 5.497706413269043,
+      "learning_rate": 0.00012,
+      "loss": 1.6664,
+      "mean_token_accuracy": 0.5688131004571915,
+      "num_tokens": 30127.0,
+      "step": 10
+    },
+    {
+      "entropy": 2.0350103303790092,
+      "epoch": 0.7553648068669528,
+      "grad_norm": 4.125185966491699,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 1.4849,
+      "mean_token_accuracy": 0.5754233915358782,
+      "num_tokens": 33423.0,
+      "step": 11
+    },
+    {
+      "entropy": 2.0800106152892113,
+      "epoch": 0.8240343347639485,
+      "grad_norm": 5.943212032318115,
+      "learning_rate": 0.00014666666666666666,
+      "loss": 1.4663,
+      "mean_token_accuracy": 0.5716470144689083,
+      "num_tokens": 36704.0,
+      "step": 12
+    },
+    {
+      "entropy": 1.8619608655571938,
+      "epoch": 0.8927038626609443,
+      "grad_norm": 4.216862678527832,
+      "learning_rate": 0.00016,
+      "loss": 1.4236,
+      "mean_token_accuracy": 0.6065030060708523,
+      "num_tokens": 40036.0,
+      "step": 13
+    },
+    {
+      "entropy": 1.793141208589077,
+      "epoch": 0.9613733905579399,
+      "grad_norm": 4.655040264129639,
+      "learning_rate": 0.00017333333333333334,
+      "loss": 1.4756,
+      "mean_token_accuracy": 0.5741604901850224,
+      "num_tokens": 43346.0,
+      "step": 14
+    },
+    {
+      "entropy": 1.6789460447099473,
+      "epoch": 1.0,
+      "grad_norm": 5.187127113342285,
+      "learning_rate": 0.0001866666666666667,
+      "loss": 1.5609,
+      "mean_token_accuracy": 0.5648946828312345,
+      "num_tokens": 45318.0,
+      "step": 15
+    },
+    {
+      "entropy": 1.6579683423042297,
+      "epoch": 1.0686695278969958,
+      "grad_norm": 5.212145805358887,
+      "learning_rate": 0.0002,
+      "loss": 1.0621,
+      "mean_token_accuracy": 0.6966231800615788,
+      "num_tokens": 47725.0,
+      "step": 16
+    },
+    {
+      "entropy": 1.4356463253498077,
+      "epoch": 1.1373390557939915,
+      "grad_norm": 4.121367931365967,
+      "learning_rate": 0.00019945218953682734,
+      "loss": 0.9024,
+      "mean_token_accuracy": 0.7124389447271824,
+      "num_tokens": 51539.0,
+      "step": 17
+    },
+    {
+      "entropy": 1.2889379784464836,
+      "epoch": 1.206008583690987,
+      "grad_norm": 3.5511586666107178,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 0.7942,
+      "mean_token_accuracy": 0.7587139792740345,
+      "num_tokens": 54445.0,
+      "step": 18
+    },
+    {
+      "entropy": 1.2650777027010918,
+      "epoch": 1.2746781115879828,
+      "grad_norm": 5.292742729187012,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 0.9175,
+      "mean_token_accuracy": 0.7510803155601025,
+      "num_tokens": 56486.0,
+      "step": 19
+    },
+    {
+      "entropy": 1.0445934683084488,
+      "epoch": 1.3433476394849786,
+      "grad_norm": 4.494050025939941,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 0.7743,
+      "mean_token_accuracy": 0.7553940825164318,
+      "num_tokens": 59598.0,
+      "step": 20
+    },
+    {
+      "entropy": 1.078294474631548,
+      "epoch": 1.4120171673819741,
+      "grad_norm": 4.316277027130127,
+      "learning_rate": 0.00018660254037844388,
+      "loss": 0.8193,
+      "mean_token_accuracy": 0.7530446909368038,
+      "num_tokens": 62856.0,
+      "step": 21
+    },
+    {
+      "entropy": 1.084236167371273,
+      "epoch": 1.48068669527897,
+      "grad_norm": 3.509615898132324,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 0.7071,
+      "mean_token_accuracy": 0.7676379047334194,
+      "num_tokens": 66016.0,
+      "step": 22
+    },
+    {
+      "entropy": 1.0741066485643387,
+      "epoch": 1.5493562231759657,
+      "grad_norm": 3.072199821472168,
+      "learning_rate": 0.00017431448254773944,
+      "loss": 0.6951,
+      "mean_token_accuracy": 0.7804224453866482,
+      "num_tokens": 70035.0,
+      "step": 23
+    },
+    {
+      "entropy": 1.0479706078767776,
+      "epoch": 1.6180257510729614,
+      "grad_norm": 3.600970983505249,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 0.8583,
+      "mean_token_accuracy": 0.7423711605370045,
+      "num_tokens": 73691.0,
+      "step": 24
+    },
+    {
+      "entropy": 0.9390149228274822,
+      "epoch": 1.6866952789699572,
+      "grad_norm": 3.461914539337158,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 0.7094,
+      "mean_token_accuracy": 0.7819090783596039,
+      "num_tokens": 76935.0,
+      "step": 25
+    },
+    {
+      "entropy": 1.0067210085690022,
+      "epoch": 1.755364806866953,
+      "grad_norm": 3.8042051792144775,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.7906,
+      "mean_token_accuracy": 0.7519370801746845,
+      "num_tokens": 80389.0,
+      "step": 26
+    },
+    {
+      "entropy": 1.0217487923800945,
+      "epoch": 1.8240343347639485,
+      "grad_norm": 3.956174373626709,
+      "learning_rate": 0.00014067366430758004,
+      "loss": 0.806,
+      "mean_token_accuracy": 0.7380720600485802,
+      "num_tokens": 83048.0,
+      "step": 27
+    },
+    {
+      "entropy": 1.019801527261734,
+      "epoch": 1.8927038626609443,
+      "grad_norm": 3.346088171005249,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 0.6631,
+      "mean_token_accuracy": 0.7932046018540859,
+      "num_tokens": 86052.0,
+      "step": 28
+    },
+    {
+      "entropy": 1.1218348927795887,
+      "epoch": 1.9613733905579398,
+      "grad_norm": 3.5671541690826416,
+      "learning_rate": 0.00012079116908177593,
+      "loss": 0.7907,
+      "mean_token_accuracy": 0.7694815509021282,
+      "num_tokens": 88805.0,
+      "step": 29
+    },
+    {
+      "entropy": 1.0706661343574524,
+      "epoch": 2.0,
+      "grad_norm": 3.657078504562378,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 0.6981,
+      "mean_token_accuracy": 0.7813876933521695,
+      "num_tokens": 90636.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.8892248384654522,
+      "epoch": 2.0686695278969958,
+      "grad_norm": 2.3997206687927246,
+      "learning_rate": 0.0001,
+      "loss": 0.2915,
+      "mean_token_accuracy": 0.9392501749098301,
+      "num_tokens": 93457.0,
+      "step": 31
+    },
+    {
+      "entropy": 0.7985986340790987,
+      "epoch": 2.1373390557939915,
+      "grad_norm": 2.149660587310791,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 0.2838,
+      "mean_token_accuracy": 0.9058267325162888,
+      "num_tokens": 97113.0,
+      "step": 32
+    },
+    {
+      "entropy": 0.7246442474424839,
+      "epoch": 2.2060085836909873,
+      "grad_norm": 2.443434715270996,
+      "learning_rate": 7.920883091822408e-05,
+      "loss": 0.2394,
+      "mean_token_accuracy": 0.9322504326701164,
+      "num_tokens": 100135.0,
+      "step": 33
+    },
+    {
+      "entropy": 0.6230949554592371,
+      "epoch": 2.274678111587983,
+      "grad_norm": 2.339956283569336,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.2399,
+      "mean_token_accuracy": 0.9419549070298672,
+      "num_tokens": 103861.0,
+      "step": 34
+    },
+    {
+      "entropy": 0.5878649838268757,
+      "epoch": 2.3433476394849784,
+      "grad_norm": 2.7043843269348145,
+      "learning_rate": 5.9326335692419995e-05,
+      "loss": 0.2052,
+      "mean_token_accuracy": 0.9398090243339539,
+      "num_tokens": 106839.0,
+      "step": 35
+    },
+    {
+      "entropy": 0.5923287644982338,
+      "epoch": 2.412017167381974,
+      "grad_norm": 3.071157932281494,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.2369,
+      "mean_token_accuracy": 0.9214167520403862,
+      "num_tokens": 109733.0,
+      "step": 36
+    },
+    {
+      "entropy": 0.4931443203240633,
+      "epoch": 2.48068669527897,
+      "grad_norm": 3.6524157524108887,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.2197,
+      "mean_token_accuracy": 0.9345290660858154,
+      "num_tokens": 113006.0,
+      "step": 37
+    },
+    {
+      "entropy": 0.5408180318772793,
+      "epoch": 2.5493562231759657,
+      "grad_norm": 3.9559812545776367,
+      "learning_rate": 3.308693936411421e-05,
+      "loss": 0.2708,
+      "mean_token_accuracy": 0.9073256962001324,
+      "num_tokens": 115925.0,
+      "step": 38
+    },
+    {
+      "entropy": 0.47205063328146935,
+      "epoch": 2.6180257510729614,
+      "grad_norm": 3.9854965209960938,
+      "learning_rate": 2.5685517452260567e-05,
+      "loss": 0.228,
+      "mean_token_accuracy": 0.9301580972969532,
+      "num_tokens": 118763.0,
+      "step": 39
+    },
+    {
+      "entropy": 0.5000962279736996,
+      "epoch": 2.686695278969957,
+      "grad_norm": 2.9278979301452637,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.252,
+      "mean_token_accuracy": 0.92122907564044,
+      "num_tokens": 122351.0,
+      "step": 40
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 45,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2432606934743040.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}