Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoint-latest/model.safetensors +1 -1
checkpoint-latest/optimizer.pt +1 -1
checkpoint-latest/rng_state.pth +1 -1
checkpoint-latest/scheduler.pt +1 -1
checkpoint-latest/tokenizer.json +2 -16
checkpoint-latest/tokenizer_config.json +0 -7
checkpoint-latest/trainer_state.json +29 -273
checkpoint-latest/training_args.bin +1 -1

checkpoint-latest/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec5e19390f915af7d82e4e4d4ab59cbb91dfd4e2451e13a4fd5b2fcb2756dcd2
 size 62293080

 version https://git-lfs.github.com/spec/v1
+oid sha256:393c31c029be3e0c558e9b43e5093997ec4c94e8cc3df4239769190abffdda69
 size 62293080

checkpoint-latest/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f08646ac1adb0510b1dd9481036497e5ccbd6dc461543f2ea2ce32d8d76f3f42
 size 124642443

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e0467a1e128a83101d757df9edbc49229825b87355d89ca5c115347fdffcc60
 size 124642443

checkpoint-latest/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b0ec4d2188868fd24263efa2856258953fca7ad21aed2b50e22b491f1d8939f
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:8442053f994922dc69efe15ac7d6938fd15f0fd7a705fec6122ab91041dc1f14
 size 14645

checkpoint-latest/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a902ca58dea28be10847ac21293e6d27c44fc74bd49d763b881d90cbd1e58f0a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:85ab8cc1fdedbccfbfeb8687bbad9305fda8976259d4a6ffe9a48f328a2c592d
 size 1465

checkpoint-latest/tokenizer.json CHANGED Viewed

@@ -1,21 +1,7 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
-  "padding": {
-    "strategy": {
-      "Fixed": 512
-    },
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 0,
-    "pad_type_id": 0,
-    "pad_token": "<pad>"
-  },
   "added_tokens": [
     {
       "id": 0,

 {
   "version": "1.0",
+  "truncation": null,
+  "padding": null,
   "added_tokens": [
     {
       "id": 0,

checkpoint-latest/tokenizer_config.json CHANGED Viewed

@@ -932,16 +932,9 @@
   "eos_token": "</s>",
   "extra_ids": 100,
   "extra_special_tokens": {},
-  "max_length": 512,
   "model_max_length": 1000000000000000019884624838656,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sp_model_kwargs": {},
-  "stride": 0,
   "tokenizer_class": "T5Tokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "<unk>"
 }

   "eos_token": "</s>",
   "extra_ids": 100,
   "extra_special_tokens": {},
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"
 }

checkpoint-latest/trainer_state.json CHANGED Viewed

@@ -2,304 +2,60 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7038535984515221,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.021995424951610065,
-      "grad_norm": 0.7317402958869934,
-      "learning_rate": 0.00029781805384480024,
-      "loss": 3.1594,
-      "step": 125
-    },
-    {
-      "epoch": 0.04399084990322013,
-      "grad_norm": 0.7342692613601685,
-      "learning_rate": 0.00029561851134963927,
-      "loss": 3.1518,
-      "step": 250
-    },
-    {
-      "epoch": 0.06598627485483019,
-      "grad_norm": 0.6049332022666931,
-      "learning_rate": 0.00029341896885447824,
-      "loss": 3.1479,
-      "step": 375
-    },
-    {
-      "epoch": 0.08798169980644026,
-      "grad_norm": 0.7177291512489319,
-      "learning_rate": 0.0002912194263593172,
-      "loss": 3.1586,
-      "step": 500
-    },
-    {
-      "epoch": 0.08798169980644026,
-      "eval_loss": 2.6734766960144043,
-      "eval_runtime": 59.2675,
-      "eval_samples_per_second": 166.196,
-      "eval_steps_per_second": 6.395,
-      "step": 500
-    },
-    {
-      "epoch": 0.10997712475805033,
-      "grad_norm": 0.7241224050521851,
-      "learning_rate": 0.00028901988386415624,
-      "loss": 3.1257,
-      "step": 625
-    },
-    {
-      "epoch": 0.13197254970966038,
-      "grad_norm": 1.1103954315185547,
-      "learning_rate": 0.0002868203413689952,
-      "loss": 3.1179,
-      "step": 750
-    },
-    {
-      "epoch": 0.15396797466127046,
-      "grad_norm": 0.7277866005897522,
-      "learning_rate": 0.00028462079887383424,
-      "loss": 3.1451,
-      "step": 875
-    },
-    {
-      "epoch": 0.17596339961288052,
-      "grad_norm": 0.7038848400115967,
-      "learning_rate": 0.0002824212563786732,
-      "loss": 3.1223,
-      "step": 1000
-    },
-    {
-      "epoch": 0.17596339961288052,
-      "eval_loss": 2.664580821990967,
-      "eval_runtime": 59.2093,
-      "eval_samples_per_second": 166.359,
-      "eval_steps_per_second": 6.401,
-      "step": 1000
-    },
-    {
-      "epoch": 0.1979588245644906,
-      "grad_norm": 0.7378321290016174,
-      "learning_rate": 0.0002802217138835122,
-      "loss": 3.1179,
-      "step": 1125
-    },
-    {
-      "epoch": 0.21995424951610065,
-      "grad_norm": 0.861381471157074,
-      "learning_rate": 0.0002780221713883512,
-      "loss": 3.103,
-      "step": 1250
-    },
-    {
-      "epoch": 0.2419496744677107,
-      "grad_norm": 0.8002694249153137,
-      "learning_rate": 0.0002758226288931902,
-      "loss": 3.1028,
-      "step": 1375
-    },
-    {
-      "epoch": 0.26394509941932076,
-      "grad_norm": 0.6079952120780945,
-      "learning_rate": 0.0002736230863980292,
-      "loss": 3.0921,
-      "step": 1500
-    },
-    {
-      "epoch": 0.26394509941932076,
-      "eval_loss": 2.646458864212036,
-      "eval_runtime": 59.2373,
-      "eval_samples_per_second": 166.28,
-      "eval_steps_per_second": 6.398,
-      "step": 1500
-    },
-    {
-      "epoch": 0.28594052437093087,
-      "grad_norm": 0.9203604459762573,
-      "learning_rate": 0.0002714235439028682,
-      "loss": 3.1046,
-      "step": 1625
-    },
-    {
-      "epoch": 0.3079359493225409,
-      "grad_norm": 1.0269505977630615,
-      "learning_rate": 0.00026922400140770716,
-      "loss": 3.0836,
-      "step": 1750
-    },
-    {
-      "epoch": 0.329931374274151,
-      "grad_norm": 0.7157150506973267,
-      "learning_rate": 0.0002670244589125462,
-      "loss": 3.095,
-      "step": 1875
-    },
-    {
-      "epoch": 0.35192679922576103,
-      "grad_norm": 0.6990401148796082,
-      "learning_rate": 0.00026482491641738516,
-      "loss": 3.083,
-      "step": 2000
-    },
-    {
-      "epoch": 0.35192679922576103,
-      "eval_loss": 2.6299610137939453,
-      "eval_runtime": 58.9681,
-      "eval_samples_per_second": 167.039,
-      "eval_steps_per_second": 6.427,
-      "step": 2000
-    },
-    {
-      "epoch": 0.3739222241773711,
-      "grad_norm": 0.7473997473716736,
-      "learning_rate": 0.00026262537392222413,
-      "loss": 3.072,
-      "step": 2125
-    },
-    {
-      "epoch": 0.3959176491289812,
-      "grad_norm": 0.8357605338096619,
-      "learning_rate": 0.00026042583142706316,
-      "loss": 3.073,
-      "step": 2250
-    },
-    {
-      "epoch": 0.41791307408059125,
-      "grad_norm": 0.6772239804267883,
-      "learning_rate": 0.00025822628893190213,
-      "loss": 3.0631,
-      "step": 2375
-    },
-    {
-      "epoch": 0.4399084990322013,
-      "grad_norm": 0.8163031339645386,
-      "learning_rate": 0.00025602674643674116,
-      "loss": 3.0659,
-      "step": 2500
-    },
-    {
-      "epoch": 0.4399084990322013,
-      "eval_loss": 2.623256206512451,
-      "eval_runtime": 59.1416,
-      "eval_samples_per_second": 166.55,
-      "eval_steps_per_second": 6.408,
-      "step": 2500
-    },
-    {
-      "epoch": 0.46190392398381136,
-      "grad_norm": 0.7648818492889404,
-      "learning_rate": 0.00025382720394158013,
-      "loss": 3.0765,
-      "step": 2625
-    },
-    {
-      "epoch": 0.4838993489354214,
-      "grad_norm": 0.8686987161636353,
-      "learning_rate": 0.0002516276614464191,
-      "loss": 3.075,
-      "step": 2750
-    },
-    {
-      "epoch": 0.5058947738870315,
-      "grad_norm": 0.721097469329834,
-      "learning_rate": 0.00024942811895125813,
-      "loss": 3.1497,
-      "step": 2875
-    },
-    {
-      "epoch": 0.5278901988386415,
-      "grad_norm": 0.0,
-      "learning_rate": 0.0002472285764560971,
-      "loss": 3.9227,
-      "step": 3000
-    },
-    {
-      "epoch": 0.5278901988386415,
-      "eval_loss": 3.1224141120910645,
-      "eval_runtime": 59.1848,
-      "eval_samples_per_second": 166.428,
-      "eval_steps_per_second": 6.404,
-      "step": 3000
-    },
-    {
-      "epoch": 0.5498856237902516,
-      "grad_norm": 0.0,
-      "learning_rate": 0.0002450290339609361,
-      "loss": 4.0045,
-      "step": 3125
-    },
-    {
-      "epoch": 0.5718810487418617,
-      "grad_norm": NaN,
-      "learning_rate": 0.00024282949146577507,
-      "loss": 4.0077,
-      "step": 3250
-    },
-    {
-      "epoch": 0.5938764736934717,
-      "grad_norm": NaN,
-      "learning_rate": 0.0002406299489706141,
-      "loss": 3.5634,
-      "step": 3375
-    },
-    {
-      "epoch": 0.6158718986450818,
       "grad_norm": NaN,
-      "learning_rate": 0.0002384304064754531,
       "loss": 0.0,
-      "step": 3500
-    },
-    {
-      "epoch": 0.6158718986450818,
-      "eval_loss": NaN,
-      "eval_runtime": 58.2581,
-      "eval_samples_per_second": 169.075,
-      "eval_steps_per_second": 6.506,
-      "step": 3500
     },
     {
-      "epoch": 0.6378673235966918,
       "grad_norm": NaN,
-      "learning_rate": 0.00023623086398029207,
       "loss": 0.0,
-      "step": 3625
     },
     {
-      "epoch": 0.659862748548302,
-      "grad_norm": NaN,
-      "learning_rate": 0.00023403132148513107,
-      "loss": 0.0,
-      "step": 3750
     },
     {
-      "epoch": 0.6818581734999121,
       "grad_norm": NaN,
-      "learning_rate": 0.00023183177898997007,
       "loss": 0.0,
-      "step": 3875
     },
     {
-      "epoch": 0.7038535984515221,
       "grad_norm": NaN,
-      "learning_rate": 0.00022963223649480905,
       "loss": 0.0,
-      "step": 4000
     },
     {
-      "epoch": 0.7038535984515221,
       "eval_loss": NaN,
-      "eval_runtime": 58.3487,
-      "eval_samples_per_second": 168.813,
-      "eval_steps_per_second": 6.495,
-      "step": 4000
     }
   ],
-  "logging_steps": 125,
-  "max_steps": 17049,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
@@ -315,8 +71,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2346851500032000.0,
-  "train_batch_size": 26,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.18950161076369149,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04263786242183058,
       "grad_norm": NaN,
+      "learning_rate": 0.0002957551639188933,
       "loss": 0.0,
+      "step": 225
     },
     {
+      "epoch": 0.08527572484366117,
       "grad_norm": NaN,
+      "learning_rate": 0.0002914913776767102,
       "loss": 0.0,
+      "step": 450
     },
     {
+      "epoch": 0.09475080538184574,
+      "eval_loss": NaN,
+      "eval_runtime": 58.7663,
+      "eval_samples_per_second": 167.613,
+      "eval_steps_per_second": 5.99,
+      "step": 500
     },
     {
+      "epoch": 0.12791358726549176,
       "grad_norm": NaN,
+      "learning_rate": 0.0002872275914345272,
       "loss": 0.0,
+      "step": 675
     },
     {
+      "epoch": 0.17055144968732233,
       "grad_norm": NaN,
+      "learning_rate": 0.0002829638051923441,
       "loss": 0.0,
+      "step": 900
     },
     {
+      "epoch": 0.18950161076369149,
       "eval_loss": NaN,
+      "eval_runtime": 58.8198,
+      "eval_samples_per_second": 167.46,
+      "eval_steps_per_second": 5.984,
+      "step": 1000
     }
   ],
+  "logging_steps": 225,
+  "max_steps": 15831,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
       "attributes": {}
     }
   },
+  "total_flos": 631844634624000.0,
+  "train_batch_size": 28,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-latest/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bef956c560dcdc3bac6492fdc576c6dff35538e184d8d9734adbb5fe3c9b01e
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:669a48aa09ae0e5107616885177fad4ad55736c6332be20bb6f916b99a7e1ab7
 size 6033