Training in progress, step 3120, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +283 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81bb0ca4c8d3f0b7df4168a6f129ab6659286d7cc50f721d7d619b912b04441c
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:6707292d7f654e5124c3e926150bc642c498945f51878660f225650de5246c50
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0da701cf784e178c8d5cc5b6be4781f56ce0027e182866707b0b6d82d08f50d0
 size 141058579

 version https://git-lfs.github.com/spec/v1
+oid sha256:086d9369ed7b9b1b0db7b13e9ce72ff9f192de08d450f900a44752b156fb06a4
 size 141058579

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac8ce587a1f63693d985c5a1ab868e6efb026b5e08677b84eaca40b9a02b9058
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:671dc5d364c5724905180db7a8f088b1689fd04a21018fd65eb0b930b5fd8447
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba1b53ed33622e17fae8a729aa45522b55318b24cb423fed2491721f07b63a63
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5be2b28db77843da54a5469ae9097a28157a8cf17202b01284ef63e0481acf8e
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6058666666666667,
   "eval_steps": 500,
-  "global_step": 2840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2858,6 +2858,286 @@
       "mean_token_accuracy": 0.7862283095717431,
       "num_tokens": 13204391.0,
       "step": 2840
     }
   ],
   "logging_steps": 10,
@@ -2877,7 +3157,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.256929604727194e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6656,
   "eval_steps": 500,
+  "global_step": 3120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7862283095717431,
       "num_tokens": 13204391.0,
       "step": 2840
+    },
+    {
+      "entropy": 0.829298897087574,
+      "epoch": 0.608,
+      "grad_norm": 0.2556048631668091,
+      "learning_rate": 8.176813665984053e-05,
+      "loss": 0.8883259773254395,
+      "mean_token_accuracy": 0.789163002371788,
+      "num_tokens": 13244838.0,
+      "step": 2850
+    },
+    {
+      "entropy": 0.9395963847637177,
+      "epoch": 0.6101333333333333,
+      "grad_norm": 0.19703006744384766,
+      "learning_rate": 8.163429845813997e-05,
+      "loss": 1.0494510650634765,
+      "mean_token_accuracy": 0.7710079193115235,
+      "num_tokens": 13290932.0,
+      "step": 2860
+    },
+    {
+      "entropy": 0.9920587949454784,
+      "epoch": 0.6122666666666666,
+      "grad_norm": 0.2381218671798706,
+      "learning_rate": 8.150008123083838e-05,
+      "loss": 1.0494998931884765,
+      "mean_token_accuracy": 0.7526131421327591,
+      "num_tokens": 13333787.0,
+      "step": 2870
+    },
+    {
+      "entropy": 0.9984497465193272,
+      "epoch": 0.6144,
+      "grad_norm": 0.25819751620292664,
+      "learning_rate": 8.136548658605635e-05,
+      "loss": 1.1107137680053711,
+      "mean_token_accuracy": 0.7557663440704345,
+      "num_tokens": 13382126.0,
+      "step": 2880
+    },
+    {
+      "entropy": 0.9907154351472854,
+      "epoch": 0.6165333333333334,
+      "grad_norm": 0.2328466922044754,
+      "learning_rate": 8.123051613643641e-05,
+      "loss": 1.1184075355529786,
+      "mean_token_accuracy": 0.7595549002289772,
+      "num_tokens": 13430083.0,
+      "step": 2890
+    },
+    {
+      "entropy": 0.9244011230766773,
+      "epoch": 0.6186666666666667,
+      "grad_norm": 0.24781359732151031,
+      "learning_rate": 8.109517149912386e-05,
+      "loss": 1.017502498626709,
+      "mean_token_accuracy": 0.7722871780395508,
+      "num_tokens": 13478876.0,
+      "step": 2900
+    },
+    {
+      "entropy": 0.8886970773339271,
+      "epoch": 0.6208,
+      "grad_norm": 0.2412341833114624,
+      "learning_rate": 8.095945429574724e-05,
+      "loss": 0.9119473457336426,
+      "mean_token_accuracy": 0.7751852914690971,
+      "num_tokens": 13527978.0,
+      "step": 2910
+    },
+    {
+      "entropy": 1.040999775379896,
+      "epoch": 0.6229333333333333,
+      "grad_norm": 0.2708323895931244,
+      "learning_rate": 8.082336615239903e-05,
+      "loss": 1.1017963409423828,
+      "mean_token_accuracy": 0.7445731669664383,
+      "num_tokens": 13579308.0,
+      "step": 2920
+    },
+    {
+      "entropy": 1.0086095616221429,
+      "epoch": 0.6250666666666667,
+      "grad_norm": 0.2506955564022064,
+      "learning_rate": 8.068690869961613e-05,
+      "loss": 1.1194355964660645,
+      "mean_token_accuracy": 0.7530581071972847,
+      "num_tokens": 13632480.0,
+      "step": 2930
+    },
+    {
+      "entropy": 0.9920367047190666,
+      "epoch": 0.6272,
+      "grad_norm": 0.28143101930618286,
+      "learning_rate": 8.055008357236027e-05,
+      "loss": 1.0880350112915038,
+      "mean_token_accuracy": 0.7523079156875611,
+      "num_tokens": 13683250.0,
+      "step": 2940
+    },
+    {
+      "entropy": 0.947841040790081,
+      "epoch": 0.6293333333333333,
+      "grad_norm": 0.34841635823249817,
+      "learning_rate": 8.04128924099985e-05,
+      "loss": 1.013569164276123,
+      "mean_token_accuracy": 0.7690569952130317,
+      "num_tokens": 13724761.0,
+      "step": 2950
+    },
+    {
+      "entropy": 0.8923015877604484,
+      "epoch": 0.6314666666666666,
+      "grad_norm": 0.24537858366966248,
+      "learning_rate": 8.027533685628348e-05,
+      "loss": 0.9606434822082519,
+      "mean_token_accuracy": 0.7777309969067574,
+      "num_tokens": 13771701.0,
+      "step": 2960
+    },
+    {
+      "entropy": 1.082998887449503,
+      "epoch": 0.6336,
+      "grad_norm": 0.2772109806537628,
+      "learning_rate": 8.013741855933386e-05,
+      "loss": 1.155489444732666,
+      "mean_token_accuracy": 0.7356668919324875,
+      "num_tokens": 13824969.0,
+      "step": 2970
+    },
+    {
+      "entropy": 1.0548067845404148,
+      "epoch": 0.6357333333333334,
+      "grad_norm": 0.2706131041049957,
+      "learning_rate": 7.999913917161446e-05,
+      "loss": 1.1606884002685547,
+      "mean_token_accuracy": 0.7461161836981773,
+      "num_tokens": 13879673.0,
+      "step": 2980
+    },
+    {
+      "entropy": 0.9122042678296566,
+      "epoch": 0.6378666666666667,
+      "grad_norm": 0.28579071164131165,
+      "learning_rate": 7.986050034991646e-05,
+      "loss": 1.0014433860778809,
+      "mean_token_accuracy": 0.7702639386057853,
+      "num_tokens": 13923893.0,
+      "step": 2990
+    },
+    {
+      "entropy": 0.856528140604496,
+      "epoch": 0.64,
+      "grad_norm": 0.2646186351776123,
+      "learning_rate": 7.972150375533767e-05,
+      "loss": 0.9789193153381348,
+      "mean_token_accuracy": 0.7824795439839363,
+      "num_tokens": 13967914.0,
+      "step": 3000
+    },
+    {
+      "entropy": 1.013469608873129,
+      "epoch": 0.6421333333333333,
+      "grad_norm": 0.2540909945964813,
+      "learning_rate": 7.958215105326252e-05,
+      "loss": 1.1425801277160645,
+      "mean_token_accuracy": 0.7503237001597881,
+      "num_tokens": 14016335.0,
+      "step": 3010
+    },
+    {
+      "entropy": 0.9561307951807976,
+      "epoch": 0.6442666666666667,
+      "grad_norm": 0.2495027333498001,
+      "learning_rate": 7.94424439133421e-05,
+      "loss": 1.0421770095825196,
+      "mean_token_accuracy": 0.7604482308030128,
+      "num_tokens": 14060745.0,
+      "step": 3020
+    },
+    {
+      "entropy": 0.9330584339797496,
+      "epoch": 0.6464,
+      "grad_norm": 0.26480352878570557,
+      "learning_rate": 7.930238400947422e-05,
+      "loss": 1.0622355461120605,
+      "mean_token_accuracy": 0.7683120101690293,
+      "num_tokens": 14108255.0,
+      "step": 3030
+    },
+    {
+      "entropy": 0.8226673573255538,
+      "epoch": 0.6485333333333333,
+      "grad_norm": 0.2883199453353882,
+      "learning_rate": 7.916197301978331e-05,
+      "loss": 0.8736177444458008,
+      "mean_token_accuracy": 0.7835568472743034,
+      "num_tokens": 14151595.0,
+      "step": 3040
+    },
+    {
+      "entropy": 1.0103112280368804,
+      "epoch": 0.6506666666666666,
+      "grad_norm": 0.2573588788509369,
+      "learning_rate": 7.902121262660036e-05,
+      "loss": 1.1782626152038573,
+      "mean_token_accuracy": 0.7547322385013103,
+      "num_tokens": 14198658.0,
+      "step": 3050
+    },
+    {
+      "entropy": 0.9194101721048356,
+      "epoch": 0.6528,
+      "grad_norm": 0.22869926691055298,
+      "learning_rate": 7.888010451644265e-05,
+      "loss": 0.96375732421875,
+      "mean_token_accuracy": 0.7731851547956466,
+      "num_tokens": 14243252.0,
+      "step": 3060
+    },
+    {
+      "entropy": 0.927897697687149,
+      "epoch": 0.6549333333333334,
+      "grad_norm": 0.32361456751823425,
+      "learning_rate": 7.873865037999373e-05,
+      "loss": 1.0542486190795899,
+      "mean_token_accuracy": 0.7636147439479828,
+      "num_tokens": 14290318.0,
+      "step": 3070
+    },
+    {
+      "entropy": 0.8857385322451592,
+      "epoch": 0.6570666666666667,
+      "grad_norm": 0.25951746106147766,
+      "learning_rate": 7.859685191208297e-05,
+      "loss": 0.9199460983276367,
+      "mean_token_accuracy": 0.7751095175743103,
+      "num_tokens": 14341937.0,
+      "step": 3080
+    },
+    {
+      "entropy": 0.9319920368492604,
+      "epoch": 0.6592,
+      "grad_norm": 0.22098122537136078,
+      "learning_rate": 7.845471081166535e-05,
+      "loss": 1.057561206817627,
+      "mean_token_accuracy": 0.763427771627903,
+      "num_tokens": 14388811.0,
+      "step": 3090
+    },
+    {
+      "entropy": 0.9401551052927971,
+      "epoch": 0.6613333333333333,
+      "grad_norm": 0.25181668996810913,
+      "learning_rate": 7.831222878180115e-05,
+      "loss": 1.0170879364013672,
+      "mean_token_accuracy": 0.7671449035406113,
+      "num_tokens": 14432608.0,
+      "step": 3100
+    },
+    {
+      "entropy": 0.9817736372351646,
+      "epoch": 0.6634666666666666,
+      "grad_norm": 0.25245943665504456,
+      "learning_rate": 7.816940752963543e-05,
+      "loss": 1.1231375694274903,
+      "mean_token_accuracy": 0.7525465905666351,
+      "num_tokens": 14483062.0,
+      "step": 3110
+    },
+    {
+      "entropy": 1.032941934466362,
+      "epoch": 0.6656,
+      "grad_norm": 0.255884051322937,
+      "learning_rate": 7.80262487663777e-05,
+      "loss": 1.1379814147949219,
+      "mean_token_accuracy": 0.7467011958360672,
+      "num_tokens": 14526227.0,
+      "step": 3120
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.879296464710451e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null