Model save

Browse files

Files changed (6) hide show

README.md +5 -5
all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +109 -109
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.4615
-- Accuracy: 0.3768
 ## Model description
@@ -142,9 +142,9 @@ The following hyperparameters were used during training:
 | 3.127         | 9.7035  | 90000 | 0.3942   | 3.3023          |
 | 3.1309        | 9.8113  | 91000 | 0.3945   | 3.3003          |
 | 3.1271        | 9.9191  | 92000 | 0.3946   | 3.2983          |
-| 3.2875        | 10.0270 | 93000 | 3.4555   | 0.3782          |
-| 3.3637        | 10.1348 | 94000 | 3.4687   | 0.3758          |
-| 3.3803        | 10.2426 | 95000 | 3.4615   | 0.3768          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.4619
+- Accuracy: 0.3767
 ## Model description
 | 3.127         | 9.7035  | 90000 | 0.3942   | 3.3023          |
 | 3.1309        | 9.8113  | 91000 | 0.3945   | 3.3003          |
 | 3.1271        | 9.9191  | 92000 | 0.3946   | 3.2983          |
+| 3.2875        | 10.0270 | 93000 | 3.4554   | 0.3782          |
+| 3.3636        | 10.1348 | 94000 | 3.4681   | 0.3759          |
+| 3.3804        | 10.2426 | 95000 | 3.4619   | 0.3767          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 10.242587601078167,
-    "eval_accuracy": 0.39424646017040466,
-    "eval_loss": 3.3023507595062256,
-    "eval_runtime": 88.8117,
     "eval_samples": 18011,
-    "eval_samples_per_second": 202.8,
-    "eval_steps_per_second": 12.679,
-    "perplexity": 27.176449186248703,
     "total_flos": 7.94262454272e+17,
-    "train_loss": 0.0791919298673931,
-    "train_runtime": 807.5034,
     "train_samples": 296775,
-    "train_samples_per_second": 18376.084,
-    "train_steps_per_second": 574.301
 }

 {
     "epoch": 10.242587601078167,
+    "eval_accuracy": 0.3942401583029114,
+    "eval_loss": 3.3023483753204346,
+    "eval_runtime": 145.9968,
     "eval_samples": 18011,
+    "eval_samples_per_second": 123.366,
+    "eval_steps_per_second": 7.712,
+    "perplexity": 27.176384392621944,
     "total_flos": 7.94262454272e+17,
+    "train_loss": 0.07917592998303866,
+    "train_runtime": 1615.2207,
     "train_samples": 296775,
+    "train_samples_per_second": 9186.825,
+    "train_steps_per_second": 287.112
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 10.242587601078167,
-    "eval_accuracy": 0.39424646017040466,
-    "eval_loss": 3.3023507595062256,
-    "eval_runtime": 88.8117,
     "eval_samples": 18011,
-    "eval_samples_per_second": 202.8,
-    "eval_steps_per_second": 12.679,
-    "perplexity": 27.176449186248703
 }

 {
     "epoch": 10.242587601078167,
+    "eval_accuracy": 0.3942401583029114,
+    "eval_loss": 3.3023483753204346,
+    "eval_runtime": 145.9968,
     "eval_samples": 18011,
+    "eval_samples_per_second": 123.366,
+    "eval_steps_per_second": 7.712,
+    "perplexity": 27.176384392621944
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.242587601078167,
     "total_flos": 7.94262454272e+17,
-    "train_loss": 0.0791919298673931,
-    "train_runtime": 807.5034,
     "train_samples": 296775,
-    "train_samples_per_second": 18376.084,
-    "train_steps_per_second": 574.301
 }

 {
     "epoch": 10.242587601078167,
     "total_flos": 7.94262454272e+17,
+    "train_loss": 0.07917592998303866,
+    "train_runtime": 1615.2207,
     "train_samples": 296775,
+    "train_samples_per_second": 9186.825,
+    "train_steps_per_second": 287.112
 }

trainer_state.json CHANGED Viewed

@@ -13823,354 +13823,354 @@
     },
     {
       "epoch": 10.005390835579515,
-      "grad_norm": 1.061133623123169,
       "learning_rate": 0.0004800828210934972,
-      "loss": 3.1878,
       "step": 92800
     },
     {
       "epoch": 10.01078167115903,
-      "grad_norm": 0.9835329055786133,
       "learning_rate": 0.00048001811711420253,
-      "loss": 3.2187,
       "step": 92850
     },
     {
       "epoch": 10.016172506738544,
-      "grad_norm": 1.0949851274490356,
       "learning_rate": 0.00047995341313490777,
-      "loss": 3.2544,
       "step": 92900
     },
     {
       "epoch": 10.021563342318059,
-      "grad_norm": 0.9610072374343872,
       "learning_rate": 0.000479888709155613,
-      "loss": 3.2683,
       "step": 92950
     },
     {
       "epoch": 10.026954177897574,
-      "grad_norm": 1.0944911241531372,
       "learning_rate": 0.00047982400517631826,
-      "loss": 3.2862,
       "step": 93000
     },
     {
       "epoch": 10.026954177897574,
-      "eval_accuracy": 0.3780824960089078,
-      "eval_loss": 3.455796003341675,
-      "eval_runtime": 89.325,
-      "eval_samples_per_second": 201.634,
-      "eval_steps_per_second": 12.606,
       "step": 93000
     },
     {
       "epoch": 10.032345013477089,
-      "grad_norm": 1.0504255294799805,
       "learning_rate": 0.0004797593011970236,
-      "loss": 3.3038,
       "step": 93050
     },
     {
       "epoch": 10.037735849056604,
-      "grad_norm": 0.9967821836471558,
       "learning_rate": 0.00047969459721772885,
-      "loss": 3.2952,
       "step": 93100
     },
     {
       "epoch": 10.04312668463612,
-      "grad_norm": 0.9232122898101807,
       "learning_rate": 0.0004796298932384341,
-      "loss": 3.3053,
       "step": 93150
     },
     {
       "epoch": 10.048517520215633,
-      "grad_norm": 0.9236720204353333,
       "learning_rate": 0.00047956518925913944,
-      "loss": 3.3268,
       "step": 93200
     },
     {
       "epoch": 10.053908355795148,
-      "grad_norm": 0.9224258065223694,
       "learning_rate": 0.0004795004852798447,
-      "loss": 3.3291,
       "step": 93250
     },
     {
       "epoch": 10.059299191374663,
-      "grad_norm": 0.9071089029312134,
       "learning_rate": 0.0004794357813005499,
-      "loss": 3.3428,
       "step": 93300
     },
     {
       "epoch": 10.064690026954178,
-      "grad_norm": 1.0297411680221558,
       "learning_rate": 0.00047937107732125517,
-      "loss": 3.348,
       "step": 93350
     },
     {
       "epoch": 10.070080862533693,
-      "grad_norm": 0.9237633943557739,
       "learning_rate": 0.0004793063733419605,
-      "loss": 3.3449,
       "step": 93400
     },
     {
       "epoch": 10.075471698113208,
-      "grad_norm": 0.9261939525604248,
       "learning_rate": 0.00047924166936266576,
-      "loss": 3.3479,
       "step": 93450
     },
     {
       "epoch": 10.080862533692722,
-      "grad_norm": 0.908363401889801,
       "learning_rate": 0.000479176965383371,
-      "loss": 3.3268,
       "step": 93500
     },
     {
       "epoch": 10.086253369272237,
-      "grad_norm": 0.9376165866851807,
       "learning_rate": 0.0004791122614040763,
-      "loss": 3.3479,
       "step": 93550
     },
     {
       "epoch": 10.091644204851752,
-      "grad_norm": 0.8748847246170044,
       "learning_rate": 0.0004790475574247816,
-      "loss": 3.3444,
       "step": 93600
     },
     {
       "epoch": 10.097035040431267,
-      "grad_norm": 1.01611328125,
       "learning_rate": 0.00047898285344548684,
-      "loss": 3.3493,
       "step": 93650
     },
     {
       "epoch": 10.102425876010782,
-      "grad_norm": 0.9459721446037292,
       "learning_rate": 0.00047891814946619213,
-      "loss": 3.3607,
       "step": 93700
     },
     {
       "epoch": 10.107816711590296,
-      "grad_norm": 0.9646482467651367,
       "learning_rate": 0.0004788534454868974,
-      "loss": 3.3622,
       "step": 93750
     },
     {
       "epoch": 10.11320754716981,
-      "grad_norm": 0.9537534117698669,
       "learning_rate": 0.00047878874150760267,
-      "loss": 3.3622,
       "step": 93800
     },
     {
       "epoch": 10.118598382749326,
-      "grad_norm": 1.0249472856521606,
       "learning_rate": 0.00047872403752830797,
-      "loss": 3.3617,
       "step": 93850
     },
     {
       "epoch": 10.123989218328841,
-      "grad_norm": 0.8556444644927979,
       "learning_rate": 0.0004786593335490132,
-      "loss": 3.3593,
       "step": 93900
     },
     {
       "epoch": 10.129380053908356,
-      "grad_norm": 0.8687720894813538,
       "learning_rate": 0.0004785946295697185,
-      "loss": 3.3512,
       "step": 93950
     },
     {
       "epoch": 10.134770889487871,
-      "grad_norm": 0.9102461338043213,
       "learning_rate": 0.0004785299255904238,
-      "loss": 3.3655,
       "step": 94000
     },
     {
       "epoch": 10.134770889487871,
-      "eval_accuracy": 0.3753265155094935,
-      "eval_loss": 3.4733729362487793,
-      "eval_runtime": 89.388,
-      "eval_samples_per_second": 201.492,
-      "eval_steps_per_second": 12.597,
       "step": 94000
     },
     {
       "epoch": 10.140161725067385,
-      "grad_norm": 0.841862678527832,
       "learning_rate": 0.00047846522161112905,
-      "loss": 3.3611,
       "step": 94050
     },
     {
       "epoch": 10.1455525606469,
-      "grad_norm": 0.8622251152992249,
       "learning_rate": 0.0004784005176318343,
-      "loss": 3.3623,
       "step": 94100
     },
     {
       "epoch": 10.150943396226415,
-      "grad_norm": 0.8773449063301086,
       "learning_rate": 0.00047833581365253964,
-      "loss": 3.3468,
       "step": 94150
     },
     {
       "epoch": 10.15633423180593,
-      "grad_norm": 0.9133223295211792,
       "learning_rate": 0.0004782711096732449,
-      "loss": 3.38,
       "step": 94200
     },
     {
       "epoch": 10.161725067385445,
-      "grad_norm": 0.8461531400680542,
       "learning_rate": 0.0004782064056939501,
-      "loss": 3.3754,
       "step": 94250
     },
     {
       "epoch": 10.167115902964959,
-      "grad_norm": 0.8179951906204224,
       "learning_rate": 0.00047814170171465536,
-      "loss": 3.3656,
       "step": 94300
     },
     {
       "epoch": 10.172506738544474,
-      "grad_norm": 0.8838762640953064,
       "learning_rate": 0.0004780769977353607,
-      "loss": 3.361,
       "step": 94350
     },
     {
       "epoch": 10.177897574123989,
-      "grad_norm": 0.7873443365097046,
       "learning_rate": 0.00047801229375606596,
-      "loss": 3.3775,
       "step": 94400
     },
     {
       "epoch": 10.183288409703504,
-      "grad_norm": 0.8376643657684326,
       "learning_rate": 0.0004779475897767712,
-      "loss": 3.3773,
       "step": 94450
     },
     {
       "epoch": 10.18867924528302,
-      "grad_norm": 0.8923494219779968,
       "learning_rate": 0.00047788288579747655,
-      "loss": 3.3575,
       "step": 94500
     },
     {
       "epoch": 10.194070080862534,
-      "grad_norm": 0.8959879875183105,
       "learning_rate": 0.0004778181818181818,
-      "loss": 3.3692,
       "step": 94550
     },
     {
       "epoch": 10.199460916442048,
-      "grad_norm": 0.839250385761261,
       "learning_rate": 0.00047775347783888703,
-      "loss": 3.3649,
       "step": 94600
     },
     {
       "epoch": 10.204851752021563,
-      "grad_norm": 0.8262180089950562,
       "learning_rate": 0.0004776887738595923,
-      "loss": 3.3732,
       "step": 94650
     },
     {
       "epoch": 10.210242587601078,
-      "grad_norm": 0.8377062082290649,
       "learning_rate": 0.0004776240698802976,
-      "loss": 3.3857,
       "step": 94700
     },
     {
       "epoch": 10.215633423180593,
-      "grad_norm": 0.7995373606681824,
       "learning_rate": 0.00047755936590100287,
-      "loss": 3.3818,
       "step": 94750
     },
     {
       "epoch": 10.221024258760108,
-      "grad_norm": 0.8877502679824829,
       "learning_rate": 0.0004774946619217081,
-      "loss": 3.3745,
       "step": 94800
     },
     {
       "epoch": 10.226415094339623,
-      "grad_norm": 0.818361759185791,
       "learning_rate": 0.0004774299579424134,
-      "loss": 3.3863,
       "step": 94850
     },
     {
       "epoch": 10.231805929919137,
-      "grad_norm": 0.8026404976844788,
       "learning_rate": 0.0004773652539631187,
-      "loss": 3.3496,
       "step": 94900
     },
     {
       "epoch": 10.237196765498652,
-      "grad_norm": 0.8296047449111938,
       "learning_rate": 0.00047730054998382395,
-      "loss": 3.3826,
       "step": 94950
     },
     {
       "epoch": 10.242587601078167,
-      "grad_norm": 0.8327363729476929,
       "learning_rate": 0.00047723584600452924,
-      "loss": 3.3822,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
-      "eval_accuracy": 0.3765550537120118,
-      "eval_loss": 3.4619879722595215,
-      "eval_runtime": 89.2111,
-      "eval_samples_per_second": 201.892,
-      "eval_steps_per_second": 12.622,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
       "step": 95000,
       "total_flos": 7.94262454272e+17,
-      "train_loss": 0.0791919298673931,
-      "train_runtime": 807.5034,
-      "train_samples_per_second": 18376.084,
-      "train_steps_per_second": 574.301
     }
   ],
   "logging_steps": 50,

     },
     {
       "epoch": 10.005390835579515,
+      "grad_norm": 0.9977272748947144,
       "learning_rate": 0.0004800828210934972,
+      "loss": 3.1867,
       "step": 92800
     },
     {
       "epoch": 10.01078167115903,
+      "grad_norm": 1.0503565073013306,
       "learning_rate": 0.00048001811711420253,
+      "loss": 3.2172,
       "step": 92850
     },
     {
       "epoch": 10.016172506738544,
+      "grad_norm": 1.1011548042297363,
       "learning_rate": 0.00047995341313490777,
+      "loss": 3.2555,
       "step": 92900
     },
     {
       "epoch": 10.021563342318059,
+      "grad_norm": 0.9567869305610657,
       "learning_rate": 0.000479888709155613,
+      "loss": 3.2694,
       "step": 92950
     },
     {
       "epoch": 10.026954177897574,
+      "grad_norm": 1.1113311052322388,
       "learning_rate": 0.00047982400517631826,
+      "loss": 3.2875,
       "step": 93000
     },
     {
       "epoch": 10.026954177897574,
+      "eval_accuracy": 0.37822396206884223,
+      "eval_loss": 3.4554944038391113,
+      "eval_runtime": 146.8369,
+      "eval_samples_per_second": 122.66,
+      "eval_steps_per_second": 7.668,
       "step": 93000
     },
     {
       "epoch": 10.032345013477089,
+      "grad_norm": 1.1876881122589111,
       "learning_rate": 0.0004797593011970236,
+      "loss": 3.3014,
       "step": 93050
     },
     {
       "epoch": 10.037735849056604,
+      "grad_norm": 0.9571216702461243,
       "learning_rate": 0.00047969459721772885,
+      "loss": 3.2934,
       "step": 93100
     },
     {
       "epoch": 10.04312668463612,
+      "grad_norm": 0.9346808195114136,
       "learning_rate": 0.0004796298932384341,
+      "loss": 3.3042,
       "step": 93150
     },
     {
       "epoch": 10.048517520215633,
+      "grad_norm": 0.9184759259223938,
       "learning_rate": 0.00047956518925913944,
+      "loss": 3.3273,
       "step": 93200
     },
     {
       "epoch": 10.053908355795148,
+      "grad_norm": 0.9030526280403137,
       "learning_rate": 0.0004795004852798447,
+      "loss": 3.3273,
       "step": 93250
     },
     {
       "epoch": 10.059299191374663,
+      "grad_norm": 0.9374904632568359,
       "learning_rate": 0.0004794357813005499,
+      "loss": 3.3431,
       "step": 93300
     },
     {
       "epoch": 10.064690026954178,
+      "grad_norm": 1.0782991647720337,
       "learning_rate": 0.00047937107732125517,
+      "loss": 3.3481,
       "step": 93350
     },
     {
       "epoch": 10.070080862533693,
+      "grad_norm": 0.9518354535102844,
       "learning_rate": 0.0004793063733419605,
+      "loss": 3.3441,
       "step": 93400
     },
     {
       "epoch": 10.075471698113208,
+      "grad_norm": 0.9269945621490479,
       "learning_rate": 0.00047924166936266576,
+      "loss": 3.3473,
       "step": 93450
     },
     {
       "epoch": 10.080862533692722,
+      "grad_norm": 0.9213449954986572,
       "learning_rate": 0.000479176965383371,
+      "loss": 3.3259,
       "step": 93500
     },
     {
       "epoch": 10.086253369272237,
+      "grad_norm": 0.9624829292297363,
       "learning_rate": 0.0004791122614040763,
+      "loss": 3.3459,
       "step": 93550
     },
     {
       "epoch": 10.091644204851752,
+      "grad_norm": 0.9101693630218506,
       "learning_rate": 0.0004790475574247816,
+      "loss": 3.3453,
       "step": 93600
     },
     {
       "epoch": 10.097035040431267,
+      "grad_norm": 1.010877251625061,
       "learning_rate": 0.00047898285344548684,
+      "loss": 3.3487,
       "step": 93650
     },
     {
       "epoch": 10.102425876010782,
+      "grad_norm": 0.9577584862709045,
       "learning_rate": 0.00047891814946619213,
+      "loss": 3.3608,
       "step": 93700
     },
     {
       "epoch": 10.107816711590296,
+      "grad_norm": 0.9266205430030823,
       "learning_rate": 0.0004788534454868974,
+      "loss": 3.3607,
       "step": 93750
     },
     {
       "epoch": 10.11320754716981,
+      "grad_norm": 0.9234276413917542,
       "learning_rate": 0.00047878874150760267,
+      "loss": 3.3616,
       "step": 93800
     },
     {
       "epoch": 10.118598382749326,
+      "grad_norm": 1.0343414545059204,
       "learning_rate": 0.00047872403752830797,
+      "loss": 3.3605,
       "step": 93850
     },
     {
       "epoch": 10.123989218328841,
+      "grad_norm": 0.823859691619873,
       "learning_rate": 0.0004786593335490132,
+      "loss": 3.3597,
       "step": 93900
     },
     {
       "epoch": 10.129380053908356,
+      "grad_norm": 0.8498820066452026,
       "learning_rate": 0.0004785946295697185,
+      "loss": 3.3508,
       "step": 93950
     },
     {
       "epoch": 10.134770889487871,
+      "grad_norm": 0.876309871673584,
       "learning_rate": 0.0004785299255904238,
+      "loss": 3.3637,
       "step": 94000
     },
     {
       "epoch": 10.134770889487871,
+      "eval_accuracy": 0.3758454417016954,
+      "eval_loss": 3.4686508178710938,
+      "eval_runtime": 146.2986,
+      "eval_samples_per_second": 123.111,
+      "eval_steps_per_second": 7.697,
       "step": 94000
     },
     {
       "epoch": 10.140161725067385,
+      "grad_norm": 0.8599374294281006,
       "learning_rate": 0.00047846522161112905,
+      "loss": 3.3606,
       "step": 94050
     },
     {
       "epoch": 10.1455525606469,
+      "grad_norm": 0.8754469156265259,
       "learning_rate": 0.0004784005176318343,
+      "loss": 3.3598,
       "step": 94100
     },
     {
       "epoch": 10.150943396226415,
+      "grad_norm": 0.8947704434394836,
       "learning_rate": 0.00047833581365253964,
+      "loss": 3.3447,
       "step": 94150
     },
     {
       "epoch": 10.15633423180593,
+      "grad_norm": 0.9169558882713318,
       "learning_rate": 0.0004782711096732449,
+      "loss": 3.3796,
       "step": 94200
     },
     {
       "epoch": 10.161725067385445,
+      "grad_norm": 0.8607390522956848,
       "learning_rate": 0.0004782064056939501,
+      "loss": 3.3756,
       "step": 94250
     },
     {
       "epoch": 10.167115902964959,
+      "grad_norm": 0.8300653696060181,
       "learning_rate": 0.00047814170171465536,
+      "loss": 3.3631,
       "step": 94300
     },
     {
       "epoch": 10.172506738544474,
+      "grad_norm": 0.9180701375007629,
       "learning_rate": 0.0004780769977353607,
+      "loss": 3.3624,
       "step": 94350
     },
     {
       "epoch": 10.177897574123989,
+      "grad_norm": 0.7899641990661621,
       "learning_rate": 0.00047801229375606596,
+      "loss": 3.3785,
       "step": 94400
     },
     {
       "epoch": 10.183288409703504,
+      "grad_norm": 0.854278028011322,
       "learning_rate": 0.0004779475897767712,
+      "loss": 3.3768,
       "step": 94450
     },
     {
       "epoch": 10.18867924528302,
+      "grad_norm": 0.8559595942497253,
       "learning_rate": 0.00047788288579747655,
+      "loss": 3.357,
       "step": 94500
     },
     {
       "epoch": 10.194070080862534,
+      "grad_norm": 0.9118571877479553,
       "learning_rate": 0.0004778181818181818,
+      "loss": 3.369,
       "step": 94550
     },
     {
       "epoch": 10.199460916442048,
+      "grad_norm": 0.7602856755256653,
       "learning_rate": 0.00047775347783888703,
+      "loss": 3.3648,
       "step": 94600
     },
     {
       "epoch": 10.204851752021563,
+      "grad_norm": 0.8732795715332031,
       "learning_rate": 0.0004776887738595923,
+      "loss": 3.3724,
       "step": 94650
     },
     {
       "epoch": 10.210242587601078,
+      "grad_norm": 0.8687312602996826,
       "learning_rate": 0.0004776240698802976,
+      "loss": 3.384,
       "step": 94700
     },
     {
       "epoch": 10.215633423180593,
+      "grad_norm": 0.8585965037345886,
       "learning_rate": 0.00047755936590100287,
+      "loss": 3.3806,
       "step": 94750
     },
     {
       "epoch": 10.221024258760108,
+      "grad_norm": 0.8676369786262512,
       "learning_rate": 0.0004774946619217081,
+      "loss": 3.3732,
       "step": 94800
     },
     {
       "epoch": 10.226415094339623,
+      "grad_norm": 0.8202512264251709,
       "learning_rate": 0.0004774299579424134,
+      "loss": 3.3866,
       "step": 94850
     },
     {
       "epoch": 10.231805929919137,
+      "grad_norm": 0.8557911515235901,
       "learning_rate": 0.0004773652539631187,
+      "loss": 3.3494,
       "step": 94900
     },
     {
       "epoch": 10.237196765498652,
+      "grad_norm": 0.8179985284805298,
       "learning_rate": 0.00047730054998382395,
+      "loss": 3.3798,
       "step": 94950
     },
     {
       "epoch": 10.242587601078167,
+      "grad_norm": 0.882681667804718,
       "learning_rate": 0.00047723584600452924,
+      "loss": 3.3803,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
+      "eval_accuracy": 0.37679104778434486,
+      "eval_loss": 3.4614784717559814,
+      "eval_runtime": 145.9969,
+      "eval_samples_per_second": 123.366,
+      "eval_steps_per_second": 7.712,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
       "step": 95000,
       "total_flos": 7.94262454272e+17,
+      "train_loss": 0.07917592998303866,
+      "train_runtime": 1615.2207,
+      "train_samples_per_second": 9186.825,
+      "train_steps_per_second": 287.112
     }
   ],
   "logging_steps": 50,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:882662cb7c3c96593236f79f69a924a1001ed28388a83dcd2384fa2b0bf96f8f
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:82e051b88a0db5b9879f5b1f004bda11f82d92ed1846f25896bab93912738a10
 size 5304