Model save

Browse files

Files changed (6) hide show

README.md +5 -5
all_results.json +7 -7
eval_results.json +3 -3
train_results.json +4 -4
trainer_state.json +94 -94
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.4634
-- Accuracy: 0.3762
 ## Model description
@@ -142,9 +142,9 @@ The following hyperparameters were used during training:
 | 3.1362        | 9.7035  | 90000 | 0.3942   | 3.3025          |
 | 3.1261        | 9.8113  | 91000 | 0.3944   | 3.3008          |
 | 3.1183        | 9.9191  | 92000 | 0.3945   | 3.2993          |
-| 3.3291        | 10.0270 | 93000 | 3.4620   | 0.3781          |
-| 3.3628        | 10.1348 | 94000 | 3.4687   | 0.3759          |
-| 3.3893        | 10.2426 | 95000 | 3.4634   | 0.3762          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.4643
+- Accuracy: 0.3759
 ## Model description
 | 3.1362        | 9.7035  | 90000 | 0.3942   | 3.3025          |
 | 3.1261        | 9.8113  | 91000 | 0.3944   | 3.3008          |
 | 3.1183        | 9.9191  | 92000 | 0.3945   | 3.2993          |
+| 3.3293        | 10.0270 | 93000 | 3.4597   | 0.3782          |
+| 3.364         | 10.1348 | 94000 | 3.4676   | 0.3759          |
+| 3.3881        | 10.2426 | 95000 | 3.4643   | 0.3759          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -2,15 +2,15 @@
     "epoch": 10.242587601078167,
     "eval_accuracy": 0.3942060412961377,
     "eval_loss": 3.302459716796875,
-    "eval_runtime": 87.4912,
     "eval_samples": 18011,
-    "eval_samples_per_second": 205.861,
-    "eval_steps_per_second": 12.87,
     "perplexity": 27.179410419842576,
     "total_flos": 7.94262454272e+17,
-    "train_loss": 0.07933730388440584,
-    "train_runtime": 802.2542,
     "train_samples": 296775,
-    "train_samples_per_second": 18496.319,
-    "train_steps_per_second": 578.059
 }

     "epoch": 10.242587601078167,
     "eval_accuracy": 0.3942060412961377,
     "eval_loss": 3.302459716796875,
+    "eval_runtime": 97.9886,
     "eval_samples": 18011,
+    "eval_samples_per_second": 183.807,
+    "eval_steps_per_second": 11.491,
     "perplexity": 27.179410419842576,
     "total_flos": 7.94262454272e+17,
+    "train_loss": 0.07933711596037211,
+    "train_runtime": 850.9952,
     "train_samples": 296775,
+    "train_samples_per_second": 17436.937,
+    "train_steps_per_second": 544.95
 }

eval_results.json CHANGED Viewed

@@ -2,9 +2,9 @@
     "epoch": 10.242587601078167,
     "eval_accuracy": 0.3942060412961377,
     "eval_loss": 3.302459716796875,
-    "eval_runtime": 87.4912,
     "eval_samples": 18011,
-    "eval_samples_per_second": 205.861,
-    "eval_steps_per_second": 12.87,
     "perplexity": 27.179410419842576
 }

     "epoch": 10.242587601078167,
     "eval_accuracy": 0.3942060412961377,
     "eval_loss": 3.302459716796875,
+    "eval_runtime": 97.9886,
     "eval_samples": 18011,
+    "eval_samples_per_second": 183.807,
+    "eval_steps_per_second": 11.491,
     "perplexity": 27.179410419842576
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.242587601078167,
     "total_flos": 7.94262454272e+17,
-    "train_loss": 0.07933730388440584,
-    "train_runtime": 802.2542,
     "train_samples": 296775,
-    "train_samples_per_second": 18496.319,
-    "train_steps_per_second": 578.059
 }

 {
     "epoch": 10.242587601078167,
     "total_flos": 7.94262454272e+17,
+    "train_loss": 0.07933711596037211,
+    "train_runtime": 850.9952,
     "train_samples": 296775,
+    "train_samples_per_second": 17436.937,
+    "train_steps_per_second": 544.95
 }

trainer_state.json CHANGED Viewed

@@ -13823,354 +13823,354 @@
     },
     {
       "epoch": 10.005390835579515,
-      "grad_norm": 0.9870104789733887,
       "learning_rate": 0.0004800828210934972,
       "loss": 3.1549,
       "step": 92800
     },
     {
       "epoch": 10.01078167115903,
-      "grad_norm": 1.0278774499893188,
       "learning_rate": 0.00048001811711420253,
       "loss": 3.2322,
       "step": 92850
     },
     {
       "epoch": 10.016172506738544,
-      "grad_norm": 1.0414958000183105,
       "learning_rate": 0.00047995341313490777,
       "loss": 3.2464,
       "step": 92900
     },
     {
       "epoch": 10.021563342318059,
-      "grad_norm": 1.038140058517456,
       "learning_rate": 0.000479888709155613,
-      "loss": 3.258,
       "step": 92950
     },
     {
       "epoch": 10.026954177897574,
-      "grad_norm": 1.06088387966156,
       "learning_rate": 0.00047982400517631826,
       "loss": 3.3291,
       "step": 93000
     },
     {
       "epoch": 10.026954177897574,
-      "eval_accuracy": 0.37815790111305103,
-      "eval_loss": 3.461848497390747,
-      "eval_runtime": 89.3271,
-      "eval_samples_per_second": 201.63,
-      "eval_steps_per_second": 12.605,
       "step": 93000
     },
     {
       "epoch": 10.032345013477089,
-      "grad_norm": 1.1362773180007935,
       "learning_rate": 0.0004797593011970236,
       "loss": 3.3166,
       "step": 93050
     },
     {
       "epoch": 10.037735849056604,
-      "grad_norm": 0.9830957651138306,
       "learning_rate": 0.00047969459721772885,
-      "loss": 3.3072,
       "step": 93100
     },
     {
       "epoch": 10.04312668463612,
-      "grad_norm": 0.9463051557540894,
       "learning_rate": 0.0004796298932384341,
       "loss": 3.3084,
       "step": 93150
     },
     {
       "epoch": 10.048517520215633,
-      "grad_norm": 1.0279018878936768,
       "learning_rate": 0.00047956518925913944,
       "loss": 3.3284,
       "step": 93200
     },
     {
       "epoch": 10.053908355795148,
-      "grad_norm": 0.9524244666099548,
       "learning_rate": 0.0004795004852798447,
       "loss": 3.3278,
       "step": 93250
     },
     {
       "epoch": 10.059299191374663,
-      "grad_norm": 0.9707924127578735,
       "learning_rate": 0.0004794357813005499,
       "loss": 3.3455,
       "step": 93300
     },
     {
       "epoch": 10.064690026954178,
-      "grad_norm": 1.0046107769012451,
       "learning_rate": 0.00047937107732125517,
       "loss": 3.3333,
       "step": 93350
     },
     {
       "epoch": 10.070080862533693,
-      "grad_norm": 0.9432587623596191,
       "learning_rate": 0.0004793063733419605,
       "loss": 3.3459,
       "step": 93400
     },
     {
       "epoch": 10.075471698113208,
-      "grad_norm": 0.957824170589447,
       "learning_rate": 0.00047924166936266576,
-      "loss": 3.3448,
       "step": 93450
     },
     {
       "epoch": 10.080862533692722,
-      "grad_norm": 0.982549250125885,
       "learning_rate": 0.000479176965383371,
       "loss": 3.3452,
       "step": 93500
     },
     {
       "epoch": 10.086253369272237,
-      "grad_norm": 0.9366627931594849,
       "learning_rate": 0.0004791122614040763,
-      "loss": 3.374,
       "step": 93550
     },
     {
       "epoch": 10.091644204851752,
-      "grad_norm": 1.0103267431259155,
       "learning_rate": 0.0004790475574247816,
-      "loss": 3.3542,
       "step": 93600
     },
     {
       "epoch": 10.097035040431267,
-      "grad_norm": 0.9215944409370422,
       "learning_rate": 0.00047898285344548684,
-      "loss": 3.347,
       "step": 93650
     },
     {
       "epoch": 10.102425876010782,
-      "grad_norm": 0.8961822986602783,
       "learning_rate": 0.00047891814946619213,
-      "loss": 3.3744,
       "step": 93700
     },
     {
       "epoch": 10.107816711590296,
-      "grad_norm": 0.9416046142578125,
       "learning_rate": 0.0004788534454868974,
       "loss": 3.358,
       "step": 93750
     },
     {
       "epoch": 10.11320754716981,
-      "grad_norm": 1.0150768756866455,
       "learning_rate": 0.00047878874150760267,
-      "loss": 3.3535,
       "step": 93800
     },
     {
       "epoch": 10.118598382749326,
-      "grad_norm": 0.946563720703125,
       "learning_rate": 0.00047872403752830797,
-      "loss": 3.3513,
       "step": 93850
     },
     {
       "epoch": 10.123989218328841,
-      "grad_norm": 0.8931189179420471,
       "learning_rate": 0.0004786593335490132,
-      "loss": 3.3631,
       "step": 93900
     },
     {
       "epoch": 10.129380053908356,
-      "grad_norm": 0.8984525799751282,
       "learning_rate": 0.0004785946295697185,
-      "loss": 3.3789,
       "step": 93950
     },
     {
       "epoch": 10.134770889487871,
-      "grad_norm": 0.9255710244178772,
       "learning_rate": 0.0004785299255904238,
-      "loss": 3.3625,
       "step": 94000
     },
     {
       "epoch": 10.134770889487871,
-      "eval_accuracy": 0.3759518128788658,
-      "eval_loss": 3.4679677486419678,
-      "eval_runtime": 88.0975,
-      "eval_samples_per_second": 204.444,
-      "eval_steps_per_second": 12.781,
       "step": 94000
     },
     {
       "epoch": 10.140161725067385,
-      "grad_norm": 0.9162030220031738,
       "learning_rate": 0.00047846522161112905,
-      "loss": 3.3834,
       "step": 94050
     },
     {
       "epoch": 10.1455525606469,
-      "grad_norm": 0.8386930823326111,
       "learning_rate": 0.0004784005176318343,
-      "loss": 3.3664,
       "step": 94100
     },
     {
       "epoch": 10.150943396226415,
-      "grad_norm": 0.8516772985458374,
       "learning_rate": 0.00047833581365253964,
-      "loss": 3.3489,
       "step": 94150
     },
     {
       "epoch": 10.15633423180593,
-      "grad_norm": 0.8449950814247131,
       "learning_rate": 0.0004782711096732449,
-      "loss": 3.3772,
       "step": 94200
     },
     {
       "epoch": 10.161725067385445,
-      "grad_norm": 0.833962082862854,
       "learning_rate": 0.0004782064056939501,
-      "loss": 3.3759,
       "step": 94250
     },
     {
       "epoch": 10.167115902964959,
-      "grad_norm": 0.9096741080284119,
       "learning_rate": 0.00047814170171465536,
-      "loss": 3.3659,
       "step": 94300
     },
     {
       "epoch": 10.172506738544474,
-      "grad_norm": 0.8238817453384399,
       "learning_rate": 0.0004780769977353607,
       "loss": 3.384,
       "step": 94350
     },
     {
       "epoch": 10.177897574123989,
-      "grad_norm": 0.8702091574668884,
       "learning_rate": 0.00047801229375606596,
-      "loss": 3.361,
       "step": 94400
     },
     {
       "epoch": 10.183288409703504,
-      "grad_norm": 0.9051607847213745,
       "learning_rate": 0.0004779475897767712,
-      "loss": 3.3789,
       "step": 94450
     },
     {
       "epoch": 10.18867924528302,
-      "grad_norm": 0.8540977835655212,
       "learning_rate": 0.00047788288579747655,
-      "loss": 3.3747,
       "step": 94500
     },
     {
       "epoch": 10.194070080862534,
-      "grad_norm": 0.8740184307098389,
       "learning_rate": 0.0004778181818181818,
-      "loss": 3.3875,
       "step": 94550
     },
     {
       "epoch": 10.199460916442048,
-      "grad_norm": 0.8435526490211487,
       "learning_rate": 0.00047775347783888703,
-      "loss": 3.3805,
       "step": 94600
     },
     {
       "epoch": 10.204851752021563,
-      "grad_norm": 0.9716430902481079,
       "learning_rate": 0.0004776887738595923,
-      "loss": 3.3824,
       "step": 94650
     },
     {
       "epoch": 10.210242587601078,
-      "grad_norm": 0.8948441743850708,
       "learning_rate": 0.0004776240698802976,
-      "loss": 3.3949,
       "step": 94700
     },
     {
       "epoch": 10.215633423180593,
-      "grad_norm": 0.845777153968811,
       "learning_rate": 0.00047755936590100287,
-      "loss": 3.4005,
       "step": 94750
     },
     {
       "epoch": 10.221024258760108,
-      "grad_norm": 0.7928900122642517,
       "learning_rate": 0.0004774946619217081,
-      "loss": 3.388,
       "step": 94800
     },
     {
       "epoch": 10.226415094339623,
-      "grad_norm": 0.8383722901344299,
       "learning_rate": 0.0004774299579424134,
       "loss": 3.3848,
       "step": 94850
     },
     {
       "epoch": 10.231805929919137,
-      "grad_norm": 0.8034083247184753,
       "learning_rate": 0.0004773652539631187,
-      "loss": 3.387,
       "step": 94900
     },
     {
       "epoch": 10.237196765498652,
-      "grad_norm": 0.8286055326461792,
       "learning_rate": 0.00047730054998382395,
-      "loss": 3.3888,
       "step": 94950
     },
     {
       "epoch": 10.242587601078167,
-      "grad_norm": 0.8412846326828003,
       "learning_rate": 0.00047723584600452924,
-      "loss": 3.3897,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
-      "eval_accuracy": 0.3762232277926264,
-      "eval_loss": 3.462782621383667,
-      "eval_runtime": 88.0025,
-      "eval_samples_per_second": 204.665,
-      "eval_steps_per_second": 12.795,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
       "step": 95000,
       "total_flos": 7.94262454272e+17,
-      "train_loss": 0.07933730388440584,
-      "train_runtime": 802.2542,
-      "train_samples_per_second": 18496.319,
-      "train_steps_per_second": 578.059
     }
   ],
   "logging_steps": 50,

     },
     {
       "epoch": 10.005390835579515,
+      "grad_norm": 0.9861836433410645,
       "learning_rate": 0.0004800828210934972,
       "loss": 3.1549,
       "step": 92800
     },
     {
       "epoch": 10.01078167115903,
+      "grad_norm": 1.027587652206421,
       "learning_rate": 0.00048001811711420253,
       "loss": 3.2322,
       "step": 92850
     },
     {
       "epoch": 10.016172506738544,
+      "grad_norm": 1.0409610271453857,
       "learning_rate": 0.00047995341313490777,
       "loss": 3.2464,
       "step": 92900
     },
     {
       "epoch": 10.021563342318059,
+      "grad_norm": 1.0378363132476807,
       "learning_rate": 0.000479888709155613,
+      "loss": 3.2581,
       "step": 92950
     },
     {
       "epoch": 10.026954177897574,
+      "grad_norm": 1.0601555109024048,
       "learning_rate": 0.00047982400517631826,
       "loss": 3.3291,
       "step": 93000
     },
     {
       "epoch": 10.026954177897574,
+      "eval_accuracy": 0.37814823100603556,
+      "eval_loss": 3.461963415145874,
+      "eval_runtime": 97.7123,
+      "eval_samples_per_second": 184.327,
+      "eval_steps_per_second": 11.524,
       "step": 93000
     },
     {
       "epoch": 10.032345013477089,
+      "grad_norm": 1.1365256309509277,
       "learning_rate": 0.0004797593011970236,
       "loss": 3.3166,
       "step": 93050
     },
     {
       "epoch": 10.037735849056604,
+      "grad_norm": 0.98159259557724,
       "learning_rate": 0.00047969459721772885,
+      "loss": 3.3071,
       "step": 93100
     },
     {
       "epoch": 10.04312668463612,
+      "grad_norm": 0.9453141689300537,
       "learning_rate": 0.0004796298932384341,
       "loss": 3.3084,
       "step": 93150
     },
     {
       "epoch": 10.048517520215633,
+      "grad_norm": 1.0275684595108032,
       "learning_rate": 0.00047956518925913944,
       "loss": 3.3284,
       "step": 93200
     },
     {
       "epoch": 10.053908355795148,
+      "grad_norm": 0.9490914940834045,
       "learning_rate": 0.0004795004852798447,
       "loss": 3.3278,
       "step": 93250
     },
     {
       "epoch": 10.059299191374663,
+      "grad_norm": 0.9708228707313538,
       "learning_rate": 0.0004794357813005499,
       "loss": 3.3455,
       "step": 93300
     },
     {
       "epoch": 10.064690026954178,
+      "grad_norm": 1.0181645154953003,
       "learning_rate": 0.00047937107732125517,
       "loss": 3.3333,
       "step": 93350
     },
     {
       "epoch": 10.070080862533693,
+      "grad_norm": 0.9478178024291992,
       "learning_rate": 0.0004793063733419605,
       "loss": 3.3459,
       "step": 93400
     },
     {
       "epoch": 10.075471698113208,
+      "grad_norm": 0.9686261415481567,
       "learning_rate": 0.00047924166936266576,
+      "loss": 3.3447,
       "step": 93450
     },
     {
       "epoch": 10.080862533692722,
+      "grad_norm": 0.9726437926292419,
       "learning_rate": 0.000479176965383371,
       "loss": 3.3452,
       "step": 93500
     },
     {
       "epoch": 10.086253369272237,
+      "grad_norm": 0.9335893392562866,
       "learning_rate": 0.0004791122614040763,
+      "loss": 3.3739,
       "step": 93550
     },
     {
       "epoch": 10.091644204851752,
+      "grad_norm": 1.01718270778656,
       "learning_rate": 0.0004790475574247816,
+      "loss": 3.3543,
       "step": 93600
     },
     {
       "epoch": 10.097035040431267,
+      "grad_norm": 0.9226274490356445,
       "learning_rate": 0.00047898285344548684,
+      "loss": 3.3471,
       "step": 93650
     },
     {
       "epoch": 10.102425876010782,
+      "grad_norm": 0.8888355493545532,
       "learning_rate": 0.00047891814946619213,
+      "loss": 3.3745,
       "step": 93700
     },
     {
       "epoch": 10.107816711590296,
+      "grad_norm": 0.9315427541732788,
       "learning_rate": 0.0004788534454868974,
       "loss": 3.358,
       "step": 93750
     },
     {
       "epoch": 10.11320754716981,
+      "grad_norm": 1.0317213535308838,
       "learning_rate": 0.00047878874150760267,
+      "loss": 3.3533,
       "step": 93800
     },
     {
       "epoch": 10.118598382749326,
+      "grad_norm": 0.9369990229606628,
       "learning_rate": 0.00047872403752830797,
+      "loss": 3.3518,
       "step": 93850
     },
     {
       "epoch": 10.123989218328841,
+      "grad_norm": 0.9005582332611084,
       "learning_rate": 0.0004786593335490132,
+      "loss": 3.3633,
       "step": 93900
     },
     {
       "epoch": 10.129380053908356,
+      "grad_norm": 0.8802098035812378,
       "learning_rate": 0.0004785946295697185,
+      "loss": 3.3791,
       "step": 93950
     },
     {
       "epoch": 10.134770889487871,
+      "grad_norm": 0.9288963079452515,
       "learning_rate": 0.0004785299255904238,
+      "loss": 3.3628,
       "step": 94000
     },
     {
       "epoch": 10.134770889487871,
+      "eval_accuracy": 0.37585141761052526,
+      "eval_loss": 3.468660831451416,
+      "eval_runtime": 96.5501,
+      "eval_samples_per_second": 186.546,
+      "eval_steps_per_second": 11.662,
       "step": 94000
     },
     {
       "epoch": 10.140161725067385,
+      "grad_norm": 0.9049438834190369,
       "learning_rate": 0.00047846522161112905,
+      "loss": 3.3837,
       "step": 94050
     },
     {
       "epoch": 10.1455525606469,
+      "grad_norm": 0.8451623916625977,
       "learning_rate": 0.0004784005176318343,
+      "loss": 3.3661,
       "step": 94100
     },
     {
       "epoch": 10.150943396226415,
+      "grad_norm": 0.8525308966636658,
       "learning_rate": 0.00047833581365253964,
+      "loss": 3.3488,
       "step": 94150
     },
     {
       "epoch": 10.15633423180593,
+      "grad_norm": 0.8477214574813843,
       "learning_rate": 0.0004782711096732449,
+      "loss": 3.3774,
       "step": 94200
     },
     {
       "epoch": 10.161725067385445,
+      "grad_norm": 0.8376886248588562,
       "learning_rate": 0.0004782064056939501,
+      "loss": 3.3756,
       "step": 94250
     },
     {
       "epoch": 10.167115902964959,
+      "grad_norm": 0.907804548740387,
       "learning_rate": 0.00047814170171465536,
+      "loss": 3.3656,
       "step": 94300
     },
     {
       "epoch": 10.172506738544474,
+      "grad_norm": 0.8110917806625366,
       "learning_rate": 0.0004780769977353607,
       "loss": 3.384,
       "step": 94350
     },
     {
       "epoch": 10.177897574123989,
+      "grad_norm": 0.8640705943107605,
       "learning_rate": 0.00047801229375606596,
+      "loss": 3.3611,
       "step": 94400
     },
     {
       "epoch": 10.183288409703504,
+      "grad_norm": 0.9154790639877319,
       "learning_rate": 0.0004779475897767712,
+      "loss": 3.3792,
       "step": 94450
     },
     {
       "epoch": 10.18867924528302,
+      "grad_norm": 0.8714333176612854,
       "learning_rate": 0.00047788288579747655,
+      "loss": 3.374,
       "step": 94500
     },
     {
       "epoch": 10.194070080862534,
+      "grad_norm": 0.8845873475074768,
       "learning_rate": 0.0004778181818181818,
+      "loss": 3.3883,
       "step": 94550
     },
     {
       "epoch": 10.199460916442048,
+      "grad_norm": 0.8398736715316772,
       "learning_rate": 0.00047775347783888703,
+      "loss": 3.3808,
       "step": 94600
     },
     {
       "epoch": 10.204851752021563,
+      "grad_norm": 0.9570174813270569,
       "learning_rate": 0.0004776887738595923,
+      "loss": 3.3825,
       "step": 94650
     },
     {
       "epoch": 10.210242587601078,
+      "grad_norm": 0.8978366255760193,
       "learning_rate": 0.0004776240698802976,
+      "loss": 3.3948,
       "step": 94700
     },
     {
       "epoch": 10.215633423180593,
+      "grad_norm": 0.8541731238365173,
       "learning_rate": 0.00047755936590100287,
+      "loss": 3.4001,
       "step": 94750
     },
     {
       "epoch": 10.221024258760108,
+      "grad_norm": 0.7903949618339539,
       "learning_rate": 0.0004774946619217081,
+      "loss": 3.3881,
       "step": 94800
     },
     {
       "epoch": 10.226415094339623,
+      "grad_norm": 0.833877444267273,
       "learning_rate": 0.0004774299579424134,
       "loss": 3.3848,
       "step": 94850
     },
     {
       "epoch": 10.231805929919137,
+      "grad_norm": 0.7892668843269348,
       "learning_rate": 0.0004773652539631187,
+      "loss": 3.3865,
       "step": 94900
     },
     {
       "epoch": 10.237196765498652,
+      "grad_norm": 0.8454469442367554,
       "learning_rate": 0.00047730054998382395,
+      "loss": 3.3881,
       "step": 94950
     },
     {
       "epoch": 10.242587601078167,
+      "grad_norm": 0.8297915458679199,
       "learning_rate": 0.00047723584600452924,
+      "loss": 3.3893,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
+      "eval_accuracy": 0.3762282258254659,
+      "eval_loss": 3.463374614715576,
+      "eval_runtime": 98.3735,
+      "eval_samples_per_second": 183.088,
+      "eval_steps_per_second": 11.446,
       "step": 95000
     },
     {
       "epoch": 10.242587601078167,
       "step": 95000,
       "total_flos": 7.94262454272e+17,
+      "train_loss": 0.07933711596037211,
+      "train_runtime": 850.9952,
+      "train_samples_per_second": 17436.937,
+      "train_steps_per_second": 544.95
     }
   ],
   "logging_steps": 50,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4fda409c4b28b17c8ab2eb26acfdfdf4cbb3610fee56a2c7c5c46dcda4c5df3
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2676594d525aaca5c6f85bae5e1a449f3ab6327cccd5609a17294848755bfed
 size 5304