Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.bin +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +400 -100
training_args.bin +1 -1

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:512a0706db9021535a8f4217fb5fff49afa58d65e915f60fd8bf486a65c7aec7
 size 639792909

 version https://git-lfs.github.com/spec/v1
+oid sha256:69e59b1e6ca86aabe4a134fb6cda6e31c43c152c84e9396f92ab05dcdce8d222
 size 639792909

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a4b70d48666c2b5b214bef4fddf11a937d72613742a25a590239f48b6c4898
 size 1279539525

 version https://git-lfs.github.com/spec/v1
+oid sha256:63c22dea1561a4ddccff7a19420a0c4db147310ac0f72710d4ef54be986579f1
 size 1279539525

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:258bf7a890c562829d79562dad92d1dfba085fabdfd43f08bacff8fe22e92dea
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:21da822cb611592092c4a65da42e66edb941b19dd533aad1e0a40e0228ea3a5e
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a03bd55ec967989abd72e176bb55c4192fe56bafe1ccfdaea2dc4dd09d252069
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c2c0790105388e71413fa1315b498e3e67fda20e8db9c016f7c880ef11ee42e
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0687137642258965,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,307 +10,607 @@
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.4845,
       "step": 2
     },
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.3663,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.348,
       "step": 6
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.4455,
       "step": 8
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.4505,
       "step": 10
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.3563,
       "step": 12
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.4392,
       "step": 14
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.4721,
       "step": 16
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.5807,
       "step": 18
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.5857,
       "step": 20
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.6145,
       "step": 22
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.731,
       "step": 24
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.7264,
       "step": 26
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.7315,
       "step": 28
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.6275,
       "step": 30
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.6691,
       "step": 32
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.4815,
       "step": 34
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.6289,
       "step": 36
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.6076,
       "step": 38
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.4068,
       "step": 40
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.2392,
       "step": 42
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.2574,
       "step": 44
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.0909,
       "step": 46
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.0167,
       "step": 48
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.0638,
       "step": 50
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.2216,
       "step": 52
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.2831,
       "step": 54
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.2818,
       "step": 56
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.3064,
       "step": 58
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.3667,
       "step": 60
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.3641,
       "step": 62
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.2072,
       "step": 64
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.3579,
       "step": 66
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.2429,
       "step": 68
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.4467,
       "step": 70
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.442,
       "step": 72
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.3787,
       "step": 74
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.4093,
       "step": 76
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.6003,
       "step": 78
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.4287,
       "step": 80
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.3759,
       "step": 82
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.4175,
       "step": 84
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.4022,
       "step": 86
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.28,
       "step": 88
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.3522,
       "step": 90
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.1827,
       "step": 92
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 0.9555,
       "step": 94
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.0241,
       "step": 96
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.1194,
       "step": 98
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 0.9012,
       "step": 100
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 1,
-  "total_flos": 8257955080790016.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.024906018695080284,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 0.9985,
       "step": 2
     },
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 0.886,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1051,
       "step": 6
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1122,
       "step": 8
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1735,
       "step": 10
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1521,
       "step": 12
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1679,
       "step": 14
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1777,
       "step": 16
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1099,
       "step": 18
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1247,
       "step": 20
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.2112,
       "step": 22
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1689,
       "step": 24
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1411,
       "step": 26
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.3501,
       "step": 28
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.1767,
       "step": 30
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.2272,
       "step": 32
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.2486,
       "step": 34
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.2727,
       "step": 36
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.2661,
       "step": 38
     },
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.333,
       "step": 40
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.3674,
       "step": 42
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.3425,
       "step": 44
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.3959,
       "step": 46
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.3078,
       "step": 48
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 2.4367,
       "step": 50
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9375,
       "step": 52
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.7958,
       "step": 54
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9266,
       "step": 56
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9467,
       "step": 58
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9492,
       "step": 60
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0022,
       "step": 62
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0071,
       "step": 64
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.8606,
       "step": 66
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9849,
       "step": 68
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0246,
       "step": 70
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9328,
       "step": 72
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9118,
       "step": 74
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0096,
       "step": 76
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9651,
       "step": 78
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0071,
       "step": 80
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9272,
       "step": 82
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9486,
       "step": 84
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0818,
       "step": 86
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9924,
       "step": 88
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0475,
       "step": 90
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.1217,
       "step": 92
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0328,
       "step": 94
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.0489,
       "step": 96
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 0.9313,
       "step": 98
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.9119,
       "step": 100
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.7919,
+      "step": 102
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.7663,
+      "step": 104
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8743,
+      "step": 106
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8572,
+      "step": 108
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8919,
+      "step": 110
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8456,
+      "step": 112
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8218,
+      "step": 114
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8647,
+      "step": 116
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8727,
+      "step": 118
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2e-05,
+      "loss": 0.8096,
+      "step": 120
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.9242,
+      "step": 122
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7764,
+      "step": 124
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8185,
+      "step": 126
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7131,
+      "step": 128
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8053,
+      "step": 130
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8017,
+      "step": 132
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8523,
+      "step": 134
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8351,
+      "step": 136
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7854,
+      "step": 138
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8708,
+      "step": 140
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8467,
+      "step": 142
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8095,
+      "step": 144
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.6581,
+      "step": 146
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.9329,
+      "step": 148
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.4044,
+      "step": 150
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.6767,
+      "step": 152
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.761,
+      "step": 154
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.792,
+      "step": 156
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.786,
+      "step": 158
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8145,
+      "step": 160
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8232,
+      "step": 162
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.755,
+      "step": 164
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8011,
+      "step": 166
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8464,
+      "step": 168
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8536,
+      "step": 170
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7742,
+      "step": 172
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.804,
+      "step": 174
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8144,
+      "step": 176
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.729,
+      "step": 178
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7371,
+      "step": 180
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7174,
+      "step": 182
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7451,
+      "step": 184
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8926,
+      "step": 186
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8575,
+      "step": 188
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.9674,
+      "step": 190
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7664,
+      "step": 192
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8667,
+      "step": 194
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8064,
+      "step": 196
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 0.8116,
+      "step": 198
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.1953,
+      "step": 200
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 1,
+  "total_flos": 2.748430712070144e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:026eaf75eb5e67ebfec3d78abe79c02b6b6e7898bc65796f0f1b1ff7973697d1
 size 3963

 version https://git-lfs.github.com/spec/v1
+oid sha256:a46f9ccb8a40684c8a4cca7430124490c6b150e680d2a31cb618fee1006ba524
 size 3963