mbiarreta commited on
Commit
8a2b9e8
·
verified ·
1 Parent(s): a0b2bdb

🍻 cheers

Browse files
README.md CHANGED
@@ -3,6 +3,7 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: google/vit-base-patch16-224-in21k
5
  tags:
 
6
  - generated_from_trainer
7
  metrics:
8
  - accuracy
@@ -16,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
16
 
17
  # vit-ena24
18
 
19
- This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
  - Loss: 0.1241
22
  - Accuracy: 0.9710
 
3
  license: apache-2.0
4
  base_model: google/vit-base-patch16-224-in21k
5
  tags:
6
+ - image-classification
7
  - generated_from_trainer
8
  metrics:
9
  - accuracy
 
17
 
18
  # vit-ena24
19
 
20
+ This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the beans dataset.
21
  It achieves the following results on the evaluation set:
22
  - Loss: 0.1241
23
  - Accuracy: 0.9710
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.9709923664122138,
4
+ "eval_loss": 0.1240573301911354,
5
+ "eval_runtime": 58.5447,
6
+ "eval_samples_per_second": 22.376,
7
+ "eval_steps_per_second": 2.801,
8
+ "total_flos": 9.520822340772987e+17,
9
+ "train_loss": 0.5513936869877701,
10
+ "train_runtime": 1799.2782,
11
+ "train_samples_per_second": 6.827,
12
+ "train_steps_per_second": 0.854
13
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.9709923664122138,
4
+ "eval_loss": 0.1240573301911354,
5
+ "eval_runtime": 58.5447,
6
+ "eval_samples_per_second": 22.376,
7
+ "eval_steps_per_second": 2.801
8
+ }
runs/Apr02_13-16-37_1cc1d607f404/events.out.tfevents.1743601711.1cc1d607f404.165.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:369bef5c63fe78772fbd1faf92f27585e07e3f6b7aac97562a94811f30dcac30
3
+ size 411
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "total_flos": 9.520822340772987e+17,
4
+ "train_loss": 0.5513936869877701,
5
+ "train_runtime": 1799.2782,
6
+ "train_samples_per_second": 6.827,
7
+ "train_steps_per_second": 0.854
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,1249 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 1500,
3
+ "best_metric": 0.1240573301911354,
4
+ "best_model_checkpoint": "./vit-ena24/checkpoint-1500",
5
+ "epoch": 2.0,
6
+ "eval_steps": 100,
7
+ "global_step": 1536,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.013020833333333334,
14
+ "grad_norm": 3.0722601413726807,
15
+ "learning_rate": 0.00019869791666666668,
16
+ "loss": 3.031,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.026041666666666668,
21
+ "grad_norm": 2.4264492988586426,
22
+ "learning_rate": 0.00019739583333333333,
23
+ "loss": 2.7744,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.0390625,
28
+ "grad_norm": 2.4537649154663086,
29
+ "learning_rate": 0.00019609375,
30
+ "loss": 2.7627,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.052083333333333336,
35
+ "grad_norm": 2.7302908897399902,
36
+ "learning_rate": 0.00019479166666666668,
37
+ "loss": 2.5747,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.06510416666666667,
42
+ "grad_norm": 2.5019726753234863,
43
+ "learning_rate": 0.00019348958333333333,
44
+ "loss": 2.4003,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.078125,
49
+ "grad_norm": 2.628033399581909,
50
+ "learning_rate": 0.0001921875,
51
+ "loss": 2.221,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.09114583333333333,
56
+ "grad_norm": 2.7688052654266357,
57
+ "learning_rate": 0.00019088541666666668,
58
+ "loss": 2.1845,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.10416666666666667,
63
+ "grad_norm": 2.4697251319885254,
64
+ "learning_rate": 0.00018958333333333332,
65
+ "loss": 1.8719,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.1171875,
70
+ "grad_norm": 2.2273764610290527,
71
+ "learning_rate": 0.00018828125,
72
+ "loss": 1.8395,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.13020833333333334,
77
+ "grad_norm": 2.8049874305725098,
78
+ "learning_rate": 0.00018697916666666667,
79
+ "loss": 1.9499,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.13020833333333334,
84
+ "eval_accuracy": 0.5885496183206107,
85
+ "eval_loss": 1.7695176601409912,
86
+ "eval_runtime": 61.1681,
87
+ "eval_samples_per_second": 21.416,
88
+ "eval_steps_per_second": 2.681,
89
+ "step": 100
90
+ },
91
+ {
92
+ "epoch": 0.14322916666666666,
93
+ "grad_norm": 1.92490553855896,
94
+ "learning_rate": 0.00018567708333333335,
95
+ "loss": 1.7157,
96
+ "step": 110
97
+ },
98
+ {
99
+ "epoch": 0.15625,
100
+ "grad_norm": 2.6504788398742676,
101
+ "learning_rate": 0.000184375,
102
+ "loss": 1.7076,
103
+ "step": 120
104
+ },
105
+ {
106
+ "epoch": 0.16927083333333334,
107
+ "grad_norm": 2.9084460735321045,
108
+ "learning_rate": 0.00018307291666666667,
109
+ "loss": 1.5286,
110
+ "step": 130
111
+ },
112
+ {
113
+ "epoch": 0.18229166666666666,
114
+ "grad_norm": 2.2270238399505615,
115
+ "learning_rate": 0.00018177083333333334,
116
+ "loss": 1.4616,
117
+ "step": 140
118
+ },
119
+ {
120
+ "epoch": 0.1953125,
121
+ "grad_norm": 3.2315688133239746,
122
+ "learning_rate": 0.00018046875000000002,
123
+ "loss": 1.3648,
124
+ "step": 150
125
+ },
126
+ {
127
+ "epoch": 0.20833333333333334,
128
+ "grad_norm": 2.666015148162842,
129
+ "learning_rate": 0.0001791666666666667,
130
+ "loss": 1.4065,
131
+ "step": 160
132
+ },
133
+ {
134
+ "epoch": 0.22135416666666666,
135
+ "grad_norm": 2.359640121459961,
136
+ "learning_rate": 0.00017786458333333334,
137
+ "loss": 1.1526,
138
+ "step": 170
139
+ },
140
+ {
141
+ "epoch": 0.234375,
142
+ "grad_norm": 2.60929799079895,
143
+ "learning_rate": 0.00017656250000000002,
144
+ "loss": 1.4927,
145
+ "step": 180
146
+ },
147
+ {
148
+ "epoch": 0.24739583333333334,
149
+ "grad_norm": 2.391559362411499,
150
+ "learning_rate": 0.0001752604166666667,
151
+ "loss": 1.342,
152
+ "step": 190
153
+ },
154
+ {
155
+ "epoch": 0.2604166666666667,
156
+ "grad_norm": 2.897575855255127,
157
+ "learning_rate": 0.00017395833333333334,
158
+ "loss": 1.2926,
159
+ "step": 200
160
+ },
161
+ {
162
+ "epoch": 0.2604166666666667,
163
+ "eval_accuracy": 0.7389312977099237,
164
+ "eval_loss": 1.1301350593566895,
165
+ "eval_runtime": 62.1104,
166
+ "eval_samples_per_second": 21.091,
167
+ "eval_steps_per_second": 2.64,
168
+ "step": 200
169
+ },
170
+ {
171
+ "epoch": 0.2734375,
172
+ "grad_norm": 1.78794264793396,
173
+ "learning_rate": 0.00017265625,
174
+ "loss": 0.9414,
175
+ "step": 210
176
+ },
177
+ {
178
+ "epoch": 0.2864583333333333,
179
+ "grad_norm": 1.964126706123352,
180
+ "learning_rate": 0.0001713541666666667,
181
+ "loss": 1.1701,
182
+ "step": 220
183
+ },
184
+ {
185
+ "epoch": 0.2994791666666667,
186
+ "grad_norm": 5.4335222244262695,
187
+ "learning_rate": 0.00017005208333333333,
188
+ "loss": 1.1313,
189
+ "step": 230
190
+ },
191
+ {
192
+ "epoch": 0.3125,
193
+ "grad_norm": 3.4125571250915527,
194
+ "learning_rate": 0.00016875,
195
+ "loss": 1.0923,
196
+ "step": 240
197
+ },
198
+ {
199
+ "epoch": 0.3255208333333333,
200
+ "grad_norm": 3.207430124282837,
201
+ "learning_rate": 0.00016744791666666668,
202
+ "loss": 1.0682,
203
+ "step": 250
204
+ },
205
+ {
206
+ "epoch": 0.3385416666666667,
207
+ "grad_norm": 5.175798416137695,
208
+ "learning_rate": 0.00016614583333333333,
209
+ "loss": 1.0122,
210
+ "step": 260
211
+ },
212
+ {
213
+ "epoch": 0.3515625,
214
+ "grad_norm": 2.509777784347534,
215
+ "learning_rate": 0.00016484375,
216
+ "loss": 0.8986,
217
+ "step": 270
218
+ },
219
+ {
220
+ "epoch": 0.3645833333333333,
221
+ "grad_norm": 2.8268353939056396,
222
+ "learning_rate": 0.00016354166666666668,
223
+ "loss": 1.0038,
224
+ "step": 280
225
+ },
226
+ {
227
+ "epoch": 0.3776041666666667,
228
+ "grad_norm": 2.010891914367676,
229
+ "learning_rate": 0.00016223958333333333,
230
+ "loss": 0.8838,
231
+ "step": 290
232
+ },
233
+ {
234
+ "epoch": 0.390625,
235
+ "grad_norm": 2.156606435775757,
236
+ "learning_rate": 0.0001609375,
237
+ "loss": 0.8506,
238
+ "step": 300
239
+ },
240
+ {
241
+ "epoch": 0.390625,
242
+ "eval_accuracy": 0.7786259541984732,
243
+ "eval_loss": 0.8699814081192017,
244
+ "eval_runtime": 62.9143,
245
+ "eval_samples_per_second": 20.822,
246
+ "eval_steps_per_second": 2.607,
247
+ "step": 300
248
+ },
249
+ {
250
+ "epoch": 0.4036458333333333,
251
+ "grad_norm": 1.4123530387878418,
252
+ "learning_rate": 0.00015963541666666668,
253
+ "loss": 0.9444,
254
+ "step": 310
255
+ },
256
+ {
257
+ "epoch": 0.4166666666666667,
258
+ "grad_norm": 2.9093761444091797,
259
+ "learning_rate": 0.00015833333333333332,
260
+ "loss": 0.8172,
261
+ "step": 320
262
+ },
263
+ {
264
+ "epoch": 0.4296875,
265
+ "grad_norm": 3.12125825881958,
266
+ "learning_rate": 0.00015703125,
267
+ "loss": 0.6503,
268
+ "step": 330
269
+ },
270
+ {
271
+ "epoch": 0.4427083333333333,
272
+ "grad_norm": 1.1089674234390259,
273
+ "learning_rate": 0.00015572916666666667,
274
+ "loss": 0.6197,
275
+ "step": 340
276
+ },
277
+ {
278
+ "epoch": 0.4557291666666667,
279
+ "grad_norm": 3.4280874729156494,
280
+ "learning_rate": 0.00015442708333333332,
281
+ "loss": 0.6035,
282
+ "step": 350
283
+ },
284
+ {
285
+ "epoch": 0.46875,
286
+ "grad_norm": 2.3865673542022705,
287
+ "learning_rate": 0.000153125,
288
+ "loss": 0.5898,
289
+ "step": 360
290
+ },
291
+ {
292
+ "epoch": 0.4817708333333333,
293
+ "grad_norm": 3.5790512561798096,
294
+ "learning_rate": 0.00015182291666666667,
295
+ "loss": 0.5847,
296
+ "step": 370
297
+ },
298
+ {
299
+ "epoch": 0.4947916666666667,
300
+ "grad_norm": 2.1285228729248047,
301
+ "learning_rate": 0.00015052083333333334,
302
+ "loss": 1.0145,
303
+ "step": 380
304
+ },
305
+ {
306
+ "epoch": 0.5078125,
307
+ "grad_norm": 2.900602340698242,
308
+ "learning_rate": 0.00014921875000000002,
309
+ "loss": 0.6172,
310
+ "step": 390
311
+ },
312
+ {
313
+ "epoch": 0.5208333333333334,
314
+ "grad_norm": 3.4392776489257812,
315
+ "learning_rate": 0.0001479166666666667,
316
+ "loss": 0.6715,
317
+ "step": 400
318
+ },
319
+ {
320
+ "epoch": 0.5208333333333334,
321
+ "eval_accuracy": 0.8396946564885496,
322
+ "eval_loss": 0.7060399651527405,
323
+ "eval_runtime": 60.8536,
324
+ "eval_samples_per_second": 21.527,
325
+ "eval_steps_per_second": 2.695,
326
+ "step": 400
327
+ },
328
+ {
329
+ "epoch": 0.5338541666666666,
330
+ "grad_norm": 1.3393733501434326,
331
+ "learning_rate": 0.00014661458333333334,
332
+ "loss": 0.6946,
333
+ "step": 410
334
+ },
335
+ {
336
+ "epoch": 0.546875,
337
+ "grad_norm": 2.181816816329956,
338
+ "learning_rate": 0.00014531250000000002,
339
+ "loss": 0.5684,
340
+ "step": 420
341
+ },
342
+ {
343
+ "epoch": 0.5598958333333334,
344
+ "grad_norm": 4.672101974487305,
345
+ "learning_rate": 0.0001440104166666667,
346
+ "loss": 0.4329,
347
+ "step": 430
348
+ },
349
+ {
350
+ "epoch": 0.5729166666666666,
351
+ "grad_norm": 1.4188686609268188,
352
+ "learning_rate": 0.00014270833333333334,
353
+ "loss": 0.4638,
354
+ "step": 440
355
+ },
356
+ {
357
+ "epoch": 0.5859375,
358
+ "grad_norm": 8.921753883361816,
359
+ "learning_rate": 0.00014140625,
360
+ "loss": 0.7674,
361
+ "step": 450
362
+ },
363
+ {
364
+ "epoch": 0.5989583333333334,
365
+ "grad_norm": 4.4842352867126465,
366
+ "learning_rate": 0.00014010416666666669,
367
+ "loss": 0.7014,
368
+ "step": 460
369
+ },
370
+ {
371
+ "epoch": 0.6119791666666666,
372
+ "grad_norm": 5.743294715881348,
373
+ "learning_rate": 0.00013880208333333333,
374
+ "loss": 0.7538,
375
+ "step": 470
376
+ },
377
+ {
378
+ "epoch": 0.625,
379
+ "grad_norm": 1.0341393947601318,
380
+ "learning_rate": 0.0001375,
381
+ "loss": 0.6684,
382
+ "step": 480
383
+ },
384
+ {
385
+ "epoch": 0.6380208333333334,
386
+ "grad_norm": 3.5416698455810547,
387
+ "learning_rate": 0.00013619791666666668,
388
+ "loss": 0.4125,
389
+ "step": 490
390
+ },
391
+ {
392
+ "epoch": 0.6510416666666666,
393
+ "grad_norm": 6.88870096206665,
394
+ "learning_rate": 0.00013489583333333333,
395
+ "loss": 0.5668,
396
+ "step": 500
397
+ },
398
+ {
399
+ "epoch": 0.6510416666666666,
400
+ "eval_accuracy": 0.8603053435114504,
401
+ "eval_loss": 0.5340920686721802,
402
+ "eval_runtime": 59.9325,
403
+ "eval_samples_per_second": 21.858,
404
+ "eval_steps_per_second": 2.736,
405
+ "step": 500
406
+ },
407
+ {
408
+ "epoch": 0.6640625,
409
+ "grad_norm": 0.7580458521842957,
410
+ "learning_rate": 0.00013359375,
411
+ "loss": 0.6056,
412
+ "step": 510
413
+ },
414
+ {
415
+ "epoch": 0.6770833333333334,
416
+ "grad_norm": 4.677633285522461,
417
+ "learning_rate": 0.00013229166666666668,
418
+ "loss": 0.7308,
419
+ "step": 520
420
+ },
421
+ {
422
+ "epoch": 0.6901041666666666,
423
+ "grad_norm": 1.9876255989074707,
424
+ "learning_rate": 0.00013098958333333333,
425
+ "loss": 0.6517,
426
+ "step": 530
427
+ },
428
+ {
429
+ "epoch": 0.703125,
430
+ "grad_norm": 3.5517194271087646,
431
+ "learning_rate": 0.0001296875,
432
+ "loss": 0.3811,
433
+ "step": 540
434
+ },
435
+ {
436
+ "epoch": 0.7161458333333334,
437
+ "grad_norm": 1.658909559249878,
438
+ "learning_rate": 0.00012838541666666668,
439
+ "loss": 0.5153,
440
+ "step": 550
441
+ },
442
+ {
443
+ "epoch": 0.7291666666666666,
444
+ "grad_norm": 0.3942301869392395,
445
+ "learning_rate": 0.00012708333333333332,
446
+ "loss": 0.5046,
447
+ "step": 560
448
+ },
449
+ {
450
+ "epoch": 0.7421875,
451
+ "grad_norm": 4.73356819152832,
452
+ "learning_rate": 0.00012578125,
453
+ "loss": 0.6237,
454
+ "step": 570
455
+ },
456
+ {
457
+ "epoch": 0.7552083333333334,
458
+ "grad_norm": 4.091372013092041,
459
+ "learning_rate": 0.00012447916666666667,
460
+ "loss": 0.6311,
461
+ "step": 580
462
+ },
463
+ {
464
+ "epoch": 0.7682291666666666,
465
+ "grad_norm": 5.154061317443848,
466
+ "learning_rate": 0.00012317708333333332,
467
+ "loss": 0.3187,
468
+ "step": 590
469
+ },
470
+ {
471
+ "epoch": 0.78125,
472
+ "grad_norm": 3.486983060836792,
473
+ "learning_rate": 0.00012187500000000001,
474
+ "loss": 0.5531,
475
+ "step": 600
476
+ },
477
+ {
478
+ "epoch": 0.78125,
479
+ "eval_accuracy": 0.8893129770992366,
480
+ "eval_loss": 0.44243791699409485,
481
+ "eval_runtime": 60.1806,
482
+ "eval_samples_per_second": 21.768,
483
+ "eval_steps_per_second": 2.725,
484
+ "step": 600
485
+ },
486
+ {
487
+ "epoch": 0.7942708333333334,
488
+ "grad_norm": 0.35905104875564575,
489
+ "learning_rate": 0.00012057291666666668,
490
+ "loss": 0.3105,
491
+ "step": 610
492
+ },
493
+ {
494
+ "epoch": 0.8072916666666666,
495
+ "grad_norm": 3.2125747203826904,
496
+ "learning_rate": 0.00011927083333333333,
497
+ "loss": 0.4539,
498
+ "step": 620
499
+ },
500
+ {
501
+ "epoch": 0.8203125,
502
+ "grad_norm": 1.6138118505477905,
503
+ "learning_rate": 0.00011796875,
504
+ "loss": 0.4095,
505
+ "step": 630
506
+ },
507
+ {
508
+ "epoch": 0.8333333333333334,
509
+ "grad_norm": 1.9036149978637695,
510
+ "learning_rate": 0.00011666666666666668,
511
+ "loss": 0.4021,
512
+ "step": 640
513
+ },
514
+ {
515
+ "epoch": 0.8463541666666666,
516
+ "grad_norm": 6.64377498626709,
517
+ "learning_rate": 0.00011536458333333333,
518
+ "loss": 0.2135,
519
+ "step": 650
520
+ },
521
+ {
522
+ "epoch": 0.859375,
523
+ "grad_norm": 9.110306739807129,
524
+ "learning_rate": 0.0001140625,
525
+ "loss": 0.3364,
526
+ "step": 660
527
+ },
528
+ {
529
+ "epoch": 0.8723958333333334,
530
+ "grad_norm": 0.41515108942985535,
531
+ "learning_rate": 0.00011276041666666668,
532
+ "loss": 0.2699,
533
+ "step": 670
534
+ },
535
+ {
536
+ "epoch": 0.8854166666666666,
537
+ "grad_norm": 2.9530420303344727,
538
+ "learning_rate": 0.00011145833333333334,
539
+ "loss": 0.534,
540
+ "step": 680
541
+ },
542
+ {
543
+ "epoch": 0.8984375,
544
+ "grad_norm": 2.8452494144439697,
545
+ "learning_rate": 0.00011015625000000001,
546
+ "loss": 0.5152,
547
+ "step": 690
548
+ },
549
+ {
550
+ "epoch": 0.9114583333333334,
551
+ "grad_norm": 0.2534309923648834,
552
+ "learning_rate": 0.00010885416666666669,
553
+ "loss": 0.2316,
554
+ "step": 700
555
+ },
556
+ {
557
+ "epoch": 0.9114583333333334,
558
+ "eval_accuracy": 0.9,
559
+ "eval_loss": 0.3668559193611145,
560
+ "eval_runtime": 59.7253,
561
+ "eval_samples_per_second": 21.934,
562
+ "eval_steps_per_second": 2.746,
563
+ "step": 700
564
+ },
565
+ {
566
+ "epoch": 0.9244791666666666,
567
+ "grad_norm": 5.2680206298828125,
568
+ "learning_rate": 0.00010755208333333333,
569
+ "loss": 0.5104,
570
+ "step": 710
571
+ },
572
+ {
573
+ "epoch": 0.9375,
574
+ "grad_norm": 3.948025703430176,
575
+ "learning_rate": 0.00010625000000000001,
576
+ "loss": 0.4896,
577
+ "step": 720
578
+ },
579
+ {
580
+ "epoch": 0.9505208333333334,
581
+ "grad_norm": 0.9852448105812073,
582
+ "learning_rate": 0.00010494791666666668,
583
+ "loss": 0.2585,
584
+ "step": 730
585
+ },
586
+ {
587
+ "epoch": 0.9635416666666666,
588
+ "grad_norm": 0.18954665958881378,
589
+ "learning_rate": 0.00010364583333333333,
590
+ "loss": 0.2797,
591
+ "step": 740
592
+ },
593
+ {
594
+ "epoch": 0.9765625,
595
+ "grad_norm": 1.220759391784668,
596
+ "learning_rate": 0.00010234375,
597
+ "loss": 0.4115,
598
+ "step": 750
599
+ },
600
+ {
601
+ "epoch": 0.9895833333333334,
602
+ "grad_norm": 0.19437117874622345,
603
+ "learning_rate": 0.00010104166666666668,
604
+ "loss": 0.2969,
605
+ "step": 760
606
+ },
607
+ {
608
+ "epoch": 1.0026041666666667,
609
+ "grad_norm": 3.36908221244812,
610
+ "learning_rate": 9.973958333333334e-05,
611
+ "loss": 0.3022,
612
+ "step": 770
613
+ },
614
+ {
615
+ "epoch": 1.015625,
616
+ "grad_norm": 4.469690799713135,
617
+ "learning_rate": 9.84375e-05,
618
+ "loss": 0.3513,
619
+ "step": 780
620
+ },
621
+ {
622
+ "epoch": 1.0286458333333333,
623
+ "grad_norm": 0.21652820706367493,
624
+ "learning_rate": 9.713541666666666e-05,
625
+ "loss": 0.2065,
626
+ "step": 790
627
+ },
628
+ {
629
+ "epoch": 1.0416666666666667,
630
+ "grad_norm": 3.9520163536071777,
631
+ "learning_rate": 9.583333333333334e-05,
632
+ "loss": 0.2114,
633
+ "step": 800
634
+ },
635
+ {
636
+ "epoch": 1.0416666666666667,
637
+ "eval_accuracy": 0.9374045801526718,
638
+ "eval_loss": 0.26653820276260376,
639
+ "eval_runtime": 60.5917,
640
+ "eval_samples_per_second": 21.62,
641
+ "eval_steps_per_second": 2.707,
642
+ "step": 800
643
+ },
644
+ {
645
+ "epoch": 1.0546875,
646
+ "grad_norm": 0.2229415774345398,
647
+ "learning_rate": 9.453125000000001e-05,
648
+ "loss": 0.1251,
649
+ "step": 810
650
+ },
651
+ {
652
+ "epoch": 1.0677083333333333,
653
+ "grad_norm": 2.231929302215576,
654
+ "learning_rate": 9.322916666666667e-05,
655
+ "loss": 0.1972,
656
+ "step": 820
657
+ },
658
+ {
659
+ "epoch": 1.0807291666666667,
660
+ "grad_norm": 0.3673107326030731,
661
+ "learning_rate": 9.192708333333335e-05,
662
+ "loss": 0.1123,
663
+ "step": 830
664
+ },
665
+ {
666
+ "epoch": 1.09375,
667
+ "grad_norm": 0.2413560450077057,
668
+ "learning_rate": 9.062500000000001e-05,
669
+ "loss": 0.1859,
670
+ "step": 840
671
+ },
672
+ {
673
+ "epoch": 1.1067708333333333,
674
+ "grad_norm": 0.29296183586120605,
675
+ "learning_rate": 8.932291666666667e-05,
676
+ "loss": 0.1734,
677
+ "step": 850
678
+ },
679
+ {
680
+ "epoch": 1.1197916666666667,
681
+ "grad_norm": 0.1393246203660965,
682
+ "learning_rate": 8.802083333333334e-05,
683
+ "loss": 0.1023,
684
+ "step": 860
685
+ },
686
+ {
687
+ "epoch": 1.1328125,
688
+ "grad_norm": 0.2735807001590729,
689
+ "learning_rate": 8.671875e-05,
690
+ "loss": 0.3084,
691
+ "step": 870
692
+ },
693
+ {
694
+ "epoch": 1.1458333333333333,
695
+ "grad_norm": 1.9295347929000854,
696
+ "learning_rate": 8.541666666666666e-05,
697
+ "loss": 0.2324,
698
+ "step": 880
699
+ },
700
+ {
701
+ "epoch": 1.1588541666666667,
702
+ "grad_norm": 1.8442853689193726,
703
+ "learning_rate": 8.411458333333334e-05,
704
+ "loss": 0.3073,
705
+ "step": 890
706
+ },
707
+ {
708
+ "epoch": 1.171875,
709
+ "grad_norm": 0.27216193079948425,
710
+ "learning_rate": 8.28125e-05,
711
+ "loss": 0.1614,
712
+ "step": 900
713
+ },
714
+ {
715
+ "epoch": 1.171875,
716
+ "eval_accuracy": 0.9358778625954198,
717
+ "eval_loss": 0.26842617988586426,
718
+ "eval_runtime": 61.533,
719
+ "eval_samples_per_second": 21.289,
720
+ "eval_steps_per_second": 2.665,
721
+ "step": 900
722
+ },
723
+ {
724
+ "epoch": 1.1848958333333333,
725
+ "grad_norm": 0.31529104709625244,
726
+ "learning_rate": 8.151041666666666e-05,
727
+ "loss": 0.1144,
728
+ "step": 910
729
+ },
730
+ {
731
+ "epoch": 1.1979166666666667,
732
+ "grad_norm": 4.7185282707214355,
733
+ "learning_rate": 8.020833333333334e-05,
734
+ "loss": 0.2046,
735
+ "step": 920
736
+ },
737
+ {
738
+ "epoch": 1.2109375,
739
+ "grad_norm": 1.045372486114502,
740
+ "learning_rate": 7.890625000000001e-05,
741
+ "loss": 0.2476,
742
+ "step": 930
743
+ },
744
+ {
745
+ "epoch": 1.2239583333333333,
746
+ "grad_norm": 1.0386674404144287,
747
+ "learning_rate": 7.760416666666667e-05,
748
+ "loss": 0.2533,
749
+ "step": 940
750
+ },
751
+ {
752
+ "epoch": 1.2369791666666667,
753
+ "grad_norm": 2.500465154647827,
754
+ "learning_rate": 7.630208333333335e-05,
755
+ "loss": 0.4332,
756
+ "step": 950
757
+ },
758
+ {
759
+ "epoch": 1.25,
760
+ "grad_norm": 1.079042673110962,
761
+ "learning_rate": 7.500000000000001e-05,
762
+ "loss": 0.3729,
763
+ "step": 960
764
+ },
765
+ {
766
+ "epoch": 1.2630208333333333,
767
+ "grad_norm": 0.2167169451713562,
768
+ "learning_rate": 7.369791666666667e-05,
769
+ "loss": 0.1837,
770
+ "step": 970
771
+ },
772
+ {
773
+ "epoch": 1.2760416666666667,
774
+ "grad_norm": 0.15448452532291412,
775
+ "learning_rate": 7.239583333333334e-05,
776
+ "loss": 0.2347,
777
+ "step": 980
778
+ },
779
+ {
780
+ "epoch": 1.2890625,
781
+ "grad_norm": 4.789432048797607,
782
+ "learning_rate": 7.109375e-05,
783
+ "loss": 0.1681,
784
+ "step": 990
785
+ },
786
+ {
787
+ "epoch": 1.3020833333333333,
788
+ "grad_norm": 0.5079424381256104,
789
+ "learning_rate": 6.979166666666666e-05,
790
+ "loss": 0.1441,
791
+ "step": 1000
792
+ },
793
+ {
794
+ "epoch": 1.3020833333333333,
795
+ "eval_accuracy": 0.950381679389313,
796
+ "eval_loss": 0.21387264132499695,
797
+ "eval_runtime": 60.067,
798
+ "eval_samples_per_second": 21.809,
799
+ "eval_steps_per_second": 2.73,
800
+ "step": 1000
801
+ },
802
+ {
803
+ "epoch": 1.3151041666666667,
804
+ "grad_norm": 0.6446687579154968,
805
+ "learning_rate": 6.848958333333334e-05,
806
+ "loss": 0.1308,
807
+ "step": 1010
808
+ },
809
+ {
810
+ "epoch": 1.328125,
811
+ "grad_norm": 0.17588114738464355,
812
+ "learning_rate": 6.71875e-05,
813
+ "loss": 0.3116,
814
+ "step": 1020
815
+ },
816
+ {
817
+ "epoch": 1.3411458333333333,
818
+ "grad_norm": 5.327168941497803,
819
+ "learning_rate": 6.588541666666666e-05,
820
+ "loss": 0.1814,
821
+ "step": 1030
822
+ },
823
+ {
824
+ "epoch": 1.3541666666666667,
825
+ "grad_norm": 2.496091842651367,
826
+ "learning_rate": 6.458333333333334e-05,
827
+ "loss": 0.2144,
828
+ "step": 1040
829
+ },
830
+ {
831
+ "epoch": 1.3671875,
832
+ "grad_norm": 0.1502150446176529,
833
+ "learning_rate": 6.328125e-05,
834
+ "loss": 0.1437,
835
+ "step": 1050
836
+ },
837
+ {
838
+ "epoch": 1.3802083333333333,
839
+ "grad_norm": 0.2538672983646393,
840
+ "learning_rate": 6.197916666666667e-05,
841
+ "loss": 0.1433,
842
+ "step": 1060
843
+ },
844
+ {
845
+ "epoch": 1.3932291666666667,
846
+ "grad_norm": 0.08320388197898865,
847
+ "learning_rate": 6.067708333333334e-05,
848
+ "loss": 0.0923,
849
+ "step": 1070
850
+ },
851
+ {
852
+ "epoch": 1.40625,
853
+ "grad_norm": 0.1576339453458786,
854
+ "learning_rate": 5.9375e-05,
855
+ "loss": 0.1077,
856
+ "step": 1080
857
+ },
858
+ {
859
+ "epoch": 1.4192708333333333,
860
+ "grad_norm": 0.2809673249721527,
861
+ "learning_rate": 5.807291666666667e-05,
862
+ "loss": 0.129,
863
+ "step": 1090
864
+ },
865
+ {
866
+ "epoch": 1.4322916666666667,
867
+ "grad_norm": 0.07573004812002182,
868
+ "learning_rate": 5.677083333333334e-05,
869
+ "loss": 0.1,
870
+ "step": 1100
871
+ },
872
+ {
873
+ "epoch": 1.4322916666666667,
874
+ "eval_accuracy": 0.9603053435114504,
875
+ "eval_loss": 0.17950783669948578,
876
+ "eval_runtime": 59.1614,
877
+ "eval_samples_per_second": 22.143,
878
+ "eval_steps_per_second": 2.772,
879
+ "step": 1100
880
+ },
881
+ {
882
+ "epoch": 1.4453125,
883
+ "grad_norm": 3.232757329940796,
884
+ "learning_rate": 5.546875e-05,
885
+ "loss": 0.1563,
886
+ "step": 1110
887
+ },
888
+ {
889
+ "epoch": 1.4583333333333333,
890
+ "grad_norm": 3.8679308891296387,
891
+ "learning_rate": 5.4166666666666664e-05,
892
+ "loss": 0.1467,
893
+ "step": 1120
894
+ },
895
+ {
896
+ "epoch": 1.4713541666666667,
897
+ "grad_norm": 0.15715742111206055,
898
+ "learning_rate": 5.286458333333334e-05,
899
+ "loss": 0.0356,
900
+ "step": 1130
901
+ },
902
+ {
903
+ "epoch": 1.484375,
904
+ "grad_norm": 1.7540335655212402,
905
+ "learning_rate": 5.15625e-05,
906
+ "loss": 0.264,
907
+ "step": 1140
908
+ },
909
+ {
910
+ "epoch": 1.4973958333333333,
911
+ "grad_norm": 0.46123847365379333,
912
+ "learning_rate": 5.026041666666667e-05,
913
+ "loss": 0.1234,
914
+ "step": 1150
915
+ },
916
+ {
917
+ "epoch": 1.5104166666666665,
918
+ "grad_norm": 2.576964855194092,
919
+ "learning_rate": 4.8958333333333335e-05,
920
+ "loss": 0.1651,
921
+ "step": 1160
922
+ },
923
+ {
924
+ "epoch": 1.5234375,
925
+ "grad_norm": 0.09197568893432617,
926
+ "learning_rate": 4.765625e-05,
927
+ "loss": 0.1799,
928
+ "step": 1170
929
+ },
930
+ {
931
+ "epoch": 1.5364583333333335,
932
+ "grad_norm": 0.4775465130805969,
933
+ "learning_rate": 4.635416666666667e-05,
934
+ "loss": 0.2102,
935
+ "step": 1180
936
+ },
937
+ {
938
+ "epoch": 1.5494791666666665,
939
+ "grad_norm": 0.36772438883781433,
940
+ "learning_rate": 4.505208333333333e-05,
941
+ "loss": 0.1065,
942
+ "step": 1190
943
+ },
944
+ {
945
+ "epoch": 1.5625,
946
+ "grad_norm": 0.06261827796697617,
947
+ "learning_rate": 4.375e-05,
948
+ "loss": 0.1394,
949
+ "step": 1200
950
+ },
951
+ {
952
+ "epoch": 1.5625,
953
+ "eval_accuracy": 0.9671755725190839,
954
+ "eval_loss": 0.14713044464588165,
955
+ "eval_runtime": 59.5229,
956
+ "eval_samples_per_second": 22.008,
957
+ "eval_steps_per_second": 2.755,
958
+ "step": 1200
959
+ },
960
+ {
961
+ "epoch": 1.5755208333333335,
962
+ "grad_norm": 0.09620843827724457,
963
+ "learning_rate": 4.244791666666667e-05,
964
+ "loss": 0.0616,
965
+ "step": 1210
966
+ },
967
+ {
968
+ "epoch": 1.5885416666666665,
969
+ "grad_norm": 0.3054959774017334,
970
+ "learning_rate": 4.1145833333333335e-05,
971
+ "loss": 0.1526,
972
+ "step": 1220
973
+ },
974
+ {
975
+ "epoch": 1.6015625,
976
+ "grad_norm": 0.15028196573257446,
977
+ "learning_rate": 3.984375e-05,
978
+ "loss": 0.0677,
979
+ "step": 1230
980
+ },
981
+ {
982
+ "epoch": 1.6145833333333335,
983
+ "grad_norm": 0.4755881130695343,
984
+ "learning_rate": 3.854166666666667e-05,
985
+ "loss": 0.1156,
986
+ "step": 1240
987
+ },
988
+ {
989
+ "epoch": 1.6276041666666665,
990
+ "grad_norm": 0.16299839317798615,
991
+ "learning_rate": 3.723958333333333e-05,
992
+ "loss": 0.0202,
993
+ "step": 1250
994
+ },
995
+ {
996
+ "epoch": 1.640625,
997
+ "grad_norm": 0.05333033949136734,
998
+ "learning_rate": 3.59375e-05,
999
+ "loss": 0.1144,
1000
+ "step": 1260
1001
+ },
1002
+ {
1003
+ "epoch": 1.6536458333333335,
1004
+ "grad_norm": 0.08512204140424728,
1005
+ "learning_rate": 3.463541666666667e-05,
1006
+ "loss": 0.0438,
1007
+ "step": 1270
1008
+ },
1009
+ {
1010
+ "epoch": 1.6666666666666665,
1011
+ "grad_norm": 0.3463301360607147,
1012
+ "learning_rate": 3.3333333333333335e-05,
1013
+ "loss": 0.1687,
1014
+ "step": 1280
1015
+ },
1016
+ {
1017
+ "epoch": 1.6796875,
1018
+ "grad_norm": 2.4247636795043945,
1019
+ "learning_rate": 3.203125e-05,
1020
+ "loss": 0.1979,
1021
+ "step": 1290
1022
+ },
1023
+ {
1024
+ "epoch": 1.6927083333333335,
1025
+ "grad_norm": 0.11793797463178635,
1026
+ "learning_rate": 3.072916666666667e-05,
1027
+ "loss": 0.067,
1028
+ "step": 1300
1029
+ },
1030
+ {
1031
+ "epoch": 1.6927083333333335,
1032
+ "eval_accuracy": 0.9687022900763359,
1033
+ "eval_loss": 0.14118480682373047,
1034
+ "eval_runtime": 59.6258,
1035
+ "eval_samples_per_second": 21.97,
1036
+ "eval_steps_per_second": 2.75,
1037
+ "step": 1300
1038
+ },
1039
+ {
1040
+ "epoch": 1.7057291666666665,
1041
+ "grad_norm": 0.19167575240135193,
1042
+ "learning_rate": 2.942708333333333e-05,
1043
+ "loss": 0.1485,
1044
+ "step": 1310
1045
+ },
1046
+ {
1047
+ "epoch": 1.71875,
1048
+ "grad_norm": 0.17611677944660187,
1049
+ "learning_rate": 2.8125000000000003e-05,
1050
+ "loss": 0.138,
1051
+ "step": 1320
1052
+ },
1053
+ {
1054
+ "epoch": 1.7317708333333335,
1055
+ "grad_norm": 1.6763341426849365,
1056
+ "learning_rate": 2.682291666666667e-05,
1057
+ "loss": 0.1725,
1058
+ "step": 1330
1059
+ },
1060
+ {
1061
+ "epoch": 1.7447916666666665,
1062
+ "grad_norm": 0.09804801642894745,
1063
+ "learning_rate": 2.552083333333333e-05,
1064
+ "loss": 0.0707,
1065
+ "step": 1340
1066
+ },
1067
+ {
1068
+ "epoch": 1.7578125,
1069
+ "grad_norm": 0.18733666837215424,
1070
+ "learning_rate": 2.4218750000000003e-05,
1071
+ "loss": 0.0391,
1072
+ "step": 1350
1073
+ },
1074
+ {
1075
+ "epoch": 1.7708333333333335,
1076
+ "grad_norm": 0.27055248618125916,
1077
+ "learning_rate": 2.2916666666666667e-05,
1078
+ "loss": 0.0787,
1079
+ "step": 1360
1080
+ },
1081
+ {
1082
+ "epoch": 1.7838541666666665,
1083
+ "grad_norm": 1.7702397108078003,
1084
+ "learning_rate": 2.1614583333333335e-05,
1085
+ "loss": 0.1576,
1086
+ "step": 1370
1087
+ },
1088
+ {
1089
+ "epoch": 1.796875,
1090
+ "grad_norm": 0.13192972540855408,
1091
+ "learning_rate": 2.0312500000000002e-05,
1092
+ "loss": 0.047,
1093
+ "step": 1380
1094
+ },
1095
+ {
1096
+ "epoch": 1.8098958333333335,
1097
+ "grad_norm": 0.05426124855875969,
1098
+ "learning_rate": 1.9010416666666667e-05,
1099
+ "loss": 0.1102,
1100
+ "step": 1390
1101
+ },
1102
+ {
1103
+ "epoch": 1.8229166666666665,
1104
+ "grad_norm": 0.07557754963636398,
1105
+ "learning_rate": 1.7708333333333335e-05,
1106
+ "loss": 0.15,
1107
+ "step": 1400
1108
+ },
1109
+ {
1110
+ "epoch": 1.8229166666666665,
1111
+ "eval_accuracy": 0.9694656488549618,
1112
+ "eval_loss": 0.13288851082324982,
1113
+ "eval_runtime": 59.5324,
1114
+ "eval_samples_per_second": 22.005,
1115
+ "eval_steps_per_second": 2.755,
1116
+ "step": 1400
1117
+ },
1118
+ {
1119
+ "epoch": 1.8359375,
1120
+ "grad_norm": 1.602898120880127,
1121
+ "learning_rate": 1.6406250000000002e-05,
1122
+ "loss": 0.1897,
1123
+ "step": 1410
1124
+ },
1125
+ {
1126
+ "epoch": 1.8489583333333335,
1127
+ "grad_norm": 0.08557943254709244,
1128
+ "learning_rate": 1.5104166666666667e-05,
1129
+ "loss": 0.0974,
1130
+ "step": 1420
1131
+ },
1132
+ {
1133
+ "epoch": 1.8619791666666665,
1134
+ "grad_norm": 7.729787826538086,
1135
+ "learning_rate": 1.3802083333333335e-05,
1136
+ "loss": 0.12,
1137
+ "step": 1430
1138
+ },
1139
+ {
1140
+ "epoch": 1.875,
1141
+ "grad_norm": 0.23855291306972504,
1142
+ "learning_rate": 1.25e-05,
1143
+ "loss": 0.0517,
1144
+ "step": 1440
1145
+ },
1146
+ {
1147
+ "epoch": 1.8880208333333335,
1148
+ "grad_norm": 0.30376580357551575,
1149
+ "learning_rate": 1.1197916666666668e-05,
1150
+ "loss": 0.0539,
1151
+ "step": 1450
1152
+ },
1153
+ {
1154
+ "epoch": 1.9010416666666665,
1155
+ "grad_norm": 0.09812232106924057,
1156
+ "learning_rate": 9.895833333333333e-06,
1157
+ "loss": 0.0852,
1158
+ "step": 1460
1159
+ },
1160
+ {
1161
+ "epoch": 1.9140625,
1162
+ "grad_norm": 0.07574792951345444,
1163
+ "learning_rate": 8.59375e-06,
1164
+ "loss": 0.1108,
1165
+ "step": 1470
1166
+ },
1167
+ {
1168
+ "epoch": 1.9270833333333335,
1169
+ "grad_norm": 0.07949287444353104,
1170
+ "learning_rate": 7.2916666666666674e-06,
1171
+ "loss": 0.1038,
1172
+ "step": 1480
1173
+ },
1174
+ {
1175
+ "epoch": 1.9401041666666665,
1176
+ "grad_norm": 0.08240082114934921,
1177
+ "learning_rate": 5.9895833333333335e-06,
1178
+ "loss": 0.0939,
1179
+ "step": 1490
1180
+ },
1181
+ {
1182
+ "epoch": 1.953125,
1183
+ "grad_norm": 0.15334384143352509,
1184
+ "learning_rate": 4.6875000000000004e-06,
1185
+ "loss": 0.0848,
1186
+ "step": 1500
1187
+ },
1188
+ {
1189
+ "epoch": 1.953125,
1190
+ "eval_accuracy": 0.9709923664122138,
1191
+ "eval_loss": 0.1240573301911354,
1192
+ "eval_runtime": 59.8501,
1193
+ "eval_samples_per_second": 21.888,
1194
+ "eval_steps_per_second": 2.74,
1195
+ "step": 1500
1196
+ },
1197
+ {
1198
+ "epoch": 1.9661458333333335,
1199
+ "grad_norm": 3.634660005569458,
1200
+ "learning_rate": 3.3854166666666665e-06,
1201
+ "loss": 0.1126,
1202
+ "step": 1510
1203
+ },
1204
+ {
1205
+ "epoch": 1.9791666666666665,
1206
+ "grad_norm": 0.17326831817626953,
1207
+ "learning_rate": 2.0833333333333334e-06,
1208
+ "loss": 0.0657,
1209
+ "step": 1520
1210
+ },
1211
+ {
1212
+ "epoch": 1.9921875,
1213
+ "grad_norm": 0.06573884189128876,
1214
+ "learning_rate": 7.8125e-07,
1215
+ "loss": 0.2126,
1216
+ "step": 1530
1217
+ },
1218
+ {
1219
+ "epoch": 2.0,
1220
+ "step": 1536,
1221
+ "total_flos": 9.520822340772987e+17,
1222
+ "train_loss": 0.5513936869877701,
1223
+ "train_runtime": 1799.2782,
1224
+ "train_samples_per_second": 6.827,
1225
+ "train_steps_per_second": 0.854
1226
+ }
1227
+ ],
1228
+ "logging_steps": 10,
1229
+ "max_steps": 1536,
1230
+ "num_input_tokens_seen": 0,
1231
+ "num_train_epochs": 2,
1232
+ "save_steps": 100,
1233
+ "stateful_callbacks": {
1234
+ "TrainerControl": {
1235
+ "args": {
1236
+ "should_epoch_stop": false,
1237
+ "should_evaluate": false,
1238
+ "should_log": false,
1239
+ "should_save": true,
1240
+ "should_training_stop": true
1241
+ },
1242
+ "attributes": {}
1243
+ }
1244
+ },
1245
+ "total_flos": 9.520822340772987e+17,
1246
+ "train_batch_size": 8,
1247
+ "trial_name": null,
1248
+ "trial_params": null
1249
+ }