mbiarreta commited on
Commit
a1a2adf
·
verified ·
1 Parent(s): da9eab4

🍻 cheers

Browse files
README.md CHANGED
@@ -3,6 +3,7 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: google/vit-base-patch16-224-in21k
5
  tags:
 
6
  - generated_from_trainer
7
  metrics:
8
  - accuracy
@@ -17,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
17
 
18
  # vit-ena24-clase
19
 
20
- This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
21
  It achieves the following results on the evaluation set:
22
  - Loss: 0.3132
23
  - Accuracy: 0.9321
 
3
  license: apache-2.0
4
  base_model: google/vit-base-patch16-224-in21k
5
  tags:
6
+ - image-classification
7
  - generated_from_trainer
8
  metrics:
9
  - accuracy
 
18
 
19
  # vit-ena24-clase
20
 
21
+ This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the ena24_MD dataset.
22
  It achieves the following results on the evaluation set:
23
  - Loss: 0.3132
24
  - Accuracy: 0.9321
all_results.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "eval_accuracy": 0.9320610687022901,
4
+ "eval_f1": 0.878929195485808,
5
+ "eval_loss": 0.31322020292282104,
6
+ "eval_runtime": 60.8031,
7
+ "eval_samples_per_second": 21.545,
8
+ "eval_steps_per_second": 2.697,
9
+ "total_flos": 4.7604111703864934e+17,
10
+ "train_loss": 0.9329218550895652,
11
+ "train_runtime": 1211.4391,
12
+ "train_samples_per_second": 5.07,
13
+ "train_steps_per_second": 0.634
14
+ }
eval_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "eval_accuracy": 0.9320610687022901,
4
+ "eval_f1": 0.878929195485808,
5
+ "eval_loss": 0.31322020292282104,
6
+ "eval_runtime": 60.8031,
7
+ "eval_samples_per_second": 21.545,
8
+ "eval_steps_per_second": 2.697
9
+ }
runs/Aug12_00-26-12_ba2a0abc8a06/events.out.tfevents.1754959725.ba2a0abc8a06.475.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4db8c93b7bddd321da7b03f5cf1fbb1b05ff6c65e82d5a037fd0cccc887fae3b
3
+ size 457
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "total_flos": 4.7604111703864934e+17,
4
+ "train_loss": 0.9329218550895652,
5
+ "train_runtime": 1211.4391,
6
+ "train_samples_per_second": 5.07,
7
+ "train_steps_per_second": 0.634
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,645 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 700,
3
+ "best_metric": 0.31322020292282104,
4
+ "best_model_checkpoint": "./vit-ena24-clase/checkpoint-700",
5
+ "epoch": 1.0,
6
+ "eval_steps": 100,
7
+ "global_step": 768,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.013020833333333334,
14
+ "grad_norm": 2.9136159420013428,
15
+ "learning_rate": 0.00019765625,
16
+ "loss": 3.0193,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.026041666666666668,
21
+ "grad_norm": 2.3808610439300537,
22
+ "learning_rate": 0.00019505208333333335,
23
+ "loss": 2.7993,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.0390625,
28
+ "grad_norm": 2.8466873168945312,
29
+ "learning_rate": 0.0001924479166666667,
30
+ "loss": 2.7477,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.052083333333333336,
35
+ "grad_norm": 2.4645440578460693,
36
+ "learning_rate": 0.00018984375000000002,
37
+ "loss": 2.6105,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.06510416666666667,
42
+ "grad_norm": 2.5182878971099854,
43
+ "learning_rate": 0.00018723958333333334,
44
+ "loss": 2.3659,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.078125,
49
+ "grad_norm": 2.2973132133483887,
50
+ "learning_rate": 0.0001846354166666667,
51
+ "loss": 2.1802,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.09114583333333333,
56
+ "grad_norm": 2.9924745559692383,
57
+ "learning_rate": 0.00018203125,
58
+ "loss": 2.1703,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.10416666666666667,
63
+ "grad_norm": 2.4488980770111084,
64
+ "learning_rate": 0.00017942708333333333,
65
+ "loss": 1.8086,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.1171875,
70
+ "grad_norm": 2.935206890106201,
71
+ "learning_rate": 0.00017682291666666668,
72
+ "loss": 1.8366,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.13020833333333334,
77
+ "grad_norm": 2.841130018234253,
78
+ "learning_rate": 0.00017421875,
79
+ "loss": 1.9153,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.13020833333333334,
84
+ "eval_accuracy": 0.5725190839694656,
85
+ "eval_f1": 0.4645958852584343,
86
+ "eval_loss": 1.7646938562393188,
87
+ "eval_runtime": 80.3983,
88
+ "eval_samples_per_second": 16.294,
89
+ "eval_steps_per_second": 2.04,
90
+ "step": 100
91
+ },
92
+ {
93
+ "epoch": 0.14322916666666666,
94
+ "grad_norm": 1.978049397468567,
95
+ "learning_rate": 0.00017161458333333332,
96
+ "loss": 1.7021,
97
+ "step": 110
98
+ },
99
+ {
100
+ "epoch": 0.15625,
101
+ "grad_norm": 3.838554859161377,
102
+ "learning_rate": 0.00016901041666666667,
103
+ "loss": 1.606,
104
+ "step": 120
105
+ },
106
+ {
107
+ "epoch": 0.16927083333333334,
108
+ "grad_norm": 3.2451305389404297,
109
+ "learning_rate": 0.00016640625,
110
+ "loss": 1.5631,
111
+ "step": 130
112
+ },
113
+ {
114
+ "epoch": 0.18229166666666666,
115
+ "grad_norm": 2.3414347171783447,
116
+ "learning_rate": 0.00016380208333333335,
117
+ "loss": 1.4515,
118
+ "step": 140
119
+ },
120
+ {
121
+ "epoch": 0.1953125,
122
+ "grad_norm": 3.25227952003479,
123
+ "learning_rate": 0.0001611979166666667,
124
+ "loss": 1.3315,
125
+ "step": 150
126
+ },
127
+ {
128
+ "epoch": 0.20833333333333334,
129
+ "grad_norm": 4.009838104248047,
130
+ "learning_rate": 0.00015859375000000002,
131
+ "loss": 1.3692,
132
+ "step": 160
133
+ },
134
+ {
135
+ "epoch": 0.22135416666666666,
136
+ "grad_norm": 3.831077814102173,
137
+ "learning_rate": 0.00015598958333333334,
138
+ "loss": 1.1402,
139
+ "step": 170
140
+ },
141
+ {
142
+ "epoch": 0.234375,
143
+ "grad_norm": 4.556130886077881,
144
+ "learning_rate": 0.0001533854166666667,
145
+ "loss": 1.4215,
146
+ "step": 180
147
+ },
148
+ {
149
+ "epoch": 0.24739583333333334,
150
+ "grad_norm": 1.8576217889785767,
151
+ "learning_rate": 0.00015078125,
152
+ "loss": 1.2708,
153
+ "step": 190
154
+ },
155
+ {
156
+ "epoch": 0.2604166666666667,
157
+ "grad_norm": 2.6255905628204346,
158
+ "learning_rate": 0.00014817708333333333,
159
+ "loss": 1.2463,
160
+ "step": 200
161
+ },
162
+ {
163
+ "epoch": 0.2604166666666667,
164
+ "eval_accuracy": 0.7641221374045801,
165
+ "eval_f1": 0.6932650150404468,
166
+ "eval_loss": 1.1007627248764038,
167
+ "eval_runtime": 80.2425,
168
+ "eval_samples_per_second": 16.326,
169
+ "eval_steps_per_second": 2.044,
170
+ "step": 200
171
+ },
172
+ {
173
+ "epoch": 0.2734375,
174
+ "grad_norm": 1.541453242301941,
175
+ "learning_rate": 0.00014557291666666668,
176
+ "loss": 0.9071,
177
+ "step": 210
178
+ },
179
+ {
180
+ "epoch": 0.2864583333333333,
181
+ "grad_norm": 2.118795871734619,
182
+ "learning_rate": 0.00014296875,
183
+ "loss": 1.227,
184
+ "step": 220
185
+ },
186
+ {
187
+ "epoch": 0.2994791666666667,
188
+ "grad_norm": 4.64823579788208,
189
+ "learning_rate": 0.00014036458333333332,
190
+ "loss": 1.1662,
191
+ "step": 230
192
+ },
193
+ {
194
+ "epoch": 0.3125,
195
+ "grad_norm": 4.002511024475098,
196
+ "learning_rate": 0.00013776041666666667,
197
+ "loss": 1.1199,
198
+ "step": 240
199
+ },
200
+ {
201
+ "epoch": 0.3255208333333333,
202
+ "grad_norm": 2.231586456298828,
203
+ "learning_rate": 0.00013515625,
204
+ "loss": 0.9278,
205
+ "step": 250
206
+ },
207
+ {
208
+ "epoch": 0.3385416666666667,
209
+ "grad_norm": 4.344457626342773,
210
+ "learning_rate": 0.00013255208333333334,
211
+ "loss": 1.0149,
212
+ "step": 260
213
+ },
214
+ {
215
+ "epoch": 0.3515625,
216
+ "grad_norm": 3.3675150871276855,
217
+ "learning_rate": 0.0001299479166666667,
218
+ "loss": 0.8122,
219
+ "step": 270
220
+ },
221
+ {
222
+ "epoch": 0.3645833333333333,
223
+ "grad_norm": 4.569275379180908,
224
+ "learning_rate": 0.00012734375000000002,
225
+ "loss": 1.1547,
226
+ "step": 280
227
+ },
228
+ {
229
+ "epoch": 0.3776041666666667,
230
+ "grad_norm": 7.2577056884765625,
231
+ "learning_rate": 0.00012473958333333334,
232
+ "loss": 0.8584,
233
+ "step": 290
234
+ },
235
+ {
236
+ "epoch": 0.390625,
237
+ "grad_norm": 1.9357669353485107,
238
+ "learning_rate": 0.0001221354166666667,
239
+ "loss": 0.884,
240
+ "step": 300
241
+ },
242
+ {
243
+ "epoch": 0.390625,
244
+ "eval_accuracy": 0.783206106870229,
245
+ "eval_f1": 0.7112739549768266,
246
+ "eval_loss": 0.9143364429473877,
247
+ "eval_runtime": 76.8791,
248
+ "eval_samples_per_second": 17.04,
249
+ "eval_steps_per_second": 2.133,
250
+ "step": 300
251
+ },
252
+ {
253
+ "epoch": 0.4036458333333333,
254
+ "grad_norm": 1.330380916595459,
255
+ "learning_rate": 0.00011953125000000001,
256
+ "loss": 0.9432,
257
+ "step": 310
258
+ },
259
+ {
260
+ "epoch": 0.4166666666666667,
261
+ "grad_norm": 2.399350643157959,
262
+ "learning_rate": 0.00011692708333333333,
263
+ "loss": 0.8459,
264
+ "step": 320
265
+ },
266
+ {
267
+ "epoch": 0.4296875,
268
+ "grad_norm": 2.1869707107543945,
269
+ "learning_rate": 0.00011432291666666668,
270
+ "loss": 0.7181,
271
+ "step": 330
272
+ },
273
+ {
274
+ "epoch": 0.4427083333333333,
275
+ "grad_norm": 1.096358060836792,
276
+ "learning_rate": 0.00011171875,
277
+ "loss": 0.5569,
278
+ "step": 340
279
+ },
280
+ {
281
+ "epoch": 0.4557291666666667,
282
+ "grad_norm": 2.5247671604156494,
283
+ "learning_rate": 0.00010911458333333334,
284
+ "loss": 0.5736,
285
+ "step": 350
286
+ },
287
+ {
288
+ "epoch": 0.46875,
289
+ "grad_norm": 2.0583877563476562,
290
+ "learning_rate": 0.00010651041666666667,
291
+ "loss": 0.5871,
292
+ "step": 360
293
+ },
294
+ {
295
+ "epoch": 0.4817708333333333,
296
+ "grad_norm": 1.8924134969711304,
297
+ "learning_rate": 0.00010390625000000001,
298
+ "loss": 0.6245,
299
+ "step": 370
300
+ },
301
+ {
302
+ "epoch": 0.4947916666666667,
303
+ "grad_norm": 2.7611899375915527,
304
+ "learning_rate": 0.00010130208333333333,
305
+ "loss": 1.0024,
306
+ "step": 380
307
+ },
308
+ {
309
+ "epoch": 0.5078125,
310
+ "grad_norm": 2.3983047008514404,
311
+ "learning_rate": 9.869791666666667e-05,
312
+ "loss": 0.6246,
313
+ "step": 390
314
+ },
315
+ {
316
+ "epoch": 0.5208333333333334,
317
+ "grad_norm": 4.21718168258667,
318
+ "learning_rate": 9.609375e-05,
319
+ "loss": 0.6852,
320
+ "step": 400
321
+ },
322
+ {
323
+ "epoch": 0.5208333333333334,
324
+ "eval_accuracy": 0.8648854961832061,
325
+ "eval_f1": 0.8027433119068881,
326
+ "eval_loss": 0.6161403059959412,
327
+ "eval_runtime": 57.8706,
328
+ "eval_samples_per_second": 22.637,
329
+ "eval_steps_per_second": 2.834,
330
+ "step": 400
331
+ },
332
+ {
333
+ "epoch": 0.5338541666666666,
334
+ "grad_norm": 0.9279044270515442,
335
+ "learning_rate": 9.348958333333334e-05,
336
+ "loss": 0.6579,
337
+ "step": 410
338
+ },
339
+ {
340
+ "epoch": 0.546875,
341
+ "grad_norm": 1.944657802581787,
342
+ "learning_rate": 9.088541666666667e-05,
343
+ "loss": 0.6463,
344
+ "step": 420
345
+ },
346
+ {
347
+ "epoch": 0.5598958333333334,
348
+ "grad_norm": 1.5608443021774292,
349
+ "learning_rate": 8.828125000000001e-05,
350
+ "loss": 0.511,
351
+ "step": 430
352
+ },
353
+ {
354
+ "epoch": 0.5729166666666666,
355
+ "grad_norm": 2.153334617614746,
356
+ "learning_rate": 8.567708333333334e-05,
357
+ "loss": 0.4522,
358
+ "step": 440
359
+ },
360
+ {
361
+ "epoch": 0.5859375,
362
+ "grad_norm": 2.5961196422576904,
363
+ "learning_rate": 8.307291666666667e-05,
364
+ "loss": 0.6923,
365
+ "step": 450
366
+ },
367
+ {
368
+ "epoch": 0.5989583333333334,
369
+ "grad_norm": 8.20881462097168,
370
+ "learning_rate": 8.046875e-05,
371
+ "loss": 0.7458,
372
+ "step": 460
373
+ },
374
+ {
375
+ "epoch": 0.6119791666666666,
376
+ "grad_norm": 3.0623526573181152,
377
+ "learning_rate": 7.786458333333334e-05,
378
+ "loss": 0.6869,
379
+ "step": 470
380
+ },
381
+ {
382
+ "epoch": 0.625,
383
+ "grad_norm": 3.7377140522003174,
384
+ "learning_rate": 7.526041666666667e-05,
385
+ "loss": 0.5997,
386
+ "step": 480
387
+ },
388
+ {
389
+ "epoch": 0.6380208333333334,
390
+ "grad_norm": 1.7926647663116455,
391
+ "learning_rate": 7.265625000000001e-05,
392
+ "loss": 0.339,
393
+ "step": 490
394
+ },
395
+ {
396
+ "epoch": 0.6510416666666666,
397
+ "grad_norm": 0.831264317035675,
398
+ "learning_rate": 7.005208333333334e-05,
399
+ "loss": 0.5318,
400
+ "step": 500
401
+ },
402
+ {
403
+ "epoch": 0.6510416666666666,
404
+ "eval_accuracy": 0.8946564885496183,
405
+ "eval_f1": 0.8375824690045511,
406
+ "eval_loss": 0.46913737058639526,
407
+ "eval_runtime": 58.7034,
408
+ "eval_samples_per_second": 22.316,
409
+ "eval_steps_per_second": 2.794,
410
+ "step": 500
411
+ },
412
+ {
413
+ "epoch": 0.6640625,
414
+ "grad_norm": 2.2791216373443604,
415
+ "learning_rate": 6.744791666666667e-05,
416
+ "loss": 0.5303,
417
+ "step": 510
418
+ },
419
+ {
420
+ "epoch": 0.6770833333333334,
421
+ "grad_norm": 8.944572448730469,
422
+ "learning_rate": 6.484375e-05,
423
+ "loss": 0.7781,
424
+ "step": 520
425
+ },
426
+ {
427
+ "epoch": 0.6901041666666666,
428
+ "grad_norm": 2.116546392440796,
429
+ "learning_rate": 6.223958333333334e-05,
430
+ "loss": 0.6038,
431
+ "step": 530
432
+ },
433
+ {
434
+ "epoch": 0.703125,
435
+ "grad_norm": 2.7448010444641113,
436
+ "learning_rate": 5.9635416666666665e-05,
437
+ "loss": 0.3419,
438
+ "step": 540
439
+ },
440
+ {
441
+ "epoch": 0.7161458333333334,
442
+ "grad_norm": 1.1109596490859985,
443
+ "learning_rate": 5.703125e-05,
444
+ "loss": 0.5202,
445
+ "step": 550
446
+ },
447
+ {
448
+ "epoch": 0.7291666666666666,
449
+ "grad_norm": 0.46282243728637695,
450
+ "learning_rate": 5.442708333333334e-05,
451
+ "loss": 0.477,
452
+ "step": 560
453
+ },
454
+ {
455
+ "epoch": 0.7421875,
456
+ "grad_norm": 2.3069491386413574,
457
+ "learning_rate": 5.1822916666666665e-05,
458
+ "loss": 0.4041,
459
+ "step": 570
460
+ },
461
+ {
462
+ "epoch": 0.7552083333333334,
463
+ "grad_norm": 7.2379655838012695,
464
+ "learning_rate": 4.921875e-05,
465
+ "loss": 0.5449,
466
+ "step": 580
467
+ },
468
+ {
469
+ "epoch": 0.7682291666666666,
470
+ "grad_norm": 1.788082242012024,
471
+ "learning_rate": 4.6614583333333336e-05,
472
+ "loss": 0.2639,
473
+ "step": 590
474
+ },
475
+ {
476
+ "epoch": 0.78125,
477
+ "grad_norm": 2.0945539474487305,
478
+ "learning_rate": 4.401041666666667e-05,
479
+ "loss": 0.5544,
480
+ "step": 600
481
+ },
482
+ {
483
+ "epoch": 0.78125,
484
+ "eval_accuracy": 0.9152671755725191,
485
+ "eval_f1": 0.898366041912979,
486
+ "eval_loss": 0.3783359229564667,
487
+ "eval_runtime": 58.3514,
488
+ "eval_samples_per_second": 22.45,
489
+ "eval_steps_per_second": 2.811,
490
+ "step": 600
491
+ },
492
+ {
493
+ "epoch": 0.7942708333333334,
494
+ "grad_norm": 0.33394262194633484,
495
+ "learning_rate": 4.140625e-05,
496
+ "loss": 0.3429,
497
+ "step": 610
498
+ },
499
+ {
500
+ "epoch": 0.8072916666666666,
501
+ "grad_norm": 1.3352487087249756,
502
+ "learning_rate": 3.8802083333333336e-05,
503
+ "loss": 0.3842,
504
+ "step": 620
505
+ },
506
+ {
507
+ "epoch": 0.8203125,
508
+ "grad_norm": 1.9343860149383545,
509
+ "learning_rate": 3.619791666666667e-05,
510
+ "loss": 0.3926,
511
+ "step": 630
512
+ },
513
+ {
514
+ "epoch": 0.8333333333333334,
515
+ "grad_norm": 2.879375696182251,
516
+ "learning_rate": 3.359375e-05,
517
+ "loss": 0.3239,
518
+ "step": 640
519
+ },
520
+ {
521
+ "epoch": 0.8463541666666666,
522
+ "grad_norm": 1.077412724494934,
523
+ "learning_rate": 3.0989583333333336e-05,
524
+ "loss": 0.2097,
525
+ "step": 650
526
+ },
527
+ {
528
+ "epoch": 0.859375,
529
+ "grad_norm": 1.6046684980392456,
530
+ "learning_rate": 2.838541666666667e-05,
531
+ "loss": 0.2736,
532
+ "step": 660
533
+ },
534
+ {
535
+ "epoch": 0.8723958333333334,
536
+ "grad_norm": 0.9762991070747375,
537
+ "learning_rate": 2.578125e-05,
538
+ "loss": 0.3271,
539
+ "step": 670
540
+ },
541
+ {
542
+ "epoch": 0.8854166666666666,
543
+ "grad_norm": 3.991189479827881,
544
+ "learning_rate": 2.3177083333333335e-05,
545
+ "loss": 0.4693,
546
+ "step": 680
547
+ },
548
+ {
549
+ "epoch": 0.8984375,
550
+ "grad_norm": 0.9380645155906677,
551
+ "learning_rate": 2.0572916666666668e-05,
552
+ "loss": 0.4921,
553
+ "step": 690
554
+ },
555
+ {
556
+ "epoch": 0.9114583333333334,
557
+ "grad_norm": 0.30667611956596375,
558
+ "learning_rate": 1.796875e-05,
559
+ "loss": 0.2321,
560
+ "step": 700
561
+ },
562
+ {
563
+ "epoch": 0.9114583333333334,
564
+ "eval_accuracy": 0.9320610687022901,
565
+ "eval_f1": 0.878929195485808,
566
+ "eval_loss": 0.31322020292282104,
567
+ "eval_runtime": 59.3146,
568
+ "eval_samples_per_second": 22.086,
569
+ "eval_steps_per_second": 2.765,
570
+ "step": 700
571
+ },
572
+ {
573
+ "epoch": 0.9244791666666666,
574
+ "grad_norm": 4.246342182159424,
575
+ "learning_rate": 1.5364583333333335e-05,
576
+ "loss": 0.4772,
577
+ "step": 710
578
+ },
579
+ {
580
+ "epoch": 0.9375,
581
+ "grad_norm": 5.404312610626221,
582
+ "learning_rate": 1.2760416666666666e-05,
583
+ "loss": 0.4208,
584
+ "step": 720
585
+ },
586
+ {
587
+ "epoch": 0.9505208333333334,
588
+ "grad_norm": 4.308945655822754,
589
+ "learning_rate": 1.0156250000000001e-05,
590
+ "loss": 0.3819,
591
+ "step": 730
592
+ },
593
+ {
594
+ "epoch": 0.9635416666666666,
595
+ "grad_norm": 0.27945882081985474,
596
+ "learning_rate": 7.552083333333333e-06,
597
+ "loss": 0.3349,
598
+ "step": 740
599
+ },
600
+ {
601
+ "epoch": 0.9765625,
602
+ "grad_norm": 2.4253346920013428,
603
+ "learning_rate": 4.947916666666666e-06,
604
+ "loss": 0.3802,
605
+ "step": 750
606
+ },
607
+ {
608
+ "epoch": 0.9895833333333334,
609
+ "grad_norm": 0.25109484791755676,
610
+ "learning_rate": 2.3437500000000002e-06,
611
+ "loss": 0.2813,
612
+ "step": 760
613
+ },
614
+ {
615
+ "epoch": 1.0,
616
+ "step": 768,
617
+ "total_flos": 4.7604111703864934e+17,
618
+ "train_loss": 0.9329218550895652,
619
+ "train_runtime": 1211.4391,
620
+ "train_samples_per_second": 5.07,
621
+ "train_steps_per_second": 0.634
622
+ }
623
+ ],
624
+ "logging_steps": 10,
625
+ "max_steps": 768,
626
+ "num_input_tokens_seen": 0,
627
+ "num_train_epochs": 1,
628
+ "save_steps": 100,
629
+ "stateful_callbacks": {
630
+ "TrainerControl": {
631
+ "args": {
632
+ "should_epoch_stop": false,
633
+ "should_evaluate": false,
634
+ "should_log": false,
635
+ "should_save": true,
636
+ "should_training_stop": true
637
+ },
638
+ "attributes": {}
639
+ }
640
+ },
641
+ "total_flos": 4.7604111703864934e+17,
642
+ "train_batch_size": 8,
643
+ "trial_name": null,
644
+ "trial_params": null
645
+ }