mbiarreta commited on
Commit
2318ac9
·
verified ·
1 Parent(s): f8714e6

🍻 cheers

Browse files
README.md CHANGED
@@ -3,6 +3,7 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: timm/beitv2_base_patch16_224.in1k_ft_in22k
5
  tags:
 
6
  - timm
7
  - generated_from_trainer
8
  metrics:
@@ -17,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
17
 
18
  # beitv2-ena24
19
 
20
- This model is a fine-tuned version of [timm/beitv2_base_patch16_224.in1k_ft_in22k](https://huggingface.co/timm/beitv2_base_patch16_224.in1k_ft_in22k) on an unknown dataset.
21
  It achieves the following results on the evaluation set:
22
  - Loss: 1.1010
23
  - Accuracy: 0.6542
 
3
  license: apache-2.0
4
  base_model: timm/beitv2_base_patch16_224.in1k_ft_in22k
5
  tags:
6
+ - image-classification
7
  - timm
8
  - generated_from_trainer
9
  metrics:
 
18
 
19
  # beitv2-ena24
20
 
21
+ This model is a fine-tuned version of [timm/beitv2_base_patch16_224.in1k_ft_in22k](https://huggingface.co/timm/beitv2_base_patch16_224.in1k_ft_in22k) on the ena24 dataset.
22
  It achieves the following results on the evaluation set:
23
  - Loss: 1.1010
24
  - Accuracy: 0.6542
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.6541984732824427,
4
+ "eval_loss": 1.101027488708496,
5
+ "eval_runtime": 62.0148,
6
+ "eval_samples_per_second": 21.124,
7
+ "eval_steps_per_second": 2.645,
8
+ "total_flos": 9.516753759971082e+17,
9
+ "train_loss": 1.8588488856330514,
10
+ "train_runtime": 1944.1645,
11
+ "train_samples_per_second": 6.318,
12
+ "train_steps_per_second": 0.79
13
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.6541984732824427,
4
+ "eval_loss": 1.101027488708496,
5
+ "eval_runtime": 62.0148,
6
+ "eval_samples_per_second": 21.124,
7
+ "eval_steps_per_second": 2.645
8
+ }
runs/May05_23-58-49_e46320ea8c60/events.out.tfevents.1746491613.e46320ea8c60.554.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:92e5cd8bf8dfc56d139be947478266d98bd28f25c4cc8155764ef1bfe2ee6dcb
3
+ size 411
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.0,
3
+ "total_flos": 9.516753759971082e+17,
4
+ "train_loss": 1.8588488856330514,
5
+ "train_runtime": 1944.1645,
6
+ "train_samples_per_second": 6.318,
7
+ "train_steps_per_second": 0.79
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,1249 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 1500,
3
+ "best_metric": 1.101027488708496,
4
+ "best_model_checkpoint": "./beitv2-ena24/checkpoint-1500",
5
+ "epoch": 2.0,
6
+ "eval_steps": 100,
7
+ "global_step": 1536,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.013020833333333334,
14
+ "grad_norm": Infinity,
15
+ "learning_rate": 0.000199609375,
16
+ "loss": 3.039,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.026041666666666668,
21
+ "grad_norm": 14.776506423950195,
22
+ "learning_rate": 0.00019856770833333334,
23
+ "loss": 3.2506,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.0390625,
28
+ "grad_norm": 6.92782735824585,
29
+ "learning_rate": 0.000197265625,
30
+ "loss": 3.1745,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.052083333333333336,
35
+ "grad_norm": 5.374546527862549,
36
+ "learning_rate": 0.0001959635416666667,
37
+ "loss": 3.0302,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.06510416666666667,
42
+ "grad_norm": 5.931521415710449,
43
+ "learning_rate": 0.00019466145833333333,
44
+ "loss": 3.0462,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.078125,
49
+ "grad_norm": 6.442591190338135,
50
+ "learning_rate": 0.000193359375,
51
+ "loss": 3.0591,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.09114583333333333,
56
+ "grad_norm": 4.480038166046143,
57
+ "learning_rate": 0.00019205729166666668,
58
+ "loss": 2.9282,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.10416666666666667,
63
+ "grad_norm": 9.986929893493652,
64
+ "learning_rate": 0.00019075520833333333,
65
+ "loss": 2.8821,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.1171875,
70
+ "grad_norm": 4.782121181488037,
71
+ "learning_rate": 0.000189453125,
72
+ "loss": 2.8212,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.13020833333333334,
77
+ "grad_norm": 8.07295036315918,
78
+ "learning_rate": 0.00018815104166666668,
79
+ "loss": 2.8219,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.13020833333333334,
84
+ "eval_accuracy": 0.17480916030534352,
85
+ "eval_loss": 2.6877520084381104,
86
+ "eval_runtime": 65.7898,
87
+ "eval_samples_per_second": 19.912,
88
+ "eval_steps_per_second": 2.493,
89
+ "step": 100
90
+ },
91
+ {
92
+ "epoch": 0.14322916666666666,
93
+ "grad_norm": 6.001428604125977,
94
+ "learning_rate": 0.00018684895833333333,
95
+ "loss": 2.7008,
96
+ "step": 110
97
+ },
98
+ {
99
+ "epoch": 0.15625,
100
+ "grad_norm": 6.088842868804932,
101
+ "learning_rate": 0.000185546875,
102
+ "loss": 2.7502,
103
+ "step": 120
104
+ },
105
+ {
106
+ "epoch": 0.16927083333333334,
107
+ "grad_norm": 5.8013787269592285,
108
+ "learning_rate": 0.00018424479166666668,
109
+ "loss": 2.6856,
110
+ "step": 130
111
+ },
112
+ {
113
+ "epoch": 0.18229166666666666,
114
+ "grad_norm": 6.421254634857178,
115
+ "learning_rate": 0.00018294270833333332,
116
+ "loss": 2.6374,
117
+ "step": 140
118
+ },
119
+ {
120
+ "epoch": 0.1953125,
121
+ "grad_norm": 10.831088066101074,
122
+ "learning_rate": 0.000181640625,
123
+ "loss": 2.5165,
124
+ "step": 150
125
+ },
126
+ {
127
+ "epoch": 0.20833333333333334,
128
+ "grad_norm": 7.270912170410156,
129
+ "learning_rate": 0.00018033854166666667,
130
+ "loss": 2.5425,
131
+ "step": 160
132
+ },
133
+ {
134
+ "epoch": 0.22135416666666666,
135
+ "grad_norm": 27.348251342773438,
136
+ "learning_rate": 0.00017903645833333335,
137
+ "loss": 2.6162,
138
+ "step": 170
139
+ },
140
+ {
141
+ "epoch": 0.234375,
142
+ "grad_norm": 16.71619415283203,
143
+ "learning_rate": 0.000177734375,
144
+ "loss": 2.591,
145
+ "step": 180
146
+ },
147
+ {
148
+ "epoch": 0.24739583333333334,
149
+ "grad_norm": 28.398574829101562,
150
+ "learning_rate": 0.00017643229166666667,
151
+ "loss": 2.5311,
152
+ "step": 190
153
+ },
154
+ {
155
+ "epoch": 0.2604166666666667,
156
+ "grad_norm": 8.409342765808105,
157
+ "learning_rate": 0.00017513020833333334,
158
+ "loss": 2.8794,
159
+ "step": 200
160
+ },
161
+ {
162
+ "epoch": 0.2604166666666667,
163
+ "eval_accuracy": 0.18244274809160305,
164
+ "eval_loss": 2.6517014503479004,
165
+ "eval_runtime": 62.0039,
166
+ "eval_samples_per_second": 21.128,
167
+ "eval_steps_per_second": 2.645,
168
+ "step": 200
169
+ },
170
+ {
171
+ "epoch": 0.2734375,
172
+ "grad_norm": 4.787074565887451,
173
+ "learning_rate": 0.00017382812500000002,
174
+ "loss": 2.5732,
175
+ "step": 210
176
+ },
177
+ {
178
+ "epoch": 0.2864583333333333,
179
+ "grad_norm": 6.101160526275635,
180
+ "learning_rate": 0.0001725260416666667,
181
+ "loss": 2.4337,
182
+ "step": 220
183
+ },
184
+ {
185
+ "epoch": 0.2994791666666667,
186
+ "grad_norm": 5.220091342926025,
187
+ "learning_rate": 0.00017122395833333334,
188
+ "loss": 2.5733,
189
+ "step": 230
190
+ },
191
+ {
192
+ "epoch": 0.3125,
193
+ "grad_norm": 7.132243633270264,
194
+ "learning_rate": 0.00016992187500000002,
195
+ "loss": 2.5063,
196
+ "step": 240
197
+ },
198
+ {
199
+ "epoch": 0.3255208333333333,
200
+ "grad_norm": 6.824313163757324,
201
+ "learning_rate": 0.0001686197916666667,
202
+ "loss": 2.4292,
203
+ "step": 250
204
+ },
205
+ {
206
+ "epoch": 0.3385416666666667,
207
+ "grad_norm": 10.382131576538086,
208
+ "learning_rate": 0.00016731770833333334,
209
+ "loss": 2.527,
210
+ "step": 260
211
+ },
212
+ {
213
+ "epoch": 0.3515625,
214
+ "grad_norm": 5.441108703613281,
215
+ "learning_rate": 0.000166015625,
216
+ "loss": 2.3351,
217
+ "step": 270
218
+ },
219
+ {
220
+ "epoch": 0.3645833333333333,
221
+ "grad_norm": 17.155088424682617,
222
+ "learning_rate": 0.0001647135416666667,
223
+ "loss": 2.2949,
224
+ "step": 280
225
+ },
226
+ {
227
+ "epoch": 0.3776041666666667,
228
+ "grad_norm": 12.775150299072266,
229
+ "learning_rate": 0.00016341145833333333,
230
+ "loss": 2.3052,
231
+ "step": 290
232
+ },
233
+ {
234
+ "epoch": 0.390625,
235
+ "grad_norm": 9.569974899291992,
236
+ "learning_rate": 0.000162109375,
237
+ "loss": 2.2815,
238
+ "step": 300
239
+ },
240
+ {
241
+ "epoch": 0.390625,
242
+ "eval_accuracy": 0.28015267175572517,
243
+ "eval_loss": 2.3204853534698486,
244
+ "eval_runtime": 62.5489,
245
+ "eval_samples_per_second": 20.944,
246
+ "eval_steps_per_second": 2.622,
247
+ "step": 300
248
+ },
249
+ {
250
+ "epoch": 0.4036458333333333,
251
+ "grad_norm": 14.159195899963379,
252
+ "learning_rate": 0.00016080729166666668,
253
+ "loss": 2.4804,
254
+ "step": 310
255
+ },
256
+ {
257
+ "epoch": 0.4166666666666667,
258
+ "grad_norm": 6.52683162689209,
259
+ "learning_rate": 0.00015950520833333333,
260
+ "loss": 2.5346,
261
+ "step": 320
262
+ },
263
+ {
264
+ "epoch": 0.4296875,
265
+ "grad_norm": 12.09903335571289,
266
+ "learning_rate": 0.000158203125,
267
+ "loss": 2.1983,
268
+ "step": 330
269
+ },
270
+ {
271
+ "epoch": 0.4427083333333333,
272
+ "grad_norm": 4.688809394836426,
273
+ "learning_rate": 0.00015690104166666668,
274
+ "loss": 2.2841,
275
+ "step": 340
276
+ },
277
+ {
278
+ "epoch": 0.4557291666666667,
279
+ "grad_norm": 6.31483793258667,
280
+ "learning_rate": 0.00015559895833333333,
281
+ "loss": 2.1813,
282
+ "step": 350
283
+ },
284
+ {
285
+ "epoch": 0.46875,
286
+ "grad_norm": 5.422014236450195,
287
+ "learning_rate": 0.000154296875,
288
+ "loss": 2.0422,
289
+ "step": 360
290
+ },
291
+ {
292
+ "epoch": 0.4817708333333333,
293
+ "grad_norm": 10.97143840789795,
294
+ "learning_rate": 0.00015299479166666668,
295
+ "loss": 2.2088,
296
+ "step": 370
297
+ },
298
+ {
299
+ "epoch": 0.4947916666666667,
300
+ "grad_norm": 8.516188621520996,
301
+ "learning_rate": 0.00015169270833333332,
302
+ "loss": 2.5296,
303
+ "step": 380
304
+ },
305
+ {
306
+ "epoch": 0.5078125,
307
+ "grad_norm": 13.854727745056152,
308
+ "learning_rate": 0.000150390625,
309
+ "loss": 2.0928,
310
+ "step": 390
311
+ },
312
+ {
313
+ "epoch": 0.5208333333333334,
314
+ "grad_norm": 9.708393096923828,
315
+ "learning_rate": 0.00014908854166666667,
316
+ "loss": 2.1651,
317
+ "step": 400
318
+ },
319
+ {
320
+ "epoch": 0.5208333333333334,
321
+ "eval_accuracy": 0.35038167938931297,
322
+ "eval_loss": 2.167991876602173,
323
+ "eval_runtime": 61.7993,
324
+ "eval_samples_per_second": 21.198,
325
+ "eval_steps_per_second": 2.654,
326
+ "step": 400
327
+ },
328
+ {
329
+ "epoch": 0.5338541666666666,
330
+ "grad_norm": 7.419209957122803,
331
+ "learning_rate": 0.00014778645833333332,
332
+ "loss": 2.1624,
333
+ "step": 410
334
+ },
335
+ {
336
+ "epoch": 0.546875,
337
+ "grad_norm": 7.767328262329102,
338
+ "learning_rate": 0.000146484375,
339
+ "loss": 2.2072,
340
+ "step": 420
341
+ },
342
+ {
343
+ "epoch": 0.5598958333333334,
344
+ "grad_norm": 14.611408233642578,
345
+ "learning_rate": 0.00014518229166666667,
346
+ "loss": 2.1106,
347
+ "step": 430
348
+ },
349
+ {
350
+ "epoch": 0.5729166666666666,
351
+ "grad_norm": 5.225481033325195,
352
+ "learning_rate": 0.00014388020833333334,
353
+ "loss": 2.3682,
354
+ "step": 440
355
+ },
356
+ {
357
+ "epoch": 0.5859375,
358
+ "grad_norm": 10.717113494873047,
359
+ "learning_rate": 0.00014257812500000002,
360
+ "loss": 2.2256,
361
+ "step": 450
362
+ },
363
+ {
364
+ "epoch": 0.5989583333333334,
365
+ "grad_norm": 13.808488845825195,
366
+ "learning_rate": 0.0001412760416666667,
367
+ "loss": 2.212,
368
+ "step": 460
369
+ },
370
+ {
371
+ "epoch": 0.6119791666666666,
372
+ "grad_norm": 6.799715518951416,
373
+ "learning_rate": 0.00013997395833333334,
374
+ "loss": 2.2726,
375
+ "step": 470
376
+ },
377
+ {
378
+ "epoch": 0.625,
379
+ "grad_norm": 6.2194437980651855,
380
+ "learning_rate": 0.00013867187500000001,
381
+ "loss": 2.2296,
382
+ "step": 480
383
+ },
384
+ {
385
+ "epoch": 0.6380208333333334,
386
+ "grad_norm": 6.755204677581787,
387
+ "learning_rate": 0.0001373697916666667,
388
+ "loss": 2.0764,
389
+ "step": 490
390
+ },
391
+ {
392
+ "epoch": 0.6510416666666666,
393
+ "grad_norm": 5.835976600646973,
394
+ "learning_rate": 0.00013606770833333334,
395
+ "loss": 2.2386,
396
+ "step": 500
397
+ },
398
+ {
399
+ "epoch": 0.6510416666666666,
400
+ "eval_accuracy": 0.35572519083969467,
401
+ "eval_loss": 2.101144313812256,
402
+ "eval_runtime": 61.3207,
403
+ "eval_samples_per_second": 21.363,
404
+ "eval_steps_per_second": 2.674,
405
+ "step": 500
406
+ },
407
+ {
408
+ "epoch": 0.6640625,
409
+ "grad_norm": 7.9891791343688965,
410
+ "learning_rate": 0.000134765625,
411
+ "loss": 2.1535,
412
+ "step": 510
413
+ },
414
+ {
415
+ "epoch": 0.6770833333333334,
416
+ "grad_norm": 8.268142700195312,
417
+ "learning_rate": 0.00013346354166666669,
418
+ "loss": 2.2551,
419
+ "step": 520
420
+ },
421
+ {
422
+ "epoch": 0.6901041666666666,
423
+ "grad_norm": 7.744507789611816,
424
+ "learning_rate": 0.00013216145833333333,
425
+ "loss": 2.3442,
426
+ "step": 530
427
+ },
428
+ {
429
+ "epoch": 0.703125,
430
+ "grad_norm": 4.878718852996826,
431
+ "learning_rate": 0.000130859375,
432
+ "loss": 1.8175,
433
+ "step": 540
434
+ },
435
+ {
436
+ "epoch": 0.7161458333333334,
437
+ "grad_norm": 18.14910316467285,
438
+ "learning_rate": 0.00012955729166666668,
439
+ "loss": 2.265,
440
+ "step": 550
441
+ },
442
+ {
443
+ "epoch": 0.7291666666666666,
444
+ "grad_norm": 10.696211814880371,
445
+ "learning_rate": 0.00012825520833333333,
446
+ "loss": 2.0738,
447
+ "step": 560
448
+ },
449
+ {
450
+ "epoch": 0.7421875,
451
+ "grad_norm": 5.670561790466309,
452
+ "learning_rate": 0.000126953125,
453
+ "loss": 2.0173,
454
+ "step": 570
455
+ },
456
+ {
457
+ "epoch": 0.7552083333333334,
458
+ "grad_norm": 17.021509170532227,
459
+ "learning_rate": 0.00012565104166666668,
460
+ "loss": 2.1172,
461
+ "step": 580
462
+ },
463
+ {
464
+ "epoch": 0.7682291666666666,
465
+ "grad_norm": 5.123804092407227,
466
+ "learning_rate": 0.00012434895833333333,
467
+ "loss": 1.7117,
468
+ "step": 590
469
+ },
470
+ {
471
+ "epoch": 0.78125,
472
+ "grad_norm": 11.131023406982422,
473
+ "learning_rate": 0.000123046875,
474
+ "loss": 2.2215,
475
+ "step": 600
476
+ },
477
+ {
478
+ "epoch": 0.78125,
479
+ "eval_accuracy": 0.3931297709923664,
480
+ "eval_loss": 1.9811813831329346,
481
+ "eval_runtime": 61.4975,
482
+ "eval_samples_per_second": 21.302,
483
+ "eval_steps_per_second": 2.667,
484
+ "step": 600
485
+ },
486
+ {
487
+ "epoch": 0.7942708333333334,
488
+ "grad_norm": 14.288865089416504,
489
+ "learning_rate": 0.00012174479166666668,
490
+ "loss": 1.8272,
491
+ "step": 610
492
+ },
493
+ {
494
+ "epoch": 0.8072916666666666,
495
+ "grad_norm": 8.024924278259277,
496
+ "learning_rate": 0.00012044270833333334,
497
+ "loss": 1.9843,
498
+ "step": 620
499
+ },
500
+ {
501
+ "epoch": 0.8203125,
502
+ "grad_norm": 11.102864265441895,
503
+ "learning_rate": 0.00011914062500000001,
504
+ "loss": 2.1209,
505
+ "step": 630
506
+ },
507
+ {
508
+ "epoch": 0.8333333333333334,
509
+ "grad_norm": 10.264240264892578,
510
+ "learning_rate": 0.00011783854166666669,
511
+ "loss": 1.8675,
512
+ "step": 640
513
+ },
514
+ {
515
+ "epoch": 0.8463541666666666,
516
+ "grad_norm": 38.51216506958008,
517
+ "learning_rate": 0.00011653645833333333,
518
+ "loss": 2.0455,
519
+ "step": 650
520
+ },
521
+ {
522
+ "epoch": 0.859375,
523
+ "grad_norm": 15.57908821105957,
524
+ "learning_rate": 0.00011523437500000001,
525
+ "loss": 1.8323,
526
+ "step": 660
527
+ },
528
+ {
529
+ "epoch": 0.8723958333333334,
530
+ "grad_norm": 15.00413703918457,
531
+ "learning_rate": 0.00011393229166666668,
532
+ "loss": 1.5324,
533
+ "step": 670
534
+ },
535
+ {
536
+ "epoch": 0.8854166666666666,
537
+ "grad_norm": 5.070932388305664,
538
+ "learning_rate": 0.00011263020833333333,
539
+ "loss": 2.29,
540
+ "step": 680
541
+ },
542
+ {
543
+ "epoch": 0.8984375,
544
+ "grad_norm": 6.253166198730469,
545
+ "learning_rate": 0.000111328125,
546
+ "loss": 2.0513,
547
+ "step": 690
548
+ },
549
+ {
550
+ "epoch": 0.9114583333333334,
551
+ "grad_norm": 8.700178146362305,
552
+ "learning_rate": 0.00011002604166666668,
553
+ "loss": 1.692,
554
+ "step": 700
555
+ },
556
+ {
557
+ "epoch": 0.9114583333333334,
558
+ "eval_accuracy": 0.42824427480916033,
559
+ "eval_loss": 1.8440021276474,
560
+ "eval_runtime": 61.2987,
561
+ "eval_samples_per_second": 21.371,
562
+ "eval_steps_per_second": 2.675,
563
+ "step": 700
564
+ },
565
+ {
566
+ "epoch": 0.9244791666666666,
567
+ "grad_norm": 15.94517993927002,
568
+ "learning_rate": 0.00010872395833333333,
569
+ "loss": 2.1201,
570
+ "step": 710
571
+ },
572
+ {
573
+ "epoch": 0.9375,
574
+ "grad_norm": 9.457595825195312,
575
+ "learning_rate": 0.000107421875,
576
+ "loss": 1.841,
577
+ "step": 720
578
+ },
579
+ {
580
+ "epoch": 0.9505208333333334,
581
+ "grad_norm": 8.457929611206055,
582
+ "learning_rate": 0.00010611979166666668,
583
+ "loss": 1.7869,
584
+ "step": 730
585
+ },
586
+ {
587
+ "epoch": 0.9635416666666666,
588
+ "grad_norm": 9.553553581237793,
589
+ "learning_rate": 0.00010481770833333334,
590
+ "loss": 1.7781,
591
+ "step": 740
592
+ },
593
+ {
594
+ "epoch": 0.9765625,
595
+ "grad_norm": 20.70500373840332,
596
+ "learning_rate": 0.00010351562500000001,
597
+ "loss": 1.9509,
598
+ "step": 750
599
+ },
600
+ {
601
+ "epoch": 0.9895833333333334,
602
+ "grad_norm": 12.38322925567627,
603
+ "learning_rate": 0.00010221354166666669,
604
+ "loss": 1.8533,
605
+ "step": 760
606
+ },
607
+ {
608
+ "epoch": 1.0026041666666667,
609
+ "grad_norm": 11.95076847076416,
610
+ "learning_rate": 0.00010091145833333333,
611
+ "loss": 1.655,
612
+ "step": 770
613
+ },
614
+ {
615
+ "epoch": 1.015625,
616
+ "grad_norm": 12.819039344787598,
617
+ "learning_rate": 9.960937500000001e-05,
618
+ "loss": 2.0869,
619
+ "step": 780
620
+ },
621
+ {
622
+ "epoch": 1.0286458333333333,
623
+ "grad_norm": 19.228614807128906,
624
+ "learning_rate": 9.830729166666667e-05,
625
+ "loss": 1.839,
626
+ "step": 790
627
+ },
628
+ {
629
+ "epoch": 1.0416666666666667,
630
+ "grad_norm": 11.485426902770996,
631
+ "learning_rate": 9.700520833333334e-05,
632
+ "loss": 1.925,
633
+ "step": 800
634
+ },
635
+ {
636
+ "epoch": 1.0416666666666667,
637
+ "eval_accuracy": 0.45725190839694657,
638
+ "eval_loss": 1.7082406282424927,
639
+ "eval_runtime": 61.5781,
640
+ "eval_samples_per_second": 21.274,
641
+ "eval_steps_per_second": 2.663,
642
+ "step": 800
643
+ },
644
+ {
645
+ "epoch": 1.0546875,
646
+ "grad_norm": 6.027112007141113,
647
+ "learning_rate": 9.5703125e-05,
648
+ "loss": 1.5587,
649
+ "step": 810
650
+ },
651
+ {
652
+ "epoch": 1.0677083333333333,
653
+ "grad_norm": 11.737372398376465,
654
+ "learning_rate": 9.440104166666666e-05,
655
+ "loss": 1.6711,
656
+ "step": 820
657
+ },
658
+ {
659
+ "epoch": 1.0807291666666667,
660
+ "grad_norm": 13.169365882873535,
661
+ "learning_rate": 9.309895833333334e-05,
662
+ "loss": 1.7146,
663
+ "step": 830
664
+ },
665
+ {
666
+ "epoch": 1.09375,
667
+ "grad_norm": 13.459263801574707,
668
+ "learning_rate": 9.1796875e-05,
669
+ "loss": 1.4564,
670
+ "step": 840
671
+ },
672
+ {
673
+ "epoch": 1.1067708333333333,
674
+ "grad_norm": 13.749167442321777,
675
+ "learning_rate": 9.049479166666666e-05,
676
+ "loss": 1.9533,
677
+ "step": 850
678
+ },
679
+ {
680
+ "epoch": 1.1197916666666667,
681
+ "grad_norm": 7.2763519287109375,
682
+ "learning_rate": 8.919270833333334e-05,
683
+ "loss": 1.5154,
684
+ "step": 860
685
+ },
686
+ {
687
+ "epoch": 1.1328125,
688
+ "grad_norm": 8.36424732208252,
689
+ "learning_rate": 8.789062500000001e-05,
690
+ "loss": 1.4275,
691
+ "step": 870
692
+ },
693
+ {
694
+ "epoch": 1.1458333333333333,
695
+ "grad_norm": 10.810942649841309,
696
+ "learning_rate": 8.658854166666667e-05,
697
+ "loss": 1.7471,
698
+ "step": 880
699
+ },
700
+ {
701
+ "epoch": 1.1588541666666667,
702
+ "grad_norm": 10.02784252166748,
703
+ "learning_rate": 8.528645833333335e-05,
704
+ "loss": 1.711,
705
+ "step": 890
706
+ },
707
+ {
708
+ "epoch": 1.171875,
709
+ "grad_norm": 17.436981201171875,
710
+ "learning_rate": 8.398437500000001e-05,
711
+ "loss": 1.6596,
712
+ "step": 900
713
+ },
714
+ {
715
+ "epoch": 1.171875,
716
+ "eval_accuracy": 0.4847328244274809,
717
+ "eval_loss": 1.664871096611023,
718
+ "eval_runtime": 61.8718,
719
+ "eval_samples_per_second": 21.173,
720
+ "eval_steps_per_second": 2.651,
721
+ "step": 900
722
+ },
723
+ {
724
+ "epoch": 1.1848958333333333,
725
+ "grad_norm": 23.6259822845459,
726
+ "learning_rate": 8.268229166666667e-05,
727
+ "loss": 1.6094,
728
+ "step": 910
729
+ },
730
+ {
731
+ "epoch": 1.1979166666666667,
732
+ "grad_norm": 10.717123985290527,
733
+ "learning_rate": 8.138020833333334e-05,
734
+ "loss": 1.6189,
735
+ "step": 920
736
+ },
737
+ {
738
+ "epoch": 1.2109375,
739
+ "grad_norm": 8.009198188781738,
740
+ "learning_rate": 8.0078125e-05,
741
+ "loss": 1.9471,
742
+ "step": 930
743
+ },
744
+ {
745
+ "epoch": 1.2239583333333333,
746
+ "grad_norm": 10.098549842834473,
747
+ "learning_rate": 7.877604166666666e-05,
748
+ "loss": 1.5541,
749
+ "step": 940
750
+ },
751
+ {
752
+ "epoch": 1.2369791666666667,
753
+ "grad_norm": 8.674778938293457,
754
+ "learning_rate": 7.747395833333334e-05,
755
+ "loss": 1.6554,
756
+ "step": 950
757
+ },
758
+ {
759
+ "epoch": 1.25,
760
+ "grad_norm": 6.6000823974609375,
761
+ "learning_rate": 7.6171875e-05,
762
+ "loss": 1.5485,
763
+ "step": 960
764
+ },
765
+ {
766
+ "epoch": 1.2630208333333333,
767
+ "grad_norm": 10.687252044677734,
768
+ "learning_rate": 7.486979166666666e-05,
769
+ "loss": 1.6659,
770
+ "step": 970
771
+ },
772
+ {
773
+ "epoch": 1.2760416666666667,
774
+ "grad_norm": 4.032899379730225,
775
+ "learning_rate": 7.356770833333334e-05,
776
+ "loss": 1.5693,
777
+ "step": 980
778
+ },
779
+ {
780
+ "epoch": 1.2890625,
781
+ "grad_norm": 10.584949493408203,
782
+ "learning_rate": 7.226562500000001e-05,
783
+ "loss": 1.4774,
784
+ "step": 990
785
+ },
786
+ {
787
+ "epoch": 1.3020833333333333,
788
+ "grad_norm": 5.531164169311523,
789
+ "learning_rate": 7.096354166666667e-05,
790
+ "loss": 1.5171,
791
+ "step": 1000
792
+ },
793
+ {
794
+ "epoch": 1.3020833333333333,
795
+ "eval_accuracy": 0.4862595419847328,
796
+ "eval_loss": 1.5891896486282349,
797
+ "eval_runtime": 62.2047,
798
+ "eval_samples_per_second": 21.059,
799
+ "eval_steps_per_second": 2.636,
800
+ "step": 1000
801
+ },
802
+ {
803
+ "epoch": 1.3151041666666667,
804
+ "grad_norm": 11.320353507995605,
805
+ "learning_rate": 6.966145833333335e-05,
806
+ "loss": 1.4783,
807
+ "step": 1010
808
+ },
809
+ {
810
+ "epoch": 1.328125,
811
+ "grad_norm": 9.439470291137695,
812
+ "learning_rate": 6.8359375e-05,
813
+ "loss": 1.5991,
814
+ "step": 1020
815
+ },
816
+ {
817
+ "epoch": 1.3411458333333333,
818
+ "grad_norm": 19.882692337036133,
819
+ "learning_rate": 6.705729166666667e-05,
820
+ "loss": 1.7561,
821
+ "step": 1030
822
+ },
823
+ {
824
+ "epoch": 1.3541666666666667,
825
+ "grad_norm": 16.27409553527832,
826
+ "learning_rate": 6.575520833333334e-05,
827
+ "loss": 1.5257,
828
+ "step": 1040
829
+ },
830
+ {
831
+ "epoch": 1.3671875,
832
+ "grad_norm": 5.662678241729736,
833
+ "learning_rate": 6.4453125e-05,
834
+ "loss": 1.3748,
835
+ "step": 1050
836
+ },
837
+ {
838
+ "epoch": 1.3802083333333333,
839
+ "grad_norm": 7.453941822052002,
840
+ "learning_rate": 6.315104166666666e-05,
841
+ "loss": 1.4179,
842
+ "step": 1060
843
+ },
844
+ {
845
+ "epoch": 1.3932291666666667,
846
+ "grad_norm": 5.913275241851807,
847
+ "learning_rate": 6.184895833333334e-05,
848
+ "loss": 1.6794,
849
+ "step": 1070
850
+ },
851
+ {
852
+ "epoch": 1.40625,
853
+ "grad_norm": 10.056464195251465,
854
+ "learning_rate": 6.0546875e-05,
855
+ "loss": 1.6162,
856
+ "step": 1080
857
+ },
858
+ {
859
+ "epoch": 1.4192708333333333,
860
+ "grad_norm": 19.47242546081543,
861
+ "learning_rate": 5.924479166666667e-05,
862
+ "loss": 1.285,
863
+ "step": 1090
864
+ },
865
+ {
866
+ "epoch": 1.4322916666666667,
867
+ "grad_norm": 6.933910846710205,
868
+ "learning_rate": 5.794270833333334e-05,
869
+ "loss": 1.1392,
870
+ "step": 1100
871
+ },
872
+ {
873
+ "epoch": 1.4322916666666667,
874
+ "eval_accuracy": 0.5641221374045802,
875
+ "eval_loss": 1.465259313583374,
876
+ "eval_runtime": 61.3608,
877
+ "eval_samples_per_second": 21.349,
878
+ "eval_steps_per_second": 2.673,
879
+ "step": 1100
880
+ },
881
+ {
882
+ "epoch": 1.4453125,
883
+ "grad_norm": 10.805746078491211,
884
+ "learning_rate": 5.6640625e-05,
885
+ "loss": 1.4576,
886
+ "step": 1110
887
+ },
888
+ {
889
+ "epoch": 1.4583333333333333,
890
+ "grad_norm": 7.334717273712158,
891
+ "learning_rate": 5.5338541666666664e-05,
892
+ "loss": 1.0282,
893
+ "step": 1120
894
+ },
895
+ {
896
+ "epoch": 1.4713541666666667,
897
+ "grad_norm": 11.267937660217285,
898
+ "learning_rate": 5.403645833333334e-05,
899
+ "loss": 1.2412,
900
+ "step": 1130
901
+ },
902
+ {
903
+ "epoch": 1.484375,
904
+ "grad_norm": 12.98930835723877,
905
+ "learning_rate": 5.2734375e-05,
906
+ "loss": 1.1597,
907
+ "step": 1140
908
+ },
909
+ {
910
+ "epoch": 1.4973958333333333,
911
+ "grad_norm": 14.882040023803711,
912
+ "learning_rate": 5.143229166666667e-05,
913
+ "loss": 1.6789,
914
+ "step": 1150
915
+ },
916
+ {
917
+ "epoch": 1.5104166666666665,
918
+ "grad_norm": 9.60672664642334,
919
+ "learning_rate": 5.013020833333334e-05,
920
+ "loss": 1.282,
921
+ "step": 1160
922
+ },
923
+ {
924
+ "epoch": 1.5234375,
925
+ "grad_norm": 4.651318073272705,
926
+ "learning_rate": 4.8828125e-05,
927
+ "loss": 1.2623,
928
+ "step": 1170
929
+ },
930
+ {
931
+ "epoch": 1.5364583333333335,
932
+ "grad_norm": 18.720874786376953,
933
+ "learning_rate": 4.752604166666667e-05,
934
+ "loss": 1.2181,
935
+ "step": 1180
936
+ },
937
+ {
938
+ "epoch": 1.5494791666666665,
939
+ "grad_norm": 29.319862365722656,
940
+ "learning_rate": 4.622395833333333e-05,
941
+ "loss": 1.6477,
942
+ "step": 1190
943
+ },
944
+ {
945
+ "epoch": 1.5625,
946
+ "grad_norm": 16.204391479492188,
947
+ "learning_rate": 4.4921875e-05,
948
+ "loss": 1.4759,
949
+ "step": 1200
950
+ },
951
+ {
952
+ "epoch": 1.5625,
953
+ "eval_accuracy": 0.5709923664122137,
954
+ "eval_loss": 1.364412546157837,
955
+ "eval_runtime": 62.5016,
956
+ "eval_samples_per_second": 20.959,
957
+ "eval_steps_per_second": 2.624,
958
+ "step": 1200
959
+ },
960
+ {
961
+ "epoch": 1.5755208333333335,
962
+ "grad_norm": 17.961008071899414,
963
+ "learning_rate": 4.3619791666666674e-05,
964
+ "loss": 1.0689,
965
+ "step": 1210
966
+ },
967
+ {
968
+ "epoch": 1.5885416666666665,
969
+ "grad_norm": 12.91933822631836,
970
+ "learning_rate": 4.2317708333333335e-05,
971
+ "loss": 1.3695,
972
+ "step": 1220
973
+ },
974
+ {
975
+ "epoch": 1.6015625,
976
+ "grad_norm": 9.124815940856934,
977
+ "learning_rate": 4.1015625e-05,
978
+ "loss": 1.2604,
979
+ "step": 1230
980
+ },
981
+ {
982
+ "epoch": 1.6145833333333335,
983
+ "grad_norm": 15.050168991088867,
984
+ "learning_rate": 3.971354166666667e-05,
985
+ "loss": 1.425,
986
+ "step": 1240
987
+ },
988
+ {
989
+ "epoch": 1.6276041666666665,
990
+ "grad_norm": 10.37255573272705,
991
+ "learning_rate": 3.841145833333333e-05,
992
+ "loss": 1.1547,
993
+ "step": 1250
994
+ },
995
+ {
996
+ "epoch": 1.640625,
997
+ "grad_norm": 4.829516887664795,
998
+ "learning_rate": 3.7109375e-05,
999
+ "loss": 1.257,
1000
+ "step": 1260
1001
+ },
1002
+ {
1003
+ "epoch": 1.6536458333333335,
1004
+ "grad_norm": 4.607377052307129,
1005
+ "learning_rate": 3.580729166666667e-05,
1006
+ "loss": 1.5243,
1007
+ "step": 1270
1008
+ },
1009
+ {
1010
+ "epoch": 1.6666666666666665,
1011
+ "grad_norm": 14.61783504486084,
1012
+ "learning_rate": 3.4505208333333335e-05,
1013
+ "loss": 1.0446,
1014
+ "step": 1280
1015
+ },
1016
+ {
1017
+ "epoch": 1.6796875,
1018
+ "grad_norm": 16.958330154418945,
1019
+ "learning_rate": 3.3203125e-05,
1020
+ "loss": 1.2175,
1021
+ "step": 1290
1022
+ },
1023
+ {
1024
+ "epoch": 1.6927083333333335,
1025
+ "grad_norm": 17.922603607177734,
1026
+ "learning_rate": 3.190104166666667e-05,
1027
+ "loss": 1.175,
1028
+ "step": 1300
1029
+ },
1030
+ {
1031
+ "epoch": 1.6927083333333335,
1032
+ "eval_accuracy": 0.6099236641221374,
1033
+ "eval_loss": 1.272031545639038,
1034
+ "eval_runtime": 61.2889,
1035
+ "eval_samples_per_second": 21.374,
1036
+ "eval_steps_per_second": 2.676,
1037
+ "step": 1300
1038
+ },
1039
+ {
1040
+ "epoch": 1.7057291666666665,
1041
+ "grad_norm": 12.703574180603027,
1042
+ "learning_rate": 3.059895833333333e-05,
1043
+ "loss": 1.3538,
1044
+ "step": 1310
1045
+ },
1046
+ {
1047
+ "epoch": 1.71875,
1048
+ "grad_norm": 17.6568546295166,
1049
+ "learning_rate": 2.9296875000000002e-05,
1050
+ "loss": 1.2926,
1051
+ "step": 1320
1052
+ },
1053
+ {
1054
+ "epoch": 1.7317708333333335,
1055
+ "grad_norm": 17.854629516601562,
1056
+ "learning_rate": 2.799479166666667e-05,
1057
+ "loss": 1.388,
1058
+ "step": 1330
1059
+ },
1060
+ {
1061
+ "epoch": 1.7447916666666665,
1062
+ "grad_norm": 6.6978759765625,
1063
+ "learning_rate": 2.6692708333333334e-05,
1064
+ "loss": 1.2791,
1065
+ "step": 1340
1066
+ },
1067
+ {
1068
+ "epoch": 1.7578125,
1069
+ "grad_norm": 12.86587142944336,
1070
+ "learning_rate": 2.5390625000000002e-05,
1071
+ "loss": 1.2273,
1072
+ "step": 1350
1073
+ },
1074
+ {
1075
+ "epoch": 1.7708333333333335,
1076
+ "grad_norm": 17.528553009033203,
1077
+ "learning_rate": 2.4088541666666667e-05,
1078
+ "loss": 1.1705,
1079
+ "step": 1360
1080
+ },
1081
+ {
1082
+ "epoch": 1.7838541666666665,
1083
+ "grad_norm": 7.595549583435059,
1084
+ "learning_rate": 2.2786458333333334e-05,
1085
+ "loss": 1.4756,
1086
+ "step": 1370
1087
+ },
1088
+ {
1089
+ "epoch": 1.796875,
1090
+ "grad_norm": 15.547664642333984,
1091
+ "learning_rate": 2.1484375000000002e-05,
1092
+ "loss": 1.2231,
1093
+ "step": 1380
1094
+ },
1095
+ {
1096
+ "epoch": 1.8098958333333335,
1097
+ "grad_norm": 13.09683895111084,
1098
+ "learning_rate": 2.0182291666666667e-05,
1099
+ "loss": 1.0805,
1100
+ "step": 1390
1101
+ },
1102
+ {
1103
+ "epoch": 1.8229166666666665,
1104
+ "grad_norm": 32.82133102416992,
1105
+ "learning_rate": 1.8880208333333334e-05,
1106
+ "loss": 1.0121,
1107
+ "step": 1400
1108
+ },
1109
+ {
1110
+ "epoch": 1.8229166666666665,
1111
+ "eval_accuracy": 0.6549618320610687,
1112
+ "eval_loss": 1.1418578624725342,
1113
+ "eval_runtime": 61.7605,
1114
+ "eval_samples_per_second": 21.211,
1115
+ "eval_steps_per_second": 2.655,
1116
+ "step": 1400
1117
+ },
1118
+ {
1119
+ "epoch": 1.8359375,
1120
+ "grad_norm": 21.872119903564453,
1121
+ "learning_rate": 1.7578125000000002e-05,
1122
+ "loss": 1.3589,
1123
+ "step": 1410
1124
+ },
1125
+ {
1126
+ "epoch": 1.8489583333333335,
1127
+ "grad_norm": 12.93798828125,
1128
+ "learning_rate": 1.6276041666666666e-05,
1129
+ "loss": 1.111,
1130
+ "step": 1420
1131
+ },
1132
+ {
1133
+ "epoch": 1.8619791666666665,
1134
+ "grad_norm": 9.703911781311035,
1135
+ "learning_rate": 1.4973958333333334e-05,
1136
+ "loss": 0.8222,
1137
+ "step": 1430
1138
+ },
1139
+ {
1140
+ "epoch": 1.875,
1141
+ "grad_norm": 8.125261306762695,
1142
+ "learning_rate": 1.3671875e-05,
1143
+ "loss": 0.9044,
1144
+ "step": 1440
1145
+ },
1146
+ {
1147
+ "epoch": 1.8880208333333335,
1148
+ "grad_norm": 20.70644760131836,
1149
+ "learning_rate": 1.2369791666666668e-05,
1150
+ "loss": 1.0717,
1151
+ "step": 1450
1152
+ },
1153
+ {
1154
+ "epoch": 1.9010416666666665,
1155
+ "grad_norm": 12.871353149414062,
1156
+ "learning_rate": 1.1067708333333334e-05,
1157
+ "loss": 1.1019,
1158
+ "step": 1460
1159
+ },
1160
+ {
1161
+ "epoch": 1.9140625,
1162
+ "grad_norm": 22.509063720703125,
1163
+ "learning_rate": 9.765625e-06,
1164
+ "loss": 1.0015,
1165
+ "step": 1470
1166
+ },
1167
+ {
1168
+ "epoch": 1.9270833333333335,
1169
+ "grad_norm": 8.438760757446289,
1170
+ "learning_rate": 8.463541666666668e-06,
1171
+ "loss": 1.1198,
1172
+ "step": 1480
1173
+ },
1174
+ {
1175
+ "epoch": 1.9401041666666665,
1176
+ "grad_norm": 14.156661033630371,
1177
+ "learning_rate": 7.161458333333333e-06,
1178
+ "loss": 1.4639,
1179
+ "step": 1490
1180
+ },
1181
+ {
1182
+ "epoch": 1.953125,
1183
+ "grad_norm": 15.844815254211426,
1184
+ "learning_rate": 5.859375e-06,
1185
+ "loss": 0.8563,
1186
+ "step": 1500
1187
+ },
1188
+ {
1189
+ "epoch": 1.953125,
1190
+ "eval_accuracy": 0.6541984732824427,
1191
+ "eval_loss": 1.101027488708496,
1192
+ "eval_runtime": 61.7436,
1193
+ "eval_samples_per_second": 21.217,
1194
+ "eval_steps_per_second": 2.656,
1195
+ "step": 1500
1196
+ },
1197
+ {
1198
+ "epoch": 1.9661458333333335,
1199
+ "grad_norm": 9.091082572937012,
1200
+ "learning_rate": 4.557291666666667e-06,
1201
+ "loss": 1.1192,
1202
+ "step": 1510
1203
+ },
1204
+ {
1205
+ "epoch": 1.9791666666666665,
1206
+ "grad_norm": 11.635936737060547,
1207
+ "learning_rate": 3.2552083333333335e-06,
1208
+ "loss": 1.3413,
1209
+ "step": 1520
1210
+ },
1211
+ {
1212
+ "epoch": 1.9921875,
1213
+ "grad_norm": 15.317086219787598,
1214
+ "learning_rate": 1.953125e-06,
1215
+ "loss": 1.1254,
1216
+ "step": 1530
1217
+ },
1218
+ {
1219
+ "epoch": 2.0,
1220
+ "step": 1536,
1221
+ "total_flos": 9.516753759971082e+17,
1222
+ "train_loss": 1.8588488856330514,
1223
+ "train_runtime": 1944.1645,
1224
+ "train_samples_per_second": 6.318,
1225
+ "train_steps_per_second": 0.79
1226
+ }
1227
+ ],
1228
+ "logging_steps": 10,
1229
+ "max_steps": 1536,
1230
+ "num_input_tokens_seen": 0,
1231
+ "num_train_epochs": 2,
1232
+ "save_steps": 100,
1233
+ "stateful_callbacks": {
1234
+ "TrainerControl": {
1235
+ "args": {
1236
+ "should_epoch_stop": false,
1237
+ "should_evaluate": false,
1238
+ "should_log": false,
1239
+ "should_save": true,
1240
+ "should_training_stop": true
1241
+ },
1242
+ "attributes": {}
1243
+ }
1244
+ },
1245
+ "total_flos": 9.516753759971082e+17,
1246
+ "train_batch_size": 8,
1247
+ "trial_name": null,
1248
+ "trial_params": null
1249
+ }