DerivedFunction1 commited on
Commit
6e1f10b
·
verified ·
1 Parent(s): 23daa07

End of training

Browse files
Files changed (1) hide show
  1. trainer_state.json +1317 -0
trainer_state.json ADDED
@@ -0,0 +1,1317 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 17094,
3
+ "best_metric": 0.9845099349219312,
4
+ "best_model_checkpoint": "./xlmr-language-identification/checkpoint-17094",
5
+ "epoch": 2.0,
6
+ "eval_steps": 2500,
7
+ "global_step": 17094,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.011701304695473546,
14
+ "grad_norm": 0.9905334711074829,
15
+ "learning_rate": 4.971042471042471e-05,
16
+ "loss": 16.156219482421875,
17
+ "step": 100
18
+ },
19
+ {
20
+ "epoch": 0.023402609390947092,
21
+ "grad_norm": 1.069915533065796,
22
+ "learning_rate": 4.941792441792442e-05,
23
+ "loss": 5.045557556152343,
24
+ "step": 200
25
+ },
26
+ {
27
+ "epoch": 0.035103914086420634,
28
+ "grad_norm": 1.8720062971115112,
29
+ "learning_rate": 4.912542412542413e-05,
30
+ "loss": 4.602024841308594,
31
+ "step": 300
32
+ },
33
+ {
34
+ "epoch": 0.046805218781894184,
35
+ "grad_norm": 2.246952772140503,
36
+ "learning_rate": 4.883292383292383e-05,
37
+ "loss": 2.9484735107421876,
38
+ "step": 400
39
+ },
40
+ {
41
+ "epoch": 0.058506523477367726,
42
+ "grad_norm": 1.7273783683776855,
43
+ "learning_rate": 4.8540423540423544e-05,
44
+ "loss": 1.8604541015625,
45
+ "step": 500
46
+ },
47
+ {
48
+ "epoch": 0.07020782817284127,
49
+ "grad_norm": 1.871302843093872,
50
+ "learning_rate": 4.824792324792325e-05,
51
+ "loss": 1.2988777160644531,
52
+ "step": 600
53
+ },
54
+ {
55
+ "epoch": 0.08190913286831482,
56
+ "grad_norm": 1.9515539407730103,
57
+ "learning_rate": 4.7955422955422954e-05,
58
+ "loss": 0.9935964965820312,
59
+ "step": 700
60
+ },
61
+ {
62
+ "epoch": 0.09361043756378837,
63
+ "grad_norm": 1.469983696937561,
64
+ "learning_rate": 4.7662922662922666e-05,
65
+ "loss": 0.803764877319336,
66
+ "step": 800
67
+ },
68
+ {
69
+ "epoch": 0.1053117422592619,
70
+ "grad_norm": 1.6788742542266846,
71
+ "learning_rate": 4.737042237042237e-05,
72
+ "loss": 0.6818081665039063,
73
+ "step": 900
74
+ },
75
+ {
76
+ "epoch": 0.11701304695473545,
77
+ "grad_norm": 1.4318715333938599,
78
+ "learning_rate": 4.707792207792208e-05,
79
+ "loss": 0.5820805740356445,
80
+ "step": 1000
81
+ },
82
+ {
83
+ "epoch": 0.128714351650209,
84
+ "grad_norm": 1.9161852598190308,
85
+ "learning_rate": 4.678542178542179e-05,
86
+ "loss": 0.5121846389770508,
87
+ "step": 1100
88
+ },
89
+ {
90
+ "epoch": 0.14041565634568254,
91
+ "grad_norm": 1.6554639339447021,
92
+ "learning_rate": 4.6492921492921494e-05,
93
+ "loss": 0.4561897277832031,
94
+ "step": 1200
95
+ },
96
+ {
97
+ "epoch": 0.1521169610411561,
98
+ "grad_norm": 1.839687466621399,
99
+ "learning_rate": 4.62004212004212e-05,
100
+ "loss": 0.4188547134399414,
101
+ "step": 1300
102
+ },
103
+ {
104
+ "epoch": 0.16381826573662964,
105
+ "grad_norm": 1.735112190246582,
106
+ "learning_rate": 4.590792090792091e-05,
107
+ "loss": 0.3874264144897461,
108
+ "step": 1400
109
+ },
110
+ {
111
+ "epoch": 0.17551957043210317,
112
+ "grad_norm": 2.1364924907684326,
113
+ "learning_rate": 4.5615420615420616e-05,
114
+ "loss": 0.36660758972167967,
115
+ "step": 1500
116
+ },
117
+ {
118
+ "epoch": 0.18722087512757674,
119
+ "grad_norm": 1.5190038681030273,
120
+ "learning_rate": 4.532292032292033e-05,
121
+ "loss": 0.3320538330078125,
122
+ "step": 1600
123
+ },
124
+ {
125
+ "epoch": 0.19892217982305027,
126
+ "grad_norm": 1.4698094129562378,
127
+ "learning_rate": 4.503042003042003e-05,
128
+ "loss": 0.3180769729614258,
129
+ "step": 1700
130
+ },
131
+ {
132
+ "epoch": 0.2106234845185238,
133
+ "grad_norm": 1.4362446069717407,
134
+ "learning_rate": 4.4737919737919745e-05,
135
+ "loss": 0.3039104461669922,
136
+ "step": 1800
137
+ },
138
+ {
139
+ "epoch": 0.22232478921399737,
140
+ "grad_norm": 1.5884244441986084,
141
+ "learning_rate": 4.444541944541944e-05,
142
+ "loss": 0.2853180694580078,
143
+ "step": 1900
144
+ },
145
+ {
146
+ "epoch": 0.2340260939094709,
147
+ "grad_norm": 1.14271879196167,
148
+ "learning_rate": 4.4152919152919155e-05,
149
+ "loss": 0.2749899673461914,
150
+ "step": 2000
151
+ },
152
+ {
153
+ "epoch": 0.24572739860494444,
154
+ "grad_norm": 1.3998445272445679,
155
+ "learning_rate": 4.386041886041886e-05,
156
+ "loss": 0.2584847450256348,
157
+ "step": 2100
158
+ },
159
+ {
160
+ "epoch": 0.257428703300418,
161
+ "grad_norm": 1.126080870628357,
162
+ "learning_rate": 4.356791856791857e-05,
163
+ "loss": 0.2443878746032715,
164
+ "step": 2200
165
+ },
166
+ {
167
+ "epoch": 0.26913000799589154,
168
+ "grad_norm": 1.6860474348068237,
169
+ "learning_rate": 4.327541827541828e-05,
170
+ "loss": 0.23169761657714844,
171
+ "step": 2300
172
+ },
173
+ {
174
+ "epoch": 0.2808313126913651,
175
+ "grad_norm": 1.8752473592758179,
176
+ "learning_rate": 4.298291798291799e-05,
177
+ "loss": 0.22600336074829103,
178
+ "step": 2400
179
+ },
180
+ {
181
+ "epoch": 0.2925326173868386,
182
+ "grad_norm": 1.6066241264343262,
183
+ "learning_rate": 4.2690417690417694e-05,
184
+ "loss": 0.2185952568054199,
185
+ "step": 2500
186
+ },
187
+ {
188
+ "epoch": 0.2925326173868386,
189
+ "eval_accuracy": 0.8560363636363636,
190
+ "eval_f1": 0.9651478556858426,
191
+ "eval_loss": 0.039476945996284485,
192
+ "eval_precision": 0.9777755239169846,
193
+ "eval_recall": 0.9528421936966432,
194
+ "eval_runtime": 165.9297,
195
+ "eval_samples_per_second": 165.733,
196
+ "eval_steps_per_second": 5.183,
197
+ "step": 2500
198
+ },
199
+ {
200
+ "epoch": 0.3042339220823122,
201
+ "grad_norm": 1.2747637033462524,
202
+ "learning_rate": 4.2397917397917406e-05,
203
+ "loss": 0.22376758575439454,
204
+ "step": 2600
205
+ },
206
+ {
207
+ "epoch": 0.31593522677778574,
208
+ "grad_norm": 1.5281429290771484,
209
+ "learning_rate": 4.2105417105417104e-05,
210
+ "loss": 0.21567138671875,
211
+ "step": 2700
212
+ },
213
+ {
214
+ "epoch": 0.3276365314732593,
215
+ "grad_norm": 1.0241914987564087,
216
+ "learning_rate": 4.1812916812916816e-05,
217
+ "loss": 0.20220571517944336,
218
+ "step": 2800
219
+ },
220
+ {
221
+ "epoch": 0.3393378361687328,
222
+ "grad_norm": 1.9281812906265259,
223
+ "learning_rate": 4.152041652041652e-05,
224
+ "loss": 0.19900651931762695,
225
+ "step": 2900
226
+ },
227
+ {
228
+ "epoch": 0.35103914086420634,
229
+ "grad_norm": 1.0900094509124756,
230
+ "learning_rate": 4.122791622791623e-05,
231
+ "loss": 0.19108434677124023,
232
+ "step": 3000
233
+ },
234
+ {
235
+ "epoch": 0.3627404455596799,
236
+ "grad_norm": 1.9392260313034058,
237
+ "learning_rate": 4.093541593541594e-05,
238
+ "loss": 0.1862166404724121,
239
+ "step": 3100
240
+ },
241
+ {
242
+ "epoch": 0.37444175025515347,
243
+ "grad_norm": 1.4907201528549194,
244
+ "learning_rate": 4.064291564291564e-05,
245
+ "loss": 0.18224323272705079,
246
+ "step": 3200
247
+ },
248
+ {
249
+ "epoch": 0.386143054950627,
250
+ "grad_norm": 1.0142017602920532,
251
+ "learning_rate": 4.0350415350415355e-05,
252
+ "loss": 0.17916433334350587,
253
+ "step": 3300
254
+ },
255
+ {
256
+ "epoch": 0.39784435964610054,
257
+ "grad_norm": 1.3136364221572876,
258
+ "learning_rate": 4.005791505791506e-05,
259
+ "loss": 0.17482011795043945,
260
+ "step": 3400
261
+ },
262
+ {
263
+ "epoch": 0.4095456643415741,
264
+ "grad_norm": 1.7887938022613525,
265
+ "learning_rate": 3.9765414765414765e-05,
266
+ "loss": 0.16918930053710937,
267
+ "step": 3500
268
+ },
269
+ {
270
+ "epoch": 0.4212469690370476,
271
+ "grad_norm": 1.368762731552124,
272
+ "learning_rate": 3.947291447291447e-05,
273
+ "loss": 0.1643056869506836,
274
+ "step": 3600
275
+ },
276
+ {
277
+ "epoch": 0.43294827373252115,
278
+ "grad_norm": 1.666864275932312,
279
+ "learning_rate": 3.918041418041418e-05,
280
+ "loss": 0.16255182266235352,
281
+ "step": 3700
282
+ },
283
+ {
284
+ "epoch": 0.44464957842799474,
285
+ "grad_norm": 1.4107720851898193,
286
+ "learning_rate": 3.888791388791389e-05,
287
+ "loss": 0.15760359764099122,
288
+ "step": 3800
289
+ },
290
+ {
291
+ "epoch": 0.4563508831234683,
292
+ "grad_norm": 1.6475497484207153,
293
+ "learning_rate": 3.85954135954136e-05,
294
+ "loss": 0.1564300537109375,
295
+ "step": 3900
296
+ },
297
+ {
298
+ "epoch": 0.4680521878189418,
299
+ "grad_norm": 1.3566536903381348,
300
+ "learning_rate": 3.8302913302913305e-05,
301
+ "loss": 0.15231061935424806,
302
+ "step": 4000
303
+ },
304
+ {
305
+ "epoch": 0.47975349251441535,
306
+ "grad_norm": 0.9237350225448608,
307
+ "learning_rate": 3.801041301041301e-05,
308
+ "loss": 0.14665995597839354,
309
+ "step": 4100
310
+ },
311
+ {
312
+ "epoch": 0.4914547972098889,
313
+ "grad_norm": 2.0160303115844727,
314
+ "learning_rate": 3.7717912717912715e-05,
315
+ "loss": 0.1439968776702881,
316
+ "step": 4200
317
+ },
318
+ {
319
+ "epoch": 0.5031561019053624,
320
+ "grad_norm": 1.495821237564087,
321
+ "learning_rate": 3.742541242541243e-05,
322
+ "loss": 0.14349424362182617,
323
+ "step": 4300
324
+ },
325
+ {
326
+ "epoch": 0.514857406600836,
327
+ "grad_norm": 1.1643633842468262,
328
+ "learning_rate": 3.713291213291213e-05,
329
+ "loss": 0.1439281463623047,
330
+ "step": 4400
331
+ },
332
+ {
333
+ "epoch": 0.5265587112963095,
334
+ "grad_norm": 1.2707788944244385,
335
+ "learning_rate": 3.6840411840411844e-05,
336
+ "loss": 0.14324712753295898,
337
+ "step": 4500
338
+ },
339
+ {
340
+ "epoch": 0.5382600159917831,
341
+ "grad_norm": 0.9467172026634216,
342
+ "learning_rate": 3.654791154791155e-05,
343
+ "loss": 0.136934118270874,
344
+ "step": 4600
345
+ },
346
+ {
347
+ "epoch": 0.5499613206872567,
348
+ "grad_norm": 1.4451957941055298,
349
+ "learning_rate": 3.625541125541126e-05,
350
+ "loss": 0.13631460189819336,
351
+ "step": 4700
352
+ },
353
+ {
354
+ "epoch": 0.5616626253827302,
355
+ "grad_norm": 1.1038591861724854,
356
+ "learning_rate": 3.5962910962910966e-05,
357
+ "loss": 0.13634085655212402,
358
+ "step": 4800
359
+ },
360
+ {
361
+ "epoch": 0.5733639300782037,
362
+ "grad_norm": 1.2149685621261597,
363
+ "learning_rate": 3.567041067041067e-05,
364
+ "loss": 0.13158455848693848,
365
+ "step": 4900
366
+ },
367
+ {
368
+ "epoch": 0.5850652347736772,
369
+ "grad_norm": 1.421316146850586,
370
+ "learning_rate": 3.5377910377910376e-05,
371
+ "loss": 0.13308174133300782,
372
+ "step": 5000
373
+ },
374
+ {
375
+ "epoch": 0.5850652347736772,
376
+ "eval_accuracy": 0.9069818181818182,
377
+ "eval_f1": 0.9759635668726578,
378
+ "eval_loss": 0.02319982275366783,
379
+ "eval_precision": 0.9802819359100597,
380
+ "eval_recall": 0.971683077797408,
381
+ "eval_runtime": 164.1216,
382
+ "eval_samples_per_second": 167.559,
383
+ "eval_steps_per_second": 5.24,
384
+ "step": 5000
385
+ },
386
+ {
387
+ "epoch": 0.5967665394691508,
388
+ "grad_norm": 1.9884291887283325,
389
+ "learning_rate": 3.508541008541009e-05,
390
+ "loss": 0.12942585945129395,
391
+ "step": 5100
392
+ },
393
+ {
394
+ "epoch": 0.6084678441646244,
395
+ "grad_norm": 1.1202914714813232,
396
+ "learning_rate": 3.479290979290979e-05,
397
+ "loss": 0.12913961410522462,
398
+ "step": 5200
399
+ },
400
+ {
401
+ "epoch": 0.6201691488600979,
402
+ "grad_norm": 1.470561146736145,
403
+ "learning_rate": 3.4500409500409505e-05,
404
+ "loss": 0.12901023864746095,
405
+ "step": 5300
406
+ },
407
+ {
408
+ "epoch": 0.6318704535555715,
409
+ "grad_norm": 0.930363655090332,
410
+ "learning_rate": 3.420790920790921e-05,
411
+ "loss": 0.12278788566589355,
412
+ "step": 5400
413
+ },
414
+ {
415
+ "epoch": 0.643571758251045,
416
+ "grad_norm": 1.7242929935455322,
417
+ "learning_rate": 3.391540891540892e-05,
418
+ "loss": 0.12592774391174316,
419
+ "step": 5500
420
+ },
421
+ {
422
+ "epoch": 0.6552730629465185,
423
+ "grad_norm": 1.8954977989196777,
424
+ "learning_rate": 3.362290862290862e-05,
425
+ "loss": 0.12447975158691406,
426
+ "step": 5600
427
+ },
428
+ {
429
+ "epoch": 0.666974367641992,
430
+ "grad_norm": 1.352124571800232,
431
+ "learning_rate": 3.333040833040833e-05,
432
+ "loss": 0.1232685947418213,
433
+ "step": 5700
434
+ },
435
+ {
436
+ "epoch": 0.6786756723374656,
437
+ "grad_norm": 1.2466479539871216,
438
+ "learning_rate": 3.303790803790804e-05,
439
+ "loss": 0.11894026756286621,
440
+ "step": 5800
441
+ },
442
+ {
443
+ "epoch": 0.6903769770329392,
444
+ "grad_norm": 1.429012656211853,
445
+ "learning_rate": 3.274540774540775e-05,
446
+ "loss": 0.11655033111572266,
447
+ "step": 5900
448
+ },
449
+ {
450
+ "epoch": 0.7020782817284127,
451
+ "grad_norm": 1.4804608821868896,
452
+ "learning_rate": 3.2452907452907454e-05,
453
+ "loss": 0.11837745666503906,
454
+ "step": 6000
455
+ },
456
+ {
457
+ "epoch": 0.7137795864238863,
458
+ "grad_norm": 1.3687437772750854,
459
+ "learning_rate": 3.2160407160407166e-05,
460
+ "loss": 0.11587305068969726,
461
+ "step": 6100
462
+ },
463
+ {
464
+ "epoch": 0.7254808911193598,
465
+ "grad_norm": 1.4826337099075317,
466
+ "learning_rate": 3.186790686790687e-05,
467
+ "loss": 0.11750144958496093,
468
+ "step": 6200
469
+ },
470
+ {
471
+ "epoch": 0.7371821958148334,
472
+ "grad_norm": 0.959021270275116,
473
+ "learning_rate": 3.1575406575406577e-05,
474
+ "loss": 0.11341402053833008,
475
+ "step": 6300
476
+ },
477
+ {
478
+ "epoch": 0.7488835005103069,
479
+ "grad_norm": 0.8908078670501709,
480
+ "learning_rate": 3.128290628290628e-05,
481
+ "loss": 0.11524638175964355,
482
+ "step": 6400
483
+ },
484
+ {
485
+ "epoch": 0.7605848052057804,
486
+ "grad_norm": 0.9967349171638489,
487
+ "learning_rate": 3.0990405990405994e-05,
488
+ "loss": 0.1124759292602539,
489
+ "step": 6500
490
+ },
491
+ {
492
+ "epoch": 0.772286109901254,
493
+ "grad_norm": 1.4200743436813354,
494
+ "learning_rate": 3.06979056979057e-05,
495
+ "loss": 0.10863906860351563,
496
+ "step": 6600
497
+ },
498
+ {
499
+ "epoch": 0.7839874145967275,
500
+ "grad_norm": 1.6694557666778564,
501
+ "learning_rate": 3.0405405405405407e-05,
502
+ "loss": 0.11165953636169433,
503
+ "step": 6700
504
+ },
505
+ {
506
+ "epoch": 0.7956887192922011,
507
+ "grad_norm": 1.0781575441360474,
508
+ "learning_rate": 3.0112905112905116e-05,
509
+ "loss": 0.1116695213317871,
510
+ "step": 6800
511
+ },
512
+ {
513
+ "epoch": 0.8073900239876747,
514
+ "grad_norm": 1.3060591220855713,
515
+ "learning_rate": 2.9820404820404824e-05,
516
+ "loss": 0.1075587272644043,
517
+ "step": 6900
518
+ },
519
+ {
520
+ "epoch": 0.8190913286831482,
521
+ "grad_norm": 1.448541283607483,
522
+ "learning_rate": 2.9527904527904533e-05,
523
+ "loss": 0.11105222702026367,
524
+ "step": 7000
525
+ },
526
+ {
527
+ "epoch": 0.8307926333786217,
528
+ "grad_norm": 1.8385331630706787,
529
+ "learning_rate": 2.9235404235404234e-05,
530
+ "loss": 0.10690691947937012,
531
+ "step": 7100
532
+ },
533
+ {
534
+ "epoch": 0.8424939380740952,
535
+ "grad_norm": 1.4097715616226196,
536
+ "learning_rate": 2.8942903942903943e-05,
537
+ "loss": 0.10494094848632812,
538
+ "step": 7200
539
+ },
540
+ {
541
+ "epoch": 0.8541952427695688,
542
+ "grad_norm": 1.7280794382095337,
543
+ "learning_rate": 2.865040365040365e-05,
544
+ "loss": 0.10908853530883789,
545
+ "step": 7300
546
+ },
547
+ {
548
+ "epoch": 0.8658965474650423,
549
+ "grad_norm": 1.0693798065185547,
550
+ "learning_rate": 2.835790335790336e-05,
551
+ "loss": 0.10775123596191406,
552
+ "step": 7400
553
+ },
554
+ {
555
+ "epoch": 0.8775978521605159,
556
+ "grad_norm": 1.5537015199661255,
557
+ "learning_rate": 2.806540306540307e-05,
558
+ "loss": 0.10442270278930664,
559
+ "step": 7500
560
+ },
561
+ {
562
+ "epoch": 0.8775978521605159,
563
+ "eval_accuracy": 0.9217818181818181,
564
+ "eval_f1": 0.9801159592655914,
565
+ "eval_loss": 0.017201833426952362,
566
+ "eval_precision": 0.982831231753525,
567
+ "eval_recall": 0.9774156484352801,
568
+ "eval_runtime": 185.5814,
569
+ "eval_samples_per_second": 148.183,
570
+ "eval_steps_per_second": 4.634,
571
+ "step": 7500
572
+ },
573
+ {
574
+ "epoch": 0.8892991568559895,
575
+ "grad_norm": 1.0237928628921509,
576
+ "learning_rate": 2.7772902772902777e-05,
577
+ "loss": 0.10509194374084473,
578
+ "step": 7600
579
+ },
580
+ {
581
+ "epoch": 0.901000461551463,
582
+ "grad_norm": 1.5233043432235718,
583
+ "learning_rate": 2.7480402480402486e-05,
584
+ "loss": 0.10594425201416016,
585
+ "step": 7700
586
+ },
587
+ {
588
+ "epoch": 0.9127017662469366,
589
+ "grad_norm": 0.8517800569534302,
590
+ "learning_rate": 2.7187902187902187e-05,
591
+ "loss": 0.10539012908935547,
592
+ "step": 7800
593
+ },
594
+ {
595
+ "epoch": 0.92440307094241,
596
+ "grad_norm": 1.3082163333892822,
597
+ "learning_rate": 2.6895401895401896e-05,
598
+ "loss": 0.09960749626159668,
599
+ "step": 7900
600
+ },
601
+ {
602
+ "epoch": 0.9361043756378836,
603
+ "grad_norm": 0.8803576827049255,
604
+ "learning_rate": 2.6602901602901604e-05,
605
+ "loss": 0.10325809478759766,
606
+ "step": 8000
607
+ },
608
+ {
609
+ "epoch": 0.9478056803333572,
610
+ "grad_norm": 1.5242176055908203,
611
+ "learning_rate": 2.6310401310401313e-05,
612
+ "loss": 0.10169939041137695,
613
+ "step": 8100
614
+ },
615
+ {
616
+ "epoch": 0.9595069850288307,
617
+ "grad_norm": 1.2510749101638794,
618
+ "learning_rate": 2.601790101790102e-05,
619
+ "loss": 0.100986909866333,
620
+ "step": 8200
621
+ },
622
+ {
623
+ "epoch": 0.9712082897243043,
624
+ "grad_norm": 1.4342858791351318,
625
+ "learning_rate": 2.5725400725400726e-05,
626
+ "loss": 0.09906567573547363,
627
+ "step": 8300
628
+ },
629
+ {
630
+ "epoch": 0.9829095944197778,
631
+ "grad_norm": 1.1943491697311401,
632
+ "learning_rate": 2.5432900432900435e-05,
633
+ "loss": 0.09981002807617187,
634
+ "step": 8400
635
+ },
636
+ {
637
+ "epoch": 0.9946108991152514,
638
+ "grad_norm": 1.0533969402313232,
639
+ "learning_rate": 2.5140400140400143e-05,
640
+ "loss": 0.10099024772644043,
641
+ "step": 8500
642
+ },
643
+ {
644
+ "epoch": 1.006201691488601,
645
+ "grad_norm": 0.952810525894165,
646
+ "learning_rate": 2.484789984789985e-05,
647
+ "loss": 0.09148699760437012,
648
+ "step": 8600
649
+ },
650
+ {
651
+ "epoch": 1.0179029961840744,
652
+ "grad_norm": 0.9051135182380676,
653
+ "learning_rate": 2.4555399555399554e-05,
654
+ "loss": 0.08493613243103028,
655
+ "step": 8700
656
+ },
657
+ {
658
+ "epoch": 1.0296043008795481,
659
+ "grad_norm": 1.4660611152648926,
660
+ "learning_rate": 2.4262899262899262e-05,
661
+ "loss": 0.08283645629882813,
662
+ "step": 8800
663
+ },
664
+ {
665
+ "epoch": 1.0413056055750216,
666
+ "grad_norm": 1.2308636903762817,
667
+ "learning_rate": 2.397039897039897e-05,
668
+ "loss": 0.08224470138549805,
669
+ "step": 8900
670
+ },
671
+ {
672
+ "epoch": 1.053006910270495,
673
+ "grad_norm": 1.180936574935913,
674
+ "learning_rate": 2.367789867789868e-05,
675
+ "loss": 0.08456890106201172,
676
+ "step": 9000
677
+ },
678
+ {
679
+ "epoch": 1.0647082149659688,
680
+ "grad_norm": 1.1681982278823853,
681
+ "learning_rate": 2.3385398385398384e-05,
682
+ "loss": 0.08683476448059083,
683
+ "step": 9100
684
+ },
685
+ {
686
+ "epoch": 1.0764095196614423,
687
+ "grad_norm": 1.1853655576705933,
688
+ "learning_rate": 2.3092898092898093e-05,
689
+ "loss": 0.08339482307434082,
690
+ "step": 9200
691
+ },
692
+ {
693
+ "epoch": 1.0881108243569158,
694
+ "grad_norm": 0.7993655204772949,
695
+ "learning_rate": 2.28003978003978e-05,
696
+ "loss": 0.08154037475585937,
697
+ "step": 9300
698
+ },
699
+ {
700
+ "epoch": 1.0998121290523892,
701
+ "grad_norm": 1.3015902042388916,
702
+ "learning_rate": 2.250789750789751e-05,
703
+ "loss": 0.0843494701385498,
704
+ "step": 9400
705
+ },
706
+ {
707
+ "epoch": 1.111513433747863,
708
+ "grad_norm": 0.927474319934845,
709
+ "learning_rate": 2.2215397215397215e-05,
710
+ "loss": 0.08107766151428222,
711
+ "step": 9500
712
+ },
713
+ {
714
+ "epoch": 1.1232147384433364,
715
+ "grad_norm": 1.2510508298873901,
716
+ "learning_rate": 2.1922896922896923e-05,
717
+ "loss": 0.08390594482421875,
718
+ "step": 9600
719
+ },
720
+ {
721
+ "epoch": 1.13491604313881,
722
+ "grad_norm": 1.012722373008728,
723
+ "learning_rate": 2.1630396630396632e-05,
724
+ "loss": 0.08134162902832032,
725
+ "step": 9700
726
+ },
727
+ {
728
+ "epoch": 1.1466173478342836,
729
+ "grad_norm": 1.8160477876663208,
730
+ "learning_rate": 2.1337896337896337e-05,
731
+ "loss": 0.08689288139343261,
732
+ "step": 9800
733
+ },
734
+ {
735
+ "epoch": 1.158318652529757,
736
+ "grad_norm": 1.6144487857818604,
737
+ "learning_rate": 2.1045396045396046e-05,
738
+ "loss": 0.08774213790893555,
739
+ "step": 9900
740
+ },
741
+ {
742
+ "epoch": 1.1700199572252306,
743
+ "grad_norm": 1.088478922843933,
744
+ "learning_rate": 2.0752895752895754e-05,
745
+ "loss": 0.08510435104370118,
746
+ "step": 10000
747
+ },
748
+ {
749
+ "epoch": 1.1700199572252306,
750
+ "eval_accuracy": 0.9310545454545455,
751
+ "eval_f1": 0.9822452239157081,
752
+ "eval_loss": 0.0149807995185256,
753
+ "eval_precision": 0.9843658878562654,
754
+ "eval_recall": 0.9801336776170297,
755
+ "eval_runtime": 187.3637,
756
+ "eval_samples_per_second": 146.773,
757
+ "eval_steps_per_second": 4.59,
758
+ "step": 10000
759
+ },
760
+ {
761
+ "epoch": 1.1817212619207043,
762
+ "grad_norm": 1.2410812377929688,
763
+ "learning_rate": 2.0460395460395463e-05,
764
+ "loss": 0.08356905937194824,
765
+ "step": 10100
766
+ },
767
+ {
768
+ "epoch": 1.1934225666161777,
769
+ "grad_norm": 0.9291555881500244,
770
+ "learning_rate": 2.0167895167895168e-05,
771
+ "loss": 0.08259629249572754,
772
+ "step": 10200
773
+ },
774
+ {
775
+ "epoch": 1.2051238713116512,
776
+ "grad_norm": 1.146966576576233,
777
+ "learning_rate": 1.9875394875394876e-05,
778
+ "loss": 0.08215347290039063,
779
+ "step": 10300
780
+ },
781
+ {
782
+ "epoch": 1.2168251760071247,
783
+ "grad_norm": 0.9125510454177856,
784
+ "learning_rate": 1.9582894582894585e-05,
785
+ "loss": 0.08209040641784668,
786
+ "step": 10400
787
+ },
788
+ {
789
+ "epoch": 1.2285264807025984,
790
+ "grad_norm": 0.906428337097168,
791
+ "learning_rate": 1.9290394290394293e-05,
792
+ "loss": 0.08041071891784668,
793
+ "step": 10500
794
+ },
795
+ {
796
+ "epoch": 1.2402277853980719,
797
+ "grad_norm": 1.0091209411621094,
798
+ "learning_rate": 1.8997893997894e-05,
799
+ "loss": 0.07910086631774903,
800
+ "step": 10600
801
+ },
802
+ {
803
+ "epoch": 1.2519290900935454,
804
+ "grad_norm": 0.9152646660804749,
805
+ "learning_rate": 1.8705393705393707e-05,
806
+ "loss": 0.08119074821472168,
807
+ "step": 10700
808
+ },
809
+ {
810
+ "epoch": 1.2636303947890188,
811
+ "grad_norm": 1.0613765716552734,
812
+ "learning_rate": 1.8412893412893415e-05,
813
+ "loss": 0.07813576221466065,
814
+ "step": 10800
815
+ },
816
+ {
817
+ "epoch": 1.2753316994844925,
818
+ "grad_norm": 0.7284146547317505,
819
+ "learning_rate": 1.8120393120393124e-05,
820
+ "loss": 0.08263915061950683,
821
+ "step": 10900
822
+ },
823
+ {
824
+ "epoch": 1.287033004179966,
825
+ "grad_norm": 0.8245161771774292,
826
+ "learning_rate": 1.782789282789283e-05,
827
+ "loss": 0.07991621494293213,
828
+ "step": 11000
829
+ },
830
+ {
831
+ "epoch": 1.2987343088754395,
832
+ "grad_norm": 0.9131597876548767,
833
+ "learning_rate": 1.7535392535392538e-05,
834
+ "loss": 0.08203693389892579,
835
+ "step": 11100
836
+ },
837
+ {
838
+ "epoch": 1.3104356135709132,
839
+ "grad_norm": 1.4919288158416748,
840
+ "learning_rate": 1.7242892242892246e-05,
841
+ "loss": 0.07703531742095947,
842
+ "step": 11200
843
+ },
844
+ {
845
+ "epoch": 1.3221369182663867,
846
+ "grad_norm": 0.9880580306053162,
847
+ "learning_rate": 1.695039195039195e-05,
848
+ "loss": 0.07978516101837158,
849
+ "step": 11300
850
+ },
851
+ {
852
+ "epoch": 1.3338382229618602,
853
+ "grad_norm": 1.483494758605957,
854
+ "learning_rate": 1.665789165789166e-05,
855
+ "loss": 0.0792800235748291,
856
+ "step": 11400
857
+ },
858
+ {
859
+ "epoch": 1.3455395276573339,
860
+ "grad_norm": 1.2706217765808105,
861
+ "learning_rate": 1.6365391365391368e-05,
862
+ "loss": 0.08085798263549805,
863
+ "step": 11500
864
+ },
865
+ {
866
+ "epoch": 1.3572408323528073,
867
+ "grad_norm": 0.9506115913391113,
868
+ "learning_rate": 1.6072891072891073e-05,
869
+ "loss": 0.0732752513885498,
870
+ "step": 11600
871
+ },
872
+ {
873
+ "epoch": 1.3689421370482808,
874
+ "grad_norm": 0.7671661972999573,
875
+ "learning_rate": 1.5780390780390782e-05,
876
+ "loss": 0.07732769966125488,
877
+ "step": 11700
878
+ },
879
+ {
880
+ "epoch": 1.3806434417437545,
881
+ "grad_norm": 1.3610262870788574,
882
+ "learning_rate": 1.5487890487890487e-05,
883
+ "loss": 0.07633553028106689,
884
+ "step": 11800
885
+ },
886
+ {
887
+ "epoch": 1.392344746439228,
888
+ "grad_norm": 1.1439802646636963,
889
+ "learning_rate": 1.5195390195390197e-05,
890
+ "loss": 0.07713084220886231,
891
+ "step": 11900
892
+ },
893
+ {
894
+ "epoch": 1.4040460511347015,
895
+ "grad_norm": 1.389791488647461,
896
+ "learning_rate": 1.4902889902889906e-05,
897
+ "loss": 0.0749136209487915,
898
+ "step": 12000
899
+ },
900
+ {
901
+ "epoch": 1.4157473558301752,
902
+ "grad_norm": 0.6515536308288574,
903
+ "learning_rate": 1.461038961038961e-05,
904
+ "loss": 0.07383899688720703,
905
+ "step": 12100
906
+ },
907
+ {
908
+ "epoch": 1.4274486605256487,
909
+ "grad_norm": 0.7534876465797424,
910
+ "learning_rate": 1.431788931788932e-05,
911
+ "loss": 0.07853510379791259,
912
+ "step": 12200
913
+ },
914
+ {
915
+ "epoch": 1.4391499652211222,
916
+ "grad_norm": 0.6730746626853943,
917
+ "learning_rate": 1.4025389025389026e-05,
918
+ "loss": 0.0697617483139038,
919
+ "step": 12300
920
+ },
921
+ {
922
+ "epoch": 1.4508512699165956,
923
+ "grad_norm": 1.8400371074676514,
924
+ "learning_rate": 1.3732888732888733e-05,
925
+ "loss": 0.07848044872283935,
926
+ "step": 12400
927
+ },
928
+ {
929
+ "epoch": 1.4625525746120691,
930
+ "grad_norm": 1.2114777565002441,
931
+ "learning_rate": 1.3440388440388441e-05,
932
+ "loss": 0.0783261775970459,
933
+ "step": 12500
934
+ },
935
+ {
936
+ "epoch": 1.4625525746120691,
937
+ "eval_accuracy": 0.9353818181818182,
938
+ "eval_f1": 0.9834085799751036,
939
+ "eval_loss": 0.013636507093906403,
940
+ "eval_precision": 0.9859303596264654,
941
+ "eval_recall": 0.9808996676591591,
942
+ "eval_runtime": 167.3633,
943
+ "eval_samples_per_second": 164.313,
944
+ "eval_steps_per_second": 5.139,
945
+ "step": 12500
946
+ },
947
+ {
948
+ "epoch": 1.4742538793075428,
949
+ "grad_norm": 1.7295293807983398,
950
+ "learning_rate": 1.3147888147888148e-05,
951
+ "loss": 0.074767746925354,
952
+ "step": 12600
953
+ },
954
+ {
955
+ "epoch": 1.4859551840030163,
956
+ "grad_norm": 1.08072030544281,
957
+ "learning_rate": 1.2855387855387857e-05,
958
+ "loss": 0.07684030532836914,
959
+ "step": 12700
960
+ },
961
+ {
962
+ "epoch": 1.4976564886984898,
963
+ "grad_norm": 1.334511637687683,
964
+ "learning_rate": 1.2562887562887562e-05,
965
+ "loss": 0.07815152645111084,
966
+ "step": 12800
967
+ },
968
+ {
969
+ "epoch": 1.5093577933939635,
970
+ "grad_norm": 0.8732834458351135,
971
+ "learning_rate": 1.227038727038727e-05,
972
+ "loss": 0.07617097854614258,
973
+ "step": 12900
974
+ },
975
+ {
976
+ "epoch": 1.521059098089437,
977
+ "grad_norm": 1.038492202758789,
978
+ "learning_rate": 1.1977886977886979e-05,
979
+ "loss": 0.07482788562774659,
980
+ "step": 13000
981
+ },
982
+ {
983
+ "epoch": 1.5327604027849104,
984
+ "grad_norm": 1.1699777841567993,
985
+ "learning_rate": 1.1685386685386686e-05,
986
+ "loss": 0.07500550746917725,
987
+ "step": 13100
988
+ },
989
+ {
990
+ "epoch": 1.5444617074803841,
991
+ "grad_norm": 1.1473757028579712,
992
+ "learning_rate": 1.1392886392886394e-05,
993
+ "loss": 0.07690254688262939,
994
+ "step": 13200
995
+ },
996
+ {
997
+ "epoch": 1.5561630121758576,
998
+ "grad_norm": 1.6335910558700562,
999
+ "learning_rate": 1.1100386100386101e-05,
1000
+ "loss": 0.07375136375427246,
1001
+ "step": 13300
1002
+ },
1003
+ {
1004
+ "epoch": 1.567864316871331,
1005
+ "grad_norm": 0.9858669638633728,
1006
+ "learning_rate": 1.0807885807885808e-05,
1007
+ "loss": 0.07300055027008057,
1008
+ "step": 13400
1009
+ },
1010
+ {
1011
+ "epoch": 1.5795656215668048,
1012
+ "grad_norm": 1.1223580837249756,
1013
+ "learning_rate": 1.0515385515385516e-05,
1014
+ "loss": 0.07348923683166504,
1015
+ "step": 13500
1016
+ },
1017
+ {
1018
+ "epoch": 1.5912669262622783,
1019
+ "grad_norm": 0.8121886253356934,
1020
+ "learning_rate": 1.0222885222885223e-05,
1021
+ "loss": 0.0721654510498047,
1022
+ "step": 13600
1023
+ },
1024
+ {
1025
+ "epoch": 1.6029682309577518,
1026
+ "grad_norm": 1.125582218170166,
1027
+ "learning_rate": 9.930384930384932e-06,
1028
+ "loss": 0.07356025695800782,
1029
+ "step": 13700
1030
+ },
1031
+ {
1032
+ "epoch": 1.6146695356532255,
1033
+ "grad_norm": 0.9660710692405701,
1034
+ "learning_rate": 9.637884637884638e-06,
1035
+ "loss": 0.07352369308471679,
1036
+ "step": 13800
1037
+ },
1038
+ {
1039
+ "epoch": 1.6263708403486987,
1040
+ "grad_norm": 0.9546118378639221,
1041
+ "learning_rate": 9.345384345384347e-06,
1042
+ "loss": 0.07006223201751709,
1043
+ "step": 13900
1044
+ },
1045
+ {
1046
+ "epoch": 1.6380721450441724,
1047
+ "grad_norm": 1.2664750814437866,
1048
+ "learning_rate": 9.052884052884054e-06,
1049
+ "loss": 0.07232100963592529,
1050
+ "step": 14000
1051
+ },
1052
+ {
1053
+ "epoch": 1.6497734497396461,
1054
+ "grad_norm": 1.087778925895691,
1055
+ "learning_rate": 8.76038376038376e-06,
1056
+ "loss": 0.07518599510192871,
1057
+ "step": 14100
1058
+ },
1059
+ {
1060
+ "epoch": 1.6614747544351194,
1061
+ "grad_norm": 1.0009450912475586,
1062
+ "learning_rate": 8.467883467883467e-06,
1063
+ "loss": 0.07395988464355469,
1064
+ "step": 14200
1065
+ },
1066
+ {
1067
+ "epoch": 1.673176059130593,
1068
+ "grad_norm": 1.052869200706482,
1069
+ "learning_rate": 8.175383175383176e-06,
1070
+ "loss": 0.07117973327636719,
1071
+ "step": 14300
1072
+ },
1073
+ {
1074
+ "epoch": 1.6848773638260666,
1075
+ "grad_norm": 0.9935372471809387,
1076
+ "learning_rate": 7.882882882882883e-06,
1077
+ "loss": 0.07157835006713867,
1078
+ "step": 14400
1079
+ },
1080
+ {
1081
+ "epoch": 1.69657866852154,
1082
+ "grad_norm": 0.8762065768241882,
1083
+ "learning_rate": 7.59038259038259e-06,
1084
+ "loss": 0.07200119018554688,
1085
+ "step": 14500
1086
+ },
1087
+ {
1088
+ "epoch": 1.7082799732170137,
1089
+ "grad_norm": 1.1860989332199097,
1090
+ "learning_rate": 7.297882297882298e-06,
1091
+ "loss": 0.06994849681854248,
1092
+ "step": 14600
1093
+ },
1094
+ {
1095
+ "epoch": 1.7199812779124872,
1096
+ "grad_norm": 0.7438328862190247,
1097
+ "learning_rate": 7.005382005382005e-06,
1098
+ "loss": 0.06839815139770508,
1099
+ "step": 14700
1100
+ },
1101
+ {
1102
+ "epoch": 1.7316825826079607,
1103
+ "grad_norm": 1.6703062057495117,
1104
+ "learning_rate": 6.712881712881713e-06,
1105
+ "loss": 0.07001969337463379,
1106
+ "step": 14800
1107
+ },
1108
+ {
1109
+ "epoch": 1.7433838873034344,
1110
+ "grad_norm": 1.143515706062317,
1111
+ "learning_rate": 6.42038142038142e-06,
1112
+ "loss": 0.07166263103485107,
1113
+ "step": 14900
1114
+ },
1115
+ {
1116
+ "epoch": 1.755085191998908,
1117
+ "grad_norm": 1.0320720672607422,
1118
+ "learning_rate": 6.127881127881129e-06,
1119
+ "loss": 0.0704725456237793,
1120
+ "step": 15000
1121
+ },
1122
+ {
1123
+ "epoch": 1.755085191998908,
1124
+ "eval_accuracy": 0.9399272727272727,
1125
+ "eval_f1": 0.9843185306203277,
1126
+ "eval_loss": 0.012572239153087139,
1127
+ "eval_precision": 0.9860882072137978,
1128
+ "eval_recall": 0.9825551945244066,
1129
+ "eval_runtime": 207.4736,
1130
+ "eval_samples_per_second": 132.547,
1131
+ "eval_steps_per_second": 4.145,
1132
+ "step": 15000
1133
+ },
1134
+ {
1135
+ "epoch": 1.7667864966943814,
1136
+ "grad_norm": 0.8305580019950867,
1137
+ "learning_rate": 5.8353808353808354e-06,
1138
+ "loss": 0.07156490802764892,
1139
+ "step": 15100
1140
+ },
1141
+ {
1142
+ "epoch": 1.778487801389855,
1143
+ "grad_norm": 1.298708438873291,
1144
+ "learning_rate": 5.542880542880543e-06,
1145
+ "loss": 0.06973484516143799,
1146
+ "step": 15200
1147
+ },
1148
+ {
1149
+ "epoch": 1.7901891060853286,
1150
+ "grad_norm": 0.8593277931213379,
1151
+ "learning_rate": 5.250380250380251e-06,
1152
+ "loss": 0.06879038333892823,
1153
+ "step": 15300
1154
+ },
1155
+ {
1156
+ "epoch": 1.801890410780802,
1157
+ "grad_norm": 0.732769787311554,
1158
+ "learning_rate": 4.9578799578799576e-06,
1159
+ "loss": 0.06908240318298339,
1160
+ "step": 15400
1161
+ },
1162
+ {
1163
+ "epoch": 1.8135917154762757,
1164
+ "grad_norm": 1.3583112955093384,
1165
+ "learning_rate": 4.665379665379665e-06,
1166
+ "loss": 0.07114370822906495,
1167
+ "step": 15500
1168
+ },
1169
+ {
1170
+ "epoch": 1.825293020171749,
1171
+ "grad_norm": 0.9253562092781067,
1172
+ "learning_rate": 4.372879372879373e-06,
1173
+ "loss": 0.07082613945007324,
1174
+ "step": 15600
1175
+ },
1176
+ {
1177
+ "epoch": 1.8369943248672227,
1178
+ "grad_norm": 1.340505599975586,
1179
+ "learning_rate": 4.0803790803790806e-06,
1180
+ "loss": 0.06995931625366211,
1181
+ "step": 15700
1182
+ },
1183
+ {
1184
+ "epoch": 1.8486956295626964,
1185
+ "grad_norm": 0.9078701734542847,
1186
+ "learning_rate": 3.7878787878787882e-06,
1187
+ "loss": 0.06670016288757324,
1188
+ "step": 15800
1189
+ },
1190
+ {
1191
+ "epoch": 1.8603969342581697,
1192
+ "grad_norm": 1.2157623767852783,
1193
+ "learning_rate": 3.495378495378496e-06,
1194
+ "loss": 0.0690723991394043,
1195
+ "step": 15900
1196
+ },
1197
+ {
1198
+ "epoch": 1.8720982389536434,
1199
+ "grad_norm": 1.7708772420883179,
1200
+ "learning_rate": 3.202878202878203e-06,
1201
+ "loss": 0.06770940780639649,
1202
+ "step": 16000
1203
+ },
1204
+ {
1205
+ "epoch": 1.8837995436491168,
1206
+ "grad_norm": 0.976672887802124,
1207
+ "learning_rate": 2.9103779103779103e-06,
1208
+ "loss": 0.0646241569519043,
1209
+ "step": 16100
1210
+ },
1211
+ {
1212
+ "epoch": 1.8955008483445903,
1213
+ "grad_norm": 1.7383304834365845,
1214
+ "learning_rate": 2.617877617877618e-06,
1215
+ "loss": 0.06627600193023682,
1216
+ "step": 16200
1217
+ },
1218
+ {
1219
+ "epoch": 1.907202153040064,
1220
+ "grad_norm": 0.8907257318496704,
1221
+ "learning_rate": 2.3253773253773257e-06,
1222
+ "loss": 0.06847190380096435,
1223
+ "step": 16300
1224
+ },
1225
+ {
1226
+ "epoch": 1.9189034577355375,
1227
+ "grad_norm": 0.7403037548065186,
1228
+ "learning_rate": 2.032877032877033e-06,
1229
+ "loss": 0.06623115539550781,
1230
+ "step": 16400
1231
+ },
1232
+ {
1233
+ "epoch": 1.930604762431011,
1234
+ "grad_norm": 1.0598572492599487,
1235
+ "learning_rate": 1.7403767403767406e-06,
1236
+ "loss": 0.06684101104736329,
1237
+ "step": 16500
1238
+ },
1239
+ {
1240
+ "epoch": 1.9423060671264847,
1241
+ "grad_norm": 1.2067943811416626,
1242
+ "learning_rate": 1.447876447876448e-06,
1243
+ "loss": 0.06935319423675537,
1244
+ "step": 16600
1245
+ },
1246
+ {
1247
+ "epoch": 1.9540073718219582,
1248
+ "grad_norm": 0.9936091899871826,
1249
+ "learning_rate": 1.1553761553761555e-06,
1250
+ "loss": 0.06889093399047852,
1251
+ "step": 16700
1252
+ },
1253
+ {
1254
+ "epoch": 1.9657086765174316,
1255
+ "grad_norm": 1.5107425451278687,
1256
+ "learning_rate": 8.628758628758629e-07,
1257
+ "loss": 0.07209495544433593,
1258
+ "step": 16800
1259
+ },
1260
+ {
1261
+ "epoch": 1.9774099812129053,
1262
+ "grad_norm": 1.0668072700500488,
1263
+ "learning_rate": 5.703755703755704e-07,
1264
+ "loss": 0.06988236904144288,
1265
+ "step": 16900
1266
+ },
1267
+ {
1268
+ "epoch": 1.9891112859083788,
1269
+ "grad_norm": 1.113166093826294,
1270
+ "learning_rate": 2.7787527787527786e-07,
1271
+ "loss": 0.06924228668212891,
1272
+ "step": 17000
1273
+ },
1274
+ {
1275
+ "epoch": 2.0,
1276
+ "eval_accuracy": 0.9411636363636363,
1277
+ "eval_f1": 0.9845099349219312,
1278
+ "eval_loss": 0.012292231433093548,
1279
+ "eval_precision": 0.9859127008710089,
1280
+ "eval_recall": 0.9831111550388555,
1281
+ "eval_runtime": 183.6292,
1282
+ "eval_samples_per_second": 149.758,
1283
+ "eval_steps_per_second": 4.683,
1284
+ "step": 17094
1285
+ },
1286
+ {
1287
+ "epoch": 2.0,
1288
+ "step": 17094,
1289
+ "total_flos": 1.9402797892099978e+18,
1290
+ "train_loss": 0.08505657710317173,
1291
+ "train_runtime": 156175.5955,
1292
+ "train_samples_per_second": 63.038,
1293
+ "train_steps_per_second": 0.109
1294
+ }
1295
+ ],
1296
+ "logging_steps": 100,
1297
+ "max_steps": 17094,
1298
+ "num_input_tokens_seen": 0,
1299
+ "num_train_epochs": 2,
1300
+ "save_steps": 2500,
1301
+ "stateful_callbacks": {
1302
+ "TrainerControl": {
1303
+ "args": {
1304
+ "should_epoch_stop": false,
1305
+ "should_evaluate": false,
1306
+ "should_log": false,
1307
+ "should_save": true,
1308
+ "should_training_stop": true
1309
+ },
1310
+ "attributes": {}
1311
+ }
1312
+ },
1313
+ "total_flos": 1.9402797892099978e+18,
1314
+ "train_batch_size": 32,
1315
+ "trial_name": null,
1316
+ "trial_params": null
1317
+ }