zwcolin commited on
Commit
a345c11
·
verified ·
1 Parent(s): 5c85f8a

Upload zoom_in-swap_v5_100k/checkpoint-1000

Browse files
zoom_in-swap_v5_100k/checkpoint-1000/model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5a3cf9e92ac2160c6c2cb3aa1e5318168d0193a3bf6767d2294f6fafe901a9eb
3
  size 4968243304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:75a4284a0c72ad3339154c8b070b2a977117d90b224b914919d86b899dc0e33f
3
  size 4968243304
zoom_in-swap_v5_100k/checkpoint-1000/model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61d23d08ce2ca8e51bfdce6d05ddd0f5687e3a90dbed284c4d34910fc3340547
3
  size 4991495816
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a92d59d1e2431dc185b8713b58dc6361ecf35fbab9e3d02f0be7d1a3657e4ad4
3
  size 4991495816
zoom_in-swap_v5_100k/checkpoint-1000/model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:76916c3e549d35c7129511127fe4d8b4c19d24430dcf8c2688caaf7b86a2b00f
3
  size 4932751040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:858e87806d5a45c9df3035c5815fe89f2a2389ceaa54f08a9c116ea31cf1b35f
3
  size 4932751040
zoom_in-swap_v5_100k/checkpoint-1000/model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:abe32275d2f6c69d9da31f98884744cb6bbc0c6e0a5a83ac3c18a5c569f3dfea
3
  size 1691924384
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9a159c3bf985ff9f2bb2ca028d94d1c111dea5322318db96799c92dbd3706973
3
  size 1691924384
zoom_in-swap_v5_100k/checkpoint-1000/trainer_state.json CHANGED
@@ -11,702 +11,702 @@
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
- "grad_norm": 36.574466705322266,
15
  "learning_rate": 6.000000000000001e-07,
16
- "loss": 0.856,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
- "grad_norm": 6.37520170211792,
22
  "learning_rate": 1.2666666666666669e-06,
23
- "loss": 0.3867,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
- "grad_norm": 2.054871082305908,
29
  "learning_rate": 1.9333333333333336e-06,
30
- "loss": 0.0869,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
- "grad_norm": 1.5785548686981201,
36
  "learning_rate": 2.6e-06,
37
- "loss": 0.0719,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
- "grad_norm": 1.5178699493408203,
43
  "learning_rate": 3.266666666666667e-06,
44
- "loss": 0.0697,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
- "grad_norm": 1.0820493698120117,
50
  "learning_rate": 3.9333333333333335e-06,
51
- "loss": 0.0683,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
- "grad_norm": 1.0023771524429321,
57
  "learning_rate": 4.600000000000001e-06,
58
- "loss": 0.0679,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
- "grad_norm": 2.3336775302886963,
64
  "learning_rate": 5.2666666666666665e-06,
65
- "loss": 0.068,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
- "grad_norm": 1.0190352201461792,
71
  "learning_rate": 5.933333333333335e-06,
72
- "loss": 0.0671,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
- "grad_norm": 3.1310460567474365,
78
  "learning_rate": 6.600000000000001e-06,
79
- "loss": 0.0664,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
- "grad_norm": 1.2503249645233154,
85
  "learning_rate": 7.266666666666668e-06,
86
- "loss": 0.0581,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
- "grad_norm": 1.8985629081726074,
92
  "learning_rate": 7.933333333333334e-06,
93
- "loss": 0.0471,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
- "grad_norm": 3.8739163875579834,
99
  "learning_rate": 8.6e-06,
100
- "loss": 0.036,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
- "grad_norm": 1.8385676145553589,
106
  "learning_rate": 9.266666666666667e-06,
107
- "loss": 0.0297,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
- "grad_norm": 2.854370594024658,
113
  "learning_rate": 9.933333333333334e-06,
114
- "loss": 0.0269,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
- "grad_norm": 1.7483104467391968,
120
  "learning_rate": 9.998903417374228e-06,
121
- "loss": 0.0202,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
- "grad_norm": 2.4854161739349365,
127
  "learning_rate": 9.995113378907791e-06,
128
- "loss": 0.0187,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
- "grad_norm": 1.4756354093551636,
134
  "learning_rate": 9.988618398427495e-06,
135
- "loss": 0.0214,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
- "grad_norm": 1.835342288017273,
141
  "learning_rate": 9.979421993079853e-06,
142
- "loss": 0.0175,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
- "grad_norm": 1.524764060974121,
148
  "learning_rate": 9.967529142880592e-06,
149
- "loss": 0.0141,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
- "grad_norm": 0.9244430065155029,
155
  "learning_rate": 9.952946288017899e-06,
156
- "loss": 0.0142,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
- "grad_norm": 1.1588711738586426,
162
  "learning_rate": 9.93568132536494e-06,
163
- "loss": 0.0113,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
- "grad_norm": 1.0514777898788452,
169
  "learning_rate": 9.915743604203563e-06,
170
- "loss": 0.0127,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
- "grad_norm": 0.45326995849609375,
176
  "learning_rate": 9.893143921161501e-06,
177
- "loss": 0.0128,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
- "grad_norm": 0.950430691242218,
183
  "learning_rate": 9.867894514365802e-06,
184
- "loss": 0.01,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
- "grad_norm": 0.48601990938186646,
190
  "learning_rate": 9.840009056815674e-06,
191
- "loss": 0.008,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
- "grad_norm": 0.6303757429122925,
197
  "learning_rate": 9.809502648978311e-06,
198
- "loss": 0.0117,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
- "grad_norm": 0.6576370596885681,
204
  "learning_rate": 9.776391810611719e-06,
205
- "loss": 0.0096,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
- "grad_norm": 0.7878595590591431,
211
  "learning_rate": 9.740694471818988e-06,
212
- "loss": 0.0084,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
- "grad_norm": 1.2249119281768799,
218
  "learning_rate": 9.702429963338812e-06,
219
- "loss": 0.0079,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
- "grad_norm": 0.4293154776096344,
225
  "learning_rate": 9.661619006077562e-06,
226
- "loss": 0.0102,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
- "grad_norm": 1.0105853080749512,
232
  "learning_rate": 9.618283699888543e-06,
233
- "loss": 0.0102,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
- "grad_norm": 0.6863505244255066,
239
  "learning_rate": 9.572447511604536e-06,
240
- "loss": 0.0077,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
- "grad_norm": 0.5472639799118042,
246
  "learning_rate": 9.524135262330098e-06,
247
- "loss": 0.0075,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
- "grad_norm": 0.4141458570957184,
253
  "learning_rate": 9.473373114000493e-06,
254
- "loss": 0.0061,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
- "grad_norm": 0.7412475347518921,
260
  "learning_rate": 9.420188555214537e-06,
261
- "loss": 0.0068,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
- "grad_norm": 0.8724798560142517,
267
  "learning_rate": 9.364610386349048e-06,
268
- "loss": 0.0062,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
- "grad_norm": 0.6458179354667664,
274
  "learning_rate": 9.306668703962927e-06,
275
- "loss": 0.0084,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
- "grad_norm": 0.4114464521408081,
281
  "learning_rate": 9.246394884499334e-06,
282
- "loss": 0.0055,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
- "grad_norm": 0.7714133262634277,
288
  "learning_rate": 9.18382156729481e-06,
289
- "loss": 0.0063,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
- "grad_norm": 0.3160949945449829,
295
  "learning_rate": 9.118982636904476e-06,
296
- "loss": 0.0078,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
- "grad_norm": 0.41902920603752136,
302
  "learning_rate": 9.051913204752972e-06,
303
- "loss": 0.0064,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
- "grad_norm": 0.5417268872261047,
309
  "learning_rate": 8.982649590120982e-06,
310
- "loss": 0.0058,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
- "grad_norm": 0.5353021621704102,
316
  "learning_rate": 8.911229300477716e-06,
317
- "loss": 0.006,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
- "grad_norm": 0.40390685200691223,
323
  "learning_rate": 8.837691011169944e-06,
324
- "loss": 0.0065,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
- "grad_norm": 1.2818483114242554,
330
  "learning_rate": 8.762074544478622e-06,
331
- "loss": 0.0057,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
- "grad_norm": 0.6845483183860779,
337
  "learning_rate": 8.68442084805442e-06,
338
- "loss": 0.0049,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
- "grad_norm": 0.361431360244751,
344
  "learning_rate": 8.604771972743848e-06,
345
- "loss": 0.0047,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
- "grad_norm": 0.7514362931251526,
351
  "learning_rate": 8.523171049817974e-06,
352
- "loss": 0.0055,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
- "grad_norm": 0.20119288563728333,
358
  "learning_rate": 8.439662267616093e-06,
359
- "loss": 0.0048,
360
  "step": 500
361
  },
362
  {
363
  "epoch": 0.34,
364
- "grad_norm": 0.3720669150352478,
365
  "learning_rate": 8.354290847616954e-06,
366
- "loss": 0.0048,
367
  "step": 510
368
  },
369
  {
370
  "epoch": 0.3466666666666667,
371
- "grad_norm": 0.7681334018707275,
372
  "learning_rate": 8.267103019950529e-06,
373
- "loss": 0.0072,
374
  "step": 520
375
  },
376
  {
377
  "epoch": 0.35333333333333333,
378
- "grad_norm": 0.40768566727638245,
379
  "learning_rate": 8.178145998363585e-06,
380
- "loss": 0.0051,
381
  "step": 530
382
  },
383
  {
384
  "epoch": 0.36,
385
- "grad_norm": 0.3016856908798218,
386
  "learning_rate": 8.087467954652608e-06,
387
- "loss": 0.0044,
388
  "step": 540
389
  },
390
  {
391
  "epoch": 0.36666666666666664,
392
- "grad_norm": 2.976433038711548,
393
  "learning_rate": 7.99511799257793e-06,
394
- "loss": 0.0062,
395
  "step": 550
396
  },
397
  {
398
  "epoch": 0.37333333333333335,
399
- "grad_norm": 0.418008416891098,
400
  "learning_rate": 7.901146121273165e-06,
401
- "loss": 0.0052,
402
  "step": 560
403
  },
404
  {
405
  "epoch": 0.38,
406
- "grad_norm": 0.2738845944404602,
407
  "learning_rate": 7.80560322816439e-06,
408
- "loss": 0.0052,
409
  "step": 570
410
  },
411
  {
412
  "epoch": 0.38666666666666666,
413
- "grad_norm": 0.19233310222625732,
414
  "learning_rate": 7.7085410514137e-06,
415
- "loss": 0.004,
416
  "step": 580
417
  },
418
  {
419
  "epoch": 0.3933333333333333,
420
- "grad_norm": 0.30355435609817505,
421
  "learning_rate": 7.610012151902091e-06,
422
- "loss": 0.0045,
423
  "step": 590
424
  },
425
  {
426
  "epoch": 0.4,
427
- "grad_norm": 0.25225594639778137,
428
  "learning_rate": 7.510069884766802e-06,
429
- "loss": 0.0035,
430
  "step": 600
431
  },
432
  {
433
  "epoch": 0.4066666666666667,
434
- "grad_norm": 0.49386700987815857,
435
  "learning_rate": 7.408768370508577e-06,
436
- "loss": 0.004,
437
  "step": 610
438
  },
439
  {
440
  "epoch": 0.41333333333333333,
441
- "grad_norm": 0.6715323328971863,
442
  "learning_rate": 7.3061624656844544e-06,
443
- "loss": 0.0039,
444
  "step": 620
445
  },
446
  {
447
  "epoch": 0.42,
448
- "grad_norm": 0.5298598408699036,
449
  "learning_rate": 7.2023077332019755e-06,
450
- "loss": 0.0037,
451
  "step": 630
452
  },
453
  {
454
  "epoch": 0.4266666666666667,
455
- "grad_norm": 0.294389545917511,
456
  "learning_rate": 7.0972604122308865e-06,
457
- "loss": 0.0051,
458
  "step": 640
459
  },
460
  {
461
  "epoch": 0.43333333333333335,
462
- "grad_norm": 0.3773161470890045,
463
  "learning_rate": 6.991077387748643e-06,
464
- "loss": 0.0041,
465
  "step": 650
466
  },
467
  {
468
  "epoch": 0.44,
469
- "grad_norm": 0.3304174244403839,
470
  "learning_rate": 6.883816159736187e-06,
471
- "loss": 0.0046,
472
  "step": 660
473
  },
474
  {
475
  "epoch": 0.44666666666666666,
476
- "grad_norm": 0.27849113941192627,
477
  "learning_rate": 6.775534812040686e-06,
478
- "loss": 0.0035,
479
  "step": 670
480
  },
481
  {
482
  "epoch": 0.4533333333333333,
483
- "grad_norm": 0.3875880539417267,
484
  "learning_rate": 6.666291980922122e-06,
485
- "loss": 0.0046,
486
  "step": 680
487
  },
488
  {
489
  "epoch": 0.46,
490
- "grad_norm": 0.3498212397098541,
491
  "learning_rate": 6.556146823300701e-06,
492
- "loss": 0.0036,
493
  "step": 690
494
  },
495
  {
496
  "epoch": 0.4666666666666667,
497
- "grad_norm": 0.45460277795791626,
498
  "learning_rate": 6.445158984722358e-06,
499
- "loss": 0.0043,
500
  "step": 700
501
  },
502
  {
503
  "epoch": 0.47333333333333333,
504
- "grad_norm": 0.5081860423088074,
505
  "learning_rate": 6.3333885670596285e-06,
506
- "loss": 0.0039,
507
  "step": 710
508
  },
509
  {
510
  "epoch": 0.48,
511
- "grad_norm": 0.3818029761314392,
512
  "learning_rate": 6.220896095965428e-06,
513
- "loss": 0.0039,
514
  "step": 720
515
  },
516
  {
517
  "epoch": 0.4866666666666667,
518
- "grad_norm": 0.3571104109287262,
519
  "learning_rate": 6.107742488097338e-06,
520
- "loss": 0.0042,
521
  "step": 730
522
  },
523
  {
524
  "epoch": 0.49333333333333335,
525
- "grad_norm": 0.36205756664276123,
526
  "learning_rate": 5.993989018130173e-06,
527
- "loss": 0.0036,
528
  "step": 740
529
  },
530
  {
531
  "epoch": 0.5,
532
- "grad_norm": 0.2003965973854065,
533
  "learning_rate": 5.879697285574655e-06,
534
- "loss": 0.0037,
535
  "step": 750
536
  },
537
  {
538
  "epoch": 0.5066666666666667,
539
- "grad_norm": 0.20275992155075073,
540
  "learning_rate": 5.764929181420191e-06,
541
- "loss": 0.005,
542
  "step": 760
543
  },
544
  {
545
  "epoch": 0.5133333333333333,
546
- "grad_norm": 0.26996463537216187,
547
  "learning_rate": 5.649746854619814e-06,
548
- "loss": 0.0038,
549
  "step": 770
550
  },
551
  {
552
  "epoch": 0.52,
553
- "grad_norm": 0.16265109181404114,
554
  "learning_rate": 5.5342126784354265e-06,
555
- "loss": 0.0034,
556
  "step": 780
557
  },
558
  {
559
  "epoch": 0.5266666666666666,
560
- "grad_norm": 0.270413875579834,
561
  "learning_rate": 5.41838921666158e-06,
562
- "loss": 0.0043,
563
  "step": 790
564
  },
565
  {
566
  "epoch": 0.5333333333333333,
567
- "grad_norm": 0.27772513031959534,
568
  "learning_rate": 5.3023391897460715e-06,
569
- "loss": 0.0028,
570
  "step": 800
571
  },
572
  {
573
  "epoch": 0.54,
574
- "grad_norm": 0.577746570110321,
575
  "learning_rate": 5.18612544082573e-06,
576
- "loss": 0.0046,
577
  "step": 810
578
  },
579
  {
580
  "epoch": 0.5466666666666666,
581
- "grad_norm": 0.35452333092689514,
582
  "learning_rate": 5.069810901695727e-06,
583
- "loss": 0.0039,
584
  "step": 820
585
  },
586
  {
587
  "epoch": 0.5533333333333333,
588
- "grad_norm": 0.21530374884605408,
589
  "learning_rate": 4.953458558730917e-06,
590
  "loss": 0.0029,
591
  "step": 830
592
  },
593
  {
594
  "epoch": 0.56,
595
- "grad_norm": 0.26067259907722473,
596
  "learning_rate": 4.837131418777595e-06,
597
- "loss": 0.0032,
598
  "step": 840
599
  },
600
  {
601
  "epoch": 0.5666666666666667,
602
- "grad_norm": 0.29062986373901367,
603
  "learning_rate": 4.720892475034181e-06,
604
- "loss": 0.0031,
605
  "step": 850
606
  },
607
  {
608
  "epoch": 0.5733333333333334,
609
- "grad_norm": 0.25088682770729065,
610
  "learning_rate": 4.604804672939295e-06,
611
- "loss": 0.0028,
612
  "step": 860
613
  },
614
  {
615
  "epoch": 0.58,
616
- "grad_norm": 0.13539044559001923,
617
  "learning_rate": 4.4889308760856826e-06,
618
- "loss": 0.0023,
619
  "step": 870
620
  },
621
  {
622
  "epoch": 0.5866666666666667,
623
- "grad_norm": 0.13702541589736938,
624
  "learning_rate": 4.373333832178478e-06,
625
- "loss": 0.0018,
626
  "step": 880
627
  },
628
  {
629
  "epoch": 0.5933333333333334,
630
- "grad_norm": 0.16313639283180237,
631
  "learning_rate": 4.258076139056217e-06,
632
- "loss": 0.0027,
633
  "step": 890
634
  },
635
  {
636
  "epoch": 0.6,
637
- "grad_norm": 0.2924194931983948,
638
  "learning_rate": 4.143220210792993e-06,
639
- "loss": 0.004,
640
  "step": 900
641
  },
642
  {
643
  "epoch": 0.6066666666666667,
644
- "grad_norm": 0.20929090678691864,
645
  "learning_rate": 4.028828243900141e-06,
646
- "loss": 0.004,
647
  "step": 910
648
  },
649
  {
650
  "epoch": 0.6133333333333333,
651
- "grad_norm": 0.22421810030937195,
652
  "learning_rate": 3.914962183645733e-06,
653
- "loss": 0.0028,
654
  "step": 920
655
  },
656
  {
657
  "epoch": 0.62,
658
- "grad_norm": 0.2723575830459595,
659
  "learning_rate": 3.8016836905101157e-06,
660
- "loss": 0.0028,
661
  "step": 930
662
  },
663
  {
664
  "epoch": 0.6266666666666667,
665
- "grad_norm": 0.20550991594791412,
666
  "learning_rate": 3.6890541067956775e-06,
667
  "loss": 0.0027,
668
  "step": 940
669
  },
670
  {
671
  "epoch": 0.6333333333333333,
672
- "grad_norm": 0.20241166651248932,
673
  "learning_rate": 3.577134423408906e-06,
674
- "loss": 0.0025,
675
  "step": 950
676
  },
677
  {
678
  "epoch": 0.64,
679
- "grad_norm": 0.12020665407180786,
680
  "learning_rate": 3.465985246832739e-06,
681
- "loss": 0.0028,
682
  "step": 960
683
  },
684
  {
685
  "epoch": 0.6466666666666666,
686
- "grad_norm": 0.32357192039489746,
687
  "learning_rate": 3.355666766307084e-06,
688
- "loss": 0.0029,
689
  "step": 970
690
  },
691
  {
692
  "epoch": 0.6533333333333333,
693
- "grad_norm": 0.2324451059103012,
694
  "learning_rate": 3.246238721235283e-06,
695
- "loss": 0.0027,
696
  "step": 980
697
  },
698
  {
699
  "epoch": 0.66,
700
- "grad_norm": 0.19053789973258972,
701
  "learning_rate": 3.137760368834169e-06,
702
- "loss": 0.003,
703
  "step": 990
704
  },
705
  {
706
  "epoch": 0.6666666666666666,
707
- "grad_norm": 0.257741242647171,
708
  "learning_rate": 3.030290452045245e-06,
709
- "loss": 0.0028,
710
  "step": 1000
711
  }
712
  ],
 
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
+ "grad_norm": 36.58766174316406,
15
  "learning_rate": 6.000000000000001e-07,
16
+ "loss": 0.8559,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
+ "grad_norm": 6.332058906555176,
22
  "learning_rate": 1.2666666666666669e-06,
23
+ "loss": 0.3865,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
+ "grad_norm": 1.850089192390442,
29
  "learning_rate": 1.9333333333333336e-06,
30
+ "loss": 0.0868,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
+ "grad_norm": 2.369614839553833,
36
  "learning_rate": 2.6e-06,
37
+ "loss": 0.0721,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
+ "grad_norm": 0.6930484175682068,
43
  "learning_rate": 3.266666666666667e-06,
44
+ "loss": 0.0704,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
+ "grad_norm": 1.131187081336975,
50
  "learning_rate": 3.9333333333333335e-06,
51
+ "loss": 0.0692,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
+ "grad_norm": 1.0588281154632568,
57
  "learning_rate": 4.600000000000001e-06,
58
+ "loss": 0.0686,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
+ "grad_norm": 2.0893168449401855,
64
  "learning_rate": 5.2666666666666665e-06,
65
+ "loss": 0.0672,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
+ "grad_norm": 0.8078766465187073,
71
  "learning_rate": 5.933333333333335e-06,
72
+ "loss": 0.0672,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
+ "grad_norm": 7.854005336761475,
78
  "learning_rate": 6.600000000000001e-06,
79
+ "loss": 0.0694,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
+ "grad_norm": 1.7778018712997437,
85
  "learning_rate": 7.266666666666668e-06,
86
+ "loss": 0.0597,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
+ "grad_norm": 2.1617932319641113,
92
  "learning_rate": 7.933333333333334e-06,
93
+ "loss": 0.0531,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
+ "grad_norm": 1.4475531578063965,
99
  "learning_rate": 8.6e-06,
100
+ "loss": 0.0345,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
+ "grad_norm": 2.7664859294891357,
106
  "learning_rate": 9.266666666666667e-06,
107
+ "loss": 0.0307,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
+ "grad_norm": 1.9487580060958862,
113
  "learning_rate": 9.933333333333334e-06,
114
+ "loss": 0.0284,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
+ "grad_norm": 2.273493766784668,
120
  "learning_rate": 9.998903417374228e-06,
121
+ "loss": 0.0221,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
+ "grad_norm": 2.3305516242980957,
127
  "learning_rate": 9.995113378907791e-06,
128
+ "loss": 0.0219,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
+ "grad_norm": 1.0082324743270874,
134
  "learning_rate": 9.988618398427495e-06,
135
+ "loss": 0.0202,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
+ "grad_norm": 1.040068507194519,
141
  "learning_rate": 9.979421993079853e-06,
142
+ "loss": 0.0147,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
+ "grad_norm": 0.6692638993263245,
148
  "learning_rate": 9.967529142880592e-06,
149
+ "loss": 0.0128,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
+ "grad_norm": 0.8508909940719604,
155
  "learning_rate": 9.952946288017899e-06,
156
+ "loss": 0.0157,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
+ "grad_norm": 0.8564547300338745,
162
  "learning_rate": 9.93568132536494e-06,
163
+ "loss": 0.0126,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
+ "grad_norm": 1.245940089225769,
169
  "learning_rate": 9.915743604203563e-06,
170
+ "loss": 0.0112,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
+ "grad_norm": 0.7479501962661743,
176
  "learning_rate": 9.893143921161501e-06,
177
+ "loss": 0.0107,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
+ "grad_norm": 0.9747921228408813,
183
  "learning_rate": 9.867894514365802e-06,
184
+ "loss": 0.0108,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
+ "grad_norm": 1.3732854127883911,
190
  "learning_rate": 9.840009056815674e-06,
191
+ "loss": 0.0094,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
+ "grad_norm": 2.5172600746154785,
197
  "learning_rate": 9.809502648978311e-06,
198
+ "loss": 0.0115,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
+ "grad_norm": 0.5691208839416504,
204
  "learning_rate": 9.776391810611719e-06,
205
+ "loss": 0.0081,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
+ "grad_norm": 0.7180817723274231,
211
  "learning_rate": 9.740694471818988e-06,
212
+ "loss": 0.0083,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
+ "grad_norm": 1.6575194597244263,
218
  "learning_rate": 9.702429963338812e-06,
219
+ "loss": 0.0092,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
+ "grad_norm": 0.8298120498657227,
225
  "learning_rate": 9.661619006077562e-06,
226
+ "loss": 0.0107,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
+ "grad_norm": 0.5123628377914429,
232
  "learning_rate": 9.618283699888543e-06,
233
+ "loss": 0.0087,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
+ "grad_norm": 0.9690056443214417,
239
  "learning_rate": 9.572447511604536e-06,
240
+ "loss": 0.008,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
+ "grad_norm": 0.3551647961139679,
246
  "learning_rate": 9.524135262330098e-06,
247
+ "loss": 0.0065,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
+ "grad_norm": 0.5313103199005127,
253
  "learning_rate": 9.473373114000493e-06,
254
+ "loss": 0.0063,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
+ "grad_norm": 0.3664902150630951,
260
  "learning_rate": 9.420188555214537e-06,
261
+ "loss": 0.0067,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
+ "grad_norm": 0.3962435722351074,
267
  "learning_rate": 9.364610386349048e-06,
268
+ "loss": 0.0054,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
+ "grad_norm": 0.6556732058525085,
274
  "learning_rate": 9.306668703962927e-06,
275
+ "loss": 0.008,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
+ "grad_norm": 0.3665415346622467,
281
  "learning_rate": 9.246394884499334e-06,
282
+ "loss": 0.0061,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
+ "grad_norm": 0.3962056636810303,
288
  "learning_rate": 9.18382156729481e-06,
289
+ "loss": 0.0058,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
+ "grad_norm": 0.4669991731643677,
295
  "learning_rate": 9.118982636904476e-06,
296
+ "loss": 0.0075,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
+ "grad_norm": 0.9341192841529846,
302
  "learning_rate": 9.051913204752972e-06,
303
+ "loss": 0.0109,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
+ "grad_norm": 0.8634790182113647,
309
  "learning_rate": 8.982649590120982e-06,
310
+ "loss": 0.0053,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
+ "grad_norm": 0.5026211142539978,
316
  "learning_rate": 8.911229300477716e-06,
317
+ "loss": 0.0062,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
+ "grad_norm": 0.2680472731590271,
323
  "learning_rate": 8.837691011169944e-06,
324
+ "loss": 0.0055,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
+ "grad_norm": 0.5725376605987549,
330
  "learning_rate": 8.762074544478622e-06,
331
+ "loss": 0.0088,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
+ "grad_norm": 0.5385804176330566,
337
  "learning_rate": 8.68442084805442e-06,
338
+ "loss": 0.0067,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
+ "grad_norm": 0.48434388637542725,
344
  "learning_rate": 8.604771972743848e-06,
345
+ "loss": 0.0044,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
+ "grad_norm": 0.25520431995391846,
351
  "learning_rate": 8.523171049817974e-06,
352
+ "loss": 0.0046,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
+ "grad_norm": 0.30132007598876953,
358
  "learning_rate": 8.439662267616093e-06,
359
+ "loss": 0.0053,
360
  "step": 500
361
  },
362
  {
363
  "epoch": 0.34,
364
+ "grad_norm": 0.367150217294693,
365
  "learning_rate": 8.354290847616954e-06,
366
+ "loss": 0.004,
367
  "step": 510
368
  },
369
  {
370
  "epoch": 0.3466666666666667,
371
+ "grad_norm": 0.5861572623252869,
372
  "learning_rate": 8.267103019950529e-06,
373
+ "loss": 0.0057,
374
  "step": 520
375
  },
376
  {
377
  "epoch": 0.35333333333333333,
378
+ "grad_norm": 0.6242824196815491,
379
  "learning_rate": 8.178145998363585e-06,
380
+ "loss": 0.0044,
381
  "step": 530
382
  },
383
  {
384
  "epoch": 0.36,
385
+ "grad_norm": 0.3271186649799347,
386
  "learning_rate": 8.087467954652608e-06,
387
+ "loss": 0.0045,
388
  "step": 540
389
  },
390
  {
391
  "epoch": 0.36666666666666664,
392
+ "grad_norm": 0.7843015789985657,
393
  "learning_rate": 7.99511799257793e-06,
394
+ "loss": 0.0051,
395
  "step": 550
396
  },
397
  {
398
  "epoch": 0.37333333333333335,
399
+ "grad_norm": 0.530188798904419,
400
  "learning_rate": 7.901146121273165e-06,
401
+ "loss": 0.0054,
402
  "step": 560
403
  },
404
  {
405
  "epoch": 0.38,
406
+ "grad_norm": 0.3897422254085541,
407
  "learning_rate": 7.80560322816439e-06,
408
+ "loss": 0.0044,
409
  "step": 570
410
  },
411
  {
412
  "epoch": 0.38666666666666666,
413
+ "grad_norm": 0.2875545024871826,
414
  "learning_rate": 7.7085410514137e-06,
415
+ "loss": 0.0033,
416
  "step": 580
417
  },
418
  {
419
  "epoch": 0.3933333333333333,
420
+ "grad_norm": 0.3945011496543884,
421
  "learning_rate": 7.610012151902091e-06,
422
+ "loss": 0.0049,
423
  "step": 590
424
  },
425
  {
426
  "epoch": 0.4,
427
+ "grad_norm": 0.18289212882518768,
428
  "learning_rate": 7.510069884766802e-06,
429
+ "loss": 0.0041,
430
  "step": 600
431
  },
432
  {
433
  "epoch": 0.4066666666666667,
434
+ "grad_norm": 0.3101109266281128,
435
  "learning_rate": 7.408768370508577e-06,
436
+ "loss": 0.0033,
437
  "step": 610
438
  },
439
  {
440
  "epoch": 0.41333333333333333,
441
+ "grad_norm": 0.5702817440032959,
442
  "learning_rate": 7.3061624656844544e-06,
443
+ "loss": 0.0037,
444
  "step": 620
445
  },
446
  {
447
  "epoch": 0.42,
448
+ "grad_norm": 0.37529098987579346,
449
  "learning_rate": 7.2023077332019755e-06,
450
+ "loss": 0.0041,
451
  "step": 630
452
  },
453
  {
454
  "epoch": 0.4266666666666667,
455
+ "grad_norm": 0.21599887311458588,
456
  "learning_rate": 7.0972604122308865e-06,
457
+ "loss": 0.0048,
458
  "step": 640
459
  },
460
  {
461
  "epoch": 0.43333333333333335,
462
+ "grad_norm": 0.31833189725875854,
463
  "learning_rate": 6.991077387748643e-06,
464
+ "loss": 0.0049,
465
  "step": 650
466
  },
467
  {
468
  "epoch": 0.44,
469
+ "grad_norm": 0.4061611592769623,
470
  "learning_rate": 6.883816159736187e-06,
471
+ "loss": 0.0048,
472
  "step": 660
473
  },
474
  {
475
  "epoch": 0.44666666666666666,
476
+ "grad_norm": 0.34007611870765686,
477
  "learning_rate": 6.775534812040686e-06,
478
+ "loss": 0.0037,
479
  "step": 670
480
  },
481
  {
482
  "epoch": 0.4533333333333333,
483
+ "grad_norm": 0.3070458471775055,
484
  "learning_rate": 6.666291980922122e-06,
485
+ "loss": 0.0047,
486
  "step": 680
487
  },
488
  {
489
  "epoch": 0.46,
490
+ "grad_norm": 0.46619173884391785,
491
  "learning_rate": 6.556146823300701e-06,
492
+ "loss": 0.0034,
493
  "step": 690
494
  },
495
  {
496
  "epoch": 0.4666666666666667,
497
+ "grad_norm": 0.4186648428440094,
498
  "learning_rate": 6.445158984722358e-06,
499
+ "loss": 0.0038,
500
  "step": 700
501
  },
502
  {
503
  "epoch": 0.47333333333333333,
504
+ "grad_norm": 0.26119673252105713,
505
  "learning_rate": 6.3333885670596285e-06,
506
+ "loss": 0.0034,
507
  "step": 710
508
  },
509
  {
510
  "epoch": 0.48,
511
+ "grad_norm": 0.1992039531469345,
512
  "learning_rate": 6.220896095965428e-06,
513
+ "loss": 0.0035,
514
  "step": 720
515
  },
516
  {
517
  "epoch": 0.4866666666666667,
518
+ "grad_norm": 0.32917213439941406,
519
  "learning_rate": 6.107742488097338e-06,
520
+ "loss": 0.0047,
521
  "step": 730
522
  },
523
  {
524
  "epoch": 0.49333333333333335,
525
+ "grad_norm": 0.33307743072509766,
526
  "learning_rate": 5.993989018130173e-06,
527
+ "loss": 0.0045,
528
  "step": 740
529
  },
530
  {
531
  "epoch": 0.5,
532
+ "grad_norm": 0.40186676383018494,
533
  "learning_rate": 5.879697285574655e-06,
534
+ "loss": 0.0038,
535
  "step": 750
536
  },
537
  {
538
  "epoch": 0.5066666666666667,
539
+ "grad_norm": 0.30247578024864197,
540
  "learning_rate": 5.764929181420191e-06,
541
+ "loss": 0.0036,
542
  "step": 760
543
  },
544
  {
545
  "epoch": 0.5133333333333333,
546
+ "grad_norm": 0.4352378249168396,
547
  "learning_rate": 5.649746854619814e-06,
548
+ "loss": 0.0043,
549
  "step": 770
550
  },
551
  {
552
  "epoch": 0.52,
553
+ "grad_norm": 0.2018260359764099,
554
  "learning_rate": 5.5342126784354265e-06,
555
+ "loss": 0.0041,
556
  "step": 780
557
  },
558
  {
559
  "epoch": 0.5266666666666666,
560
+ "grad_norm": 0.30769672989845276,
561
  "learning_rate": 5.41838921666158e-06,
562
+ "loss": 0.0031,
563
  "step": 790
564
  },
565
  {
566
  "epoch": 0.5333333333333333,
567
+ "grad_norm": 0.8116138577461243,
568
  "learning_rate": 5.3023391897460715e-06,
569
+ "loss": 0.0025,
570
  "step": 800
571
  },
572
  {
573
  "epoch": 0.54,
574
+ "grad_norm": 0.3299582004547119,
575
  "learning_rate": 5.18612544082573e-06,
576
+ "loss": 0.0039,
577
  "step": 810
578
  },
579
  {
580
  "epoch": 0.5466666666666666,
581
+ "grad_norm": 0.23618370294570923,
582
  "learning_rate": 5.069810901695727e-06,
583
+ "loss": 0.0036,
584
  "step": 820
585
  },
586
  {
587
  "epoch": 0.5533333333333333,
588
+ "grad_norm": 0.31274205446243286,
589
  "learning_rate": 4.953458558730917e-06,
590
  "loss": 0.0029,
591
  "step": 830
592
  },
593
  {
594
  "epoch": 0.56,
595
+ "grad_norm": 0.2516016364097595,
596
  "learning_rate": 4.837131418777595e-06,
597
+ "loss": 0.0025,
598
  "step": 840
599
  },
600
  {
601
  "epoch": 0.5666666666666667,
602
+ "grad_norm": 0.2598609924316406,
603
  "learning_rate": 4.720892475034181e-06,
604
+ "loss": 0.0035,
605
  "step": 850
606
  },
607
  {
608
  "epoch": 0.5733333333333334,
609
+ "grad_norm": 0.2790619432926178,
610
  "learning_rate": 4.604804672939295e-06,
611
+ "loss": 0.0027,
612
  "step": 860
613
  },
614
  {
615
  "epoch": 0.58,
616
+ "grad_norm": 0.13596607744693756,
617
  "learning_rate": 4.4889308760856826e-06,
618
+ "loss": 0.002,
619
  "step": 870
620
  },
621
  {
622
  "epoch": 0.5866666666666667,
623
+ "grad_norm": 0.1893729865550995,
624
  "learning_rate": 4.373333832178478e-06,
625
+ "loss": 0.0019,
626
  "step": 880
627
  },
628
  {
629
  "epoch": 0.5933333333333334,
630
+ "grad_norm": 0.24390661716461182,
631
  "learning_rate": 4.258076139056217e-06,
632
+ "loss": 0.0025,
633
  "step": 890
634
  },
635
  {
636
  "epoch": 0.6,
637
+ "grad_norm": 0.1358526349067688,
638
  "learning_rate": 4.143220210792993e-06,
639
+ "loss": 0.0023,
640
  "step": 900
641
  },
642
  {
643
  "epoch": 0.6066666666666667,
644
+ "grad_norm": 0.3830345571041107,
645
  "learning_rate": 4.028828243900141e-06,
646
+ "loss": 0.003,
647
  "step": 910
648
  },
649
  {
650
  "epoch": 0.6133333333333333,
651
+ "grad_norm": 0.4466933012008667,
652
  "learning_rate": 3.914962183645733e-06,
653
+ "loss": 0.0022,
654
  "step": 920
655
  },
656
  {
657
  "epoch": 0.62,
658
+ "grad_norm": 0.33336520195007324,
659
  "learning_rate": 3.8016836905101157e-06,
660
+ "loss": 0.0033,
661
  "step": 930
662
  },
663
  {
664
  "epoch": 0.6266666666666667,
665
+ "grad_norm": 0.1448996514081955,
666
  "learning_rate": 3.6890541067956775e-06,
667
  "loss": 0.0027,
668
  "step": 940
669
  },
670
  {
671
  "epoch": 0.6333333333333333,
672
+ "grad_norm": 0.2736564576625824,
673
  "learning_rate": 3.577134423408906e-06,
674
+ "loss": 0.0027,
675
  "step": 950
676
  },
677
  {
678
  "epoch": 0.64,
679
+ "grad_norm": 0.24747855961322784,
680
  "learning_rate": 3.465985246832739e-06,
681
+ "loss": 0.0032,
682
  "step": 960
683
  },
684
  {
685
  "epoch": 0.6466666666666666,
686
+ "grad_norm": 0.29766324162483215,
687
  "learning_rate": 3.355666766307084e-06,
688
+ "loss": 0.0025,
689
  "step": 970
690
  },
691
  {
692
  "epoch": 0.6533333333333333,
693
+ "grad_norm": 1.6728852987289429,
694
  "learning_rate": 3.246238721235283e-06,
695
+ "loss": 0.0028,
696
  "step": 980
697
  },
698
  {
699
  "epoch": 0.66,
700
+ "grad_norm": 0.29758402705192566,
701
  "learning_rate": 3.137760368834169e-06,
702
+ "loss": 0.0026,
703
  "step": 990
704
  },
705
  {
706
  "epoch": 0.6666666666666666,
707
+ "grad_norm": 0.27125802636146545,
708
  "learning_rate": 3.030290452045245e-06,
709
+ "loss": 0.0021,
710
  "step": 1000
711
  }
712
  ],
zoom_in-swap_v5_100k/checkpoint-1000/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:45c12d31bc7d5e0bc5c365748f7f11d2d161ee7cc14cc7e0ad1c7269e36bc16d
3
  size 7416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eed67959457cb956e03ea094b9ef1d9a23e7a330befda55d0e8bbb180a9aee2d
3
  size 7416