zwcolin commited on
Commit
bde2f21
·
verified ·
1 Parent(s): a345c11

Upload zoom_in-swap_v5_100k/checkpoint-500

Browse files
zoom_in-swap_v5_100k/checkpoint-500/model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3df37518cad0a29af161f3c4500b3e218765cb138c229ca45567a15019b8cc2f
3
  size 4968243304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:873213261c6df1b7a70e5eff99b4e0915f73b44feebafb9c5db58949e4d0eda1
3
  size 4968243304
zoom_in-swap_v5_100k/checkpoint-500/model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2714a6eb2d9e17b0fa725922b73c33f077ae44c12a47abc56388be16f10afd23
3
  size 4991495816
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:64570fa68395178722b5b5ea1725a786aeece8c9596218984e9abc9458bc180a
3
  size 4991495816
zoom_in-swap_v5_100k/checkpoint-500/model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e85714b7e4e9abe04062111ea8e33420686a0be9c2d3329c4b5d3ccd1a566689
3
  size 4932751040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:88b055835b1c7a6988aa3e9da9de709c396f5d4b0f84f8fc1f4d79a9395ed403
3
  size 4932751040
zoom_in-swap_v5_100k/checkpoint-500/model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c75d73a6c1020d3dbb430fdc7ba9a54f12bae5db8b4f9f6d92a616f9da00fffa
3
  size 1691924384
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f2037dbb09e9b0443d63ebf14b0be7cc1c18eaffac30c80cf678b7bc7e3d4d69
3
  size 1691924384
zoom_in-swap_v5_100k/checkpoint-500/trainer_state.json CHANGED
@@ -11,352 +11,352 @@
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
- "grad_norm": 36.574466705322266,
15
  "learning_rate": 6.000000000000001e-07,
16
- "loss": 0.856,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
- "grad_norm": 6.37520170211792,
22
  "learning_rate": 1.2666666666666669e-06,
23
- "loss": 0.3867,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
- "grad_norm": 2.054871082305908,
29
  "learning_rate": 1.9333333333333336e-06,
30
- "loss": 0.0869,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
- "grad_norm": 1.5785548686981201,
36
  "learning_rate": 2.6e-06,
37
- "loss": 0.0719,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
- "grad_norm": 1.5178699493408203,
43
  "learning_rate": 3.266666666666667e-06,
44
- "loss": 0.0697,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
- "grad_norm": 1.0820493698120117,
50
  "learning_rate": 3.9333333333333335e-06,
51
- "loss": 0.0683,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
- "grad_norm": 1.0023771524429321,
57
  "learning_rate": 4.600000000000001e-06,
58
- "loss": 0.0679,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
- "grad_norm": 2.3336775302886963,
64
  "learning_rate": 5.2666666666666665e-06,
65
- "loss": 0.068,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
- "grad_norm": 1.0190352201461792,
71
  "learning_rate": 5.933333333333335e-06,
72
- "loss": 0.0671,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
- "grad_norm": 3.1310460567474365,
78
  "learning_rate": 6.600000000000001e-06,
79
- "loss": 0.0664,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
- "grad_norm": 1.2503249645233154,
85
  "learning_rate": 7.266666666666668e-06,
86
- "loss": 0.0581,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
- "grad_norm": 1.8985629081726074,
92
  "learning_rate": 7.933333333333334e-06,
93
- "loss": 0.0471,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
- "grad_norm": 3.8739163875579834,
99
  "learning_rate": 8.6e-06,
100
- "loss": 0.036,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
- "grad_norm": 1.8385676145553589,
106
  "learning_rate": 9.266666666666667e-06,
107
- "loss": 0.0297,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
- "grad_norm": 2.854370594024658,
113
  "learning_rate": 9.933333333333334e-06,
114
- "loss": 0.0269,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
- "grad_norm": 1.7483104467391968,
120
  "learning_rate": 9.998903417374228e-06,
121
- "loss": 0.0202,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
- "grad_norm": 2.4854161739349365,
127
  "learning_rate": 9.995113378907791e-06,
128
- "loss": 0.0187,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
- "grad_norm": 1.4756354093551636,
134
  "learning_rate": 9.988618398427495e-06,
135
- "loss": 0.0214,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
- "grad_norm": 1.835342288017273,
141
  "learning_rate": 9.979421993079853e-06,
142
- "loss": 0.0175,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
- "grad_norm": 1.524764060974121,
148
  "learning_rate": 9.967529142880592e-06,
149
- "loss": 0.0141,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
- "grad_norm": 0.9244430065155029,
155
  "learning_rate": 9.952946288017899e-06,
156
- "loss": 0.0142,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
- "grad_norm": 1.1588711738586426,
162
  "learning_rate": 9.93568132536494e-06,
163
- "loss": 0.0113,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
- "grad_norm": 1.0514777898788452,
169
  "learning_rate": 9.915743604203563e-06,
170
- "loss": 0.0127,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
- "grad_norm": 0.45326995849609375,
176
  "learning_rate": 9.893143921161501e-06,
177
- "loss": 0.0128,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
- "grad_norm": 0.950430691242218,
183
  "learning_rate": 9.867894514365802e-06,
184
- "loss": 0.01,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
- "grad_norm": 0.48601990938186646,
190
  "learning_rate": 9.840009056815674e-06,
191
- "loss": 0.008,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
- "grad_norm": 0.6303757429122925,
197
  "learning_rate": 9.809502648978311e-06,
198
- "loss": 0.0117,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
- "grad_norm": 0.6576370596885681,
204
  "learning_rate": 9.776391810611719e-06,
205
- "loss": 0.0096,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
- "grad_norm": 0.7878595590591431,
211
  "learning_rate": 9.740694471818988e-06,
212
- "loss": 0.0084,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
- "grad_norm": 1.2249119281768799,
218
  "learning_rate": 9.702429963338812e-06,
219
- "loss": 0.0079,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
- "grad_norm": 0.4293154776096344,
225
  "learning_rate": 9.661619006077562e-06,
226
- "loss": 0.0102,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
- "grad_norm": 1.0105853080749512,
232
  "learning_rate": 9.618283699888543e-06,
233
- "loss": 0.0102,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
- "grad_norm": 0.6863505244255066,
239
  "learning_rate": 9.572447511604536e-06,
240
- "loss": 0.0077,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
- "grad_norm": 0.5472639799118042,
246
  "learning_rate": 9.524135262330098e-06,
247
- "loss": 0.0075,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
- "grad_norm": 0.4141458570957184,
253
  "learning_rate": 9.473373114000493e-06,
254
- "loss": 0.0061,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
- "grad_norm": 0.7412475347518921,
260
  "learning_rate": 9.420188555214537e-06,
261
- "loss": 0.0068,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
- "grad_norm": 0.8724798560142517,
267
  "learning_rate": 9.364610386349048e-06,
268
- "loss": 0.0062,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
- "grad_norm": 0.6458179354667664,
274
  "learning_rate": 9.306668703962927e-06,
275
- "loss": 0.0084,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
- "grad_norm": 0.4114464521408081,
281
  "learning_rate": 9.246394884499334e-06,
282
- "loss": 0.0055,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
- "grad_norm": 0.7714133262634277,
288
  "learning_rate": 9.18382156729481e-06,
289
- "loss": 0.0063,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
- "grad_norm": 0.3160949945449829,
295
  "learning_rate": 9.118982636904476e-06,
296
- "loss": 0.0078,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
- "grad_norm": 0.41902920603752136,
302
  "learning_rate": 9.051913204752972e-06,
303
- "loss": 0.0064,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
- "grad_norm": 0.5417268872261047,
309
  "learning_rate": 8.982649590120982e-06,
310
- "loss": 0.0058,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
- "grad_norm": 0.5353021621704102,
316
  "learning_rate": 8.911229300477716e-06,
317
- "loss": 0.006,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
- "grad_norm": 0.40390685200691223,
323
  "learning_rate": 8.837691011169944e-06,
324
- "loss": 0.0065,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
- "grad_norm": 1.2818483114242554,
330
  "learning_rate": 8.762074544478622e-06,
331
- "loss": 0.0057,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
- "grad_norm": 0.6845483183860779,
337
  "learning_rate": 8.68442084805442e-06,
338
- "loss": 0.0049,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
- "grad_norm": 0.361431360244751,
344
  "learning_rate": 8.604771972743848e-06,
345
- "loss": 0.0047,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
- "grad_norm": 0.7514362931251526,
351
  "learning_rate": 8.523171049817974e-06,
352
- "loss": 0.0055,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
- "grad_norm": 0.20119288563728333,
358
  "learning_rate": 8.439662267616093e-06,
359
- "loss": 0.0048,
360
  "step": 500
361
  }
362
  ],
 
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
+ "grad_norm": 36.58766174316406,
15
  "learning_rate": 6.000000000000001e-07,
16
+ "loss": 0.8559,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
+ "grad_norm": 6.332058906555176,
22
  "learning_rate": 1.2666666666666669e-06,
23
+ "loss": 0.3865,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
+ "grad_norm": 1.850089192390442,
29
  "learning_rate": 1.9333333333333336e-06,
30
+ "loss": 0.0868,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
+ "grad_norm": 2.369614839553833,
36
  "learning_rate": 2.6e-06,
37
+ "loss": 0.0721,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
+ "grad_norm": 0.6930484175682068,
43
  "learning_rate": 3.266666666666667e-06,
44
+ "loss": 0.0704,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
+ "grad_norm": 1.131187081336975,
50
  "learning_rate": 3.9333333333333335e-06,
51
+ "loss": 0.0692,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
+ "grad_norm": 1.0588281154632568,
57
  "learning_rate": 4.600000000000001e-06,
58
+ "loss": 0.0686,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
+ "grad_norm": 2.0893168449401855,
64
  "learning_rate": 5.2666666666666665e-06,
65
+ "loss": 0.0672,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
+ "grad_norm": 0.8078766465187073,
71
  "learning_rate": 5.933333333333335e-06,
72
+ "loss": 0.0672,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
+ "grad_norm": 7.854005336761475,
78
  "learning_rate": 6.600000000000001e-06,
79
+ "loss": 0.0694,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
+ "grad_norm": 1.7778018712997437,
85
  "learning_rate": 7.266666666666668e-06,
86
+ "loss": 0.0597,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
+ "grad_norm": 2.1617932319641113,
92
  "learning_rate": 7.933333333333334e-06,
93
+ "loss": 0.0531,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
+ "grad_norm": 1.4475531578063965,
99
  "learning_rate": 8.6e-06,
100
+ "loss": 0.0345,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
+ "grad_norm": 2.7664859294891357,
106
  "learning_rate": 9.266666666666667e-06,
107
+ "loss": 0.0307,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
+ "grad_norm": 1.9487580060958862,
113
  "learning_rate": 9.933333333333334e-06,
114
+ "loss": 0.0284,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
+ "grad_norm": 2.273493766784668,
120
  "learning_rate": 9.998903417374228e-06,
121
+ "loss": 0.0221,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
+ "grad_norm": 2.3305516242980957,
127
  "learning_rate": 9.995113378907791e-06,
128
+ "loss": 0.0219,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
+ "grad_norm": 1.0082324743270874,
134
  "learning_rate": 9.988618398427495e-06,
135
+ "loss": 0.0202,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
+ "grad_norm": 1.040068507194519,
141
  "learning_rate": 9.979421993079853e-06,
142
+ "loss": 0.0147,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
+ "grad_norm": 0.6692638993263245,
148
  "learning_rate": 9.967529142880592e-06,
149
+ "loss": 0.0128,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
+ "grad_norm": 0.8508909940719604,
155
  "learning_rate": 9.952946288017899e-06,
156
+ "loss": 0.0157,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
+ "grad_norm": 0.8564547300338745,
162
  "learning_rate": 9.93568132536494e-06,
163
+ "loss": 0.0126,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
+ "grad_norm": 1.245940089225769,
169
  "learning_rate": 9.915743604203563e-06,
170
+ "loss": 0.0112,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
+ "grad_norm": 0.7479501962661743,
176
  "learning_rate": 9.893143921161501e-06,
177
+ "loss": 0.0107,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
+ "grad_norm": 0.9747921228408813,
183
  "learning_rate": 9.867894514365802e-06,
184
+ "loss": 0.0108,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
+ "grad_norm": 1.3732854127883911,
190
  "learning_rate": 9.840009056815674e-06,
191
+ "loss": 0.0094,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
+ "grad_norm": 2.5172600746154785,
197
  "learning_rate": 9.809502648978311e-06,
198
+ "loss": 0.0115,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
+ "grad_norm": 0.5691208839416504,
204
  "learning_rate": 9.776391810611719e-06,
205
+ "loss": 0.0081,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
+ "grad_norm": 0.7180817723274231,
211
  "learning_rate": 9.740694471818988e-06,
212
+ "loss": 0.0083,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
+ "grad_norm": 1.6575194597244263,
218
  "learning_rate": 9.702429963338812e-06,
219
+ "loss": 0.0092,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
+ "grad_norm": 0.8298120498657227,
225
  "learning_rate": 9.661619006077562e-06,
226
+ "loss": 0.0107,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
+ "grad_norm": 0.5123628377914429,
232
  "learning_rate": 9.618283699888543e-06,
233
+ "loss": 0.0087,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
+ "grad_norm": 0.9690056443214417,
239
  "learning_rate": 9.572447511604536e-06,
240
+ "loss": 0.008,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
+ "grad_norm": 0.3551647961139679,
246
  "learning_rate": 9.524135262330098e-06,
247
+ "loss": 0.0065,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
+ "grad_norm": 0.5313103199005127,
253
  "learning_rate": 9.473373114000493e-06,
254
+ "loss": 0.0063,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
+ "grad_norm": 0.3664902150630951,
260
  "learning_rate": 9.420188555214537e-06,
261
+ "loss": 0.0067,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
+ "grad_norm": 0.3962435722351074,
267
  "learning_rate": 9.364610386349048e-06,
268
+ "loss": 0.0054,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
+ "grad_norm": 0.6556732058525085,
274
  "learning_rate": 9.306668703962927e-06,
275
+ "loss": 0.008,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
+ "grad_norm": 0.3665415346622467,
281
  "learning_rate": 9.246394884499334e-06,
282
+ "loss": 0.0061,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
+ "grad_norm": 0.3962056636810303,
288
  "learning_rate": 9.18382156729481e-06,
289
+ "loss": 0.0058,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
+ "grad_norm": 0.4669991731643677,
295
  "learning_rate": 9.118982636904476e-06,
296
+ "loss": 0.0075,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
+ "grad_norm": 0.9341192841529846,
302
  "learning_rate": 9.051913204752972e-06,
303
+ "loss": 0.0109,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
+ "grad_norm": 0.8634790182113647,
309
  "learning_rate": 8.982649590120982e-06,
310
+ "loss": 0.0053,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
+ "grad_norm": 0.5026211142539978,
316
  "learning_rate": 8.911229300477716e-06,
317
+ "loss": 0.0062,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
+ "grad_norm": 0.2680472731590271,
323
  "learning_rate": 8.837691011169944e-06,
324
+ "loss": 0.0055,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
+ "grad_norm": 0.5725376605987549,
330
  "learning_rate": 8.762074544478622e-06,
331
+ "loss": 0.0088,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
+ "grad_norm": 0.5385804176330566,
337
  "learning_rate": 8.68442084805442e-06,
338
+ "loss": 0.0067,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
+ "grad_norm": 0.48434388637542725,
344
  "learning_rate": 8.604771972743848e-06,
345
+ "loss": 0.0044,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
+ "grad_norm": 0.25520431995391846,
351
  "learning_rate": 8.523171049817974e-06,
352
+ "loss": 0.0046,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
+ "grad_norm": 0.30132007598876953,
358
  "learning_rate": 8.439662267616093e-06,
359
+ "loss": 0.0053,
360
  "step": 500
361
  }
362
  ],
zoom_in-swap_v5_100k/checkpoint-500/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:45c12d31bc7d5e0bc5c365748f7f11d2d161ee7cc14cc7e0ad1c7269e36bc16d
3
  size 7416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eed67959457cb956e03ea094b9ef1d9a23e7a330befda55d0e8bbb180a9aee2d
3
  size 7416