Rashik24 commited on
Commit
7d1ac71
·
verified ·
1 Parent(s): 1c9b9c0

Upload folder using huggingface_hub

Browse files
tiny-aya-base/condition-1-en-20k-seed42/adapter_config.json ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alora_invocation_tokens": null,
3
+ "alpha_pattern": {},
4
+ "arrow_config": null,
5
+ "auto_mapping": {
6
+ "base_model_class": "Cohere2ForCausalLM",
7
+ "parent_library": "transformers.models.cohere2.modeling_cohere2",
8
+ "unsloth_fixed": true
9
+ },
10
+ "base_model_name_or_path": "CohereLabs/tiny-aya-base",
11
+ "bias": "none",
12
+ "corda_config": null,
13
+ "ensure_weight_tying": false,
14
+ "eva_config": null,
15
+ "exclude_modules": null,
16
+ "fan_in_fan_out": false,
17
+ "inference_mode": true,
18
+ "init_lora_weights": true,
19
+ "layer_replication": null,
20
+ "layers_pattern": null,
21
+ "layers_to_transform": null,
22
+ "loftq_config": {},
23
+ "lora_alpha": 32,
24
+ "lora_bias": false,
25
+ "lora_dropout": 0.0,
26
+ "megatron_config": null,
27
+ "megatron_core": "megatron.core",
28
+ "modules_to_save": null,
29
+ "peft_type": "LORA",
30
+ "peft_version": "0.18.1",
31
+ "qalora_group_size": 16,
32
+ "r": 16,
33
+ "rank_pattern": {},
34
+ "revision": null,
35
+ "target_modules": [
36
+ "gate_proj",
37
+ "v_proj",
38
+ "o_proj",
39
+ "q_proj",
40
+ "k_proj",
41
+ "down_proj",
42
+ "up_proj"
43
+ ],
44
+ "target_parameters": null,
45
+ "task_type": "CAUSAL_LM",
46
+ "trainable_token_indices": null,
47
+ "use_dora": false,
48
+ "use_qalora": false,
49
+ "use_rslora": false
50
+ }
tiny-aya-base/condition-1-en-20k-seed42/adapter_model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18de78e59fc7dc2e4b0bb942e4479085bee3eacbe8f4b92487d91d94ed96d15d
3
+ size 120981200
tiny-aya-base/condition-1-en-20k-seed42/training_metrics.json ADDED
@@ -0,0 +1,809 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_config_name": "tiny-aya-base",
3
+ "condition_name": "condition-1-en-20k",
4
+ "seed": 42,
5
+ "output_name": "condition-1-en-20k-seed42",
6
+ "train_result": {
7
+ "train_runtime": 14563.2899,
8
+ "train_samples_per_second": 1.236,
9
+ "train_steps_per_second": 0.077,
10
+ "total_flos": 3.141329099864146e+17,
11
+ "train_loss": 1.0860543518066406,
12
+ "epoch": 1.0
13
+ },
14
+ "log_history": [
15
+ {
16
+ "loss": 1.1096,
17
+ "grad_norm": 0.06403742730617523,
18
+ "learning_rate": 3.157894736842105e-05,
19
+ "epoch": 0.008888888888888889,
20
+ "step": 10
21
+ },
22
+ {
23
+ "loss": 1.0956,
24
+ "grad_norm": 0.07200434803962708,
25
+ "learning_rate": 6.666666666666667e-05,
26
+ "epoch": 0.017777777777777778,
27
+ "step": 20
28
+ },
29
+ {
30
+ "loss": 1.1093,
31
+ "grad_norm": 0.08676765114068985,
32
+ "learning_rate": 0.0001017543859649123,
33
+ "epoch": 0.02666666666666667,
34
+ "step": 30
35
+ },
36
+ {
37
+ "loss": 1.1155,
38
+ "grad_norm": 0.08623942732810974,
39
+ "learning_rate": 0.0001368421052631579,
40
+ "epoch": 0.035555555555555556,
41
+ "step": 40
42
+ },
43
+ {
44
+ "loss": 1.074,
45
+ "grad_norm": 0.07963975518941879,
46
+ "learning_rate": 0.00017192982456140353,
47
+ "epoch": 0.044444444444444446,
48
+ "step": 50
49
+ },
50
+ {
51
+ "loss": 1.1382,
52
+ "grad_norm": 0.08217670768499374,
53
+ "learning_rate": 0.0001999982694427025,
54
+ "epoch": 0.05333333333333334,
55
+ "step": 60
56
+ },
57
+ {
58
+ "loss": 1.012,
59
+ "grad_norm": 0.0925581157207489,
60
+ "learning_rate": 0.00019993770622619782,
61
+ "epoch": 0.06222222222222222,
62
+ "step": 70
63
+ },
64
+ {
65
+ "loss": 1.1102,
66
+ "grad_norm": 0.08492089062929153,
67
+ "learning_rate": 0.00019979067503207154,
68
+ "epoch": 0.07111111111111111,
69
+ "step": 80
70
+ },
71
+ {
72
+ "loss": 1.1262,
73
+ "grad_norm": 0.07605846226215363,
74
+ "learning_rate": 0.00019955730307447014,
75
+ "epoch": 0.08,
76
+ "step": 90
77
+ },
78
+ {
79
+ "loss": 1.0844,
80
+ "grad_norm": 0.08105836063623428,
81
+ "learning_rate": 0.0001992377922711879,
82
+ "epoch": 0.08888888888888889,
83
+ "step": 100
84
+ },
85
+ {
86
+ "loss": 1.0595,
87
+ "grad_norm": 0.07768302410840988,
88
+ "learning_rate": 0.00019883241906896388,
89
+ "epoch": 0.09777777777777778,
90
+ "step": 110
91
+ },
92
+ {
93
+ "loss": 1.0744,
94
+ "grad_norm": 0.08287444710731506,
95
+ "learning_rate": 0.00019834153420429478,
96
+ "epoch": 0.10666666666666667,
97
+ "step": 120
98
+ },
99
+ {
100
+ "loss": 1.0606,
101
+ "grad_norm": 0.07890604436397552,
102
+ "learning_rate": 0.00019776556239997146,
103
+ "epoch": 0.11555555555555555,
104
+ "step": 130
105
+ },
106
+ {
107
+ "loss": 1.0618,
108
+ "grad_norm": 0.08559550344944,
109
+ "learning_rate": 0.0001971050019976005,
110
+ "epoch": 0.12444444444444444,
111
+ "step": 140
112
+ },
113
+ {
114
+ "loss": 1.0808,
115
+ "grad_norm": 0.08610441535711288,
116
+ "learning_rate": 0.00019636042452643,
117
+ "epoch": 0.13333333333333333,
118
+ "step": 150
119
+ },
120
+ {
121
+ "loss": 1.1284,
122
+ "grad_norm": 0.08284633606672287,
123
+ "learning_rate": 0.00019553247420885157,
124
+ "epoch": 0.14222222222222222,
125
+ "step": 160
126
+ },
127
+ {
128
+ "loss": 1.0735,
129
+ "grad_norm": 0.07116303592920303,
130
+ "learning_rate": 0.00019462186740300697,
131
+ "epoch": 0.1511111111111111,
132
+ "step": 170
133
+ },
134
+ {
135
+ "loss": 1.0629,
136
+ "grad_norm": 0.07475987076759338,
137
+ "learning_rate": 0.00019362939198298184,
138
+ "epoch": 0.16,
139
+ "step": 180
140
+ },
141
+ {
142
+ "loss": 1.0924,
143
+ "grad_norm": 0.07793471962213516,
144
+ "learning_rate": 0.00019255590665712214,
145
+ "epoch": 0.1688888888888889,
146
+ "step": 190
147
+ },
148
+ {
149
+ "loss": 1.0697,
150
+ "grad_norm": 0.08392629772424698,
151
+ "learning_rate": 0.00019140234022506348,
152
+ "epoch": 0.17777777777777778,
153
+ "step": 200
154
+ },
155
+ {
156
+ "loss": 1.0898,
157
+ "grad_norm": 0.07578205317258835,
158
+ "learning_rate": 0.00019016969077411647,
159
+ "epoch": 0.18666666666666668,
160
+ "step": 210
161
+ },
162
+ {
163
+ "loss": 1.1044,
164
+ "grad_norm": 0.08797736465930939,
165
+ "learning_rate": 0.0001888590248157027,
166
+ "epoch": 0.19555555555555557,
167
+ "step": 220
168
+ },
169
+ {
170
+ "loss": 1.1363,
171
+ "grad_norm": 0.08936440199613571,
172
+ "learning_rate": 0.00018747147636258917,
173
+ "epoch": 0.20444444444444446,
174
+ "step": 230
175
+ },
176
+ {
177
+ "loss": 1.106,
178
+ "grad_norm": 0.08917027711868286,
179
+ "learning_rate": 0.00018600824594771907,
180
+ "epoch": 0.21333333333333335,
181
+ "step": 240
182
+ },
183
+ {
184
+ "loss": 1.1467,
185
+ "grad_norm": 0.08728639781475067,
186
+ "learning_rate": 0.0001844705995854882,
187
+ "epoch": 0.2222222222222222,
188
+ "step": 250
189
+ },
190
+ {
191
+ "loss": 1.0262,
192
+ "grad_norm": 0.08384900540113449,
193
+ "learning_rate": 0.00018285986767636566,
194
+ "epoch": 0.2311111111111111,
195
+ "step": 260
196
+ },
197
+ {
198
+ "loss": 1.1373,
199
+ "grad_norm": 0.08024132251739502,
200
+ "learning_rate": 0.00018117744385580625,
201
+ "epoch": 0.24,
202
+ "step": 270
203
+ },
204
+ {
205
+ "loss": 1.1169,
206
+ "grad_norm": 0.08673477172851562,
207
+ "learning_rate": 0.0001794247837884511,
208
+ "epoch": 0.24888888888888888,
209
+ "step": 280
210
+ },
211
+ {
212
+ "loss": 1.0404,
213
+ "grad_norm": 0.10723299533128738,
214
+ "learning_rate": 0.0001776034039086592,
215
+ "epoch": 0.2577777777777778,
216
+ "step": 290
217
+ },
218
+ {
219
+ "loss": 1.1536,
220
+ "grad_norm": 0.0855490043759346,
221
+ "learning_rate": 0.00017571488010846003,
222
+ "epoch": 0.26666666666666666,
223
+ "step": 300
224
+ },
225
+ {
226
+ "loss": 1.1175,
227
+ "grad_norm": 0.07594490051269531,
228
+ "learning_rate": 0.00017376084637406222,
229
+ "epoch": 0.27555555555555555,
230
+ "step": 310
231
+ },
232
+ {
233
+ "loss": 1.0489,
234
+ "grad_norm": 0.07274004071950912,
235
+ "learning_rate": 0.000171742993372098,
236
+ "epoch": 0.28444444444444444,
237
+ "step": 320
238
+ },
239
+ {
240
+ "loss": 1.0753,
241
+ "grad_norm": 0.09644320607185364,
242
+ "learning_rate": 0.0001696630669868267,
243
+ "epoch": 0.29333333333333333,
244
+ "step": 330
245
+ },
246
+ {
247
+ "loss": 1.132,
248
+ "grad_norm": 0.09514153003692627,
249
+ "learning_rate": 0.00016752286680956306,
250
+ "epoch": 0.3022222222222222,
251
+ "step": 340
252
+ },
253
+ {
254
+ "loss": 1.0777,
255
+ "grad_norm": 0.09859903156757355,
256
+ "learning_rate": 0.00016532424458163693,
257
+ "epoch": 0.3111111111111111,
258
+ "step": 350
259
+ },
260
+ {
261
+ "loss": 1.0358,
262
+ "grad_norm": 0.07918336242437363,
263
+ "learning_rate": 0.0001630691025922321,
264
+ "epoch": 0.32,
265
+ "step": 360
266
+ },
267
+ {
268
+ "loss": 1.08,
269
+ "grad_norm": 0.08175525069236755,
270
+ "learning_rate": 0.0001607593920324899,
271
+ "epoch": 0.3288888888888889,
272
+ "step": 370
273
+ },
274
+ {
275
+ "loss": 1.1033,
276
+ "grad_norm": 0.11684149503707886,
277
+ "learning_rate": 0.00015839711130730203,
278
+ "epoch": 0.3377777777777778,
279
+ "step": 380
280
+ },
281
+ {
282
+ "loss": 1.0916,
283
+ "grad_norm": 0.09373477101325989,
284
+ "learning_rate": 0.00015598430430625334,
285
+ "epoch": 0.3466666666666667,
286
+ "step": 390
287
+ },
288
+ {
289
+ "loss": 1.1265,
290
+ "grad_norm": 0.08210037648677826,
291
+ "learning_rate": 0.00015352305863520991,
292
+ "epoch": 0.35555555555555557,
293
+ "step": 400
294
+ },
295
+ {
296
+ "loss": 1.1241,
297
+ "grad_norm": 0.08330373466014862,
298
+ "learning_rate": 0.00015101550381008377,
299
+ "epoch": 0.36444444444444446,
300
+ "step": 410
301
+ },
302
+ {
303
+ "loss": 1.0741,
304
+ "grad_norm": 0.07790176570415497,
305
+ "learning_rate": 0.00014846380941433522,
306
+ "epoch": 0.37333333333333335,
307
+ "step": 420
308
+ },
309
+ {
310
+ "loss": 1.0975,
311
+ "grad_norm": 0.08394762128591537,
312
+ "learning_rate": 0.00014587018322180905,
313
+ "epoch": 0.38222222222222224,
314
+ "step": 430
315
+ },
316
+ {
317
+ "loss": 1.0846,
318
+ "grad_norm": 0.0850745216012001,
319
+ "learning_rate": 0.00014323686928652697,
320
+ "epoch": 0.39111111111111113,
321
+ "step": 440
322
+ },
323
+ {
324
+ "loss": 1.0661,
325
+ "grad_norm": 0.09569722414016724,
326
+ "learning_rate": 0.00014056614600108997,
327
+ "epoch": 0.4,
328
+ "step": 450
329
+ },
330
+ {
331
+ "loss": 1.1233,
332
+ "grad_norm": 0.08644863963127136,
333
+ "learning_rate": 0.00013786032412537035,
334
+ "epoch": 0.4088888888888889,
335
+ "step": 460
336
+ },
337
+ {
338
+ "loss": 1.0715,
339
+ "grad_norm": 0.08750565350055695,
340
+ "learning_rate": 0.00013512174478719894,
341
+ "epoch": 0.4177777777777778,
342
+ "step": 470
343
+ },
344
+ {
345
+ "loss": 1.0938,
346
+ "grad_norm": 0.09004763513803482,
347
+ "learning_rate": 0.00013235277745677747,
348
+ "epoch": 0.4266666666666667,
349
+ "step": 480
350
+ },
351
+ {
352
+ "loss": 1.0737,
353
+ "grad_norm": 0.08652064204216003,
354
+ "learning_rate": 0.00012955581789656843,
355
+ "epoch": 0.43555555555555553,
356
+ "step": 490
357
+ },
358
+ {
359
+ "loss": 1.0483,
360
+ "grad_norm": 0.08033134043216705,
361
+ "learning_rate": 0.00012673328608843636,
362
+ "epoch": 0.4444444444444444,
363
+ "step": 500
364
+ },
365
+ {
366
+ "loss": 1.088,
367
+ "grad_norm": 0.08166171610355377,
368
+ "learning_rate": 0.00012388762413983445,
369
+ "epoch": 0.4533333333333333,
370
+ "step": 510
371
+ },
372
+ {
373
+ "loss": 1.0894,
374
+ "grad_norm": 0.10416824370622635,
375
+ "learning_rate": 0.00012102129417084714,
376
+ "epoch": 0.4622222222222222,
377
+ "step": 520
378
+ },
379
+ {
380
+ "loss": 1.0954,
381
+ "grad_norm": 0.08470191806554794,
382
+ "learning_rate": 0.00011813677618391759,
383
+ "epoch": 0.4711111111111111,
384
+ "step": 530
385
+ },
386
+ {
387
+ "loss": 1.0228,
388
+ "grad_norm": 0.0904318168759346,
389
+ "learning_rate": 0.00011523656591810337,
390
+ "epoch": 0.48,
391
+ "step": 540
392
+ },
393
+ {
394
+ "loss": 1.0255,
395
+ "grad_norm": 0.09989261627197266,
396
+ "learning_rate": 0.00011232317268971585,
397
+ "epoch": 0.4888888888888889,
398
+ "step": 550
399
+ },
400
+ {
401
+ "loss": 1.0486,
402
+ "grad_norm": 0.08665929734706879,
403
+ "learning_rate": 0.00010939911722121306,
404
+ "epoch": 0.49777777777777776,
405
+ "step": 560
406
+ },
407
+ {
408
+ "loss": 1.1087,
409
+ "grad_norm": 0.09826831519603729,
410
+ "learning_rate": 0.00010646692946022285,
411
+ "epoch": 0.5066666666666667,
412
+ "step": 570
413
+ },
414
+ {
415
+ "loss": 1.0638,
416
+ "grad_norm": 0.09649895876646042,
417
+ "learning_rate": 0.00010352914639058526,
418
+ "epoch": 0.5155555555555555,
419
+ "step": 580
420
+ },
421
+ {
422
+ "loss": 1.0457,
423
+ "grad_norm": 0.08156418800354004,
424
+ "learning_rate": 0.00010058830983730622,
425
+ "epoch": 0.5244444444444445,
426
+ "step": 590
427
+ },
428
+ {
429
+ "loss": 1.1155,
430
+ "grad_norm": 0.09795871376991272,
431
+ "learning_rate": 9.764696426732303e-05,
432
+ "epoch": 0.5333333333333333,
433
+ "step": 600
434
+ },
435
+ {
436
+ "loss": 1.1693,
437
+ "grad_norm": 0.08484228700399399,
438
+ "learning_rate": 9.470765458798368e-05,
439
+ "epoch": 0.5422222222222223,
440
+ "step": 610
441
+ },
442
+ {
443
+ "loss": 1.0619,
444
+ "grad_norm": 0.09032510966062546,
445
+ "learning_rate": 9.177292394514555e-05,
446
+ "epoch": 0.5511111111111111,
447
+ "step": 620
448
+ },
449
+ {
450
+ "loss": 1.0983,
451
+ "grad_norm": 0.09677831083536148,
452
+ "learning_rate": 8.884531152279756e-05,
453
+ "epoch": 0.56,
454
+ "step": 630
455
+ },
456
+ {
457
+ "loss": 1.1169,
458
+ "grad_norm": 0.08354154229164124,
459
+ "learning_rate": 8.592735034611097e-05,
460
+ "epoch": 0.5688888888888889,
461
+ "step": 640
462
+ },
463
+ {
464
+ "loss": 1.081,
465
+ "grad_norm": 0.08487077802419662,
466
+ "learning_rate": 8.302156508981815e-05,
467
+ "epoch": 0.5777777777777777,
468
+ "step": 650
469
+ },
470
+ {
471
+ "loss": 1.089,
472
+ "grad_norm": 0.0782162994146347,
473
+ "learning_rate": 8.013046989381691e-05,
474
+ "epoch": 0.5866666666666667,
475
+ "step": 660
476
+ },
477
+ {
478
+ "loss": 1.015,
479
+ "grad_norm": 0.08796509355306625,
480
+ "learning_rate": 7.725656618788937e-05,
481
+ "epoch": 0.5955555555555555,
482
+ "step": 670
483
+ },
484
+ {
485
+ "loss": 1.0907,
486
+ "grad_norm": 0.0932922437787056,
487
+ "learning_rate": 7.4402340527418e-05,
488
+ "epoch": 0.6044444444444445,
489
+ "step": 680
490
+ },
491
+ {
492
+ "loss": 1.0903,
493
+ "grad_norm": 0.07425214350223541,
494
+ "learning_rate": 7.157026244197132e-05,
495
+ "epoch": 0.6133333333333333,
496
+ "step": 690
497
+ },
498
+ {
499
+ "loss": 1.0779,
500
+ "grad_norm": 0.08208112418651581,
501
+ "learning_rate": 6.87627822986206e-05,
502
+ "epoch": 0.6222222222222222,
503
+ "step": 700
504
+ },
505
+ {
506
+ "loss": 1.1069,
507
+ "grad_norm": 0.08736101537942886,
508
+ "learning_rate": 6.598232918183632e-05,
509
+ "epoch": 0.6311111111111111,
510
+ "step": 710
511
+ },
512
+ {
513
+ "loss": 1.1449,
514
+ "grad_norm": 0.08801425993442535,
515
+ "learning_rate": 6.323130879179875e-05,
516
+ "epoch": 0.64,
517
+ "step": 720
518
+ },
519
+ {
520
+ "loss": 1.0806,
521
+ "grad_norm": 0.09554090350866318,
522
+ "learning_rate": 6.051210136294089e-05,
523
+ "epoch": 0.6488888888888888,
524
+ "step": 730
525
+ },
526
+ {
527
+ "loss": 1.0781,
528
+ "grad_norm": 0.08407624065876007,
529
+ "learning_rate": 5.7827059604525234e-05,
530
+ "epoch": 0.6577777777777778,
531
+ "step": 740
532
+ },
533
+ {
534
+ "loss": 1.0749,
535
+ "grad_norm": 0.10076402127742767,
536
+ "learning_rate": 5.517850666503547e-05,
537
+ "epoch": 0.6666666666666666,
538
+ "step": 750
539
+ },
540
+ {
541
+ "loss": 1.0283,
542
+ "grad_norm": 0.08602714538574219,
543
+ "learning_rate": 5.2568734122144756e-05,
544
+ "epoch": 0.6755555555555556,
545
+ "step": 760
546
+ },
547
+ {
548
+ "loss": 1.047,
549
+ "grad_norm": 0.08159055560827255,
550
+ "learning_rate": 5.000000000000002e-05,
551
+ "epoch": 0.6844444444444444,
552
+ "step": 770
553
+ },
554
+ {
555
+ "loss": 1.0853,
556
+ "grad_norm": 0.0906791090965271,
557
+ "learning_rate": 4.747452681553674e-05,
558
+ "epoch": 0.6933333333333334,
559
+ "step": 780
560
+ },
561
+ {
562
+ "loss": 1.0818,
563
+ "grad_norm": 0.09545056521892548,
564
+ "learning_rate": 4.4994499655515865e-05,
565
+ "epoch": 0.7022222222222222,
566
+ "step": 790
567
+ },
568
+ {
569
+ "loss": 1.105,
570
+ "grad_norm": 0.09591014683246613,
571
+ "learning_rate": 4.256206428594587e-05,
572
+ "epoch": 0.7111111111111111,
573
+ "step": 800
574
+ },
575
+ {
576
+ "loss": 1.0438,
577
+ "grad_norm": 0.09302148222923279,
578
+ "learning_rate": 4.017932529552543e-05,
579
+ "epoch": 0.72,
580
+ "step": 810
581
+ },
582
+ {
583
+ "loss": 1.1063,
584
+ "grad_norm": 0.09119318425655365,
585
+ "learning_rate": 3.784834427471408e-05,
586
+ "epoch": 0.7288888888888889,
587
+ "step": 820
588
+ },
589
+ {
590
+ "loss": 1.0919,
591
+ "grad_norm": 0.09713295102119446,
592
+ "learning_rate": 3.557113803200537e-05,
593
+ "epoch": 0.7377777777777778,
594
+ "step": 830
595
+ },
596
+ {
597
+ "loss": 1.0431,
598
+ "grad_norm": 0.08561000227928162,
599
+ "learning_rate": 3.3349676848946345e-05,
600
+ "epoch": 0.7466666666666667,
601
+ "step": 840
602
+ },
603
+ {
604
+ "loss": 1.0339,
605
+ "grad_norm": 0.09021477401256561,
606
+ "learning_rate": 3.118588277541312e-05,
607
+ "epoch": 0.7555555555555555,
608
+ "step": 850
609
+ },
610
+ {
611
+ "loss": 1.0718,
612
+ "grad_norm": 0.08053261786699295,
613
+ "learning_rate": 2.9081627966617096e-05,
614
+ "epoch": 0.7644444444444445,
615
+ "step": 860
616
+ },
617
+ {
618
+ "loss": 1.1127,
619
+ "grad_norm": 0.08699634671211243,
620
+ "learning_rate": 2.7038733063281174e-05,
621
+ "epoch": 0.7733333333333333,
622
+ "step": 870
623
+ },
624
+ {
625
+ "loss": 1.0671,
626
+ "grad_norm": 0.08015429228544235,
627
+ "learning_rate": 2.5058965616387498e-05,
628
+ "epoch": 0.7822222222222223,
629
+ "step": 880
630
+ },
631
+ {
632
+ "loss": 1.0999,
633
+ "grad_norm": 0.0755259171128273,
634
+ "learning_rate": 2.3144038557858916e-05,
635
+ "epoch": 0.7911111111111111,
636
+ "step": 890
637
+ },
638
+ {
639
+ "loss": 1.0768,
640
+ "grad_norm": 0.09144140779972076,
641
+ "learning_rate": 2.1295608718498284e-05,
642
+ "epoch": 0.8,
643
+ "step": 900
644
+ },
645
+ {
646
+ "loss": 1.1237,
647
+ "grad_norm": 0.0847860723733902,
648
+ "learning_rate": 1.9515275394467446e-05,
649
+ "epoch": 0.8088888888888889,
650
+ "step": 910
651
+ },
652
+ {
653
+ "loss": 1.0821,
654
+ "grad_norm": 0.08161620050668716,
655
+ "learning_rate": 1.7804578963545994e-05,
656
+ "epoch": 0.8177777777777778,
657
+ "step": 920
658
+ },
659
+ {
660
+ "loss": 1.1261,
661
+ "grad_norm": 0.10084446519613266,
662
+ "learning_rate": 1.6164999552367765e-05,
663
+ "epoch": 0.8266666666666667,
664
+ "step": 930
665
+ },
666
+ {
667
+ "loss": 1.1363,
668
+ "grad_norm": 0.08395445346832275,
669
+ "learning_rate": 1.4597955755787373e-05,
670
+ "epoch": 0.8355555555555556,
671
+ "step": 940
672
+ },
673
+ {
674
+ "loss": 1.0882,
675
+ "grad_norm": 0.10394323617219925,
676
+ "learning_rate": 1.3104803409485356e-05,
677
+ "epoch": 0.8444444444444444,
678
+ "step": 950
679
+ },
680
+ {
681
+ "loss": 1.0949,
682
+ "grad_norm": 0.08739852160215378,
683
+ "learning_rate": 1.1686834416873815e-05,
684
+ "epoch": 0.8533333333333334,
685
+ "step": 960
686
+ },
687
+ {
688
+ "loss": 1.0952,
689
+ "grad_norm": 0.08164411783218384,
690
+ "learning_rate": 1.0345275631317163e-05,
691
+ "epoch": 0.8622222222222222,
692
+ "step": 970
693
+ },
694
+ {
695
+ "loss": 1.0312,
696
+ "grad_norm": 0.09349754452705383,
697
+ "learning_rate": 9.081287794635774e-06,
698
+ "epoch": 0.8711111111111111,
699
+ "step": 980
700
+ },
701
+ {
702
+ "loss": 1.0914,
703
+ "grad_norm": 0.10627619922161102,
704
+ "learning_rate": 7.895964532810317e-06,
705
+ "epoch": 0.88,
706
+ "step": 990
707
+ },
708
+ {
709
+ "loss": 1.0996,
710
+ "grad_norm": 0.08615703135728836,
711
+ "learning_rate": 6.7903314097560454e-06,
712
+ "epoch": 0.8888888888888888,
713
+ "step": 1000
714
+ },
715
+ {
716
+ "loss": 1.102,
717
+ "grad_norm": 0.08835088461637497,
718
+ "learning_rate": 5.765345039985648e-06,
719
+ "epoch": 0.8977777777777778,
720
+ "step": 1010
721
+ },
722
+ {
723
+ "loss": 1.0453,
724
+ "grad_norm": 0.08689237385988235,
725
+ "learning_rate": 4.821892260928451e-06,
726
+ "epoch": 0.9066666666666666,
727
+ "step": 1020
728
+ },
729
+ {
730
+ "loss": 1.0663,
731
+ "grad_norm": 0.09312503784894943,
732
+ "learning_rate": 3.960789365622075e-06,
733
+ "epoch": 0.9155555555555556,
734
+ "step": 1030
735
+ },
736
+ {
737
+ "loss": 1.0539,
738
+ "grad_norm": 0.08195506036281586,
739
+ "learning_rate": 3.1827813964403484e-06,
740
+ "epoch": 0.9244444444444444,
741
+ "step": 1040
742
+ },
743
+ {
744
+ "loss": 1.0738,
745
+ "grad_norm": 0.08607076853513718,
746
+ "learning_rate": 2.4885415004686665e-06,
747
+ "epoch": 0.9333333333333333,
748
+ "step": 1050
749
+ },
750
+ {
751
+ "loss": 1.0909,
752
+ "grad_norm": 0.09247469156980515,
753
+ "learning_rate": 1.8786703470845547e-06,
754
+ "epoch": 0.9422222222222222,
755
+ "step": 1060
756
+ },
757
+ {
758
+ "loss": 1.1243,
759
+ "grad_norm": 0.07952508330345154,
760
+ "learning_rate": 1.3536956082472074e-06,
761
+ "epoch": 0.9511111111111111,
762
+ "step": 1070
763
+ },
764
+ {
765
+ "loss": 1.1077,
766
+ "grad_norm": 0.09081117808818817,
767
+ "learning_rate": 9.140715019458457e-07,
768
+ "epoch": 0.96,
769
+ "step": 1080
770
+ },
771
+ {
772
+ "loss": 1.0837,
773
+ "grad_norm": 0.07951053231954575,
774
+ "learning_rate": 5.60178399201805e-07,
775
+ "epoch": 0.9688888888888889,
776
+ "step": 1090
777
+ },
778
+ {
779
+ "loss": 1.0637,
780
+ "grad_norm": 0.09419357776641846,
781
+ "learning_rate": 2.923224949643477e-07,
782
+ "epoch": 0.9777777777777777,
783
+ "step": 1100
784
+ },
785
+ {
786
+ "loss": 1.0626,
787
+ "grad_norm": 0.08806079626083374,
788
+ "learning_rate": 1.1073554318509205e-07,
789
+ "epoch": 0.9866666666666667,
790
+ "step": 1110
791
+ },
792
+ {
793
+ "loss": 1.1044,
794
+ "grad_norm": 0.11233274638652802,
795
+ "learning_rate": 1.5574656300143542e-08,
796
+ "epoch": 0.9955555555555555,
797
+ "step": 1120
798
+ },
799
+ {
800
+ "train_runtime": 14563.2899,
801
+ "train_samples_per_second": 1.236,
802
+ "train_steps_per_second": 0.077,
803
+ "total_flos": 3.141329099864146e+17,
804
+ "train_loss": 1.0860543518066406,
805
+ "epoch": 1.0,
806
+ "step": 1125
807
+ }
808
+ ]
809
+ }