Rashik24 commited on
Commit
67e7d55
·
verified ·
1 Parent(s): 805922a

Upload folder using huggingface_hub

Browse files
tiny-aya-base/condition-2-ur-20k-seed42/adapter_config.json ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alora_invocation_tokens": null,
3
+ "alpha_pattern": {},
4
+ "arrow_config": null,
5
+ "auto_mapping": {
6
+ "base_model_class": "Cohere2ForCausalLM",
7
+ "parent_library": "transformers.models.cohere2.modeling_cohere2",
8
+ "unsloth_fixed": true
9
+ },
10
+ "base_model_name_or_path": "CohereLabs/tiny-aya-base",
11
+ "bias": "none",
12
+ "corda_config": null,
13
+ "ensure_weight_tying": false,
14
+ "eva_config": null,
15
+ "exclude_modules": null,
16
+ "fan_in_fan_out": false,
17
+ "inference_mode": true,
18
+ "init_lora_weights": true,
19
+ "layer_replication": null,
20
+ "layers_pattern": null,
21
+ "layers_to_transform": null,
22
+ "loftq_config": {},
23
+ "lora_alpha": 32,
24
+ "lora_bias": false,
25
+ "lora_dropout": 0.0,
26
+ "megatron_config": null,
27
+ "megatron_core": "megatron.core",
28
+ "modules_to_save": null,
29
+ "peft_type": "LORA",
30
+ "peft_version": "0.18.1",
31
+ "qalora_group_size": 16,
32
+ "r": 16,
33
+ "rank_pattern": {},
34
+ "revision": null,
35
+ "target_modules": [
36
+ "gate_proj",
37
+ "o_proj",
38
+ "v_proj",
39
+ "up_proj",
40
+ "k_proj",
41
+ "down_proj",
42
+ "q_proj"
43
+ ],
44
+ "target_parameters": null,
45
+ "task_type": "CAUSAL_LM",
46
+ "trainable_token_indices": null,
47
+ "use_dora": false,
48
+ "use_qalora": false,
49
+ "use_rslora": false
50
+ }
tiny-aya-base/condition-2-ur-20k-seed42/adapter_model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4be052adc7d175133e49df4744fd698b581f533681a2918b02aac85be7e692b7
3
+ size 120981200
tiny-aya-base/condition-2-ur-20k-seed42/training_metrics.json ADDED
@@ -0,0 +1,809 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_config_name": "tiny-aya-base",
3
+ "condition_name": "condition-2-ur-20k",
4
+ "seed": 42,
5
+ "output_name": "condition-2-ur-20k-seed42",
6
+ "train_result": {
7
+ "train_runtime": 13570.4962,
8
+ "train_samples_per_second": 1.326,
9
+ "train_steps_per_second": 0.083,
10
+ "total_flos": 3.140573201726177e+17,
11
+ "train_loss": 1.0729037674797905,
12
+ "epoch": 1.0
13
+ },
14
+ "log_history": [
15
+ {
16
+ "loss": 1.6003,
17
+ "grad_norm": 0.17624995112419128,
18
+ "learning_rate": 3.157894736842105e-05,
19
+ "epoch": 0.008888888888888889,
20
+ "step": 10
21
+ },
22
+ {
23
+ "loss": 1.5313,
24
+ "grad_norm": 0.2164340317249298,
25
+ "learning_rate": 6.666666666666667e-05,
26
+ "epoch": 0.017777777777777778,
27
+ "step": 20
28
+ },
29
+ {
30
+ "loss": 1.3757,
31
+ "grad_norm": 0.18562479317188263,
32
+ "learning_rate": 0.0001017543859649123,
33
+ "epoch": 0.02666666666666667,
34
+ "step": 30
35
+ },
36
+ {
37
+ "loss": 1.2882,
38
+ "grad_norm": 0.24056175351142883,
39
+ "learning_rate": 0.0001368421052631579,
40
+ "epoch": 0.035555555555555556,
41
+ "step": 40
42
+ },
43
+ {
44
+ "loss": 1.204,
45
+ "grad_norm": 0.19117851555347443,
46
+ "learning_rate": 0.00017192982456140353,
47
+ "epoch": 0.044444444444444446,
48
+ "step": 50
49
+ },
50
+ {
51
+ "loss": 1.1585,
52
+ "grad_norm": 0.2000139057636261,
53
+ "learning_rate": 0.0001999982694427025,
54
+ "epoch": 0.05333333333333334,
55
+ "step": 60
56
+ },
57
+ {
58
+ "loss": 1.1604,
59
+ "grad_norm": 0.16707158088684082,
60
+ "learning_rate": 0.00019993770622619782,
61
+ "epoch": 0.06222222222222222,
62
+ "step": 70
63
+ },
64
+ {
65
+ "loss": 1.1208,
66
+ "grad_norm": 0.1946488916873932,
67
+ "learning_rate": 0.00019979067503207154,
68
+ "epoch": 0.07111111111111111,
69
+ "step": 80
70
+ },
71
+ {
72
+ "loss": 1.0732,
73
+ "grad_norm": 0.22706064581871033,
74
+ "learning_rate": 0.00019955730307447014,
75
+ "epoch": 0.08,
76
+ "step": 90
77
+ },
78
+ {
79
+ "loss": 1.1061,
80
+ "grad_norm": 0.18451257050037384,
81
+ "learning_rate": 0.0001992377922711879,
82
+ "epoch": 0.08888888888888889,
83
+ "step": 100
84
+ },
85
+ {
86
+ "loss": 1.1041,
87
+ "grad_norm": 0.19636838138103485,
88
+ "learning_rate": 0.00019883241906896388,
89
+ "epoch": 0.09777777777777778,
90
+ "step": 110
91
+ },
92
+ {
93
+ "loss": 1.037,
94
+ "grad_norm": 0.1620660275220871,
95
+ "learning_rate": 0.00019834153420429478,
96
+ "epoch": 0.10666666666666667,
97
+ "step": 120
98
+ },
99
+ {
100
+ "loss": 1.0957,
101
+ "grad_norm": 0.1725081503391266,
102
+ "learning_rate": 0.00019776556239997146,
103
+ "epoch": 0.11555555555555555,
104
+ "step": 130
105
+ },
106
+ {
107
+ "loss": 1.123,
108
+ "grad_norm": 0.16180731356143951,
109
+ "learning_rate": 0.0001971050019976005,
110
+ "epoch": 0.12444444444444444,
111
+ "step": 140
112
+ },
113
+ {
114
+ "loss": 1.0964,
115
+ "grad_norm": 0.1704389601945877,
116
+ "learning_rate": 0.00019636042452643,
117
+ "epoch": 0.13333333333333333,
118
+ "step": 150
119
+ },
120
+ {
121
+ "loss": 1.0381,
122
+ "grad_norm": 0.17602771520614624,
123
+ "learning_rate": 0.00019553247420885157,
124
+ "epoch": 0.14222222222222222,
125
+ "step": 160
126
+ },
127
+ {
128
+ "loss": 1.0891,
129
+ "grad_norm": 0.1582716852426529,
130
+ "learning_rate": 0.00019462186740300697,
131
+ "epoch": 0.1511111111111111,
132
+ "step": 170
133
+ },
134
+ {
135
+ "loss": 1.0711,
136
+ "grad_norm": 0.14734524488449097,
137
+ "learning_rate": 0.00019362939198298184,
138
+ "epoch": 0.16,
139
+ "step": 180
140
+ },
141
+ {
142
+ "loss": 1.0855,
143
+ "grad_norm": 0.14791883528232574,
144
+ "learning_rate": 0.00019255590665712214,
145
+ "epoch": 0.1688888888888889,
146
+ "step": 190
147
+ },
148
+ {
149
+ "loss": 1.0078,
150
+ "grad_norm": 0.15503981709480286,
151
+ "learning_rate": 0.00019140234022506348,
152
+ "epoch": 0.17777777777777778,
153
+ "step": 200
154
+ },
155
+ {
156
+ "loss": 1.0704,
157
+ "grad_norm": 0.14969214797019958,
158
+ "learning_rate": 0.00019016969077411647,
159
+ "epoch": 0.18666666666666668,
160
+ "step": 210
161
+ },
162
+ {
163
+ "loss": 1.0345,
164
+ "grad_norm": 0.1351374387741089,
165
+ "learning_rate": 0.0001888590248157027,
166
+ "epoch": 0.19555555555555557,
167
+ "step": 220
168
+ },
169
+ {
170
+ "loss": 1.0458,
171
+ "grad_norm": 0.137342631816864,
172
+ "learning_rate": 0.00018747147636258917,
173
+ "epoch": 0.20444444444444446,
174
+ "step": 230
175
+ },
176
+ {
177
+ "loss": 1.0645,
178
+ "grad_norm": 0.13347966969013214,
179
+ "learning_rate": 0.00018600824594771907,
180
+ "epoch": 0.21333333333333335,
181
+ "step": 240
182
+ },
183
+ {
184
+ "loss": 1.0704,
185
+ "grad_norm": 0.15762671828269958,
186
+ "learning_rate": 0.0001844705995854882,
187
+ "epoch": 0.2222222222222222,
188
+ "step": 250
189
+ },
190
+ {
191
+ "loss": 1.0993,
192
+ "grad_norm": 0.1556115299463272,
193
+ "learning_rate": 0.00018285986767636566,
194
+ "epoch": 0.2311111111111111,
195
+ "step": 260
196
+ },
197
+ {
198
+ "loss": 1.1072,
199
+ "grad_norm": 0.1583993136882782,
200
+ "learning_rate": 0.00018117744385580625,
201
+ "epoch": 0.24,
202
+ "step": 270
203
+ },
204
+ {
205
+ "loss": 1.1328,
206
+ "grad_norm": 0.1593606024980545,
207
+ "learning_rate": 0.0001794247837884511,
208
+ "epoch": 0.24888888888888888,
209
+ "step": 280
210
+ },
211
+ {
212
+ "loss": 1.1149,
213
+ "grad_norm": 0.13557392358779907,
214
+ "learning_rate": 0.0001776034039086592,
215
+ "epoch": 0.2577777777777778,
216
+ "step": 290
217
+ },
218
+ {
219
+ "loss": 1.0651,
220
+ "grad_norm": 0.14842922985553741,
221
+ "learning_rate": 0.00017571488010846003,
222
+ "epoch": 0.26666666666666666,
223
+ "step": 300
224
+ },
225
+ {
226
+ "loss": 1.0862,
227
+ "grad_norm": 0.1485857218503952,
228
+ "learning_rate": 0.00017376084637406222,
229
+ "epoch": 0.27555555555555555,
230
+ "step": 310
231
+ },
232
+ {
233
+ "loss": 1.0609,
234
+ "grad_norm": 0.16749393939971924,
235
+ "learning_rate": 0.000171742993372098,
236
+ "epoch": 0.28444444444444444,
237
+ "step": 320
238
+ },
239
+ {
240
+ "loss": 1.036,
241
+ "grad_norm": 0.1489233523607254,
242
+ "learning_rate": 0.0001696630669868267,
243
+ "epoch": 0.29333333333333333,
244
+ "step": 330
245
+ },
246
+ {
247
+ "loss": 1.1238,
248
+ "grad_norm": 0.14296723902225494,
249
+ "learning_rate": 0.00016752286680956306,
250
+ "epoch": 0.3022222222222222,
251
+ "step": 340
252
+ },
253
+ {
254
+ "loss": 1.0445,
255
+ "grad_norm": 0.14162296056747437,
256
+ "learning_rate": 0.00016532424458163693,
257
+ "epoch": 0.3111111111111111,
258
+ "step": 350
259
+ },
260
+ {
261
+ "loss": 1.0369,
262
+ "grad_norm": 0.143046036362648,
263
+ "learning_rate": 0.0001630691025922321,
264
+ "epoch": 0.32,
265
+ "step": 360
266
+ },
267
+ {
268
+ "loss": 1.0383,
269
+ "grad_norm": 0.1497723013162613,
270
+ "learning_rate": 0.0001607593920324899,
271
+ "epoch": 0.3288888888888889,
272
+ "step": 370
273
+ },
274
+ {
275
+ "loss": 0.9846,
276
+ "grad_norm": 0.13559605181217194,
277
+ "learning_rate": 0.00015839711130730203,
278
+ "epoch": 0.3377777777777778,
279
+ "step": 380
280
+ },
281
+ {
282
+ "loss": 1.042,
283
+ "grad_norm": 0.14534465968608856,
284
+ "learning_rate": 0.00015598430430625334,
285
+ "epoch": 0.3466666666666667,
286
+ "step": 390
287
+ },
288
+ {
289
+ "loss": 1.0358,
290
+ "grad_norm": 0.16837020218372345,
291
+ "learning_rate": 0.00015352305863520991,
292
+ "epoch": 0.35555555555555557,
293
+ "step": 400
294
+ },
295
+ {
296
+ "loss": 1.0265,
297
+ "grad_norm": 0.13915309309959412,
298
+ "learning_rate": 0.00015101550381008377,
299
+ "epoch": 0.36444444444444446,
300
+ "step": 410
301
+ },
302
+ {
303
+ "loss": 1.0672,
304
+ "grad_norm": 0.19003401696681976,
305
+ "learning_rate": 0.00014846380941433522,
306
+ "epoch": 0.37333333333333335,
307
+ "step": 420
308
+ },
309
+ {
310
+ "loss": 1.0971,
311
+ "grad_norm": 0.1480245292186737,
312
+ "learning_rate": 0.00014587018322180905,
313
+ "epoch": 0.38222222222222224,
314
+ "step": 430
315
+ },
316
+ {
317
+ "loss": 1.0946,
318
+ "grad_norm": 0.1381472498178482,
319
+ "learning_rate": 0.00014323686928652697,
320
+ "epoch": 0.39111111111111113,
321
+ "step": 440
322
+ },
323
+ {
324
+ "loss": 1.0513,
325
+ "grad_norm": 0.16802673041820526,
326
+ "learning_rate": 0.00014056614600108997,
327
+ "epoch": 0.4,
328
+ "step": 450
329
+ },
330
+ {
331
+ "loss": 1.0624,
332
+ "grad_norm": 0.19680212438106537,
333
+ "learning_rate": 0.00013786032412537035,
334
+ "epoch": 0.4088888888888889,
335
+ "step": 460
336
+ },
337
+ {
338
+ "loss": 1.0544,
339
+ "grad_norm": 0.15500085055828094,
340
+ "learning_rate": 0.00013512174478719894,
341
+ "epoch": 0.4177777777777778,
342
+ "step": 470
343
+ },
344
+ {
345
+ "loss": 1.032,
346
+ "grad_norm": 0.14582695066928864,
347
+ "learning_rate": 0.00013235277745677747,
348
+ "epoch": 0.4266666666666667,
349
+ "step": 480
350
+ },
351
+ {
352
+ "loss": 1.0269,
353
+ "grad_norm": 0.1789093166589737,
354
+ "learning_rate": 0.00012955581789656843,
355
+ "epoch": 0.43555555555555553,
356
+ "step": 490
357
+ },
358
+ {
359
+ "loss": 1.0565,
360
+ "grad_norm": 0.14305955171585083,
361
+ "learning_rate": 0.00012673328608843636,
362
+ "epoch": 0.4444444444444444,
363
+ "step": 500
364
+ },
365
+ {
366
+ "loss": 1.0405,
367
+ "grad_norm": 0.1427326500415802,
368
+ "learning_rate": 0.00012388762413983445,
369
+ "epoch": 0.4533333333333333,
370
+ "step": 510
371
+ },
372
+ {
373
+ "loss": 1.0596,
374
+ "grad_norm": 0.14619527757167816,
375
+ "learning_rate": 0.00012102129417084714,
376
+ "epoch": 0.4622222222222222,
377
+ "step": 520
378
+ },
379
+ {
380
+ "loss": 1.0823,
381
+ "grad_norm": 0.15209229290485382,
382
+ "learning_rate": 0.00011813677618391759,
383
+ "epoch": 0.4711111111111111,
384
+ "step": 530
385
+ },
386
+ {
387
+ "loss": 1.0738,
388
+ "grad_norm": 0.1491280198097229,
389
+ "learning_rate": 0.00011523656591810337,
390
+ "epoch": 0.48,
391
+ "step": 540
392
+ },
393
+ {
394
+ "loss": 0.9624,
395
+ "grad_norm": 0.13512106239795685,
396
+ "learning_rate": 0.00011232317268971585,
397
+ "epoch": 0.4888888888888889,
398
+ "step": 550
399
+ },
400
+ {
401
+ "loss": 1.067,
402
+ "grad_norm": 0.15700113773345947,
403
+ "learning_rate": 0.00010939911722121306,
404
+ "epoch": 0.49777777777777776,
405
+ "step": 560
406
+ },
407
+ {
408
+ "loss": 1.0011,
409
+ "grad_norm": 0.17299264669418335,
410
+ "learning_rate": 0.00010646692946022285,
411
+ "epoch": 0.5066666666666667,
412
+ "step": 570
413
+ },
414
+ {
415
+ "loss": 1.0878,
416
+ "grad_norm": 0.13645489513874054,
417
+ "learning_rate": 0.00010352914639058526,
418
+ "epoch": 0.5155555555555555,
419
+ "step": 580
420
+ },
421
+ {
422
+ "loss": 1.0605,
423
+ "grad_norm": 0.14967432618141174,
424
+ "learning_rate": 0.00010058830983730622,
425
+ "epoch": 0.5244444444444445,
426
+ "step": 590
427
+ },
428
+ {
429
+ "loss": 0.9786,
430
+ "grad_norm": 0.12973353266716003,
431
+ "learning_rate": 9.764696426732303e-05,
432
+ "epoch": 0.5333333333333333,
433
+ "step": 600
434
+ },
435
+ {
436
+ "loss": 1.0876,
437
+ "grad_norm": 0.14270669221878052,
438
+ "learning_rate": 9.470765458798368e-05,
439
+ "epoch": 0.5422222222222223,
440
+ "step": 610
441
+ },
442
+ {
443
+ "loss": 1.0488,
444
+ "grad_norm": 0.13296638429164886,
445
+ "learning_rate": 9.177292394514555e-05,
446
+ "epoch": 0.5511111111111111,
447
+ "step": 620
448
+ },
449
+ {
450
+ "loss": 1.082,
451
+ "grad_norm": 0.13516603410243988,
452
+ "learning_rate": 8.884531152279756e-05,
453
+ "epoch": 0.56,
454
+ "step": 630
455
+ },
456
+ {
457
+ "loss": 1.0213,
458
+ "grad_norm": 0.13275611400604248,
459
+ "learning_rate": 8.592735034611097e-05,
460
+ "epoch": 0.5688888888888889,
461
+ "step": 640
462
+ },
463
+ {
464
+ "loss": 1.0552,
465
+ "grad_norm": 0.13083018362522125,
466
+ "learning_rate": 8.302156508981815e-05,
467
+ "epoch": 0.5777777777777777,
468
+ "step": 650
469
+ },
470
+ {
471
+ "loss": 1.0686,
472
+ "grad_norm": 0.12451142817735672,
473
+ "learning_rate": 8.013046989381691e-05,
474
+ "epoch": 0.5866666666666667,
475
+ "step": 660
476
+ },
477
+ {
478
+ "loss": 1.0172,
479
+ "grad_norm": 0.12081737071275711,
480
+ "learning_rate": 7.725656618788937e-05,
481
+ "epoch": 0.5955555555555555,
482
+ "step": 670
483
+ },
484
+ {
485
+ "loss": 1.0153,
486
+ "grad_norm": 0.13223817944526672,
487
+ "learning_rate": 7.4402340527418e-05,
488
+ "epoch": 0.6044444444444445,
489
+ "step": 680
490
+ },
491
+ {
492
+ "loss": 1.0257,
493
+ "grad_norm": 0.14401006698608398,
494
+ "learning_rate": 7.157026244197132e-05,
495
+ "epoch": 0.6133333333333333,
496
+ "step": 690
497
+ },
498
+ {
499
+ "loss": 1.0693,
500
+ "grad_norm": 0.13986144959926605,
501
+ "learning_rate": 6.87627822986206e-05,
502
+ "epoch": 0.6222222222222222,
503
+ "step": 700
504
+ },
505
+ {
506
+ "loss": 1.0483,
507
+ "grad_norm": 0.16049247980117798,
508
+ "learning_rate": 6.598232918183632e-05,
509
+ "epoch": 0.6311111111111111,
510
+ "step": 710
511
+ },
512
+ {
513
+ "loss": 1.0385,
514
+ "grad_norm": 0.12732988595962524,
515
+ "learning_rate": 6.323130879179875e-05,
516
+ "epoch": 0.64,
517
+ "step": 720
518
+ },
519
+ {
520
+ "loss": 1.0188,
521
+ "grad_norm": 0.12288779765367508,
522
+ "learning_rate": 6.051210136294089e-05,
523
+ "epoch": 0.6488888888888888,
524
+ "step": 730
525
+ },
526
+ {
527
+ "loss": 1.0767,
528
+ "grad_norm": 0.1345112919807434,
529
+ "learning_rate": 5.7827059604525234e-05,
530
+ "epoch": 0.6577777777777778,
531
+ "step": 740
532
+ },
533
+ {
534
+ "loss": 1.131,
535
+ "grad_norm": 0.14112229645252228,
536
+ "learning_rate": 5.517850666503547e-05,
537
+ "epoch": 0.6666666666666666,
538
+ "step": 750
539
+ },
540
+ {
541
+ "loss": 1.0454,
542
+ "grad_norm": 0.1502366065979004,
543
+ "learning_rate": 5.2568734122144756e-05,
544
+ "epoch": 0.6755555555555556,
545
+ "step": 760
546
+ },
547
+ {
548
+ "loss": 1.0806,
549
+ "grad_norm": 0.15065442025661469,
550
+ "learning_rate": 5.000000000000002e-05,
551
+ "epoch": 0.6844444444444444,
552
+ "step": 770
553
+ },
554
+ {
555
+ "loss": 1.0434,
556
+ "grad_norm": 0.1595860868692398,
557
+ "learning_rate": 4.747452681553674e-05,
558
+ "epoch": 0.6933333333333334,
559
+ "step": 780
560
+ },
561
+ {
562
+ "loss": 1.037,
563
+ "grad_norm": 0.14797107875347137,
564
+ "learning_rate": 4.4994499655515865e-05,
565
+ "epoch": 0.7022222222222222,
566
+ "step": 790
567
+ },
568
+ {
569
+ "loss": 1.0375,
570
+ "grad_norm": 0.1406623274087906,
571
+ "learning_rate": 4.256206428594587e-05,
572
+ "epoch": 0.7111111111111111,
573
+ "step": 800
574
+ },
575
+ {
576
+ "loss": 1.0624,
577
+ "grad_norm": 0.133322075009346,
578
+ "learning_rate": 4.017932529552543e-05,
579
+ "epoch": 0.72,
580
+ "step": 810
581
+ },
582
+ {
583
+ "loss": 0.9731,
584
+ "grad_norm": 0.15407244861125946,
585
+ "learning_rate": 3.784834427471408e-05,
586
+ "epoch": 0.7288888888888889,
587
+ "step": 820
588
+ },
589
+ {
590
+ "loss": 1.0992,
591
+ "grad_norm": 0.11977162212133408,
592
+ "learning_rate": 3.557113803200537e-05,
593
+ "epoch": 0.7377777777777778,
594
+ "step": 830
595
+ },
596
+ {
597
+ "loss": 1.0719,
598
+ "grad_norm": 0.12586627900600433,
599
+ "learning_rate": 3.3349676848946345e-05,
600
+ "epoch": 0.7466666666666667,
601
+ "step": 840
602
+ },
603
+ {
604
+ "loss": 1.0736,
605
+ "grad_norm": 0.14590239524841309,
606
+ "learning_rate": 3.118588277541312e-05,
607
+ "epoch": 0.7555555555555555,
608
+ "step": 850
609
+ },
610
+ {
611
+ "loss": 1.0511,
612
+ "grad_norm": 0.14116385579109192,
613
+ "learning_rate": 2.9081627966617096e-05,
614
+ "epoch": 0.7644444444444445,
615
+ "step": 860
616
+ },
617
+ {
618
+ "loss": 0.9715,
619
+ "grad_norm": 0.12606090307235718,
620
+ "learning_rate": 2.7038733063281174e-05,
621
+ "epoch": 0.7733333333333333,
622
+ "step": 870
623
+ },
624
+ {
625
+ "loss": 1.0455,
626
+ "grad_norm": 0.12883330881595612,
627
+ "learning_rate": 2.5058965616387498e-05,
628
+ "epoch": 0.7822222222222223,
629
+ "step": 880
630
+ },
631
+ {
632
+ "loss": 1.0763,
633
+ "grad_norm": 0.15165486931800842,
634
+ "learning_rate": 2.3144038557858916e-05,
635
+ "epoch": 0.7911111111111111,
636
+ "step": 890
637
+ },
638
+ {
639
+ "loss": 1.0576,
640
+ "grad_norm": 0.13923071324825287,
641
+ "learning_rate": 2.1295608718498284e-05,
642
+ "epoch": 0.8,
643
+ "step": 900
644
+ },
645
+ {
646
+ "loss": 0.9802,
647
+ "grad_norm": 0.15918999910354614,
648
+ "learning_rate": 1.9515275394467446e-05,
649
+ "epoch": 0.8088888888888889,
650
+ "step": 910
651
+ },
652
+ {
653
+ "loss": 1.0506,
654
+ "grad_norm": 0.1284029185771942,
655
+ "learning_rate": 1.7804578963545994e-05,
656
+ "epoch": 0.8177777777777778,
657
+ "step": 920
658
+ },
659
+ {
660
+ "loss": 1.0801,
661
+ "grad_norm": 0.14188328385353088,
662
+ "learning_rate": 1.6164999552367765e-05,
663
+ "epoch": 0.8266666666666667,
664
+ "step": 930
665
+ },
666
+ {
667
+ "loss": 1.0663,
668
+ "grad_norm": 0.13663959503173828,
669
+ "learning_rate": 1.4597955755787373e-05,
670
+ "epoch": 0.8355555555555556,
671
+ "step": 940
672
+ },
673
+ {
674
+ "loss": 1.0464,
675
+ "grad_norm": 0.12637336552143097,
676
+ "learning_rate": 1.3104803409485356e-05,
677
+ "epoch": 0.8444444444444444,
678
+ "step": 950
679
+ },
680
+ {
681
+ "loss": 1.0779,
682
+ "grad_norm": 0.12190049886703491,
683
+ "learning_rate": 1.1686834416873815e-05,
684
+ "epoch": 0.8533333333333334,
685
+ "step": 960
686
+ },
687
+ {
688
+ "loss": 1.0832,
689
+ "grad_norm": 0.14396388828754425,
690
+ "learning_rate": 1.0345275631317163e-05,
691
+ "epoch": 0.8622222222222222,
692
+ "step": 970
693
+ },
694
+ {
695
+ "loss": 1.0358,
696
+ "grad_norm": 0.14128635823726654,
697
+ "learning_rate": 9.081287794635774e-06,
698
+ "epoch": 0.8711111111111111,
699
+ "step": 980
700
+ },
701
+ {
702
+ "loss": 1.0186,
703
+ "grad_norm": 0.12689436972141266,
704
+ "learning_rate": 7.895964532810317e-06,
705
+ "epoch": 0.88,
706
+ "step": 990
707
+ },
708
+ {
709
+ "loss": 1.0633,
710
+ "grad_norm": 0.13579504191875458,
711
+ "learning_rate": 6.7903314097560454e-06,
712
+ "epoch": 0.8888888888888888,
713
+ "step": 1000
714
+ },
715
+ {
716
+ "loss": 1.0574,
717
+ "grad_norm": 0.16054902970790863,
718
+ "learning_rate": 5.765345039985648e-06,
719
+ "epoch": 0.8977777777777778,
720
+ "step": 1010
721
+ },
722
+ {
723
+ "loss": 1.074,
724
+ "grad_norm": 0.1411615014076233,
725
+ "learning_rate": 4.821892260928451e-06,
726
+ "epoch": 0.9066666666666666,
727
+ "step": 1020
728
+ },
729
+ {
730
+ "loss": 1.0644,
731
+ "grad_norm": 0.13848498463630676,
732
+ "learning_rate": 3.960789365622075e-06,
733
+ "epoch": 0.9155555555555556,
734
+ "step": 1030
735
+ },
736
+ {
737
+ "loss": 1.0546,
738
+ "grad_norm": 0.13058850169181824,
739
+ "learning_rate": 3.1827813964403484e-06,
740
+ "epoch": 0.9244444444444444,
741
+ "step": 1040
742
+ },
743
+ {
744
+ "loss": 0.9995,
745
+ "grad_norm": 0.13550138473510742,
746
+ "learning_rate": 2.4885415004686665e-06,
747
+ "epoch": 0.9333333333333333,
748
+ "step": 1050
749
+ },
750
+ {
751
+ "loss": 1.0227,
752
+ "grad_norm": 0.17298896610736847,
753
+ "learning_rate": 1.8786703470845547e-06,
754
+ "epoch": 0.9422222222222222,
755
+ "step": 1060
756
+ },
757
+ {
758
+ "loss": 1.0634,
759
+ "grad_norm": 0.11537665873765945,
760
+ "learning_rate": 1.3536956082472074e-06,
761
+ "epoch": 0.9511111111111111,
762
+ "step": 1070
763
+ },
764
+ {
765
+ "loss": 1.0009,
766
+ "grad_norm": 0.15022173523902893,
767
+ "learning_rate": 9.140715019458457e-07,
768
+ "epoch": 0.96,
769
+ "step": 1080
770
+ },
771
+ {
772
+ "loss": 1.0038,
773
+ "grad_norm": 0.13574285805225372,
774
+ "learning_rate": 5.60178399201805e-07,
775
+ "epoch": 0.9688888888888889,
776
+ "step": 1090
777
+ },
778
+ {
779
+ "loss": 1.059,
780
+ "grad_norm": 0.1271033138036728,
781
+ "learning_rate": 2.923224949643477e-07,
782
+ "epoch": 0.9777777777777777,
783
+ "step": 1100
784
+ },
785
+ {
786
+ "loss": 1.0386,
787
+ "grad_norm": 0.15312351286411285,
788
+ "learning_rate": 1.1073554318509205e-07,
789
+ "epoch": 0.9866666666666667,
790
+ "step": 1110
791
+ },
792
+ {
793
+ "loss": 1.0199,
794
+ "grad_norm": 0.13344977796077728,
795
+ "learning_rate": 1.5574656300143542e-08,
796
+ "epoch": 0.9955555555555555,
797
+ "step": 1120
798
+ },
799
+ {
800
+ "train_runtime": 13570.4962,
801
+ "train_samples_per_second": 1.326,
802
+ "train_steps_per_second": 0.083,
803
+ "total_flos": 3.140573201726177e+17,
804
+ "train_loss": 1.0729037674797905,
805
+ "epoch": 1.0,
806
+ "step": 1125
807
+ }
808
+ ]
809
+ }