fguryel commited on
Commit
5cc4382
·
verified ·
1 Parent(s): 157b0f6

Upload folder using huggingface_hub

Browse files
Files changed (4) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. scheduler.pt +1 -1
  4. trainer_state.json +703 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bd9975e658d1a3cb8a16d3eeb673d8f1dad7c0a306c06aabe2abedb6a0bc7918
3
  size 2123042352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8fb49ede251228dcb0b8261efcdfa84f3f864a3e6875cdd344469187e6108959
3
  size 2123042352
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7095af96feb354e5d0415293e80691dfd3e4c5c5a55c3338cf50a48802da2b51
3
  size 4246317377
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e51fed16ec147ddedc59a297f257364173675fec3263af1f9737562ea8acee0a
3
  size 4246317377
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:64c4b0d5cb6cf24122251367184f8f9031ae6b46bed3f83bead937e7d47e7b6b
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:992403723697967924269ce9a55a5e4d4fece1b138effdd700fb828d1e9c617e
3
  size 1465
trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.13540350243726304,
6
  "eval_steps": 500,
7
- "global_step": 15000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2108,6 +2108,706 @@
2108
  "learning_rate": 4.3230276223144975e-05,
2109
  "loss": 4.5361,
2110
  "step": 15000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2111
  }
2112
  ],
2113
  "logging_steps": 50,
@@ -2127,7 +2827,7 @@
2127
  "attributes": {}
2128
  }
2129
  },
2130
- "total_flos": 1.1108628148872192e+17,
2131
  "train_batch_size": 1,
2132
  "trial_name": null,
2133
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.18053800324968405,
6
  "eval_steps": 500,
7
+ "global_step": 20000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2108
  "learning_rate": 4.3230276223144975e-05,
2109
  "loss": 4.5361,
2110
  "step": 15000
2111
+ },
2112
+ {
2113
+ "epoch": 0.13585484744538726,
2114
+ "grad_norm": 3.28633975982666,
2115
+ "learning_rate": 4.320770897273877e-05,
2116
+ "loss": 4.5367,
2117
+ "step": 15050
2118
+ },
2119
+ {
2120
+ "epoch": 0.13630619245351147,
2121
+ "grad_norm": 3.2945947647094727,
2122
+ "learning_rate": 4.318514172233255e-05,
2123
+ "loss": 4.5113,
2124
+ "step": 15100
2125
+ },
2126
+ {
2127
+ "epoch": 0.1367575374616357,
2128
+ "grad_norm": 5.111336708068848,
2129
+ "learning_rate": 4.3162574471926346e-05,
2130
+ "loss": 4.5238,
2131
+ "step": 15150
2132
+ },
2133
+ {
2134
+ "epoch": 0.13720888246975987,
2135
+ "grad_norm": 2.328876256942749,
2136
+ "learning_rate": 4.314000722152013e-05,
2137
+ "loss": 4.5512,
2138
+ "step": 15200
2139
+ },
2140
+ {
2141
+ "epoch": 0.1376602274778841,
2142
+ "grad_norm": 3.703890323638916,
2143
+ "learning_rate": 4.311743997111392e-05,
2144
+ "loss": 4.5192,
2145
+ "step": 15250
2146
+ },
2147
+ {
2148
+ "epoch": 0.1381115724860083,
2149
+ "grad_norm": 2.8396573066711426,
2150
+ "learning_rate": 4.309487272070771e-05,
2151
+ "loss": 4.5641,
2152
+ "step": 15300
2153
+ },
2154
+ {
2155
+ "epoch": 0.13856291749413252,
2156
+ "grad_norm": 3.3222029209136963,
2157
+ "learning_rate": 4.3072305470301496e-05,
2158
+ "loss": 4.5332,
2159
+ "step": 15350
2160
+ },
2161
+ {
2162
+ "epoch": 0.13901426250225674,
2163
+ "grad_norm": 3.652606725692749,
2164
+ "learning_rate": 4.304973821989529e-05,
2165
+ "loss": 4.5056,
2166
+ "step": 15400
2167
+ },
2168
+ {
2169
+ "epoch": 0.13946560751038092,
2170
+ "grad_norm": 7.847742080688477,
2171
+ "learning_rate": 4.3027170969489075e-05,
2172
+ "loss": 4.4884,
2173
+ "step": 15450
2174
+ },
2175
+ {
2176
+ "epoch": 0.13991695251850514,
2177
+ "grad_norm": 3.6494662761688232,
2178
+ "learning_rate": 4.300460371908287e-05,
2179
+ "loss": 4.4938,
2180
+ "step": 15500
2181
+ },
2182
+ {
2183
+ "epoch": 0.14036829752662935,
2184
+ "grad_norm": 4.544933795928955,
2185
+ "learning_rate": 4.298203646867665e-05,
2186
+ "loss": 4.5045,
2187
+ "step": 15550
2188
+ },
2189
+ {
2190
+ "epoch": 0.14081964253475357,
2191
+ "grad_norm": 3.429764986038208,
2192
+ "learning_rate": 4.2959469218270446e-05,
2193
+ "loss": 4.5033,
2194
+ "step": 15600
2195
+ },
2196
+ {
2197
+ "epoch": 0.14127098754287779,
2198
+ "grad_norm": 3.790017604827881,
2199
+ "learning_rate": 4.293690196786423e-05,
2200
+ "loss": 4.4775,
2201
+ "step": 15650
2202
+ },
2203
+ {
2204
+ "epoch": 0.14172233255100197,
2205
+ "grad_norm": 3.4987452030181885,
2206
+ "learning_rate": 4.2914334717458024e-05,
2207
+ "loss": 4.5988,
2208
+ "step": 15700
2209
+ },
2210
+ {
2211
+ "epoch": 0.1421736775591262,
2212
+ "grad_norm": 2.5895438194274902,
2213
+ "learning_rate": 4.289176746705182e-05,
2214
+ "loss": 4.5285,
2215
+ "step": 15750
2216
+ },
2217
+ {
2218
+ "epoch": 0.1426250225672504,
2219
+ "grad_norm": 4.709017276763916,
2220
+ "learning_rate": 4.28692002166456e-05,
2221
+ "loss": 4.4137,
2222
+ "step": 15800
2223
+ },
2224
+ {
2225
+ "epoch": 0.14307636757537462,
2226
+ "grad_norm": 3.9760525226593018,
2227
+ "learning_rate": 4.2846632966239395e-05,
2228
+ "loss": 4.5278,
2229
+ "step": 15850
2230
+ },
2231
+ {
2232
+ "epoch": 0.14352771258349883,
2233
+ "grad_norm": 4.445188045501709,
2234
+ "learning_rate": 4.282406571583318e-05,
2235
+ "loss": 4.5362,
2236
+ "step": 15900
2237
+ },
2238
+ {
2239
+ "epoch": 0.14397905759162305,
2240
+ "grad_norm": 4.021897792816162,
2241
+ "learning_rate": 4.2801498465426974e-05,
2242
+ "loss": 4.458,
2243
+ "step": 15950
2244
+ },
2245
+ {
2246
+ "epoch": 0.14443040259974724,
2247
+ "grad_norm": 4.263660907745361,
2248
+ "learning_rate": 4.277893121502076e-05,
2249
+ "loss": 4.4782,
2250
+ "step": 16000
2251
+ },
2252
+ {
2253
+ "epoch": 0.14488174760787145,
2254
+ "grad_norm": 3.184115171432495,
2255
+ "learning_rate": 4.275636396461455e-05,
2256
+ "loss": 4.4877,
2257
+ "step": 16050
2258
+ },
2259
+ {
2260
+ "epoch": 0.14533309261599567,
2261
+ "grad_norm": 3.6419224739074707,
2262
+ "learning_rate": 4.273379671420834e-05,
2263
+ "loss": 4.5329,
2264
+ "step": 16100
2265
+ },
2266
+ {
2267
+ "epoch": 0.14578443762411988,
2268
+ "grad_norm": 5.209333896636963,
2269
+ "learning_rate": 4.271122946380213e-05,
2270
+ "loss": 4.5252,
2271
+ "step": 16150
2272
+ },
2273
+ {
2274
+ "epoch": 0.1462357826322441,
2275
+ "grad_norm": 2.9980499744415283,
2276
+ "learning_rate": 4.2688662213395924e-05,
2277
+ "loss": 4.4491,
2278
+ "step": 16200
2279
+ },
2280
+ {
2281
+ "epoch": 0.1466871276403683,
2282
+ "grad_norm": 2.8836166858673096,
2283
+ "learning_rate": 4.266609496298971e-05,
2284
+ "loss": 4.524,
2285
+ "step": 16250
2286
+ },
2287
+ {
2288
+ "epoch": 0.1471384726484925,
2289
+ "grad_norm": 3.24406099319458,
2290
+ "learning_rate": 4.26435277125835e-05,
2291
+ "loss": 4.5629,
2292
+ "step": 16300
2293
+ },
2294
+ {
2295
+ "epoch": 0.14758981765661672,
2296
+ "grad_norm": 3.78409743309021,
2297
+ "learning_rate": 4.262096046217729e-05,
2298
+ "loss": 4.5051,
2299
+ "step": 16350
2300
+ },
2301
+ {
2302
+ "epoch": 0.14804116266474093,
2303
+ "grad_norm": 3.738863229751587,
2304
+ "learning_rate": 4.259839321177108e-05,
2305
+ "loss": 4.3699,
2306
+ "step": 16400
2307
+ },
2308
+ {
2309
+ "epoch": 0.14849250767286515,
2310
+ "grad_norm": 3.1949925422668457,
2311
+ "learning_rate": 4.2575825961364867e-05,
2312
+ "loss": 4.4681,
2313
+ "step": 16450
2314
+ },
2315
+ {
2316
+ "epoch": 0.14894385268098934,
2317
+ "grad_norm": 3.774017810821533,
2318
+ "learning_rate": 4.255325871095866e-05,
2319
+ "loss": 4.4382,
2320
+ "step": 16500
2321
+ },
2322
+ {
2323
+ "epoch": 0.14939519768911355,
2324
+ "grad_norm": 3.903379201889038,
2325
+ "learning_rate": 4.2530691460552445e-05,
2326
+ "loss": 4.4229,
2327
+ "step": 16550
2328
+ },
2329
+ {
2330
+ "epoch": 0.14984654269723777,
2331
+ "grad_norm": 2.8182575702667236,
2332
+ "learning_rate": 4.250812421014624e-05,
2333
+ "loss": 4.4755,
2334
+ "step": 16600
2335
+ },
2336
+ {
2337
+ "epoch": 0.15029788770536198,
2338
+ "grad_norm": 3.8375935554504395,
2339
+ "learning_rate": 4.2485556959740024e-05,
2340
+ "loss": 4.5113,
2341
+ "step": 16650
2342
+ },
2343
+ {
2344
+ "epoch": 0.1507492327134862,
2345
+ "grad_norm": 3.6683831214904785,
2346
+ "learning_rate": 4.2462989709333816e-05,
2347
+ "loss": 4.5386,
2348
+ "step": 16700
2349
+ },
2350
+ {
2351
+ "epoch": 0.15120057772161039,
2352
+ "grad_norm": 4.0321431159973145,
2353
+ "learning_rate": 4.244042245892761e-05,
2354
+ "loss": 4.4977,
2355
+ "step": 16750
2356
+ },
2357
+ {
2358
+ "epoch": 0.1516519227297346,
2359
+ "grad_norm": 3.8294458389282227,
2360
+ "learning_rate": 4.2417855208521395e-05,
2361
+ "loss": 4.4926,
2362
+ "step": 16800
2363
+ },
2364
+ {
2365
+ "epoch": 0.15210326773785882,
2366
+ "grad_norm": 3.6209237575531006,
2367
+ "learning_rate": 4.239528795811519e-05,
2368
+ "loss": 4.5028,
2369
+ "step": 16850
2370
+ },
2371
+ {
2372
+ "epoch": 0.15255461274598303,
2373
+ "grad_norm": 3.8138227462768555,
2374
+ "learning_rate": 4.237272070770897e-05,
2375
+ "loss": 4.4808,
2376
+ "step": 16900
2377
+ },
2378
+ {
2379
+ "epoch": 0.15300595775410725,
2380
+ "grad_norm": 4.5005927085876465,
2381
+ "learning_rate": 4.2350153457302766e-05,
2382
+ "loss": 4.4702,
2383
+ "step": 16950
2384
+ },
2385
+ {
2386
+ "epoch": 0.15345730276223146,
2387
+ "grad_norm": 3.48544979095459,
2388
+ "learning_rate": 4.232758620689655e-05,
2389
+ "loss": 4.4993,
2390
+ "step": 17000
2391
+ },
2392
+ {
2393
+ "epoch": 0.15390864777035565,
2394
+ "grad_norm": 3.5820982456207275,
2395
+ "learning_rate": 4.2305018956490344e-05,
2396
+ "loss": 4.5032,
2397
+ "step": 17050
2398
+ },
2399
+ {
2400
+ "epoch": 0.15435999277847987,
2401
+ "grad_norm": 4.8123555183410645,
2402
+ "learning_rate": 4.228245170608413e-05,
2403
+ "loss": 4.5196,
2404
+ "step": 17100
2405
+ },
2406
+ {
2407
+ "epoch": 0.15481133778660408,
2408
+ "grad_norm": 3.8024814128875732,
2409
+ "learning_rate": 4.225988445567792e-05,
2410
+ "loss": 4.5327,
2411
+ "step": 17150
2412
+ },
2413
+ {
2414
+ "epoch": 0.1552626827947283,
2415
+ "grad_norm": 5.407778263092041,
2416
+ "learning_rate": 4.223731720527171e-05,
2417
+ "loss": 4.5355,
2418
+ "step": 17200
2419
+ },
2420
+ {
2421
+ "epoch": 0.1557140278028525,
2422
+ "grad_norm": 3.6917614936828613,
2423
+ "learning_rate": 4.22147499548655e-05,
2424
+ "loss": 4.4072,
2425
+ "step": 17250
2426
+ },
2427
+ {
2428
+ "epoch": 0.1561653728109767,
2429
+ "grad_norm": 3.9421164989471436,
2430
+ "learning_rate": 4.2192182704459294e-05,
2431
+ "loss": 4.4812,
2432
+ "step": 17300
2433
+ },
2434
+ {
2435
+ "epoch": 0.15661671781910091,
2436
+ "grad_norm": 4.172101974487305,
2437
+ "learning_rate": 4.216961545405308e-05,
2438
+ "loss": 4.4737,
2439
+ "step": 17350
2440
+ },
2441
+ {
2442
+ "epoch": 0.15706806282722513,
2443
+ "grad_norm": 3.308185577392578,
2444
+ "learning_rate": 4.214704820364687e-05,
2445
+ "loss": 4.5789,
2446
+ "step": 17400
2447
+ },
2448
+ {
2449
+ "epoch": 0.15751940783534935,
2450
+ "grad_norm": 4.956492900848389,
2451
+ "learning_rate": 4.212448095324066e-05,
2452
+ "loss": 4.565,
2453
+ "step": 17450
2454
+ },
2455
+ {
2456
+ "epoch": 0.15797075284347356,
2457
+ "grad_norm": 3.411794900894165,
2458
+ "learning_rate": 4.210191370283445e-05,
2459
+ "loss": 4.5473,
2460
+ "step": 17500
2461
+ },
2462
+ {
2463
+ "epoch": 0.15842209785159775,
2464
+ "grad_norm": 4.067993640899658,
2465
+ "learning_rate": 4.207934645242824e-05,
2466
+ "loss": 4.4836,
2467
+ "step": 17550
2468
+ },
2469
+ {
2470
+ "epoch": 0.15887344285972196,
2471
+ "grad_norm": 2.9520280361175537,
2472
+ "learning_rate": 4.205677920202203e-05,
2473
+ "loss": 4.4962,
2474
+ "step": 17600
2475
+ },
2476
+ {
2477
+ "epoch": 0.15932478786784618,
2478
+ "grad_norm": 4.387596130371094,
2479
+ "learning_rate": 4.2034211951615815e-05,
2480
+ "loss": 4.513,
2481
+ "step": 17650
2482
+ },
2483
+ {
2484
+ "epoch": 0.1597761328759704,
2485
+ "grad_norm": 3.250239849090576,
2486
+ "learning_rate": 4.201164470120961e-05,
2487
+ "loss": 4.5496,
2488
+ "step": 17700
2489
+ },
2490
+ {
2491
+ "epoch": 0.1602274778840946,
2492
+ "grad_norm": 3.867882013320923,
2493
+ "learning_rate": 4.1989077450803394e-05,
2494
+ "loss": 4.5849,
2495
+ "step": 17750
2496
+ },
2497
+ {
2498
+ "epoch": 0.16067882289221883,
2499
+ "grad_norm": 3.7500853538513184,
2500
+ "learning_rate": 4.196651020039719e-05,
2501
+ "loss": 4.4585,
2502
+ "step": 17800
2503
+ },
2504
+ {
2505
+ "epoch": 0.161130167900343,
2506
+ "grad_norm": 3.8945131301879883,
2507
+ "learning_rate": 4.194394294999098e-05,
2508
+ "loss": 4.4149,
2509
+ "step": 17850
2510
+ },
2511
+ {
2512
+ "epoch": 0.16158151290846723,
2513
+ "grad_norm": 8.667535781860352,
2514
+ "learning_rate": 4.1921375699584765e-05,
2515
+ "loss": 4.44,
2516
+ "step": 17900
2517
+ },
2518
+ {
2519
+ "epoch": 0.16203285791659144,
2520
+ "grad_norm": 4.284276485443115,
2521
+ "learning_rate": 4.189880844917856e-05,
2522
+ "loss": 4.4561,
2523
+ "step": 17950
2524
+ },
2525
+ {
2526
+ "epoch": 0.16248420292471566,
2527
+ "grad_norm": 2.9393467903137207,
2528
+ "learning_rate": 4.1876241198772344e-05,
2529
+ "loss": 4.5887,
2530
+ "step": 18000
2531
+ },
2532
+ {
2533
+ "epoch": 0.16293554793283987,
2534
+ "grad_norm": 3.012742519378662,
2535
+ "learning_rate": 4.1853673948366136e-05,
2536
+ "loss": 4.4513,
2537
+ "step": 18050
2538
+ },
2539
+ {
2540
+ "epoch": 0.16338689294096406,
2541
+ "grad_norm": 5.467082500457764,
2542
+ "learning_rate": 4.183110669795992e-05,
2543
+ "loss": 4.5611,
2544
+ "step": 18100
2545
+ },
2546
+ {
2547
+ "epoch": 0.16383823794908828,
2548
+ "grad_norm": 3.46402907371521,
2549
+ "learning_rate": 4.1808539447553715e-05,
2550
+ "loss": 4.5312,
2551
+ "step": 18150
2552
+ },
2553
+ {
2554
+ "epoch": 0.1642895829572125,
2555
+ "grad_norm": 3.8491625785827637,
2556
+ "learning_rate": 4.17859721971475e-05,
2557
+ "loss": 4.4916,
2558
+ "step": 18200
2559
+ },
2560
+ {
2561
+ "epoch": 0.1647409279653367,
2562
+ "grad_norm": 5.8692450523376465,
2563
+ "learning_rate": 4.176340494674129e-05,
2564
+ "loss": 4.4869,
2565
+ "step": 18250
2566
+ },
2567
+ {
2568
+ "epoch": 0.16519227297346092,
2569
+ "grad_norm": 3.2287988662719727,
2570
+ "learning_rate": 4.174083769633508e-05,
2571
+ "loss": 4.4431,
2572
+ "step": 18300
2573
+ },
2574
+ {
2575
+ "epoch": 0.1656436179815851,
2576
+ "grad_norm": 4.350259304046631,
2577
+ "learning_rate": 4.171827044592887e-05,
2578
+ "loss": 4.4968,
2579
+ "step": 18350
2580
+ },
2581
+ {
2582
+ "epoch": 0.16609496298970933,
2583
+ "grad_norm": 3.7243659496307373,
2584
+ "learning_rate": 4.1695703195522664e-05,
2585
+ "loss": 4.4738,
2586
+ "step": 18400
2587
+ },
2588
+ {
2589
+ "epoch": 0.16654630799783354,
2590
+ "grad_norm": 4.834224224090576,
2591
+ "learning_rate": 4.167313594511645e-05,
2592
+ "loss": 4.5754,
2593
+ "step": 18450
2594
+ },
2595
+ {
2596
+ "epoch": 0.16699765300595776,
2597
+ "grad_norm": 6.014001846313477,
2598
+ "learning_rate": 4.165056869471024e-05,
2599
+ "loss": 4.5449,
2600
+ "step": 18500
2601
+ },
2602
+ {
2603
+ "epoch": 0.16744899801408197,
2604
+ "grad_norm": 3.7950220108032227,
2605
+ "learning_rate": 4.162800144430403e-05,
2606
+ "loss": 4.4007,
2607
+ "step": 18550
2608
+ },
2609
+ {
2610
+ "epoch": 0.16790034302220616,
2611
+ "grad_norm": 4.019992828369141,
2612
+ "learning_rate": 4.160543419389782e-05,
2613
+ "loss": 4.4231,
2614
+ "step": 18600
2615
+ },
2616
+ {
2617
+ "epoch": 0.16835168803033038,
2618
+ "grad_norm": 4.363696575164795,
2619
+ "learning_rate": 4.158286694349161e-05,
2620
+ "loss": 4.4445,
2621
+ "step": 18650
2622
+ },
2623
+ {
2624
+ "epoch": 0.1688030330384546,
2625
+ "grad_norm": 4.168088912963867,
2626
+ "learning_rate": 4.15602996930854e-05,
2627
+ "loss": 4.5064,
2628
+ "step": 18700
2629
+ },
2630
+ {
2631
+ "epoch": 0.1692543780465788,
2632
+ "grad_norm": 3.3574249744415283,
2633
+ "learning_rate": 4.1537732442679186e-05,
2634
+ "loss": 4.5161,
2635
+ "step": 18750
2636
+ },
2637
+ {
2638
+ "epoch": 0.16970572305470302,
2639
+ "grad_norm": 4.255382061004639,
2640
+ "learning_rate": 4.151516519227298e-05,
2641
+ "loss": 4.4809,
2642
+ "step": 18800
2643
+ },
2644
+ {
2645
+ "epoch": 0.17015706806282724,
2646
+ "grad_norm": 3.896949291229248,
2647
+ "learning_rate": 4.1492597941866764e-05,
2648
+ "loss": 4.488,
2649
+ "step": 18850
2650
+ },
2651
+ {
2652
+ "epoch": 0.17060841307095143,
2653
+ "grad_norm": 4.572742938995361,
2654
+ "learning_rate": 4.147003069146056e-05,
2655
+ "loss": 4.5692,
2656
+ "step": 18900
2657
+ },
2658
+ {
2659
+ "epoch": 0.17105975807907564,
2660
+ "grad_norm": 4.25124454498291,
2661
+ "learning_rate": 4.144746344105434e-05,
2662
+ "loss": 4.5341,
2663
+ "step": 18950
2664
+ },
2665
+ {
2666
+ "epoch": 0.17151110308719986,
2667
+ "grad_norm": 3.2986035346984863,
2668
+ "learning_rate": 4.1424896190648136e-05,
2669
+ "loss": 4.4489,
2670
+ "step": 19000
2671
+ },
2672
+ {
2673
+ "epoch": 0.17196244809532407,
2674
+ "grad_norm": 3.633592367172241,
2675
+ "learning_rate": 4.140232894024192e-05,
2676
+ "loss": 4.5124,
2677
+ "step": 19050
2678
+ },
2679
+ {
2680
+ "epoch": 0.1724137931034483,
2681
+ "grad_norm": 3.3687500953674316,
2682
+ "learning_rate": 4.1379761689835714e-05,
2683
+ "loss": 4.5165,
2684
+ "step": 19100
2685
+ },
2686
+ {
2687
+ "epoch": 0.17286513811157247,
2688
+ "grad_norm": 4.958398342132568,
2689
+ "learning_rate": 4.13571944394295e-05,
2690
+ "loss": 4.5043,
2691
+ "step": 19150
2692
+ },
2693
+ {
2694
+ "epoch": 0.1733164831196967,
2695
+ "grad_norm": 4.127295017242432,
2696
+ "learning_rate": 4.133462718902329e-05,
2697
+ "loss": 4.4783,
2698
+ "step": 19200
2699
+ },
2700
+ {
2701
+ "epoch": 0.1737678281278209,
2702
+ "grad_norm": 3.3556175231933594,
2703
+ "learning_rate": 4.131205993861708e-05,
2704
+ "loss": 4.4185,
2705
+ "step": 19250
2706
+ },
2707
+ {
2708
+ "epoch": 0.17421917313594512,
2709
+ "grad_norm": 4.382410049438477,
2710
+ "learning_rate": 4.128949268821087e-05,
2711
+ "loss": 4.5009,
2712
+ "step": 19300
2713
+ },
2714
+ {
2715
+ "epoch": 0.17467051814406934,
2716
+ "grad_norm": 3.7760777473449707,
2717
+ "learning_rate": 4.126692543780466e-05,
2718
+ "loss": 4.3572,
2719
+ "step": 19350
2720
+ },
2721
+ {
2722
+ "epoch": 0.17512186315219352,
2723
+ "grad_norm": 4.594768524169922,
2724
+ "learning_rate": 4.124435818739845e-05,
2725
+ "loss": 4.4793,
2726
+ "step": 19400
2727
+ },
2728
+ {
2729
+ "epoch": 0.17557320816031774,
2730
+ "grad_norm": 4.605646133422852,
2731
+ "learning_rate": 4.1221790936992235e-05,
2732
+ "loss": 4.4462,
2733
+ "step": 19450
2734
+ },
2735
+ {
2736
+ "epoch": 0.17602455316844196,
2737
+ "grad_norm": 3.358002185821533,
2738
+ "learning_rate": 4.119922368658603e-05,
2739
+ "loss": 4.4986,
2740
+ "step": 19500
2741
+ },
2742
+ {
2743
+ "epoch": 0.17647589817656617,
2744
+ "grad_norm": 3.7644100189208984,
2745
+ "learning_rate": 4.1176656436179814e-05,
2746
+ "loss": 4.5314,
2747
+ "step": 19550
2748
+ },
2749
+ {
2750
+ "epoch": 0.17692724318469039,
2751
+ "grad_norm": 4.109899044036865,
2752
+ "learning_rate": 4.115408918577361e-05,
2753
+ "loss": 4.5382,
2754
+ "step": 19600
2755
+ },
2756
+ {
2757
+ "epoch": 0.1773785881928146,
2758
+ "grad_norm": 8.232100486755371,
2759
+ "learning_rate": 4.113152193536739e-05,
2760
+ "loss": 4.5095,
2761
+ "step": 19650
2762
+ },
2763
+ {
2764
+ "epoch": 0.1778299332009388,
2765
+ "grad_norm": 3.442411422729492,
2766
+ "learning_rate": 4.1108954684961185e-05,
2767
+ "loss": 4.5861,
2768
+ "step": 19700
2769
+ },
2770
+ {
2771
+ "epoch": 0.178281278209063,
2772
+ "grad_norm": 2.404611825942993,
2773
+ "learning_rate": 4.108638743455497e-05,
2774
+ "loss": 4.4563,
2775
+ "step": 19750
2776
+ },
2777
+ {
2778
+ "epoch": 0.17873262321718722,
2779
+ "grad_norm": 3.3895816802978516,
2780
+ "learning_rate": 4.1063820184148764e-05,
2781
+ "loss": 4.4434,
2782
+ "step": 19800
2783
+ },
2784
+ {
2785
+ "epoch": 0.17918396822531144,
2786
+ "grad_norm": 2.9194042682647705,
2787
+ "learning_rate": 4.104125293374255e-05,
2788
+ "loss": 4.5463,
2789
+ "step": 19850
2790
+ },
2791
+ {
2792
+ "epoch": 0.17963531323343565,
2793
+ "grad_norm": 2.6337718963623047,
2794
+ "learning_rate": 4.101868568333634e-05,
2795
+ "loss": 4.4246,
2796
+ "step": 19900
2797
+ },
2798
+ {
2799
+ "epoch": 0.18008665824155984,
2800
+ "grad_norm": 5.921742916107178,
2801
+ "learning_rate": 4.0996118432930135e-05,
2802
+ "loss": 4.3955,
2803
+ "step": 19950
2804
+ },
2805
+ {
2806
+ "epoch": 0.18053800324968405,
2807
+ "grad_norm": 3.9008045196533203,
2808
+ "learning_rate": 4.097355118252392e-05,
2809
+ "loss": 4.6028,
2810
+ "step": 20000
2811
  }
2812
  ],
2813
  "logging_steps": 50,
 
2827
  "attributes": {}
2828
  }
2829
  },
2830
+ "total_flos": 1.4772471541951488e+17,
2831
  "train_batch_size": 1,
2832
  "trial_name": null,
2833
  "trial_params": null