Ba2han commited on
Commit
d4bd2e0
·
1 Parent(s): 850e8e2

Training in progress, step 900, checkpoint

Browse files
Files changed (1) hide show
  1. last-checkpoint/trainer_state.json +1053 -3
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.05267356041033252,
6
  "eval_steps": 957,
7
- "global_step": 600,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2108,6 +2108,1056 @@
2108
  "learning_rate": 0.005,
2109
  "loss": 2.892770528793335,
2110
  "step": 600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2111
  }
2112
  ],
2113
  "logging_steps": 2,
@@ -2127,7 +3177,7 @@
2127
  "attributes": {}
2128
  }
2129
  },
2130
- "total_flos": 1.0142157599816058e+18,
2131
  "train_batch_size": 2,
2132
  "trial_name": null,
2133
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.07901034061549879,
6
  "eval_steps": 957,
7
+ "global_step": 900,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2108
  "learning_rate": 0.005,
2109
  "loss": 2.892770528793335,
2110
  "step": 600
2111
+ },
2112
+ {
2113
+ "epoch": 0.05284913894503363,
2114
+ "grad_norm": 0.1474609375,
2115
+ "learning_rate": 0.005,
2116
+ "loss": 2.9107680320739746,
2117
+ "step": 602
2118
+ },
2119
+ {
2120
+ "epoch": 0.05302471747973474,
2121
+ "grad_norm": 0.1728515625,
2122
+ "learning_rate": 0.005,
2123
+ "loss": 2.940669298171997,
2124
+ "step": 604
2125
+ },
2126
+ {
2127
+ "epoch": 0.05320029601443585,
2128
+ "grad_norm": 0.1337890625,
2129
+ "learning_rate": 0.005,
2130
+ "loss": 2.8937621116638184,
2131
+ "step": 606
2132
+ },
2133
+ {
2134
+ "epoch": 0.053375874549136955,
2135
+ "grad_norm": 0.1171875,
2136
+ "learning_rate": 0.005,
2137
+ "loss": 2.9157919883728027,
2138
+ "step": 608
2139
+ },
2140
+ {
2141
+ "epoch": 0.05355145308383807,
2142
+ "grad_norm": 0.1376953125,
2143
+ "learning_rate": 0.005,
2144
+ "loss": 2.9084694385528564,
2145
+ "step": 610
2146
+ },
2147
+ {
2148
+ "epoch": 0.05372703161853917,
2149
+ "grad_norm": 0.1259765625,
2150
+ "learning_rate": 0.005,
2151
+ "loss": 2.89589786529541,
2152
+ "step": 612
2153
+ },
2154
+ {
2155
+ "epoch": 0.05390261015324028,
2156
+ "grad_norm": 0.10546875,
2157
+ "learning_rate": 0.005,
2158
+ "loss": 2.866093397140503,
2159
+ "step": 614
2160
+ },
2161
+ {
2162
+ "epoch": 0.05407818868794139,
2163
+ "grad_norm": 0.1123046875,
2164
+ "learning_rate": 0.005,
2165
+ "loss": 2.8685555458068848,
2166
+ "step": 616
2167
+ },
2168
+ {
2169
+ "epoch": 0.054253767222642496,
2170
+ "grad_norm": 0.1337890625,
2171
+ "learning_rate": 0.005,
2172
+ "loss": 2.934528112411499,
2173
+ "step": 618
2174
+ },
2175
+ {
2176
+ "epoch": 0.05442934575734361,
2177
+ "grad_norm": 0.13671875,
2178
+ "learning_rate": 0.005,
2179
+ "loss": 2.915015459060669,
2180
+ "step": 620
2181
+ },
2182
+ {
2183
+ "epoch": 0.054604924292044714,
2184
+ "grad_norm": 0.130859375,
2185
+ "learning_rate": 0.005,
2186
+ "loss": 2.930428981781006,
2187
+ "step": 622
2188
+ },
2189
+ {
2190
+ "epoch": 0.054780502826745826,
2191
+ "grad_norm": 0.1455078125,
2192
+ "learning_rate": 0.005,
2193
+ "loss": 2.885199546813965,
2194
+ "step": 624
2195
+ },
2196
+ {
2197
+ "epoch": 0.05495608136144693,
2198
+ "grad_norm": 0.14453125,
2199
+ "learning_rate": 0.005,
2200
+ "loss": 2.9132332801818848,
2201
+ "step": 626
2202
+ },
2203
+ {
2204
+ "epoch": 0.05513165989614804,
2205
+ "grad_norm": 0.1220703125,
2206
+ "learning_rate": 0.005,
2207
+ "loss": 2.8978776931762695,
2208
+ "step": 628
2209
+ },
2210
+ {
2211
+ "epoch": 0.05530723843084915,
2212
+ "grad_norm": 0.140625,
2213
+ "learning_rate": 0.005,
2214
+ "loss": 2.8665482997894287,
2215
+ "step": 630
2216
+ },
2217
+ {
2218
+ "epoch": 0.055482816965550255,
2219
+ "grad_norm": 0.1279296875,
2220
+ "learning_rate": 0.005,
2221
+ "loss": 2.8479433059692383,
2222
+ "step": 632
2223
+ },
2224
+ {
2225
+ "epoch": 0.05565839550025137,
2226
+ "grad_norm": 0.1591796875,
2227
+ "learning_rate": 0.005,
2228
+ "loss": 2.902829647064209,
2229
+ "step": 634
2230
+ },
2231
+ {
2232
+ "epoch": 0.05583397403495247,
2233
+ "grad_norm": 0.1376953125,
2234
+ "learning_rate": 0.005,
2235
+ "loss": 2.8622169494628906,
2236
+ "step": 636
2237
+ },
2238
+ {
2239
+ "epoch": 0.056009552569653585,
2240
+ "grad_norm": 0.126953125,
2241
+ "learning_rate": 0.005,
2242
+ "loss": 2.8923892974853516,
2243
+ "step": 638
2244
+ },
2245
+ {
2246
+ "epoch": 0.05618513110435469,
2247
+ "grad_norm": 0.12451171875,
2248
+ "learning_rate": 0.005,
2249
+ "loss": 2.8786332607269287,
2250
+ "step": 640
2251
+ },
2252
+ {
2253
+ "epoch": 0.056360709639055796,
2254
+ "grad_norm": 0.1064453125,
2255
+ "learning_rate": 0.005,
2256
+ "loss": 2.8552439212799072,
2257
+ "step": 642
2258
+ },
2259
+ {
2260
+ "epoch": 0.05653628817375691,
2261
+ "grad_norm": 0.10595703125,
2262
+ "learning_rate": 0.005,
2263
+ "loss": 2.848996877670288,
2264
+ "step": 644
2265
+ },
2266
+ {
2267
+ "epoch": 0.056711866708458014,
2268
+ "grad_norm": 0.11767578125,
2269
+ "learning_rate": 0.005,
2270
+ "loss": 2.9026734828948975,
2271
+ "step": 646
2272
+ },
2273
+ {
2274
+ "epoch": 0.05688744524315913,
2275
+ "grad_norm": 0.12890625,
2276
+ "learning_rate": 0.005,
2277
+ "loss": 2.907194137573242,
2278
+ "step": 648
2279
+ },
2280
+ {
2281
+ "epoch": 0.05706302377786023,
2282
+ "grad_norm": 0.130859375,
2283
+ "learning_rate": 0.005,
2284
+ "loss": 2.885383129119873,
2285
+ "step": 650
2286
+ },
2287
+ {
2288
+ "epoch": 0.057238602312561344,
2289
+ "grad_norm": 0.12353515625,
2290
+ "learning_rate": 0.005,
2291
+ "loss": 2.8656253814697266,
2292
+ "step": 652
2293
+ },
2294
+ {
2295
+ "epoch": 0.05741418084726245,
2296
+ "grad_norm": 0.1259765625,
2297
+ "learning_rate": 0.005,
2298
+ "loss": 2.873291254043579,
2299
+ "step": 654
2300
+ },
2301
+ {
2302
+ "epoch": 0.057589759381963555,
2303
+ "grad_norm": 0.10546875,
2304
+ "learning_rate": 0.005,
2305
+ "loss": 2.8469748497009277,
2306
+ "step": 656
2307
+ },
2308
+ {
2309
+ "epoch": 0.05776533791666467,
2310
+ "grad_norm": 0.1162109375,
2311
+ "learning_rate": 0.005,
2312
+ "loss": 2.8983521461486816,
2313
+ "step": 658
2314
+ },
2315
+ {
2316
+ "epoch": 0.05794091645136577,
2317
+ "grad_norm": 0.099609375,
2318
+ "learning_rate": 0.005,
2319
+ "loss": 2.8409366607666016,
2320
+ "step": 660
2321
+ },
2322
+ {
2323
+ "epoch": 0.058116494986066886,
2324
+ "grad_norm": 0.115234375,
2325
+ "learning_rate": 0.005,
2326
+ "loss": 2.9008703231811523,
2327
+ "step": 662
2328
+ },
2329
+ {
2330
+ "epoch": 0.05829207352076799,
2331
+ "grad_norm": 0.1328125,
2332
+ "learning_rate": 0.005,
2333
+ "loss": 2.853753089904785,
2334
+ "step": 664
2335
+ },
2336
+ {
2337
+ "epoch": 0.058467652055469096,
2338
+ "grad_norm": 0.11376953125,
2339
+ "learning_rate": 0.005,
2340
+ "loss": 2.8707268238067627,
2341
+ "step": 666
2342
+ },
2343
+ {
2344
+ "epoch": 0.05864323059017021,
2345
+ "grad_norm": 0.099609375,
2346
+ "learning_rate": 0.005,
2347
+ "loss": 2.889103889465332,
2348
+ "step": 668
2349
+ },
2350
+ {
2351
+ "epoch": 0.058818809124871314,
2352
+ "grad_norm": 0.09716796875,
2353
+ "learning_rate": 0.005,
2354
+ "loss": 2.8374733924865723,
2355
+ "step": 670
2356
+ },
2357
+ {
2358
+ "epoch": 0.05899438765957243,
2359
+ "grad_norm": 0.109375,
2360
+ "learning_rate": 0.005,
2361
+ "loss": 2.8331263065338135,
2362
+ "step": 672
2363
+ },
2364
+ {
2365
+ "epoch": 0.05916996619427353,
2366
+ "grad_norm": 0.11279296875,
2367
+ "learning_rate": 0.005,
2368
+ "loss": 2.880403757095337,
2369
+ "step": 674
2370
+ },
2371
+ {
2372
+ "epoch": 0.059345544728974645,
2373
+ "grad_norm": 0.1025390625,
2374
+ "learning_rate": 0.005,
2375
+ "loss": 2.8748178482055664,
2376
+ "step": 676
2377
+ },
2378
+ {
2379
+ "epoch": 0.05952112326367575,
2380
+ "grad_norm": 0.09619140625,
2381
+ "learning_rate": 0.005,
2382
+ "loss": 2.8325412273406982,
2383
+ "step": 678
2384
+ },
2385
+ {
2386
+ "epoch": 0.059696701798376856,
2387
+ "grad_norm": 0.0966796875,
2388
+ "learning_rate": 0.005,
2389
+ "loss": 2.826225519180298,
2390
+ "step": 680
2391
+ },
2392
+ {
2393
+ "epoch": 0.05987228033307797,
2394
+ "grad_norm": 0.11767578125,
2395
+ "learning_rate": 0.005,
2396
+ "loss": 2.858710527420044,
2397
+ "step": 682
2398
+ },
2399
+ {
2400
+ "epoch": 0.06004785886777907,
2401
+ "grad_norm": 0.1083984375,
2402
+ "learning_rate": 0.005,
2403
+ "loss": 2.8498644828796387,
2404
+ "step": 684
2405
+ },
2406
+ {
2407
+ "epoch": 0.060223437402480186,
2408
+ "grad_norm": 0.099609375,
2409
+ "learning_rate": 0.005,
2410
+ "loss": 2.8439319133758545,
2411
+ "step": 686
2412
+ },
2413
+ {
2414
+ "epoch": 0.06039901593718129,
2415
+ "grad_norm": 0.0986328125,
2416
+ "learning_rate": 0.005,
2417
+ "loss": 2.816505193710327,
2418
+ "step": 688
2419
+ },
2420
+ {
2421
+ "epoch": 0.060574594471882404,
2422
+ "grad_norm": 0.11181640625,
2423
+ "learning_rate": 0.005,
2424
+ "loss": 2.8512182235717773,
2425
+ "step": 690
2426
+ },
2427
+ {
2428
+ "epoch": 0.06075017300658351,
2429
+ "grad_norm": 0.09619140625,
2430
+ "learning_rate": 0.005,
2431
+ "loss": 2.8385231494903564,
2432
+ "step": 692
2433
+ },
2434
+ {
2435
+ "epoch": 0.060925751541284615,
2436
+ "grad_norm": 0.09619140625,
2437
+ "learning_rate": 0.005,
2438
+ "loss": 2.8305373191833496,
2439
+ "step": 694
2440
+ },
2441
+ {
2442
+ "epoch": 0.06110133007598573,
2443
+ "grad_norm": 0.1123046875,
2444
+ "learning_rate": 0.005,
2445
+ "loss": 2.817195415496826,
2446
+ "step": 696
2447
+ },
2448
+ {
2449
+ "epoch": 0.06127690861068683,
2450
+ "grad_norm": 0.10888671875,
2451
+ "learning_rate": 0.005,
2452
+ "loss": 2.869903087615967,
2453
+ "step": 698
2454
+ },
2455
+ {
2456
+ "epoch": 0.061452487145387945,
2457
+ "grad_norm": 0.14453125,
2458
+ "learning_rate": 0.005,
2459
+ "loss": 2.856109619140625,
2460
+ "step": 700
2461
+ },
2462
+ {
2463
+ "epoch": 0.06162806568008905,
2464
+ "grad_norm": 0.1025390625,
2465
+ "learning_rate": 0.005,
2466
+ "loss": 2.8376383781433105,
2467
+ "step": 702
2468
+ },
2469
+ {
2470
+ "epoch": 0.06180364421479016,
2471
+ "grad_norm": 0.10595703125,
2472
+ "learning_rate": 0.005,
2473
+ "loss": 2.7832024097442627,
2474
+ "step": 704
2475
+ },
2476
+ {
2477
+ "epoch": 0.06197922274949127,
2478
+ "grad_norm": 0.1220703125,
2479
+ "learning_rate": 0.005,
2480
+ "loss": 2.8388211727142334,
2481
+ "step": 706
2482
+ },
2483
+ {
2484
+ "epoch": 0.062154801284192374,
2485
+ "grad_norm": 0.107421875,
2486
+ "learning_rate": 0.005,
2487
+ "loss": 2.8409483432769775,
2488
+ "step": 708
2489
+ },
2490
+ {
2491
+ "epoch": 0.062330379818893486,
2492
+ "grad_norm": 0.09912109375,
2493
+ "learning_rate": 0.005,
2494
+ "loss": 2.8188676834106445,
2495
+ "step": 710
2496
+ },
2497
+ {
2498
+ "epoch": 0.0625059583535946,
2499
+ "grad_norm": 0.103515625,
2500
+ "learning_rate": 0.005,
2501
+ "loss": 2.8468964099884033,
2502
+ "step": 712
2503
+ },
2504
+ {
2505
+ "epoch": 0.0626815368882957,
2506
+ "grad_norm": 0.10302734375,
2507
+ "learning_rate": 0.005,
2508
+ "loss": 2.798382520675659,
2509
+ "step": 714
2510
+ },
2511
+ {
2512
+ "epoch": 0.06285711542299681,
2513
+ "grad_norm": 0.130859375,
2514
+ "learning_rate": 0.005,
2515
+ "loss": 2.8014094829559326,
2516
+ "step": 716
2517
+ },
2518
+ {
2519
+ "epoch": 0.06303269395769792,
2520
+ "grad_norm": 0.126953125,
2521
+ "learning_rate": 0.005,
2522
+ "loss": 2.8606605529785156,
2523
+ "step": 718
2524
+ },
2525
+ {
2526
+ "epoch": 0.06320827249239902,
2527
+ "grad_norm": 0.1201171875,
2528
+ "learning_rate": 0.005,
2529
+ "loss": 2.8185365200042725,
2530
+ "step": 720
2531
+ },
2532
+ {
2533
+ "epoch": 0.06338385102710013,
2534
+ "grad_norm": 0.12109375,
2535
+ "learning_rate": 0.005,
2536
+ "loss": 2.79809832572937,
2537
+ "step": 722
2538
+ },
2539
+ {
2540
+ "epoch": 0.06355942956180125,
2541
+ "grad_norm": 0.12890625,
2542
+ "learning_rate": 0.005,
2543
+ "loss": 2.829028606414795,
2544
+ "step": 724
2545
+ },
2546
+ {
2547
+ "epoch": 0.06373500809650236,
2548
+ "grad_norm": 0.09716796875,
2549
+ "learning_rate": 0.005,
2550
+ "loss": 2.775477886199951,
2551
+ "step": 726
2552
+ },
2553
+ {
2554
+ "epoch": 0.06391058663120346,
2555
+ "grad_norm": 0.09521484375,
2556
+ "learning_rate": 0.005,
2557
+ "loss": 2.806027412414551,
2558
+ "step": 728
2559
+ },
2560
+ {
2561
+ "epoch": 0.06408616516590457,
2562
+ "grad_norm": 0.10498046875,
2563
+ "learning_rate": 0.005,
2564
+ "loss": 2.8189749717712402,
2565
+ "step": 730
2566
+ },
2567
+ {
2568
+ "epoch": 0.06426174370060568,
2569
+ "grad_norm": 0.103515625,
2570
+ "learning_rate": 0.005,
2571
+ "loss": 2.809892416000366,
2572
+ "step": 732
2573
+ },
2574
+ {
2575
+ "epoch": 0.06443732223530678,
2576
+ "grad_norm": 0.10009765625,
2577
+ "learning_rate": 0.005,
2578
+ "loss": 2.8056528568267822,
2579
+ "step": 734
2580
+ },
2581
+ {
2582
+ "epoch": 0.06461290077000789,
2583
+ "grad_norm": 0.11328125,
2584
+ "learning_rate": 0.005,
2585
+ "loss": 2.851624011993408,
2586
+ "step": 736
2587
+ },
2588
+ {
2589
+ "epoch": 0.064788479304709,
2590
+ "grad_norm": 0.09375,
2591
+ "learning_rate": 0.005,
2592
+ "loss": 2.839448928833008,
2593
+ "step": 738
2594
+ },
2595
+ {
2596
+ "epoch": 0.06496405783941012,
2597
+ "grad_norm": 0.09326171875,
2598
+ "learning_rate": 0.005,
2599
+ "loss": 2.832307815551758,
2600
+ "step": 740
2601
+ },
2602
+ {
2603
+ "epoch": 0.06513963637411121,
2604
+ "grad_norm": 0.10498046875,
2605
+ "learning_rate": 0.005,
2606
+ "loss": 2.816222667694092,
2607
+ "step": 742
2608
+ },
2609
+ {
2610
+ "epoch": 0.06531521490881233,
2611
+ "grad_norm": 0.11328125,
2612
+ "learning_rate": 0.005,
2613
+ "loss": 2.814714193344116,
2614
+ "step": 744
2615
+ },
2616
+ {
2617
+ "epoch": 0.06549079344351344,
2618
+ "grad_norm": 0.10302734375,
2619
+ "learning_rate": 0.005,
2620
+ "loss": 2.8213393688201904,
2621
+ "step": 746
2622
+ },
2623
+ {
2624
+ "epoch": 0.06566637197821454,
2625
+ "grad_norm": 0.12451171875,
2626
+ "learning_rate": 0.005,
2627
+ "loss": 2.838747024536133,
2628
+ "step": 748
2629
+ },
2630
+ {
2631
+ "epoch": 0.06584195051291565,
2632
+ "grad_norm": 0.11669921875,
2633
+ "learning_rate": 0.005,
2634
+ "loss": 2.8111016750335693,
2635
+ "step": 750
2636
+ },
2637
+ {
2638
+ "epoch": 0.06601752904761676,
2639
+ "grad_norm": 0.1357421875,
2640
+ "learning_rate": 0.005,
2641
+ "loss": 2.8226990699768066,
2642
+ "step": 752
2643
+ },
2644
+ {
2645
+ "epoch": 0.06619310758231788,
2646
+ "grad_norm": 0.12060546875,
2647
+ "learning_rate": 0.005,
2648
+ "loss": 2.8317198753356934,
2649
+ "step": 754
2650
+ },
2651
+ {
2652
+ "epoch": 0.06636868611701897,
2653
+ "grad_norm": 0.1015625,
2654
+ "learning_rate": 0.005,
2655
+ "loss": 2.795905113220215,
2656
+ "step": 756
2657
+ },
2658
+ {
2659
+ "epoch": 0.06654426465172009,
2660
+ "grad_norm": 0.10205078125,
2661
+ "learning_rate": 0.005,
2662
+ "loss": 2.8132882118225098,
2663
+ "step": 758
2664
+ },
2665
+ {
2666
+ "epoch": 0.0667198431864212,
2667
+ "grad_norm": 0.10205078125,
2668
+ "learning_rate": 0.005,
2669
+ "loss": 2.8165059089660645,
2670
+ "step": 760
2671
+ },
2672
+ {
2673
+ "epoch": 0.0668954217211223,
2674
+ "grad_norm": 0.09228515625,
2675
+ "learning_rate": 0.005,
2676
+ "loss": 2.8166255950927734,
2677
+ "step": 762
2678
+ },
2679
+ {
2680
+ "epoch": 0.06707100025582341,
2681
+ "grad_norm": 0.091796875,
2682
+ "learning_rate": 0.005,
2683
+ "loss": 2.822350025177002,
2684
+ "step": 764
2685
+ },
2686
+ {
2687
+ "epoch": 0.06724657879052452,
2688
+ "grad_norm": 0.095703125,
2689
+ "learning_rate": 0.005,
2690
+ "loss": 2.8084328174591064,
2691
+ "step": 766
2692
+ },
2693
+ {
2694
+ "epoch": 0.06742215732522563,
2695
+ "grad_norm": 0.11279296875,
2696
+ "learning_rate": 0.005,
2697
+ "loss": 2.803453207015991,
2698
+ "step": 768
2699
+ },
2700
+ {
2701
+ "epoch": 0.06759773585992673,
2702
+ "grad_norm": 0.11376953125,
2703
+ "learning_rate": 0.005,
2704
+ "loss": 2.7944207191467285,
2705
+ "step": 770
2706
+ },
2707
+ {
2708
+ "epoch": 0.06777331439462785,
2709
+ "grad_norm": 0.1201171875,
2710
+ "learning_rate": 0.005,
2711
+ "loss": 2.778062582015991,
2712
+ "step": 772
2713
+ },
2714
+ {
2715
+ "epoch": 0.06794889292932896,
2716
+ "grad_norm": 0.1025390625,
2717
+ "learning_rate": 0.005,
2718
+ "loss": 2.7989413738250732,
2719
+ "step": 774
2720
+ },
2721
+ {
2722
+ "epoch": 0.06812447146403006,
2723
+ "grad_norm": 0.12353515625,
2724
+ "learning_rate": 0.005,
2725
+ "loss": 2.784641742706299,
2726
+ "step": 776
2727
+ },
2728
+ {
2729
+ "epoch": 0.06830004999873117,
2730
+ "grad_norm": 0.1103515625,
2731
+ "learning_rate": 0.005,
2732
+ "loss": 2.8191514015197754,
2733
+ "step": 778
2734
+ },
2735
+ {
2736
+ "epoch": 0.06847562853343228,
2737
+ "grad_norm": 0.10791015625,
2738
+ "learning_rate": 0.005,
2739
+ "loss": 2.793182373046875,
2740
+ "step": 780
2741
+ },
2742
+ {
2743
+ "epoch": 0.0686512070681334,
2744
+ "grad_norm": 0.1201171875,
2745
+ "learning_rate": 0.005,
2746
+ "loss": 2.7880682945251465,
2747
+ "step": 782
2748
+ },
2749
+ {
2750
+ "epoch": 0.06882678560283449,
2751
+ "grad_norm": 0.1396484375,
2752
+ "learning_rate": 0.005,
2753
+ "loss": 2.8155131340026855,
2754
+ "step": 784
2755
+ },
2756
+ {
2757
+ "epoch": 0.0690023641375356,
2758
+ "grad_norm": 0.1083984375,
2759
+ "learning_rate": 0.005,
2760
+ "loss": 2.8056650161743164,
2761
+ "step": 786
2762
+ },
2763
+ {
2764
+ "epoch": 0.06917794267223672,
2765
+ "grad_norm": 0.1103515625,
2766
+ "learning_rate": 0.005,
2767
+ "loss": 2.794665575027466,
2768
+ "step": 788
2769
+ },
2770
+ {
2771
+ "epoch": 0.06935352120693782,
2772
+ "grad_norm": 0.11474609375,
2773
+ "learning_rate": 0.005,
2774
+ "loss": 2.8043224811553955,
2775
+ "step": 790
2776
+ },
2777
+ {
2778
+ "epoch": 0.06952909974163893,
2779
+ "grad_norm": 0.09716796875,
2780
+ "learning_rate": 0.005,
2781
+ "loss": 2.7930874824523926,
2782
+ "step": 792
2783
+ },
2784
+ {
2785
+ "epoch": 0.06970467827634004,
2786
+ "grad_norm": 0.095703125,
2787
+ "learning_rate": 0.005,
2788
+ "loss": 2.7990355491638184,
2789
+ "step": 794
2790
+ },
2791
+ {
2792
+ "epoch": 0.06988025681104115,
2793
+ "grad_norm": 0.0947265625,
2794
+ "learning_rate": 0.005,
2795
+ "loss": 2.7672834396362305,
2796
+ "step": 796
2797
+ },
2798
+ {
2799
+ "epoch": 0.07005583534574225,
2800
+ "grad_norm": 0.09716796875,
2801
+ "learning_rate": 0.005,
2802
+ "loss": 2.8196029663085938,
2803
+ "step": 798
2804
+ },
2805
+ {
2806
+ "epoch": 0.07023141388044336,
2807
+ "grad_norm": 0.08837890625,
2808
+ "learning_rate": 0.005,
2809
+ "loss": 2.78668475151062,
2810
+ "step": 800
2811
+ },
2812
+ {
2813
+ "epoch": 0.07040699241514448,
2814
+ "grad_norm": 0.099609375,
2815
+ "learning_rate": 0.005,
2816
+ "loss": 2.755502462387085,
2817
+ "step": 802
2818
+ },
2819
+ {
2820
+ "epoch": 0.07058257094984557,
2821
+ "grad_norm": 0.1064453125,
2822
+ "learning_rate": 0.005,
2823
+ "loss": 2.756058692932129,
2824
+ "step": 804
2825
+ },
2826
+ {
2827
+ "epoch": 0.07075814948454669,
2828
+ "grad_norm": 0.0927734375,
2829
+ "learning_rate": 0.005,
2830
+ "loss": 2.7573466300964355,
2831
+ "step": 806
2832
+ },
2833
+ {
2834
+ "epoch": 0.0709337280192478,
2835
+ "grad_norm": 0.09619140625,
2836
+ "learning_rate": 0.005,
2837
+ "loss": 2.804060220718384,
2838
+ "step": 808
2839
+ },
2840
+ {
2841
+ "epoch": 0.07110930655394891,
2842
+ "grad_norm": 0.095703125,
2843
+ "learning_rate": 0.005,
2844
+ "loss": 2.8130621910095215,
2845
+ "step": 810
2846
+ },
2847
+ {
2848
+ "epoch": 0.07128488508865001,
2849
+ "grad_norm": 0.0869140625,
2850
+ "learning_rate": 0.005,
2851
+ "loss": 2.744436264038086,
2852
+ "step": 812
2853
+ },
2854
+ {
2855
+ "epoch": 0.07146046362335112,
2856
+ "grad_norm": 0.09619140625,
2857
+ "learning_rate": 0.005,
2858
+ "loss": 2.813497304916382,
2859
+ "step": 814
2860
+ },
2861
+ {
2862
+ "epoch": 0.07163604215805223,
2863
+ "grad_norm": 0.11669921875,
2864
+ "learning_rate": 0.005,
2865
+ "loss": 2.8008008003234863,
2866
+ "step": 816
2867
+ },
2868
+ {
2869
+ "epoch": 0.07181162069275333,
2870
+ "grad_norm": 0.091796875,
2871
+ "learning_rate": 0.005,
2872
+ "loss": 2.7890126705169678,
2873
+ "step": 818
2874
+ },
2875
+ {
2876
+ "epoch": 0.07198719922745445,
2877
+ "grad_norm": 0.119140625,
2878
+ "learning_rate": 0.005,
2879
+ "loss": 2.784027576446533,
2880
+ "step": 820
2881
+ },
2882
+ {
2883
+ "epoch": 0.07216277776215556,
2884
+ "grad_norm": 0.0869140625,
2885
+ "learning_rate": 0.005,
2886
+ "loss": 2.790325880050659,
2887
+ "step": 822
2888
+ },
2889
+ {
2890
+ "epoch": 0.07233835629685667,
2891
+ "grad_norm": 0.0908203125,
2892
+ "learning_rate": 0.005,
2893
+ "loss": 2.780329704284668,
2894
+ "step": 824
2895
+ },
2896
+ {
2897
+ "epoch": 0.07251393483155777,
2898
+ "grad_norm": 0.11865234375,
2899
+ "learning_rate": 0.005,
2900
+ "loss": 2.7846665382385254,
2901
+ "step": 826
2902
+ },
2903
+ {
2904
+ "epoch": 0.07268951336625888,
2905
+ "grad_norm": 0.1171875,
2906
+ "learning_rate": 0.005,
2907
+ "loss": 2.786909818649292,
2908
+ "step": 828
2909
+ },
2910
+ {
2911
+ "epoch": 0.07286509190096,
2912
+ "grad_norm": 0.11083984375,
2913
+ "learning_rate": 0.005,
2914
+ "loss": 2.808149814605713,
2915
+ "step": 830
2916
+ },
2917
+ {
2918
+ "epoch": 0.07304067043566109,
2919
+ "grad_norm": 0.1025390625,
2920
+ "learning_rate": 0.005,
2921
+ "loss": 2.758054733276367,
2922
+ "step": 832
2923
+ },
2924
+ {
2925
+ "epoch": 0.0732162489703622,
2926
+ "grad_norm": 0.09716796875,
2927
+ "learning_rate": 0.005,
2928
+ "loss": 2.8043644428253174,
2929
+ "step": 834
2930
+ },
2931
+ {
2932
+ "epoch": 0.07339182750506332,
2933
+ "grad_norm": 0.0947265625,
2934
+ "learning_rate": 0.005,
2935
+ "loss": 2.7352335453033447,
2936
+ "step": 836
2937
+ },
2938
+ {
2939
+ "epoch": 0.07356740603976443,
2940
+ "grad_norm": 0.11328125,
2941
+ "learning_rate": 0.005,
2942
+ "loss": 2.762988567352295,
2943
+ "step": 838
2944
+ },
2945
+ {
2946
+ "epoch": 0.07374298457446553,
2947
+ "grad_norm": 0.10595703125,
2948
+ "learning_rate": 0.005,
2949
+ "loss": 2.7505500316619873,
2950
+ "step": 840
2951
+ },
2952
+ {
2953
+ "epoch": 0.07391856310916664,
2954
+ "grad_norm": 0.08837890625,
2955
+ "learning_rate": 0.005,
2956
+ "loss": 2.756007194519043,
2957
+ "step": 842
2958
+ },
2959
+ {
2960
+ "epoch": 0.07409414164386775,
2961
+ "grad_norm": 0.08203125,
2962
+ "learning_rate": 0.005,
2963
+ "loss": 2.740776538848877,
2964
+ "step": 844
2965
+ },
2966
+ {
2967
+ "epoch": 0.07426972017856885,
2968
+ "grad_norm": 0.103515625,
2969
+ "learning_rate": 0.005,
2970
+ "loss": 2.766468048095703,
2971
+ "step": 846
2972
+ },
2973
+ {
2974
+ "epoch": 0.07444529871326996,
2975
+ "grad_norm": 0.10009765625,
2976
+ "learning_rate": 0.005,
2977
+ "loss": 2.768131971359253,
2978
+ "step": 848
2979
+ },
2980
+ {
2981
+ "epoch": 0.07462087724797108,
2982
+ "grad_norm": 0.09326171875,
2983
+ "learning_rate": 0.005,
2984
+ "loss": 2.7882707118988037,
2985
+ "step": 850
2986
+ },
2987
+ {
2988
+ "epoch": 0.07479645578267219,
2989
+ "grad_norm": 0.08935546875,
2990
+ "learning_rate": 0.005,
2991
+ "loss": 2.759927988052368,
2992
+ "step": 852
2993
+ },
2994
+ {
2995
+ "epoch": 0.07497203431737329,
2996
+ "grad_norm": 0.09814453125,
2997
+ "learning_rate": 0.005,
2998
+ "loss": 2.772904634475708,
2999
+ "step": 854
3000
+ },
3001
+ {
3002
+ "epoch": 0.0751476128520744,
3003
+ "grad_norm": 0.11279296875,
3004
+ "learning_rate": 0.005,
3005
+ "loss": 2.7328786849975586,
3006
+ "step": 856
3007
+ },
3008
+ {
3009
+ "epoch": 0.07532319138677551,
3010
+ "grad_norm": 0.1025390625,
3011
+ "learning_rate": 0.005,
3012
+ "loss": 2.789806842803955,
3013
+ "step": 858
3014
+ },
3015
+ {
3016
+ "epoch": 0.07549876992147661,
3017
+ "grad_norm": 0.091796875,
3018
+ "learning_rate": 0.005,
3019
+ "loss": 2.771458148956299,
3020
+ "step": 860
3021
+ },
3022
+ {
3023
+ "epoch": 0.07567434845617772,
3024
+ "grad_norm": 0.11962890625,
3025
+ "learning_rate": 0.005,
3026
+ "loss": 2.7628495693206787,
3027
+ "step": 862
3028
+ },
3029
+ {
3030
+ "epoch": 0.07584992699087884,
3031
+ "grad_norm": 0.0966796875,
3032
+ "learning_rate": 0.005,
3033
+ "loss": 2.770573377609253,
3034
+ "step": 864
3035
+ },
3036
+ {
3037
+ "epoch": 0.07602550552557993,
3038
+ "grad_norm": 0.09228515625,
3039
+ "learning_rate": 0.005,
3040
+ "loss": 2.793875217437744,
3041
+ "step": 866
3042
+ },
3043
+ {
3044
+ "epoch": 0.07620108406028105,
3045
+ "grad_norm": 0.091796875,
3046
+ "learning_rate": 0.005,
3047
+ "loss": 2.7835752964019775,
3048
+ "step": 868
3049
+ },
3050
+ {
3051
+ "epoch": 0.07637666259498216,
3052
+ "grad_norm": 0.08544921875,
3053
+ "learning_rate": 0.005,
3054
+ "loss": 2.775233745574951,
3055
+ "step": 870
3056
+ },
3057
+ {
3058
+ "epoch": 0.07655224112968327,
3059
+ "grad_norm": 0.08544921875,
3060
+ "learning_rate": 0.005,
3061
+ "loss": 2.7418532371520996,
3062
+ "step": 872
3063
+ },
3064
+ {
3065
+ "epoch": 0.07672781966438437,
3066
+ "grad_norm": 0.08740234375,
3067
+ "learning_rate": 0.005,
3068
+ "loss": 2.754110097885132,
3069
+ "step": 874
3070
+ },
3071
+ {
3072
+ "epoch": 0.07690339819908548,
3073
+ "grad_norm": 0.0810546875,
3074
+ "learning_rate": 0.005,
3075
+ "loss": 2.773123264312744,
3076
+ "step": 876
3077
+ },
3078
+ {
3079
+ "epoch": 0.0770789767337866,
3080
+ "grad_norm": 0.083984375,
3081
+ "learning_rate": 0.005,
3082
+ "loss": 2.750389337539673,
3083
+ "step": 878
3084
+ },
3085
+ {
3086
+ "epoch": 0.07725455526848769,
3087
+ "grad_norm": 0.0830078125,
3088
+ "learning_rate": 0.005,
3089
+ "loss": 2.733523368835449,
3090
+ "step": 880
3091
+ },
3092
+ {
3093
+ "epoch": 0.0774301338031888,
3094
+ "grad_norm": 0.08984375,
3095
+ "learning_rate": 0.005,
3096
+ "loss": 2.7816543579101562,
3097
+ "step": 882
3098
+ },
3099
+ {
3100
+ "epoch": 0.07760571233788992,
3101
+ "grad_norm": 0.0947265625,
3102
+ "learning_rate": 0.005,
3103
+ "loss": 2.7417476177215576,
3104
+ "step": 884
3105
+ },
3106
+ {
3107
+ "epoch": 0.07778129087259103,
3108
+ "grad_norm": 0.10302734375,
3109
+ "learning_rate": 0.005,
3110
+ "loss": 2.7590861320495605,
3111
+ "step": 886
3112
+ },
3113
+ {
3114
+ "epoch": 0.07795686940729213,
3115
+ "grad_norm": 0.099609375,
3116
+ "learning_rate": 0.005,
3117
+ "loss": 2.74955677986145,
3118
+ "step": 888
3119
+ },
3120
+ {
3121
+ "epoch": 0.07813244794199324,
3122
+ "grad_norm": 0.09375,
3123
+ "learning_rate": 0.005,
3124
+ "loss": 2.7264111042022705,
3125
+ "step": 890
3126
+ },
3127
+ {
3128
+ "epoch": 0.07830802647669435,
3129
+ "grad_norm": 0.09521484375,
3130
+ "learning_rate": 0.005,
3131
+ "loss": 2.7831571102142334,
3132
+ "step": 892
3133
+ },
3134
+ {
3135
+ "epoch": 0.07848360501139545,
3136
+ "grad_norm": 0.09716796875,
3137
+ "learning_rate": 0.005,
3138
+ "loss": 2.777005672454834,
3139
+ "step": 894
3140
+ },
3141
+ {
3142
+ "epoch": 0.07865918354609656,
3143
+ "grad_norm": 0.09716796875,
3144
+ "learning_rate": 0.005,
3145
+ "loss": 2.759586811065674,
3146
+ "step": 896
3147
+ },
3148
+ {
3149
+ "epoch": 0.07883476208079768,
3150
+ "grad_norm": 0.083984375,
3151
+ "learning_rate": 0.005,
3152
+ "loss": 2.750412940979004,
3153
+ "step": 898
3154
+ },
3155
+ {
3156
+ "epoch": 0.07901034061549879,
3157
+ "grad_norm": 0.08447265625,
3158
+ "learning_rate": 0.005,
3159
+ "loss": 2.7232556343078613,
3160
+ "step": 900
3161
  }
3162
  ],
3163
  "logging_steps": 2,
 
3177
  "attributes": {}
3178
  }
3179
  },
3180
+ "total_flos": 1.5213476081262559e+18,
3181
  "train_batch_size": 2,
3182
  "trial_name": null,
3183
  "trial_params": null