ljcamargo commited on
Commit
22e9de9
·
verified ·
1 Parent(s): 29d0009

Training in progress, step 3500, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dc90e72e9df06c7a8b2859568abbda018ecb77710946f3069e0c35fa974f19ee
3
  size 3809184360
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ca1d58e2cd18a1fc09601b5143bb78b5307a273e6e2f1750228c18041d7fe77e
3
  size 3809184360
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:655084455e5e897aa7ef7acbe8b134c275ee59dd5ff109b69ff76cd085fd6e07
3
  size 2458291491
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3d9b3bc32af7a9c7224769cd6c49a9680aa7f8795c0d4e082d32018b4c599ff6
3
  size 2458291491
last-checkpoint/scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ea341a3d505626ad57a03d7f2e993437556ed56796356e3afaa8f1db62445455
3
  size 1383
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8841fa7aad843ffcf2b76d868211d81553f8ce267313764fca81be4f5b42b4d
3
  size 1383
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2cc273b404670a1098fedda6e7c02f1509edb236f0c25d50ae9fbf6dd87e347b
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c493c177a6a7b8f4b53d9f320f001568436248d37644f960edb69a4818ec2df
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.8666666666666667,
6
  "eval_steps": 500,
7
- "global_step": 3250,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2283,6 +2283,181 @@
2283
  "learning_rate": 6.805929919137468e-06,
2284
  "loss": 0.2464,
2285
  "step": 3250
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2286
  }
2287
  ],
2288
  "logging_steps": 10,
@@ -2302,7 +2477,7 @@
2302
  "attributes": {}
2303
  }
2304
  },
2305
- "total_flos": 5.87649798448128e+16,
2306
  "train_batch_size": 2,
2307
  "trial_name": null,
2308
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.9333333333333333,
6
  "eval_steps": 500,
7
+ "global_step": 3500,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2283
  "learning_rate": 6.805929919137468e-06,
2284
  "loss": 0.2464,
2285
  "step": 3250
2286
+ },
2287
+ {
2288
+ "epoch": 0.8693333333333333,
2289
+ "grad_norm": 5.073930740356445,
2290
+ "learning_rate": 6.671159029649596e-06,
2291
+ "loss": 0.2491,
2292
+ "step": 3260
2293
+ },
2294
+ {
2295
+ "epoch": 0.872,
2296
+ "grad_norm": 6.984921932220459,
2297
+ "learning_rate": 6.536388140161725e-06,
2298
+ "loss": 0.2212,
2299
+ "step": 3270
2300
+ },
2301
+ {
2302
+ "epoch": 0.8746666666666667,
2303
+ "grad_norm": 5.525951862335205,
2304
+ "learning_rate": 6.401617250673856e-06,
2305
+ "loss": 0.2446,
2306
+ "step": 3280
2307
+ },
2308
+ {
2309
+ "epoch": 0.8773333333333333,
2310
+ "grad_norm": 5.485599040985107,
2311
+ "learning_rate": 6.266846361185984e-06,
2312
+ "loss": 0.2735,
2313
+ "step": 3290
2314
+ },
2315
+ {
2316
+ "epoch": 0.88,
2317
+ "grad_norm": 6.451603889465332,
2318
+ "learning_rate": 6.132075471698113e-06,
2319
+ "loss": 0.2499,
2320
+ "step": 3300
2321
+ },
2322
+ {
2323
+ "epoch": 0.8826666666666667,
2324
+ "grad_norm": 8.449997901916504,
2325
+ "learning_rate": 5.997304582210243e-06,
2326
+ "loss": 0.262,
2327
+ "step": 3310
2328
+ },
2329
+ {
2330
+ "epoch": 0.8853333333333333,
2331
+ "grad_norm": 2.8802688121795654,
2332
+ "learning_rate": 5.862533692722373e-06,
2333
+ "loss": 0.248,
2334
+ "step": 3320
2335
+ },
2336
+ {
2337
+ "epoch": 0.888,
2338
+ "grad_norm": 6.58447790145874,
2339
+ "learning_rate": 5.727762803234501e-06,
2340
+ "loss": 0.1707,
2341
+ "step": 3330
2342
+ },
2343
+ {
2344
+ "epoch": 0.8906666666666667,
2345
+ "grad_norm": 10.708820343017578,
2346
+ "learning_rate": 5.592991913746631e-06,
2347
+ "loss": 0.2294,
2348
+ "step": 3340
2349
+ },
2350
+ {
2351
+ "epoch": 0.8933333333333333,
2352
+ "grad_norm": 8.319356918334961,
2353
+ "learning_rate": 5.458221024258761e-06,
2354
+ "loss": 0.2165,
2355
+ "step": 3350
2356
+ },
2357
+ {
2358
+ "epoch": 0.896,
2359
+ "grad_norm": 6.977818012237549,
2360
+ "learning_rate": 5.3234501347708894e-06,
2361
+ "loss": 0.2321,
2362
+ "step": 3360
2363
+ },
2364
+ {
2365
+ "epoch": 0.8986666666666666,
2366
+ "grad_norm": 6.978248119354248,
2367
+ "learning_rate": 5.188679245283019e-06,
2368
+ "loss": 0.2039,
2369
+ "step": 3370
2370
+ },
2371
+ {
2372
+ "epoch": 0.9013333333333333,
2373
+ "grad_norm": 7.0379438400268555,
2374
+ "learning_rate": 5.053908355795149e-06,
2375
+ "loss": 0.2364,
2376
+ "step": 3380
2377
+ },
2378
+ {
2379
+ "epoch": 0.904,
2380
+ "grad_norm": 5.10407018661499,
2381
+ "learning_rate": 4.9191374663072775e-06,
2382
+ "loss": 0.3408,
2383
+ "step": 3390
2384
+ },
2385
+ {
2386
+ "epoch": 0.9066666666666666,
2387
+ "grad_norm": 4.217552185058594,
2388
+ "learning_rate": 4.784366576819407e-06,
2389
+ "loss": 0.1653,
2390
+ "step": 3400
2391
+ },
2392
+ {
2393
+ "epoch": 0.9093333333333333,
2394
+ "grad_norm": 8.982743263244629,
2395
+ "learning_rate": 4.649595687331537e-06,
2396
+ "loss": 0.208,
2397
+ "step": 3410
2398
+ },
2399
+ {
2400
+ "epoch": 0.912,
2401
+ "grad_norm": 7.103553295135498,
2402
+ "learning_rate": 4.5148247978436664e-06,
2403
+ "loss": 0.1838,
2404
+ "step": 3420
2405
+ },
2406
+ {
2407
+ "epoch": 0.9146666666666666,
2408
+ "grad_norm": 6.565107822418213,
2409
+ "learning_rate": 4.380053908355795e-06,
2410
+ "loss": 0.2254,
2411
+ "step": 3430
2412
+ },
2413
+ {
2414
+ "epoch": 0.9173333333333333,
2415
+ "grad_norm": 8.163582801818848,
2416
+ "learning_rate": 4.245283018867925e-06,
2417
+ "loss": 0.1598,
2418
+ "step": 3440
2419
+ },
2420
+ {
2421
+ "epoch": 0.92,
2422
+ "grad_norm": 4.565555095672607,
2423
+ "learning_rate": 4.1105121293800545e-06,
2424
+ "loss": 0.1888,
2425
+ "step": 3450
2426
+ },
2427
+ {
2428
+ "epoch": 0.9226666666666666,
2429
+ "grad_norm": 7.8352508544921875,
2430
+ "learning_rate": 3.975741239892183e-06,
2431
+ "loss": 0.2683,
2432
+ "step": 3460
2433
+ },
2434
+ {
2435
+ "epoch": 0.9253333333333333,
2436
+ "grad_norm": 8.402386665344238,
2437
+ "learning_rate": 3.840970350404313e-06,
2438
+ "loss": 0.1869,
2439
+ "step": 3470
2440
+ },
2441
+ {
2442
+ "epoch": 0.928,
2443
+ "grad_norm": 8.078757286071777,
2444
+ "learning_rate": 3.706199460916442e-06,
2445
+ "loss": 0.2293,
2446
+ "step": 3480
2447
+ },
2448
+ {
2449
+ "epoch": 0.9306666666666666,
2450
+ "grad_norm": 7.771483898162842,
2451
+ "learning_rate": 3.5714285714285714e-06,
2452
+ "loss": 0.3479,
2453
+ "step": 3490
2454
+ },
2455
+ {
2456
+ "epoch": 0.9333333333333333,
2457
+ "grad_norm": 3.739326000213623,
2458
+ "learning_rate": 3.436657681940701e-06,
2459
+ "loss": 0.1441,
2460
+ "step": 3500
2461
  }
2462
  ],
2463
  "logging_steps": 10,
 
2477
  "attributes": {}
2478
  }
2479
  },
2480
+ "total_flos": 6.32834922129408e+16,
2481
  "train_batch_size": 2,
2482
  "trial_name": null,
2483
  "trial_params": null