jiminHuang commited on
Commit
6d4b373
·
verified ·
1 Parent(s): 03cea94

Upload folder using huggingface_hub

Browse files
Files changed (2) hide show
  1. adapter_model.safetensors +1 -1
  2. trainer_state.json +1402 -2
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7c5dd797cd5d13ec140014b8d71b4a95824a5a8943c436ffba874f52dc3eb7df
3
  size 167829552
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45a400a6169db337b1e03de36a0fe40f8682afd90b03b3162e53bd9bfd97a571
3
  size 167829552
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.02588398109434021,
5
  "eval_steps": 500,
6
- "global_step": 30000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4207,6 +4207,1406 @@
4207
  "learning_rate": 1.9487364483851983e-05,
4208
  "loss": 0.0079,
4209
  "step": 30000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4210
  }
4211
  ],
4212
  "logging_steps": 50,
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.03451197479245361,
5
  "eval_steps": 500,
6
+ "global_step": 40000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4207
  "learning_rate": 1.9487364483851983e-05,
4208
  "loss": 0.0079,
4209
  "step": 30000
4210
+ },
4211
+ {
4212
+ "epoch": 0.025927121062830776,
4213
+ "grad_norm": 0.026366397738456726,
4214
+ "learning_rate": 1.9486501461097523e-05,
4215
+ "loss": 0.0381,
4216
+ "step": 30050
4217
+ },
4218
+ {
4219
+ "epoch": 0.025970261031321343,
4220
+ "grad_norm": 5.6284894943237305,
4221
+ "learning_rate": 1.9485638438343066e-05,
4222
+ "loss": 0.0618,
4223
+ "step": 30100
4224
+ },
4225
+ {
4226
+ "epoch": 0.02601340099981191,
4227
+ "grad_norm": 0.00824633240699768,
4228
+ "learning_rate": 1.948477541558861e-05,
4229
+ "loss": 0.0173,
4230
+ "step": 30150
4231
+ },
4232
+ {
4233
+ "epoch": 0.026056540968302476,
4234
+ "grad_norm": 0.0007174229249358177,
4235
+ "learning_rate": 1.948391239283415e-05,
4236
+ "loss": 0.0199,
4237
+ "step": 30200
4238
+ },
4239
+ {
4240
+ "epoch": 0.026099680936793043,
4241
+ "grad_norm": 0.02488381415605545,
4242
+ "learning_rate": 1.9483049370079693e-05,
4243
+ "loss": 0.0312,
4244
+ "step": 30250
4245
+ },
4246
+ {
4247
+ "epoch": 0.02614282090528361,
4248
+ "grad_norm": 1.9344063997268677,
4249
+ "learning_rate": 1.9482186347325236e-05,
4250
+ "loss": 0.0357,
4251
+ "step": 30300
4252
+ },
4253
+ {
4254
+ "epoch": 0.02618596087377418,
4255
+ "grad_norm": 3.485973834991455,
4256
+ "learning_rate": 1.9481323324570776e-05,
4257
+ "loss": 0.0266,
4258
+ "step": 30350
4259
+ },
4260
+ {
4261
+ "epoch": 0.026229100842264746,
4262
+ "grad_norm": 6.07471008606808e-07,
4263
+ "learning_rate": 1.948046030181632e-05,
4264
+ "loss": 0.0308,
4265
+ "step": 30400
4266
+ },
4267
+ {
4268
+ "epoch": 0.026272240810755312,
4269
+ "grad_norm": 7.532801760135044e-08,
4270
+ "learning_rate": 1.9479597279061863e-05,
4271
+ "loss": 0.047,
4272
+ "step": 30450
4273
+ },
4274
+ {
4275
+ "epoch": 0.02631538077924588,
4276
+ "grad_norm": 0.0005202541360631585,
4277
+ "learning_rate": 1.9478734256307403e-05,
4278
+ "loss": 0.0239,
4279
+ "step": 30500
4280
+ },
4281
+ {
4282
+ "epoch": 0.026358520747736446,
4283
+ "grad_norm": 26.940954208374023,
4284
+ "learning_rate": 1.9477871233552946e-05,
4285
+ "loss": 0.0709,
4286
+ "step": 30550
4287
+ },
4288
+ {
4289
+ "epoch": 0.026401660716227012,
4290
+ "grad_norm": 7.362630470575393e-12,
4291
+ "learning_rate": 1.9477008210798486e-05,
4292
+ "loss": 0.0117,
4293
+ "step": 30600
4294
+ },
4295
+ {
4296
+ "epoch": 0.02644480068471758,
4297
+ "grad_norm": 1.2002854418824427e-05,
4298
+ "learning_rate": 1.947614518804403e-05,
4299
+ "loss": 0.0392,
4300
+ "step": 30650
4301
+ },
4302
+ {
4303
+ "epoch": 0.026487940653208145,
4304
+ "grad_norm": 0.4743211269378662,
4305
+ "learning_rate": 1.947528216528957e-05,
4306
+ "loss": 0.0461,
4307
+ "step": 30700
4308
+ },
4309
+ {
4310
+ "epoch": 0.026531080621698715,
4311
+ "grad_norm": 5.520277568393794e-10,
4312
+ "learning_rate": 1.9474419142535113e-05,
4313
+ "loss": 0.002,
4314
+ "step": 30750
4315
+ },
4316
+ {
4317
+ "epoch": 0.026574220590189282,
4318
+ "grad_norm": 5.655643420254819e-08,
4319
+ "learning_rate": 1.9473556119780656e-05,
4320
+ "loss": 0.002,
4321
+ "step": 30800
4322
+ },
4323
+ {
4324
+ "epoch": 0.02661736055867985,
4325
+ "grad_norm": 3.0585747481381986e-06,
4326
+ "learning_rate": 1.94726930970262e-05,
4327
+ "loss": 0.0208,
4328
+ "step": 30850
4329
+ },
4330
+ {
4331
+ "epoch": 0.026660500527170415,
4332
+ "grad_norm": 0.00038789489190094173,
4333
+ "learning_rate": 1.947183007427174e-05,
4334
+ "loss": 0.0221,
4335
+ "step": 30900
4336
+ },
4337
+ {
4338
+ "epoch": 0.02670364049566098,
4339
+ "grad_norm": 0.006069442722946405,
4340
+ "learning_rate": 1.9470967051517283e-05,
4341
+ "loss": 0.0332,
4342
+ "step": 30950
4343
+ },
4344
+ {
4345
+ "epoch": 0.02674678046415155,
4346
+ "grad_norm": 2.1992854204455625e-09,
4347
+ "learning_rate": 1.9470104028762823e-05,
4348
+ "loss": 0.0133,
4349
+ "step": 31000
4350
+ },
4351
+ {
4352
+ "epoch": 0.026789920432642115,
4353
+ "grad_norm": 0.0005120674031786621,
4354
+ "learning_rate": 1.9469241006008366e-05,
4355
+ "loss": 0.0549,
4356
+ "step": 31050
4357
+ },
4358
+ {
4359
+ "epoch": 0.02683306040113268,
4360
+ "grad_norm": 3.589123298297636e-05,
4361
+ "learning_rate": 1.946837798325391e-05,
4362
+ "loss": 0.0172,
4363
+ "step": 31100
4364
+ },
4365
+ {
4366
+ "epoch": 0.02687620036962325,
4367
+ "grad_norm": 4.615823812059716e-08,
4368
+ "learning_rate": 1.946751496049945e-05,
4369
+ "loss": 0.013,
4370
+ "step": 31150
4371
+ },
4372
+ {
4373
+ "epoch": 0.026919340338113818,
4374
+ "grad_norm": 7.231820475794848e-09,
4375
+ "learning_rate": 1.9466651937744993e-05,
4376
+ "loss": 0.0037,
4377
+ "step": 31200
4378
+ },
4379
+ {
4380
+ "epoch": 0.026962480306604385,
4381
+ "grad_norm": 5.052131157867734e-09,
4382
+ "learning_rate": 1.9465788914990532e-05,
4383
+ "loss": 0.0491,
4384
+ "step": 31250
4385
+ },
4386
+ {
4387
+ "epoch": 0.02700562027509495,
4388
+ "grad_norm": 0.00010309406206943095,
4389
+ "learning_rate": 1.9464925892236076e-05,
4390
+ "loss": 0.0028,
4391
+ "step": 31300
4392
+ },
4393
+ {
4394
+ "epoch": 0.027048760243585518,
4395
+ "grad_norm": 5.6031745771178976e-05,
4396
+ "learning_rate": 1.946406286948162e-05,
4397
+ "loss": 0.015,
4398
+ "step": 31350
4399
+ },
4400
+ {
4401
+ "epoch": 0.027091900212076084,
4402
+ "grad_norm": 0.00024476449470967054,
4403
+ "learning_rate": 1.9463199846727162e-05,
4404
+ "loss": 0.0154,
4405
+ "step": 31400
4406
+ },
4407
+ {
4408
+ "epoch": 0.02713504018056665,
4409
+ "grad_norm": 2.0063467331965512e-07,
4410
+ "learning_rate": 1.9462336823972702e-05,
4411
+ "loss": 0.0212,
4412
+ "step": 31450
4413
+ },
4414
+ {
4415
+ "epoch": 0.027178180149057218,
4416
+ "grad_norm": 6.659844075329602e-05,
4417
+ "learning_rate": 1.9461473801218246e-05,
4418
+ "loss": 0.0216,
4419
+ "step": 31500
4420
+ },
4421
+ {
4422
+ "epoch": 0.027221320117547788,
4423
+ "grad_norm": 4.053091470268555e-05,
4424
+ "learning_rate": 1.9460610778463786e-05,
4425
+ "loss": 0.026,
4426
+ "step": 31550
4427
+ },
4428
+ {
4429
+ "epoch": 0.027264460086038354,
4430
+ "grad_norm": 2.6744512382492758e-08,
4431
+ "learning_rate": 1.945974775570933e-05,
4432
+ "loss": 0.0284,
4433
+ "step": 31600
4434
+ },
4435
+ {
4436
+ "epoch": 0.02730760005452892,
4437
+ "grad_norm": 0.1950395703315735,
4438
+ "learning_rate": 1.945888473295487e-05,
4439
+ "loss": 0.0064,
4440
+ "step": 31650
4441
+ },
4442
+ {
4443
+ "epoch": 0.027350740023019487,
4444
+ "grad_norm": 41.71430587768555,
4445
+ "learning_rate": 1.9458021710200412e-05,
4446
+ "loss": 0.0379,
4447
+ "step": 31700
4448
+ },
4449
+ {
4450
+ "epoch": 0.027393879991510054,
4451
+ "grad_norm": 2.8257717943347416e-08,
4452
+ "learning_rate": 1.9457158687445952e-05,
4453
+ "loss": 0.0263,
4454
+ "step": 31750
4455
+ },
4456
+ {
4457
+ "epoch": 0.02743701996000062,
4458
+ "grad_norm": 0.002763712080195546,
4459
+ "learning_rate": 1.9456295664691496e-05,
4460
+ "loss": 0.0189,
4461
+ "step": 31800
4462
+ },
4463
+ {
4464
+ "epoch": 0.027480159928491187,
4465
+ "grad_norm": 1.0972726061098115e-09,
4466
+ "learning_rate": 1.945543264193704e-05,
4467
+ "loss": 0.0156,
4468
+ "step": 31850
4469
+ },
4470
+ {
4471
+ "epoch": 0.027523299896981754,
4472
+ "grad_norm": 0.0012834984809160233,
4473
+ "learning_rate": 1.9454569619182582e-05,
4474
+ "loss": 0.0076,
4475
+ "step": 31900
4476
+ },
4477
+ {
4478
+ "epoch": 0.027566439865472324,
4479
+ "grad_norm": 2.497445628080186e-08,
4480
+ "learning_rate": 1.9453706596428122e-05,
4481
+ "loss": 0.0209,
4482
+ "step": 31950
4483
+ },
4484
+ {
4485
+ "epoch": 0.02760957983396289,
4486
+ "grad_norm": 23.704517364501953,
4487
+ "learning_rate": 1.9452843573673666e-05,
4488
+ "loss": 0.0603,
4489
+ "step": 32000
4490
+ },
4491
+ {
4492
+ "epoch": 0.027652719802453457,
4493
+ "grad_norm": 0.0009068456711247563,
4494
+ "learning_rate": 1.945198055091921e-05,
4495
+ "loss": 0.035,
4496
+ "step": 32050
4497
+ },
4498
+ {
4499
+ "epoch": 0.027695859770944024,
4500
+ "grad_norm": 5.298162460327148,
4501
+ "learning_rate": 1.945111752816475e-05,
4502
+ "loss": 0.0053,
4503
+ "step": 32100
4504
+ },
4505
+ {
4506
+ "epoch": 0.02773899973943459,
4507
+ "grad_norm": 0.017380917444825172,
4508
+ "learning_rate": 1.9450254505410292e-05,
4509
+ "loss": 0.0471,
4510
+ "step": 32150
4511
+ },
4512
+ {
4513
+ "epoch": 0.027782139707925157,
4514
+ "grad_norm": 0.02581915073096752,
4515
+ "learning_rate": 1.9449391482655832e-05,
4516
+ "loss": 0.0396,
4517
+ "step": 32200
4518
+ },
4519
+ {
4520
+ "epoch": 0.027825279676415723,
4521
+ "grad_norm": 1.437704066908907e-09,
4522
+ "learning_rate": 1.9448528459901375e-05,
4523
+ "loss": 0.0283,
4524
+ "step": 32250
4525
+ },
4526
+ {
4527
+ "epoch": 0.02786841964490629,
4528
+ "grad_norm": 1.0882466483508324e-08,
4529
+ "learning_rate": 1.9447665437146915e-05,
4530
+ "loss": 0.0066,
4531
+ "step": 32300
4532
+ },
4533
+ {
4534
+ "epoch": 0.02791155961339686,
4535
+ "grad_norm": 5.027173122229556e-11,
4536
+ "learning_rate": 1.9446802414392462e-05,
4537
+ "loss": 0.0082,
4538
+ "step": 32350
4539
+ },
4540
+ {
4541
+ "epoch": 0.027954699581887427,
4542
+ "grad_norm": 4.071168899536133,
4543
+ "learning_rate": 1.9445939391638002e-05,
4544
+ "loss": 0.0217,
4545
+ "step": 32400
4546
+ },
4547
+ {
4548
+ "epoch": 0.027997839550377993,
4549
+ "grad_norm": 0.0017136979149654508,
4550
+ "learning_rate": 1.9445076368883545e-05,
4551
+ "loss": 0.0665,
4552
+ "step": 32450
4553
+ },
4554
+ {
4555
+ "epoch": 0.02804097951886856,
4556
+ "grad_norm": 1.7071112301536573e-09,
4557
+ "learning_rate": 1.9444213346129085e-05,
4558
+ "loss": 0.0283,
4559
+ "step": 32500
4560
+ },
4561
+ {
4562
+ "epoch": 0.028084119487359126,
4563
+ "grad_norm": 2.8745741897928667e-10,
4564
+ "learning_rate": 1.944335032337463e-05,
4565
+ "loss": 0.0165,
4566
+ "step": 32550
4567
+ },
4568
+ {
4569
+ "epoch": 0.028127259455849693,
4570
+ "grad_norm": 0.06553611904382706,
4571
+ "learning_rate": 1.944248730062017e-05,
4572
+ "loss": 0.0039,
4573
+ "step": 32600
4574
+ },
4575
+ {
4576
+ "epoch": 0.02817039942434026,
4577
+ "grad_norm": 1.2114237506466452e-05,
4578
+ "learning_rate": 1.9441624277865712e-05,
4579
+ "loss": 0.0053,
4580
+ "step": 32650
4581
+ },
4582
+ {
4583
+ "epoch": 0.028213539392830826,
4584
+ "grad_norm": 5.977819910185644e-06,
4585
+ "learning_rate": 1.9440761255111252e-05,
4586
+ "loss": 0.016,
4587
+ "step": 32700
4588
+ },
4589
+ {
4590
+ "epoch": 0.028256679361321393,
4591
+ "grad_norm": 0.00414885301142931,
4592
+ "learning_rate": 1.9439898232356795e-05,
4593
+ "loss": 0.0064,
4594
+ "step": 32750
4595
+ },
4596
+ {
4597
+ "epoch": 0.028299819329811963,
4598
+ "grad_norm": 0.001667422242462635,
4599
+ "learning_rate": 1.943903520960234e-05,
4600
+ "loss": 0.0013,
4601
+ "step": 32800
4602
+ },
4603
+ {
4604
+ "epoch": 0.02834295929830253,
4605
+ "grad_norm": 1.7196412045450415e-06,
4606
+ "learning_rate": 1.943817218684788e-05,
4607
+ "loss": 0.0022,
4608
+ "step": 32850
4609
+ },
4610
+ {
4611
+ "epoch": 0.028386099266793096,
4612
+ "grad_norm": 4.220390792397666e-07,
4613
+ "learning_rate": 1.9437309164093422e-05,
4614
+ "loss": 0.0278,
4615
+ "step": 32900
4616
+ },
4617
+ {
4618
+ "epoch": 0.028429239235283663,
4619
+ "grad_norm": 8.6249691833018e-09,
4620
+ "learning_rate": 1.9436446141338965e-05,
4621
+ "loss": 0.0155,
4622
+ "step": 32950
4623
+ },
4624
+ {
4625
+ "epoch": 0.02847237920377423,
4626
+ "grad_norm": 21.435453414916992,
4627
+ "learning_rate": 1.9435583118584505e-05,
4628
+ "loss": 0.0234,
4629
+ "step": 33000
4630
+ },
4631
+ {
4632
+ "epoch": 0.028515519172264796,
4633
+ "grad_norm": 9.135671461990569e-06,
4634
+ "learning_rate": 1.943472009583005e-05,
4635
+ "loss": 0.0028,
4636
+ "step": 33050
4637
+ },
4638
+ {
4639
+ "epoch": 0.028558659140755362,
4640
+ "grad_norm": 1.085790088950489e-07,
4641
+ "learning_rate": 1.9433857073075592e-05,
4642
+ "loss": 0.0189,
4643
+ "step": 33100
4644
+ },
4645
+ {
4646
+ "epoch": 0.02860179910924593,
4647
+ "grad_norm": 1.0733113288879395,
4648
+ "learning_rate": 1.9432994050321132e-05,
4649
+ "loss": 0.0188,
4650
+ "step": 33150
4651
+ },
4652
+ {
4653
+ "epoch": 0.0286449390777365,
4654
+ "grad_norm": 5.325038046066766e-07,
4655
+ "learning_rate": 1.9432131027566675e-05,
4656
+ "loss": 0.0025,
4657
+ "step": 33200
4658
+ },
4659
+ {
4660
+ "epoch": 0.028688079046227066,
4661
+ "grad_norm": 0.001730454503558576,
4662
+ "learning_rate": 1.9431268004812215e-05,
4663
+ "loss": 0.0429,
4664
+ "step": 33250
4665
+ },
4666
+ {
4667
+ "epoch": 0.028731219014717632,
4668
+ "grad_norm": 0.03524341806769371,
4669
+ "learning_rate": 1.943040498205776e-05,
4670
+ "loss": 0.0147,
4671
+ "step": 33300
4672
+ },
4673
+ {
4674
+ "epoch": 0.0287743589832082,
4675
+ "grad_norm": 8.027368769703003e-10,
4676
+ "learning_rate": 1.9429541959303298e-05,
4677
+ "loss": 0.0074,
4678
+ "step": 33350
4679
+ },
4680
+ {
4681
+ "epoch": 0.028817498951698765,
4682
+ "grad_norm": 2.603889299734874e-07,
4683
+ "learning_rate": 1.9428678936548845e-05,
4684
+ "loss": 0.0015,
4685
+ "step": 33400
4686
+ },
4687
+ {
4688
+ "epoch": 0.028860638920189332,
4689
+ "grad_norm": 12.171298027038574,
4690
+ "learning_rate": 1.9427815913794385e-05,
4691
+ "loss": 0.0188,
4692
+ "step": 33450
4693
+ },
4694
+ {
4695
+ "epoch": 0.0289037788886799,
4696
+ "grad_norm": 3.4058632536471123e-06,
4697
+ "learning_rate": 1.9426952891039928e-05,
4698
+ "loss": 0.0529,
4699
+ "step": 33500
4700
+ },
4701
+ {
4702
+ "epoch": 0.028946918857170465,
4703
+ "grad_norm": 17.399200439453125,
4704
+ "learning_rate": 1.9426089868285468e-05,
4705
+ "loss": 0.0294,
4706
+ "step": 33550
4707
+ },
4708
+ {
4709
+ "epoch": 0.028990058825661035,
4710
+ "grad_norm": 0.011678768321871758,
4711
+ "learning_rate": 1.942522684553101e-05,
4712
+ "loss": 0.0211,
4713
+ "step": 33600
4714
+ },
4715
+ {
4716
+ "epoch": 0.029033198794151602,
4717
+ "grad_norm": 2.466938212819514e-06,
4718
+ "learning_rate": 1.942436382277655e-05,
4719
+ "loss": 0.03,
4720
+ "step": 33650
4721
+ },
4722
+ {
4723
+ "epoch": 0.02907633876264217,
4724
+ "grad_norm": 3.6094334986136456e-12,
4725
+ "learning_rate": 1.9423500800022095e-05,
4726
+ "loss": 0.0381,
4727
+ "step": 33700
4728
+ },
4729
+ {
4730
+ "epoch": 0.029119478731132735,
4731
+ "grad_norm": 0.08116328716278076,
4732
+ "learning_rate": 1.9422637777267638e-05,
4733
+ "loss": 0.0016,
4734
+ "step": 33750
4735
+ },
4736
+ {
4737
+ "epoch": 0.0291626186996233,
4738
+ "grad_norm": 0.2594936788082123,
4739
+ "learning_rate": 1.9421774754513178e-05,
4740
+ "loss": 0.0145,
4741
+ "step": 33800
4742
+ },
4743
+ {
4744
+ "epoch": 0.029205758668113868,
4745
+ "grad_norm": 1.6326714103342965e-05,
4746
+ "learning_rate": 1.942091173175872e-05,
4747
+ "loss": 0.014,
4748
+ "step": 33850
4749
+ },
4750
+ {
4751
+ "epoch": 0.029248898636604435,
4752
+ "grad_norm": 6.704578368044167e-07,
4753
+ "learning_rate": 1.942004870900426e-05,
4754
+ "loss": 0.0138,
4755
+ "step": 33900
4756
+ },
4757
+ {
4758
+ "epoch": 0.029292038605095,
4759
+ "grad_norm": 1.600632737464025e-09,
4760
+ "learning_rate": 1.9419185686249805e-05,
4761
+ "loss": 0.0044,
4762
+ "step": 33950
4763
+ },
4764
+ {
4765
+ "epoch": 0.02933517857358557,
4766
+ "grad_norm": 2.9473580070771277e-05,
4767
+ "learning_rate": 1.9418322663495348e-05,
4768
+ "loss": 0.0209,
4769
+ "step": 34000
4770
+ },
4771
+ {
4772
+ "epoch": 0.029378318542076138,
4773
+ "grad_norm": 0.013792168349027634,
4774
+ "learning_rate": 1.941745964074089e-05,
4775
+ "loss": 0.009,
4776
+ "step": 34050
4777
+ },
4778
+ {
4779
+ "epoch": 0.029421458510566705,
4780
+ "grad_norm": 1.5911604123175493e-07,
4781
+ "learning_rate": 1.941659661798643e-05,
4782
+ "loss": 0.0272,
4783
+ "step": 34100
4784
+ },
4785
+ {
4786
+ "epoch": 0.02946459847905727,
4787
+ "grad_norm": 0.29515737295150757,
4788
+ "learning_rate": 1.9415733595231975e-05,
4789
+ "loss": 0.0595,
4790
+ "step": 34150
4791
+ },
4792
+ {
4793
+ "epoch": 0.029507738447547838,
4794
+ "grad_norm": 2.744394862475019e-07,
4795
+ "learning_rate": 1.9414870572477515e-05,
4796
+ "loss": 0.046,
4797
+ "step": 34200
4798
+ },
4799
+ {
4800
+ "epoch": 0.029550878416038404,
4801
+ "grad_norm": 0.028887495398521423,
4802
+ "learning_rate": 1.9414007549723058e-05,
4803
+ "loss": 0.0014,
4804
+ "step": 34250
4805
+ },
4806
+ {
4807
+ "epoch": 0.02959401838452897,
4808
+ "grad_norm": 1.5995985449990258e-05,
4809
+ "learning_rate": 1.9413144526968598e-05,
4810
+ "loss": 0.0072,
4811
+ "step": 34300
4812
+ },
4813
+ {
4814
+ "epoch": 0.029637158353019537,
4815
+ "grad_norm": 1.774524207576178e-05,
4816
+ "learning_rate": 1.941228150421414e-05,
4817
+ "loss": 0.0072,
4818
+ "step": 34350
4819
+ },
4820
+ {
4821
+ "epoch": 0.029680298321510108,
4822
+ "grad_norm": 3.840292084333896e-09,
4823
+ "learning_rate": 1.9411418481459685e-05,
4824
+ "loss": 0.015,
4825
+ "step": 34400
4826
+ },
4827
+ {
4828
+ "epoch": 0.029723438290000674,
4829
+ "grad_norm": 4.855828592553735e-06,
4830
+ "learning_rate": 1.9410555458705225e-05,
4831
+ "loss": 0.0101,
4832
+ "step": 34450
4833
+ },
4834
+ {
4835
+ "epoch": 0.02976657825849124,
4836
+ "grad_norm": 5.043638229370117,
4837
+ "learning_rate": 1.9409692435950768e-05,
4838
+ "loss": 0.0598,
4839
+ "step": 34500
4840
+ },
4841
+ {
4842
+ "epoch": 0.029809718226981807,
4843
+ "grad_norm": 3.365451473058556e-09,
4844
+ "learning_rate": 1.940882941319631e-05,
4845
+ "loss": 0.012,
4846
+ "step": 34550
4847
+ },
4848
+ {
4849
+ "epoch": 0.029852858195472374,
4850
+ "grad_norm": 2.5963392999983625e-06,
4851
+ "learning_rate": 1.940796639044185e-05,
4852
+ "loss": 0.0195,
4853
+ "step": 34600
4854
+ },
4855
+ {
4856
+ "epoch": 0.02989599816396294,
4857
+ "grad_norm": 0.0003348338359501213,
4858
+ "learning_rate": 1.9407103367687394e-05,
4859
+ "loss": 0.0289,
4860
+ "step": 34650
4861
+ },
4862
+ {
4863
+ "epoch": 0.029939138132453507,
4864
+ "grad_norm": 6.386066436767578,
4865
+ "learning_rate": 1.9406240344932938e-05,
4866
+ "loss": 0.0308,
4867
+ "step": 34700
4868
+ },
4869
+ {
4870
+ "epoch": 0.029982278100944074,
4871
+ "grad_norm": 0.00012195282033644617,
4872
+ "learning_rate": 1.9405377322178478e-05,
4873
+ "loss": 0.0522,
4874
+ "step": 34750
4875
+ },
4876
+ {
4877
+ "epoch": 0.030025418069434644,
4878
+ "grad_norm": 0.0025203858967870474,
4879
+ "learning_rate": 1.940451429942402e-05,
4880
+ "loss": 0.0275,
4881
+ "step": 34800
4882
+ },
4883
+ {
4884
+ "epoch": 0.03006855803792521,
4885
+ "grad_norm": 4.238718820381848e-10,
4886
+ "learning_rate": 1.940365127666956e-05,
4887
+ "loss": 0.0164,
4888
+ "step": 34850
4889
+ },
4890
+ {
4891
+ "epoch": 0.030111698006415777,
4892
+ "grad_norm": 1.477847000330712e-08,
4893
+ "learning_rate": 1.9402788253915104e-05,
4894
+ "loss": 0.0227,
4895
+ "step": 34900
4896
+ },
4897
+ {
4898
+ "epoch": 0.030154837974906343,
4899
+ "grad_norm": 8.416482621953492e-09,
4900
+ "learning_rate": 1.9401925231160644e-05,
4901
+ "loss": 0.0379,
4902
+ "step": 34950
4903
+ },
4904
+ {
4905
+ "epoch": 0.03019797794339691,
4906
+ "grad_norm": 2.9379866646195296e-06,
4907
+ "learning_rate": 1.940106220840619e-05,
4908
+ "loss": 0.0449,
4909
+ "step": 35000
4910
+ },
4911
+ {
4912
+ "epoch": 0.030241117911887477,
4913
+ "grad_norm": 13.662910461425781,
4914
+ "learning_rate": 1.940019918565173e-05,
4915
+ "loss": 0.0245,
4916
+ "step": 35050
4917
+ },
4918
+ {
4919
+ "epoch": 0.030284257880378043,
4920
+ "grad_norm": 2.694193881325191e-06,
4921
+ "learning_rate": 1.9399336162897274e-05,
4922
+ "loss": 0.0231,
4923
+ "step": 35100
4924
+ },
4925
+ {
4926
+ "epoch": 0.03032739784886861,
4927
+ "grad_norm": 19.55348014831543,
4928
+ "learning_rate": 1.9398473140142814e-05,
4929
+ "loss": 0.0253,
4930
+ "step": 35150
4931
+ },
4932
+ {
4933
+ "epoch": 0.03037053781735918,
4934
+ "grad_norm": 7.588599970631549e-09,
4935
+ "learning_rate": 1.9397610117388358e-05,
4936
+ "loss": 0.026,
4937
+ "step": 35200
4938
+ },
4939
+ {
4940
+ "epoch": 0.030413677785849746,
4941
+ "grad_norm": 6.923779882761494e-10,
4942
+ "learning_rate": 1.9396747094633898e-05,
4943
+ "loss": 0.008,
4944
+ "step": 35250
4945
+ },
4946
+ {
4947
+ "epoch": 0.030456817754340313,
4948
+ "grad_norm": 5.178381456971692e-07,
4949
+ "learning_rate": 1.939588407187944e-05,
4950
+ "loss": 0.0512,
4951
+ "step": 35300
4952
+ },
4953
+ {
4954
+ "epoch": 0.03049995772283088,
4955
+ "grad_norm": 3.179905760930524e-08,
4956
+ "learning_rate": 1.939502104912498e-05,
4957
+ "loss": 0.0314,
4958
+ "step": 35350
4959
+ },
4960
+ {
4961
+ "epoch": 0.030543097691321446,
4962
+ "grad_norm": 0.00010464258957654238,
4963
+ "learning_rate": 1.9394158026370524e-05,
4964
+ "loss": 0.0015,
4965
+ "step": 35400
4966
+ },
4967
+ {
4968
+ "epoch": 0.030586237659812013,
4969
+ "grad_norm": 11.300006866455078,
4970
+ "learning_rate": 1.9393295003616067e-05,
4971
+ "loss": 0.0298,
4972
+ "step": 35450
4973
+ },
4974
+ {
4975
+ "epoch": 0.03062937762830258,
4976
+ "grad_norm": 1.0112120918392975e-07,
4977
+ "learning_rate": 1.9392431980861607e-05,
4978
+ "loss": 0.0235,
4979
+ "step": 35500
4980
+ },
4981
+ {
4982
+ "epoch": 0.030672517596793146,
4983
+ "grad_norm": 0.0002930278715211898,
4984
+ "learning_rate": 1.939156895810715e-05,
4985
+ "loss": 0.0422,
4986
+ "step": 35550
4987
+ },
4988
+ {
4989
+ "epoch": 0.030715657565283716,
4990
+ "grad_norm": 3.265949146680214e-07,
4991
+ "learning_rate": 1.9390705935352694e-05,
4992
+ "loss": 0.0453,
4993
+ "step": 35600
4994
+ },
4995
+ {
4996
+ "epoch": 0.030758797533774283,
4997
+ "grad_norm": 0.01071107853204012,
4998
+ "learning_rate": 1.9389842912598234e-05,
4999
+ "loss": 0.0088,
5000
+ "step": 35650
5001
+ },
5002
+ {
5003
+ "epoch": 0.03080193750226485,
5004
+ "grad_norm": 2.198061288538611e-09,
5005
+ "learning_rate": 1.9388979889843777e-05,
5006
+ "loss": 0.0344,
5007
+ "step": 35700
5008
+ },
5009
+ {
5010
+ "epoch": 0.030845077470755416,
5011
+ "grad_norm": 2.0178050874619657e-07,
5012
+ "learning_rate": 1.938811686708932e-05,
5013
+ "loss": 0.0112,
5014
+ "step": 35750
5015
+ },
5016
+ {
5017
+ "epoch": 0.030888217439245982,
5018
+ "grad_norm": 0.03751551732420921,
5019
+ "learning_rate": 1.938725384433486e-05,
5020
+ "loss": 0.0112,
5021
+ "step": 35800
5022
+ },
5023
+ {
5024
+ "epoch": 0.03093135740773655,
5025
+ "grad_norm": 0.00011108023318229243,
5026
+ "learning_rate": 1.9386390821580404e-05,
5027
+ "loss": 0.0275,
5028
+ "step": 35850
5029
+ },
5030
+ {
5031
+ "epoch": 0.030974497376227116,
5032
+ "grad_norm": 1.5553026644354873e-09,
5033
+ "learning_rate": 1.9385527798825944e-05,
5034
+ "loss": 0.0118,
5035
+ "step": 35900
5036
+ },
5037
+ {
5038
+ "epoch": 0.031017637344717682,
5039
+ "grad_norm": 2.6839693418878596e-06,
5040
+ "learning_rate": 1.9384664776071487e-05,
5041
+ "loss": 0.0054,
5042
+ "step": 35950
5043
+ },
5044
+ {
5045
+ "epoch": 0.03106077731320825,
5046
+ "grad_norm": 2.178272318076324e-08,
5047
+ "learning_rate": 1.9383801753317027e-05,
5048
+ "loss": 0.0331,
5049
+ "step": 36000
5050
+ },
5051
+ {
5052
+ "epoch": 0.03110391728169882,
5053
+ "grad_norm": 2.3207785204704123e-07,
5054
+ "learning_rate": 1.9382938730562574e-05,
5055
+ "loss": 0.0102,
5056
+ "step": 36050
5057
+ },
5058
+ {
5059
+ "epoch": 0.031147057250189385,
5060
+ "grad_norm": 1.738131345518923e-07,
5061
+ "learning_rate": 1.9382075707808114e-05,
5062
+ "loss": 0.0588,
5063
+ "step": 36100
5064
+ },
5065
+ {
5066
+ "epoch": 0.031190197218679952,
5067
+ "grad_norm": 0.019147371873259544,
5068
+ "learning_rate": 1.9381212685053657e-05,
5069
+ "loss": 0.043,
5070
+ "step": 36150
5071
+ },
5072
+ {
5073
+ "epoch": 0.03123333718717052,
5074
+ "grad_norm": 0.0022545859683305025,
5075
+ "learning_rate": 1.9380349662299197e-05,
5076
+ "loss": 0.0191,
5077
+ "step": 36200
5078
+ },
5079
+ {
5080
+ "epoch": 0.031276477155661085,
5081
+ "grad_norm": 0.00014786762767471373,
5082
+ "learning_rate": 1.937948663954474e-05,
5083
+ "loss": 0.0016,
5084
+ "step": 36250
5085
+ },
5086
+ {
5087
+ "epoch": 0.031319617124151655,
5088
+ "grad_norm": 1.8323513018003723e-07,
5089
+ "learning_rate": 1.937862361679028e-05,
5090
+ "loss": 0.0007,
5091
+ "step": 36300
5092
+ },
5093
+ {
5094
+ "epoch": 0.03136275709264222,
5095
+ "grad_norm": 15.16702651977539,
5096
+ "learning_rate": 1.9377760594035824e-05,
5097
+ "loss": 0.0363,
5098
+ "step": 36350
5099
+ },
5100
+ {
5101
+ "epoch": 0.03140589706113279,
5102
+ "grad_norm": 0.061391185969114304,
5103
+ "learning_rate": 1.9376897571281367e-05,
5104
+ "loss": 0.0393,
5105
+ "step": 36400
5106
+ },
5107
+ {
5108
+ "epoch": 0.03144903702962335,
5109
+ "grad_norm": 0.0035098083317279816,
5110
+ "learning_rate": 1.9376034548526907e-05,
5111
+ "loss": 0.0147,
5112
+ "step": 36450
5113
+ },
5114
+ {
5115
+ "epoch": 0.03149217699811392,
5116
+ "grad_norm": 0.06623140722513199,
5117
+ "learning_rate": 1.937517152577245e-05,
5118
+ "loss": 0.0543,
5119
+ "step": 36500
5120
+ },
5121
+ {
5122
+ "epoch": 0.031535316966604485,
5123
+ "grad_norm": 8.011748832359444e-06,
5124
+ "learning_rate": 1.937430850301799e-05,
5125
+ "loss": 0.0447,
5126
+ "step": 36550
5127
+ },
5128
+ {
5129
+ "epoch": 0.031578456935095055,
5130
+ "grad_norm": 2.976227278850274e-06,
5131
+ "learning_rate": 1.9373445480263534e-05,
5132
+ "loss": 0.0238,
5133
+ "step": 36600
5134
+ },
5135
+ {
5136
+ "epoch": 0.031621596903585625,
5137
+ "grad_norm": 4.54370677971383e-07,
5138
+ "learning_rate": 1.9372582457509077e-05,
5139
+ "loss": 0.0282,
5140
+ "step": 36650
5141
+ },
5142
+ {
5143
+ "epoch": 0.03166473687207619,
5144
+ "grad_norm": 1.2593355247503268e-09,
5145
+ "learning_rate": 1.937171943475462e-05,
5146
+ "loss": 0.0475,
5147
+ "step": 36700
5148
+ },
5149
+ {
5150
+ "epoch": 0.03170787684056676,
5151
+ "grad_norm": 0.0001775699929567054,
5152
+ "learning_rate": 1.937085641200016e-05,
5153
+ "loss": 0.0005,
5154
+ "step": 36750
5155
+ },
5156
+ {
5157
+ "epoch": 0.03175101680905732,
5158
+ "grad_norm": 1.9041050336454646e-07,
5159
+ "learning_rate": 1.9369993389245704e-05,
5160
+ "loss": 0.0008,
5161
+ "step": 36800
5162
+ },
5163
+ {
5164
+ "epoch": 0.03179415677754789,
5165
+ "grad_norm": 0.0002166083868360147,
5166
+ "learning_rate": 1.9369130366491244e-05,
5167
+ "loss": 0.0064,
5168
+ "step": 36850
5169
+ },
5170
+ {
5171
+ "epoch": 0.031837296746038454,
5172
+ "grad_norm": 2.4730157921482032e-09,
5173
+ "learning_rate": 1.9368267343736787e-05,
5174
+ "loss": 0.0747,
5175
+ "step": 36900
5176
+ },
5177
+ {
5178
+ "epoch": 0.031880436714529024,
5179
+ "grad_norm": 6.864386705274228e-06,
5180
+ "learning_rate": 1.9367404320982327e-05,
5181
+ "loss": 0.0022,
5182
+ "step": 36950
5183
+ },
5184
+ {
5185
+ "epoch": 0.03192357668301959,
5186
+ "grad_norm": 2.638907517393818e-06,
5187
+ "learning_rate": 1.936654129822787e-05,
5188
+ "loss": 0.0239,
5189
+ "step": 37000
5190
+ },
5191
+ {
5192
+ "epoch": 0.03196671665151016,
5193
+ "grad_norm": 8.631070522824302e-05,
5194
+ "learning_rate": 1.9365678275473413e-05,
5195
+ "loss": 0.0191,
5196
+ "step": 37050
5197
+ },
5198
+ {
5199
+ "epoch": 0.03200985662000073,
5200
+ "grad_norm": 14.52698802947998,
5201
+ "learning_rate": 1.9364815252718953e-05,
5202
+ "loss": 0.0188,
5203
+ "step": 37100
5204
+ },
5205
+ {
5206
+ "epoch": 0.03205299658849129,
5207
+ "grad_norm": 0.07407932728528976,
5208
+ "learning_rate": 1.9363952229964497e-05,
5209
+ "loss": 0.0136,
5210
+ "step": 37150
5211
+ },
5212
+ {
5213
+ "epoch": 0.03209613655698186,
5214
+ "grad_norm": 0.002848062664270401,
5215
+ "learning_rate": 1.936308920721004e-05,
5216
+ "loss": 0.0451,
5217
+ "step": 37200
5218
+ },
5219
+ {
5220
+ "epoch": 0.032139276525472424,
5221
+ "grad_norm": 2.2414766931433405e-07,
5222
+ "learning_rate": 1.936222618445558e-05,
5223
+ "loss": 0.0395,
5224
+ "step": 37250
5225
+ },
5226
+ {
5227
+ "epoch": 0.032182416493962994,
5228
+ "grad_norm": 5.524349830920983e-07,
5229
+ "learning_rate": 1.9361363161701123e-05,
5230
+ "loss": 0.0468,
5231
+ "step": 37300
5232
+ },
5233
+ {
5234
+ "epoch": 0.03222555646245356,
5235
+ "grad_norm": 2.2004120182828046e-05,
5236
+ "learning_rate": 1.9360500138946667e-05,
5237
+ "loss": 0.0599,
5238
+ "step": 37350
5239
+ },
5240
+ {
5241
+ "epoch": 0.03226869643094413,
5242
+ "grad_norm": 5.064206831661977e-08,
5243
+ "learning_rate": 1.9359637116192207e-05,
5244
+ "loss": 0.0191,
5245
+ "step": 37400
5246
+ },
5247
+ {
5248
+ "epoch": 0.0323118363994347,
5249
+ "grad_norm": 5.038096060161479e-05,
5250
+ "learning_rate": 1.935877409343775e-05,
5251
+ "loss": 0.0094,
5252
+ "step": 37450
5253
+ },
5254
+ {
5255
+ "epoch": 0.03235497636792526,
5256
+ "grad_norm": 0.002139901742339134,
5257
+ "learning_rate": 1.935791107068329e-05,
5258
+ "loss": 0.0026,
5259
+ "step": 37500
5260
+ },
5261
+ {
5262
+ "epoch": 0.03239811633641583,
5263
+ "grad_norm": 0.025793571025133133,
5264
+ "learning_rate": 1.9357048047928833e-05,
5265
+ "loss": 0.0503,
5266
+ "step": 37550
5267
+ },
5268
+ {
5269
+ "epoch": 0.03244125630490639,
5270
+ "grad_norm": 1.497374176979065,
5271
+ "learning_rate": 1.9356185025174373e-05,
5272
+ "loss": 0.0239,
5273
+ "step": 37600
5274
+ },
5275
+ {
5276
+ "epoch": 0.032484396273396964,
5277
+ "grad_norm": 9.68094241216022e-07,
5278
+ "learning_rate": 1.935532200241992e-05,
5279
+ "loss": 0.0362,
5280
+ "step": 37650
5281
+ },
5282
+ {
5283
+ "epoch": 0.03252753624188753,
5284
+ "grad_norm": 7.437192266479542e-07,
5285
+ "learning_rate": 1.935445897966546e-05,
5286
+ "loss": 0.0174,
5287
+ "step": 37700
5288
+ },
5289
+ {
5290
+ "epoch": 0.0325706762103781,
5291
+ "grad_norm": 1.591896947594762e-09,
5292
+ "learning_rate": 1.9353595956911003e-05,
5293
+ "loss": 0.0253,
5294
+ "step": 37750
5295
+ },
5296
+ {
5297
+ "epoch": 0.03261381617886866,
5298
+ "grad_norm": 14.039113998413086,
5299
+ "learning_rate": 1.9352732934156543e-05,
5300
+ "loss": 0.0201,
5301
+ "step": 37800
5302
+ },
5303
+ {
5304
+ "epoch": 0.03265695614735923,
5305
+ "grad_norm": 2.0073053747182712e-05,
5306
+ "learning_rate": 1.9351869911402087e-05,
5307
+ "loss": 0.043,
5308
+ "step": 37850
5309
+ },
5310
+ {
5311
+ "epoch": 0.0327000961158498,
5312
+ "grad_norm": 1.3844499768822516e-08,
5313
+ "learning_rate": 1.9351006888647626e-05,
5314
+ "loss": 0.007,
5315
+ "step": 37900
5316
+ },
5317
+ {
5318
+ "epoch": 0.03274323608434036,
5319
+ "grad_norm": 0.02289557084441185,
5320
+ "learning_rate": 1.935014386589317e-05,
5321
+ "loss": 0.0268,
5322
+ "step": 37950
5323
+ },
5324
+ {
5325
+ "epoch": 0.03278637605283093,
5326
+ "grad_norm": 2.7390053766729316e-11,
5327
+ "learning_rate": 1.934928084313871e-05,
5328
+ "loss": 0.0141,
5329
+ "step": 38000
5330
+ },
5331
+ {
5332
+ "epoch": 0.032829516021321496,
5333
+ "grad_norm": 2.0595265937117802e-07,
5334
+ "learning_rate": 1.9348417820384253e-05,
5335
+ "loss": 0.1202,
5336
+ "step": 38050
5337
+ },
5338
+ {
5339
+ "epoch": 0.032872655989812066,
5340
+ "grad_norm": 0.00014018621004652232,
5341
+ "learning_rate": 1.9347554797629796e-05,
5342
+ "loss": 0.0277,
5343
+ "step": 38100
5344
+ },
5345
+ {
5346
+ "epoch": 0.03291579595830263,
5347
+ "grad_norm": 9.558748570270836e-05,
5348
+ "learning_rate": 1.9346691774875336e-05,
5349
+ "loss": 0.0498,
5350
+ "step": 38150
5351
+ },
5352
+ {
5353
+ "epoch": 0.0329589359267932,
5354
+ "grad_norm": 2.20267253325801e-07,
5355
+ "learning_rate": 1.934582875212088e-05,
5356
+ "loss": 0.0357,
5357
+ "step": 38200
5358
+ },
5359
+ {
5360
+ "epoch": 0.03300207589528377,
5361
+ "grad_norm": 0.002117832424119115,
5362
+ "learning_rate": 1.9344965729366423e-05,
5363
+ "loss": 0.0478,
5364
+ "step": 38250
5365
+ },
5366
+ {
5367
+ "epoch": 0.03304521586377433,
5368
+ "grad_norm": 0.0015125697245821357,
5369
+ "learning_rate": 1.9344102706611963e-05,
5370
+ "loss": 0.0049,
5371
+ "step": 38300
5372
+ },
5373
+ {
5374
+ "epoch": 0.0330883558322649,
5375
+ "grad_norm": 0.001929111429490149,
5376
+ "learning_rate": 1.9343239683857506e-05,
5377
+ "loss": 0.0321,
5378
+ "step": 38350
5379
+ },
5380
+ {
5381
+ "epoch": 0.033131495800755466,
5382
+ "grad_norm": 14.052818298339844,
5383
+ "learning_rate": 1.934237666110305e-05,
5384
+ "loss": 0.0126,
5385
+ "step": 38400
5386
+ },
5387
+ {
5388
+ "epoch": 0.033174635769246036,
5389
+ "grad_norm": 0.04780351743102074,
5390
+ "learning_rate": 1.934151363834859e-05,
5391
+ "loss": 0.0145,
5392
+ "step": 38450
5393
+ },
5394
+ {
5395
+ "epoch": 0.0332177757377366,
5396
+ "grad_norm": 1.625859908926941e-07,
5397
+ "learning_rate": 1.9340650615594133e-05,
5398
+ "loss": 0.0006,
5399
+ "step": 38500
5400
+ },
5401
+ {
5402
+ "epoch": 0.03326091570622717,
5403
+ "grad_norm": 4.171390173723921e-06,
5404
+ "learning_rate": 1.9339787592839673e-05,
5405
+ "loss": 0.0052,
5406
+ "step": 38550
5407
+ },
5408
+ {
5409
+ "epoch": 0.03330405567471773,
5410
+ "grad_norm": 9.933991532307118e-05,
5411
+ "learning_rate": 1.9338924570085216e-05,
5412
+ "loss": 0.0149,
5413
+ "step": 38600
5414
+ },
5415
+ {
5416
+ "epoch": 0.0333471956432083,
5417
+ "grad_norm": 5.527433510899016e-10,
5418
+ "learning_rate": 1.9338061547330756e-05,
5419
+ "loss": 0.0569,
5420
+ "step": 38650
5421
+ },
5422
+ {
5423
+ "epoch": 0.03339033561169887,
5424
+ "grad_norm": 1.7711924149566016e-09,
5425
+ "learning_rate": 1.9337198524576303e-05,
5426
+ "loss": 0.0089,
5427
+ "step": 38700
5428
+ },
5429
+ {
5430
+ "epoch": 0.033433475580189435,
5431
+ "grad_norm": 5.876652497960322e-09,
5432
+ "learning_rate": 1.9336335501821843e-05,
5433
+ "loss": 0.0412,
5434
+ "step": 38750
5435
+ },
5436
+ {
5437
+ "epoch": 0.033476615548680005,
5438
+ "grad_norm": 1.2611899375915527,
5439
+ "learning_rate": 1.9335472479067386e-05,
5440
+ "loss": 0.0057,
5441
+ "step": 38800
5442
+ },
5443
+ {
5444
+ "epoch": 0.03351975551717057,
5445
+ "grad_norm": 0.00011541438288986683,
5446
+ "learning_rate": 1.9334609456312926e-05,
5447
+ "loss": 0.0264,
5448
+ "step": 38850
5449
+ },
5450
+ {
5451
+ "epoch": 0.03356289548566114,
5452
+ "grad_norm": 0.7902683019638062,
5453
+ "learning_rate": 1.933374643355847e-05,
5454
+ "loss": 0.0269,
5455
+ "step": 38900
5456
+ },
5457
+ {
5458
+ "epoch": 0.0336060354541517,
5459
+ "grad_norm": 1.6534098904230632e-05,
5460
+ "learning_rate": 1.933288341080401e-05,
5461
+ "loss": 0.0041,
5462
+ "step": 38950
5463
+ },
5464
+ {
5465
+ "epoch": 0.03364917542264227,
5466
+ "grad_norm": 0.029098449274897575,
5467
+ "learning_rate": 1.9332020388049553e-05,
5468
+ "loss": 0.0208,
5469
+ "step": 39000
5470
+ },
5471
+ {
5472
+ "epoch": 0.033692315391132835,
5473
+ "grad_norm": 0.0004794780688825995,
5474
+ "learning_rate": 1.9331157365295096e-05,
5475
+ "loss": 0.0595,
5476
+ "step": 39050
5477
+ },
5478
+ {
5479
+ "epoch": 0.033735455359623405,
5480
+ "grad_norm": 16.320070266723633,
5481
+ "learning_rate": 1.9330294342540636e-05,
5482
+ "loss": 0.0735,
5483
+ "step": 39100
5484
+ },
5485
+ {
5486
+ "epoch": 0.033778595328113975,
5487
+ "grad_norm": 3.635158840609165e-09,
5488
+ "learning_rate": 1.932943131978618e-05,
5489
+ "loss": 0.0164,
5490
+ "step": 39150
5491
+ },
5492
+ {
5493
+ "epoch": 0.03382173529660454,
5494
+ "grad_norm": 1.406357796440716e-06,
5495
+ "learning_rate": 1.932856829703172e-05,
5496
+ "loss": 0.0237,
5497
+ "step": 39200
5498
+ },
5499
+ {
5500
+ "epoch": 0.03386487526509511,
5501
+ "grad_norm": 0.05031180754303932,
5502
+ "learning_rate": 1.9327705274277263e-05,
5503
+ "loss": 0.0264,
5504
+ "step": 39250
5505
+ },
5506
+ {
5507
+ "epoch": 0.03390801523358567,
5508
+ "grad_norm": 0.022205352783203125,
5509
+ "learning_rate": 1.9326842251522806e-05,
5510
+ "loss": 0.0076,
5511
+ "step": 39300
5512
+ },
5513
+ {
5514
+ "epoch": 0.03395115520207624,
5515
+ "grad_norm": 3.1427214707946405e-05,
5516
+ "learning_rate": 1.932597922876835e-05,
5517
+ "loss": 0.0093,
5518
+ "step": 39350
5519
+ },
5520
+ {
5521
+ "epoch": 0.033994295170566804,
5522
+ "grad_norm": 0.0015017461264505982,
5523
+ "learning_rate": 1.932511620601389e-05,
5524
+ "loss": 0.0016,
5525
+ "step": 39400
5526
+ },
5527
+ {
5528
+ "epoch": 0.034037435139057375,
5529
+ "grad_norm": 3.3295341483885466e-10,
5530
+ "learning_rate": 1.9324253183259433e-05,
5531
+ "loss": 0.0297,
5532
+ "step": 39450
5533
+ },
5534
+ {
5535
+ "epoch": 0.034080575107547945,
5536
+ "grad_norm": 1.431539747853705e-10,
5537
+ "learning_rate": 1.9323390160504972e-05,
5538
+ "loss": 0.008,
5539
+ "step": 39500
5540
+ },
5541
+ {
5542
+ "epoch": 0.03412371507603851,
5543
+ "grad_norm": 9.472168188695562e-11,
5544
+ "learning_rate": 1.9322527137750516e-05,
5545
+ "loss": 0.0526,
5546
+ "step": 39550
5547
+ },
5548
+ {
5549
+ "epoch": 0.03416685504452908,
5550
+ "grad_norm": 1.1010347078510563e-09,
5551
+ "learning_rate": 1.9321664114996056e-05,
5552
+ "loss": 0.0438,
5553
+ "step": 39600
5554
+ },
5555
+ {
5556
+ "epoch": 0.03420999501301964,
5557
+ "grad_norm": 0.0038324242923408747,
5558
+ "learning_rate": 1.93208010922416e-05,
5559
+ "loss": 0.0068,
5560
+ "step": 39650
5561
+ },
5562
+ {
5563
+ "epoch": 0.03425313498151021,
5564
+ "grad_norm": 1.2454121067762003e-10,
5565
+ "learning_rate": 1.9319938069487142e-05,
5566
+ "loss": 0.0105,
5567
+ "step": 39700
5568
+ },
5569
+ {
5570
+ "epoch": 0.034296274950000774,
5571
+ "grad_norm": 3.0910987103283105e-09,
5572
+ "learning_rate": 1.9319075046732682e-05,
5573
+ "loss": 0.003,
5574
+ "step": 39750
5575
+ },
5576
+ {
5577
+ "epoch": 0.034339414918491344,
5578
+ "grad_norm": 0.20711366832256317,
5579
+ "learning_rate": 1.9318212023978226e-05,
5580
+ "loss": 0.0072,
5581
+ "step": 39800
5582
+ },
5583
+ {
5584
+ "epoch": 0.03438255488698191,
5585
+ "grad_norm": 0.0013983896933495998,
5586
+ "learning_rate": 1.931734900122377e-05,
5587
+ "loss": 0.0357,
5588
+ "step": 39850
5589
+ },
5590
+ {
5591
+ "epoch": 0.03442569485547248,
5592
+ "grad_norm": 1.195646859741828e-06,
5593
+ "learning_rate": 1.931648597846931e-05,
5594
+ "loss": 0.0252,
5595
+ "step": 39900
5596
+ },
5597
+ {
5598
+ "epoch": 0.03446883482396305,
5599
+ "grad_norm": 0.0007419702014885843,
5600
+ "learning_rate": 1.9315622955714852e-05,
5601
+ "loss": 0.0203,
5602
+ "step": 39950
5603
+ },
5604
+ {
5605
+ "epoch": 0.03451197479245361,
5606
+ "grad_norm": 1.9399341908865608e-05,
5607
+ "learning_rate": 1.9314759932960396e-05,
5608
+ "loss": 0.0273,
5609
+ "step": 40000
5610
  }
5611
  ],
5612
  "logging_steps": 50,