Ba2han commited on
Commit
aa0f4ea
·
verified ·
1 Parent(s): 8df5386

Training in progress, step 525, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4acdd80531807d507082bacc543f102532a354eec02cd1966745d1d59e68eff3
3
  size 1311381296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:240b5dc839c6a052475de2c65478c6ae63f48f86c374757e8b75e4ee54277d3b
3
  size 1311381296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0a7588a06a2d75948117cd71cfb0d1544944ab8329456b99b22812c5d195fd0
3
  size 1543168721
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:84f90b4ab1f233fcbef72dbed1b18cc78e04aca81bf0cc7244a6348a41da9084
3
  size 1543168721
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3d6d8fafcd1ee268414be5acf0366296af5b03d60871978712eac1979cb42d65
3
  size 14645
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:297b0bfab4dad8ff9282a92ef0b04bef91b5a6058bda25a2984688f4a54c5479
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b341c034af54d94ea6acd4c2c1460069e92f327e2bc7c02119cd9b60167f4580
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.1,
6
  "eval_steps": 175,
7
- "global_step": 350,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2474,6 +2474,1239 @@
2474
  "eval_samples_per_second": 8.576,
2475
  "eval_steps_per_second": 2.144,
2476
  "step": 350
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2477
  }
2478
  ],
2479
  "logging_steps": 1,
@@ -2493,7 +3726,7 @@
2493
  "attributes": {}
2494
  }
2495
  },
2496
- "total_flos": 4.9210196874310426e+17,
2497
  "train_batch_size": 16,
2498
  "trial_name": null,
2499
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.15,
6
  "eval_steps": 175,
7
+ "global_step": 525,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2474
  "eval_samples_per_second": 8.576,
2475
  "eval_steps_per_second": 2.144,
2476
  "step": 350
2477
+ },
2478
+ {
2479
+ "epoch": 0.10028571428571428,
2480
+ "grad_norm": 1.3528292179107666,
2481
+ "learning_rate": 0.001,
2482
+ "loss": 6.034597396850586,
2483
+ "step": 351
2484
+ },
2485
+ {
2486
+ "epoch": 0.10057142857142858,
2487
+ "grad_norm": 1.392505407333374,
2488
+ "learning_rate": 0.001,
2489
+ "loss": 5.979316711425781,
2490
+ "step": 352
2491
+ },
2492
+ {
2493
+ "epoch": 0.10085714285714285,
2494
+ "grad_norm": 1.362580418586731,
2495
+ "learning_rate": 0.001,
2496
+ "loss": 5.992738723754883,
2497
+ "step": 353
2498
+ },
2499
+ {
2500
+ "epoch": 0.10114285714285715,
2501
+ "grad_norm": 1.3664690256118774,
2502
+ "learning_rate": 0.001,
2503
+ "loss": 6.036233901977539,
2504
+ "step": 354
2505
+ },
2506
+ {
2507
+ "epoch": 0.10142857142857142,
2508
+ "grad_norm": 1.4197261333465576,
2509
+ "learning_rate": 0.001,
2510
+ "loss": 5.977957725524902,
2511
+ "step": 355
2512
+ },
2513
+ {
2514
+ "epoch": 0.10171428571428572,
2515
+ "grad_norm": 1.4244575500488281,
2516
+ "learning_rate": 0.001,
2517
+ "loss": 5.941583156585693,
2518
+ "step": 356
2519
+ },
2520
+ {
2521
+ "epoch": 0.102,
2522
+ "grad_norm": 1.3508753776550293,
2523
+ "learning_rate": 0.001,
2524
+ "loss": 5.954012870788574,
2525
+ "step": 357
2526
+ },
2527
+ {
2528
+ "epoch": 0.10228571428571429,
2529
+ "grad_norm": 1.4688359498977661,
2530
+ "learning_rate": 0.001,
2531
+ "loss": 5.932170867919922,
2532
+ "step": 358
2533
+ },
2534
+ {
2535
+ "epoch": 0.10257142857142858,
2536
+ "grad_norm": 1.3655815124511719,
2537
+ "learning_rate": 0.001,
2538
+ "loss": 5.964273929595947,
2539
+ "step": 359
2540
+ },
2541
+ {
2542
+ "epoch": 0.10285714285714286,
2543
+ "grad_norm": 1.3773704767227173,
2544
+ "learning_rate": 0.001,
2545
+ "loss": 5.929989814758301,
2546
+ "step": 360
2547
+ },
2548
+ {
2549
+ "epoch": 0.10314285714285715,
2550
+ "grad_norm": 1.414300560951233,
2551
+ "learning_rate": 0.001,
2552
+ "loss": 5.952170372009277,
2553
+ "step": 361
2554
+ },
2555
+ {
2556
+ "epoch": 0.10342857142857143,
2557
+ "grad_norm": 1.4066667556762695,
2558
+ "learning_rate": 0.001,
2559
+ "loss": 5.928333759307861,
2560
+ "step": 362
2561
+ },
2562
+ {
2563
+ "epoch": 0.10371428571428572,
2564
+ "grad_norm": 1.350995659828186,
2565
+ "learning_rate": 0.001,
2566
+ "loss": 5.880458831787109,
2567
+ "step": 363
2568
+ },
2569
+ {
2570
+ "epoch": 0.104,
2571
+ "grad_norm": 1.2922935485839844,
2572
+ "learning_rate": 0.001,
2573
+ "loss": 5.87301778793335,
2574
+ "step": 364
2575
+ },
2576
+ {
2577
+ "epoch": 0.10428571428571429,
2578
+ "grad_norm": 1.3252061605453491,
2579
+ "learning_rate": 0.001,
2580
+ "loss": 5.878377437591553,
2581
+ "step": 365
2582
+ },
2583
+ {
2584
+ "epoch": 0.10457142857142857,
2585
+ "grad_norm": 1.408143401145935,
2586
+ "learning_rate": 0.001,
2587
+ "loss": 5.818056583404541,
2588
+ "step": 366
2589
+ },
2590
+ {
2591
+ "epoch": 0.10485714285714286,
2592
+ "grad_norm": 1.360413670539856,
2593
+ "learning_rate": 0.001,
2594
+ "loss": 5.873591423034668,
2595
+ "step": 367
2596
+ },
2597
+ {
2598
+ "epoch": 0.10514285714285715,
2599
+ "grad_norm": 1.344091773033142,
2600
+ "learning_rate": 0.001,
2601
+ "loss": 5.825854778289795,
2602
+ "step": 368
2603
+ },
2604
+ {
2605
+ "epoch": 0.10542857142857143,
2606
+ "grad_norm": 1.3215280771255493,
2607
+ "learning_rate": 0.001,
2608
+ "loss": 5.826833248138428,
2609
+ "step": 369
2610
+ },
2611
+ {
2612
+ "epoch": 0.10571428571428572,
2613
+ "grad_norm": 1.3262429237365723,
2614
+ "learning_rate": 0.001,
2615
+ "loss": 5.827884197235107,
2616
+ "step": 370
2617
+ },
2618
+ {
2619
+ "epoch": 0.106,
2620
+ "grad_norm": 1.2807199954986572,
2621
+ "learning_rate": 0.001,
2622
+ "loss": 5.807199954986572,
2623
+ "step": 371
2624
+ },
2625
+ {
2626
+ "epoch": 0.10628571428571429,
2627
+ "grad_norm": 1.302396535873413,
2628
+ "learning_rate": 0.001,
2629
+ "loss": 5.773519515991211,
2630
+ "step": 372
2631
+ },
2632
+ {
2633
+ "epoch": 0.10657142857142857,
2634
+ "grad_norm": 1.2010446786880493,
2635
+ "learning_rate": 0.001,
2636
+ "loss": 5.818293571472168,
2637
+ "step": 373
2638
+ },
2639
+ {
2640
+ "epoch": 0.10685714285714286,
2641
+ "grad_norm": 1.297667384147644,
2642
+ "learning_rate": 0.001,
2643
+ "loss": 5.738192558288574,
2644
+ "step": 374
2645
+ },
2646
+ {
2647
+ "epoch": 0.10714285714285714,
2648
+ "grad_norm": 1.260051965713501,
2649
+ "learning_rate": 0.001,
2650
+ "loss": 5.853949069976807,
2651
+ "step": 375
2652
+ },
2653
+ {
2654
+ "epoch": 0.10742857142857143,
2655
+ "grad_norm": 1.266003131866455,
2656
+ "learning_rate": 0.001,
2657
+ "loss": 5.801722526550293,
2658
+ "step": 376
2659
+ },
2660
+ {
2661
+ "epoch": 0.10771428571428572,
2662
+ "grad_norm": 1.2530462741851807,
2663
+ "learning_rate": 0.001,
2664
+ "loss": 5.817451000213623,
2665
+ "step": 377
2666
+ },
2667
+ {
2668
+ "epoch": 0.108,
2669
+ "grad_norm": 1.253485083580017,
2670
+ "learning_rate": 0.001,
2671
+ "loss": 5.770527362823486,
2672
+ "step": 378
2673
+ },
2674
+ {
2675
+ "epoch": 0.10828571428571429,
2676
+ "grad_norm": 1.301617980003357,
2677
+ "learning_rate": 0.001,
2678
+ "loss": 5.79968786239624,
2679
+ "step": 379
2680
+ },
2681
+ {
2682
+ "epoch": 0.10857142857142857,
2683
+ "grad_norm": 1.264508843421936,
2684
+ "learning_rate": 0.001,
2685
+ "loss": 5.702681541442871,
2686
+ "step": 380
2687
+ },
2688
+ {
2689
+ "epoch": 0.10885714285714286,
2690
+ "grad_norm": 1.1902637481689453,
2691
+ "learning_rate": 0.001,
2692
+ "loss": 5.78672456741333,
2693
+ "step": 381
2694
+ },
2695
+ {
2696
+ "epoch": 0.10914285714285714,
2697
+ "grad_norm": 1.2222683429718018,
2698
+ "learning_rate": 0.001,
2699
+ "loss": 5.722955226898193,
2700
+ "step": 382
2701
+ },
2702
+ {
2703
+ "epoch": 0.10942857142857143,
2704
+ "grad_norm": 1.2311407327651978,
2705
+ "learning_rate": 0.001,
2706
+ "loss": 5.774104595184326,
2707
+ "step": 383
2708
+ },
2709
+ {
2710
+ "epoch": 0.10971428571428571,
2711
+ "grad_norm": 1.3318625688552856,
2712
+ "learning_rate": 0.001,
2713
+ "loss": 5.682190418243408,
2714
+ "step": 384
2715
+ },
2716
+ {
2717
+ "epoch": 0.11,
2718
+ "grad_norm": 1.240397572517395,
2719
+ "learning_rate": 0.001,
2720
+ "loss": 5.739994049072266,
2721
+ "step": 385
2722
+ },
2723
+ {
2724
+ "epoch": 0.11028571428571429,
2725
+ "grad_norm": 1.198891520500183,
2726
+ "learning_rate": 0.001,
2727
+ "loss": 5.662315845489502,
2728
+ "step": 386
2729
+ },
2730
+ {
2731
+ "epoch": 0.11057142857142857,
2732
+ "grad_norm": 1.1602271795272827,
2733
+ "learning_rate": 0.001,
2734
+ "loss": 5.753437519073486,
2735
+ "step": 387
2736
+ },
2737
+ {
2738
+ "epoch": 0.11085714285714286,
2739
+ "grad_norm": 1.2685130834579468,
2740
+ "learning_rate": 0.001,
2741
+ "loss": 5.619208335876465,
2742
+ "step": 388
2743
+ },
2744
+ {
2745
+ "epoch": 0.11114285714285714,
2746
+ "grad_norm": 1.3128584623336792,
2747
+ "learning_rate": 0.001,
2748
+ "loss": 5.722102642059326,
2749
+ "step": 389
2750
+ },
2751
+ {
2752
+ "epoch": 0.11142857142857143,
2753
+ "grad_norm": 1.204474925994873,
2754
+ "learning_rate": 0.001,
2755
+ "loss": 5.635885238647461,
2756
+ "step": 390
2757
+ },
2758
+ {
2759
+ "epoch": 0.11171428571428571,
2760
+ "grad_norm": 1.1874816417694092,
2761
+ "learning_rate": 0.001,
2762
+ "loss": 5.661076068878174,
2763
+ "step": 391
2764
+ },
2765
+ {
2766
+ "epoch": 0.112,
2767
+ "grad_norm": 1.1582341194152832,
2768
+ "learning_rate": 0.001,
2769
+ "loss": 5.608723163604736,
2770
+ "step": 392
2771
+ },
2772
+ {
2773
+ "epoch": 0.11228571428571428,
2774
+ "grad_norm": 1.2210676670074463,
2775
+ "learning_rate": 0.001,
2776
+ "loss": 5.618552207946777,
2777
+ "step": 393
2778
+ },
2779
+ {
2780
+ "epoch": 0.11257142857142857,
2781
+ "grad_norm": 1.192152976989746,
2782
+ "learning_rate": 0.001,
2783
+ "loss": 5.620550632476807,
2784
+ "step": 394
2785
+ },
2786
+ {
2787
+ "epoch": 0.11285714285714285,
2788
+ "grad_norm": 1.1243138313293457,
2789
+ "learning_rate": 0.001,
2790
+ "loss": 5.688298225402832,
2791
+ "step": 395
2792
+ },
2793
+ {
2794
+ "epoch": 0.11314285714285714,
2795
+ "grad_norm": 1.1195775270462036,
2796
+ "learning_rate": 0.001,
2797
+ "loss": 5.562441825866699,
2798
+ "step": 396
2799
+ },
2800
+ {
2801
+ "epoch": 0.11342857142857143,
2802
+ "grad_norm": 1.2325485944747925,
2803
+ "learning_rate": 0.001,
2804
+ "loss": 5.615917682647705,
2805
+ "step": 397
2806
+ },
2807
+ {
2808
+ "epoch": 0.11371428571428571,
2809
+ "grad_norm": 1.094494342803955,
2810
+ "learning_rate": 0.001,
2811
+ "loss": 5.563663959503174,
2812
+ "step": 398
2813
+ },
2814
+ {
2815
+ "epoch": 0.114,
2816
+ "grad_norm": 1.1367664337158203,
2817
+ "learning_rate": 0.001,
2818
+ "loss": 5.659440040588379,
2819
+ "step": 399
2820
+ },
2821
+ {
2822
+ "epoch": 0.11428571428571428,
2823
+ "grad_norm": 1.2361277341842651,
2824
+ "learning_rate": 0.001,
2825
+ "loss": 5.571027755737305,
2826
+ "step": 400
2827
+ },
2828
+ {
2829
+ "epoch": 0.11457142857142857,
2830
+ "grad_norm": 1.089381456375122,
2831
+ "learning_rate": 0.001,
2832
+ "loss": 5.635144233703613,
2833
+ "step": 401
2834
+ },
2835
+ {
2836
+ "epoch": 0.11485714285714285,
2837
+ "grad_norm": 1.3162202835083008,
2838
+ "learning_rate": 0.001,
2839
+ "loss": 5.620790958404541,
2840
+ "step": 402
2841
+ },
2842
+ {
2843
+ "epoch": 0.11514285714285714,
2844
+ "grad_norm": 1.1435638666152954,
2845
+ "learning_rate": 0.001,
2846
+ "loss": 5.574390411376953,
2847
+ "step": 403
2848
+ },
2849
+ {
2850
+ "epoch": 0.11542857142857142,
2851
+ "grad_norm": 1.3203638792037964,
2852
+ "learning_rate": 0.001,
2853
+ "loss": 5.517210006713867,
2854
+ "step": 404
2855
+ },
2856
+ {
2857
+ "epoch": 0.11571428571428571,
2858
+ "grad_norm": 1.0997134447097778,
2859
+ "learning_rate": 0.001,
2860
+ "loss": 5.55522346496582,
2861
+ "step": 405
2862
+ },
2863
+ {
2864
+ "epoch": 0.116,
2865
+ "grad_norm": 1.1040183305740356,
2866
+ "learning_rate": 0.001,
2867
+ "loss": 5.548467636108398,
2868
+ "step": 406
2869
+ },
2870
+ {
2871
+ "epoch": 0.11628571428571428,
2872
+ "grad_norm": 1.1761415004730225,
2873
+ "learning_rate": 0.001,
2874
+ "loss": 5.560356616973877,
2875
+ "step": 407
2876
+ },
2877
+ {
2878
+ "epoch": 0.11657142857142858,
2879
+ "grad_norm": 1.050987958908081,
2880
+ "learning_rate": 0.001,
2881
+ "loss": 5.533413887023926,
2882
+ "step": 408
2883
+ },
2884
+ {
2885
+ "epoch": 0.11685714285714285,
2886
+ "grad_norm": 1.2728478908538818,
2887
+ "learning_rate": 0.001,
2888
+ "loss": 5.5438971519470215,
2889
+ "step": 409
2890
+ },
2891
+ {
2892
+ "epoch": 0.11714285714285715,
2893
+ "grad_norm": 1.0529109239578247,
2894
+ "learning_rate": 0.001,
2895
+ "loss": 5.479302406311035,
2896
+ "step": 410
2897
+ },
2898
+ {
2899
+ "epoch": 0.11742857142857142,
2900
+ "grad_norm": 1.0749348402023315,
2901
+ "learning_rate": 0.001,
2902
+ "loss": 5.514036655426025,
2903
+ "step": 411
2904
+ },
2905
+ {
2906
+ "epoch": 0.11771428571428572,
2907
+ "grad_norm": 1.1333913803100586,
2908
+ "learning_rate": 0.001,
2909
+ "loss": 5.504560947418213,
2910
+ "step": 412
2911
+ },
2912
+ {
2913
+ "epoch": 0.118,
2914
+ "grad_norm": 1.136358618736267,
2915
+ "learning_rate": 0.001,
2916
+ "loss": 5.4899373054504395,
2917
+ "step": 413
2918
+ },
2919
+ {
2920
+ "epoch": 0.11828571428571429,
2921
+ "grad_norm": 1.0938942432403564,
2922
+ "learning_rate": 0.001,
2923
+ "loss": 5.436349868774414,
2924
+ "step": 414
2925
+ },
2926
+ {
2927
+ "epoch": 0.11857142857142858,
2928
+ "grad_norm": 1.1970667839050293,
2929
+ "learning_rate": 0.001,
2930
+ "loss": 5.5028557777404785,
2931
+ "step": 415
2932
+ },
2933
+ {
2934
+ "epoch": 0.11885714285714286,
2935
+ "grad_norm": 1.1001304388046265,
2936
+ "learning_rate": 0.001,
2937
+ "loss": 5.438455581665039,
2938
+ "step": 416
2939
+ },
2940
+ {
2941
+ "epoch": 0.11914285714285715,
2942
+ "grad_norm": 1.0444203615188599,
2943
+ "learning_rate": 0.001,
2944
+ "loss": 5.500203609466553,
2945
+ "step": 417
2946
+ },
2947
+ {
2948
+ "epoch": 0.11942857142857143,
2949
+ "grad_norm": 1.2863494157791138,
2950
+ "learning_rate": 0.001,
2951
+ "loss": 5.4192891120910645,
2952
+ "step": 418
2953
+ },
2954
+ {
2955
+ "epoch": 0.11971428571428572,
2956
+ "grad_norm": 1.1580034494400024,
2957
+ "learning_rate": 0.001,
2958
+ "loss": 5.442489147186279,
2959
+ "step": 419
2960
+ },
2961
+ {
2962
+ "epoch": 0.12,
2963
+ "grad_norm": 1.0923646688461304,
2964
+ "learning_rate": 0.001,
2965
+ "loss": 5.414194583892822,
2966
+ "step": 420
2967
+ },
2968
+ {
2969
+ "epoch": 0.12028571428571429,
2970
+ "grad_norm": 1.1441943645477295,
2971
+ "learning_rate": 0.001,
2972
+ "loss": 5.431639671325684,
2973
+ "step": 421
2974
+ },
2975
+ {
2976
+ "epoch": 0.12057142857142857,
2977
+ "grad_norm": 1.0411007404327393,
2978
+ "learning_rate": 0.001,
2979
+ "loss": 5.472476005554199,
2980
+ "step": 422
2981
+ },
2982
+ {
2983
+ "epoch": 0.12085714285714286,
2984
+ "grad_norm": 1.1856043338775635,
2985
+ "learning_rate": 0.001,
2986
+ "loss": 5.41392183303833,
2987
+ "step": 423
2988
+ },
2989
+ {
2990
+ "epoch": 0.12114285714285715,
2991
+ "grad_norm": 1.1088652610778809,
2992
+ "learning_rate": 0.001,
2993
+ "loss": 5.409942626953125,
2994
+ "step": 424
2995
+ },
2996
+ {
2997
+ "epoch": 0.12142857142857143,
2998
+ "grad_norm": 1.1382297277450562,
2999
+ "learning_rate": 0.001,
3000
+ "loss": 5.413122177124023,
3001
+ "step": 425
3002
+ },
3003
+ {
3004
+ "epoch": 0.12171428571428572,
3005
+ "grad_norm": 1.060284972190857,
3006
+ "learning_rate": 0.001,
3007
+ "loss": 5.390390872955322,
3008
+ "step": 426
3009
+ },
3010
+ {
3011
+ "epoch": 0.122,
3012
+ "grad_norm": 1.0070810317993164,
3013
+ "learning_rate": 0.001,
3014
+ "loss": 5.417789936065674,
3015
+ "step": 427
3016
+ },
3017
+ {
3018
+ "epoch": 0.12228571428571429,
3019
+ "grad_norm": 1.0594487190246582,
3020
+ "learning_rate": 0.001,
3021
+ "loss": 5.350903511047363,
3022
+ "step": 428
3023
+ },
3024
+ {
3025
+ "epoch": 0.12257142857142857,
3026
+ "grad_norm": 1.1363307237625122,
3027
+ "learning_rate": 0.001,
3028
+ "loss": 5.364880084991455,
3029
+ "step": 429
3030
+ },
3031
+ {
3032
+ "epoch": 0.12285714285714286,
3033
+ "grad_norm": 1.1017429828643799,
3034
+ "learning_rate": 0.001,
3035
+ "loss": 5.394749164581299,
3036
+ "step": 430
3037
+ },
3038
+ {
3039
+ "epoch": 0.12314285714285714,
3040
+ "grad_norm": 1.138629674911499,
3041
+ "learning_rate": 0.001,
3042
+ "loss": 5.366091251373291,
3043
+ "step": 431
3044
+ },
3045
+ {
3046
+ "epoch": 0.12342857142857143,
3047
+ "grad_norm": 1.1799721717834473,
3048
+ "learning_rate": 0.001,
3049
+ "loss": 5.366257667541504,
3050
+ "step": 432
3051
+ },
3052
+ {
3053
+ "epoch": 0.12371428571428572,
3054
+ "grad_norm": 1.0385410785675049,
3055
+ "learning_rate": 0.001,
3056
+ "loss": 5.342431545257568,
3057
+ "step": 433
3058
+ },
3059
+ {
3060
+ "epoch": 0.124,
3061
+ "grad_norm": 1.051072359085083,
3062
+ "learning_rate": 0.001,
3063
+ "loss": 5.35132360458374,
3064
+ "step": 434
3065
+ },
3066
+ {
3067
+ "epoch": 0.12428571428571429,
3068
+ "grad_norm": 1.0489829778671265,
3069
+ "learning_rate": 0.001,
3070
+ "loss": 5.30415678024292,
3071
+ "step": 435
3072
+ },
3073
+ {
3074
+ "epoch": 0.12457142857142857,
3075
+ "grad_norm": 1.0064418315887451,
3076
+ "learning_rate": 0.001,
3077
+ "loss": 5.359162330627441,
3078
+ "step": 436
3079
+ },
3080
+ {
3081
+ "epoch": 0.12485714285714286,
3082
+ "grad_norm": 1.045552134513855,
3083
+ "learning_rate": 0.001,
3084
+ "loss": 5.32468318939209,
3085
+ "step": 437
3086
+ },
3087
+ {
3088
+ "epoch": 0.12514285714285714,
3089
+ "grad_norm": 1.1107268333435059,
3090
+ "learning_rate": 0.001,
3091
+ "loss": 5.395519256591797,
3092
+ "step": 438
3093
+ },
3094
+ {
3095
+ "epoch": 0.12542857142857142,
3096
+ "grad_norm": 1.0607658624649048,
3097
+ "learning_rate": 0.001,
3098
+ "loss": 5.265985488891602,
3099
+ "step": 439
3100
+ },
3101
+ {
3102
+ "epoch": 0.12571428571428572,
3103
+ "grad_norm": 1.0155754089355469,
3104
+ "learning_rate": 0.001,
3105
+ "loss": 5.302718162536621,
3106
+ "step": 440
3107
+ },
3108
+ {
3109
+ "epoch": 0.126,
3110
+ "grad_norm": 1.0499167442321777,
3111
+ "learning_rate": 0.001,
3112
+ "loss": 5.3036274909973145,
3113
+ "step": 441
3114
+ },
3115
+ {
3116
+ "epoch": 0.12628571428571428,
3117
+ "grad_norm": 0.9737458229064941,
3118
+ "learning_rate": 0.001,
3119
+ "loss": 5.297948360443115,
3120
+ "step": 442
3121
+ },
3122
+ {
3123
+ "epoch": 0.12657142857142858,
3124
+ "grad_norm": 1.0175093412399292,
3125
+ "learning_rate": 0.001,
3126
+ "loss": 5.300426483154297,
3127
+ "step": 443
3128
+ },
3129
+ {
3130
+ "epoch": 0.12685714285714286,
3131
+ "grad_norm": 1.1759352684020996,
3132
+ "learning_rate": 0.001,
3133
+ "loss": 5.339329242706299,
3134
+ "step": 444
3135
+ },
3136
+ {
3137
+ "epoch": 0.12714285714285714,
3138
+ "grad_norm": 1.0861457586288452,
3139
+ "learning_rate": 0.001,
3140
+ "loss": 5.220453262329102,
3141
+ "step": 445
3142
+ },
3143
+ {
3144
+ "epoch": 0.12742857142857142,
3145
+ "grad_norm": 0.9744501709938049,
3146
+ "learning_rate": 0.001,
3147
+ "loss": 5.312012195587158,
3148
+ "step": 446
3149
+ },
3150
+ {
3151
+ "epoch": 0.12771428571428572,
3152
+ "grad_norm": 0.9547734260559082,
3153
+ "learning_rate": 0.001,
3154
+ "loss": 5.241524696350098,
3155
+ "step": 447
3156
+ },
3157
+ {
3158
+ "epoch": 0.128,
3159
+ "grad_norm": 1.0768176317214966,
3160
+ "learning_rate": 0.001,
3161
+ "loss": 5.31060791015625,
3162
+ "step": 448
3163
+ },
3164
+ {
3165
+ "epoch": 0.12828571428571428,
3166
+ "grad_norm": 1.01326584815979,
3167
+ "learning_rate": 0.001,
3168
+ "loss": 5.250446796417236,
3169
+ "step": 449
3170
+ },
3171
+ {
3172
+ "epoch": 0.12857142857142856,
3173
+ "grad_norm": 1.0076360702514648,
3174
+ "learning_rate": 0.001,
3175
+ "loss": 5.276961803436279,
3176
+ "step": 450
3177
+ },
3178
+ {
3179
+ "epoch": 0.12885714285714286,
3180
+ "grad_norm": 0.969070315361023,
3181
+ "learning_rate": 0.001,
3182
+ "loss": 5.206024169921875,
3183
+ "step": 451
3184
+ },
3185
+ {
3186
+ "epoch": 0.12914285714285714,
3187
+ "grad_norm": 1.0394223928451538,
3188
+ "learning_rate": 0.001,
3189
+ "loss": 5.295047760009766,
3190
+ "step": 452
3191
+ },
3192
+ {
3193
+ "epoch": 0.12942857142857142,
3194
+ "grad_norm": 0.9847224354743958,
3195
+ "learning_rate": 0.001,
3196
+ "loss": 5.222926139831543,
3197
+ "step": 453
3198
+ },
3199
+ {
3200
+ "epoch": 0.12971428571428573,
3201
+ "grad_norm": 0.9708535671234131,
3202
+ "learning_rate": 0.001,
3203
+ "loss": 5.248390197753906,
3204
+ "step": 454
3205
+ },
3206
+ {
3207
+ "epoch": 0.13,
3208
+ "grad_norm": 0.9936147928237915,
3209
+ "learning_rate": 0.001,
3210
+ "loss": 5.206098556518555,
3211
+ "step": 455
3212
+ },
3213
+ {
3214
+ "epoch": 0.13028571428571428,
3215
+ "grad_norm": 0.9675630927085876,
3216
+ "learning_rate": 0.001,
3217
+ "loss": 5.243976593017578,
3218
+ "step": 456
3219
+ },
3220
+ {
3221
+ "epoch": 0.13057142857142856,
3222
+ "grad_norm": 1.0233958959579468,
3223
+ "learning_rate": 0.001,
3224
+ "loss": 5.20659065246582,
3225
+ "step": 457
3226
+ },
3227
+ {
3228
+ "epoch": 0.13085714285714287,
3229
+ "grad_norm": 0.9825986623764038,
3230
+ "learning_rate": 0.001,
3231
+ "loss": 5.270219802856445,
3232
+ "step": 458
3233
+ },
3234
+ {
3235
+ "epoch": 0.13114285714285714,
3236
+ "grad_norm": 0.9673742055892944,
3237
+ "learning_rate": 0.001,
3238
+ "loss": 5.157027721405029,
3239
+ "step": 459
3240
+ },
3241
+ {
3242
+ "epoch": 0.13142857142857142,
3243
+ "grad_norm": 1.0010325908660889,
3244
+ "learning_rate": 0.001,
3245
+ "loss": 5.232192516326904,
3246
+ "step": 460
3247
+ },
3248
+ {
3249
+ "epoch": 0.1317142857142857,
3250
+ "grad_norm": 1.0134440660476685,
3251
+ "learning_rate": 0.001,
3252
+ "loss": 5.191030979156494,
3253
+ "step": 461
3254
+ },
3255
+ {
3256
+ "epoch": 0.132,
3257
+ "grad_norm": 0.959584653377533,
3258
+ "learning_rate": 0.001,
3259
+ "loss": 5.21228551864624,
3260
+ "step": 462
3261
+ },
3262
+ {
3263
+ "epoch": 0.13228571428571428,
3264
+ "grad_norm": 1.0412331819534302,
3265
+ "learning_rate": 0.001,
3266
+ "loss": 5.119292259216309,
3267
+ "step": 463
3268
+ },
3269
+ {
3270
+ "epoch": 0.13257142857142856,
3271
+ "grad_norm": 0.9348019957542419,
3272
+ "learning_rate": 0.001,
3273
+ "loss": 5.231322765350342,
3274
+ "step": 464
3275
+ },
3276
+ {
3277
+ "epoch": 0.13285714285714287,
3278
+ "grad_norm": 0.968283474445343,
3279
+ "learning_rate": 0.001,
3280
+ "loss": 5.146182060241699,
3281
+ "step": 465
3282
+ },
3283
+ {
3284
+ "epoch": 0.13314285714285715,
3285
+ "grad_norm": 0.9431299567222595,
3286
+ "learning_rate": 0.001,
3287
+ "loss": 5.187849998474121,
3288
+ "step": 466
3289
+ },
3290
+ {
3291
+ "epoch": 0.13342857142857142,
3292
+ "grad_norm": 0.9716904759407043,
3293
+ "learning_rate": 0.001,
3294
+ "loss": 5.079883575439453,
3295
+ "step": 467
3296
+ },
3297
+ {
3298
+ "epoch": 0.1337142857142857,
3299
+ "grad_norm": 0.9341455101966858,
3300
+ "learning_rate": 0.001,
3301
+ "loss": 5.129624366760254,
3302
+ "step": 468
3303
+ },
3304
+ {
3305
+ "epoch": 0.134,
3306
+ "grad_norm": 0.9602625966072083,
3307
+ "learning_rate": 0.001,
3308
+ "loss": 5.135655403137207,
3309
+ "step": 469
3310
+ },
3311
+ {
3312
+ "epoch": 0.13428571428571429,
3313
+ "grad_norm": 1.1513607501983643,
3314
+ "learning_rate": 0.001,
3315
+ "loss": 5.141994476318359,
3316
+ "step": 470
3317
+ },
3318
+ {
3319
+ "epoch": 0.13457142857142856,
3320
+ "grad_norm": 0.935822069644928,
3321
+ "learning_rate": 0.001,
3322
+ "loss": 5.1337385177612305,
3323
+ "step": 471
3324
+ },
3325
+ {
3326
+ "epoch": 0.13485714285714287,
3327
+ "grad_norm": 0.9868633151054382,
3328
+ "learning_rate": 0.001,
3329
+ "loss": 5.136781692504883,
3330
+ "step": 472
3331
+ },
3332
+ {
3333
+ "epoch": 0.13514285714285715,
3334
+ "grad_norm": 0.9418619275093079,
3335
+ "learning_rate": 0.001,
3336
+ "loss": 5.1065449714660645,
3337
+ "step": 473
3338
+ },
3339
+ {
3340
+ "epoch": 0.13542857142857143,
3341
+ "grad_norm": 0.947436511516571,
3342
+ "learning_rate": 0.001,
3343
+ "loss": 5.105165004730225,
3344
+ "step": 474
3345
+ },
3346
+ {
3347
+ "epoch": 0.1357142857142857,
3348
+ "grad_norm": 1.02706778049469,
3349
+ "learning_rate": 0.001,
3350
+ "loss": 5.121386528015137,
3351
+ "step": 475
3352
+ },
3353
+ {
3354
+ "epoch": 0.136,
3355
+ "grad_norm": 0.9679945707321167,
3356
+ "learning_rate": 0.001,
3357
+ "loss": 5.128341197967529,
3358
+ "step": 476
3359
+ },
3360
+ {
3361
+ "epoch": 0.1362857142857143,
3362
+ "grad_norm": 0.9815688729286194,
3363
+ "learning_rate": 0.001,
3364
+ "loss": 5.099264144897461,
3365
+ "step": 477
3366
+ },
3367
+ {
3368
+ "epoch": 0.13657142857142857,
3369
+ "grad_norm": 0.9458716511726379,
3370
+ "learning_rate": 0.001,
3371
+ "loss": 5.144362926483154,
3372
+ "step": 478
3373
+ },
3374
+ {
3375
+ "epoch": 0.13685714285714284,
3376
+ "grad_norm": 0.9795572757720947,
3377
+ "learning_rate": 0.001,
3378
+ "loss": 5.091696739196777,
3379
+ "step": 479
3380
+ },
3381
+ {
3382
+ "epoch": 0.13714285714285715,
3383
+ "grad_norm": 0.9244929552078247,
3384
+ "learning_rate": 0.001,
3385
+ "loss": 5.091777801513672,
3386
+ "step": 480
3387
+ },
3388
+ {
3389
+ "epoch": 0.13742857142857143,
3390
+ "grad_norm": 0.9584999680519104,
3391
+ "learning_rate": 0.001,
3392
+ "loss": 5.077735900878906,
3393
+ "step": 481
3394
+ },
3395
+ {
3396
+ "epoch": 0.1377142857142857,
3397
+ "grad_norm": 0.9418224692344666,
3398
+ "learning_rate": 0.001,
3399
+ "loss": 5.0613484382629395,
3400
+ "step": 482
3401
+ },
3402
+ {
3403
+ "epoch": 0.138,
3404
+ "grad_norm": 0.965401291847229,
3405
+ "learning_rate": 0.001,
3406
+ "loss": 5.018246650695801,
3407
+ "step": 483
3408
+ },
3409
+ {
3410
+ "epoch": 0.1382857142857143,
3411
+ "grad_norm": 1.0144182443618774,
3412
+ "learning_rate": 0.001,
3413
+ "loss": 5.066267013549805,
3414
+ "step": 484
3415
+ },
3416
+ {
3417
+ "epoch": 0.13857142857142857,
3418
+ "grad_norm": 0.890421986579895,
3419
+ "learning_rate": 0.001,
3420
+ "loss": 5.023804664611816,
3421
+ "step": 485
3422
+ },
3423
+ {
3424
+ "epoch": 0.13885714285714285,
3425
+ "grad_norm": 0.945013165473938,
3426
+ "learning_rate": 0.001,
3427
+ "loss": 5.0201311111450195,
3428
+ "step": 486
3429
+ },
3430
+ {
3431
+ "epoch": 0.13914285714285715,
3432
+ "grad_norm": 1.0092036724090576,
3433
+ "learning_rate": 0.001,
3434
+ "loss": 5.059299945831299,
3435
+ "step": 487
3436
+ },
3437
+ {
3438
+ "epoch": 0.13942857142857143,
3439
+ "grad_norm": 0.9381226301193237,
3440
+ "learning_rate": 0.001,
3441
+ "loss": 5.054329872131348,
3442
+ "step": 488
3443
+ },
3444
+ {
3445
+ "epoch": 0.1397142857142857,
3446
+ "grad_norm": 0.9205765724182129,
3447
+ "learning_rate": 0.001,
3448
+ "loss": 5.034371376037598,
3449
+ "step": 489
3450
+ },
3451
+ {
3452
+ "epoch": 0.14,
3453
+ "grad_norm": 0.9698334336280823,
3454
+ "learning_rate": 0.001,
3455
+ "loss": 5.058368682861328,
3456
+ "step": 490
3457
+ },
3458
+ {
3459
+ "epoch": 0.1402857142857143,
3460
+ "grad_norm": 1.0283845663070679,
3461
+ "learning_rate": 0.001,
3462
+ "loss": 5.019568920135498,
3463
+ "step": 491
3464
+ },
3465
+ {
3466
+ "epoch": 0.14057142857142857,
3467
+ "grad_norm": 0.9763932824134827,
3468
+ "learning_rate": 0.001,
3469
+ "loss": 5.045557022094727,
3470
+ "step": 492
3471
+ },
3472
+ {
3473
+ "epoch": 0.14085714285714285,
3474
+ "grad_norm": 1.035258412361145,
3475
+ "learning_rate": 0.001,
3476
+ "loss": 5.058183193206787,
3477
+ "step": 493
3478
+ },
3479
+ {
3480
+ "epoch": 0.14114285714285715,
3481
+ "grad_norm": 1.00905179977417,
3482
+ "learning_rate": 0.001,
3483
+ "loss": 4.991766929626465,
3484
+ "step": 494
3485
+ },
3486
+ {
3487
+ "epoch": 0.14142857142857143,
3488
+ "grad_norm": 0.9244449138641357,
3489
+ "learning_rate": 0.001,
3490
+ "loss": 4.998722553253174,
3491
+ "step": 495
3492
+ },
3493
+ {
3494
+ "epoch": 0.1417142857142857,
3495
+ "grad_norm": 0.9540549516677856,
3496
+ "learning_rate": 0.001,
3497
+ "loss": 4.964876651763916,
3498
+ "step": 496
3499
+ },
3500
+ {
3501
+ "epoch": 0.142,
3502
+ "grad_norm": 0.8989408612251282,
3503
+ "learning_rate": 0.001,
3504
+ "loss": 4.988190650939941,
3505
+ "step": 497
3506
+ },
3507
+ {
3508
+ "epoch": 0.1422857142857143,
3509
+ "grad_norm": 0.964568555355072,
3510
+ "learning_rate": 0.001,
3511
+ "loss": 5.018099784851074,
3512
+ "step": 498
3513
+ },
3514
+ {
3515
+ "epoch": 0.14257142857142857,
3516
+ "grad_norm": 0.9217190742492676,
3517
+ "learning_rate": 0.001,
3518
+ "loss": 5.0018815994262695,
3519
+ "step": 499
3520
+ },
3521
+ {
3522
+ "epoch": 0.14285714285714285,
3523
+ "grad_norm": 0.9222206473350525,
3524
+ "learning_rate": 0.001,
3525
+ "loss": 4.977924346923828,
3526
+ "step": 500
3527
+ },
3528
+ {
3529
+ "epoch": 0.14314285714285716,
3530
+ "grad_norm": 0.9363248944282532,
3531
+ "learning_rate": 0.001,
3532
+ "loss": 4.953252792358398,
3533
+ "step": 501
3534
+ },
3535
+ {
3536
+ "epoch": 0.14342857142857143,
3537
+ "grad_norm": 1.0123873949050903,
3538
+ "learning_rate": 0.001,
3539
+ "loss": 4.943054676055908,
3540
+ "step": 502
3541
+ },
3542
+ {
3543
+ "epoch": 0.1437142857142857,
3544
+ "grad_norm": 0.9083608388900757,
3545
+ "learning_rate": 0.001,
3546
+ "loss": 5.012940883636475,
3547
+ "step": 503
3548
+ },
3549
+ {
3550
+ "epoch": 0.144,
3551
+ "grad_norm": 0.882636547088623,
3552
+ "learning_rate": 0.001,
3553
+ "loss": 4.9350666999816895,
3554
+ "step": 504
3555
+ },
3556
+ {
3557
+ "epoch": 0.1442857142857143,
3558
+ "grad_norm": 0.9688971042633057,
3559
+ "learning_rate": 0.001,
3560
+ "loss": 4.982104301452637,
3561
+ "step": 505
3562
+ },
3563
+ {
3564
+ "epoch": 0.14457142857142857,
3565
+ "grad_norm": 0.939300000667572,
3566
+ "learning_rate": 0.001,
3567
+ "loss": 4.938144207000732,
3568
+ "step": 506
3569
+ },
3570
+ {
3571
+ "epoch": 0.14485714285714285,
3572
+ "grad_norm": 1.0234988927841187,
3573
+ "learning_rate": 0.001,
3574
+ "loss": 4.9430251121521,
3575
+ "step": 507
3576
+ },
3577
+ {
3578
+ "epoch": 0.14514285714285713,
3579
+ "grad_norm": 0.9347419142723083,
3580
+ "learning_rate": 0.001,
3581
+ "loss": 4.955362796783447,
3582
+ "step": 508
3583
+ },
3584
+ {
3585
+ "epoch": 0.14542857142857143,
3586
+ "grad_norm": 0.9153620004653931,
3587
+ "learning_rate": 0.001,
3588
+ "loss": 4.918880462646484,
3589
+ "step": 509
3590
+ },
3591
+ {
3592
+ "epoch": 0.1457142857142857,
3593
+ "grad_norm": 0.9035690426826477,
3594
+ "learning_rate": 0.001,
3595
+ "loss": 4.959357738494873,
3596
+ "step": 510
3597
+ },
3598
+ {
3599
+ "epoch": 0.146,
3600
+ "grad_norm": 0.8607348203659058,
3601
+ "learning_rate": 0.001,
3602
+ "loss": 4.925543785095215,
3603
+ "step": 511
3604
+ },
3605
+ {
3606
+ "epoch": 0.1462857142857143,
3607
+ "grad_norm": 0.9107086658477783,
3608
+ "learning_rate": 0.001,
3609
+ "loss": 4.863113880157471,
3610
+ "step": 512
3611
+ },
3612
+ {
3613
+ "epoch": 0.14657142857142857,
3614
+ "grad_norm": 0.9495797157287598,
3615
+ "learning_rate": 0.001,
3616
+ "loss": 4.908524036407471,
3617
+ "step": 513
3618
+ },
3619
+ {
3620
+ "epoch": 0.14685714285714285,
3621
+ "grad_norm": 0.9713687300682068,
3622
+ "learning_rate": 0.001,
3623
+ "loss": 4.902448654174805,
3624
+ "step": 514
3625
+ },
3626
+ {
3627
+ "epoch": 0.14714285714285713,
3628
+ "grad_norm": 1.1436808109283447,
3629
+ "learning_rate": 0.001,
3630
+ "loss": 4.918895244598389,
3631
+ "step": 515
3632
+ },
3633
+ {
3634
+ "epoch": 0.14742857142857144,
3635
+ "grad_norm": 0.9062098264694214,
3636
+ "learning_rate": 0.001,
3637
+ "loss": 4.8549017906188965,
3638
+ "step": 516
3639
+ },
3640
+ {
3641
+ "epoch": 0.14771428571428571,
3642
+ "grad_norm": 0.9654607176780701,
3643
+ "learning_rate": 0.001,
3644
+ "loss": 4.919809818267822,
3645
+ "step": 517
3646
+ },
3647
+ {
3648
+ "epoch": 0.148,
3649
+ "grad_norm": 0.9809955954551697,
3650
+ "learning_rate": 0.001,
3651
+ "loss": 4.840274333953857,
3652
+ "step": 518
3653
+ },
3654
+ {
3655
+ "epoch": 0.1482857142857143,
3656
+ "grad_norm": 1.1917036771774292,
3657
+ "learning_rate": 0.001,
3658
+ "loss": 4.883162021636963,
3659
+ "step": 519
3660
+ },
3661
+ {
3662
+ "epoch": 0.14857142857142858,
3663
+ "grad_norm": 0.8811300992965698,
3664
+ "learning_rate": 0.001,
3665
+ "loss": 4.873466968536377,
3666
+ "step": 520
3667
+ },
3668
+ {
3669
+ "epoch": 0.14885714285714285,
3670
+ "grad_norm": 0.98333340883255,
3671
+ "learning_rate": 0.001,
3672
+ "loss": 4.905554294586182,
3673
+ "step": 521
3674
+ },
3675
+ {
3676
+ "epoch": 0.14914285714285713,
3677
+ "grad_norm": 0.8773059248924255,
3678
+ "learning_rate": 0.001,
3679
+ "loss": 4.782233238220215,
3680
+ "step": 522
3681
+ },
3682
+ {
3683
+ "epoch": 0.14942857142857144,
3684
+ "grad_norm": 0.8445463180541992,
3685
+ "learning_rate": 0.001,
3686
+ "loss": 4.898096084594727,
3687
+ "step": 523
3688
+ },
3689
+ {
3690
+ "epoch": 0.14971428571428572,
3691
+ "grad_norm": 0.912285327911377,
3692
+ "learning_rate": 0.001,
3693
+ "loss": 4.86422061920166,
3694
+ "step": 524
3695
+ },
3696
+ {
3697
+ "epoch": 0.15,
3698
+ "grad_norm": 1.040880560874939,
3699
+ "learning_rate": 0.001,
3700
+ "loss": 4.9074602127075195,
3701
+ "step": 525
3702
+ },
3703
+ {
3704
+ "epoch": 0.15,
3705
+ "eval_loss": 4.8575520515441895,
3706
+ "eval_runtime": 592.938,
3707
+ "eval_samples_per_second": 8.594,
3708
+ "eval_steps_per_second": 2.149,
3709
+ "step": 525
3710
  }
3711
  ],
3712
  "logging_steps": 1,
 
3726
  "attributes": {}
3727
  }
3728
  },
3729
+ "total_flos": 7.38145133121289e+17,
3730
  "train_batch_size": 16,
3731
  "trial_name": null,
3732
  "trial_params": null