Fanucci commited on
Commit
ada6a05
·
verified ·
1 Parent(s): 86f43d4

Training in progress, step 600, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f95ffd3edaa4a15b67b48a59a80d63016d75f6fc3379a58777aad2d538206609
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bf23c078e9609fce3d6406e8cf3318bd1c803b0e4a1390242292fdcc82f0a604
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d7c3b004323916b5492c153fc08c323a290298007495050cc0cad546eab295bb
3
  size 1342555602
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f445125568e8c2ec052c8043e5d4738490c13a3f54d07729fc25a1f8f8f74204
3
  size 1342555602
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac26b518ee595e95332223ec66a0bc07e4d79f8083adaf367741a0653bfeebde
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:72fbfa530194f7b2cf0e13b6a439f72a3da375141106db14ca42e185603cf635
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6e768b610175e6759af08b219c6671106c68d968bba76e51c7807deb68dc4c1b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fe80b57817b0d8cc8f62cfc1dc5ac6112abe389906e014f58f93bc482e7e6c0e
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 3.206190586090088,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
- "epoch": 0.1279795232762758,
5
  "eval_steps": 200,
6
- "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2831,6 +2831,1414 @@
2831
  "eval_samples_per_second": 5.634,
2832
  "eval_steps_per_second": 1.409,
2833
  "step": 400
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2834
  }
2835
  ],
2836
  "logging_steps": 1,
@@ -2859,7 +4267,7 @@
2859
  "attributes": {}
2860
  }
2861
  },
2862
- "total_flos": 3.666932398030848e+17,
2863
  "train_batch_size": 4,
2864
  "trial_name": null,
2865
  "trial_params": null
 
1
  {
2
+ "best_metric": 3.1351470947265625,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.1919692849144137,
5
  "eval_steps": 200,
6
+ "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2831
  "eval_samples_per_second": 5.634,
2832
  "eval_steps_per_second": 1.409,
2833
  "step": 400
2834
+ },
2835
+ {
2836
+ "epoch": 0.1282994720844665,
2837
+ "grad_norm": 15.050670623779297,
2838
+ "learning_rate": 0.0003847980611605696,
2839
+ "loss": 6.5357,
2840
+ "step": 401
2841
+ },
2842
+ {
2843
+ "epoch": 0.12861942089265718,
2844
+ "grad_norm": 10.210688591003418,
2845
+ "learning_rate": 0.00038472126307432245,
2846
+ "loss": 6.5739,
2847
+ "step": 402
2848
+ },
2849
+ {
2850
+ "epoch": 0.12893936970084788,
2851
+ "grad_norm": 9.43270492553711,
2852
+ "learning_rate": 0.00038464427961536955,
2853
+ "loss": 6.8275,
2854
+ "step": 403
2855
+ },
2856
+ {
2857
+ "epoch": 0.12925931850903855,
2858
+ "grad_norm": 8.865079879760742,
2859
+ "learning_rate": 0.0003845671108653876,
2860
+ "loss": 6.6035,
2861
+ "step": 404
2862
+ },
2863
+ {
2864
+ "epoch": 0.12957926731722924,
2865
+ "grad_norm": 8.50759506225586,
2866
+ "learning_rate": 0.0003844897569062497,
2867
+ "loss": 6.4124,
2868
+ "step": 405
2869
+ },
2870
+ {
2871
+ "epoch": 0.12989921612541994,
2872
+ "grad_norm": 10.129754066467285,
2873
+ "learning_rate": 0.00038441221782002546,
2874
+ "loss": 6.5082,
2875
+ "step": 406
2876
+ },
2877
+ {
2878
+ "epoch": 0.13021916493361063,
2879
+ "grad_norm": 8.176865577697754,
2880
+ "learning_rate": 0.000384334493688981,
2881
+ "loss": 6.3945,
2882
+ "step": 407
2883
+ },
2884
+ {
2885
+ "epoch": 0.1305391137418013,
2886
+ "grad_norm": 7.027590751647949,
2887
+ "learning_rate": 0.0003842565845955786,
2888
+ "loss": 6.3583,
2889
+ "step": 408
2890
+ },
2891
+ {
2892
+ "epoch": 0.130859062549992,
2893
+ "grad_norm": 9.852948188781738,
2894
+ "learning_rate": 0.000384178490622477,
2895
+ "loss": 6.1044,
2896
+ "step": 409
2897
+ },
2898
+ {
2899
+ "epoch": 0.1311790113581827,
2900
+ "grad_norm": 8.926599502563477,
2901
+ "learning_rate": 0.0003841002118525309,
2902
+ "loss": 6.2928,
2903
+ "step": 410
2904
+ },
2905
+ {
2906
+ "epoch": 0.13149896016637339,
2907
+ "grad_norm": 8.307205200195312,
2908
+ "learning_rate": 0.0003840217483687912,
2909
+ "loss": 6.5742,
2910
+ "step": 411
2911
+ },
2912
+ {
2913
+ "epoch": 0.13181890897456408,
2914
+ "grad_norm": 7.831887722015381,
2915
+ "learning_rate": 0.0003839431002545047,
2916
+ "loss": 6.2626,
2917
+ "step": 412
2918
+ },
2919
+ {
2920
+ "epoch": 0.13213885778275475,
2921
+ "grad_norm": 7.879708766937256,
2922
+ "learning_rate": 0.0003838642675931141,
2923
+ "loss": 6.5028,
2924
+ "step": 413
2925
+ },
2926
+ {
2927
+ "epoch": 0.13245880659094544,
2928
+ "grad_norm": 5.989245891571045,
2929
+ "learning_rate": 0.00038378525046825783,
2930
+ "loss": 6.3706,
2931
+ "step": 414
2932
+ },
2933
+ {
2934
+ "epoch": 0.13277875539913614,
2935
+ "grad_norm": 7.094750881195068,
2936
+ "learning_rate": 0.0003837060489637702,
2937
+ "loss": 6.2248,
2938
+ "step": 415
2939
+ },
2940
+ {
2941
+ "epoch": 0.13309870420732683,
2942
+ "grad_norm": 7.013360977172852,
2943
+ "learning_rate": 0.00038362666316368095,
2944
+ "loss": 6.6161,
2945
+ "step": 416
2946
+ },
2947
+ {
2948
+ "epoch": 0.13341865301551753,
2949
+ "grad_norm": 6.406157970428467,
2950
+ "learning_rate": 0.00038354709315221547,
2951
+ "loss": 6.4046,
2952
+ "step": 417
2953
+ },
2954
+ {
2955
+ "epoch": 0.1337386018237082,
2956
+ "grad_norm": 7.2502055168151855,
2957
+ "learning_rate": 0.00038346733901379454,
2958
+ "loss": 6.2165,
2959
+ "step": 418
2960
+ },
2961
+ {
2962
+ "epoch": 0.1340585506318989,
2963
+ "grad_norm": 7.486465930938721,
2964
+ "learning_rate": 0.00038338740083303436,
2965
+ "loss": 6.3809,
2966
+ "step": 419
2967
+ },
2968
+ {
2969
+ "epoch": 0.1343784994400896,
2970
+ "grad_norm": 4.760215759277344,
2971
+ "learning_rate": 0.0003833072786947463,
2972
+ "loss": 6.2624,
2973
+ "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.13469844824828028,
2977
+ "grad_norm": 7.41804838180542,
2978
+ "learning_rate": 0.0003832269726839369,
2979
+ "loss": 6.219,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.13501839705647095,
2984
+ "grad_norm": 5.859868049621582,
2985
+ "learning_rate": 0.00038314648288580795,
2986
+ "loss": 6.2853,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.13533834586466165,
2991
+ "grad_norm": 7.259220123291016,
2992
+ "learning_rate": 0.000383065809385756,
2993
+ "loss": 6.4797,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.13565829467285234,
2998
+ "grad_norm": 5.617652893066406,
2999
+ "learning_rate": 0.0003829849522693727,
3000
+ "loss": 6.1839,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.13597824348104304,
3005
+ "grad_norm": 7.392098426818848,
3006
+ "learning_rate": 0.00038290391162244423,
3007
+ "loss": 6.3839,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.13629819228923373,
3012
+ "grad_norm": 5.7139997482299805,
3013
+ "learning_rate": 0.0003828226875309518,
3014
+ "loss": 6.2123,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.1366181410974244,
3019
+ "grad_norm": 5.242659568786621,
3020
+ "learning_rate": 0.0003827412800810712,
3021
+ "loss": 6.3428,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.1369380899056151,
3026
+ "grad_norm": 5.612354278564453,
3027
+ "learning_rate": 0.00038265968935917254,
3028
+ "loss": 6.3251,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.1372580387138058,
3033
+ "grad_norm": 5.880339622497559,
3034
+ "learning_rate": 0.0003825779154518207,
3035
+ "loss": 6.3662,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.1375779875219965,
3040
+ "grad_norm": 5.417006492614746,
3041
+ "learning_rate": 0.00038249595844577446,
3042
+ "loss": 6.4292,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.13789793633018718,
3047
+ "grad_norm": 8.451333999633789,
3048
+ "learning_rate": 0.0003824138184279874,
3049
+ "loss": 6.3248,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.13821788513837785,
3054
+ "grad_norm": 7.415943622589111,
3055
+ "learning_rate": 0.00038233149548560683,
3056
+ "loss": 6.3606,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.13853783394656854,
3061
+ "grad_norm": 4.678287029266357,
3062
+ "learning_rate": 0.00038224898970597426,
3063
+ "loss": 6.2415,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.13885778275475924,
3068
+ "grad_norm": 7.330494403839111,
3069
+ "learning_rate": 0.0003821663011766254,
3070
+ "loss": 6.4611,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.13917773156294994,
3075
+ "grad_norm": 5.664525985717773,
3076
+ "learning_rate": 0.0003820834299852896,
3077
+ "loss": 6.0102,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.13949768037114063,
3082
+ "grad_norm": 4.248838901519775,
3083
+ "learning_rate": 0.00038200037621989005,
3084
+ "loss": 6.2752,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.1398176291793313,
3089
+ "grad_norm": 7.762814998626709,
3090
+ "learning_rate": 0.0003819171399685437,
3091
+ "loss": 6.0838,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.140137577987522,
3096
+ "grad_norm": 6.642805576324463,
3097
+ "learning_rate": 0.00038183372131956114,
3098
+ "loss": 6.055,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.1404575267957127,
3103
+ "grad_norm": 12.796443939208984,
3104
+ "learning_rate": 0.0003817501203614464,
3105
+ "loss": 6.1023,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.14077747560390338,
3110
+ "grad_norm": 13.292308807373047,
3111
+ "learning_rate": 0.0003816663371828969,
3112
+ "loss": 6.6153,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.14109742441209405,
3117
+ "grad_norm": 5.322185516357422,
3118
+ "learning_rate": 0.00038158237187280343,
3119
+ "loss": 6.0856,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.14141737322028475,
3124
+ "grad_norm": 9.385347366333008,
3125
+ "learning_rate": 0.00038149822452025024,
3126
+ "loss": 6.1498,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.14173732202847544,
3131
+ "grad_norm": 8.704651832580566,
3132
+ "learning_rate": 0.00038141389521451427,
3133
+ "loss": 6.1346,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.14205727083666614,
3138
+ "grad_norm": 6.753723621368408,
3139
+ "learning_rate": 0.0003813293840450659,
3140
+ "loss": 6.3897,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.14237721964485683,
3145
+ "grad_norm": 9.21335220336914,
3146
+ "learning_rate": 0.0003812446911015682,
3147
+ "loss": 6.3132,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.1426971684530475,
3152
+ "grad_norm": 6.543299674987793,
3153
+ "learning_rate": 0.00038115981647387733,
3154
+ "loss": 6.2129,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.1430171172612382,
3159
+ "grad_norm": 21.838804244995117,
3160
+ "learning_rate": 0.000381074760252042,
3161
+ "loss": 6.3327,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.1433370660694289,
3166
+ "grad_norm": 28.30170440673828,
3167
+ "learning_rate": 0.00038098952252630373,
3168
+ "loss": 6.2693,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.1436570148776196,
3173
+ "grad_norm": 20.272245407104492,
3174
+ "learning_rate": 0.0003809041033870965,
3175
+ "loss": 6.173,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.14397696368581028,
3180
+ "grad_norm": 11.198784828186035,
3181
+ "learning_rate": 0.00038081850292504677,
3182
+ "loss": 6.2571,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.14429691249400095,
3187
+ "grad_norm": 6.138251304626465,
3188
+ "learning_rate": 0.00038073272123097354,
3189
+ "loss": 6.2325,
3190
+ "step": 451
3191
+ },
3192
+ {
3193
+ "epoch": 0.14461686130219165,
3194
+ "grad_norm": 8.177600860595703,
3195
+ "learning_rate": 0.0003806467583958879,
3196
+ "loss": 6.3511,
3197
+ "step": 452
3198
+ },
3199
+ {
3200
+ "epoch": 0.14493681011038234,
3201
+ "grad_norm": 6.5708184242248535,
3202
+ "learning_rate": 0.0003805606145109932,
3203
+ "loss": 6.073,
3204
+ "step": 453
3205
+ },
3206
+ {
3207
+ "epoch": 0.14525675891857304,
3208
+ "grad_norm": 7.593567848205566,
3209
+ "learning_rate": 0.00038047428966768486,
3210
+ "loss": 6.5693,
3211
+ "step": 454
3212
+ },
3213
+ {
3214
+ "epoch": 0.1455767077267637,
3215
+ "grad_norm": 10.439419746398926,
3216
+ "learning_rate": 0.00038038778395755034,
3217
+ "loss": 6.4299,
3218
+ "step": 455
3219
+ },
3220
+ {
3221
+ "epoch": 0.1458966565349544,
3222
+ "grad_norm": 11.682433128356934,
3223
+ "learning_rate": 0.00038030109747236887,
3224
+ "loss": 6.3646,
3225
+ "step": 456
3226
+ },
3227
+ {
3228
+ "epoch": 0.1462166053431451,
3229
+ "grad_norm": 6.629786491394043,
3230
+ "learning_rate": 0.00038021423030411164,
3231
+ "loss": 6.2166,
3232
+ "step": 457
3233
+ },
3234
+ {
3235
+ "epoch": 0.1465365541513358,
3236
+ "grad_norm": 9.529027938842773,
3237
+ "learning_rate": 0.0003801271825449414,
3238
+ "loss": 6.7073,
3239
+ "step": 458
3240
+ },
3241
+ {
3242
+ "epoch": 0.14685650295952649,
3243
+ "grad_norm": 13.9060697555542,
3244
+ "learning_rate": 0.0003800399542872126,
3245
+ "loss": 6.2038,
3246
+ "step": 459
3247
+ },
3248
+ {
3249
+ "epoch": 0.14717645176771715,
3250
+ "grad_norm": 7.617699146270752,
3251
+ "learning_rate": 0.0003799525456234712,
3252
+ "loss": 6.247,
3253
+ "step": 460
3254
+ },
3255
+ {
3256
+ "epoch": 0.14749640057590785,
3257
+ "grad_norm": 6.537087440490723,
3258
+ "learning_rate": 0.0003798649566464544,
3259
+ "loss": 6.3626,
3260
+ "step": 461
3261
+ },
3262
+ {
3263
+ "epoch": 0.14781634938409854,
3264
+ "grad_norm": 5.183995723724365,
3265
+ "learning_rate": 0.00037977718744909084,
3266
+ "loss": 6.332,
3267
+ "step": 462
3268
+ },
3269
+ {
3270
+ "epoch": 0.14813629819228924,
3271
+ "grad_norm": 6.627659797668457,
3272
+ "learning_rate": 0.00037968923812450037,
3273
+ "loss": 6.3186,
3274
+ "step": 463
3275
+ },
3276
+ {
3277
+ "epoch": 0.14845624700047994,
3278
+ "grad_norm": 5.604552745819092,
3279
+ "learning_rate": 0.00037960110876599396,
3280
+ "loss": 6.3636,
3281
+ "step": 464
3282
+ },
3283
+ {
3284
+ "epoch": 0.1487761958086706,
3285
+ "grad_norm": 5.800177097320557,
3286
+ "learning_rate": 0.0003795127994670735,
3287
+ "loss": 6.4762,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 0.1490961446168613,
3292
+ "grad_norm": 7.276813983917236,
3293
+ "learning_rate": 0.0003794243103214319,
3294
+ "loss": 6.2994,
3295
+ "step": 466
3296
+ },
3297
+ {
3298
+ "epoch": 0.149416093425052,
3299
+ "grad_norm": 7.041287422180176,
3300
+ "learning_rate": 0.00037933564142295274,
3301
+ "loss": 6.3795,
3302
+ "step": 467
3303
+ },
3304
+ {
3305
+ "epoch": 0.1497360422332427,
3306
+ "grad_norm": 7.782250881195068,
3307
+ "learning_rate": 0.0003792467928657105,
3308
+ "loss": 6.506,
3309
+ "step": 468
3310
+ },
3311
+ {
3312
+ "epoch": 0.15005599104143338,
3313
+ "grad_norm": 8.970823287963867,
3314
+ "learning_rate": 0.0003791577647439701,
3315
+ "loss": 6.4383,
3316
+ "step": 469
3317
+ },
3318
+ {
3319
+ "epoch": 0.15037593984962405,
3320
+ "grad_norm": 7.6800360679626465,
3321
+ "learning_rate": 0.00037906855715218695,
3322
+ "loss": 6.307,
3323
+ "step": 470
3324
+ },
3325
+ {
3326
+ "epoch": 0.15069588865781475,
3327
+ "grad_norm": 10.980112075805664,
3328
+ "learning_rate": 0.0003789791701850072,
3329
+ "loss": 6.4015,
3330
+ "step": 471
3331
+ },
3332
+ {
3333
+ "epoch": 0.15101583746600544,
3334
+ "grad_norm": 6.547383785247803,
3335
+ "learning_rate": 0.00037888960393726677,
3336
+ "loss": 6.229,
3337
+ "step": 472
3338
+ },
3339
+ {
3340
+ "epoch": 0.15133578627419614,
3341
+ "grad_norm": 8.423219680786133,
3342
+ "learning_rate": 0.0003787998585039923,
3343
+ "loss": 6.2121,
3344
+ "step": 473
3345
+ },
3346
+ {
3347
+ "epoch": 0.1516557350823868,
3348
+ "grad_norm": 5.707985877990723,
3349
+ "learning_rate": 0.0003787099339804003,
3350
+ "loss": 6.3282,
3351
+ "step": 474
3352
+ },
3353
+ {
3354
+ "epoch": 0.1519756838905775,
3355
+ "grad_norm": 6.869352340698242,
3356
+ "learning_rate": 0.0003786198304618973,
3357
+ "loss": 6.1333,
3358
+ "step": 475
3359
+ },
3360
+ {
3361
+ "epoch": 0.1522956326987682,
3362
+ "grad_norm": 6.416158676147461,
3363
+ "learning_rate": 0.00037852954804407974,
3364
+ "loss": 6.37,
3365
+ "step": 476
3366
+ },
3367
+ {
3368
+ "epoch": 0.1526155815069589,
3369
+ "grad_norm": 8.767664909362793,
3370
+ "learning_rate": 0.0003784390868227339,
3371
+ "loss": 6.1501,
3372
+ "step": 477
3373
+ },
3374
+ {
3375
+ "epoch": 0.1529355303151496,
3376
+ "grad_norm": 10.395624160766602,
3377
+ "learning_rate": 0.0003783484468938356,
3378
+ "loss": 6.5037,
3379
+ "step": 478
3380
+ },
3381
+ {
3382
+ "epoch": 0.15325547912334025,
3383
+ "grad_norm": 6.741879940032959,
3384
+ "learning_rate": 0.0003782576283535506,
3385
+ "loss": 6.4512,
3386
+ "step": 479
3387
+ },
3388
+ {
3389
+ "epoch": 0.15357542793153095,
3390
+ "grad_norm": 9.098990440368652,
3391
+ "learning_rate": 0.00037816663129823394,
3392
+ "loss": 6.2566,
3393
+ "step": 480
3394
+ },
3395
+ {
3396
+ "epoch": 0.15389537673972165,
3397
+ "grad_norm": 10.70953369140625,
3398
+ "learning_rate": 0.0003780754558244299,
3399
+ "loss": 6.1686,
3400
+ "step": 481
3401
+ },
3402
+ {
3403
+ "epoch": 0.15421532554791234,
3404
+ "grad_norm": 6.690832138061523,
3405
+ "learning_rate": 0.0003779841020288725,
3406
+ "loss": 6.1794,
3407
+ "step": 482
3408
+ },
3409
+ {
3410
+ "epoch": 0.15453527435610304,
3411
+ "grad_norm": 6.798882484436035,
3412
+ "learning_rate": 0.0003778925700084845,
3413
+ "loss": 6.0711,
3414
+ "step": 483
3415
+ },
3416
+ {
3417
+ "epoch": 0.1548552231642937,
3418
+ "grad_norm": 11.702363014221191,
3419
+ "learning_rate": 0.00037780085986037796,
3420
+ "loss": 6.6549,
3421
+ "step": 484
3422
+ },
3423
+ {
3424
+ "epoch": 0.1551751719724844,
3425
+ "grad_norm": 8.392105102539062,
3426
+ "learning_rate": 0.000377708971681854,
3427
+ "loss": 6.1966,
3428
+ "step": 485
3429
+ },
3430
+ {
3431
+ "epoch": 0.1554951207806751,
3432
+ "grad_norm": 9.752997398376465,
3433
+ "learning_rate": 0.0003776169055704025,
3434
+ "loss": 6.8049,
3435
+ "step": 486
3436
+ },
3437
+ {
3438
+ "epoch": 0.1558150695888658,
3439
+ "grad_norm": 55.3693733215332,
3440
+ "learning_rate": 0.00037752466162370207,
3441
+ "loss": 6.1044,
3442
+ "step": 487
3443
+ },
3444
+ {
3445
+ "epoch": 0.15613501839705646,
3446
+ "grad_norm": 65.37632751464844,
3447
+ "learning_rate": 0.0003774322399396202,
3448
+ "loss": 6.4519,
3449
+ "step": 488
3450
+ },
3451
+ {
3452
+ "epoch": 0.15645496720524715,
3453
+ "grad_norm": 7.421685218811035,
3454
+ "learning_rate": 0.0003773396406162127,
3455
+ "loss": 6.3113,
3456
+ "step": 489
3457
+ },
3458
+ {
3459
+ "epoch": 0.15677491601343785,
3460
+ "grad_norm": 9.326229095458984,
3461
+ "learning_rate": 0.00037724686375172403,
3462
+ "loss": 6.4404,
3463
+ "step": 490
3464
+ },
3465
+ {
3466
+ "epoch": 0.15709486482162854,
3467
+ "grad_norm": 8.919943809509277,
3468
+ "learning_rate": 0.000377153909444587,
3469
+ "loss": 6.3796,
3470
+ "step": 491
3471
+ },
3472
+ {
3473
+ "epoch": 0.15741481362981924,
3474
+ "grad_norm": 12.594194412231445,
3475
+ "learning_rate": 0.00037706077779342263,
3476
+ "loss": 6.1395,
3477
+ "step": 492
3478
+ },
3479
+ {
3480
+ "epoch": 0.1577347624380099,
3481
+ "grad_norm": 13.710543632507324,
3482
+ "learning_rate": 0.0003769674688970401,
3483
+ "loss": 6.1843,
3484
+ "step": 493
3485
+ },
3486
+ {
3487
+ "epoch": 0.1580547112462006,
3488
+ "grad_norm": 7.772939682006836,
3489
+ "learning_rate": 0.0003768739828544366,
3490
+ "loss": 6.2831,
3491
+ "step": 494
3492
+ },
3493
+ {
3494
+ "epoch": 0.1583746600543913,
3495
+ "grad_norm": 89.74982452392578,
3496
+ "learning_rate": 0.00037678031976479733,
3497
+ "loss": 6.3358,
3498
+ "step": 495
3499
+ },
3500
+ {
3501
+ "epoch": 0.158694608862582,
3502
+ "grad_norm": 9.788384437561035,
3503
+ "learning_rate": 0.0003766864797274954,
3504
+ "loss": 6.4116,
3505
+ "step": 496
3506
+ },
3507
+ {
3508
+ "epoch": 0.1590145576707727,
3509
+ "grad_norm": 13.687607765197754,
3510
+ "learning_rate": 0.0003765924628420916,
3511
+ "loss": 6.3342,
3512
+ "step": 497
3513
+ },
3514
+ {
3515
+ "epoch": 0.15933450647896336,
3516
+ "grad_norm": 10.730764389038086,
3517
+ "learning_rate": 0.0003764982692083341,
3518
+ "loss": 6.3028,
3519
+ "step": 498
3520
+ },
3521
+ {
3522
+ "epoch": 0.15965445528715405,
3523
+ "grad_norm": 7.144099712371826,
3524
+ "learning_rate": 0.00037640389892615897,
3525
+ "loss": 6.1418,
3526
+ "step": 499
3527
+ },
3528
+ {
3529
+ "epoch": 0.15997440409534475,
3530
+ "grad_norm": 6.012965202331543,
3531
+ "learning_rate": 0.00037630935209568954,
3532
+ "loss": 6.3804,
3533
+ "step": 500
3534
+ },
3535
+ {
3536
+ "epoch": 0.16029435290353544,
3537
+ "grad_norm": 19.48784065246582,
3538
+ "learning_rate": 0.0003762146288172364,
3539
+ "loss": 6.3017,
3540
+ "step": 501
3541
+ },
3542
+ {
3543
+ "epoch": 0.16061430171172614,
3544
+ "grad_norm": 10.153864860534668,
3545
+ "learning_rate": 0.0003761197291912974,
3546
+ "loss": 6.2839,
3547
+ "step": 502
3548
+ },
3549
+ {
3550
+ "epoch": 0.1609342505199168,
3551
+ "grad_norm": 10.028372764587402,
3552
+ "learning_rate": 0.00037602465331855754,
3553
+ "loss": 6.1487,
3554
+ "step": 503
3555
+ },
3556
+ {
3557
+ "epoch": 0.1612541993281075,
3558
+ "grad_norm": 7.426041126251221,
3559
+ "learning_rate": 0.00037592940129988866,
3560
+ "loss": 6.3812,
3561
+ "step": 504
3562
+ },
3563
+ {
3564
+ "epoch": 0.1615741481362982,
3565
+ "grad_norm": 5.519888877868652,
3566
+ "learning_rate": 0.00037583397323634964,
3567
+ "loss": 6.1925,
3568
+ "step": 505
3569
+ },
3570
+ {
3571
+ "epoch": 0.1618940969444889,
3572
+ "grad_norm": 7.253342628479004,
3573
+ "learning_rate": 0.00037573836922918615,
3574
+ "loss": 6.2379,
3575
+ "step": 506
3576
+ },
3577
+ {
3578
+ "epoch": 0.16221404575267956,
3579
+ "grad_norm": 5.459297180175781,
3580
+ "learning_rate": 0.00037564258937983035,
3581
+ "loss": 6.3595,
3582
+ "step": 507
3583
+ },
3584
+ {
3585
+ "epoch": 0.16253399456087025,
3586
+ "grad_norm": 4.96316385269165,
3587
+ "learning_rate": 0.000375546633789901,
3588
+ "loss": 6.0939,
3589
+ "step": 508
3590
+ },
3591
+ {
3592
+ "epoch": 0.16285394336906095,
3593
+ "grad_norm": 4.441860675811768,
3594
+ "learning_rate": 0.00037545050256120353,
3595
+ "loss": 6.1986,
3596
+ "step": 509
3597
+ },
3598
+ {
3599
+ "epoch": 0.16317389217725164,
3600
+ "grad_norm": 9.1715087890625,
3601
+ "learning_rate": 0.0003753541957957295,
3602
+ "loss": 6.2663,
3603
+ "step": 510
3604
+ },
3605
+ {
3606
+ "epoch": 0.16349384098544234,
3607
+ "grad_norm": 5.704549789428711,
3608
+ "learning_rate": 0.0003752577135956568,
3609
+ "loss": 6.0975,
3610
+ "step": 511
3611
+ },
3612
+ {
3613
+ "epoch": 0.163813789793633,
3614
+ "grad_norm": 6.922268390655518,
3615
+ "learning_rate": 0.00037516105606334943,
3616
+ "loss": 6.4677,
3617
+ "step": 512
3618
+ },
3619
+ {
3620
+ "epoch": 0.1641337386018237,
3621
+ "grad_norm": 5.864443778991699,
3622
+ "learning_rate": 0.0003750642233013573,
3623
+ "loss": 6.0617,
3624
+ "step": 513
3625
+ },
3626
+ {
3627
+ "epoch": 0.1644536874100144,
3628
+ "grad_norm": 6.080179691314697,
3629
+ "learning_rate": 0.0003749672154124165,
3630
+ "loss": 6.2692,
3631
+ "step": 514
3632
+ },
3633
+ {
3634
+ "epoch": 0.1647736362182051,
3635
+ "grad_norm": 7.958470344543457,
3636
+ "learning_rate": 0.00037487003249944863,
3637
+ "loss": 6.3754,
3638
+ "step": 515
3639
+ },
3640
+ {
3641
+ "epoch": 0.1650935850263958,
3642
+ "grad_norm": 7.878583908081055,
3643
+ "learning_rate": 0.0003747726746655612,
3644
+ "loss": 6.3376,
3645
+ "step": 516
3646
+ },
3647
+ {
3648
+ "epoch": 0.16541353383458646,
3649
+ "grad_norm": 6.210682392120361,
3650
+ "learning_rate": 0.00037467514201404726,
3651
+ "loss": 6.4979,
3652
+ "step": 517
3653
+ },
3654
+ {
3655
+ "epoch": 0.16573348264277715,
3656
+ "grad_norm": 13.755587577819824,
3657
+ "learning_rate": 0.0003745774346483851,
3658
+ "loss": 6.4135,
3659
+ "step": 518
3660
+ },
3661
+ {
3662
+ "epoch": 0.16605343145096785,
3663
+ "grad_norm": 8.76400375366211,
3664
+ "learning_rate": 0.00037447955267223875,
3665
+ "loss": 6.1651,
3666
+ "step": 519
3667
+ },
3668
+ {
3669
+ "epoch": 0.16637338025915854,
3670
+ "grad_norm": 6.616308212280273,
3671
+ "learning_rate": 0.00037438149618945727,
3672
+ "loss": 6.2581,
3673
+ "step": 520
3674
+ },
3675
+ {
3676
+ "epoch": 0.1666933290673492,
3677
+ "grad_norm": 8.678804397583008,
3678
+ "learning_rate": 0.0003742832653040748,
3679
+ "loss": 6.3311,
3680
+ "step": 521
3681
+ },
3682
+ {
3683
+ "epoch": 0.1670132778755399,
3684
+ "grad_norm": 6.813952445983887,
3685
+ "learning_rate": 0.00037418486012031087,
3686
+ "loss": 6.2027,
3687
+ "step": 522
3688
+ },
3689
+ {
3690
+ "epoch": 0.1673332266837306,
3691
+ "grad_norm": 8.717082023620605,
3692
+ "learning_rate": 0.0003740862807425694,
3693
+ "loss": 6.3091,
3694
+ "step": 523
3695
+ },
3696
+ {
3697
+ "epoch": 0.1676531754919213,
3698
+ "grad_norm": 7.110479354858398,
3699
+ "learning_rate": 0.00037398752727543967,
3700
+ "loss": 6.3897,
3701
+ "step": 524
3702
+ },
3703
+ {
3704
+ "epoch": 0.167973124300112,
3705
+ "grad_norm": 5.483648777008057,
3706
+ "learning_rate": 0.0003738885998236952,
3707
+ "loss": 6.2346,
3708
+ "step": 525
3709
+ },
3710
+ {
3711
+ "epoch": 0.16829307310830266,
3712
+ "grad_norm": 6.923319339752197,
3713
+ "learning_rate": 0.00037378949849229445,
3714
+ "loss": 6.2363,
3715
+ "step": 526
3716
+ },
3717
+ {
3718
+ "epoch": 0.16861302191649336,
3719
+ "grad_norm": 5.014647960662842,
3720
+ "learning_rate": 0.0003736902233863801,
3721
+ "loss": 6.249,
3722
+ "step": 527
3723
+ },
3724
+ {
3725
+ "epoch": 0.16893297072468405,
3726
+ "grad_norm": 8.451704978942871,
3727
+ "learning_rate": 0.00037359077461127945,
3728
+ "loss": 6.3163,
3729
+ "step": 528
3730
+ },
3731
+ {
3732
+ "epoch": 0.16925291953287475,
3733
+ "grad_norm": 5.6020073890686035,
3734
+ "learning_rate": 0.00037349115227250373,
3735
+ "loss": 6.3071,
3736
+ "step": 529
3737
+ },
3738
+ {
3739
+ "epoch": 0.16957286834106544,
3740
+ "grad_norm": 38.06607437133789,
3741
+ "learning_rate": 0.0003733913564757487,
3742
+ "loss": 6.1327,
3743
+ "step": 530
3744
+ },
3745
+ {
3746
+ "epoch": 0.1698928171492561,
3747
+ "grad_norm": 8.072343826293945,
3748
+ "learning_rate": 0.00037329138732689385,
3749
+ "loss": 6.2813,
3750
+ "step": 531
3751
+ },
3752
+ {
3753
+ "epoch": 0.1702127659574468,
3754
+ "grad_norm": 14.569067001342773,
3755
+ "learning_rate": 0.0003731912449320027,
3756
+ "loss": 6.14,
3757
+ "step": 532
3758
+ },
3759
+ {
3760
+ "epoch": 0.1705327147656375,
3761
+ "grad_norm": 10.168042182922363,
3762
+ "learning_rate": 0.0003730909293973226,
3763
+ "loss": 6.3262,
3764
+ "step": 533
3765
+ },
3766
+ {
3767
+ "epoch": 0.1708526635738282,
3768
+ "grad_norm": 10.32205581665039,
3769
+ "learning_rate": 0.00037299044082928455,
3770
+ "loss": 6.1903,
3771
+ "step": 534
3772
+ },
3773
+ {
3774
+ "epoch": 0.1711726123820189,
3775
+ "grad_norm": 6.994221210479736,
3776
+ "learning_rate": 0.0003728897793345032,
3777
+ "loss": 6.2946,
3778
+ "step": 535
3779
+ },
3780
+ {
3781
+ "epoch": 0.17149256119020956,
3782
+ "grad_norm": 6.205694675445557,
3783
+ "learning_rate": 0.0003727889450197765,
3784
+ "loss": 6.4397,
3785
+ "step": 536
3786
+ },
3787
+ {
3788
+ "epoch": 0.17181250999840025,
3789
+ "grad_norm": 6.186336517333984,
3790
+ "learning_rate": 0.000372687937992086,
3791
+ "loss": 6.3172,
3792
+ "step": 537
3793
+ },
3794
+ {
3795
+ "epoch": 0.17213245880659095,
3796
+ "grad_norm": 12.758987426757812,
3797
+ "learning_rate": 0.00037258675835859635,
3798
+ "loss": 6.3897,
3799
+ "step": 538
3800
+ },
3801
+ {
3802
+ "epoch": 0.17245240761478164,
3803
+ "grad_norm": 11.200096130371094,
3804
+ "learning_rate": 0.0003724854062266553,
3805
+ "loss": 6.0816,
3806
+ "step": 539
3807
+ },
3808
+ {
3809
+ "epoch": 0.1727723564229723,
3810
+ "grad_norm": 13.330513954162598,
3811
+ "learning_rate": 0.00037238388170379364,
3812
+ "loss": 6.5373,
3813
+ "step": 540
3814
+ },
3815
+ {
3816
+ "epoch": 0.173092305231163,
3817
+ "grad_norm": 6.715458869934082,
3818
+ "learning_rate": 0.00037228218489772515,
3819
+ "loss": 6.1138,
3820
+ "step": 541
3821
+ },
3822
+ {
3823
+ "epoch": 0.1734122540393537,
3824
+ "grad_norm": 8.349139213562012,
3825
+ "learning_rate": 0.0003721803159163463,
3826
+ "loss": 6.1373,
3827
+ "step": 542
3828
+ },
3829
+ {
3830
+ "epoch": 0.1737322028475444,
3831
+ "grad_norm": 9.18417739868164,
3832
+ "learning_rate": 0.00037207827486773624,
3833
+ "loss": 6.2775,
3834
+ "step": 543
3835
+ },
3836
+ {
3837
+ "epoch": 0.1740521516557351,
3838
+ "grad_norm": 8.832735061645508,
3839
+ "learning_rate": 0.0003719760618601567,
3840
+ "loss": 6.2763,
3841
+ "step": 544
3842
+ },
3843
+ {
3844
+ "epoch": 0.17437210046392576,
3845
+ "grad_norm": 14.054030418395996,
3846
+ "learning_rate": 0.00037187367700205185,
3847
+ "loss": 6.6554,
3848
+ "step": 545
3849
+ },
3850
+ {
3851
+ "epoch": 0.17469204927211646,
3852
+ "grad_norm": 8.51115894317627,
3853
+ "learning_rate": 0.0003717711204020482,
3854
+ "loss": 6.3151,
3855
+ "step": 546
3856
+ },
3857
+ {
3858
+ "epoch": 0.17501199808030715,
3859
+ "grad_norm": 10.541391372680664,
3860
+ "learning_rate": 0.00037166839216895445,
3861
+ "loss": 6.1285,
3862
+ "step": 547
3863
+ },
3864
+ {
3865
+ "epoch": 0.17533194688849785,
3866
+ "grad_norm": 21.057283401489258,
3867
+ "learning_rate": 0.0003715654924117614,
3868
+ "loss": 6.4187,
3869
+ "step": 548
3870
+ },
3871
+ {
3872
+ "epoch": 0.17565189569668854,
3873
+ "grad_norm": 17.178653717041016,
3874
+ "learning_rate": 0.00037146242123964183,
3875
+ "loss": 6.2921,
3876
+ "step": 549
3877
+ },
3878
+ {
3879
+ "epoch": 0.1759718445048792,
3880
+ "grad_norm": 10.637142181396484,
3881
+ "learning_rate": 0.00037135917876195037,
3882
+ "loss": 6.168,
3883
+ "step": 550
3884
+ },
3885
+ {
3886
+ "epoch": 0.1762917933130699,
3887
+ "grad_norm": 7.821049213409424,
3888
+ "learning_rate": 0.0003712557650882234,
3889
+ "loss": 6.3907,
3890
+ "step": 551
3891
+ },
3892
+ {
3893
+ "epoch": 0.1766117421212606,
3894
+ "grad_norm": 9.258932113647461,
3895
+ "learning_rate": 0.000371152180328179,
3896
+ "loss": 6.2813,
3897
+ "step": 552
3898
+ },
3899
+ {
3900
+ "epoch": 0.1769316909294513,
3901
+ "grad_norm": 8.969828605651855,
3902
+ "learning_rate": 0.0003710484245917167,
3903
+ "loss": 6.2085,
3904
+ "step": 553
3905
+ },
3906
+ {
3907
+ "epoch": 0.17725163973764196,
3908
+ "grad_norm": 10.377073287963867,
3909
+ "learning_rate": 0.0003709444979889174,
3910
+ "loss": 6.3274,
3911
+ "step": 554
3912
+ },
3913
+ {
3914
+ "epoch": 0.17757158854583266,
3915
+ "grad_norm": 13.76203727722168,
3916
+ "learning_rate": 0.0003708404006300434,
3917
+ "loss": 6.7071,
3918
+ "step": 555
3919
+ },
3920
+ {
3921
+ "epoch": 0.17789153735402335,
3922
+ "grad_norm": 9.469388961791992,
3923
+ "learning_rate": 0.00037073613262553803,
3924
+ "loss": 6.1904,
3925
+ "step": 556
3926
+ },
3927
+ {
3928
+ "epoch": 0.17821148616221405,
3929
+ "grad_norm": 7.818362712860107,
3930
+ "learning_rate": 0.00037063169408602586,
3931
+ "loss": 6.3993,
3932
+ "step": 557
3933
+ },
3934
+ {
3935
+ "epoch": 0.17853143497040475,
3936
+ "grad_norm": 10.85080337524414,
3937
+ "learning_rate": 0.000370527085122312,
3938
+ "loss": 6.2407,
3939
+ "step": 558
3940
+ },
3941
+ {
3942
+ "epoch": 0.1788513837785954,
3943
+ "grad_norm": 7.716219902038574,
3944
+ "learning_rate": 0.0003704223058453829,
3945
+ "loss": 6.3401,
3946
+ "step": 559
3947
+ },
3948
+ {
3949
+ "epoch": 0.1791713325867861,
3950
+ "grad_norm": 4.769658088684082,
3951
+ "learning_rate": 0.00037031735636640524,
3952
+ "loss": 6.3418,
3953
+ "step": 560
3954
+ },
3955
+ {
3956
+ "epoch": 0.1794912813949768,
3957
+ "grad_norm": 7.051829814910889,
3958
+ "learning_rate": 0.00037021223679672673,
3959
+ "loss": 6.2469,
3960
+ "step": 561
3961
+ },
3962
+ {
3963
+ "epoch": 0.1798112302031675,
3964
+ "grad_norm": 9.345251083374023,
3965
+ "learning_rate": 0.000370106947247875,
3966
+ "loss": 6.5334,
3967
+ "step": 562
3968
+ },
3969
+ {
3970
+ "epoch": 0.1801311790113582,
3971
+ "grad_norm": 8.516511917114258,
3972
+ "learning_rate": 0.0003700014878315585,
3973
+ "loss": 6.2604,
3974
+ "step": 563
3975
+ },
3976
+ {
3977
+ "epoch": 0.18045112781954886,
3978
+ "grad_norm": 8.440566062927246,
3979
+ "learning_rate": 0.0003698958586596657,
3980
+ "loss": 6.2302,
3981
+ "step": 564
3982
+ },
3983
+ {
3984
+ "epoch": 0.18077107662773956,
3985
+ "grad_norm": 5.112747669219971,
3986
+ "learning_rate": 0.0003697900598442651,
3987
+ "loss": 6.3096,
3988
+ "step": 565
3989
+ },
3990
+ {
3991
+ "epoch": 0.18109102543593025,
3992
+ "grad_norm": 5.404264450073242,
3993
+ "learning_rate": 0.00036968409149760534,
3994
+ "loss": 6.3788,
3995
+ "step": 566
3996
+ },
3997
+ {
3998
+ "epoch": 0.18141097424412095,
3999
+ "grad_norm": 8.593727111816406,
4000
+ "learning_rate": 0.0003695779537321149,
4001
+ "loss": 6.0832,
4002
+ "step": 567
4003
+ },
4004
+ {
4005
+ "epoch": 0.18173092305231164,
4006
+ "grad_norm": 5.876023769378662,
4007
+ "learning_rate": 0.00036947164666040184,
4008
+ "loss": 5.996,
4009
+ "step": 568
4010
+ },
4011
+ {
4012
+ "epoch": 0.1820508718605023,
4013
+ "grad_norm": 5.251745700836182,
4014
+ "learning_rate": 0.0003693651703952541,
4015
+ "loss": 6.1838,
4016
+ "step": 569
4017
+ },
4018
+ {
4019
+ "epoch": 0.182370820668693,
4020
+ "grad_norm": 6.7820539474487305,
4021
+ "learning_rate": 0.00036925852504963893,
4022
+ "loss": 6.2634,
4023
+ "step": 570
4024
+ },
4025
+ {
4026
+ "epoch": 0.1826907694768837,
4027
+ "grad_norm": 6.269637584686279,
4028
+ "learning_rate": 0.00036915171073670307,
4029
+ "loss": 6.4802,
4030
+ "step": 571
4031
+ },
4032
+ {
4033
+ "epoch": 0.1830107182850744,
4034
+ "grad_norm": 23.37257957458496,
4035
+ "learning_rate": 0.0003690447275697725,
4036
+ "loss": 6.1899,
4037
+ "step": 572
4038
+ },
4039
+ {
4040
+ "epoch": 0.18333066709326507,
4041
+ "grad_norm": 5.05233097076416,
4042
+ "learning_rate": 0.00036893757566235227,
4043
+ "loss": 6.1816,
4044
+ "step": 573
4045
+ },
4046
+ {
4047
+ "epoch": 0.18365061590145576,
4048
+ "grad_norm": 8.209317207336426,
4049
+ "learning_rate": 0.00036883025512812675,
4050
+ "loss": 6.4029,
4051
+ "step": 574
4052
+ },
4053
+ {
4054
+ "epoch": 0.18397056470964646,
4055
+ "grad_norm": 10.015338897705078,
4056
+ "learning_rate": 0.00036872276608095874,
4057
+ "loss": 6.1534,
4058
+ "step": 575
4059
+ },
4060
+ {
4061
+ "epoch": 0.18429051351783715,
4062
+ "grad_norm": 6.191135883331299,
4063
+ "learning_rate": 0.00036861510863489023,
4064
+ "loss": 6.3621,
4065
+ "step": 576
4066
+ },
4067
+ {
4068
+ "epoch": 0.18461046232602785,
4069
+ "grad_norm": 9.056325912475586,
4070
+ "learning_rate": 0.0003685072829041417,
4071
+ "loss": 6.3678,
4072
+ "step": 577
4073
+ },
4074
+ {
4075
+ "epoch": 0.18493041113421851,
4076
+ "grad_norm": 11.877366065979004,
4077
+ "learning_rate": 0.00036839928900311223,
4078
+ "loss": 6.2934,
4079
+ "step": 578
4080
+ },
4081
+ {
4082
+ "epoch": 0.1852503599424092,
4083
+ "grad_norm": 11.008338928222656,
4084
+ "learning_rate": 0.0003682911270463793,
4085
+ "loss": 6.2898,
4086
+ "step": 579
4087
+ },
4088
+ {
4089
+ "epoch": 0.1855703087505999,
4090
+ "grad_norm": 8.387709617614746,
4091
+ "learning_rate": 0.0003681827971486986,
4092
+ "loss": 6.3564,
4093
+ "step": 580
4094
+ },
4095
+ {
4096
+ "epoch": 0.1858902575587906,
4097
+ "grad_norm": 5.683431148529053,
4098
+ "learning_rate": 0.0003680742994250042,
4099
+ "loss": 6.358,
4100
+ "step": 581
4101
+ },
4102
+ {
4103
+ "epoch": 0.1862102063669813,
4104
+ "grad_norm": 9.834399223327637,
4105
+ "learning_rate": 0.000367965633990408,
4106
+ "loss": 6.4083,
4107
+ "step": 582
4108
+ },
4109
+ {
4110
+ "epoch": 0.18653015517517196,
4111
+ "grad_norm": 6.106937408447266,
4112
+ "learning_rate": 0.0003678568009602001,
4113
+ "loss": 6.1561,
4114
+ "step": 583
4115
+ },
4116
+ {
4117
+ "epoch": 0.18685010398336266,
4118
+ "grad_norm": 10.490397453308105,
4119
+ "learning_rate": 0.0003677478004498481,
4120
+ "loss": 6.326,
4121
+ "step": 584
4122
+ },
4123
+ {
4124
+ "epoch": 0.18717005279155335,
4125
+ "grad_norm": 7.496698379516602,
4126
+ "learning_rate": 0.0003676386325749976,
4127
+ "loss": 6.3687,
4128
+ "step": 585
4129
+ },
4130
+ {
4131
+ "epoch": 0.18749000159974405,
4132
+ "grad_norm": 7.097468376159668,
4133
+ "learning_rate": 0.0003675292974514715,
4134
+ "loss": 6.2169,
4135
+ "step": 586
4136
+ },
4137
+ {
4138
+ "epoch": 0.18780995040793472,
4139
+ "grad_norm": 14.11148738861084,
4140
+ "learning_rate": 0.0003674197951952704,
4141
+ "loss": 6.1241,
4142
+ "step": 587
4143
+ },
4144
+ {
4145
+ "epoch": 0.1881298992161254,
4146
+ "grad_norm": 13.260645866394043,
4147
+ "learning_rate": 0.00036731012592257194,
4148
+ "loss": 6.1671,
4149
+ "step": 588
4150
+ },
4151
+ {
4152
+ "epoch": 0.1884498480243161,
4153
+ "grad_norm": 8.077284812927246,
4154
+ "learning_rate": 0.0003672002897497312,
4155
+ "loss": 6.2584,
4156
+ "step": 589
4157
+ },
4158
+ {
4159
+ "epoch": 0.1887697968325068,
4160
+ "grad_norm": 5.156368255615234,
4161
+ "learning_rate": 0.00036709028679328013,
4162
+ "loss": 6.2548,
4163
+ "step": 590
4164
+ },
4165
+ {
4166
+ "epoch": 0.1890897456406975,
4167
+ "grad_norm": 7.575767517089844,
4168
+ "learning_rate": 0.0003669801171699279,
4169
+ "loss": 6.426,
4170
+ "step": 591
4171
+ },
4172
+ {
4173
+ "epoch": 0.18940969444888817,
4174
+ "grad_norm": 8.419235229492188,
4175
+ "learning_rate": 0.0003668697809965602,
4176
+ "loss": 6.2028,
4177
+ "step": 592
4178
+ },
4179
+ {
4180
+ "epoch": 0.18972964325707886,
4181
+ "grad_norm": 6.528421401977539,
4182
+ "learning_rate": 0.0003667592783902397,
4183
+ "loss": 6.2471,
4184
+ "step": 593
4185
+ },
4186
+ {
4187
+ "epoch": 0.19004959206526956,
4188
+ "grad_norm": 7.039434909820557,
4189
+ "learning_rate": 0.00036664860946820536,
4190
+ "loss": 6.4782,
4191
+ "step": 594
4192
+ },
4193
+ {
4194
+ "epoch": 0.19036954087346025,
4195
+ "grad_norm": 5.257431507110596,
4196
+ "learning_rate": 0.00036653777434787294,
4197
+ "loss": 6.1964,
4198
+ "step": 595
4199
+ },
4200
+ {
4201
+ "epoch": 0.19068948968165095,
4202
+ "grad_norm": 7.877770900726318,
4203
+ "learning_rate": 0.0003664267731468342,
4204
+ "loss": 6.501,
4205
+ "step": 596
4206
+ },
4207
+ {
4208
+ "epoch": 0.19100943848984162,
4209
+ "grad_norm": 6.9174933433532715,
4210
+ "learning_rate": 0.00036631560598285735,
4211
+ "loss": 6.1698,
4212
+ "step": 597
4213
+ },
4214
+ {
4215
+ "epoch": 0.1913293872980323,
4216
+ "grad_norm": 5.704330921173096,
4217
+ "learning_rate": 0.00036620427297388646,
4218
+ "loss": 6.1756,
4219
+ "step": 598
4220
+ },
4221
+ {
4222
+ "epoch": 0.191649336106223,
4223
+ "grad_norm": 7.497727870941162,
4224
+ "learning_rate": 0.00036609277423804183,
4225
+ "loss": 6.1859,
4226
+ "step": 599
4227
+ },
4228
+ {
4229
+ "epoch": 0.1919692849144137,
4230
+ "grad_norm": 10.520272254943848,
4231
+ "learning_rate": 0.0003659811098936193,
4232
+ "loss": 6.2496,
4233
+ "step": 600
4234
+ },
4235
+ {
4236
+ "epoch": 0.1919692849144137,
4237
+ "eval_loss": 3.1351470947265625,
4238
+ "eval_runtime": 233.6712,
4239
+ "eval_samples_per_second": 5.632,
4240
+ "eval_steps_per_second": 1.408,
4241
+ "step": 600
4242
  }
4243
  ],
4244
  "logging_steps": 1,
 
4267
  "attributes": {}
4268
  }
4269
  },
4270
+ "total_flos": 5.573737245006889e+17,
4271
  "train_batch_size": 4,
4272
  "trial_name": null,
4273
  "trial_params": null