error577 commited on
Commit
903fd40
·
verified ·
1 Parent(s): a465061

Training in progress, step 600, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dddb1f59b2959121b12b50bb61b63842301b162d95ecbb055867d2afd083dc58
3
  size 239536272
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:380a9f8bd1452df8063d91dc4f5608799c0eed96ed4cdc18292e7cb70a2346a6
3
  size 239536272
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f8da9553519cebee2d524dee081101503a9ff9f4caeaa4df0ef8cb6a1e928f4c
3
  size 183010548
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ce3b58265d130261bec295db93a3ae710f09eb686a51c216c625ecac4a9bbd35
3
  size 183010548
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f99e922e9a1bb9d79225c975af051497d2174fcce841ca602f315829e5457fd7
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:84a73f7114eacaa8f3d0a34708cd3c380dc843298650a38ecf02f4e2db17ae9f
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4507382881947f75306f0e508c94993046ca897effd5134c9ce5479a6deef707
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d4dd75a8923222c498d00e1167f4c1be1383dd919c1ebf448c63527342992a3c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.7893620729446411,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
- "epoch": 0.06563429391857245,
5
  "eval_steps": 100,
6
- "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2847,6 +2847,1422 @@
2847
  "eval_samples_per_second": 3.45,
2848
  "eval_steps_per_second": 3.45,
2849
  "step": 400
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2850
  }
2851
  ],
2852
  "logging_steps": 1,
@@ -2875,7 +4291,7 @@
2875
  "attributes": {}
2876
  }
2877
  },
2878
- "total_flos": 5.574872376174182e+16,
2879
  "train_batch_size": 1,
2880
  "trial_name": null,
2881
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.7834404110908508,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.09845144087785868,
5
  "eval_steps": 100,
6
+ "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2847
  "eval_samples_per_second": 3.45,
2848
  "eval_steps_per_second": 3.45,
2849
  "step": 400
2850
+ },
2851
+ {
2852
+ "epoch": 0.06579837965336889,
2853
+ "grad_norm": 0.15986493229866028,
2854
+ "learning_rate": 0.0001997741149322696,
2855
+ "loss": 0.5572,
2856
+ "step": 401
2857
+ },
2858
+ {
2859
+ "epoch": 0.06596246538816532,
2860
+ "grad_norm": 0.2333621084690094,
2861
+ "learning_rate": 0.00019977295847037837,
2862
+ "loss": 0.7397,
2863
+ "step": 402
2864
+ },
2865
+ {
2866
+ "epoch": 0.06612655112296174,
2867
+ "grad_norm": 0.2305152714252472,
2868
+ "learning_rate": 0.0001997717990590413,
2869
+ "loss": 0.7124,
2870
+ "step": 403
2871
+ },
2872
+ {
2873
+ "epoch": 0.06629063685775818,
2874
+ "grad_norm": 0.22249913215637207,
2875
+ "learning_rate": 0.00019977063669829271,
2876
+ "loss": 0.672,
2877
+ "step": 404
2878
+ },
2879
+ {
2880
+ "epoch": 0.06645472259255461,
2881
+ "grad_norm": 0.23822623491287231,
2882
+ "learning_rate": 0.00019976947138816695,
2883
+ "loss": 0.7609,
2884
+ "step": 405
2885
+ },
2886
+ {
2887
+ "epoch": 0.06661880832735104,
2888
+ "grad_norm": 0.4435589611530304,
2889
+ "learning_rate": 0.00019976830312869848,
2890
+ "loss": 0.7179,
2891
+ "step": 406
2892
+ },
2893
+ {
2894
+ "epoch": 0.06678289406214748,
2895
+ "grad_norm": 8.647324562072754,
2896
+ "learning_rate": 0.0001997671319199218,
2897
+ "loss": 0.8875,
2898
+ "step": 407
2899
+ },
2900
+ {
2901
+ "epoch": 0.0669469797969439,
2902
+ "grad_norm": 0.37018343806266785,
2903
+ "learning_rate": 0.00019976595776187154,
2904
+ "loss": 0.8438,
2905
+ "step": 408
2906
+ },
2907
+ {
2908
+ "epoch": 0.06711106553174033,
2909
+ "grad_norm": 0.2479041963815689,
2910
+ "learning_rate": 0.00019976478065458243,
2911
+ "loss": 0.686,
2912
+ "step": 409
2913
+ },
2914
+ {
2915
+ "epoch": 0.06727515126653677,
2916
+ "grad_norm": 0.2105472832918167,
2917
+ "learning_rate": 0.00019976360059808927,
2918
+ "loss": 0.7365,
2919
+ "step": 410
2920
+ },
2921
+ {
2922
+ "epoch": 0.0674392370013332,
2923
+ "grad_norm": 0.30589988827705383,
2924
+ "learning_rate": 0.00019976241759242692,
2925
+ "loss": 0.8328,
2926
+ "step": 411
2927
+ },
2928
+ {
2929
+ "epoch": 0.06760332273612962,
2930
+ "grad_norm": 0.24568642675876617,
2931
+ "learning_rate": 0.0001997612316376304,
2932
+ "loss": 0.8076,
2933
+ "step": 412
2934
+ },
2935
+ {
2936
+ "epoch": 0.06776740847092606,
2937
+ "grad_norm": 0.22725167870521545,
2938
+ "learning_rate": 0.00019976004273373468,
2939
+ "loss": 0.6269,
2940
+ "step": 413
2941
+ },
2942
+ {
2943
+ "epoch": 0.06793149420572249,
2944
+ "grad_norm": 0.30800437927246094,
2945
+ "learning_rate": 0.00019975885088077499,
2946
+ "loss": 0.685,
2947
+ "step": 414
2948
+ },
2949
+ {
2950
+ "epoch": 0.06809557994051892,
2951
+ "grad_norm": 0.27556002140045166,
2952
+ "learning_rate": 0.00019975765607878655,
2953
+ "loss": 0.5931,
2954
+ "step": 415
2955
+ },
2956
+ {
2957
+ "epoch": 0.06825966567531536,
2958
+ "grad_norm": 0.46520912647247314,
2959
+ "learning_rate": 0.0001997564583278046,
2960
+ "loss": 0.7079,
2961
+ "step": 416
2962
+ },
2963
+ {
2964
+ "epoch": 0.06842375141011178,
2965
+ "grad_norm": 0.5119454264640808,
2966
+ "learning_rate": 0.00019975525762786468,
2967
+ "loss": 0.9523,
2968
+ "step": 417
2969
+ },
2970
+ {
2971
+ "epoch": 0.06858783714490821,
2972
+ "grad_norm": 0.23642492294311523,
2973
+ "learning_rate": 0.0001997540539790022,
2974
+ "loss": 0.723,
2975
+ "step": 418
2976
+ },
2977
+ {
2978
+ "epoch": 0.06875192287970465,
2979
+ "grad_norm": 0.3586544096469879,
2980
+ "learning_rate": 0.0001997528473812527,
2981
+ "loss": 0.864,
2982
+ "step": 419
2983
+ },
2984
+ {
2985
+ "epoch": 0.06891600861450108,
2986
+ "grad_norm": 0.30147257447242737,
2987
+ "learning_rate": 0.00019975163783465195,
2988
+ "loss": 0.8027,
2989
+ "step": 420
2990
+ },
2991
+ {
2992
+ "epoch": 0.0690800943492975,
2993
+ "grad_norm": 0.2807484269142151,
2994
+ "learning_rate": 0.00019975042533923568,
2995
+ "loss": 0.7956,
2996
+ "step": 421
2997
+ },
2998
+ {
2999
+ "epoch": 0.06924418008409394,
3000
+ "grad_norm": 0.3472043573856354,
3001
+ "learning_rate": 0.00019974920989503968,
3002
+ "loss": 0.8275,
3003
+ "step": 422
3004
+ },
3005
+ {
3006
+ "epoch": 0.06940826581889037,
3007
+ "grad_norm": 0.2816649377346039,
3008
+ "learning_rate": 0.00019974799150209992,
3009
+ "loss": 0.7084,
3010
+ "step": 423
3011
+ },
3012
+ {
3013
+ "epoch": 0.0695723515536868,
3014
+ "grad_norm": 0.35236573219299316,
3015
+ "learning_rate": 0.00019974677016045244,
3016
+ "loss": 0.8452,
3017
+ "step": 424
3018
+ },
3019
+ {
3020
+ "epoch": 0.06973643728848324,
3021
+ "grad_norm": 0.2761305868625641,
3022
+ "learning_rate": 0.0001997455458701333,
3023
+ "loss": 0.8538,
3024
+ "step": 425
3025
+ },
3026
+ {
3027
+ "epoch": 0.06990052302327966,
3028
+ "grad_norm": 0.25361061096191406,
3029
+ "learning_rate": 0.0001997443186311787,
3030
+ "loss": 0.5883,
3031
+ "step": 426
3032
+ },
3033
+ {
3034
+ "epoch": 0.07006460875807609,
3035
+ "grad_norm": 0.3191013038158417,
3036
+ "learning_rate": 0.00019974308844362496,
3037
+ "loss": 0.8699,
3038
+ "step": 427
3039
+ },
3040
+ {
3041
+ "epoch": 0.07022869449287253,
3042
+ "grad_norm": 0.28123271465301514,
3043
+ "learning_rate": 0.00019974185530750838,
3044
+ "loss": 0.8439,
3045
+ "step": 428
3046
+ },
3047
+ {
3048
+ "epoch": 0.07039278022766896,
3049
+ "grad_norm": 0.5743336081504822,
3050
+ "learning_rate": 0.00019974061922286546,
3051
+ "loss": 0.9119,
3052
+ "step": 429
3053
+ },
3054
+ {
3055
+ "epoch": 0.07055686596246538,
3056
+ "grad_norm": 0.3127213418483734,
3057
+ "learning_rate": 0.00019973938018973274,
3058
+ "loss": 0.9264,
3059
+ "step": 430
3060
+ },
3061
+ {
3062
+ "epoch": 0.07072095169726182,
3063
+ "grad_norm": 0.34507542848587036,
3064
+ "learning_rate": 0.0001997381382081468,
3065
+ "loss": 0.7802,
3066
+ "step": 431
3067
+ },
3068
+ {
3069
+ "epoch": 0.07088503743205825,
3070
+ "grad_norm": 0.28120848536491394,
3071
+ "learning_rate": 0.00019973689327814443,
3072
+ "loss": 0.7031,
3073
+ "step": 432
3074
+ },
3075
+ {
3076
+ "epoch": 0.07104912316685467,
3077
+ "grad_norm": 0.4257034659385681,
3078
+ "learning_rate": 0.0001997356453997624,
3079
+ "loss": 0.8775,
3080
+ "step": 433
3081
+ },
3082
+ {
3083
+ "epoch": 0.07121320890165111,
3084
+ "grad_norm": 0.3616534173488617,
3085
+ "learning_rate": 0.00019973439457303757,
3086
+ "loss": 0.8013,
3087
+ "step": 434
3088
+ },
3089
+ {
3090
+ "epoch": 0.07137729463644754,
3091
+ "grad_norm": 0.38141894340515137,
3092
+ "learning_rate": 0.00019973314079800697,
3093
+ "loss": 0.8423,
3094
+ "step": 435
3095
+ },
3096
+ {
3097
+ "epoch": 0.07154138037124398,
3098
+ "grad_norm": 0.31338822841644287,
3099
+ "learning_rate": 0.0001997318840747076,
3100
+ "loss": 0.8506,
3101
+ "step": 436
3102
+ },
3103
+ {
3104
+ "epoch": 0.07170546610604041,
3105
+ "grad_norm": 0.3113965690135956,
3106
+ "learning_rate": 0.00019973062440317664,
3107
+ "loss": 0.8534,
3108
+ "step": 437
3109
+ },
3110
+ {
3111
+ "epoch": 0.07186955184083683,
3112
+ "grad_norm": 0.39697837829589844,
3113
+ "learning_rate": 0.00019972936178345134,
3114
+ "loss": 0.8224,
3115
+ "step": 438
3116
+ },
3117
+ {
3118
+ "epoch": 0.07203363757563327,
3119
+ "grad_norm": 0.30266883969306946,
3120
+ "learning_rate": 0.00019972809621556902,
3121
+ "loss": 0.7729,
3122
+ "step": 439
3123
+ },
3124
+ {
3125
+ "epoch": 0.0721977233104297,
3126
+ "grad_norm": 0.3997204601764679,
3127
+ "learning_rate": 0.0001997268276995671,
3128
+ "loss": 0.7422,
3129
+ "step": 440
3130
+ },
3131
+ {
3132
+ "epoch": 0.07236180904522613,
3133
+ "grad_norm": 0.4488981366157532,
3134
+ "learning_rate": 0.00019972555623548306,
3135
+ "loss": 0.898,
3136
+ "step": 441
3137
+ },
3138
+ {
3139
+ "epoch": 0.07252589478002257,
3140
+ "grad_norm": 0.3362194299697876,
3141
+ "learning_rate": 0.0001997242818233545,
3142
+ "loss": 0.8179,
3143
+ "step": 442
3144
+ },
3145
+ {
3146
+ "epoch": 0.072689980514819,
3147
+ "grad_norm": 0.4512924551963806,
3148
+ "learning_rate": 0.00019972300446321909,
3149
+ "loss": 0.8867,
3150
+ "step": 443
3151
+ },
3152
+ {
3153
+ "epoch": 0.07285406624961542,
3154
+ "grad_norm": 0.5159667134284973,
3155
+ "learning_rate": 0.00019972172415511457,
3156
+ "loss": 0.7261,
3157
+ "step": 444
3158
+ },
3159
+ {
3160
+ "epoch": 0.07301815198441186,
3161
+ "grad_norm": 0.46027064323425293,
3162
+ "learning_rate": 0.00019972044089907882,
3163
+ "loss": 1.0376,
3164
+ "step": 445
3165
+ },
3166
+ {
3167
+ "epoch": 0.07318223771920829,
3168
+ "grad_norm": 0.4172539710998535,
3169
+ "learning_rate": 0.00019971915469514973,
3170
+ "loss": 0.7398,
3171
+ "step": 446
3172
+ },
3173
+ {
3174
+ "epoch": 0.07334632345400471,
3175
+ "grad_norm": 0.3354978561401367,
3176
+ "learning_rate": 0.0001997178655433654,
3177
+ "loss": 0.9241,
3178
+ "step": 447
3179
+ },
3180
+ {
3181
+ "epoch": 0.07351040918880115,
3182
+ "grad_norm": 0.48640313744544983,
3183
+ "learning_rate": 0.0001997165734437639,
3184
+ "loss": 0.9889,
3185
+ "step": 448
3186
+ },
3187
+ {
3188
+ "epoch": 0.07367449492359758,
3189
+ "grad_norm": 0.36919528245925903,
3190
+ "learning_rate": 0.0001997152783963834,
3191
+ "loss": 0.9512,
3192
+ "step": 449
3193
+ },
3194
+ {
3195
+ "epoch": 0.073838580658394,
3196
+ "grad_norm": 0.410256028175354,
3197
+ "learning_rate": 0.0001997139804012622,
3198
+ "loss": 0.9793,
3199
+ "step": 450
3200
+ },
3201
+ {
3202
+ "epoch": 0.07400266639319045,
3203
+ "grad_norm": 0.25387945771217346,
3204
+ "learning_rate": 0.00019971267945843865,
3205
+ "loss": 0.4638,
3206
+ "step": 451
3207
+ },
3208
+ {
3209
+ "epoch": 0.07416675212798687,
3210
+ "grad_norm": 0.2956909239292145,
3211
+ "learning_rate": 0.0001997113755679513,
3212
+ "loss": 0.6796,
3213
+ "step": 452
3214
+ },
3215
+ {
3216
+ "epoch": 0.0743308378627833,
3217
+ "grad_norm": 0.26147258281707764,
3218
+ "learning_rate": 0.00019971006872983858,
3219
+ "loss": 0.6444,
3220
+ "step": 453
3221
+ },
3222
+ {
3223
+ "epoch": 0.07449492359757974,
3224
+ "grad_norm": 0.29692378640174866,
3225
+ "learning_rate": 0.00019970875894413916,
3226
+ "loss": 0.7089,
3227
+ "step": 454
3228
+ },
3229
+ {
3230
+ "epoch": 0.07465900933237617,
3231
+ "grad_norm": 0.3056322932243347,
3232
+ "learning_rate": 0.00019970744621089178,
3233
+ "loss": 0.6574,
3234
+ "step": 455
3235
+ },
3236
+ {
3237
+ "epoch": 0.0748230950671726,
3238
+ "grad_norm": 0.290412962436676,
3239
+ "learning_rate": 0.00019970613053013527,
3240
+ "loss": 0.7592,
3241
+ "step": 456
3242
+ },
3243
+ {
3244
+ "epoch": 0.07498718080196903,
3245
+ "grad_norm": 0.2817339301109314,
3246
+ "learning_rate": 0.00019970481190190843,
3247
+ "loss": 0.8211,
3248
+ "step": 457
3249
+ },
3250
+ {
3251
+ "epoch": 0.07515126653676546,
3252
+ "grad_norm": 0.2601938545703888,
3253
+ "learning_rate": 0.00019970349032625035,
3254
+ "loss": 0.7817,
3255
+ "step": 458
3256
+ },
3257
+ {
3258
+ "epoch": 0.07531535227156189,
3259
+ "grad_norm": 0.30698585510253906,
3260
+ "learning_rate": 0.00019970216580320003,
3261
+ "loss": 0.6768,
3262
+ "step": 459
3263
+ },
3264
+ {
3265
+ "epoch": 0.07547943800635833,
3266
+ "grad_norm": 0.27613088488578796,
3267
+ "learning_rate": 0.00019970083833279666,
3268
+ "loss": 0.7026,
3269
+ "step": 460
3270
+ },
3271
+ {
3272
+ "epoch": 0.07564352374115475,
3273
+ "grad_norm": 0.2695368826389313,
3274
+ "learning_rate": 0.00019969950791507942,
3275
+ "loss": 0.7914,
3276
+ "step": 461
3277
+ },
3278
+ {
3279
+ "epoch": 0.07580760947595118,
3280
+ "grad_norm": 0.2841225266456604,
3281
+ "learning_rate": 0.0001996981745500877,
3282
+ "loss": 0.7972,
3283
+ "step": 462
3284
+ },
3285
+ {
3286
+ "epoch": 0.07597169521074762,
3287
+ "grad_norm": 0.25151097774505615,
3288
+ "learning_rate": 0.00019969683823786093,
3289
+ "loss": 0.6287,
3290
+ "step": 463
3291
+ },
3292
+ {
3293
+ "epoch": 0.07613578094554405,
3294
+ "grad_norm": 0.2680940330028534,
3295
+ "learning_rate": 0.00019969549897843857,
3296
+ "loss": 0.6865,
3297
+ "step": 464
3298
+ },
3299
+ {
3300
+ "epoch": 0.07629986668034047,
3301
+ "grad_norm": 0.2942931354045868,
3302
+ "learning_rate": 0.0001996941567718602,
3303
+ "loss": 0.7175,
3304
+ "step": 465
3305
+ },
3306
+ {
3307
+ "epoch": 0.07646395241513691,
3308
+ "grad_norm": 0.33051207661628723,
3309
+ "learning_rate": 0.00019969281161816556,
3310
+ "loss": 0.8518,
3311
+ "step": 466
3312
+ },
3313
+ {
3314
+ "epoch": 0.07662803814993334,
3315
+ "grad_norm": 0.28793030977249146,
3316
+ "learning_rate": 0.00019969146351739436,
3317
+ "loss": 0.806,
3318
+ "step": 467
3319
+ },
3320
+ {
3321
+ "epoch": 0.07679212388472977,
3322
+ "grad_norm": 0.27401405572891235,
3323
+ "learning_rate": 0.00019969011246958647,
3324
+ "loss": 0.7563,
3325
+ "step": 468
3326
+ },
3327
+ {
3328
+ "epoch": 0.0769562096195262,
3329
+ "grad_norm": 0.28435268998146057,
3330
+ "learning_rate": 0.00019968875847478184,
3331
+ "loss": 0.8319,
3332
+ "step": 469
3333
+ },
3334
+ {
3335
+ "epoch": 0.07712029535432263,
3336
+ "grad_norm": 0.37528687715530396,
3337
+ "learning_rate": 0.00019968740153302047,
3338
+ "loss": 0.7616,
3339
+ "step": 470
3340
+ },
3341
+ {
3342
+ "epoch": 0.07728438108911906,
3343
+ "grad_norm": 0.3924008309841156,
3344
+ "learning_rate": 0.00019968604164434246,
3345
+ "loss": 0.8162,
3346
+ "step": 471
3347
+ },
3348
+ {
3349
+ "epoch": 0.0774484668239155,
3350
+ "grad_norm": 0.3189226984977722,
3351
+ "learning_rate": 0.0001996846788087881,
3352
+ "loss": 0.718,
3353
+ "step": 472
3354
+ },
3355
+ {
3356
+ "epoch": 0.07761255255871193,
3357
+ "grad_norm": 0.2787996828556061,
3358
+ "learning_rate": 0.0001996833130263976,
3359
+ "loss": 0.7551,
3360
+ "step": 473
3361
+ },
3362
+ {
3363
+ "epoch": 0.07777663829350835,
3364
+ "grad_norm": 0.353397935628891,
3365
+ "learning_rate": 0.0001996819442972113,
3366
+ "loss": 0.6889,
3367
+ "step": 474
3368
+ },
3369
+ {
3370
+ "epoch": 0.07794072402830479,
3371
+ "grad_norm": 0.28389084339141846,
3372
+ "learning_rate": 0.00019968057262126972,
3373
+ "loss": 0.8333,
3374
+ "step": 475
3375
+ },
3376
+ {
3377
+ "epoch": 0.07810480976310122,
3378
+ "grad_norm": 0.2652452886104584,
3379
+ "learning_rate": 0.00019967919799861346,
3380
+ "loss": 0.7011,
3381
+ "step": 476
3382
+ },
3383
+ {
3384
+ "epoch": 0.07826889549789764,
3385
+ "grad_norm": 0.2802514135837555,
3386
+ "learning_rate": 0.00019967782042928307,
3387
+ "loss": 0.7594,
3388
+ "step": 477
3389
+ },
3390
+ {
3391
+ "epoch": 0.07843298123269409,
3392
+ "grad_norm": 0.4574797451496124,
3393
+ "learning_rate": 0.0001996764399133193,
3394
+ "loss": 0.7706,
3395
+ "step": 478
3396
+ },
3397
+ {
3398
+ "epoch": 0.07859706696749051,
3399
+ "grad_norm": 0.3003863990306854,
3400
+ "learning_rate": 0.00019967505645076294,
3401
+ "loss": 0.7685,
3402
+ "step": 479
3403
+ },
3404
+ {
3405
+ "epoch": 0.07876115270228695,
3406
+ "grad_norm": 0.3658941388130188,
3407
+ "learning_rate": 0.0001996736700416549,
3408
+ "loss": 0.7536,
3409
+ "step": 480
3410
+ },
3411
+ {
3412
+ "epoch": 0.07892523843708338,
3413
+ "grad_norm": 0.3780055344104767,
3414
+ "learning_rate": 0.00019967228068603623,
3415
+ "loss": 0.7793,
3416
+ "step": 481
3417
+ },
3418
+ {
3419
+ "epoch": 0.0790893241718798,
3420
+ "grad_norm": 0.3696160316467285,
3421
+ "learning_rate": 0.00019967088838394789,
3422
+ "loss": 0.8083,
3423
+ "step": 482
3424
+ },
3425
+ {
3426
+ "epoch": 0.07925340990667624,
3427
+ "grad_norm": 0.3387402296066284,
3428
+ "learning_rate": 0.00019966949313543112,
3429
+ "loss": 0.8436,
3430
+ "step": 483
3431
+ },
3432
+ {
3433
+ "epoch": 0.07941749564147267,
3434
+ "grad_norm": 0.3094363212585449,
3435
+ "learning_rate": 0.00019966809494052713,
3436
+ "loss": 0.7768,
3437
+ "step": 484
3438
+ },
3439
+ {
3440
+ "epoch": 0.0795815813762691,
3441
+ "grad_norm": 0.3164433240890503,
3442
+ "learning_rate": 0.00019966669379927726,
3443
+ "loss": 0.8517,
3444
+ "step": 485
3445
+ },
3446
+ {
3447
+ "epoch": 0.07974566711106554,
3448
+ "grad_norm": 0.3255369961261749,
3449
+ "learning_rate": 0.00019966528971172295,
3450
+ "loss": 0.8573,
3451
+ "step": 486
3452
+ },
3453
+ {
3454
+ "epoch": 0.07990975284586196,
3455
+ "grad_norm": 0.31875723600387573,
3456
+ "learning_rate": 0.00019966388267790566,
3457
+ "loss": 0.8253,
3458
+ "step": 487
3459
+ },
3460
+ {
3461
+ "epoch": 0.08007383858065839,
3462
+ "grad_norm": 0.32112181186676025,
3463
+ "learning_rate": 0.00019966247269786701,
3464
+ "loss": 0.9794,
3465
+ "step": 488
3466
+ },
3467
+ {
3468
+ "epoch": 0.08023792431545483,
3469
+ "grad_norm": 0.34695595502853394,
3470
+ "learning_rate": 0.00019966105977164872,
3471
+ "loss": 0.7167,
3472
+ "step": 489
3473
+ },
3474
+ {
3475
+ "epoch": 0.08040201005025126,
3476
+ "grad_norm": 0.33684611320495605,
3477
+ "learning_rate": 0.0001996596438992925,
3478
+ "loss": 0.8618,
3479
+ "step": 490
3480
+ },
3481
+ {
3482
+ "epoch": 0.08056609578504768,
3483
+ "grad_norm": 0.3515377342700958,
3484
+ "learning_rate": 0.00019965822508084022,
3485
+ "loss": 0.7417,
3486
+ "step": 491
3487
+ },
3488
+ {
3489
+ "epoch": 0.08073018151984412,
3490
+ "grad_norm": 0.45770692825317383,
3491
+ "learning_rate": 0.00019965680331633382,
3492
+ "loss": 0.7696,
3493
+ "step": 492
3494
+ },
3495
+ {
3496
+ "epoch": 0.08089426725464055,
3497
+ "grad_norm": 0.35616007447242737,
3498
+ "learning_rate": 0.00019965537860581537,
3499
+ "loss": 0.9678,
3500
+ "step": 493
3501
+ },
3502
+ {
3503
+ "epoch": 0.08105835298943698,
3504
+ "grad_norm": 0.5278313159942627,
3505
+ "learning_rate": 0.00019965395094932693,
3506
+ "loss": 0.8417,
3507
+ "step": 494
3508
+ },
3509
+ {
3510
+ "epoch": 0.08122243872423342,
3511
+ "grad_norm": 0.40865620970726013,
3512
+ "learning_rate": 0.00019965252034691075,
3513
+ "loss": 0.7845,
3514
+ "step": 495
3515
+ },
3516
+ {
3517
+ "epoch": 0.08138652445902984,
3518
+ "grad_norm": 0.37308233976364136,
3519
+ "learning_rate": 0.0001996510867986091,
3520
+ "loss": 0.8607,
3521
+ "step": 496
3522
+ },
3523
+ {
3524
+ "epoch": 0.08155061019382627,
3525
+ "grad_norm": 0.5070668458938599,
3526
+ "learning_rate": 0.00019964965030446434,
3527
+ "loss": 0.8668,
3528
+ "step": 497
3529
+ },
3530
+ {
3531
+ "epoch": 0.08171469592862271,
3532
+ "grad_norm": 0.40923750400543213,
3533
+ "learning_rate": 0.00019964821086451896,
3534
+ "loss": 0.9865,
3535
+ "step": 498
3536
+ },
3537
+ {
3538
+ "epoch": 0.08187878166341914,
3539
+ "grad_norm": 0.42455339431762695,
3540
+ "learning_rate": 0.00019964676847881551,
3541
+ "loss": 1.0331,
3542
+ "step": 499
3543
+ },
3544
+ {
3545
+ "epoch": 0.08204286739821556,
3546
+ "grad_norm": 0.5710748434066772,
3547
+ "learning_rate": 0.00019964532314739662,
3548
+ "loss": 0.9817,
3549
+ "step": 500
3550
+ },
3551
+ {
3552
+ "epoch": 0.08204286739821556,
3553
+ "eval_loss": 0.7902427911758423,
3554
+ "eval_runtime": 70.7583,
3555
+ "eval_samples_per_second": 3.462,
3556
+ "eval_steps_per_second": 3.462,
3557
+ "step": 500
3558
+ },
3559
+ {
3560
+ "epoch": 0.082206953133012,
3561
+ "grad_norm": 0.2542221248149872,
3562
+ "learning_rate": 0.00019964387487030503,
3563
+ "loss": 0.544,
3564
+ "step": 501
3565
+ },
3566
+ {
3567
+ "epoch": 0.08237103886780843,
3568
+ "grad_norm": 0.2645345628261566,
3569
+ "learning_rate": 0.00019964242364758355,
3570
+ "loss": 0.5941,
3571
+ "step": 502
3572
+ },
3573
+ {
3574
+ "epoch": 0.08253512460260486,
3575
+ "grad_norm": 0.24813871085643768,
3576
+ "learning_rate": 0.00019964096947927508,
3577
+ "loss": 0.6608,
3578
+ "step": 503
3579
+ },
3580
+ {
3581
+ "epoch": 0.0826992103374013,
3582
+ "grad_norm": 0.24130459129810333,
3583
+ "learning_rate": 0.00019963951236542257,
3584
+ "loss": 0.637,
3585
+ "step": 504
3586
+ },
3587
+ {
3588
+ "epoch": 0.08286329607219772,
3589
+ "grad_norm": 0.3400072157382965,
3590
+ "learning_rate": 0.00019963805230606915,
3591
+ "loss": 0.638,
3592
+ "step": 505
3593
+ },
3594
+ {
3595
+ "epoch": 0.08302738180699415,
3596
+ "grad_norm": 0.2924500107765198,
3597
+ "learning_rate": 0.00019963658930125794,
3598
+ "loss": 0.7683,
3599
+ "step": 506
3600
+ },
3601
+ {
3602
+ "epoch": 0.08319146754179059,
3603
+ "grad_norm": 0.47059324383735657,
3604
+ "learning_rate": 0.00019963512335103222,
3605
+ "loss": 0.7232,
3606
+ "step": 507
3607
+ },
3608
+ {
3609
+ "epoch": 0.08335555327658702,
3610
+ "grad_norm": 0.29273051023483276,
3611
+ "learning_rate": 0.00019963365445543532,
3612
+ "loss": 0.7313,
3613
+ "step": 508
3614
+ },
3615
+ {
3616
+ "epoch": 0.08351963901138344,
3617
+ "grad_norm": 0.30427420139312744,
3618
+ "learning_rate": 0.00019963218261451066,
3619
+ "loss": 0.7675,
3620
+ "step": 509
3621
+ },
3622
+ {
3623
+ "epoch": 0.08368372474617988,
3624
+ "grad_norm": 0.27146315574645996,
3625
+ "learning_rate": 0.00019963070782830173,
3626
+ "loss": 0.6338,
3627
+ "step": 510
3628
+ },
3629
+ {
3630
+ "epoch": 0.08384781048097631,
3631
+ "grad_norm": 0.26816409826278687,
3632
+ "learning_rate": 0.00019962923009685216,
3633
+ "loss": 0.692,
3634
+ "step": 511
3635
+ },
3636
+ {
3637
+ "epoch": 0.08401189621577274,
3638
+ "grad_norm": 0.2671113610267639,
3639
+ "learning_rate": 0.0001996277494202056,
3640
+ "loss": 0.7029,
3641
+ "step": 512
3642
+ },
3643
+ {
3644
+ "epoch": 0.08417598195056918,
3645
+ "grad_norm": 0.26612916588783264,
3646
+ "learning_rate": 0.00019962626579840583,
3647
+ "loss": 0.8666,
3648
+ "step": 513
3649
+ },
3650
+ {
3651
+ "epoch": 0.0843400676853656,
3652
+ "grad_norm": 0.2911565601825714,
3653
+ "learning_rate": 0.00019962477923149674,
3654
+ "loss": 0.6847,
3655
+ "step": 514
3656
+ },
3657
+ {
3658
+ "epoch": 0.08450415342016203,
3659
+ "grad_norm": 0.2518673241138458,
3660
+ "learning_rate": 0.00019962328971952225,
3661
+ "loss": 0.6946,
3662
+ "step": 515
3663
+ },
3664
+ {
3665
+ "epoch": 0.08466823915495847,
3666
+ "grad_norm": 0.32353517413139343,
3667
+ "learning_rate": 0.0001996217972625264,
3668
+ "loss": 0.7648,
3669
+ "step": 516
3670
+ },
3671
+ {
3672
+ "epoch": 0.0848323248897549,
3673
+ "grad_norm": 0.33887815475463867,
3674
+ "learning_rate": 0.00019962030186055328,
3675
+ "loss": 0.74,
3676
+ "step": 517
3677
+ },
3678
+ {
3679
+ "epoch": 0.08499641062455132,
3680
+ "grad_norm": 0.30510279536247253,
3681
+ "learning_rate": 0.00019961880351364712,
3682
+ "loss": 0.8442,
3683
+ "step": 518
3684
+ },
3685
+ {
3686
+ "epoch": 0.08516049635934776,
3687
+ "grad_norm": 0.4953973889350891,
3688
+ "learning_rate": 0.00019961730222185225,
3689
+ "loss": 0.7548,
3690
+ "step": 519
3691
+ },
3692
+ {
3693
+ "epoch": 0.08532458209414419,
3694
+ "grad_norm": 0.3338676393032074,
3695
+ "learning_rate": 0.00019961579798521297,
3696
+ "loss": 0.7259,
3697
+ "step": 520
3698
+ },
3699
+ {
3700
+ "epoch": 0.08548866782894061,
3701
+ "grad_norm": 0.29042428731918335,
3702
+ "learning_rate": 0.0001996142908037738,
3703
+ "loss": 0.8281,
3704
+ "step": 521
3705
+ },
3706
+ {
3707
+ "epoch": 0.08565275356373706,
3708
+ "grad_norm": 0.30394816398620605,
3709
+ "learning_rate": 0.0001996127806775793,
3710
+ "loss": 0.6939,
3711
+ "step": 522
3712
+ },
3713
+ {
3714
+ "epoch": 0.08581683929853348,
3715
+ "grad_norm": 0.2836878001689911,
3716
+ "learning_rate": 0.0001996112676066741,
3717
+ "loss": 0.6618,
3718
+ "step": 523
3719
+ },
3720
+ {
3721
+ "epoch": 0.08598092503332991,
3722
+ "grad_norm": 0.33087509870529175,
3723
+ "learning_rate": 0.00019960975159110295,
3724
+ "loss": 0.7448,
3725
+ "step": 524
3726
+ },
3727
+ {
3728
+ "epoch": 0.08614501076812635,
3729
+ "grad_norm": 0.26727747917175293,
3730
+ "learning_rate": 0.0001996082326309106,
3731
+ "loss": 0.693,
3732
+ "step": 525
3733
+ },
3734
+ {
3735
+ "epoch": 0.08630909650292277,
3736
+ "grad_norm": 0.2853117287158966,
3737
+ "learning_rate": 0.000199606710726142,
3738
+ "loss": 0.7681,
3739
+ "step": 526
3740
+ },
3741
+ {
3742
+ "epoch": 0.08647318223771921,
3743
+ "grad_norm": 0.5314649343490601,
3744
+ "learning_rate": 0.00019960518587684213,
3745
+ "loss": 0.6646,
3746
+ "step": 527
3747
+ },
3748
+ {
3749
+ "epoch": 0.08663726797251564,
3750
+ "grad_norm": 0.33825939893722534,
3751
+ "learning_rate": 0.00019960365808305609,
3752
+ "loss": 0.7447,
3753
+ "step": 528
3754
+ },
3755
+ {
3756
+ "epoch": 0.08680135370731207,
3757
+ "grad_norm": 0.3486720323562622,
3758
+ "learning_rate": 0.00019960212734482902,
3759
+ "loss": 0.7324,
3760
+ "step": 529
3761
+ },
3762
+ {
3763
+ "epoch": 0.08696543944210851,
3764
+ "grad_norm": 0.44422647356987,
3765
+ "learning_rate": 0.00019960059366220617,
3766
+ "loss": 0.798,
3767
+ "step": 530
3768
+ },
3769
+ {
3770
+ "epoch": 0.08712952517690493,
3771
+ "grad_norm": 0.2957271635532379,
3772
+ "learning_rate": 0.00019959905703523288,
3773
+ "loss": 0.7875,
3774
+ "step": 531
3775
+ },
3776
+ {
3777
+ "epoch": 0.08729361091170136,
3778
+ "grad_norm": 0.32711222767829895,
3779
+ "learning_rate": 0.00019959751746395461,
3780
+ "loss": 0.8314,
3781
+ "step": 532
3782
+ },
3783
+ {
3784
+ "epoch": 0.0874576966464978,
3785
+ "grad_norm": 0.3585834205150604,
3786
+ "learning_rate": 0.00019959597494841681,
3787
+ "loss": 0.81,
3788
+ "step": 533
3789
+ },
3790
+ {
3791
+ "epoch": 0.08762178238129423,
3792
+ "grad_norm": 0.4582952857017517,
3793
+ "learning_rate": 0.00019959442948866513,
3794
+ "loss": 0.8199,
3795
+ "step": 534
3796
+ },
3797
+ {
3798
+ "epoch": 0.08778586811609065,
3799
+ "grad_norm": 0.3768620491027832,
3800
+ "learning_rate": 0.00019959288108474527,
3801
+ "loss": 0.7852,
3802
+ "step": 535
3803
+ },
3804
+ {
3805
+ "epoch": 0.0879499538508871,
3806
+ "grad_norm": 0.37209224700927734,
3807
+ "learning_rate": 0.00019959132973670292,
3808
+ "loss": 0.8902,
3809
+ "step": 536
3810
+ },
3811
+ {
3812
+ "epoch": 0.08811403958568352,
3813
+ "grad_norm": 0.3185194730758667,
3814
+ "learning_rate": 0.00019958977544458402,
3815
+ "loss": 0.7754,
3816
+ "step": 537
3817
+ },
3818
+ {
3819
+ "epoch": 0.08827812532047995,
3820
+ "grad_norm": 0.32522639632225037,
3821
+ "learning_rate": 0.00019958821820843448,
3822
+ "loss": 0.8702,
3823
+ "step": 538
3824
+ },
3825
+ {
3826
+ "epoch": 0.08844221105527639,
3827
+ "grad_norm": 0.33792081475257874,
3828
+ "learning_rate": 0.00019958665802830036,
3829
+ "loss": 0.7749,
3830
+ "step": 539
3831
+ },
3832
+ {
3833
+ "epoch": 0.08860629679007281,
3834
+ "grad_norm": 0.3337690830230713,
3835
+ "learning_rate": 0.0001995850949042277,
3836
+ "loss": 0.8281,
3837
+ "step": 540
3838
+ },
3839
+ {
3840
+ "epoch": 0.08877038252486924,
3841
+ "grad_norm": 0.3441987931728363,
3842
+ "learning_rate": 0.00019958352883626284,
3843
+ "loss": 0.7142,
3844
+ "step": 541
3845
+ },
3846
+ {
3847
+ "epoch": 0.08893446825966568,
3848
+ "grad_norm": 0.42077013850212097,
3849
+ "learning_rate": 0.00019958195982445199,
3850
+ "loss": 0.7891,
3851
+ "step": 542
3852
+ },
3853
+ {
3854
+ "epoch": 0.0890985539944621,
3855
+ "grad_norm": 0.4405931830406189,
3856
+ "learning_rate": 0.00019958038786884155,
3857
+ "loss": 0.9158,
3858
+ "step": 543
3859
+ },
3860
+ {
3861
+ "epoch": 0.08926263972925853,
3862
+ "grad_norm": 0.3358551859855652,
3863
+ "learning_rate": 0.00019957881296947798,
3864
+ "loss": 0.6941,
3865
+ "step": 544
3866
+ },
3867
+ {
3868
+ "epoch": 0.08942672546405497,
3869
+ "grad_norm": 0.39642512798309326,
3870
+ "learning_rate": 0.00019957723512640784,
3871
+ "loss": 0.7531,
3872
+ "step": 545
3873
+ },
3874
+ {
3875
+ "epoch": 0.0895908111988514,
3876
+ "grad_norm": 0.428423672914505,
3877
+ "learning_rate": 0.0001995756543396778,
3878
+ "loss": 0.8928,
3879
+ "step": 546
3880
+ },
3881
+ {
3882
+ "epoch": 0.08975489693364783,
3883
+ "grad_norm": 0.49737995862960815,
3884
+ "learning_rate": 0.00019957407060933457,
3885
+ "loss": 0.8893,
3886
+ "step": 547
3887
+ },
3888
+ {
3889
+ "epoch": 0.08991898266844427,
3890
+ "grad_norm": 0.45987364649772644,
3891
+ "learning_rate": 0.00019957248393542498,
3892
+ "loss": 0.6813,
3893
+ "step": 548
3894
+ },
3895
+ {
3896
+ "epoch": 0.0900830684032407,
3897
+ "grad_norm": 0.5005274415016174,
3898
+ "learning_rate": 0.0001995708943179959,
3899
+ "loss": 0.7574,
3900
+ "step": 549
3901
+ },
3902
+ {
3903
+ "epoch": 0.09024715413803712,
3904
+ "grad_norm": 0.6577406525611877,
3905
+ "learning_rate": 0.00019956930175709436,
3906
+ "loss": 0.9468,
3907
+ "step": 550
3908
+ },
3909
+ {
3910
+ "epoch": 0.09041123987283356,
3911
+ "grad_norm": 0.30720874667167664,
3912
+ "learning_rate": 0.0001995677062527674,
3913
+ "loss": 0.6136,
3914
+ "step": 551
3915
+ },
3916
+ {
3917
+ "epoch": 0.09057532560762999,
3918
+ "grad_norm": 0.24331681430339813,
3919
+ "learning_rate": 0.00019956610780506222,
3920
+ "loss": 0.6703,
3921
+ "step": 552
3922
+ },
3923
+ {
3924
+ "epoch": 0.09073941134242641,
3925
+ "grad_norm": 0.24991828203201294,
3926
+ "learning_rate": 0.00019956450641402609,
3927
+ "loss": 0.6179,
3928
+ "step": 553
3929
+ },
3930
+ {
3931
+ "epoch": 0.09090349707722285,
3932
+ "grad_norm": 0.26630428433418274,
3933
+ "learning_rate": 0.0001995629020797063,
3934
+ "loss": 0.9014,
3935
+ "step": 554
3936
+ },
3937
+ {
3938
+ "epoch": 0.09106758281201928,
3939
+ "grad_norm": 0.2855633795261383,
3940
+ "learning_rate": 0.00019956129480215026,
3941
+ "loss": 0.6828,
3942
+ "step": 555
3943
+ },
3944
+ {
3945
+ "epoch": 0.0912316685468157,
3946
+ "grad_norm": 0.292644739151001,
3947
+ "learning_rate": 0.00019955968458140557,
3948
+ "loss": 0.6975,
3949
+ "step": 556
3950
+ },
3951
+ {
3952
+ "epoch": 0.09139575428161215,
3953
+ "grad_norm": 0.3429616689682007,
3954
+ "learning_rate": 0.00019955807141751975,
3955
+ "loss": 0.7558,
3956
+ "step": 557
3957
+ },
3958
+ {
3959
+ "epoch": 0.09155984001640857,
3960
+ "grad_norm": 0.3144456744194031,
3961
+ "learning_rate": 0.00019955645531054056,
3962
+ "loss": 0.6571,
3963
+ "step": 558
3964
+ },
3965
+ {
3966
+ "epoch": 0.091723925751205,
3967
+ "grad_norm": 0.2671104669570923,
3968
+ "learning_rate": 0.0001995548362605157,
3969
+ "loss": 0.7479,
3970
+ "step": 559
3971
+ },
3972
+ {
3973
+ "epoch": 0.09188801148600144,
3974
+ "grad_norm": 0.31418734788894653,
3975
+ "learning_rate": 0.0001995532142674931,
3976
+ "loss": 0.6673,
3977
+ "step": 560
3978
+ },
3979
+ {
3980
+ "epoch": 0.09205209722079787,
3981
+ "grad_norm": 0.3422031104564667,
3982
+ "learning_rate": 0.00019955158933152064,
3983
+ "loss": 0.7965,
3984
+ "step": 561
3985
+ },
3986
+ {
3987
+ "epoch": 0.09221618295559429,
3988
+ "grad_norm": 0.2794967591762543,
3989
+ "learning_rate": 0.00019954996145264643,
3990
+ "loss": 0.716,
3991
+ "step": 562
3992
+ },
3993
+ {
3994
+ "epoch": 0.09238026869039073,
3995
+ "grad_norm": 0.39105239510536194,
3996
+ "learning_rate": 0.00019954833063091853,
3997
+ "loss": 0.6283,
3998
+ "step": 563
3999
+ },
4000
+ {
4001
+ "epoch": 0.09254435442518716,
4002
+ "grad_norm": 0.3515319526195526,
4003
+ "learning_rate": 0.00019954669686638514,
4004
+ "loss": 0.7045,
4005
+ "step": 564
4006
+ },
4007
+ {
4008
+ "epoch": 0.09270844015998359,
4009
+ "grad_norm": 0.32754653692245483,
4010
+ "learning_rate": 0.00019954506015909464,
4011
+ "loss": 0.7455,
4012
+ "step": 565
4013
+ },
4014
+ {
4015
+ "epoch": 0.09287252589478003,
4016
+ "grad_norm": 0.38944128155708313,
4017
+ "learning_rate": 0.00019954342050909534,
4018
+ "loss": 0.7544,
4019
+ "step": 566
4020
+ },
4021
+ {
4022
+ "epoch": 0.09303661162957645,
4023
+ "grad_norm": 0.32821983098983765,
4024
+ "learning_rate": 0.00019954177791643574,
4025
+ "loss": 0.6731,
4026
+ "step": 567
4027
+ },
4028
+ {
4029
+ "epoch": 0.09320069736437288,
4030
+ "grad_norm": 0.34350642561912537,
4031
+ "learning_rate": 0.00019954013238116438,
4032
+ "loss": 0.8399,
4033
+ "step": 568
4034
+ },
4035
+ {
4036
+ "epoch": 0.09336478309916932,
4037
+ "grad_norm": 0.33525383472442627,
4038
+ "learning_rate": 0.00019953848390332992,
4039
+ "loss": 0.8189,
4040
+ "step": 569
4041
+ },
4042
+ {
4043
+ "epoch": 0.09352886883396574,
4044
+ "grad_norm": 0.35323095321655273,
4045
+ "learning_rate": 0.00019953683248298106,
4046
+ "loss": 0.8978,
4047
+ "step": 570
4048
+ },
4049
+ {
4050
+ "epoch": 0.09369295456876219,
4051
+ "grad_norm": 0.34625014662742615,
4052
+ "learning_rate": 0.0001995351781201667,
4053
+ "loss": 0.9358,
4054
+ "step": 571
4055
+ },
4056
+ {
4057
+ "epoch": 0.09385704030355861,
4058
+ "grad_norm": 0.34705492854118347,
4059
+ "learning_rate": 0.00019953352081493567,
4060
+ "loss": 0.6916,
4061
+ "step": 572
4062
+ },
4063
+ {
4064
+ "epoch": 0.09402112603835504,
4065
+ "grad_norm": 0.3524523675441742,
4066
+ "learning_rate": 0.00019953186056733698,
4067
+ "loss": 0.8914,
4068
+ "step": 573
4069
+ },
4070
+ {
4071
+ "epoch": 0.09418521177315148,
4072
+ "grad_norm": 0.3258850574493408,
4073
+ "learning_rate": 0.00019953019737741973,
4074
+ "loss": 0.798,
4075
+ "step": 574
4076
+ },
4077
+ {
4078
+ "epoch": 0.0943492975079479,
4079
+ "grad_norm": 0.34496602416038513,
4080
+ "learning_rate": 0.00019952853124523306,
4081
+ "loss": 0.7979,
4082
+ "step": 575
4083
+ },
4084
+ {
4085
+ "epoch": 0.09451338324274433,
4086
+ "grad_norm": 0.3083381652832031,
4087
+ "learning_rate": 0.00019952686217082621,
4088
+ "loss": 0.8979,
4089
+ "step": 576
4090
+ },
4091
+ {
4092
+ "epoch": 0.09467746897754077,
4093
+ "grad_norm": 0.3396521508693695,
4094
+ "learning_rate": 0.0001995251901542486,
4095
+ "loss": 0.9223,
4096
+ "step": 577
4097
+ },
4098
+ {
4099
+ "epoch": 0.0948415547123372,
4100
+ "grad_norm": 0.30544814467430115,
4101
+ "learning_rate": 0.00019952351519554956,
4102
+ "loss": 0.9028,
4103
+ "step": 578
4104
+ },
4105
+ {
4106
+ "epoch": 0.09500564044713362,
4107
+ "grad_norm": 0.4109005033969879,
4108
+ "learning_rate": 0.00019952183729477865,
4109
+ "loss": 0.7769,
4110
+ "step": 579
4111
+ },
4112
+ {
4113
+ "epoch": 0.09516972618193006,
4114
+ "grad_norm": 0.40897905826568604,
4115
+ "learning_rate": 0.00019952015645198547,
4116
+ "loss": 0.6695,
4117
+ "step": 580
4118
+ },
4119
+ {
4120
+ "epoch": 0.09533381191672649,
4121
+ "grad_norm": 0.4280332624912262,
4122
+ "learning_rate": 0.0001995184726672197,
4123
+ "loss": 0.8043,
4124
+ "step": 581
4125
+ },
4126
+ {
4127
+ "epoch": 0.09549789765152292,
4128
+ "grad_norm": 0.38212618231773376,
4129
+ "learning_rate": 0.00019951678594053114,
4130
+ "loss": 0.8747,
4131
+ "step": 582
4132
+ },
4133
+ {
4134
+ "epoch": 0.09566198338631936,
4135
+ "grad_norm": 0.3472382128238678,
4136
+ "learning_rate": 0.0001995150962719696,
4137
+ "loss": 0.8115,
4138
+ "step": 583
4139
+ },
4140
+ {
4141
+ "epoch": 0.09582606912111578,
4142
+ "grad_norm": 0.43354499340057373,
4143
+ "learning_rate": 0.0001995134036615851,
4144
+ "loss": 0.7358,
4145
+ "step": 584
4146
+ },
4147
+ {
4148
+ "epoch": 0.09599015485591221,
4149
+ "grad_norm": 0.40974995493888855,
4150
+ "learning_rate": 0.00019951170810942763,
4151
+ "loss": 0.8083,
4152
+ "step": 585
4153
+ },
4154
+ {
4155
+ "epoch": 0.09615424059070865,
4156
+ "grad_norm": 0.33038821816444397,
4157
+ "learning_rate": 0.00019951000961554728,
4158
+ "loss": 0.8238,
4159
+ "step": 586
4160
+ },
4161
+ {
4162
+ "epoch": 0.09631832632550508,
4163
+ "grad_norm": 0.32848745584487915,
4164
+ "learning_rate": 0.00019950830817999434,
4165
+ "loss": 0.7763,
4166
+ "step": 587
4167
+ },
4168
+ {
4169
+ "epoch": 0.0964824120603015,
4170
+ "grad_norm": 0.434444397687912,
4171
+ "learning_rate": 0.0001995066038028191,
4172
+ "loss": 0.7627,
4173
+ "step": 588
4174
+ },
4175
+ {
4176
+ "epoch": 0.09664649779509794,
4177
+ "grad_norm": 0.5674214959144592,
4178
+ "learning_rate": 0.00019950489648407188,
4179
+ "loss": 0.8407,
4180
+ "step": 589
4181
+ },
4182
+ {
4183
+ "epoch": 0.09681058352989437,
4184
+ "grad_norm": 0.49122345447540283,
4185
+ "learning_rate": 0.00019950318622380316,
4186
+ "loss": 0.8482,
4187
+ "step": 590
4188
+ },
4189
+ {
4190
+ "epoch": 0.0969746692646908,
4191
+ "grad_norm": 0.40209364891052246,
4192
+ "learning_rate": 0.00019950147302206353,
4193
+ "loss": 0.8458,
4194
+ "step": 591
4195
+ },
4196
+ {
4197
+ "epoch": 0.09713875499948724,
4198
+ "grad_norm": 0.4982354938983917,
4199
+ "learning_rate": 0.00019949975687890366,
4200
+ "loss": 0.9152,
4201
+ "step": 592
4202
+ },
4203
+ {
4204
+ "epoch": 0.09730284073428366,
4205
+ "grad_norm": 0.4886113703250885,
4206
+ "learning_rate": 0.00019949803779437426,
4207
+ "loss": 0.8261,
4208
+ "step": 593
4209
+ },
4210
+ {
4211
+ "epoch": 0.09746692646908009,
4212
+ "grad_norm": 0.3699701130390167,
4213
+ "learning_rate": 0.0001994963157685261,
4214
+ "loss": 0.8339,
4215
+ "step": 594
4216
+ },
4217
+ {
4218
+ "epoch": 0.09763101220387653,
4219
+ "grad_norm": 0.3579908013343811,
4220
+ "learning_rate": 0.00019949459080141014,
4221
+ "loss": 0.7867,
4222
+ "step": 595
4223
+ },
4224
+ {
4225
+ "epoch": 0.09779509793867296,
4226
+ "grad_norm": 0.3716687262058258,
4227
+ "learning_rate": 0.00019949286289307737,
4228
+ "loss": 0.7762,
4229
+ "step": 596
4230
+ },
4231
+ {
4232
+ "epoch": 0.09795918367346938,
4233
+ "grad_norm": 0.5843008160591125,
4234
+ "learning_rate": 0.00019949113204357883,
4235
+ "loss": 0.9435,
4236
+ "step": 597
4237
+ },
4238
+ {
4239
+ "epoch": 0.09812326940826582,
4240
+ "grad_norm": 0.5935463309288025,
4241
+ "learning_rate": 0.00019948939825296572,
4242
+ "loss": 0.7525,
4243
+ "step": 598
4244
+ },
4245
+ {
4246
+ "epoch": 0.09828735514306225,
4247
+ "grad_norm": 0.6296449303627014,
4248
+ "learning_rate": 0.00019948766152128928,
4249
+ "loss": 0.8801,
4250
+ "step": 599
4251
+ },
4252
+ {
4253
+ "epoch": 0.09845144087785868,
4254
+ "grad_norm": 0.7150892615318298,
4255
+ "learning_rate": 0.00019948592184860088,
4256
+ "loss": 0.7897,
4257
+ "step": 600
4258
+ },
4259
+ {
4260
+ "epoch": 0.09845144087785868,
4261
+ "eval_loss": 0.7834404110908508,
4262
+ "eval_runtime": 70.8563,
4263
+ "eval_samples_per_second": 3.458,
4264
+ "eval_steps_per_second": 3.458,
4265
+ "step": 600
4266
  }
4267
  ],
4268
  "logging_steps": 1,
 
4291
  "attributes": {}
4292
  }
4293
  },
4294
+ "total_flos": 8.361437762578022e+16,
4295
  "train_batch_size": 1,
4296
  "trial_name": null,
4297
  "trial_params": null