euler03 commited on
Commit
173b1c4
·
verified ·
1 Parent(s): ac482c7

Training in progress, step 8500, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:592c6d5c3933a924f9245eb4e8ae636646b45c25f0497dbf534427ca0a63f130
3
  size 267829484
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac527dbe9885338fecfab3563e193004fe5015a782e142033b00cd4adacfef33
3
  size 267829484
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c36ced408165968a84941da4fa4aaf6790d8ba45e36880b96f43157a5a68178d
3
  size 535721146
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:00f13c7ab601a5530ba1fb17752c295cedf45760ae9ef8465585890e8a01c1fc
3
  size 535721146
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:74e0834da732cbfd05573c9df49eb299ecd921cee3336147fcea76597970d51f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5a44913291ab392a066273d395cc9d02e12ea5bb71bddbffc3e8561a7aa61aa5
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dac2a7b410cb352b26f39a5d92809d5128b9da978a90a0a2e089efb2a02d1c4f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4e341f500c90835c03128f6fd935e02b54a4d6066b4a71f0997f5acf2e055176
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.9417829749779957,
3
- "best_model_checkpoint": "./results/checkpoint-8000",
4
- "epoch": 2.735042735042735,
5
  "eval_steps": 500,
6
- "global_step": 8000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5815,6 +5815,369 @@
5815
  "eval_samples_per_second": 124.195,
5816
  "eval_steps_per_second": 7.771,
5817
  "step": 8000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5818
  }
5819
  ],
5820
  "logging_steps": 10,
@@ -5843,7 +6206,7 @@
5843
  "attributes": {}
5844
  }
5845
  },
5846
- "total_flos": 1.2715252600766976e+16,
5847
  "train_batch_size": 16,
5848
  "trial_name": null,
5849
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.9451296249685376,
3
+ "best_model_checkpoint": "./results/checkpoint-8500",
4
+ "epoch": 2.905982905982906,
5
  "eval_steps": 500,
6
+ "global_step": 8500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5815
  "eval_samples_per_second": 124.195,
5816
  "eval_steps_per_second": 7.771,
5817
  "step": 8000
5818
+ },
5819
+ {
5820
+ "epoch": 2.7384615384615385,
5821
+ "grad_norm": 15.186147689819336,
5822
+ "learning_rate": 4.3589743589743586e-06,
5823
+ "loss": 0.1738,
5824
+ "step": 8010
5825
+ },
5826
+ {
5827
+ "epoch": 2.741880341880342,
5828
+ "grad_norm": 8.640946388244629,
5829
+ "learning_rate": 4.301994301994302e-06,
5830
+ "loss": 0.1729,
5831
+ "step": 8020
5832
+ },
5833
+ {
5834
+ "epoch": 2.7452991452991453,
5835
+ "grad_norm": 11.053187370300293,
5836
+ "learning_rate": 4.245014245014245e-06,
5837
+ "loss": 0.1322,
5838
+ "step": 8030
5839
+ },
5840
+ {
5841
+ "epoch": 2.7487179487179487,
5842
+ "grad_norm": 5.279446601867676,
5843
+ "learning_rate": 4.188034188034188e-06,
5844
+ "loss": 0.1461,
5845
+ "step": 8040
5846
+ },
5847
+ {
5848
+ "epoch": 2.752136752136752,
5849
+ "grad_norm": 4.323098659515381,
5850
+ "learning_rate": 4.131054131054131e-06,
5851
+ "loss": 0.1352,
5852
+ "step": 8050
5853
+ },
5854
+ {
5855
+ "epoch": 2.7555555555555555,
5856
+ "grad_norm": 3.249645233154297,
5857
+ "learning_rate": 4.074074074074075e-06,
5858
+ "loss": 0.1768,
5859
+ "step": 8060
5860
+ },
5861
+ {
5862
+ "epoch": 2.758974358974359,
5863
+ "grad_norm": 1.8464040756225586,
5864
+ "learning_rate": 4.017094017094018e-06,
5865
+ "loss": 0.1526,
5866
+ "step": 8070
5867
+ },
5868
+ {
5869
+ "epoch": 2.7623931623931623,
5870
+ "grad_norm": 6.442093849182129,
5871
+ "learning_rate": 3.960113960113961e-06,
5872
+ "loss": 0.0894,
5873
+ "step": 8080
5874
+ },
5875
+ {
5876
+ "epoch": 2.7658119658119658,
5877
+ "grad_norm": 6.989425182342529,
5878
+ "learning_rate": 3.903133903133904e-06,
5879
+ "loss": 0.185,
5880
+ "step": 8090
5881
+ },
5882
+ {
5883
+ "epoch": 2.769230769230769,
5884
+ "grad_norm": 3.125702142715454,
5885
+ "learning_rate": 3.846153846153847e-06,
5886
+ "loss": 0.1088,
5887
+ "step": 8100
5888
+ },
5889
+ {
5890
+ "epoch": 2.7726495726495726,
5891
+ "grad_norm": 4.960128307342529,
5892
+ "learning_rate": 3.7891737891737897e-06,
5893
+ "loss": 0.0836,
5894
+ "step": 8110
5895
+ },
5896
+ {
5897
+ "epoch": 2.776068376068376,
5898
+ "grad_norm": 1.6848759651184082,
5899
+ "learning_rate": 3.7321937321937327e-06,
5900
+ "loss": 0.1298,
5901
+ "step": 8120
5902
+ },
5903
+ {
5904
+ "epoch": 2.7794871794871794,
5905
+ "grad_norm": 4.422844409942627,
5906
+ "learning_rate": 3.6752136752136756e-06,
5907
+ "loss": 0.2038,
5908
+ "step": 8130
5909
+ },
5910
+ {
5911
+ "epoch": 2.782905982905983,
5912
+ "grad_norm": 1.5880966186523438,
5913
+ "learning_rate": 3.6182336182336186e-06,
5914
+ "loss": 0.1254,
5915
+ "step": 8140
5916
+ },
5917
+ {
5918
+ "epoch": 2.786324786324786,
5919
+ "grad_norm": 7.746439456939697,
5920
+ "learning_rate": 3.5612535612535615e-06,
5921
+ "loss": 0.1215,
5922
+ "step": 8150
5923
+ },
5924
+ {
5925
+ "epoch": 2.7897435897435896,
5926
+ "grad_norm": 0.546491801738739,
5927
+ "learning_rate": 3.5042735042735045e-06,
5928
+ "loss": 0.1141,
5929
+ "step": 8160
5930
+ },
5931
+ {
5932
+ "epoch": 2.793162393162393,
5933
+ "grad_norm": 9.661653518676758,
5934
+ "learning_rate": 3.4472934472934474e-06,
5935
+ "loss": 0.1641,
5936
+ "step": 8170
5937
+ },
5938
+ {
5939
+ "epoch": 2.7965811965811964,
5940
+ "grad_norm": 15.40501880645752,
5941
+ "learning_rate": 3.3903133903133904e-06,
5942
+ "loss": 0.1494,
5943
+ "step": 8180
5944
+ },
5945
+ {
5946
+ "epoch": 2.8,
5947
+ "grad_norm": 10.524840354919434,
5948
+ "learning_rate": 3.3333333333333333e-06,
5949
+ "loss": 0.1519,
5950
+ "step": 8190
5951
+ },
5952
+ {
5953
+ "epoch": 2.8034188034188032,
5954
+ "grad_norm": 1.179671049118042,
5955
+ "learning_rate": 3.2763532763532763e-06,
5956
+ "loss": 0.1024,
5957
+ "step": 8200
5958
+ },
5959
+ {
5960
+ "epoch": 2.8068376068376066,
5961
+ "grad_norm": 9.402092933654785,
5962
+ "learning_rate": 3.2193732193732192e-06,
5963
+ "loss": 0.1104,
5964
+ "step": 8210
5965
+ },
5966
+ {
5967
+ "epoch": 2.81025641025641,
5968
+ "grad_norm": 1.9074152708053589,
5969
+ "learning_rate": 3.1623931623931626e-06,
5970
+ "loss": 0.103,
5971
+ "step": 8220
5972
+ },
5973
+ {
5974
+ "epoch": 2.8136752136752134,
5975
+ "grad_norm": 4.427234172821045,
5976
+ "learning_rate": 3.1054131054131055e-06,
5977
+ "loss": 0.1374,
5978
+ "step": 8230
5979
+ },
5980
+ {
5981
+ "epoch": 2.817094017094017,
5982
+ "grad_norm": 1.9632576704025269,
5983
+ "learning_rate": 3.048433048433049e-06,
5984
+ "loss": 0.1426,
5985
+ "step": 8240
5986
+ },
5987
+ {
5988
+ "epoch": 2.8205128205128203,
5989
+ "grad_norm": 21.75174331665039,
5990
+ "learning_rate": 2.991452991452992e-06,
5991
+ "loss": 0.1714,
5992
+ "step": 8250
5993
+ },
5994
+ {
5995
+ "epoch": 2.8239316239316237,
5996
+ "grad_norm": 7.342422008514404,
5997
+ "learning_rate": 2.934472934472935e-06,
5998
+ "loss": 0.1286,
5999
+ "step": 8260
6000
+ },
6001
+ {
6002
+ "epoch": 2.827350427350427,
6003
+ "grad_norm": 0.8742788434028625,
6004
+ "learning_rate": 2.8774928774928778e-06,
6005
+ "loss": 0.1025,
6006
+ "step": 8270
6007
+ },
6008
+ {
6009
+ "epoch": 2.830769230769231,
6010
+ "grad_norm": 27.062646865844727,
6011
+ "learning_rate": 2.8205128205128207e-06,
6012
+ "loss": 0.157,
6013
+ "step": 8280
6014
+ },
6015
+ {
6016
+ "epoch": 2.8341880341880343,
6017
+ "grad_norm": 2.987420082092285,
6018
+ "learning_rate": 2.7635327635327636e-06,
6019
+ "loss": 0.0961,
6020
+ "step": 8290
6021
+ },
6022
+ {
6023
+ "epoch": 2.8376068376068377,
6024
+ "grad_norm": 7.459050178527832,
6025
+ "learning_rate": 2.7065527065527066e-06,
6026
+ "loss": 0.1054,
6027
+ "step": 8300
6028
+ },
6029
+ {
6030
+ "epoch": 2.841025641025641,
6031
+ "grad_norm": 6.120343208312988,
6032
+ "learning_rate": 2.6495726495726495e-06,
6033
+ "loss": 0.1354,
6034
+ "step": 8310
6035
+ },
6036
+ {
6037
+ "epoch": 2.8444444444444446,
6038
+ "grad_norm": 8.228652000427246,
6039
+ "learning_rate": 2.5925925925925925e-06,
6040
+ "loss": 0.104,
6041
+ "step": 8320
6042
+ },
6043
+ {
6044
+ "epoch": 2.847863247863248,
6045
+ "grad_norm": 9.32483196258545,
6046
+ "learning_rate": 2.5356125356125354e-06,
6047
+ "loss": 0.0644,
6048
+ "step": 8330
6049
+ },
6050
+ {
6051
+ "epoch": 2.8512820512820514,
6052
+ "grad_norm": 0.9455430507659912,
6053
+ "learning_rate": 2.478632478632479e-06,
6054
+ "loss": 0.0869,
6055
+ "step": 8340
6056
+ },
6057
+ {
6058
+ "epoch": 2.8547008547008548,
6059
+ "grad_norm": 1.2311069965362549,
6060
+ "learning_rate": 2.4216524216524218e-06,
6061
+ "loss": 0.1625,
6062
+ "step": 8350
6063
+ },
6064
+ {
6065
+ "epoch": 2.858119658119658,
6066
+ "grad_norm": 2.0796940326690674,
6067
+ "learning_rate": 2.364672364672365e-06,
6068
+ "loss": 0.1166,
6069
+ "step": 8360
6070
+ },
6071
+ {
6072
+ "epoch": 2.8615384615384616,
6073
+ "grad_norm": 2.2284929752349854,
6074
+ "learning_rate": 2.307692307692308e-06,
6075
+ "loss": 0.0761,
6076
+ "step": 8370
6077
+ },
6078
+ {
6079
+ "epoch": 2.864957264957265,
6080
+ "grad_norm": 8.17489242553711,
6081
+ "learning_rate": 2.250712250712251e-06,
6082
+ "loss": 0.1465,
6083
+ "step": 8380
6084
+ },
6085
+ {
6086
+ "epoch": 2.8683760683760684,
6087
+ "grad_norm": 12.591669082641602,
6088
+ "learning_rate": 2.193732193732194e-06,
6089
+ "loss": 0.1878,
6090
+ "step": 8390
6091
+ },
6092
+ {
6093
+ "epoch": 2.871794871794872,
6094
+ "grad_norm": 12.328243255615234,
6095
+ "learning_rate": 2.136752136752137e-06,
6096
+ "loss": 0.1238,
6097
+ "step": 8400
6098
+ },
6099
+ {
6100
+ "epoch": 2.875213675213675,
6101
+ "grad_norm": 8.8943510055542,
6102
+ "learning_rate": 2.07977207977208e-06,
6103
+ "loss": 0.1561,
6104
+ "step": 8410
6105
+ },
6106
+ {
6107
+ "epoch": 2.8786324786324786,
6108
+ "grad_norm": 1.040313482284546,
6109
+ "learning_rate": 2.022792022792023e-06,
6110
+ "loss": 0.1668,
6111
+ "step": 8420
6112
+ },
6113
+ {
6114
+ "epoch": 2.882051282051282,
6115
+ "grad_norm": 15.345014572143555,
6116
+ "learning_rate": 1.9658119658119658e-06,
6117
+ "loss": 0.1305,
6118
+ "step": 8430
6119
+ },
6120
+ {
6121
+ "epoch": 2.8854700854700854,
6122
+ "grad_norm": 9.492894172668457,
6123
+ "learning_rate": 1.9088319088319087e-06,
6124
+ "loss": 0.1852,
6125
+ "step": 8440
6126
+ },
6127
+ {
6128
+ "epoch": 2.888888888888889,
6129
+ "grad_norm": 6.429811477661133,
6130
+ "learning_rate": 1.8518518518518519e-06,
6131
+ "loss": 0.1891,
6132
+ "step": 8450
6133
+ },
6134
+ {
6135
+ "epoch": 2.8923076923076922,
6136
+ "grad_norm": 8.479264259338379,
6137
+ "learning_rate": 1.7948717948717948e-06,
6138
+ "loss": 0.2209,
6139
+ "step": 8460
6140
+ },
6141
+ {
6142
+ "epoch": 2.8957264957264957,
6143
+ "grad_norm": 0.2948354482650757,
6144
+ "learning_rate": 1.7378917378917378e-06,
6145
+ "loss": 0.0827,
6146
+ "step": 8470
6147
+ },
6148
+ {
6149
+ "epoch": 2.899145299145299,
6150
+ "grad_norm": 5.249404430389404,
6151
+ "learning_rate": 1.6809116809116811e-06,
6152
+ "loss": 0.1036,
6153
+ "step": 8480
6154
+ },
6155
+ {
6156
+ "epoch": 2.9025641025641025,
6157
+ "grad_norm": 32.02479553222656,
6158
+ "learning_rate": 1.623931623931624e-06,
6159
+ "loss": 0.2021,
6160
+ "step": 8490
6161
+ },
6162
+ {
6163
+ "epoch": 2.905982905982906,
6164
+ "grad_norm": 1.3994070291519165,
6165
+ "learning_rate": 1.566951566951567e-06,
6166
+ "loss": 0.1744,
6167
+ "step": 8500
6168
+ },
6169
+ {
6170
+ "epoch": 2.905982905982906,
6171
+ "eval_accuracy": 0.9627318574237115,
6172
+ "eval_f1": 0.9451296249685376,
6173
+ "eval_loss": 0.10316536575555801,
6174
+ "eval_precision": 0.9432303441346396,
6175
+ "eval_recall": 0.9470365699873896,
6176
+ "eval_roc_auc": 0.9964824096022509,
6177
+ "eval_runtime": 93.0154,
6178
+ "eval_samples_per_second": 125.775,
6179
+ "eval_steps_per_second": 7.87,
6180
+ "step": 8500
6181
  }
6182
  ],
6183
  "logging_steps": 10,
 
6206
  "attributes": {}
6207
  }
6208
  },
6209
+ "total_flos": 1.3510042818494976e+16,
6210
  "train_batch_size": 16,
6211
  "trial_name": null,
6212
  "trial_params": null