Upload 12 files

17628df verified 2 months ago

21.6 kB

	{
	"best_global_step": 6505,
	"best_metric": 0.19649724662303925,
	"best_model_checkpoint": "/media/user/Expansion1/snowflake-arctic-embed-xs-refusal/checkpoint-6505",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 32525,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07686395080707148,
	"grad_norm": 2.155881881713867,
	"learning_rate": 4.923289777094543e-05,
	"loss": 0.3511,
	"num_input_tokens_seen": 512000,
	"step": 500,
	"train_runtime": 5.3031,
	"train_tokens_per_second": 96546.489
	},
	{
	"epoch": 0.15372790161414296,
	"grad_norm": 0.6236560344696045,
	"learning_rate": 4.846425826287471e-05,
	"loss": 0.2593,
	"num_input_tokens_seen": 1024000,
	"step": 1000,
	"train_runtime": 10.3436,
	"train_tokens_per_second": 98998.124
	},
	{
	"epoch": 0.23059185242121444,
	"grad_norm": 3.8176653385162354,
	"learning_rate": 4.7695618754804e-05,
	"loss": 0.2546,
	"num_input_tokens_seen": 1536000,
	"step": 1500,
	"train_runtime": 15.3626,
	"train_tokens_per_second": 99983.128
	},
	{
	"epoch": 0.3074558032282859,
	"grad_norm": 2.538367986679077,
	"learning_rate": 4.692697924673328e-05,
	"loss": 0.2377,
	"num_input_tokens_seen": 2048000,
	"step": 2000,
	"train_runtime": 20.351,
	"train_tokens_per_second": 100634.117
	},
	{
	"epoch": 0.3843197540353574,
	"grad_norm": 3.922593832015991,
	"learning_rate": 4.615833973866257e-05,
	"loss": 0.2411,
	"num_input_tokens_seen": 2560000,
	"step": 2500,
	"train_runtime": 25.363,
	"train_tokens_per_second": 100934.428
	},
	{
	"epoch": 0.4611837048424289,
	"grad_norm": 0.728330135345459,
	"learning_rate": 4.5389700230591855e-05,
	"loss": 0.2278,
	"num_input_tokens_seen": 3072000,
	"step": 3000,
	"train_runtime": 30.387,
	"train_tokens_per_second": 101095.729
	},
	{
	"epoch": 0.5380476556495004,
	"grad_norm": 0.5299816131591797,
	"learning_rate": 4.462106072252114e-05,
	"loss": 0.2422,
	"num_input_tokens_seen": 3584000,
	"step": 3500,
	"train_runtime": 35.3784,
	"train_tokens_per_second": 101304.819
	},
	{
	"epoch": 0.6149116064565718,
	"grad_norm": 9.030647277832031,
	"learning_rate": 4.3852421214450424e-05,
	"loss": 0.2269,
	"num_input_tokens_seen": 4096000,
	"step": 4000,
	"train_runtime": 40.3905,
	"train_tokens_per_second": 101409.866
	},
	{
	"epoch": 0.6917755572636434,
	"grad_norm": 1.8069450855255127,
	"learning_rate": 4.308378170637971e-05,
	"loss": 0.2378,
	"num_input_tokens_seen": 4608000,
	"step": 4500,
	"train_runtime": 45.4094,
	"train_tokens_per_second": 101476.838
	},
	{
	"epoch": 0.7686395080707148,
	"grad_norm": 2.4024786949157715,
	"learning_rate": 4.231514219830899e-05,
	"loss": 0.2129,
	"num_input_tokens_seen": 5120000,
	"step": 5000,
	"train_runtime": 50.4114,
	"train_tokens_per_second": 101564.317
	},
	{
	"epoch": 0.8455034588777863,
	"grad_norm": 0.8753976821899414,
	"learning_rate": 4.1546502690238284e-05,
	"loss": 0.2354,
	"num_input_tokens_seen": 5632000,
	"step": 5500,
	"train_runtime": 55.4722,
	"train_tokens_per_second": 101528.336
	},
	{
	"epoch": 0.9223674096848578,
	"grad_norm": 4.247986316680908,
	"learning_rate": 4.077786318216756e-05,
	"loss": 0.237,
	"num_input_tokens_seen": 6144000,
	"step": 6000,
	"train_runtime": 60.5329,
	"train_tokens_per_second": 101498.514
	},
	{
	"epoch": 0.9992313604919293,
	"grad_norm": 7.1489973068237305,
	"learning_rate": 4.000922367409685e-05,
	"loss": 0.2286,
	"num_input_tokens_seen": 6656000,
	"step": 6500,
	"train_runtime": 65.5361,
	"train_tokens_per_second": 101562.357
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.919369715603382,
	"eval_loss": 0.19649724662303925,
	"eval_runtime": 5.1167,
	"eval_samples_per_second": 2542.665,
	"eval_steps_per_second": 317.98,
	"num_input_tokens_seen": 6661120,
	"step": 6505
	},
	{
	"epoch": 1.0760953112990008,
	"grad_norm": 10.231003761291504,
	"learning_rate": 3.9240584166026136e-05,
	"loss": 0.1751,
	"num_input_tokens_seen": 7168000,
	"step": 7000,
	"train_runtime": 75.9746,
	"train_tokens_per_second": 94347.276
	},
	{
	"epoch": 1.1529592621060722,
	"grad_norm": 0.037300433963537216,
	"learning_rate": 3.847194465795542e-05,
	"loss": 0.1739,
	"num_input_tokens_seen": 7680000,
	"step": 7500,
	"train_runtime": 81.0147,
	"train_tokens_per_second": 94797.624
	},
	{
	"epoch": 1.2298232129131437,
	"grad_norm": 10.88604736328125,
	"learning_rate": 3.7703305149884705e-05,
	"loss": 0.1923,
	"num_input_tokens_seen": 8192000,
	"step": 8000,
	"train_runtime": 86.0728,
	"train_tokens_per_second": 95175.201
	},
	{
	"epoch": 1.3066871637202153,
	"grad_norm": 14.25737190246582,
	"learning_rate": 3.693466564181399e-05,
	"loss": 0.1809,
	"num_input_tokens_seen": 8704000,
	"step": 8500,
	"train_runtime": 91.0822,
	"train_tokens_per_second": 95562.051
	},
	{
	"epoch": 1.3835511145272867,
	"grad_norm": 0.3044818639755249,
	"learning_rate": 3.6166026133743274e-05,
	"loss": 0.1922,
	"num_input_tokens_seen": 9216000,
	"step": 9000,
	"train_runtime": 96.1257,
	"train_tokens_per_second": 95874.452
	},
	{
	"epoch": 1.4604150653343582,
	"grad_norm": 15.291511535644531,
	"learning_rate": 3.5397386625672565e-05,
	"loss": 0.171,
	"num_input_tokens_seen": 9728000,
	"step": 9500,
	"train_runtime": 101.1575,
	"train_tokens_per_second": 96166.85
	},
	{
	"epoch": 1.5372790161414298,
	"grad_norm": 12.030097007751465,
	"learning_rate": 3.462874711760184e-05,
	"loss": 0.1779,
	"num_input_tokens_seen": 10240000,
	"step": 10000,
	"train_runtime": 106.2268,
	"train_tokens_per_second": 96397.497
	},
	{
	"epoch": 1.614142966948501,
	"grad_norm": 0.17212723195552826,
	"learning_rate": 3.386010760953113e-05,
	"loss": 0.176,
	"num_input_tokens_seen": 10752000,
	"step": 10500,
	"train_runtime": 111.2959,
	"train_tokens_per_second": 96607.35
	},
	{
	"epoch": 1.6910069177555727,
	"grad_norm": 35.843482971191406,
	"learning_rate": 3.309146810146042e-05,
	"loss": 0.1879,
	"num_input_tokens_seen": 11264000,
	"step": 11000,
	"train_runtime": 116.3574,
	"train_tokens_per_second": 96805.219
	},
	{
	"epoch": 1.767870868562644,
	"grad_norm": 0.055776312947273254,
	"learning_rate": 3.23228285933897e-05,
	"loss": 0.1749,
	"num_input_tokens_seen": 11776000,
	"step": 11500,
	"train_runtime": 121.386,
	"train_tokens_per_second": 97012.845
	},
	{
	"epoch": 1.8447348193697155,
	"grad_norm": 0.48420748114585876,
	"learning_rate": 3.1554189085318986e-05,
	"loss": 0.1716,
	"num_input_tokens_seen": 12288000,
	"step": 12000,
	"train_runtime": 126.4198,
	"train_tokens_per_second": 97200.001
	},
	{
	"epoch": 1.9215987701767872,
	"grad_norm": 0.3808608949184418,
	"learning_rate": 3.078554957724827e-05,
	"loss": 0.1819,
	"num_input_tokens_seen": 12800000,
	"step": 12500,
	"train_runtime": 131.456,
	"train_tokens_per_second": 97370.996
	},
	{
	"epoch": 1.9984627209838586,
	"grad_norm": 0.15483863651752472,
	"learning_rate": 3.0016910069177555e-05,
	"loss": 0.1718,
	"num_input_tokens_seen": 13312000,
	"step": 13000,
	"train_runtime": 136.5089,
	"train_tokens_per_second": 97517.416
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9259031514219831,
	"eval_loss": 0.27698734402656555,
	"eval_runtime": 5.1343,
	"eval_samples_per_second": 2533.949,
	"eval_steps_per_second": 316.89,
	"num_input_tokens_seen": 13322240,
	"step": 13010
	},
	{
	"epoch": 2.07532667179093,
	"grad_norm": 0.06390306353569031,
	"learning_rate": 2.9248270561106846e-05,
	"loss": 0.1384,
	"num_input_tokens_seen": 13824000,
	"step": 13500,
	"train_runtime": 146.9662,
	"train_tokens_per_second": 94062.42
	},
	{
	"epoch": 2.1521906225980016,
	"grad_norm": 0.09185440093278885,
	"learning_rate": 2.8479631053036127e-05,
	"loss": 0.123,
	"num_input_tokens_seen": 14336000,
	"step": 14000,
	"train_runtime": 152.0064,
	"train_tokens_per_second": 94311.832
	},
	{
	"epoch": 2.229054573405073,
	"grad_norm": 0.05354034900665283,
	"learning_rate": 2.7710991544965414e-05,
	"loss": 0.1265,
	"num_input_tokens_seen": 14848000,
	"step": 14500,
	"train_runtime": 157.0491,
	"train_tokens_per_second": 94543.682
	},
	{
	"epoch": 2.3059185242121445,
	"grad_norm": 6.2592926025390625,
	"learning_rate": 2.6942352036894695e-05,
	"loss": 0.1214,
	"num_input_tokens_seen": 15360000,
	"step": 15000,
	"train_runtime": 162.0991,
	"train_tokens_per_second": 94756.854
	},
	{
	"epoch": 2.382782475019216,
	"grad_norm": 0.3284030854701996,
	"learning_rate": 2.6173712528823986e-05,
	"loss": 0.1298,
	"num_input_tokens_seen": 15872000,
	"step": 15500,
	"train_runtime": 167.141,
	"train_tokens_per_second": 94961.759
	},
	{
	"epoch": 2.4596464258262873,
	"grad_norm": 0.2101190984249115,
	"learning_rate": 2.5405073020753267e-05,
	"loss": 0.1279,
	"num_input_tokens_seen": 16384000,
	"step": 16000,
	"train_runtime": 172.1787,
	"train_tokens_per_second": 95156.958
	},
	{
	"epoch": 2.536510376633359,
	"grad_norm": 7.672014236450195,
	"learning_rate": 2.463643351268255e-05,
	"loss": 0.1435,
	"num_input_tokens_seen": 16896000,
	"step": 16500,
	"train_runtime": 177.2341,
	"train_tokens_per_second": 95331.566
	},
	{
	"epoch": 2.6133743274404306,
	"grad_norm": 37.9052734375,
	"learning_rate": 2.3867794004611836e-05,
	"loss": 0.123,
	"num_input_tokens_seen": 17408000,
	"step": 17000,
	"train_runtime": 182.2827,
	"train_tokens_per_second": 95500.03
	},
	{
	"epoch": 2.690238278247502,
	"grad_norm": 0.08578933030366898,
	"learning_rate": 2.3099154496541124e-05,
	"loss": 0.1289,
	"num_input_tokens_seen": 17920000,
	"step": 17500,
	"train_runtime": 187.3355,
	"train_tokens_per_second": 95657.272
	},
	{
	"epoch": 2.7671022290545735,
	"grad_norm": 0.08860859274864197,
	"learning_rate": 2.2330514988470408e-05,
	"loss": 0.1296,
	"num_input_tokens_seen": 18432000,
	"step": 18000,
	"train_runtime": 192.3781,
	"train_tokens_per_second": 95811.329
	},
	{
	"epoch": 2.8439661798616447,
	"grad_norm": 0.41104796528816223,
	"learning_rate": 2.1561875480399692e-05,
	"loss": 0.1124,
	"num_input_tokens_seen": 18944000,
	"step": 18500,
	"train_runtime": 197.7595,
	"train_tokens_per_second": 95793.134
	},
	{
	"epoch": 2.9208301306687163,
	"grad_norm": 37.97283172607422,
	"learning_rate": 2.079323597232898e-05,
	"loss": 0.1382,
	"num_input_tokens_seen": 19456000,
	"step": 19000,
	"train_runtime": 203.2967,
	"train_tokens_per_second": 95702.474
	},
	{
	"epoch": 2.997694081475788,
	"grad_norm": 0.0325402170419693,
	"learning_rate": 2.0024596464258264e-05,
	"loss": 0.1388,
	"num_input_tokens_seen": 19968000,
	"step": 19500,
	"train_runtime": 208.8029,
	"train_tokens_per_second": 95630.843
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9287471176018447,
	"eval_loss": 0.31825903058052063,
	"eval_runtime": 5.4038,
	"eval_samples_per_second": 2407.562,
	"eval_steps_per_second": 301.084,
	"num_input_tokens_seen": 19983360,
	"step": 19515
	},
	{
	"epoch": 3.074558032282859,
	"grad_norm": 0.05180477350950241,
	"learning_rate": 1.925595695618755e-05,
	"loss": 0.0823,
	"num_input_tokens_seen": 20480000,
	"step": 20000,
	"train_runtime": 219.9739,
	"train_tokens_per_second": 93101.956
	},
	{
	"epoch": 3.151421983089931,
	"grad_norm": 0.005111335311084986,
	"learning_rate": 1.8487317448116833e-05,
	"loss": 0.0716,
	"num_input_tokens_seen": 20992000,
	"step": 20500,
	"train_runtime": 225.3567,
	"train_tokens_per_second": 93150.099
	},
	{
	"epoch": 3.2282859338970025,
	"grad_norm": 0.012623129412531853,
	"learning_rate": 1.771867794004612e-05,
	"loss": 0.0915,
	"num_input_tokens_seen": 21504000,
	"step": 21000,
	"train_runtime": 230.6352,
	"train_tokens_per_second": 93238.15
	},
	{
	"epoch": 3.3051498847040737,
	"grad_norm": 10.89956283569336,
	"learning_rate": 1.6950038431975405e-05,
	"loss": 0.0783,
	"num_input_tokens_seen": 22016000,
	"step": 21500,
	"train_runtime": 236.059,
	"train_tokens_per_second": 93264.831
	},
	{
	"epoch": 3.3820138355111453,
	"grad_norm": 0.010125258006155491,
	"learning_rate": 1.618139892390469e-05,
	"loss": 0.0882,
	"num_input_tokens_seen": 22528000,
	"step": 22000,
	"train_runtime": 241.5242,
	"train_tokens_per_second": 93274.31
	},
	{
	"epoch": 3.458877786318217,
	"grad_norm": 0.04097803309559822,
	"learning_rate": 1.5412759415833973e-05,
	"loss": 0.095,
	"num_input_tokens_seen": 23040000,
	"step": 22500,
	"train_runtime": 247.0361,
	"train_tokens_per_second": 93265.737
	},
	{
	"epoch": 3.535741737125288,
	"grad_norm": 0.3172767758369446,
	"learning_rate": 1.464411990776326e-05,
	"loss": 0.0847,
	"num_input_tokens_seen": 23552000,
	"step": 23000,
	"train_runtime": 252.366,
	"train_tokens_per_second": 93324.783
	},
	{
	"epoch": 3.61260568793236,
	"grad_norm": 0.0049354820512235165,
	"learning_rate": 1.3875480399692545e-05,
	"loss": 0.0758,
	"num_input_tokens_seen": 24064000,
	"step": 23500,
	"train_runtime": 257.7685,
	"train_tokens_per_second": 93355.1
	},
	{
	"epoch": 3.689469638739431,
	"grad_norm": 0.09353843331336975,
	"learning_rate": 1.310684089162183e-05,
	"loss": 0.0812,
	"num_input_tokens_seen": 24576000,
	"step": 24000,
	"train_runtime": 263.0331,
	"train_tokens_per_second": 93433.102
	},
	{
	"epoch": 3.7663335895465027,
	"grad_norm": 13.593195915222168,
	"learning_rate": 1.2338201383551116e-05,
	"loss": 0.0882,
	"num_input_tokens_seen": 25088000,
	"step": 24500,
	"train_runtime": 268.3188,
	"train_tokens_per_second": 93500.701
	},
	{
	"epoch": 3.8431975403535743,
	"grad_norm": 0.12645399570465088,
	"learning_rate": 1.15695618754804e-05,
	"loss": 0.0862,
	"num_input_tokens_seen": 25600000,
	"step": 25000,
	"train_runtime": 273.6907,
	"train_tokens_per_second": 93536.259
	},
	{
	"epoch": 3.9200614911606455,
	"grad_norm": 0.015061162412166595,
	"learning_rate": 1.0800922367409686e-05,
	"loss": 0.0825,
	"num_input_tokens_seen": 26112000,
	"step": 25500,
	"train_runtime": 279.0408,
	"train_tokens_per_second": 93577.699
	},
	{
	"epoch": 3.996925441967717,
	"grad_norm": 0.020776506513357162,
	"learning_rate": 1.003228285933897e-05,
	"loss": 0.0772,
	"num_input_tokens_seen": 26624000,
	"step": 26000,
	"train_runtime": 284.4194,
	"train_tokens_per_second": 93608.25
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9270561106840891,
	"eval_loss": 0.43025368452072144,
	"eval_runtime": 5.3244,
	"eval_samples_per_second": 2443.487,
	"eval_steps_per_second": 305.577,
	"num_input_tokens_seen": 26644480,
	"step": 26020
	},
	{
	"epoch": 4.073789392774788,
	"grad_norm": 0.09127756953239441,
	"learning_rate": 9.263643351268256e-06,
	"loss": 0.0615,
	"num_input_tokens_seen": 27136000,
	"step": 26500,
	"train_runtime": 295.1257,
	"train_tokens_per_second": 91947.265
	},
	{
	"epoch": 4.15065334358186,
	"grad_norm": 0.11556842923164368,
	"learning_rate": 8.49500384319754e-06,
	"loss": 0.0444,
	"num_input_tokens_seen": 27648000,
	"step": 27000,
	"train_runtime": 300.149,
	"train_tokens_per_second": 92114.259
	},
	{
	"epoch": 4.227517294388932,
	"grad_norm": 0.09005430340766907,
	"learning_rate": 7.726364335126826e-06,
	"loss": 0.0434,
	"num_input_tokens_seen": 28160000,
	"step": 27500,
	"train_runtime": 305.2327,
	"train_tokens_per_second": 92257.495
	},
	{
	"epoch": 4.304381245196003,
	"grad_norm": 0.004569609649479389,
	"learning_rate": 6.9577248270561115e-06,
	"loss": 0.0352,
	"num_input_tokens_seen": 28672000,
	"step": 28000,
	"train_runtime": 310.2962,
	"train_tokens_per_second": 92402.026
	},
	{
	"epoch": 4.381245196003075,
	"grad_norm": 1.524936318397522,
	"learning_rate": 6.189085318985397e-06,
	"loss": 0.06,
	"num_input_tokens_seen": 29184000,
	"step": 28500,
	"train_runtime": 315.365,
	"train_tokens_per_second": 92540.388
	},
	{
	"epoch": 4.458109146810146,
	"grad_norm": 0.014427268877625465,
	"learning_rate": 5.420445810914681e-06,
	"loss": 0.0492,
	"num_input_tokens_seen": 29696000,
	"step": 29000,
	"train_runtime": 320.4274,
	"train_tokens_per_second": 92676.208
	},
	{
	"epoch": 4.534973097617217,
	"grad_norm": 0.07355033606290817,
	"learning_rate": 4.651806302843966e-06,
	"loss": 0.0572,
	"num_input_tokens_seen": 30208000,
	"step": 29500,
	"train_runtime": 325.4966,
	"train_tokens_per_second": 92805.883
	},
	{
	"epoch": 4.611837048424289,
	"grad_norm": 7.176478385925293,
	"learning_rate": 3.883166794773251e-06,
	"loss": 0.0442,
	"num_input_tokens_seen": 30720000,
	"step": 30000,
	"train_runtime": 330.568,
	"train_tokens_per_second": 92930.968
	},
	{
	"epoch": 4.688700999231361,
	"grad_norm": 0.030576860532164574,
	"learning_rate": 3.114527286702537e-06,
	"loss": 0.0465,
	"num_input_tokens_seen": 31232000,
	"step": 30500,
	"train_runtime": 335.6493,
	"train_tokens_per_second": 93049.488
	},
	{
	"epoch": 4.765564950038432,
	"grad_norm": 0.005597515497356653,
	"learning_rate": 2.345887778631822e-06,
	"loss": 0.0487,
	"num_input_tokens_seen": 31744000,
	"step": 31000,
	"train_runtime": 340.8069,
	"train_tokens_per_second": 93143.641
	},
	{
	"epoch": 4.842428900845503,
	"grad_norm": 0.021089155226945877,
	"learning_rate": 1.5772482705611067e-06,
	"loss": 0.0557,
	"num_input_tokens_seen": 32256000,
	"step": 31500,
	"train_runtime": 346.0097,
	"train_tokens_per_second": 93222.824
	},
	{
	"epoch": 4.919292851652575,
	"grad_norm": 0.023516027256846428,
	"learning_rate": 8.086087624903922e-07,
	"loss": 0.0399,
	"num_input_tokens_seen": 32768000,
	"step": 32000,
	"train_runtime": 351.2595,
	"train_tokens_per_second": 93287.165
	},
	{
	"epoch": 4.996156802459646,
	"grad_norm": 0.007581554353237152,
	"learning_rate": 3.996925441967718e-08,
	"loss": 0.0532,
	"num_input_tokens_seen": 33280000,
	"step": 32500,
	"train_runtime": 356.5514,
	"train_tokens_per_second": 93338.566
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9264411990776326,
	"eval_loss": 0.4613732397556305,
	"eval_runtime": 5.2997,
	"eval_samples_per_second": 2454.857,
	"eval_steps_per_second": 306.999,
	"num_input_tokens_seen": 33305600,
	"step": 32525
	},
	{
	"epoch": 5.0,
	"num_input_tokens_seen": 33305600,
	"step": 32525,
	"total_flos": 2157435918643200.0,
	"train_loss": 0.1371641572881533,
	"train_runtime": 362.4532,
	"train_samples_per_second": 717.886,
	"train_steps_per_second": 89.736
	}
	],
	"logging_steps": 500,
	"max_steps": 32525,
	"num_input_tokens_seen": 33305600,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2157435918643200.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}