Upload folder using huggingface_hub

a620621 verified about 1 month ago

11.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.2,
	"grad_norm": 1.116289734840393,
	"learning_rate": 9.8989898989899e-05,
	"loss": 7.7821,
	"mean_token_accuracy": 0.5719940811395645,
	"step": 20
	},
	{
	"epoch": 0.4,
	"grad_norm": 7.432015419006348,
	"learning_rate": 9.696969696969698e-05,
	"loss": 5.6944,
	"mean_token_accuracy": 0.5889941781759263,
	"step": 40
	},
	{
	"epoch": 0.6,
	"grad_norm": 4.042129039764404,
	"learning_rate": 9.494949494949495e-05,
	"loss": 2.5109,
	"mean_token_accuracy": 0.6000781744718552,
	"step": 60
	},
	{
	"epoch": 0.8,
	"grad_norm": 13.056010246276855,
	"learning_rate": 9.292929292929293e-05,
	"loss": 2.3438,
	"mean_token_accuracy": 0.6159425437450409,
	"step": 80
	},
	{
	"epoch": 1.0,
	"grad_norm": 4.457572937011719,
	"learning_rate": 9.090909090909092e-05,
	"loss": 2.3887,
	"mean_token_accuracy": 0.6172163128852844,
	"step": 100
	},
	{
	"epoch": 1.2,
	"grad_norm": 3.7061715126037598,
	"learning_rate": 8.888888888888889e-05,
	"loss": 2.2335,
	"mean_token_accuracy": 0.7337327748537064,
	"step": 120
	},
	{
	"epoch": 1.4,
	"grad_norm": 9.19980525970459,
	"learning_rate": 8.686868686868688e-05,
	"loss": 2.3133,
	"mean_token_accuracy": 0.7386979848146439,
	"step": 140
	},
	{
	"epoch": 1.6,
	"grad_norm": 2.3915796279907227,
	"learning_rate": 8.484848484848486e-05,
	"loss": 1.6699,
	"mean_token_accuracy": 0.6935379534959794,
	"step": 160
	},
	{
	"epoch": 1.8,
	"grad_norm": 3.794569492340088,
	"learning_rate": 8.282828282828283e-05,
	"loss": 2.0775,
	"mean_token_accuracy": 0.6832446664571762,
	"step": 180
	},
	{
	"epoch": 2.0,
	"grad_norm": 4.765685081481934,
	"learning_rate": 8.080808080808081e-05,
	"loss": 2.3591,
	"mean_token_accuracy": 0.7070848256349563,
	"step": 200
	},
	{
	"epoch": 2.2,
	"grad_norm": 3.130249500274658,
	"learning_rate": 7.878787878787879e-05,
	"loss": 2.029,
	"mean_token_accuracy": 0.8673289567232132,
	"step": 220
	},
	{
	"epoch": 2.4,
	"grad_norm": 2.911282777786255,
	"learning_rate": 7.676767676767676e-05,
	"loss": 2.0265,
	"mean_token_accuracy": 0.8326004981994629,
	"step": 240
	},
	{
	"epoch": 2.6,
	"grad_norm": 10.721837997436523,
	"learning_rate": 7.474747474747475e-05,
	"loss": 2.3098,
	"mean_token_accuracy": 0.8215500295162201,
	"step": 260
	},
	{
	"epoch": 2.8,
	"grad_norm": 3.9908812046051025,
	"learning_rate": 7.272727272727273e-05,
	"loss": 2.1964,
	"mean_token_accuracy": 0.8110707819461822,
	"step": 280
	},
	{
	"epoch": 3.0,
	"grad_norm": 2.715615749359131,
	"learning_rate": 7.07070707070707e-05,
	"loss": 1.6929,
	"mean_token_accuracy": 0.8274272859096528,
	"step": 300
	},
	{
	"epoch": 3.2,
	"grad_norm": 2.644812822341919,
	"learning_rate": 6.86868686868687e-05,
	"loss": 2.1799,
	"mean_token_accuracy": 0.8936949998140336,
	"step": 320
	},
	{
	"epoch": 3.4,
	"grad_norm": 10.8971586227417,
	"learning_rate": 6.666666666666667e-05,
	"loss": 1.9275,
	"mean_token_accuracy": 0.9045962303876877,
	"step": 340
	},
	{
	"epoch": 3.6,
	"grad_norm": 11.13720703125,
	"learning_rate": 6.464646464646466e-05,
	"loss": 1.8069,
	"mean_token_accuracy": 0.9026908665895462,
	"step": 360
	},
	{
	"epoch": 3.8,
	"grad_norm": 8.521758079528809,
	"learning_rate": 6.262626262626264e-05,
	"loss": 1.8283,
	"mean_token_accuracy": 0.8914051353931427,
	"step": 380
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.4625191688537598,
	"learning_rate": 6.060606060606061e-05,
	"loss": 1.8709,
	"mean_token_accuracy": 0.8897238075733185,
	"step": 400
	},
	{
	"epoch": 4.2,
	"grad_norm": 2.8660027980804443,
	"learning_rate": 5.858585858585859e-05,
	"loss": 1.7593,
	"mean_token_accuracy": 0.9680275410413742,
	"step": 420
	},
	{
	"epoch": 4.4,
	"grad_norm": 2.451266288757324,
	"learning_rate": 5.6565656565656563e-05,
	"loss": 1.8117,
	"mean_token_accuracy": 0.957812437415123,
	"step": 440
	},
	{
	"epoch": 4.6,
	"grad_norm": 3.294262170791626,
	"learning_rate": 5.4545454545454546e-05,
	"loss": 2.0136,
	"mean_token_accuracy": 0.9584823906421661,
	"step": 460
	},
	{
	"epoch": 4.8,
	"grad_norm": 6.892923831939697,
	"learning_rate": 5.2525252525252536e-05,
	"loss": 1.9365,
	"mean_token_accuracy": 0.9545588850975036,
	"step": 480
	},
	{
	"epoch": 5.0,
	"grad_norm": 4.34652853012085,
	"learning_rate": 5.050505050505051e-05,
	"loss": 1.8009,
	"mean_token_accuracy": 0.9617706775665283,
	"step": 500
	},
	{
	"epoch": 5.2,
	"grad_norm": 2.743523359298706,
	"learning_rate": 4.848484848484849e-05,
	"loss": 1.7229,
	"mean_token_accuracy": 0.9849441170692443,
	"step": 520
	},
	{
	"epoch": 5.4,
	"grad_norm": 1.957683801651001,
	"learning_rate": 4.6464646464646464e-05,
	"loss": 1.803,
	"mean_token_accuracy": 0.9844884544610977,
	"step": 540
	},
	{
	"epoch": 5.6,
	"grad_norm": 5.973021984100342,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 1.8576,
	"mean_token_accuracy": 0.9885385453701019,
	"step": 560
	},
	{
	"epoch": 5.8,
	"grad_norm": 4.1460065841674805,
	"learning_rate": 4.242424242424243e-05,
	"loss": 1.4914,
	"mean_token_accuracy": 0.9893402248620987,
	"step": 580
	},
	{
	"epoch": 6.0,
	"grad_norm": 4.472782611846924,
	"learning_rate": 4.0404040404040405e-05,
	"loss": 1.7834,
	"mean_token_accuracy": 0.9883693248033524,
	"step": 600
	},
	{
	"epoch": 6.2,
	"grad_norm": 1.3110531568527222,
	"learning_rate": 3.838383838383838e-05,
	"loss": 1.7085,
	"mean_token_accuracy": 0.9919841647148132,
	"step": 620
	},
	{
	"epoch": 6.4,
	"grad_norm": 2.2377755641937256,
	"learning_rate": 3.6363636363636364e-05,
	"loss": 1.4832,
	"mean_token_accuracy": 0.9942442446947097,
	"step": 640
	},
	{
	"epoch": 6.6,
	"grad_norm": 1.8272420167922974,
	"learning_rate": 3.434343434343435e-05,
	"loss": 4.5107,
	"mean_token_accuracy": 0.9917412668466568,
	"step": 660
	},
	{
	"epoch": 6.8,
	"grad_norm": 1.3741998672485352,
	"learning_rate": 3.232323232323233e-05,
	"loss": 1.5028,
	"mean_token_accuracy": 0.9937045365571976,
	"step": 680
	},
	{
	"epoch": 7.0,
	"grad_norm": 3.3915441036224365,
	"learning_rate": 3.0303030303030306e-05,
	"loss": 1.6471,
	"mean_token_accuracy": 0.9931736469268799,
	"step": 700
	},
	{
	"epoch": 7.2,
	"grad_norm": 1.9566644430160522,
	"learning_rate": 2.8282828282828282e-05,
	"loss": 1.6651,
	"mean_token_accuracy": 0.9943238377571106,
	"step": 720
	},
	{
	"epoch": 7.4,
	"grad_norm": 4.849315643310547,
	"learning_rate": 2.6262626262626268e-05,
	"loss": 1.4752,
	"mean_token_accuracy": 0.9958192646503449,
	"step": 740
	},
	{
	"epoch": 7.6,
	"grad_norm": 3.041971445083618,
	"learning_rate": 2.4242424242424244e-05,
	"loss": 1.7104,
	"mean_token_accuracy": 0.9946472465991973,
	"step": 760
	},
	{
	"epoch": 7.8,
	"grad_norm": 1.911787986755371,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 1.636,
	"mean_token_accuracy": 0.9947971910238266,
	"step": 780
	},
	{
	"epoch": 8.0,
	"grad_norm": 1.7661563158035278,
	"learning_rate": 2.0202020202020203e-05,
	"loss": 1.4368,
	"mean_token_accuracy": 0.9952641248703002,
	"step": 800
	},
	{
	"epoch": 8.2,
	"grad_norm": 2.0136585235595703,
	"learning_rate": 1.8181818181818182e-05,
	"loss": 1.5714,
	"mean_token_accuracy": 0.9960389107465744,
	"step": 820
	},
	{
	"epoch": 8.4,
	"grad_norm": 3.6875247955322266,
	"learning_rate": 1.6161616161616165e-05,
	"loss": 1.5223,
	"mean_token_accuracy": 0.9955139189958573,
	"step": 840
	},
	{
	"epoch": 8.6,
	"grad_norm": 8.798554420471191,
	"learning_rate": 1.4141414141414141e-05,
	"loss": 1.6692,
	"mean_token_accuracy": 0.9961422830820084,
	"step": 860
	},
	{
	"epoch": 8.8,
	"grad_norm": 1.6955562829971313,
	"learning_rate": 1.2121212121212122e-05,
	"loss": 1.5249,
	"mean_token_accuracy": 0.9961209177970887,
	"step": 880
	},
	{
	"epoch": 9.0,
	"grad_norm": 1.8484035730361938,
	"learning_rate": 1.0101010101010101e-05,
	"loss": 1.4942,
	"mean_token_accuracy": 0.9962600082159042,
	"step": 900
	},
	{
	"epoch": 9.2,
	"grad_norm": 2.3674087524414062,
	"learning_rate": 8.080808080808082e-06,
	"loss": 1.4723,
	"mean_token_accuracy": 0.9962725698947906,
	"step": 920
	},
	{
	"epoch": 9.4,
	"grad_norm": 2.005415201187134,
	"learning_rate": 6.060606060606061e-06,
	"loss": 1.6156,
	"mean_token_accuracy": 0.9956353396177292,
	"step": 940
	},
	{
	"epoch": 9.6,
	"grad_norm": 1.6951625347137451,
	"learning_rate": 4.040404040404041e-06,
	"loss": 1.4389,
	"mean_token_accuracy": 0.9975101411342621,
	"step": 960
	},
	{
	"epoch": 9.8,
	"grad_norm": 1.3709019422531128,
	"learning_rate": 2.0202020202020206e-06,
	"loss": 1.5696,
	"mean_token_accuracy": 0.9961961567401886,
	"step": 980
	},
	{
	"epoch": 10.0,
	"grad_norm": 1.6969162225723267,
	"learning_rate": 0.0,
	"loss": 1.6118,
	"mean_token_accuracy": 0.9955831974744797,
	"step": 1000
	}
	],
	"logging_steps": 20,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.174310629214269e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}