Delete llama/cce

Browse files

Files changed (4) hide show

llama/cce/adapter_config.json +0 -18
llama/cce/checkpoint-1000/trainer_state.json +0 -356
llama/cce/checkpoint-1200/trainer_state.json +0 -424
llama/cce/checkpoint-800/trainer_state.json +0 -288

llama/cce/adapter_config.json DELETED Viewed

@@ -1,18 +0,0 @@
-{
-  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
-  "bias": "none",
-  "enable_lora": null,
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "merge_weights": false,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 8,
-  "target_modules": [
-    "q_proj",
-    "v_proj"
-  ],
-  "task_type": "CAUSAL_LM"
-}

llama/cce/checkpoint-1000/trainer_state.json DELETED Viewed

@@ -1,356 +0,0 @@
-{
-  "best_metric": 0.6784626245498657,
-  "best_model_checkpoint": "lora-alpaca/checkpoint-1000",
-  "epoch": 0.7511913425197775,
-  "global_step": 1000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.02,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 2.2234,
-      "step": 20
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.6986,
-      "step": 40
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.0108,
-      "step": 60
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 0.8498,
-      "step": 80
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0003,
-      "loss": 0.7975,
-      "step": 100
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00029512591389114535,
-      "loss": 0.7621,
-      "step": 120
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.0002902518277822908,
-      "loss": 0.7465,
-      "step": 140
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0002853777416734362,
-      "loss": 0.7367,
-      "step": 160
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0002805036555645816,
-      "loss": 0.732,
-      "step": 180
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00027562956945572704,
-      "loss": 0.7253,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 0.7244793176651001,
-      "eval_runtime": 129.0223,
-      "eval_samples_per_second": 15.501,
-      "eval_steps_per_second": 1.938,
-      "step": 200
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002707554833468724,
-      "loss": 0.7226,
-      "step": 220
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00026588139723801785,
-      "loss": 0.716,
-      "step": 240
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00026100731112916323,
-      "loss": 0.7182,
-      "step": 260
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00025613322502030867,
-      "loss": 0.7026,
-      "step": 280
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.0002512591389114541,
-      "loss": 0.7139,
-      "step": 300
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0002463850528025995,
-      "loss": 0.7156,
-      "step": 320
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00024151096669374492,
-      "loss": 0.7069,
-      "step": 340
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0002366368805848903,
-      "loss": 0.6998,
-      "step": 360
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002317627944760357,
-      "loss": 0.7058,
-      "step": 380
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00022688870836718114,
-      "loss": 0.7004,
-      "step": 400
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.6993061900138855,
-      "eval_runtime": 129.0376,
-      "eval_samples_per_second": 15.499,
-      "eval_steps_per_second": 1.937,
-      "step": 400
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00022201462225832652,
-      "loss": 0.6933,
-      "step": 420
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00021714053614947196,
-      "loss": 0.6868,
-      "step": 440
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00021226645004061737,
-      "loss": 0.6955,
-      "step": 460
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00020739236393176277,
-      "loss": 0.6878,
-      "step": 480
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00020251827782290818,
-      "loss": 0.6891,
-      "step": 500
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0001976441917140536,
-      "loss": 0.686,
-      "step": 520
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00019277010560519902,
-      "loss": 0.6977,
-      "step": 540
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00018789601949634443,
-      "loss": 0.688,
-      "step": 560
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0001830219333874898,
-      "loss": 0.6838,
-      "step": 580
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00017814784727863525,
-      "loss": 0.682,
-      "step": 600
-    },
-    {
-      "epoch": 0.45,
-      "eval_loss": 0.6886340379714966,
-      "eval_runtime": 128.9722,
-      "eval_samples_per_second": 15.507,
-      "eval_steps_per_second": 1.938,
-      "step": 600
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00017327376116978065,
-      "loss": 0.6879,
-      "step": 620
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0001683996750609261,
-      "loss": 0.6871,
-      "step": 640
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00016352558895207147,
-      "loss": 0.6823,
-      "step": 660
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00015865150284321688,
-      "loss": 0.6732,
-      "step": 680
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.0001537774167343623,
-      "loss": 0.6832,
-      "step": 700
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0001489033306255077,
-      "loss": 0.6795,
-      "step": 720
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.00014402924451665313,
-      "loss": 0.686,
-      "step": 740
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00013915515840779853,
-      "loss": 0.6799,
-      "step": 760
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00013428107229894394,
-      "loss": 0.6738,
-      "step": 780
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00012940698619008935,
-      "loss": 0.6801,
-      "step": 800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.6822482943534851,
-      "eval_runtime": 128.9861,
-      "eval_samples_per_second": 15.506,
-      "eval_steps_per_second": 1.938,
-      "step": 800
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00012453290008123476,
-      "loss": 0.6803,
-      "step": 820
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00011965881397238017,
-      "loss": 0.6647,
-      "step": 840
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00011478472786352559,
-      "loss": 0.6838,
-      "step": 860
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.000109910641754671,
-      "loss": 0.6793,
-      "step": 880
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0001050365556458164,
-      "loss": 0.6882,
-      "step": 900
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.00010016246953696181,
-      "loss": 0.6733,
-      "step": 920
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 9.528838342810722e-05,
-      "loss": 0.6786,
-      "step": 940
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 9.041429731925264e-05,
-      "loss": 0.682,
-      "step": 960
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 8.554021121039803e-05,
-      "loss": 0.6737,
-      "step": 980
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.066612510154345e-05,
-      "loss": 0.6681,
-      "step": 1000
-    },
-    {
-      "epoch": 0.75,
-      "eval_loss": 0.6784626245498657,
-      "eval_runtime": 129.063,
-      "eval_samples_per_second": 15.496,
-      "eval_steps_per_second": 1.937,
-      "step": 1000
-    }
-  ],
-  "max_steps": 1331,
-  "num_train_epochs": 1,
-  "total_flos": 1.29988124737536e+18,
-  "trial_name": null,
-  "trial_params": null
-}

llama/cce/checkpoint-1200/trainer_state.json DELETED Viewed

@@ -1,424 +0,0 @@
-{
-  "best_metric": 0.6754332184791565,
-  "best_model_checkpoint": "lora-alpaca/checkpoint-1200",
-  "epoch": 0.901429611023733,
-  "global_step": 1200,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.02,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 2.2234,
-      "step": 20
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.6986,
-      "step": 40
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.0108,
-      "step": 60
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 0.8498,
-      "step": 80
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0003,
-      "loss": 0.7975,
-      "step": 100
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00029512591389114535,
-      "loss": 0.7621,
-      "step": 120
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.0002902518277822908,
-      "loss": 0.7465,
-      "step": 140
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0002853777416734362,
-      "loss": 0.7367,
-      "step": 160
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0002805036555645816,
-      "loss": 0.732,
-      "step": 180
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00027562956945572704,
-      "loss": 0.7253,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 0.7244793176651001,
-      "eval_runtime": 129.0223,
-      "eval_samples_per_second": 15.501,
-      "eval_steps_per_second": 1.938,
-      "step": 200
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002707554833468724,
-      "loss": 0.7226,
-      "step": 220
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00026588139723801785,
-      "loss": 0.716,
-      "step": 240
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00026100731112916323,
-      "loss": 0.7182,
-      "step": 260
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00025613322502030867,
-      "loss": 0.7026,
-      "step": 280
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.0002512591389114541,
-      "loss": 0.7139,
-      "step": 300
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0002463850528025995,
-      "loss": 0.7156,
-      "step": 320
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00024151096669374492,
-      "loss": 0.7069,
-      "step": 340
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0002366368805848903,
-      "loss": 0.6998,
-      "step": 360
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002317627944760357,
-      "loss": 0.7058,
-      "step": 380
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00022688870836718114,
-      "loss": 0.7004,
-      "step": 400
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.6993061900138855,
-      "eval_runtime": 129.0376,
-      "eval_samples_per_second": 15.499,
-      "eval_steps_per_second": 1.937,
-      "step": 400
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00022201462225832652,
-      "loss": 0.6933,
-      "step": 420
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00021714053614947196,
-      "loss": 0.6868,
-      "step": 440
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00021226645004061737,
-      "loss": 0.6955,
-      "step": 460
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00020739236393176277,
-      "loss": 0.6878,
-      "step": 480
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00020251827782290818,
-      "loss": 0.6891,
-      "step": 500
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0001976441917140536,
-      "loss": 0.686,
-      "step": 520
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00019277010560519902,
-      "loss": 0.6977,
-      "step": 540
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00018789601949634443,
-      "loss": 0.688,
-      "step": 560
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0001830219333874898,
-      "loss": 0.6838,
-      "step": 580
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00017814784727863525,
-      "loss": 0.682,
-      "step": 600
-    },
-    {
-      "epoch": 0.45,
-      "eval_loss": 0.6886340379714966,
-      "eval_runtime": 128.9722,
-      "eval_samples_per_second": 15.507,
-      "eval_steps_per_second": 1.938,
-      "step": 600
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00017327376116978065,
-      "loss": 0.6879,
-      "step": 620
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0001683996750609261,
-      "loss": 0.6871,
-      "step": 640
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00016352558895207147,
-      "loss": 0.6823,
-      "step": 660
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00015865150284321688,
-      "loss": 0.6732,
-      "step": 680
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.0001537774167343623,
-      "loss": 0.6832,
-      "step": 700
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0001489033306255077,
-      "loss": 0.6795,
-      "step": 720
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.00014402924451665313,
-      "loss": 0.686,
-      "step": 740
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00013915515840779853,
-      "loss": 0.6799,
-      "step": 760
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00013428107229894394,
-      "loss": 0.6738,
-      "step": 780
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00012940698619008935,
-      "loss": 0.6801,
-      "step": 800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.6822482943534851,
-      "eval_runtime": 128.9861,
-      "eval_samples_per_second": 15.506,
-      "eval_steps_per_second": 1.938,
-      "step": 800
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00012453290008123476,
-      "loss": 0.6803,
-      "step": 820
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00011965881397238017,
-      "loss": 0.6647,
-      "step": 840
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00011478472786352559,
-      "loss": 0.6838,
-      "step": 860
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.000109910641754671,
-      "loss": 0.6793,
-      "step": 880
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0001050365556458164,
-      "loss": 0.6882,
-      "step": 900
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.00010016246953696181,
-      "loss": 0.6733,
-      "step": 920
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 9.528838342810722e-05,
-      "loss": 0.6786,
-      "step": 940
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 9.041429731925264e-05,
-      "loss": 0.682,
-      "step": 960
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 8.554021121039803e-05,
-      "loss": 0.6737,
-      "step": 980
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.066612510154345e-05,
-      "loss": 0.6681,
-      "step": 1000
-    },
-    {
-      "epoch": 0.75,
-      "eval_loss": 0.6784626245498657,
-      "eval_runtime": 129.063,
-      "eval_samples_per_second": 15.496,
-      "eval_steps_per_second": 1.937,
-      "step": 1000
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.579203899268886e-05,
-      "loss": 0.678,
-      "step": 1020
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 7.091795288383428e-05,
-      "loss": 0.6692,
-      "step": 1040
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 6.604386677497969e-05,
-      "loss": 0.6767,
-      "step": 1060
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 6.11697806661251e-05,
-      "loss": 0.6699,
-      "step": 1080
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 5.6295694557270505e-05,
-      "loss": 0.678,
-      "step": 1100
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 5.142160844841592e-05,
-      "loss": 0.6802,
-      "step": 1120
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 4.654752233956133e-05,
-      "loss": 0.6773,
-      "step": 1140
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 4.167343623070674e-05,
-      "loss": 0.6719,
-      "step": 1160
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 3.679935012185215e-05,
-      "loss": 0.6764,
-      "step": 1180
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 3.192526401299756e-05,
-      "loss": 0.6745,
-      "step": 1200
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 0.6754332184791565,
-      "eval_runtime": 128.9887,
-      "eval_samples_per_second": 15.505,
-      "eval_steps_per_second": 1.938,
-      "step": 1200
-    }
-  ],
-  "max_steps": 1331,
-  "num_train_epochs": 1,
-  "total_flos": 1.559857496850432e+18,
-  "trial_name": null,
-  "trial_params": null
-}

llama/cce/checkpoint-800/trainer_state.json DELETED Viewed

@@ -1,288 +0,0 @@
-{
-  "best_metric": 0.6822482943534851,
-  "best_model_checkpoint": "lora-alpaca/checkpoint-800",
-  "epoch": 0.600953074015822,
-  "global_step": 800,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.02,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 2.2234,
-      "step": 20
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 1.6986,
-      "step": 40
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 1.0108,
-      "step": 60
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 0.8498,
-      "step": 80
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0003,
-      "loss": 0.7975,
-      "step": 100
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00029512591389114535,
-      "loss": 0.7621,
-      "step": 120
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.0002902518277822908,
-      "loss": 0.7465,
-      "step": 140
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0002853777416734362,
-      "loss": 0.7367,
-      "step": 160
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0002805036555645816,
-      "loss": 0.732,
-      "step": 180
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00027562956945572704,
-      "loss": 0.7253,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 0.7244793176651001,
-      "eval_runtime": 129.0223,
-      "eval_samples_per_second": 15.501,
-      "eval_steps_per_second": 1.938,
-      "step": 200
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002707554833468724,
-      "loss": 0.7226,
-      "step": 220
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00026588139723801785,
-      "loss": 0.716,
-      "step": 240
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00026100731112916323,
-      "loss": 0.7182,
-      "step": 260
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00025613322502030867,
-      "loss": 0.7026,
-      "step": 280
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.0002512591389114541,
-      "loss": 0.7139,
-      "step": 300
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0002463850528025995,
-      "loss": 0.7156,
-      "step": 320
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00024151096669374492,
-      "loss": 0.7069,
-      "step": 340
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0002366368805848903,
-      "loss": 0.6998,
-      "step": 360
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002317627944760357,
-      "loss": 0.7058,
-      "step": 380
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00022688870836718114,
-      "loss": 0.7004,
-      "step": 400
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.6993061900138855,
-      "eval_runtime": 129.0376,
-      "eval_samples_per_second": 15.499,
-      "eval_steps_per_second": 1.937,
-      "step": 400
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00022201462225832652,
-      "loss": 0.6933,
-      "step": 420
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00021714053614947196,
-      "loss": 0.6868,
-      "step": 440
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00021226645004061737,
-      "loss": 0.6955,
-      "step": 460
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00020739236393176277,
-      "loss": 0.6878,
-      "step": 480
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00020251827782290818,
-      "loss": 0.6891,
-      "step": 500
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0001976441917140536,
-      "loss": 0.686,
-      "step": 520
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00019277010560519902,
-      "loss": 0.6977,
-      "step": 540
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00018789601949634443,
-      "loss": 0.688,
-      "step": 560
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0001830219333874898,
-      "loss": 0.6838,
-      "step": 580
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00017814784727863525,
-      "loss": 0.682,
-      "step": 600
-    },
-    {
-      "epoch": 0.45,
-      "eval_loss": 0.6886340379714966,
-      "eval_runtime": 128.9722,
-      "eval_samples_per_second": 15.507,
-      "eval_steps_per_second": 1.938,
-      "step": 600
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00017327376116978065,
-      "loss": 0.6879,
-      "step": 620
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0001683996750609261,
-      "loss": 0.6871,
-      "step": 640
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00016352558895207147,
-      "loss": 0.6823,
-      "step": 660
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00015865150284321688,
-      "loss": 0.6732,
-      "step": 680
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.0001537774167343623,
-      "loss": 0.6832,
-      "step": 700
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0001489033306255077,
-      "loss": 0.6795,
-      "step": 720
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.00014402924451665313,
-      "loss": 0.686,
-      "step": 740
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00013915515840779853,
-      "loss": 0.6799,
-      "step": 760
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00013428107229894394,
-      "loss": 0.6738,
-      "step": 780
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00012940698619008935,
-      "loss": 0.6801,
-      "step": 800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.6822482943534851,
-      "eval_runtime": 128.9861,
-      "eval_samples_per_second": 15.506,
-      "eval_steps_per_second": 1.938,
-      "step": 800
-    }
-  ],
-  "max_steps": 1331,
-  "num_train_epochs": 1,
-  "total_flos": 1.039904997900288e+18,
-  "trial_name": null,
-  "trial_params": null
-}