keegan111 commited on Apr 13, 2025

Commit

7eaf797

verified ·

1 Parent(s): a11c459

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

cross_cell_type_generization/L6/B cells/.DS_Store +0 -0
cross_cell_type_generization/L6/B cells/all_results.json +8 -0
cross_cell_type_generization/L6/B cells/config.json +25 -0
cross_cell_type_generization/L6/B cells/eval_results.json +8 -0
cross_cell_type_generization/L6/B cells/trainer_state.json +450 -0
cross_cell_type_generization/L6/Fibroblasts/trainer_state.json +450 -0
data_curation&frozen_layers/dataset1_all/F0/optimizer.pt +3 -0
data_curation&frozen_layers/dataset3_2048/F2/rng_state.pth +3 -0
data_curation&frozen_layers/dataset3_2048/F2/scheduler.pt +3 -0
data_curation&frozen_layers/dataset3_2048/F4/predictions.pickle +3 -0
data_curation&frozen_layers/dataset3_2048/F4/training_args.bin +3 -0
scaling_performance/.DS_Store +0 -0
scaling_performance/1000/.DS_Store +0 -0
scaling_performance/1000/L2/.DS_Store +0 -0
scaling_performance/1000/L2/all_results.json +8 -0
scaling_performance/1000/L2/config.json +25 -0
scaling_performance/1000/L2/eval_results.json +8 -0
scaling_performance/1000/L2/trainer_state.json +712 -0
scaling_performance/1000/L4/.DS_Store +0 -0
scaling_performance/1000/L4/all_results.json +8 -0
scaling_performance/1000/L4/config.json +25 -0
scaling_performance/1000/L4/eval_results.json +8 -0
scaling_performance/1000/L4/trainer_state.json +480 -0
scaling_performance/1000/fine-tuned/.DS_Store +0 -0
scaling_performance/1000/fine-tuned/all_results.json +8 -0
scaling_performance/1000/fine-tuned/config.json +27 -0
scaling_performance/1000/fine-tuned/eval_results.json +8 -0
scaling_performance/1000/fine-tuned/trainer_state.json +1756 -0
scaling_performance/2000/.DS_Store +0 -0
scaling_performance/2000/L1/.DS_Store +0 -0
scaling_performance/2000/L1/all_results.json +8 -0
scaling_performance/2000/L1/config.json +25 -0
scaling_performance/2000/L1/eval_results.json +8 -0
scaling_performance/2000/L1/trainer_state.json +886 -0
scaling_performance/2000/L2/.DS_Store +0 -0
scaling_performance/2000/L2/all_results.json +8 -0
scaling_performance/2000/L2/config.json +25 -0
scaling_performance/2000/L2/eval_results.json +8 -0
scaling_performance/2000/L2/trainer_state.json +596 -0
scaling_performance/2000/L4/.DS_Store +0 -0
scaling_performance/2000/L4/all_results.json +8 -0
scaling_performance/2000/L4/config.json +25 -0
scaling_performance/2000/L4/eval_results.json +8 -0
scaling_performance/2000/L4/trainer_state.json +596 -0
scaling_performance/2000/L6/.DS_Store +0 -0
scaling_performance/2000/L6/all_results.json +8 -0
scaling_performance/2000/L6/config.json +25 -0
scaling_performance/2000/L6/eval_results.json +8 -0
scaling_performance/2000/L6/trainer_state.json +596 -0
scaling_performance/2000/fine-tuned/.DS_Store +0 -0

cross_cell_type_generization/L6/B cells/.DS_Store CHANGED Viewed

Binary files a/cross_cell_type_generization/L6/B cells/.DS_Store and b/cross_cell_type_generization/L6/B cells/.DS_Store differ

cross_cell_type_generization/L6/B cells/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.9055555555555556,
+    "test_loss": 0.26022690534591675,
+    "test_macro_f1": 0.881574364332985,
+    "test_runtime": 3.0564,
+    "test_samples_per_second": 294.462,
+    "test_steps_per_second": 2.945
+}

cross_cell_type_generization/L6/B cells/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

cross_cell_type_generization/L6/B cells/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.9055555555555556,
+    "test_loss": 0.26022690534591675,
+    "test_macro_f1": 0.881574364332985,
+    "test_runtime": 3.0564,
+    "test_samples_per_second": 294.462,
+    "test_steps_per_second": 2.945
+}

cross_cell_type_generization/L6/B cells/trainer_state.json ADDED Viewed

	@@ -0,0 +1,450 @@

+{
+  "best_metric": 0.40387290716171265,
+  "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/data_diversity/L6/B cells/fold4/checkpoint-1122",
+  "epoch": 8.0,
+  "global_step": 1496,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6926,
+      "step": 25
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 5e-06,
+      "loss": 0.6933,
+      "step": 50
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6935,
+      "step": 75
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1e-05,
+      "loss": 0.6936,
+      "step": 100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6928,
+      "step": 125
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.5e-05,
+      "loss": 0.692,
+      "step": 150
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.75e-05,
+      "loss": 0.6907,
+      "step": 175
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5210482872472142,
+      "eval_loss": 0.6905837059020996,
+      "eval_macro_f1": 0.41147454390525884,
+      "eval_runtime": 17.4321,
+      "eval_samples_per_second": 277.992,
+      "eval_steps_per_second": 2.696,
+      "step": 187
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2e-05,
+      "loss": 0.6904,
+      "step": 200
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.25e-05,
+      "loss": 0.6898,
+      "step": 225
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 2.5e-05,
+      "loss": 0.6865,
+      "step": 250
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.6869,
+      "step": 275
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 0.6814,
+      "step": 300
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.6762,
+      "step": 325
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.5e-05,
+      "loss": 0.6747,
+      "step": 350
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5984316962443252,
+      "eval_loss": 0.6632421016693115,
+      "eval_macro_f1": 0.5897740135113385,
+      "eval_runtime": 16.5825,
+      "eval_samples_per_second": 292.235,
+      "eval_steps_per_second": 2.834,
+      "step": 374
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.6664,
+      "step": 375
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4e-05,
+      "loss": 0.6356,
+      "step": 400
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 4.25e-05,
+      "loss": 0.6121,
+      "step": 425
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 4.5e-05,
+      "loss": 0.5833,
+      "step": 450
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.75e-05,
+      "loss": 0.5619,
+      "step": 475
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5e-05,
+      "loss": 0.5355,
+      "step": 500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 4.9858757062146896e-05,
+      "loss": 0.4877,
+      "step": 525
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 4.971751412429379e-05,
+      "loss": 0.4662,
+      "step": 550
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7631035905901775,
+      "eval_loss": 0.48640862107276917,
+      "eval_macro_f1": 0.7547183753731113,
+      "eval_runtime": 17.7844,
+      "eval_samples_per_second": 272.486,
+      "eval_steps_per_second": 2.643,
+      "step": 561
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 4.957627118644068e-05,
+      "loss": 0.4818,
+      "step": 575
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 4.9435028248587575e-05,
+      "loss": 0.458,
+      "step": 600
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 4.929378531073446e-05,
+      "loss": 0.424,
+      "step": 625
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 4.915254237288136e-05,
+      "loss": 0.4373,
+      "step": 650
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 4.9011299435028255e-05,
+      "loss": 0.4121,
+      "step": 675
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 4.887005649717514e-05,
+      "loss": 0.397,
+      "step": 700
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 4.8728813559322034e-05,
+      "loss": 0.3926,
+      "step": 725
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7961205117622782,
+      "eval_loss": 0.42608675360679626,
+      "eval_macro_f1": 0.7956681990046659,
+      "eval_runtime": 17.1151,
+      "eval_samples_per_second": 283.141,
+      "eval_steps_per_second": 2.746,
+      "step": 748
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.8587570621468934e-05,
+      "loss": 0.3983,
+      "step": 750
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 4.844632768361582e-05,
+      "loss": 0.3468,
+      "step": 775
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 4.8305084745762714e-05,
+      "loss": 0.3599,
+      "step": 800
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 4.816384180790961e-05,
+      "loss": 0.3619,
+      "step": 825
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 4.80225988700565e-05,
+      "loss": 0.3428,
+      "step": 850
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 4.788135593220339e-05,
+      "loss": 0.3622,
+      "step": 875
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 4.7740112994350286e-05,
+      "loss": 0.3451,
+      "step": 900
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 4.759887005649718e-05,
+      "loss": 0.3714,
+      "step": 925
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7845645893520429,
+      "eval_loss": 0.4528542459011078,
+      "eval_macro_f1": 0.7833690643653564,
+      "eval_runtime": 17.1144,
+      "eval_samples_per_second": 283.153,
+      "eval_steps_per_second": 2.746,
+      "step": 935
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 4.745762711864407e-05,
+      "loss": 0.339,
+      "step": 950
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 4.7316384180790966e-05,
+      "loss": 0.2876,
+      "step": 975
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 4.717514124293785e-05,
+      "loss": 0.355,
+      "step": 1000
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.703389830508475e-05,
+      "loss": 0.3099,
+      "step": 1025
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 4.689265536723164e-05,
+      "loss": 0.322,
+      "step": 1050
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.675141242937853e-05,
+      "loss": 0.3246,
+      "step": 1075
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.6610169491525425e-05,
+      "loss": 0.3719,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8186132893107718,
+      "eval_loss": 0.40387290716171265,
+      "eval_macro_f1": 0.8179837351502454,
+      "eval_runtime": 17.1237,
+      "eval_samples_per_second": 282.999,
+      "eval_steps_per_second": 2.745,
+      "step": 1122
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.646892655367232e-05,
+      "loss": 0.2755,
+      "step": 1125
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 4.632768361581921e-05,
+      "loss": 0.293,
+      "step": 1150
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 4.6186440677966104e-05,
+      "loss": 0.3708,
+      "step": 1175
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 4.6045197740113e-05,
+      "loss": 0.2885,
+      "step": 1200
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 4.590395480225989e-05,
+      "loss": 0.2562,
+      "step": 1225
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 4.5762711864406784e-05,
+      "loss": 0.2814,
+      "step": 1250
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 4.562146892655367e-05,
+      "loss": 0.3036,
+      "step": 1275
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 4.548022598870056e-05,
+      "loss": 0.278,
+      "step": 1300
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7992158481221626,
+      "eval_loss": 0.44179922342300415,
+      "eval_macro_f1": 0.7983638814289351,
+      "eval_runtime": 16.9988,
+      "eval_samples_per_second": 285.079,
+      "eval_steps_per_second": 2.765,
+      "step": 1309
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 4.533898305084746e-05,
+      "loss": 0.2443,
+      "step": 1325
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 4.519774011299435e-05,
+      "loss": 0.2577,
+      "step": 1350
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 4.505649717514124e-05,
+      "loss": 0.2615,
+      "step": 1375
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 4.491525423728814e-05,
+      "loss": 0.2527,
+      "step": 1400
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 4.477401129943503e-05,
+      "loss": 0.3119,
+      "step": 1425
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 4.463276836158192e-05,
+      "loss": 0.2463,
+      "step": 1450
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 4.4491525423728816e-05,
+      "loss": 0.2449,
+      "step": 1475
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8196450680973999,
+      "eval_loss": 0.4183129370212555,
+      "eval_macro_f1": 0.8195520921951007,
+      "eval_runtime": 16.9753,
+      "eval_samples_per_second": 285.473,
+      "eval_steps_per_second": 2.769,
+      "step": 1496
+    }
+  ],
+  "max_steps": 9350,
+  "num_train_epochs": 50,
+  "total_flos": 6154099081543680.0,
+  "trial_name": null,
+  "trial_params": null
+}

cross_cell_type_generization/L6/Fibroblasts/trainer_state.json ADDED Viewed

	@@ -0,0 +1,450 @@

+{
+  "best_metric": 0.40387290716171265,
+  "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/data_diversity/L6/Fibroblasts/fold4/checkpoint-1122",
+  "epoch": 8.0,
+  "global_step": 1496,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6926,
+      "step": 25
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 5e-06,
+      "loss": 0.6933,
+      "step": 50
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6935,
+      "step": 75
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1e-05,
+      "loss": 0.6936,
+      "step": 100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6928,
+      "step": 125
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.5e-05,
+      "loss": 0.692,
+      "step": 150
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.75e-05,
+      "loss": 0.6907,
+      "step": 175
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5210482872472142,
+      "eval_loss": 0.6905837059020996,
+      "eval_macro_f1": 0.41147454390525884,
+      "eval_runtime": 15.8319,
+      "eval_samples_per_second": 306.091,
+      "eval_steps_per_second": 2.969,
+      "step": 187
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2e-05,
+      "loss": 0.6904,
+      "step": 200
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.25e-05,
+      "loss": 0.6898,
+      "step": 225
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 2.5e-05,
+      "loss": 0.6865,
+      "step": 250
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.6869,
+      "step": 275
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 0.6814,
+      "step": 300
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.6762,
+      "step": 325
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.5e-05,
+      "loss": 0.6747,
+      "step": 350
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5984316962443252,
+      "eval_loss": 0.6632421016693115,
+      "eval_macro_f1": 0.5897740135113385,
+      "eval_runtime": 16.4963,
+      "eval_samples_per_second": 293.762,
+      "eval_steps_per_second": 2.849,
+      "step": 374
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.6664,
+      "step": 375
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4e-05,
+      "loss": 0.6356,
+      "step": 400
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 4.25e-05,
+      "loss": 0.6121,
+      "step": 425
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 4.5e-05,
+      "loss": 0.5833,
+      "step": 450
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.75e-05,
+      "loss": 0.5619,
+      "step": 475
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5e-05,
+      "loss": 0.5355,
+      "step": 500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 4.9858757062146896e-05,
+      "loss": 0.4877,
+      "step": 525
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 4.971751412429379e-05,
+      "loss": 0.4662,
+      "step": 550
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7631035905901775,
+      "eval_loss": 0.48640862107276917,
+      "eval_macro_f1": 0.7547183753731113,
+      "eval_runtime": 16.3862,
+      "eval_samples_per_second": 295.737,
+      "eval_steps_per_second": 2.868,
+      "step": 561
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 4.957627118644068e-05,
+      "loss": 0.4818,
+      "step": 575
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 4.9435028248587575e-05,
+      "loss": 0.458,
+      "step": 600
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 4.929378531073446e-05,
+      "loss": 0.424,
+      "step": 625
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 4.915254237288136e-05,
+      "loss": 0.4373,
+      "step": 650
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 4.9011299435028255e-05,
+      "loss": 0.4121,
+      "step": 675
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 4.887005649717514e-05,
+      "loss": 0.397,
+      "step": 700
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 4.8728813559322034e-05,
+      "loss": 0.3926,
+      "step": 725
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7961205117622782,
+      "eval_loss": 0.42608675360679626,
+      "eval_macro_f1": 0.7956681990046659,
+      "eval_runtime": 16.1617,
+      "eval_samples_per_second": 299.845,
+      "eval_steps_per_second": 2.908,
+      "step": 748
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.8587570621468934e-05,
+      "loss": 0.3983,
+      "step": 750
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 4.844632768361582e-05,
+      "loss": 0.3468,
+      "step": 775
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 4.8305084745762714e-05,
+      "loss": 0.3599,
+      "step": 800
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 4.816384180790961e-05,
+      "loss": 0.3619,
+      "step": 825
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 4.80225988700565e-05,
+      "loss": 0.3428,
+      "step": 850
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 4.788135593220339e-05,
+      "loss": 0.3622,
+      "step": 875
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 4.7740112994350286e-05,
+      "loss": 0.3451,
+      "step": 900
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 4.759887005649718e-05,
+      "loss": 0.3714,
+      "step": 925
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7845645893520429,
+      "eval_loss": 0.4528542459011078,
+      "eval_macro_f1": 0.7833690643653564,
+      "eval_runtime": 16.4437,
+      "eval_samples_per_second": 294.702,
+      "eval_steps_per_second": 2.858,
+      "step": 935
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 4.745762711864407e-05,
+      "loss": 0.339,
+      "step": 950
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 4.7316384180790966e-05,
+      "loss": 0.2876,
+      "step": 975
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 4.717514124293785e-05,
+      "loss": 0.355,
+      "step": 1000
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.703389830508475e-05,
+      "loss": 0.3099,
+      "step": 1025
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 4.689265536723164e-05,
+      "loss": 0.322,
+      "step": 1050
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.675141242937853e-05,
+      "loss": 0.3246,
+      "step": 1075
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.6610169491525425e-05,
+      "loss": 0.3719,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8186132893107718,
+      "eval_loss": 0.40387290716171265,
+      "eval_macro_f1": 0.8179837351502454,
+      "eval_runtime": 15.9198,
+      "eval_samples_per_second": 304.4,
+      "eval_steps_per_second": 2.952,
+      "step": 1122
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.646892655367232e-05,
+      "loss": 0.2755,
+      "step": 1125
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 4.632768361581921e-05,
+      "loss": 0.293,
+      "step": 1150
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 4.6186440677966104e-05,
+      "loss": 0.3708,
+      "step": 1175
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 4.6045197740113e-05,
+      "loss": 0.2885,
+      "step": 1200
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 4.590395480225989e-05,
+      "loss": 0.2562,
+      "step": 1225
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 4.5762711864406784e-05,
+      "loss": 0.2814,
+      "step": 1250
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 4.562146892655367e-05,
+      "loss": 0.3036,
+      "step": 1275
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 4.548022598870056e-05,
+      "loss": 0.278,
+      "step": 1300
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7992158481221626,
+      "eval_loss": 0.44179922342300415,
+      "eval_macro_f1": 0.7983638814289351,
+      "eval_runtime": 16.9377,
+      "eval_samples_per_second": 286.107,
+      "eval_steps_per_second": 2.775,
+      "step": 1309
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 4.533898305084746e-05,
+      "loss": 0.2443,
+      "step": 1325
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 4.519774011299435e-05,
+      "loss": 0.2577,
+      "step": 1350
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 4.505649717514124e-05,
+      "loss": 0.2615,
+      "step": 1375
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 4.491525423728814e-05,
+      "loss": 0.2527,
+      "step": 1400
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 4.477401129943503e-05,
+      "loss": 0.3119,
+      "step": 1425
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 4.463276836158192e-05,
+      "loss": 0.2463,
+      "step": 1450
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 4.4491525423728816e-05,
+      "loss": 0.2449,
+      "step": 1475
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8196450680973999,
+      "eval_loss": 0.4183129370212555,
+      "eval_macro_f1": 0.8195520921951007,
+      "eval_runtime": 16.081,
+      "eval_samples_per_second": 301.35,
+      "eval_steps_per_second": 2.923,
+      "step": 1496
+    }
+  ],
+  "max_steps": 9350,
+  "num_train_epochs": 50,
+  "total_flos": 6154099081543680.0,
+  "trial_name": null,
+  "trial_params": null
+}

data_curation&frozen_layers/dataset1_all/F0/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e2d0e3aa5d2da2620967534f5f2e2c2256b221f18f54b08d3a18b5b4ce4645e
+size 82168378

data_curation&frozen_layers/dataset3_2048/F2/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a75e0236ae48e131d17c55edac95710df7cda4d1d3ae117d50c03e177291089f
+size 15006

data_curation&frozen_layers/dataset3_2048/F2/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5b52d243330319c0af9e8ee37eec3cd97862d9821d4bac5ea3efa228ba7e3a4
+size 1064

data_curation&frozen_layers/dataset3_2048/F4/predictions.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:092e9fa3ba8aec8b46c4e4554cfbd6a55d1b7c2b48af1268d0a19547360a5793
+size 78067

data_curation&frozen_layers/dataset3_2048/F4/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:495394a542cc7656b4fd829b32b9dab7bc9f591b59ad7220ce156679e0002696
+size 4280

scaling_performance/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/.DS_Store and b/scaling_performance/.DS_Store differ

scaling_performance/1000/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/1000/.DS_Store and b/scaling_performance/1000/.DS_Store differ

scaling_performance/1000/L2/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/1000/L2/.DS_Store and b/scaling_performance/1000/L2/.DS_Store differ

scaling_performance/1000/L2/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.545,
+    "test_loss": 0.6915959715843201,
+    "test_macro_f1": 0.3625442191166684,
+    "test_runtime": 0.4924,
+    "test_samples_per_second": 406.157,
+    "test_steps_per_second": 4.062
+}

scaling_performance/1000/L2/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/1000/L2/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.545,
+    "test_loss": 0.6915959715843201,
+    "test_macro_f1": 0.3625442191166684,
+    "test_runtime": 0.4924,
+    "test_samples_per_second": 406.157,
+    "test_steps_per_second": 4.062
+}

scaling_performance/1000/L2/trainer_state.json ADDED Viewed

	@@ -0,0 +1,712 @@

+{
+  "best_metric": 0.6915959715843201,
+  "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/5folds_allmodels/1000samples/L2/fold4/checkpoint-80",
+  "epoch": 12.0,
+  "global_step": 96,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": 0.7159,
+      "step": 1
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.701,
+      "step": 2
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 0.7445,
+      "step": 3
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.7041,
+      "step": 4
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6917,
+      "step": 5
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.7,
+      "step": 6
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.000000000000001e-07,
+      "loss": 0.6976,
+      "step": 7
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.731,
+      "step": 8
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.45,
+      "eval_loss": 0.7109375,
+      "eval_macro_f1": 0.3103448275862069,
+      "eval_runtime": 0.5076,
+      "eval_samples_per_second": 393.99,
+      "eval_steps_per_second": 3.94,
+      "step": 8
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 9e-07,
+      "loss": 0.7144,
+      "step": 9
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.7244,
+      "step": 10
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1e-06,
+      "loss": 0.7184,
+      "step": 11
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.7062,
+      "step": 12
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.3e-06,
+      "loss": 0.6956,
+      "step": 13
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.7072,
+      "step": 14
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6984,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.7097,
+      "step": 16
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.455,
+      "eval_loss": 0.7094874382019043,
+      "eval_macro_f1": 0.32780364466097256,
+      "eval_runtime": 0.499,
+      "eval_samples_per_second": 400.839,
+      "eval_steps_per_second": 4.008,
+      "step": 16
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 0.7078,
+      "step": 17
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.8e-06,
+      "loss": 0.7055,
+      "step": 18
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.9e-06,
+      "loss": 0.698,
+      "step": 19
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.715,
+      "step": 20
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 0.7083,
+      "step": 21
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.2e-06,
+      "loss": 0.7027,
+      "step": 22
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.3e-06,
+      "loss": 0.7082,
+      "step": 23
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.7034,
+      "step": 24
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.455,
+      "eval_loss": 0.7071405649185181,
+      "eval_macro_f1": 0.32780364466097256,
+      "eval_runtime": 0.5786,
+      "eval_samples_per_second": 345.685,
+      "eval_steps_per_second": 3.457,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7044,
+      "step": 25
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 2.6e-06,
+      "loss": 0.7111,
+      "step": 26
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 2.7e-06,
+      "loss": 0.6988,
+      "step": 27
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.6876,
+      "step": 28
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.9e-06,
+      "loss": 0.7027,
+      "step": 29
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 3e-06,
+      "loss": 0.7028,
+      "step": 30
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.1e-06,
+      "loss": 0.7086,
+      "step": 31
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.7079,
+      "step": 32
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.44,
+      "eval_loss": 0.7041958570480347,
+      "eval_macro_f1": 0.3333333333333333,
+      "eval_runtime": 0.5218,
+      "eval_samples_per_second": 383.289,
+      "eval_steps_per_second": 3.833,
+      "step": 32
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.3e-06,
+      "loss": 0.7005,
+      "step": 33
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.6968,
+      "step": 34
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.7009,
+      "step": 35
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 3.6e-06,
+      "loss": 0.7043,
+      "step": 36
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 3.7e-06,
+      "loss": 0.6945,
+      "step": 37
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 3.8e-06,
+      "loss": 0.6995,
+      "step": 38
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 3.9e-06,
+      "loss": 0.693,
+      "step": 39
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7036,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.46,
+      "eval_loss": 0.7008482217788696,
+      "eval_macro_f1": 0.3846153846153846,
+      "eval_runtime": 0.6101,
+      "eval_samples_per_second": 327.803,
+      "eval_steps_per_second": 3.278,
+      "step": 40
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.1000000000000006e-06,
+      "loss": 0.6946,
+      "step": 41
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.6955,
+      "step": 42
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 4.2999999999999995e-06,
+      "loss": 0.697,
+      "step": 43
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 4.4e-06,
+      "loss": 0.7048,
+      "step": 44
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6956,
+      "step": 45
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.6e-06,
+      "loss": 0.6956,
+      "step": 46
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.7e-06,
+      "loss": 0.691,
+      "step": 47
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.6909,
+      "step": 48
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.46,
+      "eval_loss": 0.6975666880607605,
+      "eval_macro_f1": 0.4375,
+      "eval_runtime": 0.5216,
+      "eval_samples_per_second": 383.451,
+      "eval_steps_per_second": 3.835,
+      "step": 48
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.6932,
+      "step": 49
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 5e-06,
+      "loss": 0.6907,
+      "step": 50
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 5.1e-06,
+      "loss": 0.6925,
+      "step": 51
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 5.2e-06,
+      "loss": 0.6979,
+      "step": 52
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 5.3e-06,
+      "loss": 0.6935,
+      "step": 53
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 5.4e-06,
+      "loss": 0.689,
+      "step": 54
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6883,
+      "step": 55
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.6878,
+      "step": 56
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.48,
+      "eval_loss": 0.6947869062423706,
+      "eval_macro_f1": 0.47743945332127424,
+      "eval_runtime": 0.5746,
+      "eval_samples_per_second": 348.056,
+      "eval_steps_per_second": 3.481,
+      "step": 56
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 5.7000000000000005e-06,
+      "loss": 0.6902,
+      "step": 57
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 5.8e-06,
+      "loss": 0.6918,
+      "step": 58
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 5.9e-06,
+      "loss": 0.6876,
+      "step": 59
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6932,
+      "step": 60
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 6.1e-06,
+      "loss": 0.6856,
+      "step": 61
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 6.2e-06,
+      "loss": 0.6851,
+      "step": 62
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.6837,
+      "step": 63
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.687,
+      "step": 64
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.54,
+      "eval_loss": 0.6931593418121338,
+      "eval_macro_f1": 0.4837840870833801,
+      "eval_runtime": 0.5564,
+      "eval_samples_per_second": 359.445,
+      "eval_steps_per_second": 3.594,
+      "step": 64
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6901,
+      "step": 65
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 6.6e-06,
+      "loss": 0.6886,
+      "step": 66
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 6.700000000000001e-06,
+      "loss": 0.6802,
+      "step": 67
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.679,
+      "step": 68
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 6.900000000000001e-06,
+      "loss": 0.6916,
+      "step": 69
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6878,
+      "step": 70
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 7.1e-06,
+      "loss": 0.684,
+      "step": 71
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 7.2e-06,
+      "loss": 0.6892,
+      "step": 72
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6919929385185242,
+      "eval_macro_f1": 0.39999999999999997,
+      "eval_runtime": 0.5264,
+      "eval_samples_per_second": 379.923,
+      "eval_steps_per_second": 3.799,
+      "step": 72
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 7.2999999999999996e-06,
+      "loss": 0.6799,
+      "step": 73
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 7.4e-06,
+      "loss": 0.6864,
+      "step": 74
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 7.5e-06,
+      "loss": 0.682,
+      "step": 75
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 7.6e-06,
+      "loss": 0.6829,
+      "step": 76
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 7.7e-06,
+      "loss": 0.6891,
+      "step": 77
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 7.8e-06,
+      "loss": 0.6714,
+      "step": 78
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 7.9e-06,
+      "loss": 0.6854,
+      "step": 79
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6885,
+      "step": 80
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6915959715843201,
+      "eval_macro_f1": 0.3625442191166684,
+      "eval_runtime": 0.5616,
+      "eval_samples_per_second": 356.111,
+      "eval_steps_per_second": 3.561,
+      "step": 80
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 8.1e-06,
+      "loss": 0.6902,
+      "step": 81
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 8.200000000000001e-06,
+      "loss": 0.68,
+      "step": 82
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 8.3e-06,
+      "loss": 0.6864,
+      "step": 83
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.687,
+      "step": 84
+    },
+    {
+      "epoch": 10.62,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.681,
+      "step": 85
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 8.599999999999999e-06,
+      "loss": 0.6713,
+      "step": 86
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 8.7e-06,
+      "loss": 0.6792,
+      "step": 87
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 8.8e-06,
+      "loss": 0.6705,
+      "step": 88
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.54,
+      "eval_loss": 0.6916151642799377,
+      "eval_macro_f1": 0.35064935064935066,
+      "eval_runtime": 0.4888,
+      "eval_samples_per_second": 409.169,
+      "eval_steps_per_second": 4.092,
+      "step": 88
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 8.9e-06,
+      "loss": 0.6946,
+      "step": 89
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 9e-06,
+      "loss": 0.6807,
+      "step": 90
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 9.100000000000001e-06,
+      "loss": 0.6819,
+      "step": 91
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 9.2e-06,
+      "loss": 0.6822,
+      "step": 92
+    },
+    {
+      "epoch": 11.62,
+      "learning_rate": 9.3e-06,
+      "loss": 0.6774,
+      "step": 93
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 9.4e-06,
+      "loss": 0.6684,
+      "step": 94
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6839,
+      "step": 95
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.6724,
+      "step": 96
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.691866934299469,
+      "eval_macro_f1": 0.35275080906148865,
+      "eval_runtime": 0.5673,
+      "eval_samples_per_second": 352.518,
+      "eval_steps_per_second": 3.525,
+      "step": 96
+    }
+  ],
+  "max_steps": 400,
+  "num_train_epochs": 50,
+  "total_flos": 132241607884800.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/1000/L4/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/1000/L4/.DS_Store and b/scaling_performance/1000/L4/.DS_Store differ

scaling_performance/1000/L4/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.545,
+    "test_loss": 0.6891449689865112,
+    "test_macro_f1": 0.35275080906148865,
+    "test_runtime": 0.5999,
+    "test_samples_per_second": 333.384,
+    "test_steps_per_second": 3.334
+}

scaling_performance/1000/L4/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/1000/L4/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.545,
+    "test_loss": 0.6891449689865112,
+    "test_macro_f1": 0.35275080906148865,
+    "test_runtime": 0.5999,
+    "test_samples_per_second": 333.384,
+    "test_steps_per_second": 3.334
+}

scaling_performance/1000/L4/trainer_state.json ADDED Viewed

	@@ -0,0 +1,480 @@

+{
+  "best_metric": 0.6891449689865112,
+  "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/5folds_allmodels/1000samples/L4/fold4/checkpoint-48",
+  "epoch": 8.0,
+  "global_step": 64,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": 0.6931,
+      "step": 1
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.6891,
+      "step": 2
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 0.69,
+      "step": 3
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.6921,
+      "step": 4
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6961,
+      "step": 5
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.6871,
+      "step": 6
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.000000000000001e-07,
+      "loss": 0.6956,
+      "step": 7
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.6891,
+      "step": 8
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.535,
+      "eval_loss": 0.6912603974342346,
+      "eval_macro_f1": 0.4906760864207673,
+      "eval_runtime": 0.6002,
+      "eval_samples_per_second": 333.239,
+      "eval_steps_per_second": 3.332,
+      "step": 8
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 9e-07,
+      "loss": 0.6912,
+      "step": 9
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.6894,
+      "step": 10
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1e-06,
+      "loss": 0.6862,
+      "step": 11
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.6888,
+      "step": 12
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.3e-06,
+      "loss": 0.6906,
+      "step": 13
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.6974,
+      "step": 14
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6964,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.689,
+      "step": 16
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6907957196235657,
+      "eval_macro_f1": 0.5024458420684835,
+      "eval_runtime": 0.5971,
+      "eval_samples_per_second": 334.937,
+      "eval_steps_per_second": 3.349,
+      "step": 16
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 0.6874,
+      "step": 17
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.8e-06,
+      "loss": 0.6979,
+      "step": 18
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.9e-06,
+      "loss": 0.6931,
+      "step": 19
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6823,
+      "step": 20
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 0.6901,
+      "step": 21
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.2e-06,
+      "loss": 0.6894,
+      "step": 22
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.3e-06,
+      "loss": 0.6887,
+      "step": 23
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.693,
+      "step": 24
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.690175473690033,
+      "eval_macro_f1": 0.4634763035367396,
+      "eval_runtime": 0.5949,
+      "eval_samples_per_second": 336.173,
+      "eval_steps_per_second": 3.362,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6931,
+      "step": 25
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 2.6e-06,
+      "loss": 0.6882,
+      "step": 26
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 2.7e-06,
+      "loss": 0.694,
+      "step": 27
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.692,
+      "step": 28
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.9e-06,
+      "loss": 0.6899,
+      "step": 29
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 3e-06,
+      "loss": 0.6909,
+      "step": 30
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.1e-06,
+      "loss": 0.6849,
+      "step": 31
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.6811,
+      "step": 32
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.6895776987075806,
+      "eval_macro_f1": 0.4238219808602934,
+      "eval_runtime": 0.5921,
+      "eval_samples_per_second": 337.774,
+      "eval_steps_per_second": 3.378,
+      "step": 32
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.3e-06,
+      "loss": 0.6888,
+      "step": 33
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.6896,
+      "step": 34
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6842,
+      "step": 35
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 3.6e-06,
+      "loss": 0.6798,
+      "step": 36
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 3.7e-06,
+      "loss": 0.6918,
+      "step": 37
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 3.8e-06,
+      "loss": 0.6909,
+      "step": 38
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 3.9e-06,
+      "loss": 0.6875,
+      "step": 39
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6771,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6891635060310364,
+      "eval_macro_f1": 0.3647656691134952,
+      "eval_runtime": 0.6082,
+      "eval_samples_per_second": 328.828,
+      "eval_steps_per_second": 3.288,
+      "step": 40
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.1000000000000006e-06,
+      "loss": 0.6995,
+      "step": 41
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.6806,
+      "step": 42
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 4.2999999999999995e-06,
+      "loss": 0.6824,
+      "step": 43
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 4.4e-06,
+      "loss": 0.6884,
+      "step": 44
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6792,
+      "step": 45
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.6e-06,
+      "loss": 0.6931,
+      "step": 46
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.7e-06,
+      "loss": 0.6867,
+      "step": 47
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.6819,
+      "step": 48
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6891449689865112,
+      "eval_macro_f1": 0.35275080906148865,
+      "eval_runtime": 0.6013,
+      "eval_samples_per_second": 332.599,
+      "eval_steps_per_second": 3.326,
+      "step": 48
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.6826,
+      "step": 49
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 5e-06,
+      "loss": 0.6705,
+      "step": 50
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 5.1e-06,
+      "loss": 0.6671,
+      "step": 51
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 5.2e-06,
+      "loss": 0.7043,
+      "step": 52
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 5.3e-06,
+      "loss": 0.6757,
+      "step": 53
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 5.4e-06,
+      "loss": 0.6942,
+      "step": 54
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6902,
+      "step": 55
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.7139,
+      "step": 56
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6895077228546143,
+      "eval_macro_f1": 0.35275080906148865,
+      "eval_runtime": 0.5744,
+      "eval_samples_per_second": 348.173,
+      "eval_steps_per_second": 3.482,
+      "step": 56
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 5.7000000000000005e-06,
+      "loss": 0.6857,
+      "step": 57
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 5.8e-06,
+      "loss": 0.7153,
+      "step": 58
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 5.9e-06,
+      "loss": 0.6892,
+      "step": 59
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6819,
+      "step": 60
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 6.1e-06,
+      "loss": 0.6698,
+      "step": 61
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 6.2e-06,
+      "loss": 0.6628,
+      "step": 62
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.6882,
+      "step": 63
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.6845,
+      "step": 64
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6896821856498718,
+      "eval_macro_f1": 0.35275080906148865,
+      "eval_runtime": 0.5921,
+      "eval_samples_per_second": 337.784,
+      "eval_steps_per_second": 3.378,
+      "step": 64
+    }
+  ],
+  "max_steps": 400,
+  "num_train_epochs": 50,
+  "total_flos": 171067362508800.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/1000/fine-tuned/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/1000/fine-tuned/.DS_Store and b/scaling_performance/1000/fine-tuned/.DS_Store differ

scaling_performance/1000/fine-tuned/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.615,
+    "test_loss": 0.6587879657745361,
+    "test_macro_f1": 0.6042250263421655,
+    "test_runtime": 0.6844,
+    "test_samples_per_second": 292.222,
+    "test_steps_per_second": 2.922
+}

scaling_performance/1000/fine-tuned/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "/vsphhome/fengguoqing/Geneformer",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "relu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 25426
+}

scaling_performance/1000/fine-tuned/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.615,
+    "test_loss": 0.6587879657745361,
+    "test_macro_f1": 0.6042250263421655,
+    "test_runtime": 0.6844,
+    "test_samples_per_second": 292.222,
+    "test_steps_per_second": 2.922
+}

scaling_performance/1000/fine-tuned/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1756 @@

+{
+  "best_metric": 0.6587879657745361,
+  "best_model_checkpoint": "/vsphhome/fengguoqing/Geneformer/models/5folds_allmodels/1000samples/fine_tuned/fold0/checkpoint-224",
+  "epoch": 30.0,
+  "global_step": 240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": 0.6848,
+      "step": 1
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.7017,
+      "step": 2
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 0.7008,
+      "step": 3
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.6882,
+      "step": 4
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6897,
+      "step": 5
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.6837,
+      "step": 6
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.000000000000001e-07,
+      "loss": 0.6949,
+      "step": 7
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.6921,
+      "step": 8
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.455,
+      "eval_loss": 0.6985742449760437,
+      "eval_macro_f1": 0.4285864066472701,
+      "eval_runtime": 0.767,
+      "eval_samples_per_second": 260.748,
+      "eval_steps_per_second": 2.607,
+      "step": 8
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 9e-07,
+      "loss": 0.687,
+      "step": 9
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1e-06,
+      "loss": 0.6838,
+      "step": 11
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.6902,
+      "step": 12
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.3e-06,
+      "loss": 0.6992,
+      "step": 13
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.6965,
+      "step": 14
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6888,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.6817,
+      "step": 16
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.475,
+      "eval_loss": 0.6979620456695557,
+      "eval_macro_f1": 0.42495687176538244,
+      "eval_runtime": 0.7018,
+      "eval_samples_per_second": 284.975,
+      "eval_steps_per_second": 2.85,
+      "step": 16
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 0.6905,
+      "step": 17
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.8e-06,
+      "loss": 0.6945,
+      "step": 18
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.9e-06,
+      "loss": 0.6895,
+      "step": 19
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6841,
+      "step": 20
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 0.685,
+      "step": 21
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.2e-06,
+      "loss": 0.6915,
+      "step": 22
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.3e-06,
+      "loss": 0.6967,
+      "step": 23
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.6912,
+      "step": 24
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.48,
+      "eval_loss": 0.6971560716629028,
+      "eval_macro_f1": 0.37492487077773773,
+      "eval_runtime": 0.7011,
+      "eval_samples_per_second": 285.285,
+      "eval_steps_per_second": 2.853,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 2.5e-06,
+      "loss": 0.684,
+      "step": 25
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 2.6e-06,
+      "loss": 0.6841,
+      "step": 26
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 2.7e-06,
+      "loss": 0.6929,
+      "step": 27
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.6904,
+      "step": 28
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.9e-06,
+      "loss": 0.6837,
+      "step": 29
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 3e-06,
+      "loss": 0.6952,
+      "step": 30
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.1e-06,
+      "loss": 0.686,
+      "step": 31
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.6879,
+      "step": 32
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.505,
+      "eval_loss": 0.6962434649467468,
+      "eval_macro_f1": 0.35275080906148865,
+      "eval_runtime": 0.6739,
+      "eval_samples_per_second": 296.767,
+      "eval_steps_per_second": 2.968,
+      "step": 32
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.3e-06,
+      "loss": 0.6858,
+      "step": 33
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.6956,
+      "step": 34
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.678,
+      "step": 35
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 3.6e-06,
+      "loss": 0.6862,
+      "step": 36
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 3.7e-06,
+      "loss": 0.69,
+      "step": 37
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 3.8e-06,
+      "loss": 0.6754,
+      "step": 38
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 3.9e-06,
+      "loss": 0.6943,
+      "step": 39
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6874,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6953359246253967,
+      "eval_macro_f1": 0.3625442191166684,
+      "eval_runtime": 0.682,
+      "eval_samples_per_second": 293.25,
+      "eval_steps_per_second": 2.933,
+      "step": 40
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.1000000000000006e-06,
+      "loss": 0.6939,
+      "step": 41
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.6865,
+      "step": 42
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 4.2999999999999995e-06,
+      "loss": 0.6706,
+      "step": 43
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 4.4e-06,
+      "loss": 0.6749,
+      "step": 44
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6929,
+      "step": 45
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.6e-06,
+      "loss": 0.684,
+      "step": 46
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.7e-06,
+      "loss": 0.6802,
+      "step": 47
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.7163,
+      "step": 48
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6945347785949707,
+      "eval_macro_f1": 0.3669760660051922,
+      "eval_runtime": 0.7337,
+      "eval_samples_per_second": 272.601,
+      "eval_steps_per_second": 2.726,
+      "step": 48
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.6936,
+      "step": 49
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 5e-06,
+      "loss": 0.6854,
+      "step": 50
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 5.1e-06,
+      "loss": 0.6865,
+      "step": 51
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 5.2e-06,
+      "loss": 0.6784,
+      "step": 52
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 5.3e-06,
+      "loss": 0.681,
+      "step": 53
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 5.4e-06,
+      "loss": 0.6769,
+      "step": 54
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6971,
+      "step": 55
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.6755,
+      "step": 56
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6938488483428955,
+      "eval_macro_f1": 0.3548387096774194,
+      "eval_runtime": 0.6956,
+      "eval_samples_per_second": 287.509,
+      "eval_steps_per_second": 2.875,
+      "step": 56
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 5.7000000000000005e-06,
+      "loss": 0.6804,
+      "step": 57
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 5.8e-06,
+      "loss": 0.6875,
+      "step": 58
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 5.9e-06,
+      "loss": 0.6561,
+      "step": 59
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6871,
+      "step": 60
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 6.1e-06,
+      "loss": 0.7011,
+      "step": 61
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 6.2e-06,
+      "loss": 0.697,
+      "step": 62
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.6829,
+      "step": 63
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.6857,
+      "step": 64
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6929141283035278,
+      "eval_macro_f1": 0.3548387096774194,
+      "eval_runtime": 0.679,
+      "eval_samples_per_second": 294.572,
+      "eval_steps_per_second": 2.946,
+      "step": 64
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6794,
+      "step": 65
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 6.6e-06,
+      "loss": 0.6768,
+      "step": 66
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 6.700000000000001e-06,
+      "loss": 0.6813,
+      "step": 67
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.6926,
+      "step": 68
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 6.900000000000001e-06,
+      "loss": 0.6782,
+      "step": 69
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.69,
+      "step": 70
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 7.1e-06,
+      "loss": 0.6683,
+      "step": 71
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 7.2e-06,
+      "loss": 0.703,
+      "step": 72
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6919710040092468,
+      "eval_macro_f1": 0.3669760660051922,
+      "eval_runtime": 0.6934,
+      "eval_samples_per_second": 288.454,
+      "eval_steps_per_second": 2.885,
+      "step": 72
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 7.2999999999999996e-06,
+      "loss": 0.7012,
+      "step": 73
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 7.4e-06,
+      "loss": 0.6872,
+      "step": 74
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6639,
+      "step": 75
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 7.6e-06,
+      "loss": 0.692,
+      "step": 76
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 7.7e-06,
+      "loss": 0.6915,
+      "step": 77
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 7.8e-06,
+      "loss": 0.6845,
+      "step": 78
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 7.9e-06,
+      "loss": 0.6628,
+      "step": 79
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6792,
+      "step": 80
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6907283067703247,
+      "eval_macro_f1": 0.3856773080241587,
+      "eval_runtime": 0.6816,
+      "eval_samples_per_second": 293.434,
+      "eval_steps_per_second": 2.934,
+      "step": 80
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 8.1e-06,
+      "loss": 0.6768,
+      "step": 81
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 8.200000000000001e-06,
+      "loss": 0.6778,
+      "step": 82
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 8.3e-06,
+      "loss": 0.6719,
+      "step": 83
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.6957,
+      "step": 84
+    },
+    {
+      "epoch": 10.62,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.685,
+      "step": 85
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 8.599999999999999e-06,
+      "loss": 0.6855,
+      "step": 86
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 8.7e-06,
+      "loss": 0.6756,
+      "step": 87
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 8.8e-06,
+      "loss": 0.6906,
+      "step": 88
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6894752383232117,
+      "eval_macro_f1": 0.4188403838356535,
+      "eval_runtime": 0.689,
+      "eval_samples_per_second": 290.257,
+      "eval_steps_per_second": 2.903,
+      "step": 88
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 8.9e-06,
+      "loss": 0.683,
+      "step": 89
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 9e-06,
+      "loss": 0.675,
+      "step": 90
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 9.100000000000001e-06,
+      "loss": 0.7001,
+      "step": 91
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 9.2e-06,
+      "loss": 0.6714,
+      "step": 92
+    },
+    {
+      "epoch": 11.62,
+      "learning_rate": 9.3e-06,
+      "loss": 0.6846,
+      "step": 93
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 9.4e-06,
+      "loss": 0.6772,
+      "step": 94
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6588,
+      "step": 95
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.6864,
+      "step": 96
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.56,
+      "eval_loss": 0.6882457733154297,
+      "eval_macro_f1": 0.43524579643178024,
+      "eval_runtime": 0.6737,
+      "eval_samples_per_second": 296.852,
+      "eval_steps_per_second": 2.969,
+      "step": 96
+    },
+    {
+      "epoch": 12.12,
+      "learning_rate": 9.7e-06,
+      "loss": 0.6651,
+      "step": 97
+    },
+    {
+      "epoch": 12.25,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.6887,
+      "step": 98
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 9.900000000000002e-06,
+      "loss": 0.6746,
+      "step": 99
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 1e-05,
+      "loss": 0.6694,
+      "step": 100
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 1.0100000000000002e-05,
+      "loss": 0.6768,
+      "step": 101
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 1.02e-05,
+      "loss": 0.6619,
+      "step": 102
+    },
+    {
+      "epoch": 12.88,
+      "learning_rate": 1.03e-05,
+      "loss": 0.7057,
+      "step": 103
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 1.04e-05,
+      "loss": 0.6648,
+      "step": 104
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.6870580911636353,
+      "eval_macro_f1": 0.43825665859564167,
+      "eval_runtime": 0.7161,
+      "eval_samples_per_second": 279.296,
+      "eval_steps_per_second": 2.793,
+      "step": 104
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 1.05e-05,
+      "loss": 0.6833,
+      "step": 105
+    },
+    {
+      "epoch": 13.25,
+      "learning_rate": 1.06e-05,
+      "loss": 0.6797,
+      "step": 106
+    },
+    {
+      "epoch": 13.38,
+      "learning_rate": 1.0700000000000001e-05,
+      "loss": 0.66,
+      "step": 107
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 1.08e-05,
+      "loss": 0.6844,
+      "step": 108
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 1.09e-05,
+      "loss": 0.6803,
+      "step": 109
+    },
+    {
+      "epoch": 13.75,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6712,
+      "step": 110
+    },
+    {
+      "epoch": 13.88,
+      "learning_rate": 1.11e-05,
+      "loss": 0.6683,
+      "step": 111
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.6821,
+      "step": 112
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6860873699188232,
+      "eval_macro_f1": 0.4388221570667423,
+      "eval_runtime": 0.6892,
+      "eval_samples_per_second": 290.191,
+      "eval_steps_per_second": 2.902,
+      "step": 112
+    },
+    {
+      "epoch": 14.12,
+      "learning_rate": 1.13e-05,
+      "loss": 0.6755,
+      "step": 113
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 1.1400000000000001e-05,
+      "loss": 0.6666,
+      "step": 114
+    },
+    {
+      "epoch": 14.38,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.6747,
+      "step": 115
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 1.16e-05,
+      "loss": 0.6628,
+      "step": 116
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 1.1700000000000001e-05,
+      "loss": 0.6699,
+      "step": 117
+    },
+    {
+      "epoch": 14.75,
+      "learning_rate": 1.18e-05,
+      "loss": 0.6717,
+      "step": 118
+    },
+    {
+      "epoch": 14.88,
+      "learning_rate": 1.19e-05,
+      "loss": 0.6764,
+      "step": 119
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6721,
+      "step": 120
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6848286390304565,
+      "eval_macro_f1": 0.4624143034037027,
+      "eval_runtime": 0.6968,
+      "eval_samples_per_second": 287.018,
+      "eval_steps_per_second": 2.87,
+      "step": 120
+    },
+    {
+      "epoch": 15.12,
+      "learning_rate": 1.2100000000000001e-05,
+      "loss": 0.6756,
+      "step": 121
+    },
+    {
+      "epoch": 15.25,
+      "learning_rate": 1.22e-05,
+      "loss": 0.6814,
+      "step": 122
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 1.23e-05,
+      "loss": 0.6693,
+      "step": 123
+    },
+    {
+      "epoch": 15.5,
+      "learning_rate": 1.24e-05,
+      "loss": 0.6723,
+      "step": 124
+    },
+    {
+      "epoch": 15.62,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6506,
+      "step": 125
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 0.6818,
+      "step": 126
+    },
+    {
+      "epoch": 15.88,
+      "learning_rate": 1.27e-05,
+      "loss": 0.6681,
+      "step": 127
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.676,
+      "step": 128
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.54,
+      "eval_loss": 0.6835575699806213,
+      "eval_macro_f1": 0.4875222816399287,
+      "eval_runtime": 0.6965,
+      "eval_samples_per_second": 287.142,
+      "eval_steps_per_second": 2.871,
+      "step": 128
+    },
+    {
+      "epoch": 16.12,
+      "learning_rate": 1.29e-05,
+      "loss": 0.662,
+      "step": 129
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.6677,
+      "step": 130
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 1.3100000000000002e-05,
+      "loss": 0.6641,
+      "step": 131
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 1.32e-05,
+      "loss": 0.6832,
+      "step": 132
+    },
+    {
+      "epoch": 16.62,
+      "learning_rate": 1.3300000000000001e-05,
+      "loss": 0.6764,
+      "step": 133
+    },
+    {
+      "epoch": 16.75,
+      "learning_rate": 1.3400000000000002e-05,
+      "loss": 0.6583,
+      "step": 134
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.659,
+      "step": 135
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.6883,
+      "step": 136
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.555,
+      "eval_loss": 0.6816694736480713,
+      "eval_macro_f1": 0.4676874308442238,
+      "eval_runtime": 0.6967,
+      "eval_samples_per_second": 287.071,
+      "eval_steps_per_second": 2.871,
+      "step": 136
+    },
+    {
+      "epoch": 17.12,
+      "learning_rate": 1.3700000000000001e-05,
+      "loss": 0.6548,
+      "step": 137
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.6767,
+      "step": 138
+    },
+    {
+      "epoch": 17.38,
+      "learning_rate": 1.3900000000000002e-05,
+      "loss": 0.6723,
+      "step": 139
+    },
+    {
+      "epoch": 17.5,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.6818,
+      "step": 140
+    },
+    {
+      "epoch": 17.62,
+      "learning_rate": 1.4099999999999999e-05,
+      "loss": 0.6456,
+      "step": 141
+    },
+    {
+      "epoch": 17.75,
+      "learning_rate": 1.42e-05,
+      "loss": 0.677,
+      "step": 142
+    },
+    {
+      "epoch": 17.88,
+      "learning_rate": 1.43e-05,
+      "loss": 0.6573,
+      "step": 143
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 1.44e-05,
+      "loss": 0.6332,
+      "step": 144
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6794130802154541,
+      "eval_macro_f1": 0.5174503422735944,
+      "eval_runtime": 0.692,
+      "eval_samples_per_second": 289.012,
+      "eval_steps_per_second": 2.89,
+      "step": 144
+    },
+    {
+      "epoch": 18.12,
+      "learning_rate": 1.45e-05,
+      "loss": 0.6403,
+      "step": 145
+    },
+    {
+      "epoch": 18.25,
+      "learning_rate": 1.4599999999999999e-05,
+      "loss": 0.6612,
+      "step": 146
+    },
+    {
+      "epoch": 18.38,
+      "learning_rate": 1.47e-05,
+      "loss": 0.6482,
+      "step": 147
+    },
+    {
+      "epoch": 18.5,
+      "learning_rate": 1.48e-05,
+      "loss": 0.6469,
+      "step": 148
+    },
+    {
+      "epoch": 18.62,
+      "learning_rate": 1.49e-05,
+      "loss": 0.6756,
+      "step": 149
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 1.5e-05,
+      "loss": 0.6543,
+      "step": 150
+    },
+    {
+      "epoch": 18.88,
+      "learning_rate": 1.51e-05,
+      "loss": 0.6734,
+      "step": 151
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 1.52e-05,
+      "loss": 0.6401,
+      "step": 152
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6782782077789307,
+      "eval_macro_f1": 0.5146154675870995,
+      "eval_runtime": 0.6724,
+      "eval_samples_per_second": 297.433,
+      "eval_steps_per_second": 2.974,
+      "step": 152
+    },
+    {
+      "epoch": 19.12,
+      "learning_rate": 1.53e-05,
+      "loss": 0.6368,
+      "step": 153
+    },
+    {
+      "epoch": 19.25,
+      "learning_rate": 1.54e-05,
+      "loss": 0.618,
+      "step": 154
+    },
+    {
+      "epoch": 19.38,
+      "learning_rate": 1.55e-05,
+      "loss": 0.6665,
+      "step": 155
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 1.56e-05,
+      "loss": 0.6675,
+      "step": 156
+    },
+    {
+      "epoch": 19.62,
+      "learning_rate": 1.5700000000000002e-05,
+      "loss": 0.6414,
+      "step": 157
+    },
+    {
+      "epoch": 19.75,
+      "learning_rate": 1.58e-05,
+      "loss": 0.6627,
+      "step": 158
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 1.59e-05,
+      "loss": 0.6375,
+      "step": 159
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.6576,
+      "step": 160
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.56,
+      "eval_loss": 0.6768765449523926,
+      "eval_macro_f1": 0.5331069609507639,
+      "eval_runtime": 0.6907,
+      "eval_samples_per_second": 289.541,
+      "eval_steps_per_second": 2.895,
+      "step": 160
+    },
+    {
+      "epoch": 20.12,
+      "learning_rate": 1.6100000000000002e-05,
+      "loss": 0.6339,
+      "step": 161
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 1.62e-05,
+      "loss": 0.6623,
+      "step": 162
+    },
+    {
+      "epoch": 20.38,
+      "learning_rate": 1.63e-05,
+      "loss": 0.6738,
+      "step": 163
+    },
+    {
+      "epoch": 20.5,
+      "learning_rate": 1.6400000000000002e-05,
+      "loss": 0.6148,
+      "step": 164
+    },
+    {
+      "epoch": 20.62,
+      "learning_rate": 1.65e-05,
+      "loss": 0.6195,
+      "step": 165
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 1.66e-05,
+      "loss": 0.675,
+      "step": 166
+    },
+    {
+      "epoch": 20.88,
+      "learning_rate": 1.6700000000000003e-05,
+      "loss": 0.6345,
+      "step": 167
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.6266,
+      "step": 168
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.6750273108482361,
+      "eval_macro_f1": 0.5372217346206016,
+      "eval_runtime": 0.6888,
+      "eval_samples_per_second": 290.355,
+      "eval_steps_per_second": 2.904,
+      "step": 168
+    },
+    {
+      "epoch": 21.12,
+      "learning_rate": 1.69e-05,
+      "loss": 0.622,
+      "step": 169
+    },
+    {
+      "epoch": 21.25,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.6214,
+      "step": 170
+    },
+    {
+      "epoch": 21.38,
+      "learning_rate": 1.7100000000000002e-05,
+      "loss": 0.6917,
+      "step": 171
+    },
+    {
+      "epoch": 21.5,
+      "learning_rate": 1.7199999999999998e-05,
+      "loss": 0.6134,
+      "step": 172
+    },
+    {
+      "epoch": 21.62,
+      "learning_rate": 1.73e-05,
+      "loss": 0.6315,
+      "step": 173
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 1.74e-05,
+      "loss": 0.6232,
+      "step": 174
+    },
+    {
+      "epoch": 21.88,
+      "learning_rate": 1.75e-05,
+      "loss": 0.6393,
+      "step": 175
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 1.76e-05,
+      "loss": 0.6437,
+      "step": 176
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.677147626876831,
+      "eval_macro_f1": 0.5523370638578011,
+      "eval_runtime": 0.6959,
+      "eval_samples_per_second": 287.392,
+      "eval_steps_per_second": 2.874,
+      "step": 176
+    },
+    {
+      "epoch": 22.12,
+      "learning_rate": 1.77e-05,
+      "loss": 0.5981,
+      "step": 177
+    },
+    {
+      "epoch": 22.25,
+      "learning_rate": 1.78e-05,
+      "loss": 0.6213,
+      "step": 178
+    },
+    {
+      "epoch": 22.38,
+      "learning_rate": 1.79e-05,
+      "loss": 0.6262,
+      "step": 179
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 1.8e-05,
+      "loss": 0.6094,
+      "step": 180
+    },
+    {
+      "epoch": 22.62,
+      "learning_rate": 1.81e-05,
+      "loss": 0.6472,
+      "step": 181
+    },
+    {
+      "epoch": 22.75,
+      "learning_rate": 1.8200000000000002e-05,
+      "loss": 0.6196,
+      "step": 182
+    },
+    {
+      "epoch": 22.88,
+      "learning_rate": 1.83e-05,
+      "loss": 0.6156,
+      "step": 183
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 1.84e-05,
+      "loss": 0.6671,
+      "step": 184
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.6740648150444031,
+      "eval_macro_f1": 0.5294117647058824,
+      "eval_runtime": 0.7084,
+      "eval_samples_per_second": 282.312,
+      "eval_steps_per_second": 2.823,
+      "step": 184
+    },
+    {
+      "epoch": 23.12,
+      "learning_rate": 1.85e-05,
+      "loss": 0.6085,
+      "step": 185
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 1.86e-05,
+      "loss": 0.6269,
+      "step": 186
+    },
+    {
+      "epoch": 23.38,
+      "learning_rate": 1.87e-05,
+      "loss": 0.6125,
+      "step": 187
+    },
+    {
+      "epoch": 23.5,
+      "learning_rate": 1.88e-05,
+      "loss": 0.6173,
+      "step": 188
+    },
+    {
+      "epoch": 23.62,
+      "learning_rate": 1.8900000000000002e-05,
+      "loss": 0.6425,
+      "step": 189
+    },
+    {
+      "epoch": 23.75,
+      "learning_rate": 1.9e-05,
+      "loss": 0.609,
+      "step": 190
+    },
+    {
+      "epoch": 23.88,
+      "learning_rate": 1.91e-05,
+      "loss": 0.6031,
+      "step": 191
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.6229,
+      "step": 192
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.585,
+      "eval_loss": 0.6694185137748718,
+      "eval_macro_f1": 0.5718891038039975,
+      "eval_runtime": 0.695,
+      "eval_samples_per_second": 287.787,
+      "eval_steps_per_second": 2.878,
+      "step": 192
+    },
+    {
+      "epoch": 24.12,
+      "learning_rate": 1.93e-05,
+      "loss": 0.612,
+      "step": 193
+    },
+    {
+      "epoch": 24.25,
+      "learning_rate": 1.94e-05,
+      "loss": 0.5779,
+      "step": 194
+    },
+    {
+      "epoch": 24.38,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.6329,
+      "step": 195
+    },
+    {
+      "epoch": 24.5,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 0.6185,
+      "step": 196
+    },
+    {
+      "epoch": 24.62,
+      "learning_rate": 1.97e-05,
+      "loss": 0.606,
+      "step": 197
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.6113,
+      "step": 198
+    },
+    {
+      "epoch": 24.88,
+      "learning_rate": 1.9900000000000003e-05,
+      "loss": 0.6261,
+      "step": 199
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2e-05,
+      "loss": 0.6475,
+      "step": 200
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.585,
+      "eval_loss": 0.6710052490234375,
+      "eval_macro_f1": 0.5359888190076869,
+      "eval_runtime": 0.7024,
+      "eval_samples_per_second": 284.724,
+      "eval_steps_per_second": 2.847,
+      "step": 200
+    },
+    {
+      "epoch": 25.12,
+      "learning_rate": 2.01e-05,
+      "loss": 0.605,
+      "step": 201
+    },
+    {
+      "epoch": 25.25,
+      "learning_rate": 2.0200000000000003e-05,
+      "loss": 0.6224,
+      "step": 202
+    },
+    {
+      "epoch": 25.38,
+      "learning_rate": 2.0300000000000002e-05,
+      "loss": 0.6304,
+      "step": 203
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 2.04e-05,
+      "loss": 0.5808,
+      "step": 204
+    },
+    {
+      "epoch": 25.62,
+      "learning_rate": 2.05e-05,
+      "loss": 0.5741,
+      "step": 205
+    },
+    {
+      "epoch": 25.75,
+      "learning_rate": 2.06e-05,
+      "loss": 0.61,
+      "step": 206
+    },
+    {
+      "epoch": 25.88,
+      "learning_rate": 2.07e-05,
+      "loss": 0.6129,
+      "step": 207
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 2.08e-05,
+      "loss": 0.5683,
+      "step": 208
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.625,
+      "eval_loss": 0.6624136567115784,
+      "eval_macro_f1": 0.6180387563341907,
+      "eval_runtime": 0.688,
+      "eval_samples_per_second": 290.698,
+      "eval_steps_per_second": 2.907,
+      "step": 208
+    },
+    {
+      "epoch": 26.12,
+      "learning_rate": 2.09e-05,
+      "loss": 0.5728,
+      "step": 209
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 2.1e-05,
+      "loss": 0.6,
+      "step": 210
+    },
+    {
+      "epoch": 26.38,
+      "learning_rate": 2.11e-05,
+      "loss": 0.5585,
+      "step": 211
+    },
+    {
+      "epoch": 26.5,
+      "learning_rate": 2.12e-05,
+      "loss": 0.583,
+      "step": 212
+    },
+    {
+      "epoch": 26.62,
+      "learning_rate": 2.13e-05,
+      "loss": 0.5753,
+      "step": 213
+    },
+    {
+      "epoch": 26.75,
+      "learning_rate": 2.1400000000000002e-05,
+      "loss": 0.6253,
+      "step": 214
+    },
+    {
+      "epoch": 26.88,
+      "learning_rate": 2.15e-05,
+      "loss": 0.5611,
+      "step": 215
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 2.16e-05,
+      "loss": 0.6105,
+      "step": 216
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.585,
+      "eval_loss": 0.6604620218276978,
+      "eval_macro_f1": 0.5536554542765723,
+      "eval_runtime": 0.6984,
+      "eval_samples_per_second": 286.362,
+      "eval_steps_per_second": 2.864,
+      "step": 216
+    },
+    {
+      "epoch": 27.12,
+      "learning_rate": 2.1700000000000002e-05,
+      "loss": 0.5816,
+      "step": 217
+    },
+    {
+      "epoch": 27.25,
+      "learning_rate": 2.18e-05,
+      "loss": 0.5959,
+      "step": 218
+    },
+    {
+      "epoch": 27.38,
+      "learning_rate": 2.19e-05,
+      "loss": 0.6061,
+      "step": 219
+    },
+    {
+      "epoch": 27.5,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.5869,
+      "step": 220
+    },
+    {
+      "epoch": 27.62,
+      "learning_rate": 2.2100000000000002e-05,
+      "loss": 0.6022,
+      "step": 221
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 2.22e-05,
+      "loss": 0.5463,
+      "step": 222
+    },
+    {
+      "epoch": 27.88,
+      "learning_rate": 2.23e-05,
+      "loss": 0.5492,
+      "step": 223
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 2.2400000000000002e-05,
+      "loss": 0.5077,
+      "step": 224
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.615,
+      "eval_loss": 0.6587879657745361,
+      "eval_macro_f1": 0.6042250263421655,
+      "eval_runtime": 0.6976,
+      "eval_samples_per_second": 286.693,
+      "eval_steps_per_second": 2.867,
+      "step": 224
+    },
+    {
+      "epoch": 28.12,
+      "learning_rate": 2.25e-05,
+      "loss": 0.5857,
+      "step": 225
+    },
+    {
+      "epoch": 28.25,
+      "learning_rate": 2.26e-05,
+      "loss": 0.5795,
+      "step": 226
+    },
+    {
+      "epoch": 28.38,
+      "learning_rate": 2.2700000000000003e-05,
+      "loss": 0.563,
+      "step": 227
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 2.2800000000000002e-05,
+      "loss": 0.5889,
+      "step": 228
+    },
+    {
+      "epoch": 28.62,
+      "learning_rate": 2.29e-05,
+      "loss": 0.5617,
+      "step": 229
+    },
+    {
+      "epoch": 28.75,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.5756,
+      "step": 230
+    },
+    {
+      "epoch": 28.88,
+      "learning_rate": 2.3100000000000002e-05,
+      "loss": 0.5581,
+      "step": 231
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 2.32e-05,
+      "loss": 0.5557,
+      "step": 232
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.595,
+      "eval_loss": 0.660551130771637,
+      "eval_macro_f1": 0.5644107445349681,
+      "eval_runtime": 0.6821,
+      "eval_samples_per_second": 293.231,
+      "eval_steps_per_second": 2.932,
+      "step": 232
+    },
+    {
+      "epoch": 29.12,
+      "learning_rate": 2.3300000000000004e-05,
+      "loss": 0.6115,
+      "step": 233
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 2.3400000000000003e-05,
+      "loss": 0.5437,
+      "step": 234
+    },
+    {
+      "epoch": 29.38,
+      "learning_rate": 2.35e-05,
+      "loss": 0.5806,
+      "step": 235
+    },
+    {
+      "epoch": 29.5,
+      "learning_rate": 2.36e-05,
+      "loss": 0.5529,
+      "step": 236
+    },
+    {
+      "epoch": 29.62,
+      "learning_rate": 2.37e-05,
+      "loss": 0.5296,
+      "step": 237
+    },
+    {
+      "epoch": 29.75,
+      "learning_rate": 2.38e-05,
+      "loss": 0.5341,
+      "step": 238
+    },
+    {
+      "epoch": 29.88,
+      "learning_rate": 2.39e-05,
+      "loss": 0.5454,
+      "step": 239
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2.4e-05,
+      "loss": 0.5498,
+      "step": 240
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.63,
+      "eval_loss": 0.6594185829162598,
+      "eval_macro_f1": 0.6269785260610949,
+      "eval_runtime": 0.6994,
+      "eval_samples_per_second": 285.941,
+      "eval_steps_per_second": 2.859,
+      "step": 240
+    }
+  ],
+  "max_steps": 400,
+  "num_train_epochs": 50,
+  "total_flos": 952401199104000.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/2000/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/.DS_Store and b/scaling_performance/2000/.DS_Store differ

scaling_performance/2000/L1/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/L1/.DS_Store and b/scaling_performance/2000/L1/.DS_Store differ

scaling_performance/2000/L1/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5775,
+    "test_loss": 0.6810634136199951,
+    "test_macro_f1": 0.36608557844690964,
+    "test_runtime": 0.9129,
+    "test_samples_per_second": 438.178,
+    "test_steps_per_second": 4.382
+}

scaling_performance/2000/L1/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 1,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/2000/L1/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5775,
+    "test_loss": 0.6810634136199951,
+    "test_macro_f1": 0.36608557844690964,
+    "test_runtime": 0.9129,
+    "test_samples_per_second": 438.178,
+    "test_steps_per_second": 4.382
+}

scaling_performance/2000/L1/trainer_state.json ADDED Viewed

	@@ -0,0 +1,886 @@

+{
+  "best_metric": 0.6810634136199951,
+  "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers1_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold4/checkpoint-208",
+  "epoch": 15.0,
+  "global_step": 240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.6939,
+      "step": 2
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.6887,
+      "step": 4
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6921,
+      "step": 6
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.6899,
+      "step": 8
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.6913,
+      "step": 10
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.691,
+      "step": 12
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.6912,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.689,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.505,
+      "eval_loss": 0.6925567388534546,
+      "eval_macro_f1": 0.49510403916768664,
+      "eval_runtime": 0.8698,
+      "eval_samples_per_second": 459.879,
+      "eval_steps_per_second": 4.599,
+      "step": 16
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6906,
+      "step": 18
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.6896,
+      "step": 20
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.8333333333333335e-06,
+      "loss": 0.6892,
+      "step": 22
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6984,
+      "step": 24
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.6923,
+      "step": 26
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.6879,
+      "step": 28
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6918,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6832,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5375,
+      "eval_loss": 0.6915823221206665,
+      "eval_macro_f1": 0.513410793074652,
+      "eval_runtime": 1.0103,
+      "eval_samples_per_second": 395.928,
+      "eval_steps_per_second": 3.959,
+      "step": 32
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.6928,
+      "step": 34
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 3e-06,
+      "loss": 0.6909,
+      "step": 36
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 3.166666666666667e-06,
+      "loss": 0.6901,
+      "step": 38
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.6891,
+      "step": 40
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6851,
+      "step": 42
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 3.666666666666667e-06,
+      "loss": 0.6853,
+      "step": 44
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.6949,
+      "step": 46
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6825,
+      "step": 48
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5475,
+      "eval_loss": 0.689637303352356,
+      "eval_macro_f1": 0.49125506812544356,
+      "eval_runtime": 0.8008,
+      "eval_samples_per_second": 499.483,
+      "eval_steps_per_second": 4.995,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.6895,
+      "step": 50
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6837,
+      "step": 52
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.5e-06,
+      "loss": 0.689,
+      "step": 54
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.6954,
+      "step": 56
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.6826,
+      "step": 58
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5e-06,
+      "loss": 0.6898,
+      "step": 60
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 0.6897,
+      "step": 62
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.6791,
+      "step": 64
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.55,
+      "eval_loss": 0.6878230571746826,
+      "eval_macro_f1": 0.4642857142857143,
+      "eval_runtime": 0.7978,
+      "eval_samples_per_second": 501.403,
+      "eval_steps_per_second": 5.014,
+      "step": 64
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6911,
+      "step": 66
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.685,
+      "step": 68
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.6865,
+      "step": 70
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6938,
+      "step": 72
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 0.6845,
+      "step": 74
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 6.333333333333334e-06,
+      "loss": 0.6838,
+      "step": 76
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6883,
+      "step": 78
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.6804,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6861330270767212,
+      "eval_macro_f1": 0.4377431270635154,
+      "eval_runtime": 0.9894,
+      "eval_samples_per_second": 404.267,
+      "eval_steps_per_second": 4.043,
+      "step": 80
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 6.833333333333333e-06,
+      "loss": 0.6921,
+      "step": 82
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6867,
+      "step": 84
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.6789,
+      "step": 86
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 7.333333333333334e-06,
+      "loss": 0.6912,
+      "step": 88
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6885,
+      "step": 90
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.6824,
+      "step": 92
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.6915,
+      "step": 94
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6669,
+      "step": 96
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5625,
+      "eval_loss": 0.685230016708374,
+      "eval_macro_f1": 0.3893449415952055,
+      "eval_runtime": 1.0307,
+      "eval_samples_per_second": 388.076,
+      "eval_steps_per_second": 3.881,
+      "step": 96
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.6902,
+      "step": 98
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.6888,
+      "step": 100
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6718,
+      "step": 102
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.6953,
+      "step": 104
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.679,
+      "step": 106
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 9e-06,
+      "loss": 0.6763,
+      "step": 108
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.6932,
+      "step": 110
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.672,
+      "step": 112
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6839529275894165,
+      "eval_macro_f1": 0.3640699523052464,
+      "eval_runtime": 0.8433,
+      "eval_samples_per_second": 474.35,
+      "eval_steps_per_second": 4.744,
+      "step": 112
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6954,
+      "step": 114
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.6823,
+      "step": 116
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.6712,
+      "step": 118
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 1e-05,
+      "loss": 0.696,
+      "step": 120
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 0.6741,
+      "step": 122
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.6594,
+      "step": 124
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.05e-05,
+      "loss": 0.7076,
+      "step": 126
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.6754,
+      "step": 128
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6830737590789795,
+      "eval_macro_f1": 0.36507936507936506,
+      "eval_runtime": 0.8854,
+      "eval_samples_per_second": 451.794,
+      "eval_steps_per_second": 4.518,
+      "step": 128
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.6895,
+      "step": 130
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6817,
+      "step": 132
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 0.6737,
+      "step": 134
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.6945,
+      "step": 136
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.6698,
+      "step": 138
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.6699,
+      "step": 140
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 1.1833333333333334e-05,
+      "loss": 0.6993,
+      "step": 142
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6833,
+      "step": 144
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6830700039863586,
+      "eval_macro_f1": 0.36507936507936506,
+      "eval_runtime": 0.9198,
+      "eval_samples_per_second": 434.883,
+      "eval_steps_per_second": 4.349,
+      "step": 144
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 1.2166666666666668e-05,
+      "loss": 0.6917,
+      "step": 146
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.2333333333333334e-05,
+      "loss": 0.6684,
+      "step": 148
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6738,
+      "step": 150
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 0.7013,
+      "step": 152
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 0.6761,
+      "step": 154
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.6761,
+      "step": 156
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.3166666666666665e-05,
+      "loss": 0.6897,
+      "step": 158
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.6625,
+      "step": 160
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6834887862205505,
+      "eval_macro_f1": 0.36836693474349086,
+      "eval_runtime": 0.842,
+      "eval_samples_per_second": 475.084,
+      "eval_steps_per_second": 4.751,
+      "step": 160
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.689,
+      "step": 162
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 1.3666666666666666e-05,
+      "loss": 0.6762,
+      "step": 164
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 1.3833333333333334e-05,
+      "loss": 0.6749,
+      "step": 166
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.6952,
+      "step": 168
+    },
+    {
+      "epoch": 10.62,
+      "learning_rate": 1.4166666666666668e-05,
+      "loss": 0.671,
+      "step": 170
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 0.6755,
+      "step": 172
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 1.45e-05,
+      "loss": 0.6946,
+      "step": 174
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 1.4666666666666668e-05,
+      "loss": 0.6535,
+      "step": 176
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6825265288352966,
+      "eval_macro_f1": 0.36507936507936506,
+      "eval_runtime": 0.7992,
+      "eval_samples_per_second": 500.47,
+      "eval_steps_per_second": 5.005,
+      "step": 176
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 1.4833333333333336e-05,
+      "loss": 0.6953,
+      "step": 178
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 1.5e-05,
+      "loss": 0.6763,
+      "step": 180
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 1.5166666666666668e-05,
+      "loss": 0.6666,
+      "step": 182
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 0.6878,
+      "step": 184
+    },
+    {
+      "epoch": 11.62,
+      "learning_rate": 1.55e-05,
+      "loss": 0.6762,
+      "step": 186
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.6701,
+      "step": 188
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 1.5833333333333333e-05,
+      "loss": 0.683,
+      "step": 190
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.6597,
+      "step": 192
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6820663213729858,
+      "eval_macro_f1": 0.36608557844690964,
+      "eval_runtime": 0.8333,
+      "eval_samples_per_second": 480.024,
+      "eval_steps_per_second": 4.8,
+      "step": 192
+    },
+    {
+      "epoch": 12.12,
+      "learning_rate": 1.6166666666666665e-05,
+      "loss": 0.6837,
+      "step": 194
+    },
+    {
+      "epoch": 12.25,
+      "learning_rate": 1.6333333333333335e-05,
+      "loss": 0.6707,
+      "step": 196
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 1.65e-05,
+      "loss": 0.6663,
+      "step": 198
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.7006,
+      "step": 200
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 1.6833333333333334e-05,
+      "loss": 0.6666,
+      "step": 202
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.6649,
+      "step": 204
+    },
+    {
+      "epoch": 12.88,
+      "learning_rate": 1.7166666666666666e-05,
+      "loss": 0.6918,
+      "step": 206
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.6747,
+      "step": 208
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6810634136199951,
+      "eval_macro_f1": 0.36608557844690964,
+      "eval_runtime": 0.8039,
+      "eval_samples_per_second": 497.582,
+      "eval_steps_per_second": 4.976,
+      "step": 208
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 1.75e-05,
+      "loss": 0.6878,
+      "step": 210
+    },
+    {
+      "epoch": 13.25,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 0.6655,
+      "step": 212
+    },
+    {
+      "epoch": 13.38,
+      "learning_rate": 1.7833333333333334e-05,
+      "loss": 0.6616,
+      "step": 214
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 1.8e-05,
+      "loss": 0.6951,
+      "step": 216
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 1.8166666666666667e-05,
+      "loss": 0.6714,
+      "step": 218
+    },
+    {
+      "epoch": 13.75,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.6741,
+      "step": 220
+    },
+    {
+      "epoch": 13.88,
+      "learning_rate": 1.85e-05,
+      "loss": 0.6853,
+      "step": 222
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.6661,
+      "step": 224
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.681349515914917,
+      "eval_macro_f1": 0.38696484116404134,
+      "eval_runtime": 0.8726,
+      "eval_samples_per_second": 458.379,
+      "eval_steps_per_second": 4.584,
+      "step": 224
+    },
+    {
+      "epoch": 14.12,
+      "learning_rate": 1.8833333333333335e-05,
+      "loss": 0.6902,
+      "step": 226
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 1.9e-05,
+      "loss": 0.674,
+      "step": 228
+    },
+    {
+      "epoch": 14.38,
+      "learning_rate": 1.9166666666666667e-05,
+      "loss": 0.6707,
+      "step": 230
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.6799,
+      "step": 232
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.6607,
+      "step": 234
+    },
+    {
+      "epoch": 14.75,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 0.6748,
+      "step": 236
+    },
+    {
+      "epoch": 14.88,
+      "learning_rate": 1.9833333333333335e-05,
+      "loss": 0.6771,
+      "step": 238
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 2e-05,
+      "loss": 0.6543,
+      "step": 240
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6816413998603821,
+      "eval_macro_f1": 0.4076845140674928,
+      "eval_runtime": 0.8528,
+      "eval_samples_per_second": 469.044,
+      "eval_steps_per_second": 4.69,
+      "step": 240
+    }
+  ],
+  "max_steps": 320,
+  "num_train_epochs": 20,
+  "total_flos": 175154724864000.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/2000/L2/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/L2/.DS_Store and b/scaling_performance/2000/L2/.DS_Store differ

scaling_performance/2000/L2/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5775,
+    "test_loss": 0.6842468976974487,
+    "test_macro_f1": 0.38194285714285714,
+    "test_runtime": 1.0481,
+    "test_samples_per_second": 381.652,
+    "test_steps_per_second": 3.817
+}

scaling_performance/2000/L2/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/2000/L2/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5775,
+    "test_loss": 0.6842468976974487,
+    "test_macro_f1": 0.38194285714285714,
+    "test_runtime": 1.0481,
+    "test_samples_per_second": 381.652,
+    "test_steps_per_second": 3.817
+}

scaling_performance/2000/L2/trainer_state.json ADDED Viewed

	@@ -0,0 +1,596 @@

+{
+  "best_metric": 0.6842468976974487,
+  "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers2_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold4/checkpoint-128",
+  "epoch": 10.0,
+  "global_step": 160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.6937,
+      "step": 2
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.7018,
+      "step": 4
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.7031,
+      "step": 6
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.6949,
+      "step": 8
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.694,
+      "step": 10
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.7025,
+      "step": 12
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.6975,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.7029,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.4575,
+      "eval_loss": 0.6974406242370605,
+      "eval_macro_f1": 0.4533144386710754,
+      "eval_runtime": 0.9243,
+      "eval_samples_per_second": 432.744,
+      "eval_steps_per_second": 4.327,
+      "step": 16
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6934,
+      "step": 18
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.7034,
+      "step": 20
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.8333333333333335e-06,
+      "loss": 0.6945,
+      "step": 22
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6894,
+      "step": 24
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.7029,
+      "step": 26
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.7002,
+      "step": 28
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6943,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6983,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.485,
+      "eval_loss": 0.695452094078064,
+      "eval_macro_f1": 0.4841746794871795,
+      "eval_runtime": 0.9144,
+      "eval_samples_per_second": 437.423,
+      "eval_steps_per_second": 4.374,
+      "step": 32
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.6959,
+      "step": 34
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 3e-06,
+      "loss": 0.6983,
+      "step": 36
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 3.166666666666667e-06,
+      "loss": 0.6905,
+      "step": 38
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.6929,
+      "step": 40
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.694,
+      "step": 42
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 3.666666666666667e-06,
+      "loss": 0.6945,
+      "step": 44
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.6967,
+      "step": 46
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6968,
+      "step": 48
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.495,
+      "eval_loss": 0.6920776963233948,
+      "eval_macro_f1": 0.47608673098869175,
+      "eval_runtime": 0.9068,
+      "eval_samples_per_second": 441.113,
+      "eval_steps_per_second": 4.411,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.6908,
+      "step": 50
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6944,
+      "step": 52
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6914,
+      "step": 54
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.6911,
+      "step": 56
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.6893,
+      "step": 58
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5e-06,
+      "loss": 0.6949,
+      "step": 60
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 0.6949,
+      "step": 62
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.6868,
+      "step": 64
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5325,
+      "eval_loss": 0.6893474459648132,
+      "eval_macro_f1": 0.46399524188289587,
+      "eval_runtime": 0.9384,
+      "eval_samples_per_second": 426.254,
+      "eval_steps_per_second": 4.263,
+      "step": 64
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6984,
+      "step": 66
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.6822,
+      "step": 68
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.6864,
+      "step": 70
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 6e-06,
+      "loss": 0.7002,
+      "step": 72
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 0.6897,
+      "step": 74
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 6.333333333333334e-06,
+      "loss": 0.6903,
+      "step": 76
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6941,
+      "step": 78
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.6779,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6872670650482178,
+      "eval_macro_f1": 0.41748903508771934,
+      "eval_runtime": 0.928,
+      "eval_samples_per_second": 431.013,
+      "eval_steps_per_second": 4.31,
+      "step": 80
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 6.833333333333333e-06,
+      "loss": 0.7031,
+      "step": 82
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6892,
+      "step": 84
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.6823,
+      "step": 86
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 7.333333333333334e-06,
+      "loss": 0.6936,
+      "step": 88
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6907,
+      "step": 90
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.681,
+      "step": 92
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.6965,
+      "step": 94
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6675,
+      "step": 96
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6864795088768005,
+      "eval_macro_f1": 0.4159365874009178,
+      "eval_runtime": 0.9734,
+      "eval_samples_per_second": 410.925,
+      "eval_steps_per_second": 4.109,
+      "step": 96
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.6914,
+      "step": 98
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.6865,
+      "step": 100
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6801,
+      "step": 102
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.699,
+      "step": 104
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.6816,
+      "step": 106
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 9e-06,
+      "loss": 0.6803,
+      "step": 108
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.6934,
+      "step": 110
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.6765,
+      "step": 112
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6850780248641968,
+      "eval_macro_f1": 0.38696484116404134,
+      "eval_runtime": 0.9277,
+      "eval_samples_per_second": 431.159,
+      "eval_steps_per_second": 4.312,
+      "step": 112
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6959,
+      "step": 114
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.6815,
+      "step": 116
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.6763,
+      "step": 118
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 1e-05,
+      "loss": 0.698,
+      "step": 120
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 0.6784,
+      "step": 122
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.6672,
+      "step": 124
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.05e-05,
+      "loss": 0.7066,
+      "step": 126
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.6902,
+      "step": 128
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6842468976974487,
+      "eval_macro_f1": 0.38194285714285714,
+      "eval_runtime": 0.884,
+      "eval_samples_per_second": 452.506,
+      "eval_steps_per_second": 4.525,
+      "step": 128
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.6862,
+      "step": 130
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6784,
+      "step": 132
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 0.6774,
+      "step": 134
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.7004,
+      "step": 136
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.6755,
+      "step": 138
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.68,
+      "step": 140
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 1.1833333333333334e-05,
+      "loss": 0.7023,
+      "step": 142
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6802,
+      "step": 144
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6846153140068054,
+      "eval_macro_f1": 0.38696484116404134,
+      "eval_runtime": 0.9145,
+      "eval_samples_per_second": 437.397,
+      "eval_steps_per_second": 4.374,
+      "step": 144
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 1.2166666666666668e-05,
+      "loss": 0.6962,
+      "step": 146
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.2333333333333334e-05,
+      "loss": 0.6717,
+      "step": 148
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6783,
+      "step": 150
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 0.7028,
+      "step": 152
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 0.683,
+      "step": 154
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.6835,
+      "step": 156
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.3166666666666665e-05,
+      "loss": 0.687,
+      "step": 158
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.6693,
+      "step": 160
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5875,
+      "eval_loss": 0.6855114698410034,
+      "eval_macro_f1": 0.4199077125906394,
+      "eval_runtime": 1.013,
+      "eval_samples_per_second": 394.875,
+      "eval_steps_per_second": 3.949,
+      "step": 160
+    }
+  ],
+  "max_steps": 320,
+  "num_train_epochs": 20,
+  "total_flos": 220402679808000.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/2000/L4/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/L4/.DS_Store and b/scaling_performance/2000/L4/.DS_Store differ

scaling_performance/2000/L4/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.6975,
+    "test_loss": 0.5687375068664551,
+    "test_macro_f1": 0.6942881145029971,
+    "test_runtime": 1.6145,
+    "test_samples_per_second": 247.752,
+    "test_steps_per_second": 2.478
+}

scaling_performance/2000/L4/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/2000/L4/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.6975,
+    "test_loss": 0.5687375068664551,
+    "test_macro_f1": 0.6942881145029971,
+    "test_runtime": 1.6145,
+    "test_samples_per_second": 247.752,
+    "test_steps_per_second": 2.478
+}

scaling_performance/2000/L4/trainer_state.json ADDED Viewed

	@@ -0,0 +1,596 @@

+{
+  "best_metric": 0.6825920343399048,
+  "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers4_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold4/checkpoint-128",
+  "epoch": 10.0,
+  "global_step": 160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.6905,
+      "step": 2
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.7029,
+      "step": 4
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6978,
+      "step": 6
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.6968,
+      "step": 8
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.6954,
+      "step": 10
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.7,
+      "step": 12
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.697,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.6996,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5,
+      "eval_loss": 0.6958171129226685,
+      "eval_macro_f1": 0.493298877657014,
+      "eval_runtime": 1.1509,
+      "eval_samples_per_second": 347.552,
+      "eval_steps_per_second": 3.476,
+      "step": 16
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.5e-06,
+      "loss": 0.69,
+      "step": 18
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.7017,
+      "step": 20
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.8333333333333335e-06,
+      "loss": 0.6939,
+      "step": 22
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6928,
+      "step": 24
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.699,
+      "step": 26
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.6927,
+      "step": 28
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6986,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6999,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.51,
+      "eval_loss": 0.6933969259262085,
+      "eval_macro_f1": 0.5090057366166487,
+      "eval_runtime": 1.199,
+      "eval_samples_per_second": 333.601,
+      "eval_steps_per_second": 3.336,
+      "step": 32
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.6941,
+      "step": 34
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 3e-06,
+      "loss": 0.6918,
+      "step": 36
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 3.166666666666667e-06,
+      "loss": 0.6899,
+      "step": 38
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.6906,
+      "step": 40
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6914,
+      "step": 42
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 3.666666666666667e-06,
+      "loss": 0.6919,
+      "step": 44
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.7009,
+      "step": 46
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6881,
+      "step": 48
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.545,
+      "eval_loss": 0.6895008087158203,
+      "eval_macro_f1": 0.4814814814814815,
+      "eval_runtime": 1.1808,
+      "eval_samples_per_second": 338.766,
+      "eval_steps_per_second": 3.388,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.6938,
+      "step": 50
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6876,
+      "step": 52
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6855,
+      "step": 54
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.6973,
+      "step": 56
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.69,
+      "step": 58
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5e-06,
+      "loss": 0.6902,
+      "step": 60
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 0.6913,
+      "step": 62
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.6799,
+      "step": 64
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5625,
+      "eval_loss": 0.6866650581359863,
+      "eval_macro_f1": 0.41072976909025094,
+      "eval_runtime": 1.1114,
+      "eval_samples_per_second": 359.916,
+      "eval_steps_per_second": 3.599,
+      "step": 64
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6976,
+      "step": 66
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.6823,
+      "step": 68
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.6863,
+      "step": 70
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6955,
+      "step": 72
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 0.6842,
+      "step": 74
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 6.333333333333334e-06,
+      "loss": 0.6873,
+      "step": 76
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6987,
+      "step": 78
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.6779,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5675,
+      "eval_loss": 0.6847481727600098,
+      "eval_macro_f1": 0.3673142857142857,
+      "eval_runtime": 1.2206,
+      "eval_samples_per_second": 327.716,
+      "eval_steps_per_second": 3.277,
+      "step": 80
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 6.833333333333333e-06,
+      "loss": 0.695,
+      "step": 82
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.689,
+      "step": 84
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.6814,
+      "step": 86
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 7.333333333333334e-06,
+      "loss": 0.693,
+      "step": 88
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6876,
+      "step": 90
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.6822,
+      "step": 92
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.6933,
+      "step": 94
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6579,
+      "step": 96
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6842648386955261,
+      "eval_macro_f1": 0.3630573248407643,
+      "eval_runtime": 1.1578,
+      "eval_samples_per_second": 345.493,
+      "eval_steps_per_second": 3.455,
+      "step": 96
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.6891,
+      "step": 98
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.6925,
+      "step": 100
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6739,
+      "step": 102
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.6974,
+      "step": 104
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.6804,
+      "step": 106
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 9e-06,
+      "loss": 0.6762,
+      "step": 108
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.7002,
+      "step": 110
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.669,
+      "step": 112
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.683117687702179,
+      "eval_macro_f1": 0.3640699523052464,
+      "eval_runtime": 1.117,
+      "eval_samples_per_second": 358.09,
+      "eval_steps_per_second": 3.581,
+      "step": 112
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6975,
+      "step": 114
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.6847,
+      "step": 116
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.6715,
+      "step": 118
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 1e-05,
+      "loss": 0.7029,
+      "step": 120
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 0.6696,
+      "step": 122
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.6602,
+      "step": 124
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.05e-05,
+      "loss": 0.7126,
+      "step": 126
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.6814,
+      "step": 128
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5775,
+      "eval_loss": 0.6825920343399048,
+      "eval_macro_f1": 0.36608557844690964,
+      "eval_runtime": 1.1048,
+      "eval_samples_per_second": 362.052,
+      "eval_steps_per_second": 3.621,
+      "step": 128
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.6947,
+      "step": 130
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6809,
+      "step": 132
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 0.6765,
+      "step": 134
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.6964,
+      "step": 136
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.6771,
+      "step": 138
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.667,
+      "step": 140
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 1.1833333333333334e-05,
+      "loss": 0.7035,
+      "step": 142
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6773,
+      "step": 144
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6831978559494019,
+      "eval_macro_f1": 0.3640699523052464,
+      "eval_runtime": 1.1552,
+      "eval_samples_per_second": 346.251,
+      "eval_steps_per_second": 3.463,
+      "step": 144
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 1.2166666666666668e-05,
+      "loss": 0.6942,
+      "step": 146
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.2333333333333334e-05,
+      "loss": 0.6726,
+      "step": 148
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6732,
+      "step": 150
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 0.7068,
+      "step": 152
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 0.6755,
+      "step": 154
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.6788,
+      "step": 156
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.3166666666666665e-05,
+      "loss": 0.691,
+      "step": 158
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.669,
+      "step": 160
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.565,
+      "eval_loss": 0.6841627359390259,
+      "eval_macro_f1": 0.3950771798080934,
+      "eval_runtime": 1.123,
+      "eval_samples_per_second": 356.196,
+      "eval_steps_per_second": 3.562,
+      "step": 160
+    }
+  ],
+  "max_steps": 320,
+  "num_train_epochs": 20,
+  "total_flos": 427668406272000.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/2000/L6/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/L6/.DS_Store and b/scaling_performance/2000/L6/.DS_Store differ

scaling_performance/2000/L6/all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5725,
+    "test_loss": 0.6847579479217529,
+    "test_macro_f1": 0.3746285714285715,
+    "test_runtime": 1.2641,
+    "test_samples_per_second": 316.42,
+    "test_steps_per_second": 3.164
+}

scaling_performance/2000/L6/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.02,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.02,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

scaling_performance/2000/L6/eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "test_accuracy": 0.5725,
+    "test_loss": 0.6847579479217529,
+    "test_macro_f1": 0.3746285714285715,
+    "test_runtime": 1.2641,
+    "test_samples_per_second": 316.42,
+    "test_steps_per_second": 3.164
+}

scaling_performance/2000/L6/trainer_state.json ADDED Viewed

	@@ -0,0 +1,596 @@

+{
+  "best_metric": 0.6847579479217529,
+  "best_model_checkpoint": "./models/240626_geneformer_CellClassifier_PM25_Layers6_L2048_B26_LR5e-05_LSlinear_WU600_E20_Oadamw_F0_fold4/checkpoint-128",
+  "epoch": 10.0,
+  "global_step": 160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.6906,
+      "step": 2
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.702,
+      "step": 4
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.7029,
+      "step": 6
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.6979,
+      "step": 8
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.7027,
+      "step": 10
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.7037,
+      "step": 12
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.6946,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.6957,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.44,
+      "eval_loss": 0.6994468569755554,
+      "eval_macro_f1": 0.4141646615754786,
+      "eval_runtime": 1.3238,
+      "eval_samples_per_second": 302.171,
+      "eval_steps_per_second": 3.022,
+      "step": 16
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6918,
+      "step": 18
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.7014,
+      "step": 20
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.8333333333333335e-06,
+      "loss": 0.6956,
+      "step": 22
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6929,
+      "step": 24
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.698,
+      "step": 26
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.6998,
+      "step": 28
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6942,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6985,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.475,
+      "eval_loss": 0.6957302093505859,
+      "eval_macro_f1": 0.4745270743669302,
+      "eval_runtime": 1.4915,
+      "eval_samples_per_second": 268.182,
+      "eval_steps_per_second": 2.682,
+      "step": 32
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.6932,
+      "step": 34
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 3e-06,
+      "loss": 0.6924,
+      "step": 36
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 3.166666666666667e-06,
+      "loss": 0.694,
+      "step": 38
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.6913,
+      "step": 40
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6875,
+      "step": 42
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 3.666666666666667e-06,
+      "loss": 0.6913,
+      "step": 44
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.6968,
+      "step": 46
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6905,
+      "step": 48
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6904626488685608,
+      "eval_macro_f1": 0.4724573671942093,
+      "eval_runtime": 1.349,
+      "eval_samples_per_second": 296.513,
+      "eval_steps_per_second": 2.965,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.6902,
+      "step": 50
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6873,
+      "step": 52
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6838,
+      "step": 54
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.6996,
+      "step": 56
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.6857,
+      "step": 58
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5e-06,
+      "loss": 0.69,
+      "step": 60
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 0.6969,
+      "step": 62
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.6771,
+      "step": 64
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6874645352363586,
+      "eval_macro_f1": 0.38949829969921185,
+      "eval_runtime": 1.2979,
+      "eval_samples_per_second": 308.193,
+      "eval_steps_per_second": 3.082,
+      "step": 64
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.6962,
+      "step": 66
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.6745,
+      "step": 68
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.6831,
+      "step": 70
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 6e-06,
+      "loss": 0.6989,
+      "step": 72
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 0.684,
+      "step": 74
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 6.333333333333334e-06,
+      "loss": 0.6797,
+      "step": 76
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6998,
+      "step": 78
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.6734,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6859826445579529,
+      "eval_macro_f1": 0.37970998721331994,
+      "eval_runtime": 1.544,
+      "eval_samples_per_second": 259.064,
+      "eval_steps_per_second": 2.591,
+      "step": 80
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 6.833333333333333e-06,
+      "loss": 0.6978,
+      "step": 82
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6867,
+      "step": 84
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.68,
+      "step": 86
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 7.333333333333334e-06,
+      "loss": 0.6922,
+      "step": 88
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6833,
+      "step": 90
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.6832,
+      "step": 92
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.6961,
+      "step": 94
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6562,
+      "step": 96
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6861733794212341,
+      "eval_macro_f1": 0.37970998721331994,
+      "eval_runtime": 1.424,
+      "eval_samples_per_second": 280.898,
+      "eval_steps_per_second": 2.809,
+      "step": 96
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.6936,
+      "step": 98
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.6943,
+      "step": 100
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6689,
+      "step": 102
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.6919,
+      "step": 104
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.674,
+      "step": 106
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 9e-06,
+      "loss": 0.6754,
+      "step": 108
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.6999,
+      "step": 110
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.6714,
+      "step": 112
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.57,
+      "eval_loss": 0.6851080060005188,
+      "eval_macro_f1": 0.3735431235431235,
+      "eval_runtime": 1.4333,
+      "eval_samples_per_second": 279.083,
+      "eval_steps_per_second": 2.791,
+      "step": 112
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 9.5e-06,
+      "loss": 0.694,
+      "step": 114
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.6837,
+      "step": 116
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.6692,
+      "step": 118
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 1e-05,
+      "loss": 0.7002,
+      "step": 120
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 0.6706,
+      "step": 122
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.6592,
+      "step": 124
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.05e-05,
+      "loss": 0.7135,
+      "step": 126
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.6858,
+      "step": 128
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5725,
+      "eval_loss": 0.6847579479217529,
+      "eval_macro_f1": 0.3746285714285715,
+      "eval_runtime": 1.2984,
+      "eval_samples_per_second": 308.064,
+      "eval_steps_per_second": 3.081,
+      "step": 128
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.6926,
+      "step": 130
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6814,
+      "step": 132
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 0.669,
+      "step": 134
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.6969,
+      "step": 136
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.6732,
+      "step": 138
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.6704,
+      "step": 140
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 1.1833333333333334e-05,
+      "loss": 0.6989,
+      "step": 142
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6831,
+      "step": 144
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6859992742538452,
+      "eval_macro_f1": 0.38581596155930487,
+      "eval_runtime": 1.4972,
+      "eval_samples_per_second": 267.159,
+      "eval_steps_per_second": 2.672,
+      "step": 144
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 1.2166666666666668e-05,
+      "loss": 0.6949,
+      "step": 146
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.2333333333333334e-05,
+      "loss": 0.6692,
+      "step": 148
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 1.25e-05,
+      "loss": 0.6792,
+      "step": 150
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 0.6972,
+      "step": 152
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 0.6766,
+      "step": 154
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.678,
+      "step": 156
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.3166666666666665e-05,
+      "loss": 0.6887,
+      "step": 158
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.6676,
+      "step": 160
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.575,
+      "eval_loss": 0.6874198913574219,
+      "eval_macro_f1": 0.42159164370045255,
+      "eval_runtime": 1.4475,
+      "eval_samples_per_second": 276.347,
+      "eval_steps_per_second": 2.763,
+      "step": 160
+    }
+  ],
+  "max_steps": 320,
+  "num_train_epochs": 20,
+  "total_flos": 634934132736000.0,
+  "trial_name": null,
+  "trial_params": null
+}

scaling_performance/2000/fine-tuned/.DS_Store CHANGED Viewed

Binary files a/scaling_performance/2000/fine-tuned/.DS_Store and b/scaling_performance/2000/fine-tuned/.DS_Store differ