Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.gitignore +3 -0
checkpoint-650/config.json +39 -0
checkpoint-650/generation_config.json +6 -0
checkpoint-650/model.safetensors +3 -0
checkpoint-650/optimizer.pt +3 -0
checkpoint-650/rng_state.pth +3 -0
checkpoint-650/scheduler.pt +3 -0
checkpoint-650/trainer_state.json +513 -0
checkpoint-650/training_args.bin +3 -0
config.json +39 -0
emissions.csv +2 -0
generation_config.json +6 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+optimizer.pt
+scheduler.pt
+emissions.csv

checkpoint-650/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": false,
+  "vocab_size": 50257
+}

checkpoint-650/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.35.2"
+}

checkpoint-650/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:382198e6cd0cac4f332170e12112eb84deda057ba97f6519ca05753033ccd9ab
+size 497774208

checkpoint-650/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc99124f8c990480e26e94fe84470cb27ca559f3ebee8ca6904cd99d0d9e7bb5
+size 995641861

checkpoint-650/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cad6c28002af6bb4669d6d2df8dcb091a4be5a79ee965e45e468cc707112e210
+size 17641

checkpoint-650/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59c9b2dab80c1c8446fc580818f0fd94aa11197aa1aba15285e6efccfa5bd6c9
+size 627

checkpoint-650/trainer_state.json ADDED Viewed

	@@ -0,0 +1,513 @@

+{
+  "best_metric": 1.6376384496688843,
+  "best_model_checkpoint": "models/gpt2-lora-20g2s/checkpoint-650",
+  "epoch": 3.7818181818181817,
+  "eval_steps": 50,
+  "global_step": 650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 2e-05,
+      "loss": 3.2975,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.9703264094955493e-05,
+      "loss": 2.4638,
+      "step": 20
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.940652818991098e-05,
+      "loss": 2.0924,
+      "step": 30
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.910979228486647e-05,
+      "loss": 1.9836,
+      "step": 40
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.8813056379821958e-05,
+      "loss": 1.9073,
+      "step": 50
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.7905287742614746,
+      "eval_runtime": 38.1325,
+      "eval_samples_per_second": 52.449,
+      "eval_steps_per_second": 6.556,
+      "step": 50
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.851632047477745e-05,
+      "loss": 1.9059,
+      "step": 60
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.821958456973294e-05,
+      "loss": 1.8664,
+      "step": 70
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.792284866468843e-05,
+      "loss": 1.8451,
+      "step": 80
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.7626112759643918e-05,
+      "loss": 1.8454,
+      "step": 90
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.732937685459941e-05,
+      "loss": 1.8305,
+      "step": 100
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 1.7229812145233154,
+      "eval_runtime": 37.9618,
+      "eval_samples_per_second": 52.685,
+      "eval_steps_per_second": 6.586,
+      "step": 100
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7032640949554898e-05,
+      "loss": 1.8263,
+      "step": 110
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.673590504451039e-05,
+      "loss": 1.8206,
+      "step": 120
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.6439169139465877e-05,
+      "loss": 1.7967,
+      "step": 130
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.6142433234421366e-05,
+      "loss": 1.7962,
+      "step": 140
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.5845697329376857e-05,
+      "loss": 1.7786,
+      "step": 150
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.6951161623001099,
+      "eval_runtime": 37.8104,
+      "eval_samples_per_second": 52.895,
+      "eval_steps_per_second": 6.612,
+      "step": 150
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.5548961424332346e-05,
+      "loss": 1.7931,
+      "step": 160
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.5252225519287836e-05,
+      "loss": 1.7973,
+      "step": 170
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.4955489614243324e-05,
+      "loss": 1.7681,
+      "step": 180
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.4658753709198814e-05,
+      "loss": 1.7741,
+      "step": 190
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.4362017804154305e-05,
+      "loss": 1.7542,
+      "step": 200
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 1.6791621446609497,
+      "eval_runtime": 37.8129,
+      "eval_samples_per_second": 52.892,
+      "eval_steps_per_second": 6.612,
+      "step": 200
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.4065281899109794e-05,
+      "loss": 1.7657,
+      "step": 210
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.3768545994065284e-05,
+      "loss": 1.7393,
+      "step": 220
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.3471810089020773e-05,
+      "loss": 1.7611,
+      "step": 230
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.3175074183976262e-05,
+      "loss": 1.7362,
+      "step": 240
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.2878338278931752e-05,
+      "loss": 1.7204,
+      "step": 250
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 1.6689482927322388,
+      "eval_runtime": 37.8604,
+      "eval_samples_per_second": 52.826,
+      "eval_steps_per_second": 6.603,
+      "step": 250
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.258160237388724e-05,
+      "loss": 1.7452,
+      "step": 260
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.2284866468842732e-05,
+      "loss": 1.7307,
+      "step": 270
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.1988130563798221e-05,
+      "loss": 1.7232,
+      "step": 280
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.169139465875371e-05,
+      "loss": 1.7132,
+      "step": 290
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.13946587537092e-05,
+      "loss": 1.7233,
+      "step": 300
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 1.6592705249786377,
+      "eval_runtime": 37.8213,
+      "eval_samples_per_second": 52.88,
+      "eval_steps_per_second": 6.61,
+      "step": 300
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.1097922848664688e-05,
+      "loss": 1.7342,
+      "step": 310
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.080118694362018e-05,
+      "loss": 1.698,
+      "step": 320
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.050445103857567e-05,
+      "loss": 1.714,
+      "step": 330
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.0207715133531158e-05,
+      "loss": 1.7059,
+      "step": 340
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.910979228486648e-06,
+      "loss": 1.7033,
+      "step": 350
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 1.6531213521957397,
+      "eval_runtime": 37.9884,
+      "eval_samples_per_second": 52.648,
+      "eval_steps_per_second": 6.581,
+      "step": 350
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.614243323442138e-06,
+      "loss": 1.7045,
+      "step": 360
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 9.317507418397626e-06,
+      "loss": 1.6734,
+      "step": 370
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 9.020771513353116e-06,
+      "loss": 1.6923,
+      "step": 380
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 8.724035608308606e-06,
+      "loss": 1.6846,
+      "step": 390
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 8.427299703264096e-06,
+      "loss": 1.689,
+      "step": 400
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 1.6485120058059692,
+      "eval_runtime": 37.8818,
+      "eval_samples_per_second": 52.796,
+      "eval_steps_per_second": 6.599,
+      "step": 400
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 8.130563798219586e-06,
+      "loss": 1.6893,
+      "step": 410
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.833827893175074e-06,
+      "loss": 1.6967,
+      "step": 420
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.537091988130565e-06,
+      "loss": 1.7133,
+      "step": 430
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 7.2403560830860545e-06,
+      "loss": 1.6804,
+      "step": 440
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 6.943620178041544e-06,
+      "loss": 1.6858,
+      "step": 450
+    },
+    {
+      "epoch": 2.62,
+      "eval_loss": 1.6442703008651733,
+      "eval_runtime": 37.7726,
+      "eval_samples_per_second": 52.948,
+      "eval_steps_per_second": 6.619,
+      "step": 450
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 6.646884272997033e-06,
+      "loss": 1.7165,
+      "step": 460
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 6.3501483679525235e-06,
+      "loss": 1.7057,
+      "step": 470
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 6.0534124629080126e-06,
+      "loss": 1.7044,
+      "step": 480
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.756676557863502e-06,
+      "loss": 1.7139,
+      "step": 490
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 5.459940652818992e-06,
+      "loss": 1.6919,
+      "step": 500
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 1.6420339345932007,
+      "eval_runtime": 37.8869,
+      "eval_samples_per_second": 52.789,
+      "eval_steps_per_second": 6.599,
+      "step": 500
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 5.163204747774481e-06,
+      "loss": 1.6894,
+      "step": 510
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 4.866468842729971e-06,
+      "loss": 1.6738,
+      "step": 520
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 4.5697329376854606e-06,
+      "loss": 1.6934,
+      "step": 530
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 4.27299703264095e-06,
+      "loss": 1.6921,
+      "step": 540
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 3.97626112759644e-06,
+      "loss": 1.694,
+      "step": 550
+    },
+    {
+      "epoch": 3.2,
+      "eval_loss": 1.6401287317276,
+      "eval_runtime": 37.7337,
+      "eval_samples_per_second": 53.003,
+      "eval_steps_per_second": 6.625,
+      "step": 550
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 3.679525222551929e-06,
+      "loss": 1.6873,
+      "step": 560
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 3.382789317507419e-06,
+      "loss": 1.6865,
+      "step": 570
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 3.086053412462908e-06,
+      "loss": 1.6559,
+      "step": 580
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 2.789317507418398e-06,
+      "loss": 1.6821,
+      "step": 590
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 2.4925816023738876e-06,
+      "loss": 1.6758,
+      "step": 600
+    },
+    {
+      "epoch": 3.49,
+      "eval_loss": 1.6383044719696045,
+      "eval_runtime": 37.9349,
+      "eval_samples_per_second": 52.722,
+      "eval_steps_per_second": 6.59,
+      "step": 600
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 2.195845697329377e-06,
+      "loss": 1.6634,
+      "step": 610
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.8991097922848666e-06,
+      "loss": 1.6653,
+      "step": 620
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 1.6023738872403563e-06,
+      "loss": 1.6663,
+      "step": 630
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 1.3056379821958458e-06,
+      "loss": 1.6745,
+      "step": 640
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 1.0089020771513354e-06,
+      "loss": 1.6997,
+      "step": 650
+    },
+    {
+      "epoch": 3.78,
+      "eval_loss": 1.6376384496688843,
+      "eval_runtime": 37.8135,
+      "eval_samples_per_second": 52.891,
+      "eval_steps_per_second": 6.611,
+      "step": 650
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 684,
+  "num_train_epochs": 4,
+  "save_steps": 50,
+  "total_flos": 7247277483622400.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-650/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e45d0b6463555987601f0aaee8f8db6dcf6ba1e87e756ba81e518e89348c70a7
+size 4091

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": false,
+  "vocab_size": 50257
+}

emissions.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2024-02-17T22:56:09,codecarbon,376d5494-80d9-4c1f-a01f-3f0425571f06,4937.664623737335,0.09999964238539377,2.025241688239727e-05,42.5,102.62131288069982,38.31930112838745,0.058291479068166674,0.143021615528312,0.05249310435122111,0.2538061989476999,USA,USA,Iowa,gcp,us-central1,Linux-5.10.0-28-cloud-amd64-x86_64-with-glibc2.31,3.9.2,2.3.4,16,Intel(R) Xeon(R) CPU @ 2.30GHz,4,4 x Tesla T4,,,102.1848030090332,machine,Y,1.0

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.35.2"
+}