huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +123 -131
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/morgenshtern")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/20cl7laa/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3qf1htak) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3qf1htak/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/morgenshtern")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/22rvzlbq/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/320wuvzx) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/320wuvzx/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~8490299582481384~~, "eval_runtime": 6.~~2996~~, "eval_samples_per_second": 22.~~065~~, "eval_steps_per_second": 2.~~857~~, "epoch": 4.0}


1	+ {"eval_loss": 0.9282976984977722, "eval_runtime": 7.0681, "eval_samples_per_second": 20.656, "eval_steps_per_second": 2.688, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c206113ad277df943af1b246e8fbbe80bcbe43ffaae6fccf0407e9a6a26a085c
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:290b054aa26a75472ea89462728e1fbe01bb1cbbb7bf90d372ad250db6831111
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b30ca0900ebc27f3cbfd8a6540e092c04afffa6f018f6a00a9f12bd726579e80
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfb92c5db45ae57ec8704270fd02cd24309911146a62e4ffdfe187cdfacc2cca
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:662d09ceae0ce79ead4cb03910f4f01e5baefa1243d539c22697cbebcaa50e11
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:75dfc06c83e4ec2c68737881be276359157fac03863eda5033a21d9e80f92ef9
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a811ea5cc5d9c9527f6e81dfbc9d60be228d782159d3b0640a84e4cd48563bd
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffc74e881d44215266a1c99f799520e15420c54f0cc889ce0ad363a9b0849b03
+size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7eeb3725eda0751da218aac4b82c91a171feeaac6c25ec948585c5e9228b5f56
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b9d873c8cacf8459303fcc5fcff12d277bec46420342ef76b13541e314fd254
 size 623

trainer_state.json CHANGED Viewed

@@ -1,274 +1,266 @@
 {
-  "best_metric": 0.8490299582481384,
-  "best_model_checkpoint": "output/morgenshtern/checkpoint-198",
   "epoch": 2.0,
-  "global_step": 198,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05,
-      "learning_rate": 0.00013630248621914493,
-      "loss": 1.1495,
       "step": 5
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.00013363342974500022,
-      "loss": 1.133,
       "step": 10
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00012926267066407974,
-      "loss": 1.1617,
       "step": 15
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.00012330457680460286,
-      "loss": 1.1061,
       "step": 20
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0001159150511212779,
-      "loss": 1.2273,
       "step": 25
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00010728745224777217,
-      "loss": 1.0743,
       "step": 30
     },
     {
       "epoch": 0.36,
-      "learning_rate": 9.764753496206386e-05,
-      "loss": 1.2278,
       "step": 35
     },
     {
       "epoch": 0.41,
-      "learning_rate": 8.724754295541321e-05,
-      "loss": 1.1852,
       "step": 40
     },
     {
       "epoch": 0.46,
-      "learning_rate": 7.635960847699664e-05,
-      "loss": 1.1321,
       "step": 45
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 6.526863156294906e-05,
-      "loss": 1.0477,
       "step": 50
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 5.426482517605479e-05,
-      "loss": 1.1788,
       "step": 55
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 4.363612132430507e-05,
-      "loss": 1.0456,
       "step": 60
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.36606368642472e-05,
-      "loss": 1.1629,
       "step": 65
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 2.4599396133304144e-05,
-      "loss": 1.1195,
       "step": 70
     },
     {
       "epoch": 0.77,
-      "learning_rate": 1.6689500834906116e-05,
-      "loss": 0.9719,
       "step": 75
     },
     {
       "epoch": 0.82,
-      "learning_rate": 1.0137925897200545e-05,
-      "loss": 1.159,
       "step": 80
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 5.116103646510543e-06,
-      "loss": 1.0041,
       "step": 85
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 1.7554380092209137e-06,
-      "loss": 1.0917,
       "step": 90
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 1.4386612009299613e-07,
-      "loss": 1.0484,
       "step": 95
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0789222717285156,
-      "eval_runtime": 7.1308,
-      "eval_samples_per_second": 21.035,
-      "eval_steps_per_second": 2.664,
-      "step": 97
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 3.2355730797025283e-07,
-      "loss": 1.094,
       "step": 100
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 2.289809668554777e-06,
-      "loss": 1.173,
       "step": 105
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 5.991173097174171e-06,
-      "loss": 1.1401,
       "step": 110
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 1.1330795562191737e-05,
-      "loss": 1.1561,
       "step": 115
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 1.816895739168569e-05,
-      "loss": 1.103,
       "step": 120
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 2.6326727259776298e-05,
-      "loss": 1.0156,
       "step": 125
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 3.559064420793063e-05,
-      "loss": 1.047,
       "step": 130
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 4.571830318875349e-05,
-      "loss": 1.0605,
       "step": 135
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 5.644469797766504e-05,
-      "loss": 1.0732,
       "step": 140
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 6.748915548014806e-05,
-      "loss": 1.0798,
       "step": 145
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 7.856267998744024e-05,
-      "loss": 1.132,
       "step": 150
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 8.937551520659945e-05,
-      "loss": 1.097,
       "step": 155
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 9.964472619245533e-05,
-      "loss": 1.1685,
       "step": 160
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 0.00010910160278820622,
-      "loss": 1.0965,
       "step": 165
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 0.00011749869085191239,
-      "loss": 1.0409,
       "step": 170
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 0.00012461626728572453,
-      "loss": 1.2079,
       "step": 175
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 0.000130268089438458,
-      "loss": 1.109,
       "step": 180
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 0.00013430626843929596,
-      "loss": 1.1506,
       "step": 185
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 0.00013662513894413276,
-      "loss": 1.074,
       "step": 190
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.9612834453582764,
-      "eval_runtime": 6.602,
-      "eval_samples_per_second": 23.023,
-      "eval_steps_per_second": 2.878,
-      "step": 194
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.00010659891638121502,
-      "loss": 1.1752,
       "step": 195
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.8490299582481384,
-      "eval_runtime": 6.0445,
-      "eval_samples_per_second": 22.996,
-      "eval_steps_per_second": 2.978,
-      "step": 198
     }
   ],
-  "max_steps": 396,
-  "num_train_epochs": 4,
-  "total_flos": 206028767232000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9282976984977722,
+  "best_model_checkpoint": "output/morgenshtern/checkpoint-196",
   "epoch": 2.0,
+  "global_step": 196,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05,
+      "learning_rate": 2.8353852816851834e-06,
+      "loss": 0.9329,
       "step": 5
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.632050517253893e-07,
+      "loss": 1.0399,
       "step": 10
     },
     {
       "epoch": 0.15,
+      "learning_rate": 3.5245568632818114e-08,
+      "loss": 0.9758,
       "step": 15
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1.2650418304129032e-06,
+      "loss": 1.1379,
       "step": 20
     },
     {
       "epoch": 0.26,
+      "learning_rate": 4.2210662473863345e-06,
+      "loss": 1.0053,
       "step": 25
     },
     {
       "epoch": 0.31,
+      "learning_rate": 8.827536897135236e-06,
+      "loss": 0.9426,
       "step": 30
     },
     {
       "epoch": 0.36,
+      "learning_rate": 1.4966360302693292e-05,
+      "loss": 0.975,
       "step": 35
     },
     {
       "epoch": 0.41,
+      "learning_rate": 2.2480158928073662e-05,
+      "loss": 0.9562,
       "step": 40
     },
     {
       "epoch": 0.46,
+      "learning_rate": 3.1176305776956165e-05,
+      "loss": 0.9848,
       "step": 45
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 4.08318626618038e-05,
+      "loss": 0.9881,
       "step": 50
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 5.11992955438076e-05,
+      "loss": 0.8541,
       "step": 55
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 6.201282042273309e-05,
+      "loss": 0.9165,
       "step": 60
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 7.299521709067675e-05,
+      "loss": 1.1571,
       "step": 65
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 8.386493606940326e-05,
+      "loss": 0.9756,
       "step": 70
     },
     {
       "epoch": 0.77,
+      "learning_rate": 9.434331653472495e-05,
+      "loss": 1.0831,
       "step": 75
     },
     {
       "epoch": 0.82,
+      "learning_rate": 0.00010416173018610171,
+      "loss": 1.0254,
       "step": 80
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 0.00011306846791811384,
+      "loss": 0.9955,
       "step": 85
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 0.00012083519274412272,
+      "loss": 0.9694,
       "step": 90
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 0.0001272627935421667,
+      "loss": 1.0328,
       "step": 95
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.9301878213882446,
+      "eval_runtime": 7.0442,
+      "eval_samples_per_second": 20.726,
+      "eval_steps_per_second": 2.697,
+      "step": 98
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 0.00013218648955393698,
+      "loss": 0.8862,
       "step": 100
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.00013548005477567298,
+      "loss": 0.9512,
       "step": 105
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 0.00013705905394267309,
+      "loss": 1.0269,
       "step": 110
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 0.000136883007148315,
+      "loss": 1.0087,
       "step": 115
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00013495642760447747,
+      "loss": 0.999,
       "step": 120
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 0.00013132870593888493,
+      "loss": 1.1179,
       "step": 125
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.00012609284399558039,
+      "loss": 0.9949,
       "step": 130
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 0.0001193830705993666,
+      "loss": 0.9807,
       "step": 135
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.00011137140040750923,
+      "loss": 1.0501,
       "step": 140
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 0.00010226322406747004,
+      "loss": 0.9548,
       "step": 145
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 9.229204273330182e-05,
+      "loss": 1.0041,
       "step": 150
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 8.171348192891448e-05,
+      "loss": 0.9339,
       "step": 155
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 7.079873822141611e-05,
+      "loss": 0.9923,
       "step": 160
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 5.982762670844271e-05,
+      "loss": 1.009,
       "step": 165
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 4.908140755711122e-05,
+      "loss": 0.9595,
       "step": 170
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 3.883557549653576e-05,
+      "loss": 0.9652,
       "step": 175
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 2.935279711561958e-05,
+      "loss": 1.0619,
       "step": 180
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 2.087617702860066e-05,
+      "loss": 0.9697,
       "step": 185
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 1.3623025539858162e-05,
+      "loss": 1.0304,
       "step": 190
     },
     {
+      "epoch": 1.99,
+      "learning_rate": 7.779287582812291e-06,
+      "loss": 0.9482,
       "step": 195
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.9282976984977722,
+      "eval_runtime": 7.0544,
+      "eval_samples_per_second": 20.696,
+      "eval_steps_per_second": 2.693,
+      "step": 196
     }
   ],
+  "max_steps": 294,
+  "num_train_epochs": 3,
+  "total_flos": 203546492928000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07920e82e382322fc86cba9e3137afe186d39ae3cfd7def39a9f14a99ffd7b99
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:640d62725592ddeb2633cb42cfa4872adce692e463f0c31e16d57bedfc0f8439
 size 2671