huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +548 -6
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/15cym4b5/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1x3uqmm0) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1x3uqmm0/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/m1jtunaa/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2xezqr9j) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2xezqr9j/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~8025060296058655~~, "eval_runtime": 8.~~4071~~, "eval_samples_per_second": 76.84, "eval_steps_per_second": 9.~~635~~, "epoch": 3.0}


1	+ {"eval_loss": 0.6717901825904846, "eval_runtime": 32.3581, "eval_samples_per_second": 21.077, "eval_steps_per_second": 2.658, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b739a8ccddc25542afe5ea2119ebba6e65e6112338dbb78979b77f70e8686623
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e4996cc5b01b2f5df2097ea186a2e86f7ee3597d536c4f655a2fc46fe7ba2cc
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e7cb42f5dffe82bcd3b920ad61f5f93a9acc9fbfabe99f82bbe40dad162fef9
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:71a25a4b42966c35fad23512f0a00af907488f398f69579bbf6993f208f7875f
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67e98567401881145d820a525614414d2e99e92a4565ac3f62537226f10421a5
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9621b75ec1fc38e7c917e2fcc638921268a3d38f2762a4ff89a10975fc0830c
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db724fec037fee48b46d10275cfadd56b2c386d7a8e13404c7083dc7b9d1713f
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:81db186b04d47e780c47c135689736ec200f7e269a91591d61577bc87d72dc42
+size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cac36feda9756e3d13d61874960f11354da701987062c5c64b16b3e4d3148948
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0d0227464d22267541364a30983be6a0f32a9f218c9367e12431d626c7660eb
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.8025060296058655,
-  "best_model_checkpoint": "output/eminem/checkpoint-908",
-  "epoch": 2.0,
-  "global_step": 908,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1108,11 +1108,553 @@
       "eval_samples_per_second": 76.95,
       "eval_steps_per_second": 9.649,
       "step": 908
     }
   ],
-  "max_steps": 1362,
   "num_train_epochs": 3,
-  "total_flos": 948751368192000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6717901825904846,
+  "best_model_checkpoint": "output/eminem/checkpoint-1350",
+  "epoch": 3.0,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 76.95,
       "eval_steps_per_second": 9.649,
       "step": 908
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.939154059863554e-05,
+      "loss": 1.0652,
+      "step": 910
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 4.157558500206058e-05,
+      "loss": 0.9825,
+      "step": 915
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 4.379255449236861e-05,
+      "loss": 0.8959,
+      "step": 920
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 4.603974803373273e-05,
+      "loss": 1.0768,
+      "step": 925
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 4.831442776697826e-05,
+      "loss": 0.9137,
+      "step": 930
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 5.061382234523686e-05,
+      "loss": 0.9653,
+      "step": 935
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 5.293513031040953e-05,
+      "loss": 0.921,
+      "step": 940
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 5.527552350630886e-05,
+      "loss": 0.9621,
+      "step": 945
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 5.763215052433939e-05,
+      "loss": 0.933,
+      "step": 950
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 6.000214017748833e-05,
+      "loss": 1.1698,
+      "step": 955
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 6.238260499843221e-05,
+      "loss": 1.0466,
+      "step": 960
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.477064475746826e-05,
+      "loss": 0.9793,
+      "step": 965
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 6.716334999600135e-05,
+      "loss": 1.0029,
+      "step": 970
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 6.955780557126535e-05,
+      "loss": 0.901,
+      "step": 975
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 7.195109420797938e-05,
+      "loss": 0.8933,
+      "step": 980
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 7.434030005259555e-05,
+      "loss": 0.9533,
+      "step": 985
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 7.672251222582502e-05,
+      "loss": 1.0477,
+      "step": 990
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.90948283690844e-05,
+      "loss": 1.0604,
+      "step": 995
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 8.145435818058043e-05,
+      "loss": 1.0593,
+      "step": 1000
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 8.379822693669456e-05,
+      "loss": 0.889,
+      "step": 1005
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 8.612357899439467e-05,
+      "loss": 1.0466,
+      "step": 1010
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.842758127039052e-05,
+      "loss": 0.8741,
+      "step": 1015
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 9.070742669281316e-05,
+      "loss": 0.9787,
+      "step": 1020
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 9.296033762119679e-05,
+      "loss": 0.9187,
+      "step": 1025
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 9.518356923061407e-05,
+      "loss": 0.918,
+      "step": 1030
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 9.737441285580787e-05,
+      "loss": 0.887,
+      "step": 1035
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 9.953019929129537e-05,
+      "loss": 1.0572,
+      "step": 1040
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00010164830204337668,
+      "loss": 0.9164,
+      "step": 1045
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00010372614053012052,
+      "loss": 0.9702,
+      "step": 1050
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00010576118322539557,
+      "loss": 1.0737,
+      "step": 1055
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00010775095074315191,
+      "loss": 0.9764,
+      "step": 1060
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00010969301885816937,
+      "loss": 1.0461,
+      "step": 1065
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00011158502145960167,
+      "loss": 1.034,
+      "step": 1070
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00011342465343372117,
+      "loss": 0.9559,
+      "step": 1075
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00011520967347234022,
+      "loss": 1.0916,
+      "step": 1080
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00011693790680350301,
+      "loss": 0.9443,
+      "step": 1085
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00011860724784110814,
+      "loss": 0.9271,
+      "step": 1090
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00012021566275024623,
+      "loss": 0.9245,
+      "step": 1095
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00012176119192510649,
+      "loss": 0.8889,
+      "step": 1100
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.00012324195237645988,
+      "loss": 0.9344,
+      "step": 1105
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00012465614002578945,
+      "loss": 1.0672,
+      "step": 1110
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0001260020319032846,
+      "loss": 0.9582,
+      "step": 1115
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00012727798824701078,
+      "loss": 0.9114,
+      "step": 1120
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00012848245450070912,
+      "loss": 1.1439,
+      "step": 1125
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00012961396320778244,
+      "loss": 1.0116,
+      "step": 1130
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.00013067113579916855,
+      "loss": 0.8955,
+      "step": 1135
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00013165268427290888,
+      "loss": 1.1116,
+      "step": 1140
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0001325574127633844,
+      "loss": 0.9538,
+      "step": 1145
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00013338421899829092,
+      "loss": 1.0351,
+      "step": 1150
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00013413209564159262,
+      "loss": 1.0751,
+      "step": 1155
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0001348001315208005,
+      "loss": 1.0118,
+      "step": 1160
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00013538751273709884,
+      "loss": 1.0048,
+      "step": 1165
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00013589352365695444,
+      "loss": 1.0141,
+      "step": 1170
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00013631754778400696,
+      "loss": 1.0117,
+      "step": 1175
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0001366590685101732,
+      "loss": 1.0794,
+      "step": 1180
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00013691766974505563,
+      "loss": 1.1812,
+      "step": 1185
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00013709303642288383,
+      "loss": 1.2511,
+      "step": 1190
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0001371849548863744,
+      "loss": 0.8512,
+      "step": 1195
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00013719331314703827,
+      "loss": 1.0474,
+      "step": 1200
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00013711810102162237,
+      "loss": 1.0574,
+      "step": 1205
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00013695941014451606,
+      "loss": 1.2136,
+      "step": 1210
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00013671743385610847,
+      "loss": 1.1405,
+      "step": 1215
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00013639246696723354,
+      "loss": 0.9608,
+      "step": 1220
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.000135984905399988,
+      "loss": 1.0797,
+      "step": 1225
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013549524570536192,
+      "loss": 1.1173,
+      "step": 1230
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.00013492408445826617,
+      "loss": 1.0319,
+      "step": 1235
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0001342721175307,
+      "loss": 1.1431,
+      "step": 1240
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00013354013924393685,
+      "loss": 1.1817,
+      "step": 1245
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00013272904140076693,
+      "loss": 1.1562,
+      "step": 1250
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00013183981219897135,
+      "loss": 0.9705,
+      "step": 1255
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00013087353502735764,
+      "loss": 0.9752,
+      "step": 1260
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00012983138714581574,
+      "loss": 1.1247,
+      "step": 1265
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00012871463825100976,
+      "loss": 1.001,
+      "step": 1270
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.00012752464892944418,
+      "loss": 1.0426,
+      "step": 1275
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00012626286899980387,
+      "loss": 1.128,
+      "step": 1280
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0001249308357465718,
+      "loss": 1.1501,
+      "step": 1285
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0001235301720470826,
+      "loss": 0.9987,
+      "step": 1290
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00012206258439429962,
+      "loss": 1.1401,
+      "step": 1295
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0001205298608177108,
+      "loss": 0.9013,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0001189338687048974,
+      "loss": 1.0983,
+      "step": 1305
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00011727655252640518,
+      "loss": 1.0951,
+      "step": 1310
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00011555993146670835,
+      "loss": 1.097,
+      "step": 1315
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00011378609696414153,
+      "loss": 1.1505,
+      "step": 1320
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00011195721016280857,
+      "loss": 1.0955,
+      "step": 1325
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00011007549927955844,
+      "loss": 1.0874,
+      "step": 1330
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00010814325688924864,
+      "loss": 1.04,
+      "step": 1335
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.00010616283713158952,
+      "loss": 1.1124,
+      "step": 1340
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.00010413665284299701,
+      "loss": 1.0374,
+      "step": 1345
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00010206717261691705,
+      "loss": 1.103,
+      "step": 1350
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.6717901825904846,
+      "eval_runtime": 32.3216,
+      "eval_samples_per_second": 21.1,
+      "eval_steps_per_second": 2.661,
+      "step": 1350
     }
   ],
+  "max_steps": 1350,
   "num_train_epochs": 3,
+  "total_flos": 1410062450688000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af3d16db63fcd2a5987c663780ce8fd33dc7a85804a193836b0800c52e0bcc3a
 size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad2c17509308df0501daa22f7c38deda6ee50f01e56c9f0747a3c0dbf3f69a2e
 size 2863