huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +591 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1cw72fwg/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1s9gn4n3) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1s9gn4n3/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/29aftir4/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1yj0yyz9) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1yj0yyz9/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~7975038886070251~~, "eval_runtime": 7.~~9777~~, "eval_samples_per_second": 81.~~352~~, "eval_steps_per_second": 10.~~279~~, "epoch": 3.0}


1	+ {"eval_loss": 0.4826279878616333, "eval_runtime": 14.6559, "eval_samples_per_second": 44.897, "eval_steps_per_second": 5.663, "epoch": 4.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:195352921c9768b8f7722a7c6dadd24e0bb41f9c5b687a015dad8577e2e19d1e
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:428633d1f6458ab43ed5eee44c1ef0505fe223f57c99426fe21435d1aa3b434b
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d220c780eb71062e07399c346abb83a3d8d5d253a988aae163afad0591fdd04
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:f52b4dcb8476f623a272e10ac84ac049de0f1003081728e8884c6d2f759310f9
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ea0a731add3655e830275a1f48125cb7f3420e6c2aa5a5112f441a84aaadeb
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:753a59950d6b66574f6214a57384f99ae242cd291bd19d5d9e54977a42f5f557
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85a94ba790ee5732238750868c0fa5cd84aca898f6e3c21a553f5290ecb0fd85
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:32f46f1e2250c32c3ee6983a1c0513e245212fb9a74b0dd129330fa6abe719c7
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b357301156ff71969e9f7ff0267a328310fe92287f1483cfbf7826710ed8a0b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:33680f79177570c60fb9a75223c44dc245db8eeb97bbb366911a9c63f50a44d8
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.7975038886070251,
-  "best_model_checkpoint": "output/eminem/checkpoint-1455",
-  "epoch": 3.0,
-  "global_step": 1455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1776,11 +1776,595 @@
       "eval_samples_per_second": 81.452,
       "eval_steps_per_second": 10.291,
       "step": 1455
     }
   ],
-  "max_steps": 1455,
-  "num_train_epochs": 3,
-  "total_flos": 1519151874048000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4826279878616333,
+  "best_model_checkpoint": "output/eminem/checkpoint-1936",
+  "epoch": 4.0,
+  "global_step": 1936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 81.452,
       "eval_steps_per_second": 10.291,
       "step": 1455
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 3.533340602884326e-05,
+      "loss": 0.6584,
+      "step": 1460
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 3.340418885898272e-05,
+      "loss": 0.9188,
+      "step": 1465
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 3.1512039922545005e-05,
+      "loss": 0.7885,
+      "step": 1470
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 2.9658952031065493e-05,
+      "loss": 0.6785,
+      "step": 1475
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 2.784687685697823e-05,
+      "loss": 0.9316,
+      "step": 1480
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 2.6077722878123704e-05,
+      "loss": 0.7074,
+      "step": 1485
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 2.4353353367727083e-05,
+      "loss": 0.5083,
+      "step": 1490
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.2675584432009507e-05,
+      "loss": 0.7031,
+      "step": 1495
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 2.104618309745989e-05,
+      "loss": 0.5955,
+      "step": 1500
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.94668654497983e-05,
+      "loss": 0.6515,
+      "step": 1505
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.7939294826601462e-05,
+      "loss": 0.6982,
+      "step": 1510
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.6465080065474947e-05,
+      "loss": 0.7575,
+      "step": 1515
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.504577380961979e-05,
+      "loss": 0.7294,
+      "step": 1520
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.3682870872588951e-05,
+      "loss": 0.566,
+      "step": 1525
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.2377806663955526e-05,
+      "loss": 0.4467,
+      "step": 1530
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.1131955677535227e-05,
+      "loss": 0.8649,
+      "step": 1535
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 9.946630043766268e-06,
+      "loss": 0.6318,
+      "step": 1540
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 8.8230781477809e-06,
+      "loss": 0.5197,
+      "step": 1545
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 7.762483314597675e-06,
+      "loss": 0.7195,
+      "step": 1550
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 6.765962562849582e-06,
+      "loss": 0.6544,
+      "step": 1555
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 5.834565428339295e-06,
+      "loss": 0.6373,
+      "step": 1560
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 4.969272858664371e-06,
+      "loss": 0.7969,
+      "step": 1565
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 4.170996180083756e-06,
+      "loss": 0.5398,
+      "step": 1570
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 3.440576137712397e-06,
+      "loss": 0.6392,
+      "step": 1575
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 2.778782010045892e-06,
+      "loss": 0.8183,
+      "step": 1580
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 2.186310798754732e-06,
+      "loss": 0.4459,
+      "step": 1585
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 1.6637864946060192e-06,
+      "loss": 0.6059,
+      "step": 1590
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.2117594202713427e-06,
+      "loss": 0.9818,
+      "step": 1595
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 8.307056507336243e-07,
+      "loss": 0.3983,
+      "step": 1600
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 5.21026511876941e-07,
+      "loss": 0.9094,
+      "step": 1605
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 2.8304815781598153e-07,
+      "loss": 0.5006,
+      "step": 1610
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.1702122738749632e-07,
+      "loss": 0.5685,
+      "step": 1615
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 2.312058017904961e-08,
+      "loss": 0.7558,
+      "step": 1620
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 1.445112365939849e-09,
+      "loss": 0.5613,
+      "step": 1625
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 5.2017652553981476e-08,
+      "loss": 0.7474,
+      "step": 1630
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 1.7478493773641084e-07,
+      "loss": 0.7388,
+      "step": 1635
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 3.69617669391192e-07,
+      "loss": 0.5788,
+      "step": 1640
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 6.363106496559428e-07,
+      "loss": 0.6158,
+      "step": 1645
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 9.745829974457439e-07,
+      "loss": 0.6697,
+      "step": 1650
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 1.3840784442740293e-06,
+      "loss": 0.5538,
+      "step": 1655
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 1.8643657094772689e-06,
+      "loss": 0.7529,
+      "step": 1660
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 2.4149389544374383e-06,
+      "loss": 0.5164,
+      "step": 1665
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 3.035218315332177e-06,
+      "loss": 0.5686,
+      "step": 1670
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 3.7245505138493062e-06,
+      "loss": 0.7307,
+      "step": 1675
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 4.482209545215727e-06,
+      "loss": 0.4993,
+      "step": 1680
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 5.307397442832051e-06,
+      "loss": 0.5905,
+      "step": 1685
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 6.199245118679951e-06,
+      "loss": 0.7372,
+      "step": 1690
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 7.15681327866027e-06,
+      "loss": 0.7588,
+      "step": 1695
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 8.179093411845718e-06,
+      "loss": 0.7609,
+      "step": 1700
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 9.265008852652901e-06,
+      "loss": 0.4208,
+      "step": 1705
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 1.0413415914780494e-05,
+      "loss": 0.5304,
+      "step": 1710
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.1623105095742268e-05,
+      "loss": 0.47,
+      "step": 1715
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.2892802350718737e-05,
+      "loss": 0.4479,
+      "step": 1720
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 1.4221170434376129e-05,
+      "loss": 0.3907,
+      "step": 1725
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 1.5606810309252903e-05,
+      "loss": 0.8871,
+      "step": 1730
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 1.7048262619230822e-05,
+      "loss": 0.5595,
+      "step": 1735
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 1.8544009226529548e-05,
+      "loss": 0.6169,
+      "step": 1740
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 2.0092474810601755e-05,
+      "loss": 0.557,
+      "step": 1745
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.169202852727143e-05,
+      "loss": 0.8663,
+      "step": 1750
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 2.334098572632982e-05,
+      "loss": 0.754,
+      "step": 1755
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 2.5037609725813137e-05,
+      "loss": 0.7106,
+      "step": 1760
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 2.6780113641080935e-05,
+      "loss": 0.8902,
+      "step": 1765
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 2.8566662266755925e-05,
+      "loss": 0.5382,
+      "step": 1770
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 3.039537400956214e-05,
+      "loss": 0.5907,
+      "step": 1775
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 3.226432287002555e-05,
+      "loss": 1.0195,
+      "step": 1780
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 3.417154047093731e-05,
+      "loss": 0.5186,
+      "step": 1785
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 3.611501813044067e-05,
+      "loss": 0.4889,
+      "step": 1790
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 3.8092708977579776e-05,
+      "loss": 0.6288,
+      "step": 1795
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 4.010253010806977e-05,
+      "loss": 0.7543,
+      "step": 1800
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 4.214236477799971e-05,
+      "loss": 0.5513,
+      "step": 1805
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 4.421006463320525e-05,
+      "loss": 0.6435,
+      "step": 1810
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 4.630345197188684e-05,
+      "loss": 0.4894,
+      "step": 1815
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 4.8420322038201655e-05,
+      "loss": 0.4861,
+      "step": 1820
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 5.0558445344283775e-05,
+      "loss": 0.634,
+      "step": 1825
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 5.2715570018359465e-05,
+      "loss": 0.5037,
+      "step": 1830
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 5.48894241764059e-05,
+      "loss": 0.6078,
+      "step": 1835
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 5.70777183149052e-05,
+      "loss": 0.7133,
+      "step": 1840
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 5.927814772215574e-05,
+      "loss": 0.6985,
+      "step": 1845
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 6.148839490558139e-05,
+      "loss": 0.6508,
+      "step": 1850
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 6.370613203253432e-05,
+      "loss": 0.4598,
+      "step": 1855
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 6.592902338193773e-05,
+      "loss": 0.428,
+      "step": 1860
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 6.815472780430632e-05,
+      "loss": 0.5706,
+      "step": 1865
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 7.038090118741434e-05,
+      "loss": 0.9235,
+      "step": 1870
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 7.260519892513427e-05,
+      "loss": 0.8443,
+      "step": 1875
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 7.482527838676278e-05,
+      "loss": 0.5691,
+      "step": 1880
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 7.703880138428551e-05,
+      "loss": 0.4075,
+      "step": 1885
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 7.924343663496286e-05,
+      "loss": 0.4282,
+      "step": 1890
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 8.14368622166238e-05,
+      "loss": 0.6324,
+      "step": 1895
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 8.361676801313385e-05,
+      "loss": 0.7816,
+      "step": 1900
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 8.578085814737905e-05,
+      "loss": 0.6076,
+      "step": 1905
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 8.792685339932241e-05,
+      "loss": 0.5257,
+      "step": 1910
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 9.005249360644818e-05,
+      "loss": 0.6216,
+      "step": 1915
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 9.215554004418427e-05,
+      "loss": 0.7805,
+      "step": 1920
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 9.423377778371423e-05,
+      "loss": 0.7339,
+      "step": 1925
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 9.628501802474621e-05,
+      "loss": 0.6319,
+      "step": 1930
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 9.830710040076315e-05,
+      "loss": 0.5267,
+      "step": 1935
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.4826279878616333,
+      "eval_runtime": 14.7153,
+      "eval_samples_per_second": 44.716,
+      "eval_steps_per_second": 5.64,
+      "step": 1936
     }
   ],
+  "max_steps": 1936,
+  "num_train_epochs": 4,
+  "total_flos": 2021355159552000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a191d7ddb4193d5d88e644c72ac19b8cc1f37c551be0aecf17ab07f676a5dc3
 size 3375

 version https://git-lfs.github.com/spec/v1
+oid sha256:28f78ff1353e48b556a427f64b800f3a4cfdb95bdf8553eb6558c9abb866bf9e
 size 3375