huggingartists

Browse files

Files changed (10) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +555 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1b0rnnbf/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/qx8rcy66) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/qx8rcy66/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1u30jxqs/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/38khmsgm) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/38khmsgm/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -37,7 +37,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.17.0",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.18.0",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~2455403357744217~~, "eval_runtime": 13.~~8298~~, "eval_samples_per_second": 43.~~674~~, "eval_steps_per_second": 5.~~495~~, "epoch": 2.0}


1	+ {"eval_loss": 0.21034620702266693, "eval_runtime": 15.1752, "eval_samples_per_second": 41.779, "eval_steps_per_second": 5.272, "epoch": 6.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91f6459b49fddf722d9f858151797155a47bc8c1ea85a7b38322bbab947c2cca
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:23feba72d0f43086e6c74b84adee8455b0785e580e0aab25abcd70b41dbf0158
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ee96f8a6e48147487cfb22ba654c29712017fab3f311ef29e0b92b111b5dcc9
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:0307db0b2ba20c296872de4c51775c6f6f7c145d85ba4eba9883ae1714259f3e
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47644ff40a294931cd31f96b23b17629d42b2e26ea5369f56afd9709f6fe557e
-size 510404393

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eff03ee26d2091ee260f5505223bb3ad8b0787140cfe1662d5bebb6562fe0de
+size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8620a678022e3508118c53e7b72967ce161e332ca8a4bec3c57043c8d0ab815e
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:64318524f70467d7f035d4c29d2caf9c7a12a5d003c3d37e5cb258fa8e627862
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f05fbfb2124177f9afcf7ea2075c976a78e42036cfed8db1b7e37fe10af01dde
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f9cf36b252c26cdc75b14e37b5b4fccbc15ca4a3843e9a29281707a78831c49
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.2455403357744217,
-  "best_model_checkpoint": "output/eminem/checkpoint-460",
-  "epoch": 1.0,
-  "global_step": 460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -566,11 +566,559 @@
       "eval_samples_per_second": 43.661,
       "eval_steps_per_second": 5.494,
       "step": 460
     }
   ],
-  "max_steps": 920,
-  "num_train_epochs": 2,
-  "total_flos": 479993462784000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.21034620702266693,
+  "best_model_checkpoint": "output/eminem/checkpoint-912",
+  "epoch": 2.0,
+  "global_step": 912,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 43.661,
       "eval_steps_per_second": 5.494,
       "step": 460
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001310364026633813,
+      "loss": 0.4239,
+      "step": 465
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001319781359302741,
+      "loss": 0.5115,
+      "step": 470
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00013284467114611735,
+      "loss": 0.4756,
+      "step": 475
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00013363498016834413,
+      "loss": 0.4892,
+      "step": 480
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00013434812529663595,
+      "loss": 0.5002,
+      "step": 485
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00013498326038550478,
+      "loss": 0.5714,
+      "step": 490
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00013553963184824178,
+      "loss": 0.5845,
+      "step": 495
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0001360165795510487,
+      "loss": 0.4911,
+      "step": 500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00013641353759628265,
+      "loss": 0.5275,
+      "step": 505
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00013673003499389456,
+      "loss": 0.5292,
+      "step": 510
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00013696569622025749,
+      "loss": 0.5506,
+      "step": 515
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00013712024166372548,
+      "loss": 0.5552,
+      "step": 520
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001371934879563911,
+      "loss": 0.5404,
+      "step": 525
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001371853481916521,
+      "loss": 0.5364,
+      "step": 530
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001370958320273255,
+      "loss": 0.4954,
+      "step": 535
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00013692504567418905,
+      "loss": 0.6414,
+      "step": 540
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001366731917699612,
+      "loss": 0.5806,
+      "step": 545
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00013634056913887406,
+      "loss": 0.5283,
+      "step": 550
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0001359275724371159,
+      "loss": 0.5036,
+      "step": 555
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00013543469168457526,
+      "loss": 0.583,
+      "step": 560
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013486251168343032,
+      "loss": 0.5384,
+      "step": 565
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0001342117113242847,
+      "loss": 0.5136,
+      "step": 570
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013348306278066345,
+      "loss": 0.5162,
+      "step": 575
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0001326774305928314,
+      "loss": 0.4983,
+      "step": 580
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00013179577064201505,
+      "loss": 0.5491,
+      "step": 585
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00013083912901625498,
+      "loss": 0.4611,
+      "step": 590
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001298086407692224,
+      "loss": 0.5359,
+      "step": 595
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00012870552857347723,
+      "loss": 0.5226,
+      "step": 600
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00012753110126977415,
+      "loss": 0.5316,
+      "step": 605
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00012628675231412197,
+      "loss": 0.5227,
+      "step": 610
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001249739581244523,
+      "loss": 0.4961,
+      "step": 615
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00012359427632884786,
+      "loss": 0.5487,
+      "step": 620
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0001221493439174271,
+      "loss": 0.5994,
+      "step": 625
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00012064087530004776,
+      "loss": 0.5401,
+      "step": 630
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00011907066027217711,
+      "loss": 0.5615,
+      "step": 635
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00011744056189128525,
+      "loss": 0.5705,
+      "step": 640
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00011575251426634572,
+      "loss": 0.5663,
+      "step": 645
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00011400852026300672,
+      "loss": 0.5623,
+      "step": 650
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00011221064912720382,
+      "loss": 0.5898,
+      "step": 655
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00011036103402999931,
+      "loss": 0.5708,
+      "step": 660
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00010846186953657361,
+      "loss": 0.5299,
+      "step": 665
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00010651540900238634,
+      "loss": 0.6369,
+      "step": 670
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00010452396189956808,
+      "loss": 0.532,
+      "step": 675
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0001024898910767386,
+      "loss": 0.5957,
+      "step": 680
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00010041560995548433,
+      "loss": 0.4907,
+      "step": 685
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 9.830357966684779e-05,
+      "loss": 0.5726,
+      "step": 690
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 9.615630613119297e-05,
+      "loss": 0.5582,
+      "step": 695
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 9.397633708493872e-05,
+      "loss": 0.6085,
+      "step": 700
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 9.17662590576683e-05,
+      "loss": 0.6075,
+      "step": 705
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 8.95286943032199e-05,
+      "loss": 0.5199,
+      "step": 710
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.726629768839068e-05,
+      "loss": 0.565,
+      "step": 715
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 8.49817535429363e-05,
+      "loss": 0.5779,
+      "step": 720
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.267777247462197e-05,
+      "loss": 0.514,
+      "step": 725
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.035708815308325e-05,
+      "loss": 0.6287,
+      "step": 730
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 7.802245406634311e-05,
+      "loss": 0.5617,
+      "step": 735
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 7.56766402537954e-05,
+      "loss": 0.6135,
+      "step": 740
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.332243001956172e-05,
+      "loss": 0.5151,
+      "step": 745
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 7.096261663009792e-05,
+      "loss": 0.5282,
+      "step": 750
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 6.85999999999999e-05,
+      "loss": 0.5488,
+      "step": 755
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.623738336990383e-05,
+      "loss": 0.5678,
+      "step": 760
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 6.387756998044003e-05,
+      "loss": 0.5534,
+      "step": 765
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 6.152335974620634e-05,
+      "loss": 0.6249,
+      "step": 770
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5.917754593365669e-05,
+      "loss": 0.5588,
+      "step": 775
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 5.684291184691846e-05,
+      "loss": 0.4985,
+      "step": 780
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 5.452222752537974e-05,
+      "loss": 0.545,
+      "step": 785
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 5.2218246457065396e-05,
+      "loss": 0.5905,
+      "step": 790
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.993370231160913e-05,
+      "loss": 0.4741,
+      "step": 795
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 4.767130569678176e-05,
+      "loss": 0.5473,
+      "step": 800
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 4.543374094233335e-05,
+      "loss": 0.525,
+      "step": 805
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.3223662915062914e-05,
+      "loss": 0.5134,
+      "step": 810
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 4.104369386880686e-05,
+      "loss": 0.5726,
+      "step": 815
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 3.8896420333152035e-05,
+      "loss": 0.4985,
+      "step": 820
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 3.6784390044517205e-05,
+      "loss": 0.5251,
+      "step": 825
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 3.471010892326291e-05,
+      "loss": 0.6068,
+      "step": 830
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.267603810043175e-05,
+      "loss": 0.5227,
+      "step": 835
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.068459099761349e-05,
+      "loss": 0.5061,
+      "step": 840
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 2.8738130463427823e-05,
+      "loss": 0.5539,
+      "step": 845
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.683896597000207e-05,
+      "loss": 0.5975,
+      "step": 850
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.4989350872796035e-05,
+      "loss": 0.5843,
+      "step": 855
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.3191479736993138e-05,
+      "loss": 0.571,
+      "step": 860
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.1447485733655544e-05,
+      "loss": 0.5282,
+      "step": 865
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.975943810871599e-05,
+      "loss": 0.5626,
+      "step": 870
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.8129339727824064e-05,
+      "loss": 0.5394,
+      "step": 875
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.6559124699952118e-05,
+      "loss": 0.4747,
+      "step": 880
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.5050656082574002e-05,
+      "loss": 0.5601,
+      "step": 885
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.3605723671153187e-05,
+      "loss": 0.4725,
+      "step": 890
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.22260418755487e-05,
+      "loss": 0.5171,
+      "step": 895
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.0913247685877927e-05,
+      "loss": 0.5425,
+      "step": 900
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 9.66889873022574e-06,
+      "loss": 0.4969,
+      "step": 905
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 8.494471426523612e-06,
+      "loss": 0.5235,
+      "step": 910
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.21034620702266693,
+      "eval_runtime": 15.3022,
+      "eval_samples_per_second": 41.432,
+      "eval_steps_per_second": 5.228,
+      "step": 912
     }
   ],
+  "max_steps": 2736,
+  "num_train_epochs": 6,
+  "total_flos": 951886872576000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8dba39e4831d67bb968da088ccd9c21edb2b352696e51f4a43088020c61c6578
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1ea3cda2785536f15c20f453c0b9bcc0101903ca9e2ecd4b40b57e318d77ca5
 size 3055