huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +573 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/29aftir4/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1yj0yyz9) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1yj0yyz9/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/391kfg7f/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1361uz9o) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1361uz9o/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~4826279878616333~~, "eval_runtime": 14.~~6559~~, "eval_samples_per_second": 44.~~897~~, "eval_steps_per_second": 5.~~663~~, "epoch": 4.0}


1	+ {"eval_loss": 0.3943726122379303, "eval_runtime": 15.416, "eval_samples_per_second": 44.759, "eval_steps_per_second": 5.643, "epoch": 5.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:428633d1f6458ab43ed5eee44c1ef0505fe223f57c99426fe21435d1aa3b434b
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:02edf25c965a60bf14d297e2e1b0c081720b9e8680d800634688a3fc4a2fb6e3
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f52b4dcb8476f623a272e10ac84ac049de0f1003081728e8884c6d2f759310f9
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:3549806e8df4af4ca7246f4b76fb32c1636959e4dcfdd8e7ae18219bcecf618d
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:753a59950d6b66574f6214a57384f99ae242cd291bd19d5d9e54977a42f5f557
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:74cc2a5b07365c0d471dcdc1b01d1d3b1079d6849be25c14f96e07d25c27d9e7
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32f46f1e2250c32c3ee6983a1c0513e245212fb9a74b0dd129330fa6abe719c7
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4270d9bd9f11421914c6de82fdc91926e8d5b6956546e23f778f5df9e81d41a
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33680f79177570c60fb9a75223c44dc245db8eeb97bbb366911a9c63f50a44d8
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7478d4d8fd00284d9c6da95af37a13b23cb40ae04238067c0707b07c0d165090
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.4826279878616333,
-  "best_model_checkpoint": "output/eminem/checkpoint-1936",
-  "epoch": 4.0,
-  "global_step": 1936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2360,11 +2360,577 @@
       "eval_samples_per_second": 44.716,
       "eval_steps_per_second": 5.64,
       "step": 1936
     }
   ],
-  "max_steps": 1936,
-  "num_train_epochs": 4,
-  "total_flos": 2021355159552000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3943726122379303,
+  "best_model_checkpoint": "output/eminem/checkpoint-2400",
+  "epoch": 5.0,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 44.716,
       "eval_steps_per_second": 5.64,
       "step": 1936
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.00011450235959621898,
+      "loss": 0.3751,
+      "step": 1940
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.00011280977272542054,
+      "loss": 0.7741,
+      "step": 1945
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 0.00011106984492265664,
+      "loss": 0.6279,
+      "step": 1950
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.00010928443934619291,
+      "loss": 0.4172,
+      "step": 1955
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.00010745546785304314,
+      "loss": 0.8202,
+      "step": 1960
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.0001055848889516962,
+      "loss": 0.7253,
+      "step": 1965
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 0.00010367470570488607,
+      "loss": 0.6737,
+      "step": 1970
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.00010172696358468322,
+      "loss": 0.602,
+      "step": 1975
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 9.974374828213395e-05,
+      "loss": 0.7079,
+      "step": 1980
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 9.772718347385836e-05,
+      "loss": 0.8964,
+      "step": 1985
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 9.567942854796078e-05,
+      "loss": 0.4818,
+      "step": 1990
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 9.360267629171191e-05,
+      "loss": 0.7278,
+      "step": 1995
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 9.149915054343752e-05,
+      "loss": 0.6072,
+      "step": 2000
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 8.937110381119999e-05,
+      "loss": 0.8248,
+      "step": 2005
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 8.722081486074574e-05,
+      "loss": 0.8012,
+      "step": 2010
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 8.50505862753343e-05,
+      "loss": 0.542,
+      "step": 2015
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 8.286274199009886e-05,
+      "loss": 0.5911,
+      "step": 2020
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 8.06596248034977e-05,
+      "loss": 0.6034,
+      "step": 2025
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 7.844359386859629e-05,
+      "loss": 0.6177,
+      "step": 2030
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 7.621702216682333e-05,
+      "loss": 0.7298,
+      "step": 2035
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 7.398229396693239e-05,
+      "loss": 0.51,
+      "step": 2040
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 7.174180227184603e-05,
+      "loss": 0.8855,
+      "step": 2045
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 6.94979462561934e-05,
+      "loss": 0.6728,
+      "step": 2050
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 6.725312869720243e-05,
+      "loss": 0.4899,
+      "step": 2055
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 6.500975340173405e-05,
+      "loss": 0.4827,
+      "step": 2060
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 6.27702226322509e-05,
+      "loss": 0.6521,
+      "step": 2065
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 6.05369345343951e-05,
+      "loss": 0.5115,
+      "step": 2070
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 5.831228056899374e-05,
+      "loss": 0.3792,
+      "step": 2075
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 5.609864295123839e-05,
+      "loss": 0.5564,
+      "step": 2080
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 5.389839209973954e-05,
+      "loss": 0.8714,
+      "step": 2085
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 5.171388409821159e-05,
+      "loss": 0.4843,
+      "step": 2090
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 4.9547458172542385e-05,
+      "loss": 0.7155,
+      "step": 2095
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 4.74014341858799e-05,
+      "loss": 0.4362,
+      "step": 2100
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 4.5278110154455465e-05,
+      "loss": 0.4663,
+      "step": 2105
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 4.317975978682545e-05,
+      "loss": 0.5994,
+      "step": 2110
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 4.110863004912692e-05,
+      "loss": 0.4463,
+      "step": 2115
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 3.9066938758951916e-05,
+      "loss": 0.6226,
+      "step": 2120
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 3.7056872210476396e-05,
+      "loss": 0.5947,
+      "step": 2125
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 3.508058283331054e-05,
+      "loss": 0.5276,
+      "step": 2130
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 3.314018688761322e-05,
+      "loss": 0.5118,
+      "step": 2135
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 3.123776219796979e-05,
+      "loss": 0.6581,
+      "step": 2140
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 2.937534592838677e-05,
+      "loss": 0.6129,
+      "step": 2145
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 2.7554932400854067e-05,
+      "loss": 0.6305,
+      "step": 2150
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 2.577847095977183e-05,
+      "loss": 0.6368,
+      "step": 2155
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 2.4047863884551244e-05,
+      "loss": 0.6684,
+      "step": 2160
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 2.2364964352589423e-05,
+      "loss": 0.7136,
+      "step": 2165
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 2.0731574454860283e-05,
+      "loss": 0.5243,
+      "step": 2170
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 1.914944326618096e-05,
+      "loss": 0.665,
+      "step": 2175
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.7620264972250878e-05,
+      "loss": 0.5977,
+      "step": 2180
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 1.6145677055492958e-05,
+      "loss": 0.7612,
+      "step": 2185
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 1.4727258541581522e-05,
+      "loss": 0.7172,
+      "step": 2190
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 1.3366528308588766e-05,
+      "loss": 0.6571,
+      "step": 2195
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 1.2064943460529662e-05,
+      "loss": 0.664,
+      "step": 2200
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 1.0823897767063955e-05,
+      "loss": 1.1318,
+      "step": 2205
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 9.644720171000711e-06,
+      "loss": 0.5895,
+      "step": 2210
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 8.52867336524718e-06,
+      "loss": 0.5683,
+      "step": 2215
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 7.476952440678663e-06,
+      "loss": 0.8862,
+      "step": 2220
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 6.490683606400273e-06,
+      "loss": 0.5336,
+      "step": 2225
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5.570922983785744e-06,
+      "loss": 0.7185,
+      "step": 2230
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 4.718655475547088e-06,
+      "loss": 0.6121,
+      "step": 2235
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 3.934793711076979e-06,
+      "loss": 0.4995,
+      "step": 2240
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.2201770691879365e-06,
+      "loss": 0.639,
+      "step": 2245
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 2.5755707792803602e-06,
+      "loss": 0.6703,
+      "step": 2250
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 2.001665101912862e-06,
+      "loss": 0.5835,
+      "step": 2255
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 1.499074589660724e-06,
+      "loss": 0.8827,
+      "step": 2260
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 1.0683374290336727e-06,
+      "loss": 0.521,
+      "step": 2265
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 7.099148641708803e-07,
+      "loss": 0.5759,
+      "step": 2270
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 4.2419070293249417e-07,
+      "loss": 0.4576,
+      "step": 2275
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 2.1147090590762733e-07,
+      "loss": 0.9183,
+      "step": 2280
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 7.19832587822494e-08,
+      "loss": 0.6811,
+      "step": 2285
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 5.877128423112166e-09,
+      "loss": 0.6599,
+      "step": 2290
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 1.3223302930315373e-08,
+      "loss": 0.8066,
+      "step": 2295
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 9.401391583621219e-08,
+      "loss": 0.93,
+      "step": 2300
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 2.4816245452881085e-07,
+      "loss": 0.7526,
+      "step": 2305
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 4.755038528919192e-07,
+      "loss": 0.6209,
+      "step": 2310
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 7.757946680618806e-07,
+      "loss": 0.5472,
+      "step": 2315
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 1.1487133411127057e-06,
+      "loss": 0.5128,
+      "step": 2320
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 1.5938605413876288e-06,
+      "loss": 0.5971,
+      "step": 2325
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 2.1107595941164267e-06,
+      "loss": 0.9001,
+      "step": 2330
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 2.698856990845814e-06,
+      "loss": 0.624,
+      "step": 2335
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 3.3575229821519346e-06,
+      "loss": 0.469,
+      "step": 2340
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 4.086052251995796e-06,
+      "loss": 0.7627,
+      "step": 2345
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.883664672985776e-06,
+      "loss": 0.5373,
+      "step": 2350
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 5.749506141764069e-06,
+      "loss": 0.684,
+      "step": 2355
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 6.682649493598944e-06,
+      "loss": 0.6701,
+      "step": 2360
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 7.682095495217462e-06,
+      "loss": 0.5721,
+      "step": 2365
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 8.746773914805009e-06,
+      "loss": 0.5432,
+      "step": 2370
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 9.875544668046303e-06,
+      "loss": 0.6582,
+      "step": 2375
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 1.1067199038944353e-05,
+      "loss": 0.5341,
+      "step": 2380
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.2320460974148876e-05,
+      "loss": 0.677,
+      "step": 2385
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 1.3633988449393231e-05,
+      "loss": 0.5661,
+      "step": 2390
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 1.5006374906553291e-05,
+      "loss": 0.4745,
+      "step": 2395
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.6436150759836066e-05,
+      "loss": 0.746,
+      "step": 2400
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.3943726122379303,
+      "eval_runtime": 15.4496,
+      "eval_samples_per_second": 44.661,
+      "eval_steps_per_second": 5.631,
+      "step": 2400
     }
   ],
+  "max_steps": 2400,
+  "num_train_epochs": 5,
+  "total_flos": 2505790586880000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28f78ff1353e48b556a427f64b800f3a4cfdb95bdf8553eb6558c9abb866bf9e
 size 3375

 version https://git-lfs.github.com/spec/v1
+oid sha256:16468c38c400c76b00da680c27696240fef059a3ea4837c5eeffa1b293611cac
 size 3375