huggingartists

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +2 -2
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +0 -0
trainer_state.json +430 -6
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/bob-dylan")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/12pi332s/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Bob Dylan's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/34f7xa4s) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/34f7xa4s/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/bob-dylan")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/31a7e0lm/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Bob Dylan's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1h7wqver) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1h7wqver/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "huggingartists/bob-dylan",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
@@ -36,7 +36,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.12.3",
   "use_cache": true,
   "vocab_size": 50257
 }

 {
+  "_name_or_path": "bob-dylan",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~7831153869628906~~, "eval_runtime": 20.~~4767~~, "eval_samples_per_second": 21.~~927~~, "eval_steps_per_second": 2.~~784~~, "epoch": 11.0}


1	+ {"eval_loss": 1.1156859397888184, "eval_runtime": 5.2897, "eval_samples_per_second": 82.046, "eval_steps_per_second": 10.398, "epoch": 11.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5455703e728e3cd6ffaf593b10aa5cf2233c7023ca11e9c24155e6a409f30a46
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:52eb735612f0abe86a36c99bbc88e4b736d213924b487ddc439a7fda4f3738ba
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b57dd3c115876c0c7ea6456370527f6da21f3a6c9135e1da512b9308141a7e4
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:20df6e4328ecf349bf08cc74a4faa3ceabf0373ff1ce5c11ee4657c56c5ebe05
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32d33cb397d94e7ed9e2034a93b3d7fc4a7c2474a08659ab20f0ff40914ebf69
-size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cbda632eba71ca8a5a6d2b2a32f60a0e0d89f0b2b5f27757234f2f9dea5b2bc
+size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bb5c4b938e52242f003d2aafdabeacb8b2645526444936a3f4c1786f434041a
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:7446d5500cdd6761e0d9b127f879a785bc53369d1cd3923b64bfed4fdcf6b5a3
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b7edfdb51a39bca06643e38f8438d076a87c514b98497804d576bdb518cb004
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:07ca2fdd8c3e336181f82585738bd2cd39530e31bea6189b6d35d926f6c48442
 size 623

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.7831153869628906,
-  "best_model_checkpoint": "output/bob-dylan/checkpoint-3180",
-  "epoch": 10.0,
-  "global_step": 3180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3902,11 +3902,435 @@
       "eval_samples_per_second": 22.062,
       "eval_steps_per_second": 2.801,
       "step": 3180
     }
   ],
-  "max_steps": 3498,
   "num_train_epochs": 11,
-  "total_flos": 3314620071936000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.1156859397888184,
+  "best_model_checkpoint": "output/bob-dylan/checkpoint-3520",
+  "epoch": 11.0,
+  "global_step": 3520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.062,
       "eval_steps_per_second": 2.801,
       "step": 3180
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 0.00013645750858358395,
+      "loss": 1.2433,
+      "step": 3185
+    },
+    {
+      "epoch": 9.97,
+      "learning_rate": 0.0001368696722497127,
+      "loss": 1.547,
+      "step": 3190
+    },
+    {
+      "epoch": 9.98,
+      "learning_rate": 0.00013711736829567482,
+      "loss": 1.4594,
+      "step": 3195
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.3407,
+      "step": 3200
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.139600157737732,
+      "eval_runtime": 5.2723,
+      "eval_samples_per_second": 82.317,
+      "eval_steps_per_second": 10.432,
+      "step": 3200
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 0.00013711736829567482,
+      "loss": 1.4415,
+      "step": 3205
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 0.00013686967224971273,
+      "loss": 1.2348,
+      "step": 3210
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 0.00013645750858358398,
+      "loss": 1.4623,
+      "step": 3215
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 0.00013588187023566163,
+      "loss": 1.437,
+      "step": 3220
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 0.00013514414396914573,
+      "loss": 1.6916,
+      "step": 3225
+    },
+    {
+      "epoch": 10.09,
+      "learning_rate": 0.00013424610703122958,
+      "loss": 1.7023,
+      "step": 3230
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 0.00013318992287155525,
+      "loss": 1.3172,
+      "step": 3235
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 0.00013197813593027435,
+      "loss": 1.2053,
+      "step": 3240
+    },
+    {
+      "epoch": 10.14,
+      "learning_rate": 0.00013061366550826825,
+      "loss": 1.1869,
+      "step": 3245
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 0.00012909979873429724,
+      "loss": 1.2981,
+      "step": 3250
+    },
+    {
+      "epoch": 10.17,
+      "learning_rate": 0.0001274401826460187,
+      "loss": 1.6608,
+      "step": 3255
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 0.00012563881540395474,
+      "loss": 1.3115,
+      "step": 3260
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 0.00012370003665957216,
+      "loss": 1.2824,
+      "step": 3265
+    },
+    {
+      "epoch": 10.22,
+      "learning_rate": 0.00012162851710068375,
+      "loss": 1.4082,
+      "step": 3270
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 0.00011942924719935029,
+      "loss": 1.3048,
+      "step": 3275
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 0.00011710752518939736,
+      "loss": 1.3276,
+      "step": 3280
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 0.0001146689443025054,
+      "loss": 1.4064,
+      "step": 3285
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 0.00011211937929362613,
+      "loss": 1.2408,
+      "step": 3290
+    },
+    {
+      "epoch": 10.3,
+      "learning_rate": 0.00010946497228818107,
+      "loss": 1.3932,
+      "step": 3295
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 0.00010671211798514499,
+      "loss": 1.4576,
+      "step": 3300
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 0.00010386744825165496,
+      "loss": 1.455,
+      "step": 3305
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 0.00010093781614626351,
+      "loss": 1.3289,
+      "step": 3310
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 9.793027940931756e-05,
+      "loss": 1.2645,
+      "step": 3315
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 9.485208346024504e-05,
+      "loss": 1.39,
+      "step": 3320
+    },
+    {
+      "epoch": 10.39,
+      "learning_rate": 9.17106439427063e-05,
+      "loss": 1.3945,
+      "step": 3325
+    },
+    {
+      "epoch": 10.41,
+      "learning_rate": 8.851352885965625e-05,
+      "loss": 1.5375,
+      "step": 3330
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 8.526844034136417e-05,
+      "loss": 1.4077,
+      "step": 3335
+    },
+    {
+      "epoch": 10.44,
+      "learning_rate": 8.198319609030632e-05,
+      "loss": 1.4331,
+      "step": 3340
+    },
+    {
+      "epoch": 10.45,
+      "learning_rate": 7.866571054763788e-05,
+      "loss": 1.8602,
+      "step": 3345
+    },
+    {
+      "epoch": 10.47,
+      "learning_rate": 7.532397582660805e-05,
+      "loss": 1.4865,
+      "step": 3350
+    },
+    {
+      "epoch": 10.48,
+      "learning_rate": 7.19660424588612e-05,
+      "loss": 1.2815,
+      "step": 3355
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 6.859999999999997e-05,
+      "loss": 1.4705,
+      "step": 3360
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 6.523395754113922e-05,
+      "loss": 1.1969,
+      "step": 3365
+    },
+    {
+      "epoch": 10.53,
+      "learning_rate": 6.187602417339237e-05,
+      "loss": 1.4564,
+      "step": 3370
+    },
+    {
+      "epoch": 10.55,
+      "learning_rate": 5.853428945236207e-05,
+      "loss": 1.4113,
+      "step": 3375
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 5.521680390969362e-05,
+      "loss": 1.4642,
+      "step": 3380
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 5.193155965863624e-05,
+      "loss": 1.4196,
+      "step": 3385
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 4.8686471140344147e-05,
+      "loss": 1.3666,
+      "step": 3390
+    },
+    {
+      "epoch": 10.61,
+      "learning_rate": 4.548935605729363e-05,
+      "loss": 1.3908,
+      "step": 3395
+    },
+    {
+      "epoch": 10.62,
+      "learning_rate": 4.23479165397549e-05,
+      "loss": 1.4785,
+      "step": 3400
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 3.926972059068282e-05,
+      "loss": 1.4775,
+      "step": 3405
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 3.626218385373685e-05,
+      "loss": 1.4841,
+      "step": 3410
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 3.333255174834496e-05,
+      "loss": 1.4263,
+      "step": 3415
+    },
+    {
+      "epoch": 10.69,
+      "learning_rate": 3.0487882014855373e-05,
+      "loss": 1.4815,
+      "step": 3420
+    },
+    {
+      "epoch": 10.7,
+      "learning_rate": 2.7735027711819264e-05,
+      "loss": 1.3612,
+      "step": 3425
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 2.508062070637383e-05,
+      "loss": 1.3586,
+      "step": 3430
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 2.253105569749455e-05,
+      "loss": 1.4036,
+      "step": 3435
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 2.0092474810602945e-05,
+      "loss": 1.2455,
+      "step": 3440
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 1.7770752800649997e-05,
+      "loss": 1.3747,
+      "step": 3445
+    },
+    {
+      "epoch": 10.78,
+      "learning_rate": 1.5571482899316204e-05,
+      "loss": 1.2848,
+      "step": 3450
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 1.3499963340427795e-05,
+      "loss": 1.5623,
+      "step": 3455
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 1.1561184596045504e-05,
+      "loss": 1.4704,
+      "step": 3460
+    },
+    {
+      "epoch": 10.83,
+      "learning_rate": 9.759817353981509e-06,
+      "loss": 1.3271,
+      "step": 3465
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 8.100201265702836e-06,
+      "loss": 1.2696,
+      "step": 3470
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 6.586334491731833e-06,
+      "loss": 1.5138,
+      "step": 3475
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 5.221864069725821e-06,
+      "loss": 1.344,
+      "step": 3480
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 4.010077128444735e-06,
+      "loss": 1.3544,
+      "step": 3485
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 2.9538929687704825e-06,
+      "loss": 1.6602,
+      "step": 3490
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 2.0558560308543213e-06,
+      "loss": 1.3761,
+      "step": 3495
+    },
+    {
+      "epoch": 10.94,
+      "learning_rate": 1.3181297643384459e-06,
+      "loss": 1.3709,
+      "step": 3500
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 7.424914164160148e-07,
+      "loss": 1.3595,
+      "step": 3505
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 3.303277502872983e-07,
+      "loss": 1.4077,
+      "step": 3510
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 8.263170432518063e-08,
+      "loss": 1.4356,
+      "step": 3515
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 0.0,
+      "loss": 1.7243,
+      "step": 3520
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 1.1156859397888184,
+      "eval_runtime": 5.2715,
+      "eval_samples_per_second": 82.33,
+      "eval_steps_per_second": 10.433,
+      "step": 3520
     }
   ],
+  "max_steps": 3520,
   "num_train_epochs": 11,
+  "total_flos": 3668148191232000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca4b64b447bcbc63fee889d7ebeafbf9eae6a003aa7f37b487c1df50308adc16
-size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:8998c8154106cd43a7d424edf953518beb4d146ebea8364f94c30b8bca6902f7
+size 3247