Model save

Browse files

Files changed (5) hide show

README.md +56 -54
adapter_model.safetensors +1 -1
all_results.json +6 -6
tokenizer.json +6 -1
train_results.json +6 -6

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6701
 ## Model description
@@ -36,9 +36,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0005
-- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 200
@@ -47,58 +49,58 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss |
-|:-------------:|:-----:|:-----:|:---------------:|
-| 0.7736        | 1.0   | 1066  | 0.7302          |
-| 0.7318        | 2.0   | 2132  | 0.7070          |
-| 0.7189        | 3.0   | 3198  | 0.7002          |
-| 0.7128        | 4.0   | 4264  | 0.6952          |
-| 0.7031        | 5.0   | 5330  | 0.6878          |
-| 0.6944        | 6.0   | 6396  | 0.6873          |
-| 0.6935        | 7.0   | 7462  | 0.6879          |
-| 0.6987        | 8.0   | 8528  | 0.6837          |
-| 0.7011        | 9.0   | 9594  | 0.6830          |
-| 0.6799        | 10.0  | 10660 | 0.6819          |
-| 0.6754        | 11.0  | 11726 | 0.6793          |
-| 0.6769        | 12.0  | 12792 | 0.6800          |
-| 0.6827        | 13.0  | 13858 | 0.6766          |
-| 0.6905        | 14.0  | 14924 | 0.6808          |
-| 0.6769        | 15.0  | 15990 | 0.6769          |
-| 0.6751        | 16.0  | 17056 | 0.6776          |
-| 0.688         | 17.0  | 18122 | 0.6739          |
-| 0.6922        | 18.0  | 19188 | 0.6772          |
-| 0.6804        | 19.0  | 20254 | 0.6743          |
-| 0.6718        | 20.0  | 21320 | 0.6738          |
-| 0.681         | 21.0  | 22386 | 0.6749          |
-| 0.6757        | 22.0  | 23452 | 0.6729          |
-| 0.6777        | 23.0  | 24518 | 0.6756          |
-| 0.6667        | 24.0  | 25584 | 0.6730          |
-| 0.6758        | 25.0  | 26650 | 0.6719          |
-| 0.6602        | 26.0  | 27716 | 0.6715          |
-| 0.6746        | 27.0  | 28782 | 0.6723          |
-| 0.6647        | 28.0  | 29848 | 0.6721          |
-| 0.6673        | 29.0  | 30914 | 0.6732          |
-| 0.6745        | 30.0  | 31980 | 0.6728          |
-| 0.6659        | 31.0  | 33046 | 0.6710          |
-| 0.6578        | 32.0  | 34112 | 0.6710          |
-| 0.6649        | 33.0  | 35178 | 0.6711          |
-| 0.6665        | 34.0  | 36244 | 0.6710          |
-| 0.6608        | 35.0  | 37310 | 0.6714          |
-| 0.6623        | 36.0  | 38376 | 0.6708          |
-| 0.6789        | 37.0  | 39442 | 0.6704          |
-| 0.6536        | 38.0  | 40508 | 0.6708          |
-| 0.6746        | 39.0  | 41574 | 0.6710          |
-| 0.6634        | 40.0  | 42640 | 0.6704          |
-| 0.65          | 41.0  | 43706 | 0.6710          |
-| 0.6638        | 42.0  | 44772 | 0.6702          |
-| 0.6586        | 43.0  | 45838 | 0.6705          |
-| 0.6546        | 44.0  | 46904 | 0.6706          |
-| 0.651         | 45.0  | 47970 | 0.6701          |
-| 0.6604        | 46.0  | 49036 | 0.6705          |
-| 0.6756        | 47.0  | 50102 | 0.6706          |
-| 0.6612        | 48.0  | 51168 | 0.6705          |
-| 0.6553        | 49.0  | 52234 | 0.6705          |
-| 0.6561        | 50.0  | 53300 | 0.6704          |
 ### Framework versions

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6709
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0005
+- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 200
 ### Training results
+| Training Loss | Epoch   | Step  | Validation Loss |
+|:-------------:|:-------:|:-----:|:---------------:|
+| 0.8989        | 1.0     | 267   | 0.7585          |
+| 0.7706        | 2.0     | 534   | 0.7264          |
+| 0.7441        | 3.0     | 801   | 0.7160          |
+| 0.7327        | 4.0     | 1068  | 0.7091          |
+| 0.7175        | 5.0     | 1335  | 0.7024          |
+| 0.7118        | 6.0     | 1602  | 0.6990          |
+| 0.7079        | 7.0     | 1869  | 0.6931          |
+| 0.6982        | 8.0     | 2136  | 0.6904          |
+| 0.6977        | 9.0     | 2403  | 0.6891          |
+| 0.6971        | 10.0    | 2670  | 0.6869          |
+| 0.6992        | 11.0    | 2937  | 0.6850          |
+| 0.6889        | 12.0    | 3204  | 0.6849          |
+| 0.6924        | 13.0    | 3471  | 0.6845          |
+| 0.6894        | 14.0    | 3738  | 0.6834          |
+| 0.6886        | 15.0    | 4005  | 0.6791          |
+| 0.6906        | 16.0    | 4272  | 0.6812          |
+| 0.6868        | 17.0    | 4539  | 0.6796          |
+| 0.6852        | 18.0    | 4806  | 0.6789          |
+| 0.6797        | 19.0    | 5073  | 0.6784          |
+| 0.6813        | 20.0    | 5340  | 0.6775          |
+| 0.6823        | 21.0    | 5607  | 0.6776          |
+| 0.6803        | 22.0    | 5874  | 0.6758          |
+| 0.6782        | 23.0    | 6141  | 0.6768          |
+| 0.6786        | 24.0    | 6408  | 0.6747          |
+| 0.677         | 25.0    | 6675  | 0.6740          |
+| 0.68          | 26.0    | 6942  | 0.6742          |
+| 0.6733        | 27.0    | 7209  | 0.6735          |
+| 0.6744        | 28.0    | 7476  | 0.6734          |
+| 0.6746        | 29.0    | 7743  | 0.6737          |
+| 0.674         | 30.0    | 8010  | 0.6753          |
+| 0.6694        | 31.0    | 8277  | 0.6731          |
+| 0.6731        | 32.0    | 8544  | 0.6734          |
+| 0.6683        | 33.0    | 8811  | 0.6723          |
+| 0.6712        | 34.0    | 9078  | 0.6723          |
+| 0.668         | 35.0    | 9345  | 0.6720          |
+| 0.6647        | 36.0    | 9612  | 0.6723          |
+| 0.664         | 37.0    | 9879  | 0.6713          |
+| 0.6707        | 38.0    | 10146 | 0.6724          |
+| 0.6704        | 39.0    | 10413 | 0.6715          |
+| 0.6675        | 40.0    | 10680 | 0.6715          |
+| 0.6673        | 41.0    | 10947 | 0.6718          |
+| 0.6656        | 42.0    | 11214 | 0.6713          |
+| 0.6659        | 43.0    | 11481 | 0.6715          |
+| 0.667         | 44.0    | 11748 | 0.6714          |
+| 0.6596        | 45.0    | 12015 | 0.6709          |
+| 0.6673        | 46.0    | 12282 | 0.6710          |
+| 0.6666        | 47.0    | 12549 | 0.6710          |
+| 0.6661        | 48.0    | 12816 | 0.6709          |
+| 0.6637        | 49.0    | 13083 | 0.6709          |
+| 0.665         | 49.8143 | 13300 | 0.6709          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba957f11db13a9e8f73c1f8911b6bed22c12d865876ae83c9696be2bebf14358
 size 309980480

 version https://git-lfs.github.com/spec/v1
+oid sha256:b04f408d064cb4f79b978c5bb2f2defecabff3f3874a4e8df5930e22ee4b90f7
 size 309980480

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 50.0,
     "eval_loss": 0.6701372861862183,
     "eval_runtime": 3.1131,
     "eval_samples_per_second": 587.189,
     "eval_steps_per_second": 73.559,
     "perplexity": 1.9545056288417388,
-    "total_flos": 2.3883058800820224e+16,
-    "train_loss": 0.6825056470402187,
-    "train_runtime": 1762.4542,
-    "train_samples_per_second": 241.935,
-    "train_steps_per_second": 30.242
 }

 {
+    "epoch": 49.814258911819884,
     "eval_loss": 0.6701372861862183,
     "eval_runtime": 3.1131,
     "eval_samples_per_second": 587.189,
     "eval_steps_per_second": 73.559,
     "perplexity": 1.9545056288417388,
+    "total_flos": 2.18714101825536e+16,
+    "train_loss": 0.6980596797627614,
+    "train_runtime": 3389.5401,
+    "train_samples_per_second": 125.799,
+    "train_steps_per_second": 3.924
 }

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 1024,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "total_flos": 2.3883058800820224e+16,
-    "train_loss": 0.6825056470402187,
-    "train_runtime": 1762.4542,
-    "train_samples_per_second": 241.935,
-    "train_steps_per_second": 30.242
 }

 {
+    "epoch": 49.814258911819884,
+    "total_flos": 2.18714101825536e+16,
+    "train_loss": 0.6980596797627614,
+    "train_runtime": 3389.5401,
+    "train_samples_per_second": 125.799,
+    "train_steps_per_second": 3.924
 }