Model save

Browse files

Files changed (4) hide show

README.md +54 -56
adapter_model.safetensors +1 -1
all_results.json +6 -6
train_results.json +6 -6

README.md CHANGED Viewed

@@ -5,18 +5,18 @@ base_model: gpt2
 tags:
 - generated_from_trainer
 model-index:
-- name: Se124M10KInfPrompt_endtoken_ls
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# Se124M10KInfPrompt_endtoken_ls
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0494
 ## Model description
@@ -35,68 +35,66 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0005
-- train_batch_size: 4
-- eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: cosine
-- lr_scheduler_warmup_steps: 200
 - num_epochs: 50
 - mixed_precision_training: Native AMP
-- label_smoothing_factor: 0.1
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss |
 |:-------------:|:-----:|:-----:|:---------------:|
-| 19.0863       | 1.0   | 267   | 2.1942          |
-| 17.6413       | 2.0   | 534   | 2.1318          |
-| 17.3454       | 3.0   | 801   | 2.1143          |
-| 17.2455       | 4.0   | 1068  | 2.0979          |
-| 17.112        | 5.0   | 1335  | 2.0918          |
-| 17.0311       | 6.0   | 1602  | 2.0852          |
-| 16.9714       | 7.0   | 1869  | 2.0805          |
-| 16.8883       | 8.0   | 2136  | 2.0760          |
-| 16.8675       | 9.0   | 2403  | 2.0727          |
-| 16.8491       | 10.0  | 2670  | 2.0699          |
-| 16.8653       | 11.0  | 2937  | 2.0698          |
-| 16.7795       | 12.0  | 3204  | 2.0718          |
-| 16.8033       | 13.0  | 3471  | 2.0635          |
-| 16.7715       | 14.0  | 3738  | 2.0644          |
-| 16.7677       | 15.0  | 4005  | 2.0632          |
-| 16.7682       | 16.0  | 4272  | 2.0615          |
-| 16.7473       | 17.0  | 4539  | 2.0598          |
-| 16.7306       | 18.0  | 4806  | 2.0615          |
-| 16.6896       | 19.0  | 5073  | 2.0586          |
-| 16.7027       | 20.0  | 5340  | 2.0589          |
-| 16.6991       | 21.0  | 5607  | 2.0581          |
-| 16.6864       | 22.0  | 5874  | 2.0573          |
-| 16.6749       | 23.0  | 6141  | 2.0562          |
-| 16.6714       | 24.0  | 6408  | 2.0551          |
-| 16.6603       | 25.0  | 6675  | 2.0546          |
-| 16.6801       | 26.0  | 6942  | 2.0542          |
-| 16.6263       | 27.0  | 7209  | 2.0541          |
-| 16.6436       | 28.0  | 7476  | 2.0531          |
-| 16.6471       | 29.0  | 7743  | 2.0523          |
-| 16.6412       | 30.0  | 8010  | 2.0549          |
-| 16.6017       | 31.0  | 8277  | 2.0529          |
-| 16.6352       | 32.0  | 8544  | 2.0510          |
-| 16.5937       | 33.0  | 8811  | 2.0522          |
-| 16.6165       | 34.0  | 9078  | 2.0511          |
-| 16.5961       | 35.0  | 9345  | 2.0518          |
-| 16.5675       | 36.0  | 9612  | 2.0514          |
-| 16.5565       | 37.0  | 9879  | 2.0499          |
-| 16.6215       | 38.0  | 10146 | 2.0504          |
-| 16.6133       | 39.0  | 10413 | 2.0505          |
-| 16.5901       | 40.0  | 10680 | 2.0492          |
-| 16.5841       | 41.0  | 10947 | 2.0500          |
-| 16.5856       | 42.0  | 11214 | 2.0493          |
-| 16.5775       | 43.0  | 11481 | 2.0494          |
-| 16.5873       | 44.0  | 11748 | 2.0497          |
-| 16.5285       | 45.0  | 12015 | 2.0494          |
 ### Framework versions

 tags:
 - generated_from_trainer
 model-index:
+- name: Se124M10KInfPrompt
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Se124M10KInfPrompt
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7133
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
 - num_epochs: 50
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss |
 |:-------------:|:-----:|:-----:|:---------------:|
+| 0.4014        | 1.0   | 267   | 1.0141          |
+| 0.2422        | 2.0   | 534   | 0.8523          |
+| 0.2202        | 3.0   | 801   | 0.8168          |
+| 0.2129        | 4.0   | 1068  | 0.7993          |
+| 0.2059        | 5.0   | 1335  | 0.7837          |
+| 0.2041        | 6.0   | 1602  | 0.7695          |
+| 0.2031        | 7.0   | 1869  | 0.7635          |
+| 0.1982        | 8.0   | 2136  | 0.7586          |
+| 0.1975        | 9.0   | 2403  | 0.7532          |
+| 0.1974        | 10.0  | 2670  | 0.7483          |
+| 0.1978        | 11.0  | 2937  | 0.7467          |
+| 0.1939        | 12.0  | 3204  | 0.7445          |
+| 0.1953        | 13.0  | 3471  | 0.7439          |
+| 0.1929        | 14.0  | 3738  | 0.7362          |
+| 0.1937        | 15.0  | 4005  | 0.7328          |
+| 0.1934        | 16.0  | 4272  | 0.7329          |
+| 0.1927        | 17.0  | 4539  | 0.7323          |
+| 0.1927        | 18.0  | 4806  | 0.7257          |
+| 0.1909        | 19.0  | 5073  | 0.7276          |
+| 0.1919        | 20.0  | 5340  | 0.7251          |
+| 0.1919        | 21.0  | 5607  | 0.7239          |
+| 0.1912        | 22.0  | 5874  | 0.7260          |
+| 0.1897        | 23.0  | 6141  | 0.7241          |
+| 0.1916        | 24.0  | 6408  | 0.7235          |
+| 0.1905        | 25.0  | 6675  | 0.7225          |
+| 0.1919        | 26.0  | 6942  | 0.7188          |
+| 0.1883        | 27.0  | 7209  | 0.7207          |
+| 0.1898        | 28.0  | 7476  | 0.7198          |
+| 0.1874        | 29.0  | 7743  | 0.7195          |
+| 0.188         | 30.0  | 8010  | 0.7194          |
+| 0.1873        | 31.0  | 8277  | 0.7182          |
+| 0.1878        | 32.0  | 8544  | 0.7212          |
+| 0.1866        | 33.0  | 8811  | 0.7171          |
+| 0.1883        | 34.0  | 9078  | 0.7151          |
+| 0.1881        | 35.0  | 9345  | 0.7176          |
+| 0.1868        | 36.0  | 9612  | 0.7149          |
+| 0.1871        | 37.0  | 9879  | 0.7157          |
+| 0.1876        | 38.0  | 10146 | 0.7162          |
+| 0.188         | 39.0  | 10413 | 0.7142          |
+| 0.1861        | 40.0  | 10680 | 0.7149          |
+| 0.1862        | 41.0  | 10947 | 0.7144          |
+| 0.1862        | 42.0  | 11214 | 0.7128          |
+| 0.186         | 43.0  | 11481 | 0.7136          |
+| 0.1868        | 44.0  | 11748 | 0.7137          |
+| 0.1837        | 45.0  | 12015 | 0.7138          |
+| 0.1868        | 46.0  | 12282 | 0.7141          |
+| 0.187         | 47.0  | 12549 | 0.7133          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98f4ac492147ad276077dbf256d43da87d4144b1212a22da1e960ce2c439e49e
 size 309980480

 version https://git-lfs.github.com/spec/v1
+oid sha256:84669f99a89075044443690a296320a3a4634b7bf5db8b82193fbdbcab618fce
 size 309980480

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 45.0,
     "eval_loss": 2.0493669509887695,
     "eval_runtime": 3.2905,
     "eval_samples_per_second": 555.532,
     "eval_steps_per_second": 69.594,
     "perplexity": 7.7629852003609585,
-    "total_flos": 1.975920863064883e+16,
-    "train_loss": 16.87015275197182,
-    "train_runtime": 3210.0048,
-    "train_samples_per_second": 132.835,
-    "train_steps_per_second": 4.143
 }

 {
+    "epoch": 47.0,
     "eval_loss": 2.0493669509887695,
     "eval_runtime": 3.2905,
     "eval_samples_per_second": 555.532,
     "eval_steps_per_second": 69.594,
     "perplexity": 7.7629852003609585,
+    "total_flos": 2.5044104326938624e+16,
+    "train_loss": 0.1997737506061201,
+    "train_runtime": 1307.9406,
+    "train_samples_per_second": 326.009,
+    "train_steps_per_second": 10.207
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 45.0,
-    "total_flos": 1.975920863064883e+16,
-    "train_loss": 16.87015275197182,
-    "train_runtime": 3210.0048,
-    "train_samples_per_second": 132.835,
-    "train_steps_per_second": 4.143
 }

 {
+    "epoch": 47.0,
+    "total_flos": 2.5044104326938624e+16,
+    "train_loss": 0.1997737506061201,
+    "train_runtime": 1307.9406,
+    "train_samples_per_second": 326.009,
+    "train_steps_per_second": 10.207
 }