End of training

Browse files

Files changed (8) hide show

README.md +11 -41
config.json +1 -1
generation_config.json +1 -1
model.safetensors +1 -1
runs/Nov21_05-50-36_3734642bcab5/events.out.tfevents.1732168238.3734642bcab5.505.0 +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -1
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -16,7 +16,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.0287
 ## Model description
@@ -41,50 +46,15 @@ The following hyperparameters were used during training:
 - seed: 42
 - gradient_accumulation_steps: 8
 - total_train_batch_size: 256
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
 - num_epochs: 5
 - mixed_precision_training: Native AMP
-### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 9.5172        | 0.1699 | 10   | 8.0210          |
-| 7.1368        | 0.3397 | 20   | 7.3939          |
-| 6.7858        | 0.5096 | 30   | 6.8556          |
-| 6.3872        | 0.6794 | 40   | 6.6165          |
-| 6.0964        | 0.8493 | 50   | 6.3605          |
-| 5.8534        | 1.0191 | 60   | 6.1202          |
-| 5.6031        | 1.1890 | 70   | 5.9613          |
-| 5.4271        | 1.3588 | 80   | 5.8534          |
-| 5.3319        | 1.5287 | 90   | 5.7526          |
-| 5.1911        | 1.6985 | 100  | 5.6603          |
-| 5.1143        | 1.8684 | 110  | 5.5964          |
-| 5.024         | 2.0382 | 120  | 5.5203          |
-| 4.8772        | 2.2081 | 130  | 5.4652          |
-| 4.8455        | 2.3779 | 140  | 5.4071          |
-| 4.7629        | 2.5478 | 150  | 5.3446          |
-| 4.6666        | 2.7176 | 160  | 5.2905          |
-| 4.6672        | 2.8875 | 170  | 5.2415          |
-| 4.5738        | 3.0573 | 180  | 5.2033          |
-| 4.4949        | 3.2272 | 190  | 5.1688          |
-| 4.4406        | 3.3970 | 200  | 5.1329          |
-| 4.4166        | 3.5669 | 210  | 5.1085          |
-| 4.3886        | 3.7367 | 220  | 5.0823          |
-| 4.3302        | 3.9066 | 230  | 5.0652          |
-| 4.3089        | 4.0764 | 240  | 5.0498          |
-| 4.2768        | 4.2463 | 250  | 5.0409          |
-| 4.2667        | 4.4161 | 260  | 5.0344          |
-| 4.2604        | 4.5860 | 270  | 5.0300          |
-| 4.2389        | 4.7558 | 280  | 5.0290          |
-| 4.2726        | 4.9257 | 290  | 5.0287          |
 ### Framework versions
-- Transformers 4.44.2
-- Pytorch 2.4.1+cu121
-- Datasets 3.0.0
-- Tokenizers 0.19.1

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- eval_loss: 5.4311
+- eval_runtime: 46.6056
+- eval_samples_per_second: 326.677
+- eval_steps_per_second: 10.213
+- epoch: 1.9231
+- step: 100
 ## Model description
 - seed: 42
 - gradient_accumulation_steps: 8
 - total_train_batch_size: 256
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
 - num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Framework versions
+- Transformers 4.46.2
+- Pytorch 2.5.1+cu121
+- Datasets 3.1.0
+- Tokenizers 0.20.3

config.json CHANGED Viewed

@@ -33,7 +33,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.44.2",
   "use_cache": true,
   "vocab_size": 50000
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
   "use_cache": true,
   "vocab_size": 50000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 0,
   "eos_token_id": 0,
-  "transformers_version": "4.44.2"
 }

   "_from_model_config": true,
   "bos_token_id": 0,
   "eos_token_id": 0,
+  "transformers_version": "4.46.2"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f430019026db6ff200038e7a0108878658540ca89445c55c151c654e439fee9d
 size 496984704

 version https://git-lfs.github.com/spec/v1
+oid sha256:14cdfec90ef91e4dcbd738cd97df720d52e7a43a3916ff7339e06cb62dbd8141
 size 496984704

runs/Nov21_05-50-36_3734642bcab5/events.out.tfevents.1732168238.3734642bcab5.505.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b65ccc2a459637d398a4a959b364924efd47f666d6ac75cf79f0eb5bcb60a97d
+size 10004

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -11,7 +11,7 @@
     }
   },
   "bos_token": "<|endoftext|>",
-  "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",

     }
   },
   "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:150690969cd7b3c9177d8824a179025f0f5cd07d5f9c03eb90877394a6e79743
-size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:0eca9d2b693c29b85caac61e598416591ea2f3230fcc75a172eca26c8efe0588
+size 5240