ibokajordan/GPT2_rag

Files changed (5) hide show

README.md CHANGED Viewed

@@ -33,12 +33,15 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 3
 ### Training results

 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 4
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 3
+- mixed_precision_training: Native AMP
 ### Training results

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b296f305632899d0985a56cec5541a29abd839db0d74ee521d43d0131db97dd6
 size 497777280

 version https://git-lfs.github.com/spec/v1
+oid sha256:032c501a66171dfea102fcf861ebb7e7d59b545c2c12630ea13138cb377cb1ae
 size 497777280

tokenizer.json CHANGED Viewed

@@ -1,7 +1,21 @@
 {
   "version": "1.0",
-  "truncation": null,
-  "padding": null,
   "added_tokens": [
     {
       "id": 50257,

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
+  "padding": {
+    "strategy": {
+      "Fixed": 512
+    },
+    "direction": "Right",
+    "pad_to_multiple_of": null,
+    "pad_id": 50257,
+    "pad_type_id": 0,
+    "pad_token": "<|endoftext|>"
+  },
   "added_tokens": [
     {
       "id": 50257,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe6c011189740c16d4f2b152a8d5ca389686360de642e0a91761727e9bc30e75
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:756016f82bd3348f455723ea309f5d461807a4bfcb9c66e8618507e7435ccf10
 size 5304

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff