End of training

Browse files

Files changed (4) hide show

README.md +32 -47
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -5,7 +5,7 @@ library_name: peft
 tags:
 - generated_from_trainer
 datasets:
-- khalidalt/tydiqa-goldp
 base_model: microsoft/phi-2
 model-index:
 - name: phi-2
@@ -17,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # phi-2
-This model is a fine-tuned version of [microsoftl](https://huggingface.co/microsoftl) on the khalidalt/tydiqa-goldp dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1016
 ## Model description
@@ -39,66 +39,51 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2.5e-05
-- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 4
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 5
-- training_steps: 2000
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.7708        | 0.02  | 50   | 1.5184          |
-| 1.4903        | 0.04  | 100  | 1.2735          |
-| 1.3474        | 0.06  | 150  | 1.2167          |
-| 1.3178        | 0.08  | 200  | 1.1864          |
-| 1.2963        | 0.1   | 250  | 1.1750          |
-| 1.2671        | 0.12  | 300  | 1.1676          |
-| 1.2484        | 0.14  | 350  | 1.1597          |
-| 1.2797        | 0.16  | 400  | 1.1546          |
-| 1.3196        | 0.18  | 450  | 1.1495          |
-| 1.2881        | 0.2   | 500  | 1.1435          |
-| 1.2389        | 0.22  | 550  | 1.1416          |
-| 1.2489        | 0.24  | 600  | 1.1371          |
-| 1.2223        | 0.26  | 650  | 1.1339          |
-| 1.2012        | 0.28  | 700  | 1.1307          |
-| 1.2285        | 0.3   | 750  | 1.1285          |
-| 1.255         | 0.32  | 800  | 1.1251          |
-| 1.2739        | 0.34  | 850  | 1.1229          |
-| 1.2412        | 0.36  | 900  | 1.1217          |
-| 1.2094        | 0.38  | 950  | 1.1204          |
-| 1.246         | 0.4   | 1000 | 1.1202          |
-| 1.1737        | 0.42  | 1050 | 1.1161          |
-| 1.2427        | 0.44  | 1100 | 1.1144          |
-| 1.2235        | 0.46  | 1150 | 1.1131          |
-| 1.2301        | 0.48  | 1200 | 1.1119          |
-| 1.1854        | 0.5   | 1250 | 1.1111          |
-| 1.1949        | 0.52  | 1300 | 1.1094          |
-| 1.243         | 0.54  | 1350 | 1.1088          |
-| 1.2121        | 0.56  | 1400 | 1.1081          |
-| 1.2124        | 0.58  | 1450 | 1.1081          |
-| 1.2065        | 0.6   | 1500 | 1.1061          |
-| 1.2357        | 0.62  | 1550 | 1.1058          |
-| 1.2253        | 0.64  | 1600 | 1.1050          |
-| 1.1751        | 0.66  | 1650 | 1.1034          |
-| 1.2171        | 0.68  | 1700 | 1.1042          |
-| 1.2091        | 0.7   | 1750 | 1.1038          |
-| 1.2111        | 0.72  | 1800 | 1.1027          |
-| 1.1808        | 0.74  | 1850 | 1.1023          |
-| 1.1233        | 0.76  | 1900 | 1.1020          |
-| 1.2327        | 0.78  | 1950 | 1.1020          |
-| 1.1534        | 0.8   | 2000 | 1.1016          |
 ### Framework versions
 - PEFT 0.7.2.dev0
-- Transformers 4.37.0.dev0
 - Pytorch 2.1.0+cu121
 - Datasets 2.16.1
 - Tokenizers 0.15.0

 tags:
 - generated_from_trainer
 datasets:
+- dalyaff/darebah
 base_model: microsoft/phi-2
 model-index:
 - name: phi-2
 # phi-2
+This model is a fine-tuned version of [microsoftl](https://huggingface.co/microsoftl) on the dalyaff/darebah dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7778
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2.5e-05
+- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 5
+- training_steps: 2500
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1134        | 0.89  | 100  | 1.0092          |
+| 0.8768        | 1.78  | 200  | 0.8800          |
+| 0.7644        | 2.67  | 300  | 0.8329          |
+| 0.7516        | 3.56  | 400  | 0.8081          |
+| 0.6618        | 4.44  | 500  | 0.7909          |
+| 0.6373        | 5.33  | 600  | 0.7845          |
+| 0.6154        | 6.22  | 700  | 0.7688          |
+| 0.6056        | 7.11  | 800  | 0.7716          |
+| 0.5719        | 8.0   | 900  | 0.7662          |
+| 0.5575        | 8.89  | 1000 | 0.7700          |
+| 0.5302        | 9.78  | 1100 | 0.7689          |
+| 0.5465        | 10.67 | 1200 | 0.7688          |
+| 0.5321        | 11.56 | 1300 | 0.7719          |
+| 0.5141        | 12.44 | 1400 | 0.7684          |
+| 0.5033        | 13.33 | 1500 | 0.7716          |
+| 0.4931        | 14.22 | 1600 | 0.7664          |
+| 0.4882        | 15.11 | 1700 | 0.7739          |
+| 0.4742        | 16.0  | 1800 | 0.7757          |
+| 0.4701        | 16.89 | 1900 | 0.7717          |
+| 0.4932        | 17.78 | 2000 | 0.7748          |
+| 0.4665        | 18.67 | 2100 | 0.7734          |
+| 0.4614        | 19.56 | 2200 | 0.7809          |
+| 0.4669        | 20.44 | 2300 | 0.7793          |
+| 0.4635        | 21.33 | 2400 | 0.7750          |
+| 0.452         | 22.22 | 2500 | 0.7778          |
 ### Framework versions
 - PEFT 0.7.2.dev0
+- Transformers 4.38.0.dev0
 - Pytorch 2.1.0+cu121
 - Datasets 2.16.1
 - Tokenizers 0.15.0

adapter_config.json CHANGED Viewed

@@ -19,9 +19,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "fc2",
     "Wqkv",
-    "fc1"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "fc1",
     "Wqkv",
+    "fc2"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dd10889dadd087fa291436864ccdac17731c0dd6208b018f4dea2b697502500
 size 26230352

 version https://git-lfs.github.com/spec/v1
+oid sha256:a79aaf3d7aa0749d8eeac205eda983a3043a10e340e9c4c3309ea982c1701255
 size 26230352

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:170d2b4f2c9cdc6279d2c61d071af5acc95390892cc5d989ccbd02fd5053105a
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:81805563aacbaa907dc88ef1c48e665dc7cae63d4c7712b9231d6b3b149d7357
 size 4664