Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +15 -5
config.json +1 -1
mergekit_config.yml +12 -1
model-00001-of-00001.safetensors +1 -1

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 base_model:
 - mllm-dev/gpt2_f_experiment_4
 - mllm-dev/gpt2_f_experiment_1
 - mllm-dev/gpt2_f_experiment_0
 - mllm-dev/gpt2_f_experiment_3
-- mllm-dev/gpt2_f_experiment_2
 library_name: transformers
 tags:
 - mergekit
@@ -18,24 +18,29 @@ This is a merge of pre-trained language models created using [mergekit](https://
 ## Merge Details
 ### Merge Method
-This model was merged using the [linear](https://arxiv.org/abs/2203.05482) merge method.
 ### Models Merged
 The following models were included in the merge:
 * [mllm-dev/gpt2_f_experiment_4](https://huggingface.co/mllm-dev/gpt2_f_experiment_4)
 * [mllm-dev/gpt2_f_experiment_1](https://huggingface.co/mllm-dev/gpt2_f_experiment_1)
-* [mllm-dev/gpt2_f_experiment_0](https://huggingface.co/mllm-dev/gpt2_f_experiment_0)
 * [mllm-dev/gpt2_f_experiment_3](https://huggingface.co/mllm-dev/gpt2_f_experiment_3)
-* [mllm-dev/gpt2_f_experiment_2](https://huggingface.co/mllm-dev/gpt2_f_experiment_2)
 ### Configuration
 The following YAML configuration was used to produce this model:
 ```yaml
 dtype: float16
-merge_method: linear
 slices:
 - sources:
   - layer_range: [0, 12]
@@ -43,29 +48,34 @@ slices:
       model:
         path: mllm-dev/gpt2_f_experiment_0
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_1
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_2
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_3
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_4
     parameters:
       weight: 1.0
 ```

 ---
 base_model:
 - mllm-dev/gpt2_f_experiment_4
+- mllm-dev/gpt2_f_experiment_2
 - mllm-dev/gpt2_f_experiment_1
 - mllm-dev/gpt2_f_experiment_0
 - mllm-dev/gpt2_f_experiment_3
 library_name: transformers
 tags:
 - mergekit
 ## Merge Details
 ### Merge Method
+This model was merged using the [DARE](https://arxiv.org/abs/2311.03099) [TIES](https://arxiv.org/abs/2306.01708) merge method using [mllm-dev/gpt2_f_experiment_0](https://huggingface.co/mllm-dev/gpt2_f_experiment_0) as a base.
 ### Models Merged
 The following models were included in the merge:
 * [mllm-dev/gpt2_f_experiment_4](https://huggingface.co/mllm-dev/gpt2_f_experiment_4)
+* [mllm-dev/gpt2_f_experiment_2](https://huggingface.co/mllm-dev/gpt2_f_experiment_2)
 * [mllm-dev/gpt2_f_experiment_1](https://huggingface.co/mllm-dev/gpt2_f_experiment_1)
 * [mllm-dev/gpt2_f_experiment_3](https://huggingface.co/mllm-dev/gpt2_f_experiment_3)
 ### Configuration
 The following YAML configuration was used to produce this model:
 ```yaml
+base_model:
+  model:
+    path: mllm-dev/gpt2_f_experiment_0
 dtype: float16
+merge_method: dare_ties
+parameters:
+  int8_mask: 1.0
+  normalize: 1.0
 slices:
 - sources:
   - layer_range: [0, 12]
       model:
         path: mllm-dev/gpt2_f_experiment_0
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_1
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_2
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_3
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_4
     parameters:
+      density: 1.0
       weight: 1.0
 ```

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "mllm-dev/gpt2_f_experiment_4",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2ForSequenceClassification"

 {
+  "_name_or_path": "mllm-dev/gpt2_f_experiment_0",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2ForSequenceClassification"

mergekit_config.yml CHANGED Viewed

@@ -1,5 +1,11 @@
 dtype: float16
-merge_method: linear
 slices:
 - sources:
   - layer_range: [0, 12]
@@ -7,28 +13,33 @@ slices:
       model:
         path: mllm-dev/gpt2_f_experiment_0
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_1
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_2
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_3
     parameters:
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_4
     parameters:
       weight: 1.0

+base_model:
+  model:
+    path: mllm-dev/gpt2_f_experiment_0
 dtype: float16
+merge_method: dare_ties
+parameters:
+  int8_mask: 1.0
+  normalize: 1.0
 slices:
 - sources:
   - layer_range: [0, 12]
       model:
         path: mllm-dev/gpt2_f_experiment_0
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_1
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_2
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_3
     parameters:
+      density: 1.0
       weight: 1.0
   - layer_range: [0, 12]
     model:
       model:
         path: mllm-dev/gpt2_f_experiment_4
     parameters:
+      density: 1.0
       weight: 1.0

model-00001-of-00001.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:109d22198c42220534f2b55ff9566334f14c2d3c6976f90d83b3d654b92dbc74
 size 248902264

 version https://git-lfs.github.com/spec/v1
+oid sha256:11322e145e7b61665593903f460c972df3374b662f8ac11f087211938f7fd91c
 size 248902264