final_merge_ja_e57b_tydija

This is a merge of pre-trained language models created using mergekit.

Merge Details

Merge Method

This model was merged using the DARE TIES merge method using ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088 as a base.

Models Merged

The following models were included in the merge:

./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900

Configuration

The following YAML configuration was used to produce this model:

base_model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
dtype: bfloat16
merge_method: dare_ties
parameters:
  int8_mask: 1.0
  normalize: 1.0
slices:
- sources:
  - layer_range: [0, 4]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 0.9567125290278002
      weight: 0.7329399429419414
  - layer_range: [0, 4]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 1.0
      weight: 0.6175016127199866
- sources:
  - layer_range: [4, 8]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 0.7351530312710608
      weight: 0.9361918263111237
  - layer_range: [4, 8]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 1.0
      weight: 0.6261500333536962
- sources:
  - layer_range: [8, 12]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 1.0
      weight: 0.38219531855733224
  - layer_range: [8, 12]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 0.9560023967707558
      weight: 0.4847363738604221
- sources:
  - layer_range: [12, 16]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 1.0
      weight: 0.9760238855152437
  - layer_range: [12, 16]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 0.9962392996911643
      weight: 0.6535045223316338
- sources:
  - layer_range: [16, 20]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 1.0
      weight: 0.32930274558082606
  - layer_range: [16, 20]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 0.9095162947498548
      weight: 0.7439598517576353
- sources:
  - layer_range: [20, 24]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 0.756559714204041
      weight: 0.44719009636986334
  - layer_range: [20, 24]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 1.0
      weight: 0.348213220068222
- sources:
  - layer_range: [24, 28]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 1.0
      weight: 0.5663144522369852
  - layer_range: [24, 28]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 1.0
      weight: 0.5221351804388025
- sources:
  - layer_range: [28, 32]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/e5-mistral-7b-instruct_2385958088
    parameters:
      density: 1.0
      weight: 0.3974171827818004
  - layer_range: [28, 32]
    model: ./evol_merge_storage_ja_e57b_tydija/input_models/japanese-stablelm-base-gamma-7b_545310900
    parameters:
      density: 0.9839795858964644
      weight: 0.2576111697863762

Downloads last month: -

Safetensors

Model size

7B params

Tensor type

BF16

Papers for ssktora/ja_e57b_merge_tydija

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

Paper • 2311.03099 • Published Nov 6, 2023 • 30

Resolving Interference When Merging Models

Paper • 2306.01708 • Published Jun 2, 2023 • 17