{
  "architectures": [
    "Phi3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "auto_map": {
    "AutoConfig": "configuration_phi3.Phi3Config",
    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM",
    "AutoTokenizer": "Xenova/gpt-4o"
  },
  "bos_token_id": 199999,
  "dtype": "bfloat16",
  "embd_pdrop": 0.0,
  "eos_token_id": 199999,
  "full_attn_mod": 1,
  "hidden_act": "silu",
  "hidden_size": 3072,
  "initializer_range": 0.02,
  "intermediate_size": 8192,
  "interpolate_factor": 1,
  "lm_head_bias": false,
  "max_position_embeddings": 131072,
  "mlp_bias": false,
  "model_type": "phi3",
  "num_attention_heads": 24,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "original_max_position_embeddings": 4096,
  "pad_token_id": 199999,
  "partial_rotary_factor": 0.75,
  "quantization_config": {
    "include_input_output_embeddings": true,
    "modules_to_not_convert": [
      "model.layers.0.input_layernorm",
      "model.layers.0.post_attention_layernorm",
      "model.layers.1.input_layernorm",
      "model.layers.1.post_attention_layernorm",
      "model.layers.2.input_layernorm",
      "model.layers.2.post_attention_layernorm",
      "model.layers.3.input_layernorm",
      "model.layers.3.post_attention_layernorm",
      "model.layers.4.input_layernorm",
      "model.layers.4.post_attention_layernorm",
      "model.layers.5.input_layernorm",
      "model.layers.5.post_attention_layernorm",
      "model.layers.6.input_layernorm",
      "model.layers.6.post_attention_layernorm",
      "model.layers.7.input_layernorm",
      "model.layers.7.post_attention_layernorm",
      "model.layers.8.input_layernorm",
      "model.layers.8.post_attention_layernorm",
      "model.layers.9.input_layernorm",
      "model.layers.9.post_attention_layernorm",
      "model.layers.10.input_layernorm",
      "model.layers.10.post_attention_layernorm",
      "model.layers.11.input_layernorm",
      "model.layers.11.post_attention_layernorm",
      "model.layers.12.input_layernorm",
      "model.layers.12.post_attention_layernorm",
      "model.layers.13.input_layernorm",
      "model.layers.13.post_attention_layernorm",
      "model.layers.14.input_layernorm",
      "model.layers.14.post_attention_layernorm",
      "model.layers.15.input_layernorm",
      "model.layers.15.post_attention_layernorm",
      "model.layers.16.input_layernorm",
      "model.layers.16.post_attention_layernorm",
      "model.layers.17.input_layernorm",
      "model.layers.17.post_attention_layernorm",
      "model.layers.18.input_layernorm",
      "model.layers.18.post_attention_layernorm",
      "model.layers.19.input_layernorm",
      "model.layers.19.post_attention_layernorm",
      "model.layers.20.input_layernorm",
      "model.layers.20.post_attention_layernorm",
      "model.layers.21.input_layernorm",
      "model.layers.21.post_attention_layernorm",
      "model.layers.22.input_layernorm",
      "model.layers.22.post_attention_layernorm",
      "model.layers.23.input_layernorm",
      "model.layers.23.post_attention_layernorm",
      "model.layers.24.input_layernorm",
      "model.layers.24.post_attention_layernorm",
      "model.layers.25.input_layernorm",
      "model.layers.25.post_attention_layernorm",
      "model.layers.26.input_layernorm",
      "model.layers.26.post_attention_layernorm",
      "model.layers.27.input_layernorm",
      "model.layers.27.post_attention_layernorm",
      "model.layers.28.input_layernorm",
      "model.layers.28.post_attention_layernorm",
      "model.layers.29.input_layernorm",
      "model.layers.29.post_attention_layernorm",
      "model.layers.30.input_layernorm",
      "model.layers.30.post_attention_layernorm",
      "model.layers.31.input_layernorm",
      "model.layers.31.post_attention_layernorm",
      "model.norm",
      "lm_head"
    ],
    "quant_method": "torchao",
    "quant_type": {
      "default": {
        "_data": {
          "module_fqn_to_config": {
            "_default": {
              "_data": {
                "activation_quantization": "int8_asym_per_token",
                "b": 2,
                "granularity": {
                  "_data": {
                    "axis": 0
                  },
                  "_type": "PerAxis",
                  "_version": 1
                },
                "layout": {
                  "_data": {},
                  "_type": "QDQLayout",
                  "_version": 1
                },
                "quant_max": 1.5,
                "quant_min": -1.5,
                "scale_dtype": null
              },
              "_type": "StretchedIntxWeightConfig",
              "_version": 2
            },
            "model.embed_tokens": {
              "_data": {
                "act_mapping_type": {
                  "_data": "ASYMMETRIC",
                  "_type": "MappingType"
                },
                "intx_choose_qparams_algorithm": {
                  "_data": "AFFINE",
                  "_type": "IntxChooseQParamsAlgorithm"
                },
                "intx_packing_format": {
                  "_data": "UNPACKED_TO_INT8",
                  "_type": "IntxPackingFormat"
                },
                "layout": {
                  "_data": {},
                  "_type": "QDQLayout",
                  "_version": 1
                },
                "weight_dtype": {
                  "_data": "int4",
                  "_type": "torch.dtype"
                },
                "weight_granularity": {
                  "_data": {
                    "axis": 0
                  },
                  "_type": "PerAxis",
                  "_version": 1
                },
                "weight_mapping_type": {
                  "_data": "SYMMETRIC",
                  "_type": "MappingType"
                },
                "weight_scale_dtype": null
              },
              "_type": "Int8DynamicActivationIntxWeightConfig",
              "_version": 2
            }
          }
        },
        "_type": "ModuleFqnToConfig",
        "_version": 1
      }
    },
    "quant_type_kwargs": {},
    "untie_embedding_weights": false
  },
  "resid_pdrop": 0.0,
  "rms_norm_eps": 1e-05,
  "rope_scaling": {
    "long_factor": [
      1,
      1.118320672,
      1.250641126,
      1.398617824,
      1.564103225,
      1.74916897,
      1.956131817,
      2.187582649,
      2.446418898,
      2.735880826,
      3.059592084,
      3.421605075,
      3.826451687,
      4.279200023,
      4.785517845,
      5.351743533,
      5.984965424,
      6.693110555,
      7.485043894,
      8.370679318,
      9.36110372,
      10.4687158,
      11.70738129,
      13.09260651,
      14.64173252,
      16.37415215,
      18.31155283,
      20.47818807,
      22.90118105,
      25.61086418,
      28.64115884,
      32.03,
      32.1,
      32.13,
      32.23,
      32.6,
      32.61,
      32.64,
      32.66,
      32.7,
      32.71,
      32.93,
      32.97,
      33.28,
      33.49,
      33.5,
      44.16,
      47.77
    ],
    "short_factor": [
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0,
      1.0
    ],
    "type": "longrope"
  },
  "rope_theta": 10000.0,
  "sliding_window": 262144,
  "tie_word_embeddings": true,
  "transformers_version": "4.56.2",
  "use_cache": true,
  "vocab_size": 200064
}