File size: 3,613 Bytes

{
  "architectures": [
    "RegressLMForConditionalGeneration"
  ],
  "auto_map": {
    "AutoConfig": "configuration_regresslm.RegressLMConfig",
    "AutoModelForSeq2SeqLM": "modeling_regresslm.RegressLMForConditionalGeneration",
    "AutoTokenizer": [
      "tokenization_p10.IEEEFloatTokenizer",
      null
    ]
  },
  "backbone_config": {
    "architectures": [
      "T5GemmaForConditionalGeneration"
    ],
    "classifier_dropout_rate": 0.0,
    "decoder": {
      "attention_bias": false,
      "attention_dropout": 0.0,
      "attn_logit_softcapping": 50.0,
      "classifier_dropout_rate": 0.0,
      "cross_attention_hidden_size": 512,
      "dropout_rate": 0.0,
      "final_logit_softcapping": 30.0,
      "head_dim": 64,
      "hidden_activation": "gelu_pytorch_tanh",
      "hidden_size": 512,
      "initializer_range": 0.02,
      "intermediate_size": 1024,
      "is_decoder": true,
      "layer_types": [
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention"
      ],
      "max_position_embeddings": 8192,
      "model_type": "t5_gemma_module",
      "num_attention_heads": 8,
      "num_hidden_layers": 8,
      "num_key_value_heads": 8,
      "query_pre_attn_scalar": 64,
      "rms_norm_eps": 1e-06,
      "rope_theta": 10000.0,
      "sliding_window": 4096,
      "torch_dtype": "bfloat16",
      "use_cache": true,
      "vocab_size": 256000
    },
    "dropout_rate": 0.0,
    "encoder": {
      "attention_bias": false,
      "attention_dropout": 0.0,
      "attn_logit_softcapping": 50.0,
      "classifier_dropout_rate": 0.0,
      "dropout_rate": 0.0,
      "final_logit_softcapping": 30.0,
      "head_dim": 64,
      "hidden_activation": "gelu_pytorch_tanh",
      "hidden_size": 512,
      "initializer_range": 0.02,
      "intermediate_size": 1024,
      "layer_types": [
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention",
        "sliding_attention",
        "full_attention"
      ],
      "max_position_embeddings": 8192,
      "model_type": "t5_gemma_module",
      "num_attention_heads": 8,
      "num_hidden_layers": 8,
      "num_key_value_heads": 8,
      "query_pre_attn_scalar": 64,
      "rms_norm_eps": 1e-06,
      "rope_theta": 10000.0,
      "sliding_window": 4096,
      "torch_dtype": "bfloat16",
      "use_cache": true,
      "vocab_size": 256000
    },
    "eos_token_id": [
      1,
      107
    ],
    "initializer_range": 0.02,
    "is_encoder_decoder": true,
    "model_type": "t5gemma",
    "pad_token_id": 0,
    "torch_dtype": "bfloat16",
    "transformers_version": "4.53.0.dev0",
    "use_cache": true
  },
  "backbone_model_name": "google/t5gemma-s-s-prefixlm",
  "bos_token_id": 0,
  "decoder_start_token_id": 0,
  "decoder_tokenizer": "IEEE_5_2",
  "decoder_vocab_size": 13,
  "encoder_vocab_size": 256000,
  "eos_token_id": 0,
  "exponent_range": 10,
  "hidden_size": 512,
  "ieee_base": 10,
  "ieee_exponent_digits": 2,
  "ieee_mantissa_digits": 5,
  "is_encoder_decoder": true,
  "max_new_tokens": 9,
  "max_num_objs": 1,
  "model_type": "regresslm",
  "num_attention_heads": 8,
  "num_digits": 6,
  "num_hidden_layers": 8,
  "num_key_value_heads": 8,
  "num_tokens_per_obj": 9,
  "pad_token_id": 0,
  "tokenizer_class": "IEEEFloatTokenizer",
  "torch_dtype": "float32",
  "transformers_version": "4.53.2",
  "use_regression_head": false,
  "vocab_size": 256000
}