Upload Gemma3ForConditionalGeneration

Files changed (3) hide show

config.json CHANGED Viewed

@@ -23,20 +23,7 @@
           "group_size": 128,
           "int4_choose_qparams_algorithm": "hqq",
           "int4_packing_format": "tile_packed_to_4d",
-          "layout": {
-            "_data": {
-              "inner_k_tiles": 8
-            },
-            "_type": "TensorCoreTiledLayout",
-            "_version": 1
-          },
-          "preserve_zero": null,
-          "set_inductor_config": true,
-          "use_hqq": false,
-          "zero_point_domain": {
-            "_data": "NONE",
-            "_type": "ZeroPointDomain"
-          }
         },
         "_type": "Int4WeightOnlyConfig",
         "_version": 2
@@ -50,7 +37,9 @@
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": null,
     "dtype": "bfloat16",
     "final_logit_softcapping": null,
     "head_dim": 128,
     "hidden_activation": "gelu_pytorch_tanh",
@@ -126,20 +115,28 @@
     "num_attention_heads": 32,
     "num_hidden_layers": 62,
     "num_key_value_heads": 16,
     "query_pre_attn_scalar": 168,
     "rms_norm_eps": 1e-06,
-    "rope_local_base_freq": 10000.0,
-    "rope_scaling": {
-      "factor": 8.0,
-      "rope_type": "linear"
     },
-    "rope_theta": 1000000.0,
     "sliding_window": 1024,
     "use_bidirectional_attention": false,
     "use_cache": true,
     "vocab_size": 262208
   },
-  "transformers_version": "4.57.6",
   "vision_config": {
     "attention_dropout": 0.0,
     "dtype": "bfloat16",

           "group_size": 128,
           "int4_choose_qparams_algorithm": "hqq",
           "int4_packing_format": "tile_packed_to_4d",
+          "set_inductor_config": true
         },
         "_type": "Int4WeightOnlyConfig",
         "_version": 2
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": null,
+    "bos_token_id": 2,
     "dtype": "bfloat16",
+    "eos_token_id": 1,
     "final_logit_softcapping": null,
     "head_dim": 128,
     "hidden_activation": "gelu_pytorch_tanh",
     "num_attention_heads": 32,
     "num_hidden_layers": 62,
     "num_key_value_heads": 16,
+    "pad_token_id": 0,
     "query_pre_attn_scalar": 168,
     "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "full_attention": {
+        "factor": 8.0,
+        "rope_theta": 1000000.0,
+        "rope_type": "linear"
+      },
+      "sliding_attention": {
+        "rope_theta": 10000.0,
+        "rope_type": "default"
+      }
     },
     "sliding_window": 1024,
+    "tie_word_embeddings": true,
     "use_bidirectional_attention": false,
     "use_cache": true,
     "vocab_size": 262208
   },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.3.0.dev0",
   "vision_config": {
     "attention_dropout": 0.0,
     "dtype": "bfloat16",

generation_config.json CHANGED Viewed

@@ -9,5 +9,5 @@
   "pad_token_id": 0,
   "top_k": 64,
   "top_p": 0.95,
-  "transformers_version": "4.57.6"
 }

   "pad_token_id": 0,
   "top_k": 64,
   "top_p": 0.95,
+  "transformers_version": "5.3.0.dev0"
 }

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3eaeb78a03ce2f09090ef1114f65e1113ff57b5b7030ecb4aff3cfd424db21f
+size 18270308104