Adding ONNX Kleidi support

Files changed (9) hide show

.gitattributes CHANGED Viewed

@@ -4,5 +4,3 @@ text_encoder_2/model.onnx_data filter=lfs diff=lfs merge=lfs -text
 text_encoder_3/model.onnx_data filter=lfs diff=lfs merge=lfs -text
 tokenizer_3/spiece.model filter=lfs diff=lfs merge=lfs -text
 transformer/model.onnx_data filter=lfs diff=lfs merge=lfs -text
-mmdit-x.png filter=lfs diff=lfs merge=lfs -text
-sd3.5_medium_demo.jpg filter=lfs diff=lfs merge=lfs -text

 text_encoder_3/model.onnx_data filter=lfs diff=lfs merge=lfs -text
 tokenizer_3/spiece.model filter=lfs diff=lfs merge=lfs -text
 transformer/model.onnx_data filter=lfs diff=lfs merge=lfs -text

text_encoder/config.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
   "_attn_implementation_autoset": true,
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/text_encoder",
   "architectures": [
     "CLIPTextModelWithProjection"
   ],
@@ -22,7 +21,7 @@
   "output_hidden_states": true,
   "pad_token_id": 1,
   "projection_dim": 768,
-  "torch_dtype": "float16",
-  "transformers_version": "4.48.3",
   "vocab_size": 49408
 }

 {
   "_attn_implementation_autoset": true,
   "architectures": [
     "CLIPTextModelWithProjection"
   ],
   "output_hidden_states": true,
   "pad_token_id": 1,
   "projection_dim": 768,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
   "vocab_size": 49408
 }

text_encoder/model.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40ba7d326db174d13571139f6fab5ad901ee80a5f4d00ea6cb49517e05cd4f2c
-size 494947228

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f50c95b5b7cffa9e9a666c6af99ab8dce8c3df9b2a35449a888a528b0a74adb
+size 494839363

text_encoder_2/config.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
   "_attn_implementation_autoset": true,
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/text_encoder_2",
   "architectures": [
     "CLIPTextModelWithProjection"
   ],
@@ -22,7 +21,7 @@
   "output_hidden_states": true,
   "pad_token_id": 1,
   "projection_dim": 1280,
-  "torch_dtype": "float16",
-  "transformers_version": "4.48.3",
   "vocab_size": 49408
 }

 {
   "_attn_implementation_autoset": true,
   "architectures": [
     "CLIPTextModelWithProjection"
   ],
   "output_hidden_states": true,
   "pad_token_id": 1,
   "projection_dim": 1280,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
   "vocab_size": 49408
 }

text_encoder_2/model.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1237d7e82e00c7d8455a42beee4fa994eb9db30e27520647fedfb82739bed1b1
-size 1042490

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f0d634eb6d5ad375747d53dfd2f361f406adec78b3074b031be9cfbc0fba49e
+size 723680

text_encoder_3/config.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
   "_attn_implementation_autoset": true,
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/text_encoder_3",
   "architectures": [
     "T5EncoderModel"
   ],
@@ -27,8 +26,8 @@
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
-  "torch_dtype": "float16",
-  "transformers_version": "4.48.3",
   "use_cache": true,
   "vocab_size": 32128
 }

 {
   "_attn_implementation_autoset": true,
   "architectures": [
     "T5EncoderModel"
   ],
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
   "use_cache": true,
   "vocab_size": 32128
 }

transformer/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_class_name": "SD3Transformer2DModel",
   "_diffusers_version": "0.33.1",
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/transformer",
   "attention_head_dim": 64,
   "caption_projection_dim": 1536,
   "dual_attention_layers": [

 {
   "_class_name": "SD3Transformer2DModel",
   "_diffusers_version": "0.33.1",
+  "_name_or_path": "/home/waheedbrown/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/transformer",
   "attention_head_dim": 64,
   "caption_projection_dim": 1536,
   "dual_attention_layers": [

vae_decoder/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_class_name": "AutoencoderKL",
   "_diffusers_version": "0.33.1",
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/vae",
   "act_fn": "silu",
   "block_out_channels": [
     128,

 {
   "_class_name": "AutoencoderKL",
   "_diffusers_version": "0.33.1",
+  "_name_or_path": "/home/waheedbrown/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/vae",
   "act_fn": "silu",
   "block_out_channels": [
     128,

vae_encoder/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_class_name": "AutoencoderKL",
   "_diffusers_version": "0.33.1",
-  "_name_or_path": "/home/azureuser/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/vae",
   "act_fn": "silu",
   "block_out_channels": [
     128,

 {
   "_class_name": "AutoencoderKL",
   "_diffusers_version": "0.33.1",
+  "_name_or_path": "/home/waheedbrown/.cache/huggingface/hub/models--stabilityai--stable-diffusion-3.5-medium/snapshots/b940f670f0eda2d07fbb75229e779da1ad11eb80/vae",
   "act_fn": "silu",
   "block_out_channels": [
     128,