Jonathan Ipe commited on Nov 20, 2025

Commit

bdd4eae

1 Parent(s): e1f5585

model files

Browse files

Files changed (48) hide show

CoreMLModels/.DS_Store +0 -0
CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/coremldata.bin +3 -0
CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/metadata.json +81 -0
CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/model.mil +0 -0
CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/coremldata.bin +3 -0
CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/metadata.json +75 -0
CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/model.mil +0 -0
CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/coremldata.bin +3 -0
CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/metadata.json +70 -0
CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/model.mil +0 -0
CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/clip_mci_image_s2.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/clip_mci_image_s2.mlmodelc/coremldata.bin +3 -0
CoreMLModels/clip_mci_image_s2.mlmodelc/metadata.json +82 -0
CoreMLModels/clip_mci_image_s2.mlmodelc/model.mil +0 -0
CoreMLModels/clip_mci_image_s2.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/coremldata.bin +3 -0
CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/metadata.json +85 -0
CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/model.mil +0 -0
CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/clip_text_s2.mlmodelc/analytics/coremldata.bin +3 -0
CoreMLModels/clip_text_s2.mlmodelc/coremldata.bin +3 -0
CoreMLModels/clip_text_s2.mlmodelc/metadata.json +80 -0
CoreMLModels/clip_text_s2.mlmodelc/model.mil +0 -0
CoreMLModels/clip_text_s2.mlmodelc/weights/weight.bin +3 -0
CoreMLModels/merges_clip.txt +0 -0
CoreMLModels/vocab_clip.json +0 -0
model/README.md +222 -0
model/added_tokens.json +6 -0
model/config.json +50 -0
model/fastvithd.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
model/fastvithd.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
model/fastvithd.mlpackage/Manifest.json +3 -0
model/merges.txt +0 -0
model/model.safetensors +3 -0
model/model.safetensors.index.json +646 -0
model/preprocessor_config.json +28 -0
model/processor_config.json +7 -0
model/special_tokens_map.json +20 -0
model/tokenizer.json +3 -0
model/tokenizer_config.json +52 -0
model/vocab.json +0 -0

CoreMLModels/.DS_Store ADDED Viewed

Binary file (8.2 kB). View file

CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9de20562aed22140187fec66d8963877160327490059811b41b047c288ac328a
+size 243

CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8e0b6fcb77f4b1245fa1df61b527e03e066586fe0dfb162399f8d52c6d57209
+size 338

CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,81 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float32",
+        "formattedType" : "MultiArray (Float32)",
+        "shortDescription" : "",
+        "shape" : "[]",
+        "name" : "embOutput",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 7,
+    "mlProgramOperationTypeHistogram" : {
+      "Concat" : 3,
+      "Ios16.cast" : 2,
+      "Ios16.mul" : 37,
+      "Ios16.layerNorm" : 26,
+      "SliceByIndex" : 37,
+      "Transpose" : 63,
+      "Shape" : 2,
+      "Ios16.sigmoid" : 12,
+      "Ios16.linear" : 49,
+      "Ios16.add" : 27,
+      "Fill" : 1,
+      "Ios16.conv" : 1,
+      "Squeeze" : 12,
+      "Ios16.matmul" : 24,
+      "ExpandDims" : 12,
+      "Ios16.gather" : 2,
+      "Ios16.softmax" : 12,
+      "Ios16.reshape" : 109
+    },
+    "computePrecision" : "Mixed (Float16, Float32, Int32)",
+    "isUpdatable" : "0",
+    "stateSchema" : [
+    ],
+    "availability" : {
+      "macOS" : "13.0",
+      "tvOS" : "16.0",
+      "visionOS" : "1.0",
+      "watchOS" : "9.0",
+      "iOS" : "16.0",
+      "macCatalyst" : "16.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.source_dialect" : "TorchScript",
+      "com.github.apple.coremltools.source" : "torch==2.6.0+cu124",
+      "com.github.apple.coremltools.version" : "8.3.0"
+    },
+    "inputSchema" : [
+      {
+        "formattedType" : "Image (Color 224 × 224)",
+        "hasSizeFlexibility" : "1",
+        "shortDescription" : "",
+        "sizeRange" : "[[224, 224], [224, 224]]",
+        "width" : "224",
+        "type" : "Image",
+        "isColor" : "1",
+        "height" : "224",
+        "sizeFlexibility" : "224 × 224",
+        "colorspace" : "RGB",
+        "name" : "colorImage",
+        "isOptional" : "0"
+      }
+    ],
+    "generatedClassName" : "ImageEncoder_float32_batch_16",
+    "method" : "predict"
+  }
+]

CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/ImageEncoder_float32_batch_16.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41abc3b89a92dfa06f8b2950f8d67494bb3ef6c47ee1b14d0c39fc3aee2cfb9d
+size 175709312

CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0a9affc51514969939fde6631d71cdd98e8b8029e50f00dc84d219192f1b629
+size 243

CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df007948a786f05e9a969fafadab22352921898530176662785ad4869485b40b
+size 317

CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,75 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float32",
+        "formattedType" : "MultiArray (Float32 1 × 512)",
+        "shortDescription" : "",
+        "shape" : "[1, 512]",
+        "name" : "embOutput",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 7,
+    "mlProgramOperationTypeHistogram" : {
+      "Split" : 4,
+      "Squeeze" : 12,
+      "Ios16.cast" : 2,
+      "Ios16.mul" : 12,
+      "Transpose" : 20,
+      "Ios16.sigmoid" : 3,
+      "Ios16.conv" : 189,
+      "Ios16.add" : 48,
+      "Ios16.linear" : 9,
+      "Ios16.avgPool" : 1,
+      "Ios16.gelu" : 54,
+      "Ios16.matmul" : 8,
+      "Ios16.reduceMean" : 3,
+      "Ios16.batchNorm" : 4,
+      "Ios16.relu" : 3,
+      "Ios16.reshape" : 16,
+      "Ios16.softmax" : 4
+    },
+    "computePrecision" : "Mixed (Float16, Float32, Int32)",
+    "isUpdatable" : "0",
+    "availability" : {
+      "macOS" : "13.0",
+      "tvOS" : "16.0",
+      "visionOS" : "1.0",
+      "watchOS" : "9.0",
+      "iOS" : "16.0",
+      "macCatalyst" : "16.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.source_dialect" : "TorchScript",
+      "com.github.apple.coremltools.source" : "torch==1.13.1",
+      "com.github.apple.coremltools.version" : "7.1"
+    },
+    "inputSchema" : [
+      {
+        "height" : "256",
+        "colorspace" : "RGB",
+        "isOptional" : "0",
+        "width" : "256",
+        "isColor" : "1",
+        "formattedType" : "Image (Color 256 × 256)",
+        "hasSizeFlexibility" : "0",
+        "type" : "Image",
+        "shortDescription" : "",
+        "name" : "colorImage"
+      }
+    ],
+    "generatedClassName" : "ImageEncoder_mobileCLIP_s2",
+    "method" : "predict"
+  }
+]

CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/ImageEncoder_mobileCLIP_s2.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6409033333b398af4189057a9e3178590157f188f3ef8d429b4c7778aa3fb37d
+size 71397632

CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc311528521250462a48096fc99b4e95b4332c26304dd444fef92dcbf5a24ffc
+size 243

CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:252f75dc59d16f253fc611287794e37a7f9e7052420bbb0ff188866dab74729d
+size 263

CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,70 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float32",
+        "formattedType" : "MultiArray (Float32 1 × 512)",
+        "shortDescription" : "",
+        "shape" : "[1, 512]",
+        "name" : "text_embeddings",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 7,
+    "mlProgramOperationTypeHistogram" : {
+      "Ios16.cast" : 1,
+      "Ios16.mul" : 12,
+      "Ios16.layerNorm" : 25,
+      "SliceByIndex" : 36,
+      "Stack" : 1,
+      "Transpose" : 36,
+      "Ios16.linear" : 49,
+      "Ios16.add" : 25,
+      "Ios16.matmul" : 24,
+      "Ios16.gelu" : 12,
+      "Ios16.softmax" : 12,
+      "Ios16.gatherNd" : 1,
+      "Ios16.gather" : 1,
+      "Ios16.reshape" : 24,
+      "Ios16.reduceArgmax" : 1
+    },
+    "computePrecision" : "Mixed (Float16, Float32, Int32)",
+    "isUpdatable" : "0",
+    "availability" : {
+      "macOS" : "13.0",
+      "tvOS" : "16.0",
+      "visionOS" : "1.0",
+      "watchOS" : "9.0",
+      "iOS" : "16.0",
+      "macCatalyst" : "16.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.version" : "7.0",
+      "com.github.apple.coremltools.source" : "torch==1.13.1"
+    },
+    "inputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Int32",
+        "formattedType" : "MultiArray (Int32 1 × 77)",
+        "shortDescription" : "",
+        "shape" : "[1, 77]",
+        "name" : "input_tokens",
+        "type" : "MultiArray"
+      }
+    ],
+    "generatedClassName" : "TextEncoder_mobileCLIP_s2",
+    "method" : "predict"
+  }
+]

CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/TextEncoder_mobileCLIP_s2.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d7924ab28ec16126b5e8d03236ddf921d801bac7af9aceab7fca2b299cb7bde
+size 126866880

CoreMLModels/clip_mci_image_s2.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b04c1f64b14765adb9e691d4a7a140cb6309b09ae99b96bfc02c67a3a1142bf
+size 243

CoreMLModels/clip_mci_image_s2.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:089f3ccbe7063bf8d835cf6b1538a4fa491ba92939ac01ab3f9b70e7e9a4a262
+size 333

CoreMLModels/clip_mci_image_s2.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,82 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float16",
+        "formattedType" : "MultiArray (Float16 1 × 512)",
+        "shortDescription" : "",
+        "shape" : "[1, 512]",
+        "name" : "output_embeddings",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 8,
+    "mlProgramOperationTypeHistogram" : {
+      "Ios16.reduceL2Norm" : 1,
+      "Ios17.reshape" : 16,
+      "Ios16.reduceMean" : 3,
+      "Ios16.softmax" : 4,
+      "Ios17.matmul" : 8,
+      "Ios17.maximum" : 1,
+      "Ios17.transpose" : 16,
+      "Split" : 4,
+      "Ios16.avgPool" : 1,
+      "Ios17.add" : 48,
+      "Tile" : 1,
+      "Ios16.sigmoid" : 3,
+      "Ios17.squeeze" : 12,
+      "Ios17.batchNorm" : 4,
+      "Ios17.conv" : 189,
+      "Ios16.relu" : 3,
+      "Ios16.gelu" : 54,
+      "Ios17.cast" : 1,
+      "Ios17.realDiv" : 1,
+      "Ios17.linear" : 9,
+      "Ios17.mul" : 12
+    },
+    "computePrecision" : "Mixed (Float16, Float32, Int32)",
+    "isUpdatable" : "0",
+    "stateSchema" : [
+    ],
+    "availability" : {
+      "macOS" : "14.0",
+      "tvOS" : "17.0",
+      "visionOS" : "1.0",
+      "watchOS" : "10.0",
+      "iOS" : "17.0",
+      "macCatalyst" : "17.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.source_dialect" : "TorchScript",
+      "com.github.apple.coremltools.source" : "torch==2.6.0+cu124",
+      "com.github.apple.coremltools.version" : "8.3.0"
+    },
+    "inputSchema" : [
+      {
+        "height" : "256",
+        "colorspace" : "RGB",
+        "isOptional" : "0",
+        "width" : "256",
+        "isColor" : "1",
+        "formattedType" : "Image (Color 256 × 256)",
+        "hasSizeFlexibility" : "0",
+        "type" : "Image",
+        "shortDescription" : "",
+        "name" : "input_image"
+      }
+    ],
+    "generatedClassName" : "clip_mci_image_s2",
+    "method" : "predict"
+  }
+]

CoreMLModels/clip_mci_image_s2.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/clip_mci_image_s2.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97483acff55708b7bd0a6e6a35f91a942ef95c86d1bff3baf591cd2fa7535df0
+size 71397632

CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86adbc296697f11ccf9ee6c7367b4ac64cbf628a0a94bc540fd74e79ff873f0b
+size 243

CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c378f20e96d2176e2cd8593c9fd10ed70c7cd36269b11a87667b1623995e6d7
+size 341

CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,85 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float16",
+        "formattedType" : "MultiArray (Float16)",
+        "shortDescription" : "",
+        "shape" : "[]",
+        "name" : "output_embeddings",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 8,
+    "mlProgramOperationTypeHistogram" : {
+      "Ios16.reduceL2Norm" : 1,
+      "Ios17.reshape" : 16,
+      "Ios16.reduceMean" : 3,
+      "Ios16.softmax" : 4,
+      "Ios17.matmul" : 8,
+      "Ios17.maximum" : 1,
+      "Ios17.transpose" : 16,
+      "Split" : 4,
+      "Ios16.avgPool" : 1,
+      "Ios17.add" : 48,
+      "Ios16.sigmoid" : 3,
+      "Tile" : 1,
+      "Ios17.squeeze" : 12,
+      "Shape" : 2,
+      "Ios17.batchNorm" : 4,
+      "Ios17.conv" : 189,
+      "Ios16.relu" : 3,
+      "Ios16.gelu" : 54,
+      "Ios17.cast" : 1,
+      "Ios17.realDiv" : 2,
+      "Ios17.linear" : 9,
+      "Ios17.mul" : 12
+    },
+    "computePrecision" : "Mixed (Float16, Float32, Int32)",
+    "isUpdatable" : "0",
+    "stateSchema" : [
+    ],
+    "availability" : {
+      "macOS" : "14.0",
+      "tvOS" : "17.0",
+      "visionOS" : "1.0",
+      "watchOS" : "10.0",
+      "iOS" : "17.0",
+      "macCatalyst" : "17.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.source_dialect" : "TorchScript",
+      "com.github.apple.coremltools.version" : "8.3.0",
+      "com.github.apple.coremltools.source" : "torch==2.7.1"
+    },
+    "inputSchema" : [
+      {
+        "formattedType" : "Image (Color 256 × 256)",
+        "hasSizeFlexibility" : "1",
+        "shortDescription" : "",
+        "sizeRange" : "[[256, 256], [256, 256]]",
+        "width" : "256",
+        "type" : "Image",
+        "isColor" : "1",
+        "height" : "256",
+        "sizeFlexibility" : "256 × 256",
+        "colorspace" : "RGB",
+        "name" : "input_image",
+        "isOptional" : "0"
+      }
+    ],
+    "generatedClassName" : "clip_mci_image_s2",
+    "method" : "predict"
+  }
+]

CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/clip_mci_image_s2_mult_batch.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97483acff55708b7bd0a6e6a35f91a942ef95c86d1bff3baf591cd2fa7535df0
+size 71397632

CoreMLModels/clip_text_s2.mlmodelc/analytics/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e73ee341d708af9891780c19072f8648b3322fda7f53ef75f5b895e54fb33fa8
+size 243

CoreMLModels/clip_text_s2.mlmodelc/coremldata.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86019767fd5cd2fcfe9c113aef7ab610faef3a59c0b096c0b96f1cd18e6b8ecf
+size 332

CoreMLModels/clip_text_s2.mlmodelc/metadata.json ADDED Viewed

	@@ -0,0 +1,80 @@

+[
+  {
+    "metadataOutputVersion" : "3.0",
+    "storagePrecision" : "Float16",
+    "outputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Float16",
+        "formattedType" : "MultiArray (Float16 1 × 512)",
+        "shortDescription" : "",
+        "shape" : "[1, 512]",
+        "name" : "output_embeddings",
+        "type" : "MultiArray"
+      }
+    ],
+    "modelParameters" : [
+    ],
+    "specificationVersion" : 8,
+    "mlProgramOperationTypeHistogram" : {
+      "Ios17.reduceArgmax" : 1,
+      "Ios16.reduceL2Norm" : 1,
+      "Ios17.reshape" : 24,
+      "Ios16.softmax" : 12,
+      "Ios17.matmul" : 24,
+      "Ios17.transpose" : 24,
+      "Ios17.maximum" : 1,
+      "Select" : 1,
+      "Ios17.add" : 26,
+      "Tile" : 1,
+      "Ios17.sliceByIndex" : 36,
+      "Ios17.gatherNd" : 1,
+      "Ios17.gather" : 1,
+      "Ios17.layerNorm" : 25,
+      "Ios16.gelu" : 12,
+      "Ios17.cast" : 1,
+      "Ios17.realDiv" : 1,
+      "Ios17.linear" : 49,
+      "Stack" : 1,
+      "Ios17.greaterEqual" : 1,
+      "Ios17.mul" : 12
+    },
+    "computePrecision" : "Mixed (Float16, Int32, UInt16)",
+    "isUpdatable" : "0",
+    "stateSchema" : [
+    ],
+    "availability" : {
+      "macOS" : "14.0",
+      "tvOS" : "17.0",
+      "visionOS" : "1.0",
+      "watchOS" : "10.0",
+      "iOS" : "17.0",
+      "macCatalyst" : "17.0"
+    },
+    "modelType" : {
+      "name" : "MLModelType_mlProgram"
+    },
+    "userDefinedMetadata" : {
+      "com.github.apple.coremltools.source_dialect" : "TorchScript",
+      "com.github.apple.coremltools.version" : "8.3.0",
+      "com.github.apple.coremltools.source" : "torch==2.6.0+cu124"
+    },
+    "inputSchema" : [
+      {
+        "hasShapeFlexibility" : "0",
+        "isOptional" : "0",
+        "dataType" : "Int32",
+        "formattedType" : "MultiArray (Int32 1 × 77)",
+        "shortDescription" : "",
+        "shape" : "[1, 77]",
+        "name" : "input_text",
+        "type" : "MultiArray"
+      }
+    ],
+    "generatedClassName" : "clip_text_s2",
+    "method" : "predict"
+  }
+]

CoreMLModels/clip_text_s2.mlmodelc/model.mil ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/clip_text_s2.mlmodelc/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf5d0197667379dada155d1b18dc0d138e061570654f625ec79f9ba0443b15a6
+size 126866880

CoreMLModels/merges_clip.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

CoreMLModels/vocab_clip.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/README.md ADDED Viewed

	@@ -0,0 +1,222 @@

+---
+license: apple-amlr
+datasets:
+- riddhimanrana/coco-fastvlm-2k-val2017
+language:
+- en
+base_model:
+- apple/FastVLM-0.5B
+base_model_relation: finetune
+pipeline_tag: image-text-to-text
+library_name: transformers
+tags:
+- mlx
+- finetuned
+- 4bit
+- llava_qwen2
+- multimodal
+---
+# fastvlm-0.5b-captions
+## Model Details
+`fastvlm-0.5b-captions` is a finetuned version of **FastVLM-0.5B Stage 3** from the [FastVLM official repository](https://github.com/apple/ml-fastvlm), built for **efficient structured image captioning on mobile devices**. This model incorporates **LoRA fine-tuning**, **4-bit quantization**, and **MobileCLIP-S0** as its vision tower, achieving substantial RAM reductions for embedded inference. This is part of a larger research project that I'm conducting. Find out more at [orionlive.ai/research](https://orionlive.ai/research) or visit my git repo [riddhimanrana/orion](https://github.com/riddhimanrana/orion)
+### Model Description
+- **Developed by:** Riddhiman Rana (fine-tuning and optimizations)
+- **Model type:** VLM (Vision-Language Model)
+- **Original model authors:** Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
+- **Language(s) (NLP):** English
+- **License (base model):** apple-amlr
+- **Finetuned from model:** [`apple/ml-fastvlm`](https://github.com/apple/ml-fastvlm), specifically `FastVLM-0.5B Stage 3`
+### Model Sources
+<!-- Provide the basic links for the model. -->
+- **Base Model Repository:** https://github.com/apple/ml-fastvlm
+- **Fine-tuning Training Dataset:** https://huggingface.co/datasets/riddhimanrana/coco-fastvlm-2k-val2017
+- **FastVLM Paper (CVPR 2025):** https://www.arxiv.org/abs/2412.13303
+## Uses
+<table>
+<tr>
+    <td><img src="https://huggingface.co/riddhimanrana/fastvlm-0.5b-captions/resolve/main/demo/demo.gif" alt="FastVLM - iOS App Demo"></td>
+</tr>
+</table>
+*Demo on iPhone 13 Pro Max*
+### Direct Use
+- Generating **highly detailed, structured captions** for images on mobile and embedded devices.
+- Ideal for **low-resource environments** such as iPhones, MacBooks, and potentially other Apple Silicon devices via MLX and CoreML.
+- Tested on iPhone 12/13 Pro Max/14 – reaching RAM usage **below 1 GB** and TTFT as low as **600ms** on higher-end iPhones.
+### Out-of-Scope Use
+- This is not designed for general-purpose multimodal reasoning beyond descriptive image captioning.
+- Not suitable for text-only language tasks.
+## Bias, Risks, and Limitations
+- Dataset was limited to **2,000 images from COCO 2017 Validation** – captions may reflect biases in that dataset.
+- The model’s structured captions might occasionally be verbose or repetitive depending on input complexity.
+- Accuracy for extremely abstract or unfamiliar visual scenes may degrade.
+### Recommendations
+## How to Get Started with the Model
+To run inference of PyTorch checkpoint, follow the instruction below. I recommend you go through [apple/ml-fastvlm](https://github.com/apple/ml-fastvlm) for further instructions on inference on Apple Silicon and other devices.
+```python
+python predict.py --model-path /path/to/checkpoint-dir \
+                  --image-file /path/to/image.png \
+                  --prompt "Describe the image."
+```
+The prompt I used for the dataset, in training, and in practice is:
+```
+You are a vision-language model that analyzes images for context-aware reasoning.
+Given a visual scene, generate a rich, structured, and detailed description that includes:\n\n
+  1. Main Focus – What is the primary object, person, or action in the scene?\n
+  2. Surrounding Objects & Context – List and describe notable secondary objects, people, or environment details.\n
+  3. Spatial Relationships – Describe where the objects are relative to one another.\n
+  4. Activities & Interactions – What are people or objects doing? Are there interactions or implied motions?\n
+  5. Scene Type & Time – Describe the overall type of scene (e.g. urban street, kitchen, park) and visible time of day.\n
+  6. Inferences & Intent – Based on visual cues, infer what might have just happened or what might happen next.\n
+  7. Style & Aesthetic – Describe the scene’s mood, lighting, or style (e.g. bright, moody, colorful).\n\n
+  Your goal: make your description so complete and detailed that an image generator could reconstruct the scene with full visual accuracy from your output alone.
+```
+## Training Details
+### Training Data
+* **Training data:** [`riddhimanrana/coco-fastvlm-2k-val2017`](https://huggingface.co/datasets/riddhimanrana/coco-fastvlm-2k-val2017)
+* **Device:** MacBook Pro 16" (M2 Pro, 16GB RAM, Apple Silicon)
+* **Vision tower:** [`MobileCLIP-S0`](https://github.com/apple/ml-mobileclip)
+* **Lora parameters:**
+  * `r=128`
+  * `alpha=256`
+  * `Dropout = 0.1`
+  * Applied to the language model using PEFT
+* **Epochs:** `1`
+* **Model max tokens:** `512`
+* **Quantization:** 4-bit (post-training, MLX conversion)
+### Training Procedure
+#### Preprocessing
+- Image aspect ratio padded to 256×256.
+- Object detection tags from YOLOv11n were added at the start of each prompt.
+- All prompts followed a structured, 7-point captioning rubric.
+- Inputs were clipped at 512 tokens.
+#### Training Hyperparameters
+| Hyperparameter         | Value                                |
+| ---------------------- | ------------------------------------ |
+| Precision              | `fp32` (Apple Silicon, no bf16/fp16) |
+| Learning rate          | `2e-4`                               |
+| Weight decay           | `0.0`                                |
+| Warmup ratio           | `0.03`                               |
+| Scheduler              | `cosine`                             |
+| Batch size (train)     | `8`                                  |
+| Batch size (eval)      | `4`                                  |
+| Gradient accumulation  | `1`                                  |
+| Max token length       | `512`                                |
+| Logging steps          | `1`                                  |
+| Evaluation strategy    | `no`                                 |
+| Save strategy          | `steps` (default step interval)      |
+| Gradient checkpointing | `True`                               |
+| Lazy preprocessing     | `True`                               |
+| DataLoader workers     | `4`                                  |
+#### Speeds, Sizes, Times
+Training duration: ~1.2 hours on M2 Pro (1 epoch over 2k samples)
+Peak RAM usage: ~11.5 GB
+Merged model size: 3.0 GB (pre-quantization)
+Post-quantization size: ~864 MB (MLX-quantized, 4-bit)
+Inference memory on iPhone (MLX): ~980MB-1.2GB RAM with 256 token generation
+All devices were fed the same image. However, this model is only compatible with iPhone 12 and newer models. It has been tested on iPhone 11, but it doesn’t work due to incompatibility issues with Apple MLX support and smaller neural engines.
+| Device            | Chip   | RAM  | TTFT   | Generation |
+|-------------------|--------|------|--------|------------|
+| iPhone 12         | A14    | 4GB  | 2392ms | 73.5 tok/s |
+| iPhone 13 Pro Max | A15    | 6GB  | 1138ms | 74.1 tok/s |
+| iPhone 14         | A15    | 6GB  | 1069ms | 71.3 tok/s |
+| MacBook Air 2020  | M1     | 8GB  | 673ms  | 131 tok/s  |
+## Evaluation
+### Testing Data, Factors & Metrics
+#### Testing Data
+- A subset of COCO val2017 images was manually evaluated.
+- Dataset includes both common and edge cases: animals, street scenes, closeups, occlusion, and indoor scenes.
+#### Factors
+- Image complexity (single vs multi-object)
+- Scene type (indoor vs outdoor)
+- Visual density
+- Prompt diversity (7-point rubric compliance)
+#### Metrics
+*Due to the direction of my current project, evaluation metrics weren’t particularly important so I didn't spend much time on it. However, I am open to community contributions for model evaluation.*
+- **Human Evaluation** (1–5 scale):
+  - Completeness: How well the description matches the visible scene
+  - Structure: Coherence of the response relative to the 7-part prompt
+  - Detail & Accuracy: Visual correctness of relationships and entities
+- **Quantitative** (for future release):
+  - CIDEr / METEOR / BLEU-4 (planned via COCO eval pipeline)
+### Results
+| Metric          | Avg Score |
+| --------------- | --------- |
+| Completeness    | `4.6 / 5` |
+| Structure       | `4.8 / 5` |
+| Visual Accuracy | `4.5 / 5` |
+#### Summary
+The model produces rich, well-structured, and highly relevant captions optimized for real-time mobile inference. With ~930 MB size and <1 GB RAM usage, it is deployable on older iPhones w/o Apple Intelligence(e.g., iPhone 12 or newer). Despite fine-tuning on just 2,000 examples, its reasoning capability generalizes well due to the high-quality distilled prompts.
+## Environmental Impact
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** MacBook Air M1 (dataset generation), MacBook Pro M2 Pro (training, quantization)
+- **Hours used:** ~3 hours for dataset, ~1h for training
+- **Compute Region:** Local / personal hardware
+- **Carbon Emitted:** Minimal, due to small dataset size and single-device compute.
+## Citation
+**BibTeX:**
+```bibtex
+@InProceedings{fastvlm2025,
+  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
+  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
+  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
+  month = {June},
+  year = {2025}
+}
+```
+## Model Card Contact
+Contact: @riddhimanrana on Hugging Face or GitHub

model/added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<image>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

model/config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+    "architectures": [
+        "LlavaQwen2ForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151645,
+    "freeze_mm_mlp_adapter": false,
+    "hidden_act": "silu",
+    "hidden_size": 896,
+    "image_aspect_ratio": "pad",
+    "image_grid_pinpoints": null,
+    "image_token_index": 151646,
+    "initializer_range": 0.02,
+    "intermediate_size": 4864,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 24,
+    "mm_hidden_size": 3072,
+    "mm_patch_merge_type": "flat",
+    "mm_projector_lr": null,
+    "mm_projector_type": "mlp2x_gelu",
+    "mm_use_im_patch_token": false,
+    "mm_use_im_start_end": false,
+    "mm_vision_select_feature": "patch",
+    "mm_vision_select_layer": -2,
+    "mm_vision_tower": "mobileclip_l_1024",
+    "model_type": "llava_qwen2",
+    "num_attention_heads": 14,
+    "num_hidden_layers": 24,
+    "num_key_value_heads": 2,
+    "quantization": {
+        "group_size": 64,
+        "bits": 4
+    },
+    "rms_norm_eps": 1e-06,
+    "rope_theta": 1000000.0,
+    "sliding_window": 32768,
+    "tie_word_embeddings": false,
+    "tokenizer_model_max_length": 8192,
+    "tokenizer_padding_side": "right",
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.39.3",
+    "tune_mm_mlp_adapter": false,
+    "unfreeze_mm_vision_tower": true,
+    "use_cache": true,
+    "use_mm_proj": true,
+    "use_sliding_window": false,
+    "vision_config": {},
+    "vocab_size": 151936
+}

model/fastvithd.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c83bdaeb1b378c90a0af03a7b736d5acc13c5544432ea2df8fbe735037e037c
+size 323557

model/fastvithd.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93776b5c75c327a0d6a114f49f58c9dad17b1202aa3aee52b088799ab2080339
+size 490786624

model/fastvithd.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8d00bf654d43569b6dd2221b4dc8ead254460442638d59b781a5921d6a2a507
+size 617

model/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2094ccb332cf37122cdd3583a12a3a193d3ce2b58dcc1cf45c95e5147559147
+size 356655116

model/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,646 @@

+{
+    "metadata": {
+        "total_size": 356575488
+    },
+    "weight_map": {
+        "language_model.lm_head.biases": "model.safetensors",
+        "language_model.lm_head.scales": "model.safetensors",
+        "language_model.lm_head.weight": "model.safetensors",
+        "language_model.model.embed_tokens.biases": "model.safetensors",
+        "language_model.model.embed_tokens.scales": "model.safetensors",
+        "language_model.model.embed_tokens.weight": "model.safetensors",
+        "language_model.model.layers.0.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.down_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.mlp.down_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.up_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.mlp.up_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.bias": "model.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.o_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.self_attn.o_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.bias": "model.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.bias": "model.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.biases": "model.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.scales": "model.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.norm.weight": "model.safetensors",
+        "multi_modal_projector.linear_0.bias": "model.safetensors",
+        "multi_modal_projector.linear_0.biases": "model.safetensors",
+        "multi_modal_projector.linear_0.scales": "model.safetensors",
+        "multi_modal_projector.linear_0.weight": "model.safetensors",
+        "multi_modal_projector.linear_2.bias": "model.safetensors",
+        "multi_modal_projector.linear_2.biases": "model.safetensors",
+        "multi_modal_projector.linear_2.scales": "model.safetensors",
+        "multi_modal_projector.linear_2.weight": "model.safetensors"
+    }
+}

model/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 1024,
+    "width": 1024
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.0,
+    0.0,
+    0.0
+  ],
+  "image_processor_type": "CLIPImageProcessor",
+  "image_std": [
+    1.0,
+    1.0,
+    1.0
+  ],
+  "processor_class": "LlavaProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 1024
+  }
+}

model/processor_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "image_token": "<image>",
+  "num_additional_image_tokens": 0,
+  "patch_size": 64,
+  "processor_class": "LlavaProcessor",
+  "vision_feature_select_strategy": null
+}

model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

model/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bb55926dbf36523cd143a5805102a9a516df89f7010313d182e1e710d94fb15
+size 11413284

model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": ["<|im_start|>", "<|im_end|>"],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful vision-language model that analyzes images for context-aware reasoning.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "only_llm": true,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "LlavaProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

model/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff