merve
/

smol-vision

@@ -1,8 +1,16 @@
 ---
 tags:
 - notebook
-pipeline_tag: image-text-to-text
 library_name: transformers
 ---
 ![Smol](https://github.com/merveenoyan/smol-vision/assets/53175384/930d5b36-bb9d-4ab6-8b5a-4fec28c48f80)
 # Smol Vision 🐣
@@ -31,4 +39,4 @@ Latest examples 👇🏻
 | VLM Fine-tuning             | [Fine-tune Gemma-3n for all modalities (audio-text-image)](https://huggingface.co/merve/smol-vision/blob/main/Gemma3n_Fine_tuning_on_All_Modalities.ipynb)            | Fine-tune Gemma-3n model to handle any modality: audio, text, and image.                                           |
 | Multimodal RAG              | [Any-to-Any (Video) RAG with OmniEmbed and Qwen](https://huggingface.co/merve/smol-vision/blob/main/Any_to_Any_RAG.ipynb)                                             | Do retrieval and generation across modalities (including video) using OmniEmbed and Qwen.                          |
 | Speed-up/Memory Optimization | Vision language model serving using TGI (SOON)                                                                                                                          | Explore speed-ups and memory improvements for vision-language model serving with text-generation inference |
-| Quantization/Optimum/ORT     | All levels of quantization and graph optimizations for Image Segmentation using Optimum (SOON)                                                                          | End-to-end model optimization using Optimum                                                                |

 ---
 tags:
 - notebook
 library_name: transformers
+base_model:
+- black-forest-labs/FLUX.1-Kontext-dev
+- google/gemma-3n-E4B-it
+- mistralai/Voxtral-Mini-3B-2507
+- Qwen/Qwen3-Coder-480B-A35B-Instruct
+- black-forest-labs/FLUX.1-Kontext-dev-onnx
+- moonshotai/Kimi-K2-Instruct
+- tencent/Hunyuan-A13B-Instruct
+new_version: merve/smol-vision
 ---
 ![Smol](https://github.com/merveenoyan/smol-vision/assets/53175384/930d5b36-bb9d-4ab6-8b5a-4fec28c48f80)
 # Smol Vision 🐣
 | VLM Fine-tuning             | [Fine-tune Gemma-3n for all modalities (audio-text-image)](https://huggingface.co/merve/smol-vision/blob/main/Gemma3n_Fine_tuning_on_All_Modalities.ipynb)            | Fine-tune Gemma-3n model to handle any modality: audio, text, and image.                                           |
 | Multimodal RAG              | [Any-to-Any (Video) RAG with OmniEmbed and Qwen](https://huggingface.co/merve/smol-vision/blob/main/Any_to_Any_RAG.ipynb)                                             | Do retrieval and generation across modalities (including video) using OmniEmbed and Qwen.                          |
 | Speed-up/Memory Optimization | Vision language model serving using TGI (SOON)                                                                                                                          | Explore speed-ups and memory improvements for vision-language model serving with text-generation inference |
+| Quantization/Optimum/ORT     | All levels of quantization and graph optimizations for Image Segmentation using Optimum (SOON)                                                                          | End-to-end model optimization using Optimum                                                                |