kadalicious22
/

snapgate-code-4B

+---
+license: apache-2.0
+base_model: Qwen/Qwen3-VL-4B-Instruct
+tags:
+  - qwen3_vl
+  - vision-language
+  - multimodal
+  - fine-tuned
+  - qlora
+  - safetensors
+  - coding
+  - design
+language:
+  - id
+  - en
+pipeline_tag: image-text-to-text
+---
+official website snapgate AI : www.snapgate.tech
+# snapgate-VL-4B
+**snapgate-VL-4B** adalah model vision-language multimodal hasil fine-tuning dari [Qwen/Qwen3-VL-4B-Instruct](https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct) menggunakan metode **QLoRA**, yang dioptimalkan untuk domain **coding** dan **UI/UX design**.
+Model ini dikembangkan oleh **Snapgate** sebagai asisten AI multimodal yang mampu memahami gambar sekaligus teks, khususnya untuk kebutuhan developer dan desainer.
+---
+## 🧠 Kemampuan Utama
+- **Code Generation & Review** — Menulis, menganalisis, debug, dan mengoptimalkan kode (Python, JavaScript, TypeScript, HTML/CSS, SQL, dll.)
+- **UI/UX Design Analysis** — Menganalisis screenshot antarmuka, memberikan saran desain, mengidentifikasi masalah UX
+- **Design to Code** — Mengkonversi mockup, wireframe, atau screenshot UI menjadi kode HTML/CSS/React/Tailwind
+- **Diagram & Architecture** — Memahami diagram alur, arsitektur sistem, ERD
+- **Code from Image** — Membaca dan menjelaskan kode dari screenshot atau foto
+- **Technical Documentation** — Membuat dokumentasi teknis yang jelas dan terstruktur
+- **Bilingual** — Mendukung Bahasa Indonesia dan Inggris
+---
+## 🔧 Detail Training
+| Parameter | Value |
+|-----------|-------|
+| Base Model | Qwen/Qwen3-VL-4B-Instruct |
+| Method | QLoRA (4-bit NF4) |
+| LoRA Rank | 16 |
+| LoRA Alpha | 32 |
+| Target Modules | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
+| Trainable Params | 33,030,144 (0.74%) |
+| Epochs | 3 |
+| Learning Rate | 1e-4 |
+| Batch Size | 1 (grad accum: 8) |
+| Optimizer | paged_adamw_8bit |
+| Precision | bfloat16 |
+| Hardware | NVIDIA T4 (Google Colab) |
+---
+## 🚀 Cara Penggunaan
+### Install Dependencies
+```bash
+pip install transformers>=4.51.0 accelerate>=0.30.0 qwen-vl-utils
+```
+### Inference dengan Gambar
+```python
+from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
+from qwen_vl_utils import process_vision_info
+import torch
+model_id = "kadalicious22/snapgate-VL-4B"
+processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
+model = Qwen3VLForConditionalGeneration.from_pretrained(
+    model_id,
+    torch_dtype=torch.bfloat16,
+    device_map="auto",
+    trust_remote_code=True,
+)
+SYSTEM_PROMPT = """Kamu adalah Snapgate AI, asisten AI multimodal milik Snapgate yang ahli dalam bidang coding dan design."""
+messages = [
+    {"role": "system", "content": SYSTEM_PROMPT},
+    {
+        "role": "user",
+        "content": [
+            {"type": "image", "image": "path/to/your/image.png"},
+            {"type": "text", "text": "Analisis UI dari gambar ini dan buat kode HTML/CSS-nya."},
+        ],
+    },
+]
+text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+image_inputs, video_inputs = process_vision_info(messages)
+inputs = processor(
+    text=[text],
+    images=image_inputs,
+    videos=video_inputs,
+    return_tensors="pt",
+).to(model.device)
+with torch.no_grad():
+    output_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)
+generated = output_ids[:, inputs["input_ids"].shape[1]:]
+response = processor.batch_decode(generated, skip_special_tokens=True)[0]
+print(response)
+```
+### Inference Teks Saja
+```python
+messages = [
+    {"role": "system", "content": SYSTEM_PROMPT},
+    {"role": "user", "content": "Buatkan fungsi Python untuk validasi email."},
+]
+text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+inputs = processor(text=[text], return_tensors="pt").to(model.device)
+with torch.no_grad():
+    output_ids = model.generate(**inputs, max_new_tokens=1024)
+response = processor.batch_decode(output_ids[:, inputs["input_ids"].shape[1]:], skip_special_tokens=True)[0]
+print(response)
+```
+---
+## 📊 Training Loss
+| Step | Loss |
+|------|------|
+| 5    | 2.419 |
+| 10   | 2.132 |
+| 15   | 1.918 |
+| 20   | 1.736 |
+| 25   | 1.640 |
+| 30   | 1.663 |
+| 35   | 1.584 |
+Loss turun konsisten dari **2.42 → 1.58** selama training.
+---
+## ⚠️ Limitasi
+- Model di-training pada dataset internal Snapgate yang relatif kecil — performa akan meningkat seiring bertambahnya data training
+- Dioptimalkan untuk Bahasa Indonesia dan Inggris
+- Performa terbaik pada task coding dan analisis UI; kurang optimal untuk domain lain
+---
+## 📄 Lisensi
+Model ini mengikuti lisensi **Apache 2.0** sesuai dengan base model Qwen3-VL-4B-Instruct.
+---
+## 🔗 Links
+- 🌐 Website: [snapgate.tech](https://snapgate.tech)
+- 🤗 Base Model: [Qwen/Qwen3-VL-4B-Instruct](https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct)
+---
+*Dibuat dengan ❤️ oleh tim Snapgate*