AmdGoose
/

FLUX.2-dev-transformer-int8wo

@@ -1,35 +1 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text




1	*.bin filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,5 +1,7 @@
 ---
 license: other
 tags:
   - diffusers
   - image-generation
@@ -9,85 +11,89 @@ tags:
   - amd
   - rocm
 base_model: black-forest-labs/FLUX.2-dev
-library_name: diffusers
-pipeline_tag: text-to-image
 ---
-# FLUX.2-dev – Transformer INT8 Weight-Only (torchao)
 This repository provides an **INT8 weight-only quantized transformer** for
 [`black-forest-labs/FLUX.2-dev`](https://huggingface.co/black-forest-labs/FLUX.2-dev).
-Only the **transformer** is quantized and redistributed.
-All other components (VAE, text encoders, scheduler, etc.) are loaded from the original model.
----
-## What is included
-- ✅ INT8 weight-only quantized **transformer**
-- ❌ No VAE
-- ❌ No text encoders
-- ❌ No scheduler
-Quantization is performed using **torchao** (INT8 weight-only).
 ---
-## Why this exists
-- Reduce VRAM usage of FLUX.2-dev
-- Keep compatibility with Diffusers pipelines
-- Avoid bitsandbytes (not supported on ROCm)
-- Enable deployment on AMD GPUs (MI200 / MI210 / MI300)
 ---
-## Requirements
-- PyTorch with CUDA or ROCm
-- `diffusers` (git main recommended)
-- `torchao`
-- `transformers`
-- `huggingface-hub`
-> ⚠️ The quantized transformer **cannot be loaded with safetensors**.
 ---
-## How to use
 ```python
 import torch
 from diffusers import Flux2Pipeline, AutoModel
 BASE_MODEL = "black-forest-labs/FLUX.2-dev"
-INT8_REPO  = "Atech/FLUX.2-dev-transformer-int8wo"
 dtype = torch.bfloat16
-# Load INT8 transformer
 transformer = AutoModel.from_pretrained(
-    INT8_REPO,
-    subfolder="transformer_int8wo",
     torch_dtype=dtype,
     use_safetensors=False,
-)
-# Build pipeline using original FLUX.2-dev
 pipe = Flux2Pipeline.from_pretrained(
     BASE_MODEL,
     transformer=transformer,
     torch_dtype=dtype,
-    device_map="balanced",   # recommended
 )
-# Example generation
 image = pipe(
-    prompt="A futuristic data center server rack",
-    num_inference_steps=35,
     guidance_scale=4,
     height=1024,
     width=1024,
 ).images[0]
-image.save("output.png")

 ---
 license: other
+library_name: diffusers
+pipeline_tag: text-to-image
 tags:
   - diffusers
   - image-generation
   - amd
   - rocm
 base_model: black-forest-labs/FLUX.2-dev
 ---
+# FLUX.2-dev — Attention-only INT8 Weight-Only Transformer (ROCm)
 This repository provides an **INT8 weight-only quantized transformer** for
 [`black-forest-labs/FLUX.2-dev`](https://huggingface.co/black-forest-labs/FLUX.2-dev).
+It is designed to be:
+- ✅ **ROCm-compatible**
+- ✅ **Stable on AMD Instinct MI210**
+- ✅ **Image-quality preserving**
+Only **attention Linear layers (Q/K/V + projections)** are quantized.
+All other components remain in **BF16**.
+---
+## 🔍 What is included
+- ✅ Transformer with **attention-only INT8 weight-only quantization**
+- ✅ TorchAO-based quantization (no bitsandbytes)
+- ✅ Compatible with **Diffusers standard pipelines**
 ---
+## ❌ What is NOT included
+- ❌ VAE
+- ❌ Text encoders
+- ❌ Scheduler
+These components are automatically loaded from the base FLUX.2 model.
 ---
+## 💡 Why attention-only INT8?
+Full INT8 quantization of FLUX.2 introduces visible artifacts on ROCm.
+Quantizing **only attention layers** provides:
+- Significant VRAM reduction
+- Stable generation
+- No "confetti noise" artifacts
+- Safe inference on MI210 (64 GB)
 ---
+## 🚀 Usage (Diffusers)
 ```python
 import torch
 from diffusers import Flux2Pipeline, AutoModel
 BASE_MODEL = "black-forest-labs/FLUX.2-dev"
+ATTN_INT8 = "AmdGoose/FLUX.2-dev-transformer-attn-int8wo"
 dtype = torch.bfloat16
+device = "cuda"  # ROCm uses "cuda" in PyTorch
 transformer = AutoModel.from_pretrained(
+    ATTN_INT8,
+    subfolder="transformer_attn_int8wo",
     torch_dtype=dtype,
     use_safetensors=False,
+).to(device)
 pipe = Flux2Pipeline.from_pretrained(
     BASE_MODEL,
     transformer=transformer,
     torch_dtype=dtype,
 )
+pipe.enable_attention_slicing()
+pipe.vae.enable_tiling()
+pipe.enable_model_cpu_offload()
 image = pipe(
+    prompt="A realistic starter pack figurine in a blister box, studio lighting",
+    num_inference_steps=28,
     guidance_scale=4,
     height=1024,
     width=1024,
 ).images[0]
+image.save("out.png")