Skarn55
/

oai

+---
+license: apache-2.0
+base_model: SmilingWolf/wd-vit-tagger-v3
+pipeline_tag: image-classification
+library_name: onnxruntime
+language:
+- fr
+- en
+tags:
+- image-tagging
+- anime
+- photo-realistic
+- onnx
+- waifu-diffusion
+- computer-vision
+- browser-ml
+- multi-label-classification
+datasets:
+- SmilingWolf/wd-vit-tagger-v3
+---
+# WD ViT Tagger v3 - ONNX Runtime
+🎯 **Modèle ONNX optimisé pour le tagging d'images et l'analyse de contenu dans le navigateur**
+Ce dépôt héberge une version ONNX optimisée du modèle [WD ViT Tagger v3](https://huggingface.co/SmilingWolf/wd-vit-tagger-v3), conçu pour une inférence efficace dans les navigateurs web via ONNX Runtime Web.
+## 📋 Détails du Modèle
+- **Modèle de Base** : [SmilingWolf/wd-vit-tagger-v3](https://huggingface.co/SmilingWolf/wd-vit-tagger-v3)
+- **Type de Modèle** : Vision Transformer (ViT) pour classification multi-labels d'images
+- **Format** : ONNX (optimisé pour WebAssembly)
+- **Taille d'Entrée** : 448x448 RGB (ordre des canaux BGR)
+- **Sortie** : ~9 000 tags répartis en plusieurs catégories
+- **Licence** : Apache 2.0
+## 🎨 Capacités
+Ce modèle peut analyser et étiqueter des images avec une grande précision pour :
+- **Tags généraux** : Objets, actions, attributs, styles
+- **Tags de personnages** : Identification de personnages (anime/manga)
+- **Tags de classification** : Classification du contenu (général, sensible, explicite)
+- **Photos réalistes** : Fonctionne parfaitement sur des photographies réelles
+- **Anime/Manga** : Entraînement spécialisé pour les styles d'illustration
+## 🚀 Utilisation
+### JavaScript (Navigateur - ONNX Runtime Web)
+```javascript
+import * as ort from 'onnxruntime-web';
+// Charger le modèle
+const session = await ort.InferenceSession.create(
+  'https://huggingface.co/Skarn55/wd-vit-tagger-v3-onnx/resolve/main/model.onnx',
+  { executionProviders: ['wasm'] }
+);
+// Préparer l'image (448x448, BGR, plage 0-255)
+const imageData = prepareImage(votreImage); // Voir preprocessing ci-dessous
+const tensor = new ort.Tensor('float32', imageData, [1, 448, 448, 3]);
+// Exécuter l'inférence
+const results = await session.run({ [session.inputNames[0]]: tensor });
+const scores = results[session.outputNames[0]].data;
+// Filtrer les tags avec un seuil
+const tags = scores.map((score, i) => ({ tag: tagNames[i], score }))
+  .filter(x => x.score > 0.35)
+  .sort((a, b) => b.score - a.score);
+```
+### Python (ONNX Runtime)
+```python
+import onnxruntime as rt
+import numpy as np
+from PIL import Image
+# Charger le modèle
+session = rt.InferenceSession("model.onnx")
+# Préparer l'image
+img = Image.open("image.jpg").convert("RGB")
+img = prepare_square_image(img, 448)  # Padding pour format carré
+img_array = np.asarray(img, dtype=np.float32)
+img_array = img_array[:, :, ::-1]  # RGB vers BGR
+img_array = np.expand_dims(img_array, axis=0)
+# Exécuter l'inférence
+input_name = session.get_inputs()[0].name
+output_name = session.get_outputs()[0].name
+predictions = session.run([output_name], {input_name: img_array})[0]
+```
+## 🔧 Prétraitement de l'Image
+**Étapes critiques de prétraitement :**
+1. **Composite alpha** : Si l'image a de la transparence, composer sur fond blanc
+2. **Padding carré** : Ajouter du padding blanc pour conserver le ratio d'aspect
+3. **Redimensionnement** : Mettre à l'échelle 448x448 avec interpolation BICUBIC
+4. **Conversion de couleurs** : Convertir RGB en BGR (inverser l'ordre des canaux)
+5. **Conserver la plage 0-255** : NE PAS normaliser entre 0-1
+```python
+def prepare_square_image(image, target_size=448):
+    # Composer le canal alpha
+    canvas = Image.new("RGBA", image.size, (255, 255, 255))
+    canvas.alpha_composite(image.convert("RGBA"))
+    image = canvas.convert("RGB")
+    # Padding pour format carré
+    max_dim = max(image.size)
+    pad_left = (max_dim - image.size[0]) // 2
+    pad_top = (max_dim - image.size[1]) // 2
+    padded = Image.new("RGB", (max_dim, max_dim), (255, 255, 255))
+    padded.paste(image, (pad_left, pad_top))
+    # Redimensionnement
+    if max_dim != target_size:
+        padded = padded.resize((target_size, target_size), Image.BICUBIC)
+    return padded
+```
+## 📊 Performance
+- **Temps d'Inférence** (Navigateur/WASM) : ~3-5 secondes
+- **Taille du Modèle** : ~250 Mo
+- **Nombre de Tags** : 10 861 labels possibles
+- **Seuil Recommandé** : 0.35 pour les tags généraux
+## 📁 Fichiers
+- `model.onnx` - Poids du modèle ONNX (~250 Mo)
+- `selected_tags.csv` - Labels des tags avec catégories (~500 Ko)
+### Catégories de Tags
+| Catégorie | Description | Exemples de Tags |
+|-----------|-------------|------------------|
+| 0 | Général | `1girl`, `solo`, `long hair`, `smile` |
+| 1 | Artiste | Noms d'artistes et styles |
+| 3 | Copyright | Noms de séries/franchises |
+| 4 | Personnage | Noms de personnages |
+| 5 | Meta | Tags de métadonnées d'image |
+| 9 | Classification | `general`, `sensitive`, `explicit` |
+## 🎯 Cas d'Usage
+- **Tagging automatique d'images** pour la gestion de contenu
+- **Optimisation pour moteurs de recherche** avec génération de métadonnées
+- **Modération de contenu** via classification
+- **Annotation de datasets** pour le machine learning
+- **Outils basés navigateur** sans dépendances serveur
+- **Applications respectueuses de la vie privée** (traitement côté client)
+## ⚙️ Spécifications Techniques
+- **Forme d'Entrée** : `[1, 448, 448, 3]` (format NHWC)
+- **Type d'Entrée** : `float32`
+- **Ordre des Couleurs** : BGR (pas RGB !)
+- **Plage de Valeurs** : 0-255 (non normalisé)
+- **Forme de Sortie** : `[1, 10861]`
+- **Type de Sortie** : `float32` (probabilités sigmoid)
+## 🙏 Crédits
+- **Modèle Original** : [SmilingWolf](https://huggingface.co/SmilingWolf) - Créateur du WD Tagger v3
+- **Dataset d'Entraînement** : Dataset WaifuDiffusion v3
+- **Conversion ONNX** : François MENGUY ([Skarn55](https://huggingface.co/Skarn55))
+## 📜 Licence
+Ce modèle est publié sous **Licence Apache 2.0**, identique au modèle original.
+Vous êtes libre de :
+- ✅ Utiliser commercialement
+- ✅ Modifier et distribuer
+- ✅ Utiliser en privé
+- ✅ Utilisation de brevets
+**Attribution** : Merci de créditer SmilingWolf et de faire un lien vers le modèle original.
+## 🔗 Modèles Associés
+- **Modèle PyTorch Original** : [SmilingWolf/wd-vit-tagger-v3](https://huggingface.co/SmilingWolf/wd-vit-tagger-v3)
+- **Variante SwinV2** : [SmilingWolf/wd-swinv2-tagger-v3](https://huggingface.co/SmilingWolf/wd-swinv2-tagger-v3)
+- **Variante ConvNeXt** : [SmilingWolf/wd-convnext-tagger-v3](https://huggingface.co/SmilingWolf/wd-convnext-tagger-v3)
+## 🛠️ Autres Modèles par François MENGUY
+- **Classification de Genre** : [Skarn55/gender-classification-onnx](https://huggingface.co/Skarn55/gender-classification-onnx)
+## 📧 Contact
+Pour des questions ou problèmes concernant cette version ONNX, veuillez ouvrir une issue sur le dépôt.
+Pour des questions sur le modèle original, veuillez consulter [le dépôt de SmilingWolf](https://huggingface.co/SmilingWolf/wd-vit-tagger-v3).
+---
+**Note** : Ceci est un miroir/conversion du modèle original pour la compatibilité ONNX Runtime. Tout le crédit pour l'architecture du modèle et l'entraînement revient à SmilingWolf.
+**Converti avec ❤️ par François MENGUY**