Instructions to use KaRn1zC/greentech-greenit-classifier with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use KaRn1zC/greentech-greenit-classifier with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-classification", model="KaRn1zC/greentech-greenit-classifier")# Load model directly from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("KaRn1zC/greentech-greenit-classifier") model = AutoModelForSequenceClassification.from_pretrained("KaRn1zC/greentech-greenit-classifier") - Notebooks
- Google Colab
- Kaggle
GreenTech Intelligence — Classifieur Green IT (Qwen3-4B)
Classifieur binaire qui détermine si un article technologique relève du Green IT (sobriété numérique, éco-conception logicielle, efficacité énergétique des data centers, Sustainable AI, e-déchets, etc.) ou non. Il s'agit du modèle de production de la plateforme GreenTech Intelligence.
- Architecture :
Qwen3ForSequenceClassification(Qwen3-4B, 36 couches, hidden 2560, bfloat16). - Modèle de base :
Qwen/Qwen3-4B(Apache-2.0, multilingue FR/EN). - Méthode : fine-tuning LoRA all-linear puis fusion TIES de 3 adaptateurs (validation croisée).
- Langues : français et anglais.
- Auteur : KaRn1zC.
Étiquettes
| Index | Signification |
|---|---|
0 |
Non Green IT |
1 |
Green IT |
L'entrée attendue est la concaténation titre + résumé de l'article.
Utilisation
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
REPO = "KaRn1zC/greentech-greenit-classifier"
tokenizer = AutoTokenizer.from_pretrained(REPO)
model = AutoModelForSequenceClassification.from_pretrained(REPO, dtype="auto").eval()
# Calibration persistée dans le dépôt (temperature.json / optimal_threshold.json)
TEMPERATURE = 1.3949
THRESHOLD = 0.155 # seuil sur la probabilité de la classe Green IT (index 1)
texte = "Titre de l'article. Résumé dense de son contenu..."
inputs = tokenizer(texte, truncation=True, max_length=512, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
probs = torch.softmax(logits / TEMPERATURE, dim=-1)
p_green = probs[0, 1].item()
est_green_it = p_green >= THRESHOLD
print(f"Green IT : {est_green_it} (probabilité = {p_green:.3f})")
La calibration (temperature scaling T = 1,3949 + seuil de décision 0,155) est appliquée après le
softmax. Sans elle, on retombe sur le seuil naïf de 0,5, moins performant sur cette distribution déséquilibrée (~18 % de Green IT).
Données d'entraînement
- Jeu golden annoté de 11 664 articles (dont 2 124 Green IT, soit 18,2 %), réparti EN 8 719 / FR 2 945, collectés depuis des sources REST/JSON (The Guardian, arXiv, Crossref, Dev.to), du scraping (TechCrunch, GreenIT.fr, Green Software Foundation, etc.) et un dump arXiv.
- Augmentation par back-translation EN↔FR (
Helsinki-NLP/opus-mt), variantes exclues des ensembles de validation/test pour éviter toute fuite.
Protocole d'entraînement
- LoRA all-linear (
q,k,v,o,gate,up,down_proj),r=16,alpha=32,dropout=0,05, rsLoRA. - 2 epochs, batch effectif 32,
lr=1e-4(cosine, warmup 0,06),max_length=512, bfloat16, gradient checkpointing, pondération de classe[1.0, 10.5](perte weighted cross-entropy). - Validation croisée
MultilabelStratifiedKFold(langue × label), K=3 folds × 2 seeds (6 entraînements). - Ensemble : fusion TIES (Yadav et al., NeurIPS 2023, arXiv:2306.01708)
des 3 meilleurs adaptateurs (
density=0,5), tête de classification moyennée.
Évaluation
Métriques honnêtes mesurées sur les folds de validation (sans fuite de données) :
| Métrique | Valeur |
|---|---|
| MCC (Matthews) | 0,6238 ± 0,0103 |
| F1 | 0,6861 |
| Rappel (Green IT) | 0,8913 |
| Précision (Green IT) | 0,5573 |
| Latence moyenne (RX 7900 XTX, ROCm) | ~58 ms / article |
Le modèle privilégie le rappel sur la classe Green IT (peu de faux négatifs), au prix d'une précision plus modérée — choix assumé pour un outil de veille où manquer un article pertinent coûte plus cher qu'un faux positif filtrable.
Limites
- Optimisé pour des articles technologiques en français/anglais ; hors de ce domaine, les prédictions ne sont pas fiables.
- Notion de « Green IT » volontairement large (sobriété, éco-conception, énergie, e-déchets, Sustainable AI) ; un cadrage différent nécessiterait un ré-entraînement.
- Précision modérée (~0,56) : à utiliser comme filtre d'aide à la veille, pas comme vérité absolue.
Reproduction
uv run python scripts/retrain_pipeline.py train-cv --model=qwen3
Entraînement réalisé sur AMD RX 7900 XTX (ROCm 7.2.1), ~12 h. Suivi des expériences via MLflow.
Citation
KaRn1zC. GreenTech Intelligence — Classifieur Green IT (Qwen3-4B + LoRA TIES), 2026. Modèle de base : Qwen3-4B (Apache-2.0).
- Downloads last month
- -