Graph Self-Supervised Learning (GSSL)

Deux grandes familles de méthodes pour apprendre des représentations de graphes sans étiquettes

Generative Approche par reconstruction

Le modèle apprend à encoder le graphe dans un espace latent, puis à reconstruire les attributs originaux (features) ou la structure (relations). Le signal superviseur est la qualité de la reconstruction.

Graphe G(X, R)

→

GNN Encoder

→

Z (embedding)

→

Decoder

→

X̂ / R̂

→

Loss L

Deux sous-tâches principales

Tâche 1

Reconstruction des features

Le modèle masque certains attributs de nœuds X et apprend à les prédire depuis l'embedding Z. Le décodeur peut être un MLP, GCN ou RGCN.

Ẑ = GNN(X, A)
X̂ = Decoder(Ẑ)
L_feat = ‖X - X̂‖²

✓ Préserve les features ✓ Info locale

Tâche 2

Reconstruction des relations

Le modèle prédit les arêtes ou scores de relation entre paires de nœuds depuis leurs embeddings. Utilise ConvE, DistMult ou produit scalaire.

Ẑ = GNN(X, A)
R̂ᵢⱼ = Decoder(zᵢ, zⱼ)
L_struct = BCE(R, R̂)

✓ Structure locale ✗ Pas discriminatif

Décodeurs disponibles

Pour les features

RGCN, GCN, MLP

Pour les relations

ConvE, DistMult,
Dot Product

Contrastive Approche par vues augmentées

Le modèle apprend à rapprocher les représentations de différentes vues augmentées d'un même graphe (paires positives), et à éloigner celles de graphes différents (paires négatives).

Graphe G(X, R)

→

Augmentation

→

G₁, …, Gₖ

→

GNN Encoder

→

H₁, …, Hₖ

→

L_contrastive

Types d'augmentation du graphe

Augmentation 1

Feature Masking

Masque aléatoirement une proportion des attributs de nœuds (mis à zéro ou bruit gaussien). Force le modèle à apprendre des représentations robustes aux features manquantes.

X̃ᵢ = Xᵢ ⊙ mᵢ
mᵢ ~ Bernoulli(1-p)

Augmentation 2

Edge Dropping

Supprime aléatoirement une proportion des arêtes du graphe. Force le modèle à apprendre des représentations robustes aux variations de structure.

Ẽ = {(u,v) ∈ E : bᵤᵥ=1}
bᵤᵥ ~ Bernoulli(1-p)

Paires positives / négatives

Positives

Deux vues du même nœud/graphe après différentes augmentations → rapprocher dans l'espace latent

Négatives

Vues de nœuds/graphes différents → éloigner dans l'espace latent

Fonctions de loss

Chaque approche optimise un objectif différent. Les méthodes génératives minimisent l'erreur de reconstruction ; les méthodes contrastives maximisent l'accord entre vues augmentées.

Generative L_features — Reconstruction des attributs

L_feat = (1/N) · Σᵢ ‖Xᵢ - X̂ᵢ‖² où X̂ᵢ = Decoder(GNN(X, A))ᵢ

MSE entre les features originales et reconstruites. Minimisé quand l'encodeur capture l'information contenue dans les attributs de chaque nœud. Utilisé avec un masquage partiel (style MAE).

Generative L_struct — Reconstruction des relations

L_struct = -Σ₍ᵢ,ⱼ₎ [ Aᵢⱼ · log σ(zᵢᵀzⱼ) + (1-Aᵢⱼ) · log(1-σ(zᵢᵀzⱼ)) ] ou via DistMult: score(i,r,j) = zᵢᵀ · diag(rᵣ) · zⱼ

Binary cross-entropy sur l'existence d'arêtes (Dot Product / ConvE / DistMult). Le modèle apprend à prédire quels nœuds sont connectés depuis leurs embeddings.

Contrastive L_NT-Xent — InfoNCE / NT-Xent

L = -(1/N) · Σᵢ log [ exp(sim(hᵢ, hᵢ⁺)/τ) / Σⱼ≠ᵢ exp(sim(hᵢ, hⱼ)/τ) ] sim(u,v) = uᵀv / (‖u‖·‖v‖) (cosine similarity) τ : température (hyperparamètre)

Pour chaque nœud i, maximise la similarité avec sa vue augmentée hᵢ⁺ (positive) relativement à toutes les autres représentations du batch (négatives). τ contrôle la concentration des distributions.

Generative + Contrastive Loss combinée

L_total = α · L_feat + β · L_struct + γ · L_contrastive α, β, γ : hyperparamètres de pondération

Combinaison des deux approches pour bénéficier à la fois de la préservation de l'information locale (generative) et d'un objectif discriminatif (contrastive). Utilisé dans des méthodes hybrides comme AFGRL, SimGRACE ou des variantes VGAE.

Comparaison des deux approches

Chaque famille a ses forces et faiblesses. Les choisir selon la tâche aval et les contraintes du problème.

Objectif

Reconstruire X ou R depuis Z

Aligner les vues positives, séparer les négatives

Signal

Erreur de reconstruction

Similarité entre représentations

Info capturée

✓ Locale voisinage immédiat

✓ Globale structure générale

Objectif discriminatif

✗ Absent

✓ Naturel

Préservation input

✓ Forte

✗ Non garantie

Défi principal

Définir un bon décodeur

Générer des vues augmentées efficaces

Exemples

GAE, VGAE, GraphMAE

GraphCL, GRACE, GCA, MVGRL

Explication des méthodes GSSL: Generative et Contrastive

Graph Self-Supervised Learning (GSSL)