Spaces:

stephane09
/

IRaMuTeQ-lite

Sleeping

App Files Files Community

IRaMuTeQ-lite / help /helpafc.md

stephane09

Upload 41 files

6c8b83d verified about 1 month ago

preview code

raw

history blame contribute delete

3.25 kB

Aide AFC : calcul, affichage des termes, rôle de `top_termes`, calcul du `residu de Pearson`

1) Comment l’AFC est calculée dans le script

L’AFC classes × termes est calculée en 3 étapes :

Construction de la table de contingence Classes × Termes depuis le DFM.
Exécution de l’AFC avec FactoMineR::CA(tab, graph = FALSE).
Récupération des coordonnées des classes (rowcoord) et des termes (colcoord) pour le tracé.

2) Qu’est-ce que `top_termes` ?

top_termes est une limite d’affichage graphique des mots sur le plan AFC. Par défaut : top_termes = 120

3) Sur quoi `top_termes` filtre ?

Le filtrage est fait dans la fonction de tracé des termes :

on part de termes_stats,
on enlève les termes vides,
on trie par frequency décroissante,
on garde les top_termes premiers.

Pourquoi top_termes est en fréquence et pas en p-value ?

Parce que top_termes est une contrainte de lisibilité graphique. Le rôle de top_termes est de limiter le nombre de labels affichés dans tracer_afc_classes_termes, sinon le plot devient illisible (chevauchements). Le code trie les termes par frequency qui détermine ensuite le top_termes. En amont, dans le pipeline serveur, on construit termes_signif avec p <= input$max_p, puis on passe ces termes à executer_afc_classes, termes_cibles = termes_significatifs). Donc la p-value réduit le périmètre des termes de l'AFC.

4) Le CSV contient-il seulement `top_termes` ?

Le CSV stats_termes.csv exporte la table rv$afc_obj$termes_stats (jeu complet de stats AFC disponible), sans appliquer la réduction top_termes.

5) Note sur l'afc chi2/résidu de Pearson

Les positions AFC viennent de FactoMineR::CA.
Les résidus/chi2 sont des statistiques d’association utilisés pour l’interprétation.

6) Comment le résidu de Pearson est calculé

Pour chaque mot et chaque classe :

On regarde combien de fois le mot apparaît réellement dans cette classe.
On calcule ensuite combien on aurait “normalement” attendu pour ce mot dans cette classe, si la répartition était neutre.
On compare les deux : réel vs attendu, et transforme cet écart en une valeur (le résidu).

Le résidu ne sert pas à recalculer l’AFC.

Le code extrait, pour chaque mot, la classe où la surreprésentation est la plus forte et sa valeur (resid_max).
Classe_max = la classe où le mot apparaît le plus en quantité brute (le plus d’occurrences observées).
resid_max = la valeur qui mesure à quel point ce mot est plus (ou moins) présent que prévu dans la classe (sur/sous-représentation)

7) Résidu positif / résidu négatif

Résidu positif => le mot est plus présent que prévu dans cette classe (surreprésenté).
Résidu négatif => le mot est moins présent que prévu dans cette classe (sous-représenté).
Résidu proche de 0 => présence “normale”, pas d’écart fort.

Aide AFC : calcul, affichage des termes, rôle de top_termes, calcul du residu de Pearson