L’analyse en composantes principales est restreinte à des données quantitatives.
→ Comment faire lorsque l’on a des données qualitatives ?
Plan
La théorie de l’analyse factorielle des correspondances
L’AFC en pratique
Exemple : le taux d’emploi au Canada
Analyse factorielle des correspondances
L’Analyse Factorielle des Correspondances (AFC) est une méthode d’analyse exploratoire pour représenter graphiquement les relations entre les modalités de deux variables qualitatives.
Objectif → Trouver une représentation en faible dimension tout en gardant le maximum d’information possible.
Notation
Tableau de contingence:
\[K = (k_{ij}) \text{ avec } k_{ij} = \text{ effectif classe } i \in \{1, \dots, n\}, \text{ catégorie } j \in \{1, \dots, p\}.\]
Notation
Tableau de fréquences relatives :
\[F = (f_{ij}) \text{ où } f_{ij} = \frac{k_{ij}}{k_{\bullet\bullet}}.\]
Notation
Marges :
Ligne : \(f_{i\bullet} = \sum_{j=1}^p f_{ij}\)
Colonne : \(f_{\bullet j} = \sum_{i=1}^n f_{ij}\)
Total : \(f_{\bullet\bullet} = 1\)
Exemple concret
Collège
Université Laval
Autre université
Hors Québec
\(f_{i \bullet}\)
Actuariat
0.08
0
0
0.04
0.12
Statistique
0.08
0.16
0.04
0
0.28
Bio-info
0.16
0.08
0
0.08
0.32
Finance
0.08
0
0
0
0.08
Maths
0.04
0
0
0
0.04
Info
0.08
0.04
0
0.04
0.16
\(f_{\bullet j}\)
0.52
0.28
0.04
0.16
1
Indépendance statistique
Test d’indépendance : Si les variables sont indépendantes, \[f_{ij} \approx f_{i\bullet} f_{\bullet j}\]
Si \(T \approx 0\) → indépendance
Si \(T\) grand → dépendance (intéressant pour l’AFC)
Profils-lignes et profils-colonnes
Profil-ligne \(i\) : Répartition de la modalité \(i\) parmi les colonnes \[L_i = \left(\frac{f_{i1}}{f_{i\bullet}}, \ldots, \frac{f_{ip}}{f_{i\bullet}}\right).\]
Profil-colonne \(j\) : Répartition de la modalité \(j\) parmi les lignes \[C_j = \left(\frac{f_{1j}}{f_{\bullet j}}, \ldots, \frac{f_{nj}}{f_{\bullet j}}\right).\]
Les profils sont des distributions conditionnelles.