Étant donné que \(a \in \mathbb{R}^p\), on a: \[\mathrm{Var}(f(X_{1}, \dots, X_p)) = \mathrm{Var}(a^{\top} X) = a^{\top} \mathrm{Var}(X) a.\]
Comme \(S\) est un estimateur de la variance totale de \(X\),
\[\widehat{\mathrm{Var}}(f(X_{1}, \dots, X_p)) = \frac{1}{n} a^{\top} S a = \frac{1}{n} \left( a^{\top} W a + a^{\top} B a \right).\]
Critère d’optimisation
\[J(a) = \frac{a^{\top} B a}{a^{\top} W a} = \frac{a^{\top} B a}{a^{\top} S a}\]
Formulations équivalentes
Maximiser \(J(a)\) sous contrainte \(a^{\top} a = 1\)
Maximiser \(a^{\top} B a\) sous contrainte \(a^{\top} S a = 1\)
Maximiser \(c^{\top} S^{-1/2} B S^{-1/2} c\) sous contrainte \(c^{\top} c = 1\) où \(c = S^{1/2} a\).
Solution optimale
En réécrivant la troisième formulation
\[c^{\top} \left( S^{-1/2} B S^{-1/2} \right) c \quad\text{s.c.}\quad c^{\top} c = 1,\]
On peut prendre \(a = S^{-1/2} c\), où \(c\) est un vecteur propre normé associé à \(\lambda_{1}\), la première valeur propre de \(S^{-1/2} B S^{-1/2}\).
Fonction discriminante
\[f(x) = a^{\top} (x - \overline{X})\]
Scores des observations \[U_i = a^{\top} (X_i - \overline{X})\] Ces scores maximisent le rapport variance inter-groupe / variance intra-groupe
library(MASS)library(tidyverse)n <-50R <-matrix(c(1, 0.8, 0.8, 1), nrow =2, ncol =2, byrow =TRUE)mu_1 <-c(X =7.5, Y =3)data_1 <- MASS::mvrnorm(n, mu = mu_1, Sigma = R)mu_2 <-c(X =8.5, Y =4)data_2 <- MASS::mvrnorm(n, mu = mu_2, Sigma = R)data <-data.frame(rbind(data_1, data_2))data$group <-as.factor(rep(c(1, 2), each = n))model <-lda(group ~ ., data = data)data$new_X <-predict(model, data)$x
Pouvoir discriminant
Interprétation de \(\lambda_1\) → pouvoir discriminant de \(f\)\[\lambda_1 = \frac{a^{\top} B a}{a^{\top} S a} \quad \text{avec } 0 \leq \lambda_1 \leq 1\]
\(\lambda_1 = 1\) : Cas idéal
\(\lambda_1 = 0\) : Analyse inutile
Règle de classification
Score moyen par groupe \[m_k = a^{\top} (\overline{X}_{k1}, \ldots, \overline{X}_{kp})^{\top}\]
Si \(m_{1} = a^{\top} \overline{X}_1 > a^{\top} \overline{X}_2 = m_{2}\), classer \(X_0\) dans le groupe 1 si: \[a^{\top} X_0 > \frac{m_1 + m_2}{2}\]
Évaluation de la performance
Matrice de confusion
Appliquer la règle de classification à l’échantillon d’apprentissage
Comparer les classifications prédites aux vraies classes
Estimer les risques de mauvaise classification
Exemple
\(49\) hommes âgés ont été déclarés soit en bonne santé mentale (Groupe I), soit séniles (Groupe II) à la suite d’examens psychiatriques poussés. Les mêmes sujets ont été soumis à \(4\) tests standards beaucoup moins coûteux :
En principe, on a \[a = S^{-1} C,\] mais on peut tout aussi bien utiliser \[a = n S^{-1} C\] puisque \(a\) n’est défini qu’à une constante multiplicative près.
Exemple
En effectuant les calculs décrits précédemment, on trouve \[m_1 = a^\top \overline{X}_1 = 5.97 \quad\text{et}\quad m_2 = a^\top \overline{X}_2 = 3.54,\] ce qui conduit à déclarer un individu sénile si \[a^\top X > \frac{m_1 + m_2}{2} = 4.755.\]
Exemple
Matrice de confusion :
Diagnostic clinique →
OK
Sénile
Totaux
Classé OK
29
4
33
Classé sénile
8
8
16
Totaux
37
12
49
Conclusion
L’analyse discrimante est un algorithme de classification supervisée qui :
est simple et interprétable.
a une solution analytique explicite.
permet une réduction de dimension naturelle (\(\mathbb{R}^p \to \mathbb{R}\)).