TD: Supervisée
Exercice 1: Compréhension de l’analyse discrimante
On effectue un analyse discriminante sur un jeu de données pour lequel on tente de prédire auquel de trois groupes les 80 observations appartiennent à partir de la valeur des variables \(X_1, \dots, X_5\). Les valeurs moyennes des 5 variables dans chacun des trois groupes sont données dans le tableau qui suit.
| \(k\) | \(\overline{X}_{k1}\) | \(\overline{X}_{k2}\) | \(\overline{X}_{k2}\) | \(\overline{X}_{k3}\) | \(\overline{X}_{k4}\) |
|---|---|---|---|---|---|
| 1 | -0.155 | 0.202 | -0.003 | -0.909 | -0.952 |
| 2 | 0.227 | 0.050 | 0.091 | 0.067 | 0.084 |
| 3 | 0.505 | -0.313 | -0.092 | 0.475 | 0.776 |
On obtient les matrices de sommes des carrées suivantes, desquelles trois valeurs ont été masquées et remplacées par AAAAA, BBBBB et CCCCC.
\[S = \begin{pmatrix} 62.8029695 & \text{AAAAA} & -4.471622 & -0.3359447 & 10.369236 \\ \text{AAAAA} & 81.038586 & 26.437970 & -4.6206012 & 7.087506 \\ -4.4716215 & 26.437970 & 80.626818 & 12.6439431 & -6.670094 \\ -0.3359447 & -4.620601 & 12.643943 & 85.5572762 & 30.720944 \\ 10.3692360 & 7.087506 & -6.670094 & 30.7209436 & 88.442644 \\ \end{pmatrix},\]
\[W = \begin{pmatrix} 56.401092 & 10.81546 & -3.671480 & -13.814659 & -6.382273 \\ 10.815459 & 76.90362 & 25.490769 & 5.371660 & 19.919442 \\ -3.671480 & 25.490770 & 80.197630 & 13.933547 & -4.655554 \\ -13.814659 & 5.371660 & 13.933547 & 56.704695 & \text{BBBBB} \\ -6.382273 & 19.919440 & -4.655554 & \text{BBBBB} & 44.590677 \\ \end{pmatrix} \] et
\[B = \begin{pmatrix} 6.4018771 & -4.934314 & -0.8001411 & 13.478714 & 16.751510 \\ -4.9343145 & 4.134966 & 0.9472010 & \text{CCCCC} & -12.83194 \\ -0.8001411 & 0.947201 & 0.4291877 & -1.289604 & -2.01454 \\ 13.4787145 & \text{CCCCC} & -1.2896044 & 28.852581 & 35.36415 \\ 16.7515092 & -12.831936 & -2.0145400 & 35.364146 & 43.85197 \\ \end{pmatrix}. \]
De plus, on vous dit que les deux plus grandes valeurs propres de la matrice \(S^{-1}B\) sont \(0.751\) et \(0.011\) et que les vecteurs propres normés correspondants sont
\[a_1 = \begin{pmatrix} -0.40 \\ 0.37 \\ -0.09 \\ -0.44 \\ -0.71\end{pmatrix}, \quad\text{et}\quad a_2 = \begin{pmatrix} 0.08 \\ -0.65 \\ -0.28 \\ -0.64 \\ 0.29\end{pmatrix}\]
Quelles sont les valeurs de AAAAA, BBBBB et CCCCC?
Quel est le pouvoir discriminant de la fonction discriminante de Fisher ?
Selon cette fonction discriminante, dans lequel des trois groupes classeriez-vous une observation dont les valeurs de \((X_1, X_2, X_3, X_4, X_5)\) sont respectivement \((—0.5, 0.5, 0, 1, 1)\) ?
Exercice 2: Construction d’un arbre
On cherche à prédire \(Y\) à partir des variables \(X_1\), \(X_2\) et \(X_3\). Toutes les variables sont binaires. On souhaite construire un arbre à partir des données, et en particulier choisir le premier embranchement. Voici les tableaux croisés entre \(Y\) et chacune des trois variables.
| \(Y = 1\) | \(Y = 0\) | |
|---|---|---|
| \(X_1 = 1\) | 5 | 5 |
| \(X_1 = 0\) | 5 | 5 |
| \(Y = 1\) | \(Y = 0\) | |
|---|---|---|
| \(X_2 = 1\) | 10 | 0 |
| \(X_2 = 0\) | 0 | 10 |
| \(Y = 1\) | \(Y = 0\) | |
|---|---|---|
| \(X_3 = 1\) | 3 | 9 |
| \(X_3 = 0\) | 7 | 1 |
Calculer le taux d’erreur obtenu en créant un embranchement à partir de chacune des trois variables explicatives.
Calculer l’indice de Gini obtenu en créant un embranchement à partir de chacune des trois variables explicatives.
Calculer l’entropie obtenu en créant un embranchement à partir de chacune des trois variables explicatives.
Quelle variable choisir pour faire le premier embranchement ?
Calculer le coût de complexité de l’arbre obtenu, en utilisant le taux d’erreur comme mesure du coût (prendre \(\alpha = 0.5\)).