TP: Non-supervisée
Vous pouvez faire les exercices dans le langage de votre choix.
Exercice 1: Arrestation aux USA
Dans cet exercice, on se propose de faire un clustering des états américains par rapport à certaines statistiques d’arrestation.
Télécharger le jeu de données suivant: lien.
Faire un clustering des états en utilisant la méthode des plus proches voisins et la distance euclidienne. Tracer le dendrogramme.
Couper le dendrogramme à une hauteur qui résulte en trois groupes distincts. Quels états appartiennent à quel groupe ? Interpréter les groupes obtenus.
Faire le même clustering, mais cette fois après avoir standardisé les variables. Les variables auront donc un écart-type de 1. Tracer le dendrogramme et le couper pour avoir trois groupes.
Quel effet à la standardisation des variables sur le clustering obtenu ? À votre avis, doit-on standardiser les variables avant que les distances entre les observations soient calculées ? Justifier.
Exercice 2: De la musique.
Dans cet exercice, on se propose de comparer la classification ascendante hiérarchique et la classification descendante hiérarchique.
Télécharger le jeu de données suivant: lien.
Faire un clustering en 6 groupes des variables
m_1àm_9à l’aide d’une classification ascendante hiérarchique en utilisant la méthode de la moyenne et une distance euclidienne. Interpréter le dendrogramme.Faire un clustering en 6 groupes des variables
m_1àm_9à l’aide d’une classification descendante hiérarchique en utilisant la méthode de la moyenne et une distance euclidienne. Interpréter le dendrogramme.Calculer le critère de Silhouette des deux clustering obtenus. Interpréter les résultats.
Comparer les résultats des méthodes ascendante et descendante.
Exercice 3: De la musique (suite)
Dans cet exercice, on se propose de tester l’algorithme des \(k\)-means.
Télécharger le jeu de données suivant: lien.
Utiliser le \(k\)-means pour faire un regroupement des observations en \(K = 4\) groupes.
Décrire brièvement les quatre groupes avec les statistiques descriptives classiques.
Donner la taille des groupes. Identifier les musiques appréciées ou non dans chaque groupe.