Généralités
21 nov. 2025
Qu’est-ce que la classification non-supervisée (clustering) ?
Exemples
Approche
On considère une population comportant \(K\) groupes.
On NE connaît PAS le nombre des groupes.
On observe \(p\) variables \(X_1, \dots, X_p\) pour chaque individu / observation de la population.
On NE connaît PAS le groupe d’appartenance de chaque individu / observation.
\[Y = f(X) + \epsilon\]
Trouver des groupes dans les données.
Construire une partition en groupe de l’espace des observations.
Méthodes hiérarchiques :
Classification ascendante hiérarchique
Classification descendante hiérarchique
Méthodes non-hiérarchiques :
\(k\)-means et dérivés (\(k\)-medians, \(k\)-medoids, …)
Mélange des distributions (e.g. GMM)
Estimation de densité
Clustering spectral
Identification de nouveaux groupes de patients.
Détection de communautés dans des groupes de personnes.
Segmentation d’images
Identification de similarités dans des composés chimiques
Création de segments de marché basés sur un ensemble de consommateurs.
Pas vraiment d’approche générale pour le clustering.
Modèle général:
\[Y = f(X) + \epsilon\]
Classification non-supervisée: connaissant \(X\) et supposant une certaine forme pour \(f\), on cherche à estimer \(Y\).
Prochaine étape → Classification hiérarchique