Supervisée

Généralités

Steven Golovkine

04 nov. 2025

Plan

On considère une population comportant \(K\) groupes.

On connaît le nombre des groupes.

On observe \(p\) variables \(X_1, \dots, X_p\) pour chaque individu / observation de la population.

On connaît le groupe d’appartenance de chaque individu / observation.

\[Y = f(X) + \epsilon\]

Obtenir un modèle / algorithme pour classer de nouveaux individus / nouvelles observations dans les bons groupes.

Prédire \(Y\) à partir de \(X_1, \dots, X_p\).

Classificateur naïf de Bayes

Analyse discrimante

Arbres de classification

\(k\) plus proches voisins (\(k\)-NN)

Régression logistiques et dérivée (GLM, GAM, GLMM, GAMM, …)

Méthodes ensemblistes (bagging, boosting, forêt aléatoire, …)

Machine de vecteur de soutien (support vector machine, SVM)

Réseaux de neurones

Filtrage de courriels indésirables

Systèmes de recommendation

Prévision des gagnants lors d’événements sportifs

Traduction automatisée de textes

Reconnaissance d’images

Sélectionner un certain nombre d’individus / d’observations dont on connaît le groupe d’appartenance.
Mesurer \(p\) caractéristiques \(X_1, \dots, X_p\) sur ces individus.
Divisier ce jeu de données en deux :

Développer un algorithme pour classer le mieux possible les individus du jeu de données d’entraînement.
Évaluer notre algorithme sur le jeu de données de validation.

Modèle général:

\[Y = f(X) + \epsilon\]

Classification supervisée: connaissant \(X\) et \(Y\), on cherche à estimer \(f\) (en supposant éventuellement une certaine forme pour \(f\)).

Prochaine étape → Analyse discriminante