TP: Généralités
Vous pouvez faire les exercices dans le langage de votre choix.
Exercice 1 : Nettoyage et exploration de données
Télécharger le jeu de données suivant: lien
Nettoyer le jeu de données. En particulier, on s’intéressera aux points suivant :
encodage des valeurs manquantes;
gestion des valeurs extrêmes;
gestion des valeurs abberantes;
gestion des doublons;
harmonisation des dates;
suppression des tirets, points, … dans les numéros de téléphone.
gestion des titres (Mr., Ms., Dr., …) dans les noms;
harmonisation des pays;
conversion des Oui/Non en TRUE/FALSE;
etc.
- Faire une exploration unidimensionelle/bidimensionelle. En particulier, on pourra faire :
graphiques des données quantitatives;
calcul de corrélations;
tableaux de fréquences pour les variables qualitatives;
etc.
Exercice 2 : Compromis biais-variance
Dans cet exercice, on se propose d’illustrer le compromis biais-variance à l’aide de données simulées et d’un modèle de régression. On fait l’hypothèse que le vrai modèle de nos données est \[f(x) = 3 + 8 x + 2 x^2.\]
Simuler un ensemble de données \((X, Y)\) tel que \(Y = f(X) + \epsilon\), avec \(X \sim \mathcal{N}(0, 1)\), \(\epsilon \sim \mathcal{N}(0, \sigma^2)\) et \(\sigma^2 = 5\).
Ajuster un modèle linéaire de la forme \(Y = \beta_{0} + \beta_{1} X\). En R, la fonction standard est
lm. En Python, vous pouvez utiliser la fonctionolsdu packagestatsmodels.Calculer \(\widehat{Y}\) en utilisant \(X\) généré à la question 1.
Calculer l’erreur quadratique moyenne sur le jeu d’entraînement.
Simuler un jeu de données de validation et calculer l’erreur quadratique moyenne, le biais et la variance du modèle sur ce jeu de validation.
Refaire les questions 2 à 5, mais avec en ajustant un modèle linéaire avec un polynôme d’ordre 2.
Refaire les questions 2 à 5, mais avec en ajustant un modèle linéaire avec un polynôme d’ordre 10.
Conclure quant au compromis biais-variance et la complexité du modèle.
Exercice 3 : Validation croisée
En pratique, nous ne connaissons pas la vraie fonction \(f(x)\). Pour évaluer la qualité de notre modèle, on peut utiliser la validation croisée. Notez que le but de cet exercice est de faire votre propre code et non d’utiliser des fonctions déjà faites.
Simuler un jeu de données en utilisant le modèle de l’exercice 2.
Faire une validation croisée avec \(K = 3\) pour évaluer le modèle de régression linéaire simple (sans polynôme d’ordre supérieur) en utilisant l’erreur quadratique moyenne.
Faire la même chose avec le modèle de régression linéaire avec un polynôme d’ordre 2.
Faire la même chose avec le modèle de régression linéaire avec un polynôme d’ordre 10.
Conclure quant à l’utilisation de la validation croisée.