Biais et Variance
19 sept. 2025
Modéliser la relation entre :
Variable réponse \(Y\) (quantitative, qualitative, etc.).
Variables explicatives \(X = (X_1, \ldots, X_p)\).
\[Y = f(X) + \varepsilon\]
\(f\) : fonction déterministe (information systématique).
\(\varepsilon\) : terme d’erreur aléatoire.
Sur le terme d’erreur \(\varepsilon\) :
Indépendant des variables explicatives \(X\).
\(\mathbb{E}[\varepsilon] = 0\) (espérance nulle).
\(\mathrm{Var}(\varepsilon) = \sigma^2\) (variance constante).
→ Cadre général pour toutes les méthodes du cours.
Mesures de qualité - MSE et taux d’erreur
Compromis biais/variance - Décomposition fondamentale
Flexibilité des modèles - Rigidité vs adaptabilité
Optimisation pratique - Trouver l’équilibre
Erreur Quadratique Moyenne (MSE)
\[\text{MSE}(Y, \hat{Y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{f}(x_i))^2\]
Interprétation → Distance moyenne entre valeurs observées et prédites.
MSE faible → Prédictions proches des observations.
Taux d’erreur (ER)
\[\text{ER}(Y, \hat{Y}) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{1}(y_i \neq \hat{f}(x_i))\]
Interprétation → Proportion de mauvaises prédictions.
ER faible → Prédictions proches des observations.
Modèles simples (ex: régression linéaire) :
Faciles à interpréter
Relations complexes mal captées
Modèles flexibles (ex: forêt aléatoire) :
Meilleures prédictions
Difficiles à interpréter
Le choix dépend de l’objectif : compréhension ou performance ?
Il n’existe pas de méthode universellement optimale !
Une méthode performante dans un contexte peut échouer ailleurs.
→ Toujours adapter l’approche au problème.
Notre vrai objectif : Minimiser l’erreur sur de nouvelles données
\[\mathbb{E}[(Y - \hat{Y})^2] = \mathbb{E}[(Y - \hat{f}(X))^2]\]
Cette erreur se décompose en 3 parties…
Décomposition biais/variance
\[\mathbb{E}[(Y - \hat{f}(X))^2] = \text{Biais}(\hat{f}(X))^2 + \text{Var}(\hat{f}(X)) + \sigma^2\]
Trois composantes :
Biais\(^2\) → Erreur systématique d’approximation.
Variance → Sensibilité aux fluctuations d’échantillon.
\(\sigma^2\) → Erreur irréductible (bruit intrinsèque).
Modèle peu flexible (ex: régression linéaire)
✅ Variance faible
❌ Biais élevé
Modèle très flexible (ex: régression avec beaucoup de polynômes)
❌ Variance élevée
✅ Biais faible
→ Besoin d’un équilibre optimal !
Comment trouver l’équilibre ?
Validation croisée → Estimation de l’erreur de prédiction.
Sélection de modèle → Comparer différentes des modèles avec différentes flexibilités.
Méthodes d’ensembles → Combiner plusieurs modèles.
Régularisation → Contrôler la complexité du modèle.
Questions à se poser :
Ai-je assez de données pour un modèle flexible ?
Mon objectif est-il la prédiction ou la compréhension ?
Quelle est la complexité réelle du phénomène étudié ?
Comment évaluer la performance sur nouvelles données ?
Erreur totale = Biais\(^2\) + Variance + Bruit irréductible.
Compromis entre biais et variance.
Modèles rigides → Fort biais, faible variance.
Modèles flexibles → Faible biais, forte variance.
Optimum → Équilibre minimisant l’erreur totale.
Pas de solution universelle → Il faut s’adapter au contexte.
Prochaine étape → Validation et sélection de modèles.
Comment mesurer la qualité ?
Une fois \(\hat{f}\) estimé, comment évaluer \(\hat{Y} = \hat{f}(X)\) ?
Idée : Mesurer à quel point \(\hat{Y}\) est proche de la vraie valeur \(Y\).