Généralités

Biais et Variance

Steven Golovkine

19 sept. 2025

Objectif de modélisation

Modéliser la relation entre :

Variable réponse \(Y\) (quantitative, qualitative, etc.).
Variables explicatives \(X = (X_1, \ldots, X_p)\).

Modèle général

\[Y = f(X) + \varepsilon\]

\(f\) : fonction déterministe (information systématique).
\(\varepsilon\) : terme d’erreur aléatoire.

Hypothèses du modèle

Sur le terme d’erreur \(\varepsilon\) :

Indépendant des variables explicatives \(X\).
\(\mathbb{E}[\varepsilon] = 0\) (espérance nulle).
\(\mathrm{Var}(\varepsilon) = \sigma^2\) (variance constante).

→ Cadre général pour toutes les méthodes du cours.

Plan

Mesures de qualité - MSE et taux d’erreur
Compromis biais/variance - Décomposition fondamentale
Flexibilité des modèles - Rigidité vs adaptabilité
Optimisation pratique - Trouver l’équilibre

Comment mesurer la qualité ?

Une fois \(\hat{f}\) estimé, comment évaluer \(\hat{Y} = \hat{f}(X)\) ?

Idée : Mesurer à quel point \(\hat{Y}\) est proche de la vraie valeur \(Y\).

Variables quantitatives : EQM (MSE)

Erreur Quadratique Moyenne (MSE)

\[\text{MSE}(Y, \hat{Y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{f}(x_i))^2\]

Interprétation → Distance moyenne entre valeurs observées et prédites.

MSE faible → Prédictions proches des observations.

Variables qualitatives : Taux d’erreur (ER)

Taux d’erreur (ER)

\[\text{ER}(Y, \hat{Y}) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{1}(y_i \neq \hat{f}(x_i))\]

Interprétation → Proportion de mauvaises prédictions.

ER faible → Prédictions proches des observations.

Exactitude vs Interprétabilité

Modèles simples (ex: régression linéaire) :

Faciles à interpréter
Relations complexes mal captées

Modèles flexibles (ex: forêt aléatoire) :

Meilleures prédictions
Difficiles à interpréter

Le choix dépend de l’objectif : compréhension ou performance ?

“No Free Lunch in Statistics”

Il n’existe pas de méthode universellement optimale !

Une méthode performante dans un contexte peut échouer ailleurs.

→ Toujours adapter l’approche au problème.

Erreur de prédiction

Notre vrai objectif : Minimiser l’erreur sur de nouvelles données

\[\mathbb{E}[(Y - \hat{Y})^2] = \mathbb{E}[(Y - \hat{f}(X))^2]\]

Cette erreur se décompose en 3 parties…

Décomposition biais/variance

Décomposition biais/variance

\[\mathbb{E}[(Y - \hat{f}(X))^2] = \text{Biais}(\hat{f}(X))^2 + \text{Var}(\hat{f}(X)) + \sigma^2\]

Trois composantes :

Biais\(^2\) → Erreur systématique d’approximation.
Variance → Sensibilité aux fluctuations d’échantillon.
\(\sigma^2\) → Erreur irréductible (bruit intrinsèque).

Décomposition biais/variance

Modèle peu flexible (ex: régression linéaire)

✅ Variance faible
❌ Biais élevé

Modèle très flexible (ex: régression avec beaucoup de polynômes)

❌ Variance élevée
✅ Biais faible

→ Besoin d’un équilibre optimal !

Décomposition biais/variance

Par Bigbossfarin - Own work, CC0, Link.

Stratégies d’optimisation

Comment trouver l’équilibre ?

Validation croisée → Estimation de l’erreur de prédiction.
Sélection de modèle → Comparer différentes des modèles avec différentes flexibilités.
Méthodes d’ensembles → Combiner plusieurs modèles.
Régularisation → Contrôler la complexité du modèle.

Implications pour la pratique

Questions à se poser :

Ai-je assez de données pour un modèle flexible ?
Mon objectif est-il la prédiction ou la compréhension ?
Quelle est la complexité réelle du phénomène étudié ?
Comment évaluer la performance sur nouvelles données ?

Conclusion

Erreur totale = Biais\(^2\) + Variance + Bruit irréductible.
Compromis entre biais et variance.
Modèles rigides → Fort biais, faible variance.
Modèles flexibles → Faible biais, forte variance.
Optimum → Équilibre minimisant l’erreur totale.
Pas de solution universelle → Il faut s’adapter au contexte.

Prochaine étape → Validation et sélection de modèles.