Distances
12 sept. 2025
Dans tout projet d’analyse de données, il faut pouvoir quantifier la ressemblance ou la dissemblance entre observations.
Impact direct sur :
Algorithmes d’apprentissage
Méthodes de regroupement
Techniques de visualisation
Notion de distance - Définition mathématique
Distances numériques - \(L_q\), euclidienne, Manhattan
Notion de similarité - Concept opposé
Variables qualitatives - Encodages et distances adaptées
Distance de Jaccard - Cas des variables binaires
Distance sur \(\mathcal{X}\)
Une fonction \(d: \mathcal{X} \times \mathcal{X} \to \mathbb{R}\) est une distance si :
Non-négativité : \(d(x, y) \geq 0\)
Séparation : \(d(x, y) = 0 \Leftrightarrow x = y\)
Symétrie : \(d(x, y) = d(y, x)\)
Inégalité triangulaire : \(d(x, y) \leq d(x, z) + d(y, z)\)
Définition
Pour \(x, y \in \mathbb{R}^p\) :
\[d(x, y) = \left\| x - y \right\|_2 = \sqrt{\sum_{i=1}^{p} (x_i - y_i)^2}\]
Quand l’utiliser : Variables numériques de même ordre de grandeur.
Formule générale :
\[d(x, y) = \left( \sum_{i=1}^{p} |x_i - y_i|^q \right)^{1/q}\]
Cas particuliers :
\(q = 1\) : Distance de Manhattan → \(d(x, y) = \sum_{i=1}^{p} |x_i - y_i|\)
\(q = 2\) : Distance euclidienne
| Nom | Taille (cm) | Poids (kg) |
|---|---|---|
| Alice | 165 | 70 |
| Bob | 177 | 75 |
Attention !
Les distances \(L_q\) ne sont pas invariantes aux changements d’échelle.
Standardiser les variables !
Distance euclidienne standardisée :
\[d(x, y) = \sum_{i=1}^{p} \left( \frac{x_i - y_i}{\sigma_i} \right)^2\]
où \(\sigma_i\) = écart-type de la variable \(i\).
Mesure de similarité sur \(\mathcal{X}\)
Une fonction \(s: \mathcal{X} \times \mathcal{X} \to \mathbb{R}\) telle que :
\(s(x, y) \geq 0\)
\(s(x, y) = s(y, x)\) (symétrie)
\(s(x, x) = 1 \geq s(x, y)\) (maximum pour soi-même)
Distance → Similarité :
\[s(x, y) = \frac{1}{1 + d(x, y)}\]
⚠️ Une mesure de similarité ne respecte généralement pas l’inégalité triangulaire.
Similarité → Dissemblance :
\[d^*(x, y) = 1 - s(x, y)\]
Problème : pour \(\mathcal{X} = \{\text{Rouge}, \text{Vert}, \text{Bleu}\}\).
❌ Mauvaise pratique :
Rouge = 1, Vert = 2, Bleu = 3 → Introduit un ordre artificiel !
✅ Bonne pratique : Encodage adapté
Rouge → \((1, 0, 0)\)
Vert → \((0, 1, 0)\)
Bleu → \((0, 0, 1)\)
Avantages : Pas d’ordre artificiel
Inconvénients : Grande dimension si beaucoup de modalités
Distance de Hamming
Pour des vecteurs :
\[d(x, y) = \sum_{i=1}^{p} \mathbb{1}(x_i \neq y_i)\]
| Nom | Couleur | Yeux | Cheveux |
|---|---|---|---|
| Alice | Rouge | Vert | Blond |
| Bob | Vert | Bleu | Roux |
| Chris | Rouge | Vert | Blond |
Compter les accords normalisés :
\[s(x, y) = \frac{1}{p}\sum_{i=1}^{p} \mathbb{1}(x_i = y_i)\]
Exemple précédent :
\(s(\text{Alice}, \text{Bob}) = 0\)
\(s(\text{Alice}, \text{Chris}) = 1\)
\(s(\text{Bob}, \text{Chris}) = 0\)
Avec l’encodage “1 parmi K” :
Beaucoup de variables binaires
Beaucoup de 0, peu de 1
Distance discrète peu informative
Solution : Se concentrer sur les attributs à 1 → Distance de Jaccard
Pour deux observations de \(K\) variables binaires :
\(M_{11}\) : nombre de variables à 1 pour x et y
\(M_{10}\) : nombre de variables à 1 pour x, 0 pour y
\(M_{01}\) : nombre de variables à 0 pour x, 1 pour y
\(M_{00}\) : nombre de variables à 0 pour x et y
\[J(x, y) = \frac{M_{11}}{M_{10} + M_{01} + M_{11}} = \frac{M_{11}}{K - M_{00}}\]
Distance de Jaccard :
\[d(x, y) = 1 - J(x, y) = \frac{M_{10} + M_{01}}{M_{01} + M_{10} + M_{11}}\]
Intuition : Proportion de désaccords parmi les variables “actives”.
| Nom | Q1 | Q2 | Q3 | Q4 | Q5 |
|---|---|---|---|---|---|
| Alice | 1 | 0 | 1 | 0 | 1 |
| Bob | 1 | 0 | 0 | 1 | 0 |
| Type de données | Distance utilisable |
|---|---|
| Numériques | Euclidienne (standardisée) |
| Qualitatives | Discrète (Hamming) |
| Binaires nombreuses | Jaccard |
| Mixtes | Combinaison adaptée |
Questions à se poser :
Quel type de variables ? (numériques/qualitatives)
Même échelle ou standardisation nécessaire ?
Beaucoup de variables binaires ?
Les double-absences sont-elles informatives ?
→ Le choix de distance influence directement les résultats !
Distance → mesure de dissemblance (4 propriétés mathématiques)
Similarité → mesure de ressemblance (concept opposé)
Variables numériques → Distance euclidienne (standardisée)
Variables qualitatives → Encodage + distance adaptée
Variables binaires → Distance de Jaccard
Prochaine étape → Compromis biais/variance