Généralités

Distances

Steven Golovkine

12 sept. 2025

Pourquoi les distances ?

Dans tout projet d’analyse de données, il faut pouvoir quantifier la ressemblance ou la dissemblance entre observations.

Impact direct sur :

Algorithmes d’apprentissage
Méthodes de regroupement
Techniques de visualisation

Plan

Notion de distance - Définition mathématique
Distances numériques - \(L_q\), euclidienne, Manhattan
Notion de similarité - Concept opposé
Variables qualitatives - Encodages et distances adaptées
Distance de Jaccard - Cas des variables binaires

Définition mathématique

Distance sur \(\mathcal{X}\)

Une fonction \(d: \mathcal{X} \times \mathcal{X} \to \mathbb{R}\) est une distance si :

Non-négativité : \(d(x, y) \geq 0\)
Séparation : \(d(x, y) = 0 \Leftrightarrow x = y\)
Symétrie : \(d(x, y) = d(y, x)\)
Inégalité triangulaire : \(d(x, y) \leq d(x, z) + d(y, z)\)

Distance euclidienne

Définition

Pour \(x, y \in \mathbb{R}^p\) :

\[d(x, y) = \left\| x - y \right\|_2 = \sqrt{\sum_{i=1}^{p} (x_i - y_i)^2}\]

Quand l’utiliser : Variables numériques de même ordre de grandeur.

Distance euclidienne (preuve)

Distance \(L_q\) (Minkowski)

Formule générale :

\[d(x, y) = \left( \sum_{i=1}^{p} |x_i - y_i|^q \right)^{1/q}\]

Cas particuliers :

\(q = 1\) : Distance de Manhattan → \(d(x, y) = \sum_{i=1}^{p} |x_i - y_i|\)
\(q = 2\) : Distance euclidienne

Exemple concret (WOOCLAP: KFFPDJ)

Nom	Taille (cm)	Poids (kg)
Alice	165	70
Bob	177	75

Problème d’échelle

Attention !

Les distances \(L_q\) ne sont pas invariantes aux changements d’échelle.

Problème d’échelle - solution

Standardiser les variables !

Distance euclidienne standardisée :

\[d(x, y) = \sum_{i=1}^{p} \left( \frac{x_i - y_i}{\sigma_i} \right)^2\]

où \(\sigma_i\) = écart-type de la variable \(i\).

Notion de similarité

Mesure de similarité sur \(\mathcal{X}\)

Une fonction \(s: \mathcal{X} \times \mathcal{X} \to \mathbb{R}\) telle que :

\(s(x, y) \geq 0\)
\(s(x, y) = s(y, x)\) (symétrie)
\(s(x, x) = 1 \geq s(x, y)\) (maximum pour soi-même)

Conversion distance ↔︎ similarité

Distance → Similarité :

\[s(x, y) = \frac{1}{1 + d(x, y)}\]

⚠️ Une mesure de similarité ne respecte généralement pas l’inégalité triangulaire.

Similarité → Dissemblance :

\[d^*(x, y) = 1 - s(x, y)\]

Variables qualitatives

Problème : pour \(\mathcal{X} = \{\text{Rouge}, \text{Vert}, \text{Bleu}\}\).

❌ Mauvaise pratique :

Rouge = 1, Vert = 2, Bleu = 3 → Introduit un ordre artificiel !

✅ Bonne pratique : Encodage adapté

Encodage “1 parmi K” (One-hot encoding)

Rouge → \((1, 0, 0)\)
Vert → \((0, 1, 0)\)
Bleu → \((0, 0, 1)\)

Avantages : Pas d’ordre artificiel

Inconvénients : Grande dimension si beaucoup de modalités

Distance discrète

Distance de Hamming

Pour des vecteurs :

\[d(x, y) = \sum_{i=1}^{p} \mathbb{1}(x_i \neq y_i)\]

Exemple : Distance discrète (WOOCLAP: KFFPDJ)

Nom	Couleur	Yeux	Cheveux
Alice	Rouge	Vert	Blond
Bob	Vert	Bleu	Roux
Chris	Rouge	Vert	Blond

Similarité par accords

Compter les accords normalisés :

\[s(x, y) = \frac{1}{p}\sum_{i=1}^{p} \mathbb{1}(x_i = y_i)\]

Exemple précédent :

\(s(\text{Alice}, \text{Bob}) = 0\)
\(s(\text{Alice}, \text{Chris}) = 1\)
\(s(\text{Bob}, \text{Chris}) = 0\)

Problème des variables binaires

Avec l’encodage “1 parmi K” :

Beaucoup de variables binaires
Beaucoup de 0, peu de 1
Distance discrète peu informative

Solution : Se concentrer sur les attributs à 1 → Distance de Jaccard

Indice de Jaccard : Définition

Pour deux observations de \(K\) variables binaires :

\(M_{11}\) : nombre de variables à 1 pour x et y
\(M_{10}\) : nombre de variables à 1 pour x, 0 pour y
\(M_{01}\) : nombre de variables à 0 pour x, 1 pour y
\(M_{00}\) : nombre de variables à 0 pour x et y

\[J(x, y) = \frac{M_{11}}{M_{10} + M_{01} + M_{11}} = \frac{M_{11}}{K - M_{00}}\]

Distance de Jaccard

Distance de Jaccard :

\[d(x, y) = 1 - J(x, y) = \frac{M_{10} + M_{01}}{M_{01} + M_{10} + M_{11}}\]

Intuition : Proportion de désaccords parmi les variables “actives”.

Exemple : Distance de Jaccard

Nom	Q1	Q2	Q3	Q4	Q5
Alice	1	0	1	0	1
Bob	1	0	0	1	0

Récapitulatif des distances

Type de données	Distance utilisable
Numériques	Euclidienne (standardisée)
Qualitatives	Discrète (Hamming)
Binaires nombreuses	Jaccard
Mixtes	Combinaison adaptée

Choix pratique de la distance

Questions à se poser :

Quel type de variables ? (numériques/qualitatives)
Même échelle ou standardisation nécessaire ?
Beaucoup de variables binaires ?
Les double-absences sont-elles informatives ?

→ Le choix de distance influence directement les résultats !

Conclusion

Distance → mesure de dissemblance (4 propriétés mathématiques)
Similarité → mesure de ressemblance (concept opposé)
Variables numériques → Distance euclidienne (standardisée)
Variables qualitatives → Encodage + distance adaptée
Variables binaires → Distance de Jaccard

Prochaine étape → Compromis biais/variance