Espaces
Avant de pouvoir modéliser ou analyser des données, il est fondamental de bien comprendre la nature des variables que l’on manipule. En effet, le type de variables détermine :
l’espace mathématique dans lequel elle vit;
les mesures de distance qu’on peut utiliser pour la comparer à d’autres;
et les modèles pertinents à utiliser.
Dans cette section, nous présentons les types de variables les plus courants, ainsi que les espaces associés.
Unité statistique
Une unité statistique est l’élément de base sur lequel une observation est effectué. Moralement, c’est le “porteur” de l’information qui est utilisé pour déterminer le niveau d’agrégation de l’analyse. L’unité statistique est un choix du modélisateur.
Types de variables
On distingue généralement quatre types de variables, que l’on identifie au niveau de la plus petite unité statistique du jeu de données.
Bien que ces types de variables soient les plus communs, on peut trouver beaucoup d’autres types de variables. Par exemple, on peut s’intéresser à de la comparaison de courbes, de textes, d’images, de réseaux, etc. Dans ces situations, le choix de la représentation dépend du niveau auquel on souhaite se placer, et donc de l’unité statistique.
Espaces associés
Une fois que nos données ont été collectés, la première étape d’une analyse statistique consiste à choisir un espace mathématique dans lequel travailler. Cette espace, que l’on appelle parfois espace d’observation et que l’on note \(\mathcal{X}\), dépend du type de données observées. Il constitue le cadre formel dans lequel nos variables prennent leurs valeurs, et il guide les choix méthodologiques qui suivront.
Lorsque les données sont plus conplexes, il faut choisir des espaces plus adaptés. Pour de l’analyse de courbes ou de signaux, on peut travailler dans un espace de fonctions. Par exemple, on peut considérer l’espace des fonctions continues sur un intervalle fermé \([a, b]\), noté \(\mathcal{X} = \mathcal{C}([a, b])\). Pour de l’analyse de texte (vu comme une séquence de caractères), l’espace de travail peut être un alphabet. Par exemple, on peut considérer \(\mathcal{X} = \{ \text{A}, \text{B}, \dots, \text{Z} \}\).
Souvent, on observe plusieurs variables en même temps, e.g. la taille, le poids et le sexe d’un individus. Dans ce cas, l’espace d’observation sera le produit cartésien (aussi appelé ensemble produit) des espaces associés à chaque variable : \[\mathcal{X} = \mathcal{X}_1 \times \mathcal{X}_2 \times \dots \mathcal{X}_p,\] où \(p\) est le nombre de variables. Dans le cas où on observe \(p\) variables numérique, on notera plus simplement \(\mathcal{X} = \mathbb{R}^p\)
