Généralités

Projet d’analyse de données

Steven Golovkine

12 sept. 2025

Structure d’un projet

5 étapes principales :

Définition des objectifs
Collecte et préparation des données
Élaboration et validation des modèles
Implémentation et mise en production
Suivi de la performance et amélioration continue

Répartition temps vs importance (Pyle, 1999)

Étape	Temps	Importance
Comprendre le problème	10%	15%
Explorer la solution	9%	14%
Implementer la solution	1%	51%
Préparer les données	60%	15%
Analyse descriptive des données	15%	3%
Modéliser les données	5%	2%

Constat: importance ≠ temps passé !

1. Définition des objectifs

Pourquoi c’est crucial ?

Guide la collecte des données.
Définit le modèle adéquat.
Facilite l’interprétation.
Évite les explorations aveugles.

1. Définition des objectifs

Comment bien formuler ?

Clarifier les termes.
Identifier les utilisateurs.
Définir la population cible.
Préciser les décisions qui dépendent des résultats.

1. Exemples d’objectifs

❌ Mauvais objectifs

Analyser les données clients.
Analyser les données des adversaires.
Analyser les données du médicament.

✅ Bons objectifs

Prédire quels clients achèteront le produit d’épargne.
Caractériser le style de jeu pour identifier les faiblesses d’une équipe.
Concevoir un protocole pour tester l’efficacité d’un médicament.

2. Sources de données

Plateformes génériques :

Sources officielles :

Canada: StatCan
France: data.gouv.fr
USA: data.gov

Sources internes : bases clients, transactions, production, web analytics

2. Qualité des données

“Garbage in, garbage out”

Quelques questions importantes :

Les données sont-elles représentatives ?
Sont-elles exactes, complètes, pertinentes ?
Y a-t-il des valeurs manquantes, doublons, incohérences ?

2. Format “Tidy Data”

3 principes fondamentaux :

Chaque variable = une colonne.
Chaque observation = une ligne.
Chaque cellule = une valeur unique.

R : tidyr, readr, readxl, haven

Python : pandas, polars

2. Exploration préliminaire - Nettoyage

Supprimer les doublons.
Uniformiser les modalités.
Vérifier les formats des valeurs spéciales.

2. Exploration préliminaire - Exploration

Modalités rares/nombreuses.
Valeurs extrêmes ou aberrantes.
Corrélations fortes.
Classes déséquilibrées.
Valeurs manquantes.

2. Exploration préliminaire - Exploration

Pour faire l’exploration, on peut utiliser :

des statistiques descriptives unidimensionnelles
- numérique: moyenne, extremum, tableau de fréquences, …
- graphique: histogramme, boxplot

2. Exploration préliminaire - Exploration

Pour faire l’exploration, on peut utiliser :

des statistiques descriptives bidimensionnelles
- numérique: tableaux croisés, corrélation, …
- graphique: diagramme de dispersion, …

2. Exploration préliminaire - Exploration

Pour faire l’exploration, on peut utiliser :

des transformations de variables
- transformation simple: passer au \(\log\), standardisation, …
- regrouper des modalités
- combiner des variables

2. Exploration préliminaire - Exploration

Une valeur extrême est une valeur éloignée des autres valeurs de la population.

🚨 Peut correspondre à un profil particulier et plus rare dans la population.

Que faire ?

Utiliser des méthodes robustes
Transformer la variable, e.g. avec un \(\log\).

2. Exploration préliminaire - Exploration

Une valeur aberrantes est une valeur erronée causée par une erreur de saisie, une erreur de calcul, une mauvaise mesure ou une fausse déclaration.

Que faire ?

Les remplacer par la bonne valeur.
Les traiter comme des valeurs manquantes
Retirer l’individu.

3. Modélisation : 4 composantes

Espace de représentation (cadre mathématique).
Distance ou similarité (comparer les observations).
Modèle ou algorithme (méthode d’apprentissage).
Fonction de coût (mesure de qualité).

4. Mise en production : Data Engineering

Automatiser la collecte et le nettoyage.
Intégrer le modèle dans l’application.
Générer rapports/prédictions en temps réel.
Maintenir la pipeline de données.

Rôle du Data Engineer : conception et maintenance de bout en bout.

5. Suivi et amélioration

Défis :

Evolution des données (data drift).
Hypothèses initiales invalidées.
Nouvelles variables disponibles.

Solutions :

Monitoring régulier des performances.
Réentraînement avec données récentes.
Amélioration continue du modèle.

Conclusion

Un bon modèle :

✅ Performant à un instant donné.

✅ Robuste dans le temps.

✅ Adaptable aux changements.

→ Équilibre entre toutes les étapes, pas seulement la modélisation !