Projet d’analyse de données
12 sept. 2025
5 étapes principales :
Définition des objectifs
Collecte et préparation des données
Élaboration et validation des modèles
Implémentation et mise en production
Suivi de la performance et amélioration continue
| Étape | Temps | Importance |
|---|---|---|
| Comprendre le problème | 10% | 15% |
| Explorer la solution | 9% | 14% |
| Implementer la solution | 1% | 51% |
| Préparer les données | 60% | 15% |
| Analyse descriptive des données | 15% | 3% |
| Modéliser les données | 5% | 2% |
Constat: importance ≠ temps passé !
Pourquoi c’est crucial ?
Guide la collecte des données.
Définit le modèle adéquat.
Facilite l’interprétation.
Évite les explorations aveugles.
Comment bien formuler ?
Clarifier les termes.
Identifier les utilisateurs.
Définir la population cible.
Préciser les décisions qui dépendent des résultats.
❌ Mauvais objectifs
Analyser les données clients.
Analyser les données des adversaires.
Analyser les données du médicament.
✅ Bons objectifs
Prédire quels clients achèteront le produit d’épargne.
Caractériser le style de jeu pour identifier les faiblesses d’une équipe.
Concevoir un protocole pour tester l’efficacité d’un médicament.
Plateformes génériques :
Sources officielles :
Canada: StatCan
France: data.gouv.fr
USA: data.gov
Sources internes : bases clients, transactions, production, web analytics
“Garbage in, garbage out”
Quelques questions importantes :
Les données sont-elles représentatives ?
Sont-elles exactes, complètes, pertinentes ?
Y a-t-il des valeurs manquantes, doublons, incohérences ?
3 principes fondamentaux :
Chaque variable = une colonne.
Chaque observation = une ligne.
Chaque cellule = une valeur unique.
R : tidyr, readr, readxl, haven
Python : pandas, polars
Supprimer les doublons.
Uniformiser les modalités.
Vérifier les formats des valeurs spéciales.
Modalités rares/nombreuses.
Valeurs extrêmes ou aberrantes.
Corrélations fortes.
Classes déséquilibrées.
Valeurs manquantes.
Pour faire l’exploration, on peut utiliser :
des statistiques descriptives unidimensionnelles
numérique: moyenne, extremum, tableau de fréquences, …
graphique: histogramme, boxplot
Pour faire l’exploration, on peut utiliser :
des statistiques descriptives bidimensionnelles
numérique: tableaux croisés, corrélation, …
graphique: diagramme de dispersion, …
Pour faire l’exploration, on peut utiliser :
des transformations de variables
transformation simple: passer au \(\log\), standardisation, …
regrouper des modalités
combiner des variables
Une valeur extrême est une valeur éloignée des autres valeurs de la population.
🚨 Peut correspondre à un profil particulier et plus rare dans la population.
Que faire ?
Utiliser des méthodes robustes
Transformer la variable, e.g. avec un \(\log\).
Une valeur aberrantes est une valeur erronée causée par une erreur de saisie, une erreur de calcul, une mauvaise mesure ou une fausse déclaration.
Que faire ?
Les remplacer par la bonne valeur.
Les traiter comme des valeurs manquantes
Retirer l’individu.
Espace de représentation (cadre mathématique).
Distance ou similarité (comparer les observations).
Modèle ou algorithme (méthode d’apprentissage).
Fonction de coût (mesure de qualité).
Automatiser la collecte et le nettoyage.
Intégrer le modèle dans l’application.
Générer rapports/prédictions en temps réel.
Maintenir la pipeline de données.
Rôle du Data Engineer : conception et maintenance de bout en bout.
Défis :
Evolution des données (data drift).
Hypothèses initiales invalidées.
Nouvelles variables disponibles.
Solutions :
Monitoring régulier des performances.
Réentraînement avec données récentes.
Amélioration continue du modèle.
Un bon modèle :
✅ Performant à un instant donné.
✅ Robuste dans le temps.
✅ Adaptable aux changements.
→ Équilibre entre toutes les étapes, pas seulement la modélisation !