Généralités

Projet d’analyse de données

Steven Golovkine

12 sept. 2025

logo

Structure d’un projet


5 étapes principales :

  1. Définition des objectifs

  2. Collecte et préparation des données

  3. Élaboration et validation des modèles

  4. Implémentation et mise en production

  5. Suivi de la performance et amélioration continue

Répartition temps vs importance (Pyle, 1999)


Étape Temps Importance
Comprendre le problème 10% 15%
Explorer la solution 9% 14%
Implementer la solution 1% 51%
Préparer les données 60% 15%
Analyse descriptive des données 15% 3%
Modéliser les données 5% 2%

Constat: importance ≠ temps passé !

1. Définition des objectifs


Pourquoi c’est crucial ?

  • Guide la collecte des données.

  • Définit le modèle adéquat.

  • Facilite l’interprétation.

  • Évite les explorations aveugles.

1. Définition des objectifs


Comment bien formuler ?

  • Clarifier les termes.

  • Identifier les utilisateurs.

  • Définir la population cible.

  • Préciser les décisions qui dépendent des résultats.

1. Exemples d’objectifs


❌ Mauvais objectifs

  • Analyser les données clients.

  • Analyser les données des adversaires.

  • Analyser les données du médicament.

✅ Bons objectifs

  • Prédire quels clients achèteront le produit d’épargne.

  • Caractériser le style de jeu pour identifier les faiblesses d’une équipe.

  • Concevoir un protocole pour tester l’efficacité d’un médicament.

2. Sources de données

Plateformes génériques :

Sources officielles :

Sources internes : bases clients, transactions, production, web analytics

2. Qualité des données


“Garbage in, garbage out”


Quelques questions importantes :

  • Les données sont-elles représentatives ?

  • Sont-elles exactes, complètes, pertinentes ?

  • Y a-t-il des valeurs manquantes, doublons, incohérences ?

2. Format “Tidy Data”


3 principes fondamentaux :

  1. Chaque variable = une colonne.

  2. Chaque observation = une ligne.

  3. Chaque cellule = une valeur unique.

R : tidyr, readr, readxl, haven

Python : pandas, polars

2. Exploration préliminaire - Nettoyage


  • Supprimer les doublons.

  • Uniformiser les modalités.

  • Vérifier les formats des valeurs spéciales.

2. Exploration préliminaire - Exploration


  • Modalités rares/nombreuses.

  • Valeurs extrêmes ou aberrantes.

  • Corrélations fortes.

  • Classes déséquilibrées.

  • Valeurs manquantes.

2. Exploration préliminaire - Exploration


Pour faire l’exploration, on peut utiliser :

  • des statistiques descriptives unidimensionnelles

    • numérique: moyenne, extremum, tableau de fréquences, …

    • graphique: histogramme, boxplot

2. Exploration préliminaire - Exploration


Pour faire l’exploration, on peut utiliser :

  • des statistiques descriptives bidimensionnelles

    • numérique: tableaux croisés, corrélation, …

    • graphique: diagramme de dispersion, …

2. Exploration préliminaire - Exploration


Pour faire l’exploration, on peut utiliser :

  • des transformations de variables

    • transformation simple: passer au \(\log\), standardisation, …

    • regrouper des modalités

    • combiner des variables

2. Exploration préliminaire - Exploration


Une valeur extrême est une valeur éloignée des autres valeurs de la population.

🚨 Peut correspondre à un profil particulier et plus rare dans la population.

Que faire ?

  • Utiliser des méthodes robustes

  • Transformer la variable, e.g. avec un \(\log\).

2. Exploration préliminaire - Exploration


Une valeur aberrantes est une valeur erronée causée par une erreur de saisie, une erreur de calcul, une mauvaise mesure ou une fausse déclaration.

Que faire ?

  • Les remplacer par la bonne valeur.

  • Les traiter comme des valeurs manquantes

  • Retirer l’individu.

3. Modélisation : 4 composantes


  1. Espace de représentation (cadre mathématique).

  2. Distance ou similarité (comparer les observations).

  3. Modèle ou algorithme (méthode d’apprentissage).

  4. Fonction de coût (mesure de qualité).

4. Mise en production : Data Engineering


  • Automatiser la collecte et le nettoyage.

  • Intégrer le modèle dans l’application.

  • Générer rapports/prédictions en temps réel.

  • Maintenir la pipeline de données.

Rôle du Data Engineer : conception et maintenance de bout en bout.

5. Suivi et amélioration


Défis :

  • Evolution des données (data drift).

  • Hypothèses initiales invalidées.

  • Nouvelles variables disponibles.

Solutions :

  • Monitoring régulier des performances.

  • Réentraînement avec données récentes.

  • Amélioration continue du modèle.

Conclusion


Un bon modèle :

✅ Performant à un instant donné.

✅ Robuste dans le temps.

✅ Adaptable aux changements.

→ Équilibre entre toutes les étapes, pas seulement la modélisation !