Éthique

et confidentialité

Steven Golovkine

17 oct. 2024

L’analyse de données aujourd’hui

Omniprésence dans tous les domaines :

Santé
Éducation
Politiques publiques
Justice
Finance

→ Décisions automatisées aux conséquences réelles.

Plan

Généralités
Confidentialité des données
Implications sociales
Mythes à déconstruire
Solutions pratiques

Pourquoi l’éthique est cruciale ?

Les données ne sont pas neutres !

Elles sont le reflet d’un contexte :

Social
Institutionnel
Technique

Risques → Renforcer les inégalités, reproduire des biais historiques, porter atteinte à la vie privée, …

Questions fondamentales

Avant toute analyse, se demander :

Mes données représentent-elles fidèlement ma population ?
Quelles décisions seront prises à partir de ces analyses ?
Quelles sont les conséquences pour les individus concernés ?
Qui est affecté par ces décisions ?

Confidentialité : Enjeux

Lors de la manipulation de données personnelles :

Réidentification des personnes
Exploitation abusive
Violation de la vie privée

→ Nécessité de prendre des mesures adéquates.

Anonymisation des données

Supprimer ou transformer les identifiants :

Directs :
- Noms, adresses, numéros
Indirects :
- Dates de naissance, codes postaux

⚠️ Attention : Le croisement de plusieurs variables peut permettre l’identification !

Exemple : Netflix et IMDb

Des chercheurs de l’université du Texas ont pu identifier des utilisateurs Netflix en croisant leurs notes avec celles sur IMDb.

Leçon → L’anonymisation simple ne suffit pas toujours !

Techniques de protection

Réduire la granularité :

Âges → Tranches d’âge (25-34 ans au lieu de 28 ans)
Codes postaux → Régions
Salaires → Catégories

Regrouper les modalités rares :

Éviter les combinaisons uniques de caractéristiques
Fusionner les catégories peu fréquentes

Techniques de protection

Ajout de bruit :

Préserver les tendances globales
Rendre l’identification individuelle difficile
⚠️ Ne pas compromettre la validité des analyses

Confidentialité différentielle :

Garantir qu’un individu ne peut être identifié
Même en connaissant toutes les autres données

Implications sociales : Sources de biais

Plusieurs points de défaillance :

Biais d’échantillonnage → Données non représentatives
Biais dans la variable cible → Reproduction de discriminations historiques
Validité variable selon les groupes → Performance inégale
Classes mal représentées → Groupes minoritaires ignorés

Biais d’échantillonnage

Problème : Le jeu de données ne reflète pas fidèlement la population cible.

Exemples :

Sous-représentation de certaines communautés
Surreprésentation de populations faciles d’accès
Exclusion de groupes vulnérables

→ Modèles inéquitables

Biais dans la variable cible

Problème : Reproduction de discriminations historiques.

Exemples :

Justice prédictive : logiciel COMPAS utilisé aux USA.
Recrutement : processus d’Amazon.

→ Discrimination systématique de certains groupes.

Validité variable selon les groupes

Un même modèle peut :

Très bien fonctionner pour un sous-groupe
Être très mauvais pour un autre

Exemple (Krishnan, A., Almadan, A., & Rattani, A. (2020)):

Reconnaissance faciale : Haute précision pour hommes blancs.
Même système : Faible précision pour femmes noires.

→ Erreurs systématiques discriminatoires

Classes mal représentées

Conséquences :

Les maladies rares sont mal prédites.
Les groupes démographiques minoritaires sont ignorés.
La performance globale masque les échecs locaux.
Les inégalités existantes sont renforcées.

Mythes à déconstruire

Quelques idées reçues :

“La machine apprend toute seule.”
“C’est objectif, c’est basé sur des données.”
“Mon modèle ne peut pas être sexiste, je n’utilise pas le genre.”

Mythe 1 : “La machine apprend toute seule.”

En réalité → Ce sont des choix faits par des humains :

Quelles données collecter ?
Quelles variables inclure ?
Quelle variable à expliquer ?
Quel algorithme utiliser ?

→ L’“apprentissage” dépend entièrement des décisions humaines

Mythe 2 : “C’est objectif, basé sur des données.”

Réalité → Les données ne sont jamais neutres !

Elles sont le produit de :

Contexte social
Choix institutionnels
Décisions méthodologiques

→ Les modèles héritent des biais des données.

Mythe 3 : “Sans genre, pas de sexisme.”

Réalité → Le modèle peut inférer le genre via d’autres variables corrélées :

Profession
Parcours scolaire
Historique salarial

→ L’exclusion explicite ne garantit pas l’absence de biais.

Solutions : Vue d’ensemble

Agir à différentes étapes du processus :

En amont → Sur les données
Pendant → Sur la fonction de perte
A posteriori → Sur les résultats

Solution 1 : Agir sur les données

Interventions en amont :

Rééquilibrer l’échantillon → Représentation équitable
Sur-représenter certains groupes → Compenser sous-représentation
Corriger les biais connus → Dans la variable cible
Augmenter les données → Pour classes minoritaires

Solution 2 : Modifier la fonction de perte

Intégrer l’équité dans l’apprentissage :

Pénalités pour inégalités de performance
Imposer équité en termes de faux positifs
Contraintes sur disparités entre groupes
Optimisation multi-objectifs (performance + équité)

Solution 3 : Corrections a posteriori

Ajuster les résultats produits :

Recalibrage des probabilités → Par groupe démographique
Ajustement des seuils → Seuils différents selon contexte
Post-processing → Corrections statistiques
Audits réguliers → Monitoring des performances

Limites des solutions techniques

⚠️ Les solutions techniques ne suffisent pas !

Nécessité de :

Réflexion éthique continue
Transparence sur les choix
Implication des parties prenantes
Évaluation des impacts sociaux

Bonnes pratiques

Démarche éthique complète :

Documentation → Origines et limites des données
Transparence → Méthodes et hypothèses
Évaluation différenciée → Performance par sous-groupe
Implication → Communautés affectées
Révision → Continue et critique

Cadres réglementaires

Protection juridique croissante :

RGPD (UE) → Droit à l’explication
AI Act (UE) → Cadre réglementaire et juridique commun pour l’IA
LIAD (Canada) → Protection des consommateurs
Algorithmic Accountability Act (USA) → Audits obligatoires
Législations nationales en développement

Responsabilité du data scientist

Rôle et obligations :

Vigilance → Identifier les biais potentiels
Transparence → Communiquer les limites
Prudence → Évaluer les conséquences
Courage → Refuser les projets problématiques
Formation → Continue sur l’éthique

Questions à se poser

Avant de déployer un modèle :

Qui bénéficie de ce modèle ? Qui peut en pâtir ?
Les données sont-elles représentatives ?
Y a-t-il des groupes désavantagés ?
Les erreurs ont-elles les mêmes conséquences pour tous ?
Existe-t-il des alternatives moins risquées ?

Conclusion

Les données et modèles ne sont jamais neutres.
Biais multiples à toutes les étapes du processus.
Solutions techniques nécessaires mais insuffisantes.
Réflexion éthique indispensable à chaque projet.
Responsabilité collective → Data scientists, organisations, société

→ L’éthique n’est pas une contrainte, c’est une condition de qualité !

Prochaine étape → Classification supervisée