et confidentialité
17 oct. 2024
Omniprésence dans tous les domaines :
Santé
Éducation
Politiques publiques
Justice
Finance
→ Décisions automatisées aux conséquences réelles.
Généralités
Confidentialité des données
Implications sociales
Mythes à déconstruire
Solutions pratiques
Elles sont le reflet d’un contexte :
Social
Institutionnel
Technique
Risques → Renforcer les inégalités, reproduire des biais historiques, porter atteinte à la vie privée, …
Avant toute analyse, se demander :
Mes données représentent-elles fidèlement ma population ?
Quelles décisions seront prises à partir de ces analyses ?
Quelles sont les conséquences pour les individus concernés ?
Qui est affecté par ces décisions ?
Lors de la manipulation de données personnelles :
Réidentification des personnes
Exploitation abusive
Violation de la vie privée
→ Nécessité de prendre des mesures adéquates.
Supprimer ou transformer les identifiants :
Directs :
Indirects :
⚠️ Attention : Le croisement de plusieurs variables peut permettre l’identification !
Des chercheurs de l’université du Texas ont pu identifier des utilisateurs Netflix en croisant leurs notes avec celles sur IMDb.
Leçon → L’anonymisation simple ne suffit pas toujours !
Réduire la granularité :
Âges → Tranches d’âge (25-34 ans au lieu de 28 ans)
Codes postaux → Régions
Salaires → Catégories
Regrouper les modalités rares :
Éviter les combinaisons uniques de caractéristiques
Fusionner les catégories peu fréquentes
Ajout de bruit :
Préserver les tendances globales
Rendre l’identification individuelle difficile
⚠️ Ne pas compromettre la validité des analyses
Confidentialité différentielle :
Garantir qu’un individu ne peut être identifié
Même en connaissant toutes les autres données
Plusieurs points de défaillance :
Biais d’échantillonnage → Données non représentatives
Biais dans la variable cible → Reproduction de discriminations historiques
Validité variable selon les groupes → Performance inégale
Classes mal représentées → Groupes minoritaires ignorés
Problème : Le jeu de données ne reflète pas fidèlement la population cible.
Exemples :
Sous-représentation de certaines communautés
Surreprésentation de populations faciles d’accès
Exclusion de groupes vulnérables
→ Modèles inéquitables
Problème : Reproduction de discriminations historiques.
Exemples :
Justice prédictive : logiciel COMPAS utilisé aux USA.
Recrutement : processus d’Amazon.
→ Discrimination systématique de certains groupes.
Un même modèle peut :
Très bien fonctionner pour un sous-groupe
Être très mauvais pour un autre
Exemple (Krishnan, A., Almadan, A., & Rattani, A. (2020)):
Reconnaissance faciale : Haute précision pour hommes blancs.
Même système : Faible précision pour femmes noires.
→ Erreurs systématiques discriminatoires
Conséquences :
Les maladies rares sont mal prédites.
Les groupes démographiques minoritaires sont ignorés.
La performance globale masque les échecs locaux.
Les inégalités existantes sont renforcées.
Quelques idées reçues :
“La machine apprend toute seule.”
“C’est objectif, c’est basé sur des données.”
“Mon modèle ne peut pas être sexiste, je n’utilise pas le genre.”
En réalité → Ce sont des choix faits par des humains :
Quelles données collecter ?
Quelles variables inclure ?
Quelle variable à expliquer ?
Quel algorithme utiliser ?
→ L’“apprentissage” dépend entièrement des décisions humaines
Réalité → Les données ne sont jamais neutres !
Elles sont le produit de :
Contexte social
Choix institutionnels
Décisions méthodologiques
→ Les modèles héritent des biais des données.
Réalité → Le modèle peut inférer le genre via d’autres variables corrélées :
Profession
Parcours scolaire
Historique salarial
→ L’exclusion explicite ne garantit pas l’absence de biais.
Agir à différentes étapes du processus :
En amont → Sur les données
Pendant → Sur la fonction de perte
A posteriori → Sur les résultats
Interventions en amont :
Rééquilibrer l’échantillon → Représentation équitable
Sur-représenter certains groupes → Compenser sous-représentation
Corriger les biais connus → Dans la variable cible
Augmenter les données → Pour classes minoritaires
Intégrer l’équité dans l’apprentissage :
Pénalités pour inégalités de performance
Imposer équité en termes de faux positifs
Contraintes sur disparités entre groupes
Optimisation multi-objectifs (performance + équité)
Ajuster les résultats produits :
Recalibrage des probabilités → Par groupe démographique
Ajustement des seuils → Seuils différents selon contexte
Post-processing → Corrections statistiques
Audits réguliers → Monitoring des performances
⚠️ Les solutions techniques ne suffisent pas !
Nécessité de :
Réflexion éthique continue
Transparence sur les choix
Implication des parties prenantes
Évaluation des impacts sociaux
Démarche éthique complète :
Documentation → Origines et limites des données
Transparence → Méthodes et hypothèses
Évaluation différenciée → Performance par sous-groupe
Implication → Communautés affectées
Révision → Continue et critique
Protection juridique croissante :
RGPD (UE) → Droit à l’explication
AI Act (UE) → Cadre réglementaire et juridique commun pour l’IA
LIAD (Canada) → Protection des consommateurs
Algorithmic Accountability Act (USA) → Audits obligatoires
Législations nationales en développement
Rôle et obligations :
Vigilance → Identifier les biais potentiels
Transparence → Communiquer les limites
Prudence → Évaluer les conséquences
Courage → Refuser les projets problématiques
Formation → Continue sur l’éthique
Avant de déployer un modèle :
Qui bénéficie de ce modèle ? Qui peut en pâtir ?
Les données sont-elles représentatives ?
Y a-t-il des groupes désavantagés ?
Les erreurs ont-elles les mêmes conséquences pour tous ?
Existe-t-il des alternatives moins risquées ?
Les données et modèles ne sont jamais neutres.
Biais multiples à toutes les étapes du processus.
Solutions techniques nécessaires mais insuffisantes.
Réflexion éthique indispensable à chaque projet.
Responsabilité collective → Data scientists, organisations, société
→ L’éthique n’est pas une contrainte, c’est une condition de qualité !
Prochaine étape → Classification supervisée