Gouvernance des Données IA — Cadre, Obligations et Bonnes Pratiques

Point clé : La gouvernance des données IA n'est pas un complément à la gouvernance des données classique — c'est une couche distincte qui adresse les risques spécifiques à l'IA : biais dans les données d'entraînement, dérive de distribution, contamination des données de test et traçabilité de l'origine des décisions automatisées.

Définition

La gouvernance des données IA désigne l'ensemble des politiques, processus et contrôles techniques qui régissent la collecte, le stockage, l'accès, la qualité, l'utilisation et la suppression des données utilisées dans les systèmes d'intelligence artificielle — à la fois pour l'entraînement des modèles et pour l'inférence en production.

Elle se distingue de la gouvernance des données traditionnelle par trois caractéristiques : la nécessité de tracer l'origine des données d'entraînement (pour les audits de conformité et de biais), l'obligation de gérer la dérive des données en production, et l'exigence de documenter les décisions prises par les modèles pour permettre leur explicabilité.

Composantes Essentielles

Catalogue et Traçabilité des Données

Chaque jeu de données utilisé pour entraîner ou affiner un modèle doit être catalogué : source, date de collecte, conditions de licence, transformations appliquées, populations représentées. Cette traçabilité est une obligation directe du Règlement IA pour les systèmes à haut risque (Article 10).

Qualité et Biais

Les données d'entraînement doivent faire l'objet d'audits de qualité réguliers : valeurs manquantes, déséquilibres de représentation, étiquetage incorrect. Les biais non détectés dans les données se propagent et s'amplifient dans les décisions du modèle.

Contrôle d'Accès Différencié

Les données utilisées pour l'inférence en production sont souvent plus sensibles que les données d'entraînement. Les contrôles d'accès doivent distinguer les données d'entraînement, les données de validation, les données de production et les données personnelles soumises au RGPD.

Rétention et Suppression

Le droit à l'oubli du RGPD s'applique aux données personnelles utilisées pour l'inférence. Pour les données d'entraînement, la question est plus complexe : réentraîner un modèle pour supprimer l'influence d'un individu n'est pas trivial et constitue un défi actif de recherche (machine unlearning).

Exemple : Gouvernance des Données dans un Système de Scoring de Crédit

Une banque déployant un modèle de scoring de crédit doit : documenter les sources de données d'entraînement (historique de paiement, données comportementales), auditer la représentation démographique pour détecter les biais, journaliser chaque décision de scoring avec les données d'entrée utilisées, et permettre au demandeur de consulter les données sur lesquelles la décision a été fondée (Article 86 du RGPD, droit d'explication).

Gouvernance des Données et Knowlee

Knowlee sépare strictement les données par verticale (4Sales, d360, 4Talents) avec des projets Supabase distincts. Chaque appel d'outil MCP est capturé dans le transcript de session, créant une piste d'audit complète des données consultées lors de chaque décision automatisée. Les métadonnées de gouvernance (data_categories, approved_by) sont déclarées au niveau du job, pas de la session individuelle.

FAQ

Q : La gouvernance des données IA est-elle couverte par le RGPD ? Partiellement. Le RGPD couvre les données personnelles traitées pour l'inférence. Le Règlement IA ajoute des obligations sur les données d'entraînement (Article 10) indépendamment du caractère personnel des données.

Q : Quelle est la différence entre gouvernance des données et gouvernance IA ? La gouvernance des données porte sur les données. La gouvernance IA porte sur les systèmes IA dans leur ensemble (modèles, décisions, impacts). La gouvernance des données IA est le point d'intersection.

Q : Comment gérer la dérive des données en production ? Via des moniteurs de dérive statistique (KL divergence, PSI) qui alertent quand la distribution des données d'entrée en production s'éloigne significativement de la distribution d'entraînement. Ces alertes doivent déclencher une revue humaine, pas un recalibrage automatique.