Vers une IA respectueuse de la vie privée : les fiches pratiques de la CNIL
La CNIL publie une première série de fiches pour une IA innovante et respectueuse de la vie privée.
Elle encourage en effet l'utilisation de vastes bases de données pour la recherche en IA, exigeant cependant des mesures de sécurité appropriées en contrepartie.
La CNIL (Commission nationale de l'informatique et des libertés) s'engage résolument à soutenir l'innovation dans le domaine de l'intelligence artificielle (IA) tout en veillant à la protection des données personnelles. En janvier 2023, elle a mis en place un service spécifique à l'IA et a lancé un plan d'action ambitieux. Le 11 octobre, la CNIL a donc publié des directives sous forme de fiches pour un développement de systèmes d'IA conformes au Règlement Général sur la Protection des Données (RGPD), créant ainsi un environnement de confiance pour les citoyens, tout en promouvant une innovation responsable.
Ci-après les points clés de ces fiches au contenu dense, résumés en quelques mots :
⚖️ Fiche 1 : Déterminer le régime juridique applicable
La CNIL souligne l'importance de respecter la réglementation sur la protection des données lors du développement de systèmes d'IA. Deux cas se présentent :
- Cas n°1 : Si l'usage opérationnel du système d'IA est défini dès la phase de développement, le même régime juridique s'applique.
- Cas n°2 : Si l'usage opérationnel n'est pas défini dès la phase de développement, le RGPD s'applique généralement, mais des régimes spécifiques peuvent être nécessaires en fonction de l'usage opérationnel du système. La CNIL encourage une approche adaptée pour garantir la conformité tout au long du processus de développement et de déploiement des systèmes d'IA.
🎯 Fiche 2 : Définir une finalité
La CNIL rappelle l'importance de définir clairement les finalités dans les traitements de données pour l'apprentissage des systèmes d’IA conformément au RGPD.
En pratique, il y a deux scénarios :
- Cas n°1 : Si l'usage opérationnel est clairement identifié dès la phase de développement, la finalité en phase de développement est considérée comme déterminée, explicite, et légitime.
- Cas n°2 : Si l'usage opérationnel en phase de déploiement n'est pas défini dès la phase de développement, la finalité en phase de développement doit être suffisamment précise, se référant au type de système d'IA, à ses fonctionnalités, et aux capacités techniquement envisageables.
La recherche scientifique bénéficie de flexibilité quant à la précision des finalités en raison de la nature complexe de la recherche, mais des garanties appropriées pour les droits des personnes doivent être préservées.
En résumé, définir clairement les finalités est essentiel pour garantir la conformité des traitements de données dans le développement des systèmes d'IA, tout en tenant compte des spécificités de chaque projet.
🏷️ Fiche 3 : Déterminer la qualification juridique des fournisseurs de systèmes d’IA
La CNIL explique comment déterminer le régime juridique applicable aux traitements de données lors de la constitution de bases de données pour l'apprentissage de systèmes d’IA en phase de développement
Le Principe
Les phases de développement et de déploiement d'un système d'IA sont considérées comme des traitements distincts de données personnelles, chacun devant respecter le régime juridique approprié. Le RGPD s'applique généralement, sauf exceptions.
En Pratique, deux scénarios :
- Cas n°1 : L’usage opérationnel est clairement défini dès la phase de développement, et les traitements poursuivent la même finalité. Même régime juridique.
- Cas n°2 : L’usage opérationnel n’est pas clairement défini dès le développement. En général, les traitements en phase de développement sont soumis au RGPD, mais le régime peut varier selon les usages opérationnels du système d’IA.
Exemple : un organisme développe un modèle de reconnaissance vocale pour commercialisation. La base de données pour l’apprentissage relève du RGPD, mais les traitements en phase de déploiement peuvent être soumis au régime « police-justice » si utilisés par une autorité compétente à des fins de prévention et de détection des infractions pénales.
La CNIL guide sur la détermination du régime juridique en fonction de la clarté des finalités et des spécificités de chaque projet.
✅ Fiche 4 : Assurer que le traitement est licite
Pour constituer une base de données d'apprentissage avec des données personnelles, l'organisme doit s'assurer de la conformité à la loi. La CNIL peut aider à définir les obligations en fonction de la collecte et de la réutilisation des données.
Le responsable doit définir une base légale et effectuer des vérifications selon le mode de collecte. Trois méthodes peuvent être utilisées : collecte directe, collecte indirecte à partir de sources ouvertes sur Internet, ou réutilisation de données collectées pour un autre objectif. Le respect de ces règles est essentiel.
Le choix de la base légale :
Lorsqu'il s'agit de créer et d'utiliser une base de données pour former des systèmes d'IA avec des données personnelles, il est impératif de se conformer aux dispositions du RGPD. Le RGPD exige que chaque traitement de données personnelles repose sur l'une des "bases légales" qu'il définit. En fonction de la base légale sélectionnée, les obligations de l'organisme et les droits des personnes concernées peuvent varier.
Quatre bases légales à considérer dans le cadre de l’IA :
- Consentement : Pour être valide, le consentement doit être libre, spécifique, éclairé et univoque. Par exemple, si un organisme souhaite collecter des données d'images pour entraîner un système à détecter des gestes spécifiques, il peut baser le traitement sur le consentement des volontaires. Il est essentiel de garantir que le consentement est donné de manière libre, notamment en permettant aux personnes de choisir spécifiquement pour chaque finalité distincte.
- Intérêt Légitime : Cette base légale exige que certaines conditions soient remplies, notamment que l'intérêt poursuivi soit légitime, que le traitement soit nécessaire pour atteindre cet intérêt, et qu'il n'entraîne pas une atteinte disproportionnée aux droits des personnes. Une analyse au cas par cas est nécessaire pour déterminer si le traitement respecte ces critères, notamment en ce qui concerne la vie privée des personnes concernées.
- Mission d'Intérêt Public : La "mission d'intérêt public," peut être utilisée si la mission en question est prévue par un texte normatif applicable au responsable de traitement, et si le traitement des données est spécifiquement lié à cette mission. Cette base légale est couramment employée pour les traitements réalisés par des laboratoires de recherche publics ou privés investis d'une mission d'intérêt public.
- Contrat : Cette base légale peut être mobilisée si un contrat valide est conclu entre le responsable de traitement et la personne concernée, et si le traitement est objectivement nécessaire à l'exécution de ce contrat. Par exemple, si un organisme conclut un contrat précis pour collecter des images en vue de constituer une base de données d'apprentissage, le traitement peut être justifié.
Données sensibles : restrictions strictes ⚠️
Certaines données, telles que celles révélant l'origine raciale ou ethnique ou des données biométriques uniques, sont considérées comme sensibles. Le RGPD interdit généralement leur traitement, sauf dans des cas spécifiques. Ces exceptions incluent le consentement explicite, la nécessité pour une mission d'intérêt public, ou pour des finalités de recherche scientifique conformes au droit de l'Union européenne ou d'un État membre.
La réutilisation de données pour l’IA
La réutilisation de données pour l'apprentissage de l'IA est fréquente, mais des vérifications légales essentielles sont requises. Cela inclut un "test de compatibilité" pour s'assurer que la réutilisation est conforme à la loi. Des facteurs tels que le lien entre les finalités et la sensibilité des données doivent être pris en compte. Les données sensibles nécessitent une attention particulière.
Lorsque des bases de données publiques ou des données de tiers sont utilisées, il est essentiel de s'assurer de leur licéité. Des accords entre les détenteurs et les réutilisateurs sont recommandés pour garantir la conformité.
🔍 Fiche 5 : Réaliser une analyse d’impact si nécessaire
La constitution de bases de données pour l'apprentissage des systèmes d'IA peut engendrer des risques pour la protection des données personnelles. Dans de tels cas, la réalisation d'une AIPD (Analyse d'Impact sur la Protection des Données) est une exigence. Cette démarche vise à identifier les risques liés au traitement des données et à mettre en place des mesures pour les atténuer. Les mesures peuvent être de nature technique, organisationnelle ou relever de la gouvernance.
Plusieurs critères, tels que la collecte de données sensibles ou la grande échelle, déterminent si une AIPD est obligatoire. La CNIL avait auparavant déjà établi une liste de traitements pour lesquels une AIPD est requise, y compris ceux impliquant des systèmes d'IA.
🔧 Fiche 6 : Tenir compte de la protection des données dans la conception du système
Les systèmes d'IA ont un rôle croissant dans nos vies, mais leur conception doit être guidée par le respect de la protection des données. Pour ce faire, il est essentiel de suivre plusieurs étapes clés.
Spécification de l'objectif poursuivi
La première étape consiste à définir clairement l'objectif du système d'IA. Cela inclut la détermination du type de résultats attendus, des indicateurs de performance, du contexte d'utilisation, et de la spécification des données nécessaires. Cette étape vise à réduire le risque de sur-collecte de données en se concentrant sur les besoins réels.
Définition de l’architecture technique
Il est crucial de choisir l'architecture technique adaptée pour le modèle d'IA. Différentes architectures peuvent être utilisées pour la même tâche, mais elles ne sont pas équivalentes en termes de performances, d'explicabilité et de coût. La sélection doit être guidée par le respect du principe de minimisation des données, en privilégiant l'utilisation de moins de données personnelles si possible.
Identification des données nécessaires
Le principe de minimisation exige que seules les données pertinentes et nécessaires au regard des finalités du traitement soient collectées. Cela inclut la prise en compte du volume, des catégories, de la typologie et des sources de données. Une attention particulière doit être portée aux données sensibles, et des questions sur la distribution et la représentativité des données doivent être traitées pour éviter les biais de discrimination.
Validation des choix de conception
Une fois les choix de conception effectués, il est essentiel de les valider. Cela peut être réalisé à travers une étude pilote, où une expérimentation à petite échelle permet de s'assurer de la pertinence des choix techniques et des données. De plus, l'implication d'un comité éthique est une bonne pratique pour évaluer les enjeux éthiques et de protection des droits et libertés des personnes.
📝 Fiche 7 : Tenir compte de la protection des données dans la collecte et la gestion des données
Le développement de systèmes d'intelligence artificielle est un domaine en constante évolution, où la collecte et la gestion des données jouent un rôle central. La CNIL apporte des éclaircissements sur la manière dont les principes de protection des données s'articulent avec le développement de ces systèmes.
Collecte de données : principes et précautions
La collecte des données est le point de départ de la création d'un système d'IA. Il est essentiel de s'assurer que les données collectées sont pertinentes par rapport aux objectifs du projet, en respectant le principe de minimisation.
Lorsque des données publiques sont extraites de sites web, il faut veiller à limiter la collecte aux données librement accessibles et licites, définir des critères précis de collecte, et supprimer rapidement les données non pertinentes.
Nettoyage, identification et protection de la vie privée
Le nettoyage des données vise à garantir la qualité des données d'entraînement. Cela inclut la correction des valeurs vides, la détection des valeurs aberrantes, la suppression des doublons, et bien d'autres actions.
La sélection des données pertinentes est essentielle pour optimiser les performances du système d'IA et éviter le sur-apprentissage. Des techniques telles que la sélection de caractéristiques, l'apprentissage actif, et l'ablation des données peuvent être employées.
Protection des données dès la conception
Le principe de "privacy by design" exige que la protection des données soit intégrée dès la conception d'un système d'IA. Cela comprend des mesures de généralisation et de randomisation des données, notamment pour les métadonnées. L'anonymisation des données peut également être nécessaire dans certains cas.
Suivi et mise à jour des données
Les données utilisées dans un système d'IA peuvent devenir obsolètes avec le temps en raison de divers facteurs, tels que la dérive des données ou l'évolution des techniques. Il est crucial de surveiller régulièrement la base de données, de comparer les données aux sources d'origine, et de restreindre l'accès aux données aux personnes autorisées. La documentation joue un rôle clé dans ce suivi.
Conservation des données
Le RGPD impose que les données personnelles ne soient pas conservées indéfiniment. Il revient au responsable de traitement de définir une durée de conservation en fonction de l'objectif initial de la collecte.
Cela s'applique à la phase de développement où les données sont utilisées pour constituer la base d'entraînement et pour l'apprentissage du modèle. Les données doivent être conservées de manière sécurisée et accessibles aux personnes habilitées.
Pour la maintenance ou l'amélioration du produit, seules les données nécessaires doivent être extraites.
Sécurité des données
La sécurité des données est une préoccupation majeure. Le choix des mesures de sécurité doit être adapté au risque et tenir compte de l'état des connaissances, des coûts, du contexte et des finalités du traitement.
Cela implique de sécuriser les techniques de collecte, les données collectées, le système d'information, et le matériel informatique.
Documentation des données
La documentation des données est essentielle pour garantir la traçabilité, la conformité légale et la transparence. Elle facilite l'utilisation de la base de données, démontre la légalité de la collecte, assure le suivi des données dans le temps, réduit les risques d'utilisation non prévue, permet l'exercice des droits des personnes concernées, et identifie les améliorations possibles.
Un modèle de documentation peut être adopté, et il convient de fournir cette documentation aux utilisateurs du jeu de données ou des modèles dérivés.
💡 Ces récentes fiches thématiques émises par la CNIL se révèlent être une avancée significative dans le domaine de l'intelligence artificielle respectueuse du RGPD. Cependant, il est essentiel de noter que ces directives se concentrent exclusivement sur la phase de développement des systèmes d'IA impliquant des données personnelles. À l'avenir, la CNIL prévoit d'aborder la phase de déploiement des systèmes d'IA, afin de compléter son approche globale de régulation.
Article rédigé par : Ninon Maire, le 18/10/2023
Le logiciel RGPD du DPO
Les DPO internes, vous disposez de documentations et d’outils intuitifs, permettant la collaboration avec vos équipes.
Les DPO mutualisés et externes (consultants freelance, cabinets d'avocats ou de conseil, institutions publiques), en plus de disposer des mémes fonctionnalités que les DPO internes pour tous vos clients, vous gérez ensemble sur une seule plateforme.