CNIL et Intelligence Artificielle (IA) : le guide complet 2025

Introduction : L'IA et l'impératif de la protection des données rappelé par la CNIL

L’innovation en matière d’intelligence artificielle (IA) dans tous les secteurs, en Europe et dans le monde soulève un enjeu crucial de protection des données personnelles. Face à ces transformations rapides, la CNIL joue un rôle central pour protéger les droits des personnes. À travers ses missions informer et protéger, accompagner les acteurs publics et privés, elle veille à ce que chaque projet technologique respecte les principes fondamentaux du RGPD.

La mission éthique de la CNIL consiste à garantir que l'innovation ne se fasse jamais au détriment des libertés individuelles. Elle agit pour innover de manière responsable, en mettant à disposition des recommandations, des analyses d’impact et des outils concrets afin d’encadrer les usages de l’IA dans un cadre démocratique, transparent et respectueux des droits humains.

Depuis début 2025, la Commission Nationale de l’Informatique et des Libertés CNIL publie des fiches thématiques à ce sujet et rappelle que le développement de systèmes d’IA doit s’accompagner, dès la conception, d’une réflexion approfondie sur la conformité au RGPD.

Le traitement de données personnelles dans l’entraînement des systèmes d’IA présente souvent la question du risque élevé pour les droits des personnes. En réponse, la CNIL a publié plusieurs fiches pratiques et listes de vérification à destination des professionnels — juristes comme ingénieurs — afin de garantir une mise en œuvre rigoureuse du Règlement Général sur la Protection des Données.

Les principes fondamentaux à respecter sont ceux établis par le Règlement Général sur le Protection des Données (RGPD) :

  • La minimisation des données : ne traiter que ce qui est strictement nécessaire, en justifiant toute donnée sensible ou hautement personnelle.
  • La définition d’une finalité explicite, même pour les modèles à usage général.
  • Une base légale solide (consentement, intérêt légitime, mission publique, contrat) pour chaque traitement.
  • La transparence : informer clairement les personnes concernées, y compris sur les risques d’extraction ou de régurgitation de données.
  • L’exercice effectif des droits (accès, rectification, effacement, etc.), notamment sur les bases d’apprentissage et les modèles non anonymes.
  • La sécurité des données à chaque étape, grâce à des mesures techniques et organisationnelles adaptées.
  • La gouvernance : bien qualifier les acteurs du traitement et réaliser une analyse d’impact (AIPD) lorsque le risque l’exige.

Principes fondamentaux et cadre de gouvernance

Déterminer le régime juridique applicable et les responsabilités des acteurs

Le développement des systèmes d’intelligence artificielle (IA), lorsqu’il implique des données personnelles, est strictement encadré par le Règlement Général sur la Protection des Données (RGPD). La CNIL est en charge d'accompagner les professionnels — juristes comme techniciens — à ce sujet et publie donc des recommandations concrètes pour concevoir des systèmes respectueux de la vie privée, dès les premières lignes de code.

Chaque système d’IA connaît deux grandes étapes : la phase de développement, incluant la constitution des bases de données d’apprentissage, et la phase de déploiement, c’est-à-dire l’utilisation opérationnelle. Ces deux phases peuvent constituer des traitements de données distincts, soumis à des régimes juridiques parfois différents.

Lorsque l’usage opérationnel du système est clairement identifié dès sa conception (par exemple, un algorithme d’aide au diagnostic médical), le même régime juridique s’applique aux deux phases. Il s’agit le plus souvent du RGPD, sauf si la finalité relève exclusivement d’une mission de police-justice. En revanche, lorsque l’usage final n’est pas encore déterminé — comme c’est souvent le cas avec les systèmes d’IA à usage général (ou modèles de fondation) — les recommandations de la CNIL concluent que la phase de développement est, par défaut, soumise au RGPD. Cela n’exclut pas que la phase de déploiement puisse, elle, dépendre d’un autre cadre juridique.

La qualification des acteurs impliqués dans ces traitements est également un point central. Le responsable de traitement est celui qui détermine les finalités et les moyens essentiels du traitement. Il peut s’agir, par exemple, d’un fournisseur développant un agent conversationnel à partir de données collectées ou réutilisées. Si plusieurs entités définissent ensemble ces finalités, elles sont responsables conjoints, à condition qu’un accord documenté encadre leurs obligations respectives. Enfin, un sous-traitant agit pour le compte du responsable, sur la base d’instructions précises, et sous contrat. Dans tous les cas, il est impératif que chaque acteur respecte scrupuleusement les obligations du RGPD.

Définir les finalités du traitement et choisir les bases légales

Déterminer une finalité claire, explicite et légitime est un pilier fondamental du RGPD, sur lequel reposent des principes essentiels comme la minimisation des données, la transparence ou encore la limitation des durées de conservation. Cette exigence vaut aussi bien pour les IA à usage ciblé que pour les modèles à usage général, même si leur finalité peut être définie plus largement en fonction des capacités techniques envisagées.

Dans le cas d’une IA développée pour un usage unique (par exemple, prédiction de fraudes bancaires), la finalité est réputée déterminée si elle reflète fidèlement l’usage visé. Pour un modèle de fondation, les recommandations de la CNIL demandent d’expliciter le type de système conçu (par exemple, modèle de langage, vision par ordinateur), ses fonctionnalités probables, et les usages à risque explicitement exclus. Dans le domaine de la recherche scientifique, une certaine flexibilité est tolérée : la finalité peut être précisée au fil de l’avancement du projet, tant que celui-ci respecte les critères propres à la recherche (créativité, reproductibilité, systématicité, etc.).

Quant au choix de la base légale, plusieurs options sont prévues par le RGPD :

  • Le consentement, bien qu’exigeant un niveau élevé de liberté et de clarté, est rarement applicable dans les cas de collecte indirecte, notamment lors de l’usage de données accessibles en ligne.
  • L’intérêt légitime est la base la plus courante dans les projets privés de développement d’IA. Il suppose de démontrer la licéité de l’intérêt poursuivi, la nécessité du traitement, et un équilibre acceptable entre bénéfices attendus et risques pour les droits des personnes. Cet équilibre peut nécessiter des garanties techniques, comme la pseudonymisation, la confidentialité différentielle, ou encore l’ajout de filtres sur les sorties du système.
  • La mission d’intérêt public s’applique aux organismes investis de missions prévues par un texte normatif. Les laboratoires de recherche publics sont des exemples typiques.
  • La base contractuelle ne peut être invoquée que si le traitement est objectivement nécessaire à l’exécution d’un contrat, et non pour des finalités secondaires ou marketing.
  • L’obligation légale est difficilement mobilisable dans le cadre d’un développement d’IA, faute de textes suffisamment précis pour l’anticiper.

Lorsque le traitement implique des données sensibles (santé, opinions politiques, etc.), la CNIL rappelle que des exceptions strictes s’appliquent. Le consentement explicite, les finalités scientifiques, ou l’intérêt public majeur peuvent justifier un traitement, à condition que des mesures renforcées de sécurité soient mises en place. Le moissonnage web (web scraping) doit faire l’objet d’une vigilance accrue pour exclure tout traitement illicite ou excessif.

En cas de réutilisation de données (données open data, bases tierces, etc.), le responsable de traitement doit effectuer un test de compatibilité avec la finalité initiale. Il doit aussi s’assurer que la licéité de la source est documentée, notamment via des contrats spécifiques avec les tiers.

En définitive, définir les finalités et choisir une base légale adaptée constitue le socle de toute démarche de conformité RGPD dans un projet d’IA. Comme le rappellent les recommandations de la CNIL, c’est l’étape-clé pour garantir un traitement respectueux des personnes et juridiquement sécurisé, tout en créant les conditions d’un développement éthique et responsable.

Gestion des données tout au long du cycle de vie

Le développement d’un système d’intelligence artificielle (IA) nécessite une gestion rigoureuse et responsable des données d’apprentissage. Dès la phase de conception, il est essentiel de se poser la question de l'application de la protection des données personnelles, selon l’approche dite de « privacy by design », soutenue par les recommandations de la CNIL. Cela implique une vigilance continue tout au long du cycle de vie du projet : collecte, annotation, entraînement, sécurité et conservation.

Collecte et minimisation des données

Selon les recommandations de la CNIL, la phase de collecte des données doit s’inscrire dans le respect strict du principe de minimisation. Cela signifie que seules les données strictement nécessaires à la finalité du traitement doivent être collectées. Cela n’implique pas d’interdire de rechercher et collecter de grands volumes de données, mais d’écarter toute information inutile ou excessive, surtout si elle est sensible.

Le responsable de traitement doit donc définir avec précision l’objectif du système d’IA, les indicateurs de performance attendus, les sources de données mobilisées, et la méthode technique utilisée. Cette dernière influence directement le type et le volume de données nécessaires. Par exemple, si une caméra infrarouge permet de détecter une présence sans capturer l’image d’une personne, elle devra être préférée à une solution plus intrusive, comme une caméra vidéo.

Le respect du principe de minimisation repose sur l’évaluation de plusieurs dimensions : le volume (nombre de personnes concernées, profondeur historique), les catégories (âge, image, activité en ligne), la typologie des données (réelles, synthétiques, anonymisées), et la source (collecte directe, open data, tiers). L’objectif est d’éviter la surcollecte, en ajustant le niveau d’intrusion au strict besoin fonctionnel.

Concernant le web scraping, la CNIL l'encadre fermement. La collecte doit se limiter aux données librement accessibles, exclure les sites qui s’y opposent (robots.txt, CAPTCHA), et supprimer immédiatement toute information non pertinente ou sensible collectée par erreur. En cas de traitement de données sensibles, seules certaines exceptions, comme le consentement explicite ou le caractère manifestement public des données, peuvent justifier leur utilisation. Il est également impératif de respecter les attentes raisonnables des personnes concernées, même lorsque les données sont disponibles en ligne.

Préparation et annotation des données

L’annotation des données constitue une étape essentielle dans le développement d’un modèle d’IA. Elle permet de transformer des données brutes en vérités de terrain exploitables par les systèmes d'IA. Cependant, cette phase peut soulever d’importants enjeux en matière de respect des droits fondamentaux, en particulier lorsque les annotations sont, ou deviennent, des données personnelles.

La CNIL insiste sur deux principes fondamentaux : la minimisation et l’exactitude. Les annotations doivent être limitées à ce qui est nécessaire à la finalité du traitement. Toute information superflue ou non pertinente constitue un risque d’atteinte aux droits des personnes. De même, les annotations doivent être fiables, objectives et à jour. Une annotation erronée ou biaisée peut conduire à des prédictions inexactes, voire discriminatoires.

Pour garantir la qualité et la conformité de cette phase, un protocole d’annotation doit être défini, documenté et appliqué. Il comprend le choix des labels, la définition des règles d’annotation, l’attribution des tâches aux personnes habilitées, une phase de validation croisée, et une traçabilité complète des actions effectuées. La CNIL recommande également une vérification continue, fondée sur des échantillons aléatoires, des audits internes ou externes, et une prise en compte des retours utilisateurs.

Il est fortement conseillé d’impliquer un comité éthique ou un référent dédié dès le départ. Ce comité peut jouer un rôle de régulation, de conseil et de contrôle, en garantissant que l’annotation respecte les exigences techniques, juridiques et sociales du projet.

Enfin, lorsque l’annotation porte sur des données sensibles (santé, orientation, opinions, etc.), des mesures spécifiques renforcées sont obligatoires. Cela inclut : l’anonymisation ou pseudonymisation des données, un protocole strictement documenté, une sécurisation accrue des accès, un chiffrement des fichiers, et une journalisation des opérations. L’annotation doit toujours reposer sur des critères objectifs, factuels et limités au contexte initial.

Sécurité et conservation des données

Conformément à l’article 32 du RGPD, la sécurité des données personnelles est une obligation fondamentale. Pour les projets de développement des systèmes d'IA, la CNIL recommande de combiner une analyse de sécurité classique (accès, infrastructures, sauvegardes) avec une évaluation des risques spécifiques liés à l’IA (modèles entraînés, dérives, inférences).

Trois objectifs structurent cette approche : garantir la confidentialité des données (éviter la mémorisation ou la réidentification), assurer la performance et l’intégrité du système, et préserver la sécurité globale de l’environnement informatique.

Les facteurs de risque à considérer incluent la nature des données traitées, le niveau de maîtrise des outils utilisés, les modalités d’accès (API, open source, exposition web), ainsi que le contexte d’usage du système (ex. : médical, éducatif, administratif). En fonction de ces facteurs, différentes mesures de sécurité sont recommandées.

Sur les données d’apprentissage, il est crucial de garantir la qualité des sources, de vérifier leur intégrité, de journaliser les versions, de restreindre les accès, et de privilégier des données synthétiques ou pseudonymisées quand cela est possible. Le chiffrement des communications et des sauvegardes est également indispensable. En complément, la CNIL préconise la prévention des pertes de contrôle, via des mécanismes de cloisonnement, de surveillance des exportations, et de traçabilité complète.

Dans le développement du système, les principes de sécurité dès la conception doivent être appliqués. Cela implique l’usage d’outils et bibliothèques vérifiés, un environnement de travail contrôlé et reproductible, une procédure de développement continue (CI/CD) avec tests rigoureux, et un recueil documentaire retraçant chaque étape du projet. Des audits de sécurité internes ou externes doivent également être programmés.

Pour la phase de fonctionnement, il est nécessaire d’informer les utilisateurs sur les limites du système, de prévoir des mécanismes d’interprétation des résultats (ex. score de confiance) et de contrôler les sorties pour éviter des dérives, notamment avec les IA génératives (RLHF, filtres, tatouage numérique).

Enfin, en ce qui concerne la conservation des données, la CNIL rappelle qu’aucune donnée personnelle ne peut être conservée indéfiniment. Une durée de conservation spécifique doit être définie pour chaque phase : développement, maintenance, amélioration. Cette conservation doit être justifiée, documentée, sécurisée, et limitée au strict nécessaire. Des outils automatisés peuvent faciliter la suppression des données arrivées à échéance. Le respect de ce principe de limitation dans le temps est essentiel pour assurer la conformité.

Transparence et exercice des droits des personnes

La transparence dans le traitement des données personnelles est un principe fondamental du RGPD, applicable à toute phase du développement d’un système d’intelligence artificielle, que les données soient collectées directement ou indirectement. Selon la CNIL, l’objectif est de garantir que chaque personne comprenne comment ses données sont utilisées et puisse exercer ses droits en toute connaissance de cause.

Documentation et transparence accrue

Tout organisme responsable d’un traitement doit mettre à disposition une documentation complète, utile pour démontrer sa conformité, faciliter les audits, et permettre l’exercice effectif des droits. Cette documentation doit couvrir l’origine, la composition, les conditions d’usage et les mesures de protection associées à chaque base de données d’apprentissage. La CNIL recommande d’y intégrer notamment la synthèse du jeu de données, les modalités d’annotation, les biais identifiés, la finalité, les bases légales, et la durée de conservation.

La transparence ne s’arrête pas à l’aspect documentaire. L’organisme doit communiquer de façon claire et intelligible, en priorisant les informations essentielles. Il est recommandé d’adopter une approche multiniveaux, où les personnes peuvent accéder facilement à un premier niveau d’information simple, puis approfondir si elles le souhaitent. Cela est particulièrement important pour des systèmes complexes comme les modèles de fondation.

Lorsque les données sont collectées directement, une information individuelle est obligatoire. L’information individuelle peut être délivrée via un courriel, un formulaire, ou même une bannière contextuelle que la personne peut fermer après consultation. En cas de collecte indirecte, notamment par moissonnage (web scraping), une information générale peut suffire, à condition qu’elle soit facilement accessible (site web, affichage, etc.). Si le scraping concerne un nombre restreint de sites, il est souhaitable de préciser leurs noms. Pour un très grand nombre, une classification par catégories est jugée suffisante.

Dans les cas où l’effort requis pour informer individuellement est manifestement disproportionné, une dérogation peut être accordée, sous réserve de mettre en œuvre des mesures compensatoires comme la pseudonymisation, la limitation des données collectées, ou le renforcement de la sécurité.

Lorsque le modèle d’IA n’est pas anonyme, car il est susceptible de mémoriser des données personnelles, la transparence renforcée s’impose. Il faut notamment expliquer les risques d’extraction ou de régurgitation de données, les mesures mises en place pour les limiter, et les recours à disposition des personnes. En cas de doute ou d’hallucination du modèle génératif, il convient d’informer les personnes concernées qu’il est possible que leurs données aient été mémorisées, même si cela n’a pu être vérifié.

Respecter et faciliter l’exercice des droits des personnes

Les personnes disposent de droits étendus sur leurs données personnelles, qu’elles soient contenues dans une base d’apprentissage ou, si le système n’est pas anonymisé, dans le modèle d’IA lui-même. Ces droits incluent l’accès, la rectification, l’effacement, la limitation, la portabilité, l’opposition, ainsi que le retrait du consentement.

Dans le contexte de l’IA, l’exercice de ces droits peut s’avérer complexe, en raison de la difficulté à identifier les individus dans les données, du coût du réentraînement d’un modèle, ou encore du caractère technique des traitements. La CNIL recommande donc d’anticiper ces défis dès la conception du système.

Si une personne souhaite exercer ses droits, mais que l’organisme ne peut plus l’identifier, celui-ci peut le mentionner. Toutefois, des informations complémentaires comme un pseudonyme, une image ou une URL peuvent faciliter la réidentification. Le droit d’accès doit permettre à toute personne d’obtenir une copie lisible de ses données, y compris les annotations et métadonnées, ainsi que des indications sur les sources des données.

Le droit à la rectification permet de corriger les données inexactes, notamment les erreurs dans les annotations. Le droit à l’effacement peut s’exercer pour des données sensibles collectées sans base légale, ou lorsqu’une personne s’oppose au traitement fondé sur l’intérêt légitime. La CNIL encourage les organismes à développer des solutions techniques proactives, telles que des listes "repoussoir", qui permettent aux personnes de s’opposer à la collecte dès le stade du web scraping. Si une personne s’oppose au traitement, le responsable doit soit désapprendre les données concernées, soit fermer l’accès aux fonctionnalités associées, en attendant une régularisation.

Le responsable de traitement a l’obligation de notifier toute rectification, effacement ou limitation aux destinataires des données, sauf en cas de contrainte excessive. L’usage d’API ou de techniques de journalisation est recommandé pour automatiser cette transmission.

Si le modèle d’IA lui-même mémorise des données personnelles, il est également soumis au RGPD. Dans ce cas, l’exercice des droits devient plus technique. La recherche sur le désapprentissage machine progresse, mais reste limitée. La solution la plus robuste consiste en un réentraînement du modèle, à intervalles réguliers, afin d’intégrer les demandes. Lorsque ce réentraînement est jugé disproportionné, il est possible de mettre en œuvre des filtres sur les sorties du modèle. Ces filtres doivent reposer sur des règles générales, plutôt que sur des listes fixes, pour éviter les erreurs ou les oublis.

Enfin, toute mesure prise doit être proportionnée : le niveau de réponse doit prendre en compte la sensibilité des données, les risques pour la personne, et les impacts techniques et économiques sur l’organisme.

Analyse d’impact sur la protection des données (AIPD)

L’AIPD est un outil essentiel de gestion des risques, exigé par le RGPD lorsqu’un traitement est susceptible d’engendrer un risque élevé pour les droits et libertés des personnes. D’après la CNIL, une AIPD est obligatoire dès lors que deux critères du CEPD (le Comité Européen de la Protection des Données) sont remplis. Ces critères sont particulièrement fréquents dans les projets d’IA.

Parmi les critères les plus pertinents figurent la collecte à grande échelle, les données sensibles, les personnes vulnérables (comme les mineurs), la combinaison de sources multiples ou encore l’usage de technologies innovantes comme les IA génératives.

Un système d’IA est considéré comme innovant lorsqu’il repose sur des technologies encore peu maîtrisées, comme l’apprentissage profond. À l’inverse, des techniques standardisées depuis plusieurs années peuvent ne plus relever de cette catégorie. Les modèles de fondation et les systèmes à usage général doivent faire l’objet d’une AIPD dès lors qu’ils traitent des données personnelles, en raison de la diversité et de l’imprévisibilité de leurs usages.

L’étendue de l’AIPD dépend du degré de clarté de l’usage final : si celui-ci est identifié, l’analyse peut couvrir l’ensemble du traitement. Si l’usage opérationnel est indéfini, elle se limite à la phase de développement. La publication partielle de cette AIPD est recommandée pour renforcer la transparence, notamment auprès des utilisateurs.

Les risques spécifiques à l’IA à intégrer dans une AIPD incluent :

  • la violation de données d’apprentissage,
  • les discriminations automatisées liées aux biais,
  • la désinformation générée par des modèles,
  • la prise de décision biaisée,
  • des attaques techniques comme l’empoisonnement de données ou l’inversion de modèles,
  • la fuite d’informations sensibles,
  • les atteintes éthiques systémiques,
  • et la perte de contrôle liée au web scraping massif.

En cas de risque non maîtrisé, l’AIPD peut recommander de fermer temporairement l’accès à certains modules du système d’IA.

Pour chaque risque, l’AIPD doit prévoir un plan d’action correctif, incluant par exemple des mesures de sécurité (chiffrement homomorphe, TEE), des mécanismes de minimisation (données synthétiques, anonymisation), des solutions de traçabilité, de désapprentissage, ou de gouvernance (ex. comité éthique). Ces mesures sont choisies au cas par cas, en fonction du contexte, et doivent être suivies dans le temps.

ProDPO

Le logiciel RGPD du DPO

Les DPO internes, vous disposez de documentations et d’outils intuitifs, permettant la collaboration avec vos équipes.

Les DPO mutualisés et externes (consultants freelance, cabinets d'avocats ou de conseil, institutions publiques), en plus de disposer des mémes fonctionnalités que les DPO internes pour tous vos clients, vous gérez ensemble sur une seule plateforme.

En savoir plus

Pour partager cet article sur les réseaux sociaux

FAQ - CNIL et Intelligence Artificielle

Quels sont les enjeux de l’application du RGPD à l’intelligence artificielle ?

L’application du RGPD aux systèmes d’intelligence artificielle permet de garantir les droits fondamentaux des personnes, en particulier lors de l’usage massif de données dans le cadre du développement des systèmes d’IA.

La CNIL publie-t-elle des recommandations spécifiques sur les systèmes d’IA ?

Oui, la CNIL publie régulièrement des recommandations pour encadrer le développement des systèmes d’intelligence artificielle (IA), notamment en matière de transparence, de sécurité et de protection des données.

La CNIL accompagne-t-elle les acteurs publics et privés dans leur travail sur l’IA ?

Absolument. La CNIL accompagne les secteurs publics comme privés avec des recommandations, des fiches pratiques et des plans d’action adaptés aux innovations en IA.

Où peut-on retrouver un article ou une délibération de la CNIL sur l’IA ?

Il est possible de rechercher un article, une délibération ou un avis de la CNIL directement sur son site officiel via le moteur "CNIL Search" ou en consultant les ressources du CEPD.

Je souhaite réserver un appel !