Droit à l’effacement et modèles de langage (LLM) : quelles obligations réelles pour les acteurs de l’IA ?

Sommaire

Introduction
I. Les modèles de langage : une architecture peu compatible avec la logique d’effacement
II. Le droit à l’effacement dans le RGPD : portée et conditions d’application
III. L’unlearning : une promesse technique encore incomplète
IV. Obligations des acteurs : vers une logique de gestion du risque
V. Les droits des personnes concernées : entre effectivité et limites pratiques
Conclusion

Introduction

Le droit à l’effacement, consacré par l’article 17 du Règlement général sur la protection des données, permet à toute personne concernée d’obtenir la suppression de ses données personnelles lorsque certaines conditions sont réunies, notamment lorsque ces données ne sont plus nécessaires ou ont été traitées de manière illicite.

L’essor des modèles de langage (LLM), développés notamment par OpenAI ou Google, met à l’épreuve cette garantie fondamentale. Ces systèmes reposent sur des architectures techniques qui ne permettent ni d’isoler facilement une donnée, ni de la supprimer de manière ciblée une fois le modèle entraîné.

Un modèle de langage est une intelligence artificielle conçue pour générer du texte à partir d’un apprentissage statistique réalisé sur de très larges corpus. Contrairement à une base de données classique, il ne stocke pas les informations sous une forme directement accessible : les données sont intégrées dans les paramètres du modèle, sous forme de corrélations mathématiques.

Dans ce contexte, la mise en œuvre du droit à l’effacement soulève une difficulté structurelle : comment satisfaire une obligation juridique de suppression individuelle dans un système où l’information est diffuse, non localisable et potentiellement irréversible ?

I. Les modèles de langage : une architecture peu compatible avec la logique d’effacement

Les modèles de langage sont des systèmes d’intelligence artificielle conçus pour analyser et produire du texte. Ils sont entraînés sur de très grandes quantités de données (articles, livres, sites internet) afin d’apprendre les régularités du langage. Concrètement, ils ne “comprennent” pas le sens comme un humain, mais identifient des probabilités : étant donné une phrase, ils calculent quels mots ont le plus de chances de suivre.

Au fil de cet entraînement, le modèle ne stocke pas les textes eux-mêmes, mais en extrait des schémas statistiques qui lui permettent ensuite de générer de nouvelles phrases.

Cet entraînement ne consiste pas à mémoriser des documents, mais à ajuster des millions, voire des milliards de paramètres afin de prédire des séquences de mots.

En pratique, les données d’entraînement ne sont pas conservées telles quelles dans le modèle. Elles sont « dissoutes » dans les paramètres. Cela signifie qu’il n’existe pas de correspondance simple entre une donnée personnelle précise et un emplacement identifiable dans le système.

Cette caractéristique a deux conséquences majeures. D’une part, il est extrêmement difficile de démontrer qu’une donnée personnelle est effectivement présente dans un modèle. D’autre part, même lorsque cette présence est suspectée, il n’existe pas de mécanisme simple permettant de la supprimer sans affecter l’ensemble du modèle.

Les travaux académiques ont mis en évidence un phénomène de « mémorisation » : dans certains cas, un modèle peut restituer des informations spécifiques issues de son entraînement. Ce risque reste limité mais réel, en particulier lorsque des données sensibles ou rares ont été intégrées.

Ainsi, contrairement aux systèmes traditionnels, les LLM ne permettent pas une suppression granulaire des données. L’effacement ne peut donc pas être envisagé comme une opération technique directe, mais comme un objectif à atteindre par des moyens indirects.

II. Le droit à l’effacement dans le RGPD : portée et conditions d’application

Le droit à l’effacement s’inscrit dans une logique de maîtrise par la personne concernée de ses données personnelles. L’article 17 du Règlement général sur la protection des données prévoit plusieurs cas dans lesquels ce droit peut être exercé, notamment lorsque les données ne sont plus nécessaires au regard des finalités du traitement ou lorsque la personne retire son consentement.

Ce droit n’est toutefois pas absolu. Il doit être concilié avec d’autres exigences, telles que la liberté d’expression, l’intérêt public ou encore des obligations légales de conservation. En outre, le RGPD impose une obligation de moyens renforcée, mais n’exige pas l’impossible.

La question centrale devient alors celle de l’applicabilité concrète de ce droit aux modèles de langage. Peut-on considérer qu’un acteur respecte ses obligations dès lors qu’il met en œuvre des mesures raisonnables pour empêcher la réutilisation des données, même sans pouvoir garantir leur suppression totale ?

Les autorités de protection des données, et en particulier la CNIL, ont adopté une approche pragmatique. Elles insistent sur la nécessité d’intégrer la protection des données dès la conception des systèmes (privacy by design), tout en reconnaissant les limites techniques actuelles.

Dans ses prises de position relatives à l’intelligence artificielle, la CNIL souligne notamment que les responsables de traitement doivent être en mesure de justifier leurs choix techniques et organisationnels, et de démontrer qu’ils ont pris toutes les mesures raisonnables pour limiter les risques pour les personnes concernées.

Ainsi, l’effectivité du droit à l’effacement dans le contexte des LLM ne se mesure pas uniquement à la suppression matérielle d’une donnée, mais à la capacité du responsable de traitement à en limiter l’usage, la diffusion et la réidentification.

III. L’unlearning : une promesse technique encore incomplète

Face à ces contraintes, la recherche s’est orientée vers des techniques dites de « machine unlearning », visant à supprimer l’influence de certaines données sur un modèle entraîné.

Ces approches reposent sur différentes méthodes, comme le réentraînement partiel du modèle, l’ajustement de certains paramètres ou encore l’ajout de mécanismes de correction en sortie. Leur objectif est de rendre le modèle incapable de reproduire une information donnée.

Cependant, ces techniques présentent des limites importantes. Elles sont coûteuses, difficiles à mettre en œuvre à grande échelle et ne garantissent pas une suppression totale. En outre, il reste complexe de prouver qu’une donnée a effectivement été « oubliée » par le modèle.

Un autre obstacle tient à la diffusion des modèles. Une fois qu’un modèle a été entraîné et éventuellement distribué, il peut exister sous plusieurs versions. Même si une version est modifiée pour intégrer une forme d’effacement, une version antérieure peut continuer à circuler et à exposer les données initiales.

Ce constat pose une difficulté majeure en termes de conformité : le droit à l’effacement suppose un résultat global, alors que les solutions techniques actuelles ne permettent qu’une atténuation locale et imparfaite du risque.

IV. Obligations des acteurs : vers une logique de gestion du risque

Dans ce contexte, les obligations des acteurs de l’IA doivent être appréhendées sous l’angle de la gestion du risque plutôt que de la suppression absolue.

En amont, une attention particulière doit être portée à la qualité des données d’entraînement. Cela implique de limiter l’intégration de données personnelles, de privilégier des sources fiables et, lorsque cela est possible, de recourir à des techniques d’anonymisation.

La documentation des traitements joue également un rôle central. Le responsable de traitement doit être en mesure de démontrer l’origine des données, les finalités poursuivies et les mesures mises en place pour protéger les personnes concernées.

En aval, des mécanismes doivent être prévus pour répondre aux demandes d’effacement. Cela peut passer par des restrictions sur les usages du modèle, des filtres empêchant la génération de certaines informations, ou encore l’exclusion de données dans les cycles d’entraînement futurs.

Enfin, la gouvernance interne constitue un élément déterminant. La réalisation d’analyses d’impact, la mise en place de procédures claires et l’implication du délégué à la protection des données permettent de structurer une réponse cohérente aux exigences du RGPD.

V. Les droits des personnes concernées : entre effectivité et limites pratiques

Pour les personnes concernées, l’exercice du droit à l’effacement dans le contexte des LLM demeure complexe.

L’absence de traçabilité directe rend difficile l’identification des données en cause. Il est souvent impossible pour un individu de démontrer que ses données ont été utilisées lors de l’entraînement d’un modèle.

En pratique, la demande d’effacement devra être adressée au responsable de traitement, qui devra apprécier sa recevabilité et proposer une réponse adaptée. En cas de difficulté, la personne concernée peut saisir la CNIL ou engager une action en justice.

Toutefois, les réponses apportées seront le plus souvent indirectes. Il s’agira moins de supprimer une donnée que de limiter les risques de réapparition ou de diffusion.

Conclusion

L’application du droit à l’effacement aux modèles de langage met en lumière un décalage profond entre les exigences juridiques et les réalités techniques. Les LLM ne permettent pas, à ce stade, une suppression ciblée et vérifiable des données personnelles.

Dans ce contexte, la conformité ne peut reposer uniquement sur une logique d’effacement au sens strict. Elle implique une approche plus large, fondée sur la prévention, la transparence et la limitation des risques.

Pour les juristes et les DPO, l’enjeu est désormais d’interpréter le cadre existant à la lumière de ces contraintes, tout en participant à l’émergence de standards techniques et juridiques adaptés aux systèmes d’intelligence artificielle.

Le logiciel RGPD du DPO

Les DPO internes, vous disposez de documentations et d’outils intuitifs, permettant la collaboration avec vos équipes.

Les DPO mutualisés et externes (consultants freelance, cabinets d'avocats ou de conseil, institutions publiques), en plus de disposer des mémes fonctionnalités que les DPO internes pour tous vos clients, vous gérez ensemble sur une seule plateforme.

Pour partager cet article sur les réseaux sociaux

Articles et actualités RGPD

IA Act et ressources humaines : ce que le règlement européen change pour les employeurs et les RH