Delete application_neo4j/static/notice/notice.md
Browse files
application_neo4j/static/notice/notice.md
DELETED
|
@@ -1,343 +0,0 @@
|
|
| 1 |
-
Un outil pour explorer la généalogie des modèles d'IA en source ouverte
|
| 2 |
-
========================================================================
|
| 3 |
-
|
| 4 |
-
Qu'est-ce qu'un modèle d'IA ?
|
| 5 |
-
=============================
|
| 6 |
-
|
| 7 |
-
### Son entraînement
|
| 8 |
-
|
| 9 |
-
Les champs d\'action de l\'IA sont vastes et semblent difficiles à
|
| 10 |
-
circonscrire puisqu\'ils s\'étendent à de nombreux aspects du
|
| 11 |
-
quotidien : que ce soit pour effectuer des recherches ou des achats en
|
| 12 |
-
ligne, le ciblage publicitaire, la traduction automatique, les
|
| 13 |
-
assistants numériques personnels, les villes connectées, mais aussi dans
|
| 14 |
-
le domaine des transports, de la santé, etc.
|
| 15 |
-
|
| 16 |
-
D'après l'[article
|
| 17 |
-
3](https://artificialintelligenceact.eu/fr/article/3/) du règlement
|
| 18 |
-
européen sur l'intelligence artificielle un système d\'IA peut être
|
| 19 |
-
défini comme *« un système basé sur une machine qui est conçu pour
|
| 20 |
-
fonctionner avec différents niveaux d\'autonomie et qui peut faire
|
| 21 |
-
preuve d\'adaptabilité après son déploiement, et qui, pour des objectifs
|
| 22 |
-
explicites ou implicites, déduit, à partir des données qu\'il reçoit,
|
| 23 |
-
comment générer des résultats tels que des prédictions, du contenu, des
|
| 24 |
-
recommandations ou des décisions qui peuvent influencer des
|
| 25 |
-
environnements physiques ou virtuels. »*
|
| 26 |
-
|
| 27 |
-
Ces systèmes intègrent un ou plusieurs
|
| 28 |
-
[modèles](https://www.cnil.fr/fr/definition/modele-ia) d'IA qu'il est
|
| 29 |
-
possible de définir comme des algorithmes, dont le fonctionnement est
|
| 30 |
-
déterminé par un ensemble d'attributs, et qui sont conçus pour opérer,
|
| 31 |
-
selon les cas, différentes tâches, telles que la prédiction, la
|
| 32 |
-
classification, l'inférence ou la génération. Par exemple, les modèles
|
| 33 |
-
de réseaux de neurones profonds (*deep neural networks*) sont constitués
|
| 34 |
-
de nœuds (les neurones), répartis selon des couches, et reliés entre eux
|
| 35 |
-
par des connections possédant chacune un paramètre ou « poids ». Ces
|
| 36 |
-
paramètres sont ajustés durant la phase d'entraînement pour apprendre la
|
| 37 |
-
distribution statistique des données d'entraînement. Concrètement, dans
|
| 38 |
-
le cas d'un réseau de neurone simple, les attributs du modèle pourraient
|
| 39 |
-
être :
|
| 40 |
-
|
| 41 |
-
(i) Le type et la taille de chaque couche (linéaire, convolutionnel,
|
| 42 |
-
attention, etc.),
|
| 43 |
-
|
| 44 |
-
(ii) Les poids attribués à chaque arrête (parfois aussi appelés
|
| 45 |
-
« paramètres »),
|
| 46 |
-
|
| 47 |
-
(iii) Les fonctions d'activations présentes entre chaque couche,
|
| 48 |
-
|
| 49 |
-
(iv) Et possiblement d'autres opérations qui peuvent être situées au
|
| 50 |
-
sein ou entre les couches.
|
| 51 |
-
|
| 52 |
-
{width="4.517054899387577in"
|
| 53 |
-
height="2.165915354330709in"}
|
| 54 |
-
|
| 55 |
-
*[Figure 1 : Schéma d'un réseau neuronal (auteurs)]{.underline}*
|
| 56 |
-
|
| 57 |
-
Par exemple, quand un réseau de neurones est entraîné pour reconnaître
|
| 58 |
-
des images, il lui est fourni des exemples où les pixels de l'image sont
|
| 59 |
-
associés à une annotation (ou « étiquette »). Le modèle ajuste alors ses
|
| 60 |
-
paramètres, appelés « poids », pour apprendre à attribuer le bon label
|
| 61 |
-
le plus souvent possible.
|
| 62 |
-
|
| 63 |
-
La principale différence entre un modèle d'apprentissage profond et un
|
| 64 |
-
programme informatique classique est que le modèle apprend de manière
|
| 65 |
-
autonome les règles d'inférence à partir des données.
|
| 66 |
-
|
| 67 |
-
Dans un programme classique, la résolution d\'une tâche repose sur un
|
| 68 |
-
ensemble de règles explicites définies à l'avance par le développeur.
|
| 69 |
-
Par exemple, pour trier une liste de nombres, l'ordre dans lequel
|
| 70 |
-
comparer les éléments est programmé précisément. Ce type d'approche
|
| 71 |
-
fonctionne très bien pour des tâches précises et délimitées, ce qui
|
| 72 |
-
permet d'établir des règles claires pour les résoudre.
|
| 73 |
-
|
| 74 |
-
À l'inverse, dans le cas d'un modèle d'apprentissage profond, les règles
|
| 75 |
-
ne sont pas spécifiées directement. Il est plutôt fourni au modèle un
|
| 76 |
-
grand volume de données d'exemples (dites « données d'entraînement »)
|
| 77 |
-
pour permettre, dans la phase dite d'apprentissage, de trouver les
|
| 78 |
-
régularités statistiques ou les stratégies qui permettent de résoudre la
|
| 79 |
-
tâche. Cette approche permet d'automatiser des tâches beaucoup plus
|
| 80 |
-
complexes pour lesquelles il serait extrêmement difficile, voire
|
| 81 |
-
impossible, de définir toutes les règles à la main.
|
| 82 |
-
|
| 83 |
-
### Son utilisation
|
| 84 |
-
|
| 85 |
-
Nous allons maintenant explorer certaines des tâches complexes que les
|
| 86 |
-
modèles d'IA peuvent résoudre. Une fois qu'un modèle a été entraîné, il
|
| 87 |
-
peut être utilisé tel quel, sans modification supplémentaire, pour
|
| 88 |
-
effectuer automatiquement des tâches spécifiques. C'est ce qu'on appelle
|
| 89 |
-
la phase d'inférence. À ce moment-là, le modèle reçoit une entrée (par
|
| 90 |
-
exemple une image, un texte, ou un signal audio) et produit une sortie
|
| 91 |
-
en fonction de ce qu'il a appris lors de l'entraînement. Il agit alors
|
| 92 |
-
comme une « boîte noire » : il applique les régularités qu'il a
|
| 93 |
-
intégrées, sans modifier sa structure interne ni apprendre de nouvelles
|
| 94 |
-
choses.
|
| 95 |
-
|
| 96 |
-
Prenons l'exemple de la traduction automatique. Un modèle basé sur un
|
| 97 |
-
réseau de neurones entraîné sur des millions de paires de phrases en
|
| 98 |
-
espagnol et en anglais peut être utilisé, à l'inférence, pour traduire
|
| 99 |
-
automatiquement un nouveau texte de l'anglais vers l'espagnol. Les
|
| 100 |
-
règles linguistiques ne sont pas explicitement implémentées dans le
|
| 101 |
-
modèle, mais il a appris à faire correspondre des séquences de mots en
|
| 102 |
-
s'appuyant sur des régularités statistiques présentes dans les données
|
| 103 |
-
d'entraînement.
|
| 104 |
-
|
| 105 |
-
Autre exemple, les modèles « *image-to-text* » permettant la génération
|
| 106 |
-
de légendes d'images. Il est possible d'entraîner un modèle à associer
|
| 107 |
-
des images avec des descriptions textuelles. Une fois entraîné, il est
|
| 108 |
-
capable de recevoir une nouvelle image, par exemple, une photo de chien
|
| 109 |
-
courant dans un parc, et de générer automatiquement une phrase du type :
|
| 110 |
-
« Un chien court sur l'herbe dans un parc ».
|
| 111 |
-
|
| 112 |
-
{width="6.3in"
|
| 113 |
-
height="1.5097222222222222in"}
|
| 114 |
-
|
| 115 |
-
*[Figure 2 -- Exemple de description textuelle d'une image (source :
|
| 116 |
-
https://imagedescriber.online/fr)]{.underline}*
|
| 117 |
-
|
| 118 |
-
Ces cas d'usage illustrent la puissance des avancées de l'apprentissage
|
| 119 |
-
profond dans l'automatisation de tâches complexes, souvent subjectives
|
| 120 |
-
ou ambiguës, pour lesquelles il serait difficile voire impossible
|
| 121 |
-
d'écrire des règles explicites à la main.
|
| 122 |
-
|
| 123 |
-
### Ses dérivés : *finetuning*, *merge*, *quantization*\...
|
| 124 |
-
|
| 125 |
-
Toutefois, pour adapter plus finement un réseau de neurones à une tâche
|
| 126 |
-
spécifique, optimiser ses performances, ou encore réduire ses coûts
|
| 127 |
-
d\'exécution, plusieurs transformations peuvent être effectuées à partir
|
| 128 |
-
d'un modèle initial pré-entraîné.
|
| 129 |
-
|
| 130 |
-
Ces modifications sont très fréquentes dans l'écosystème en source
|
| 131 |
-
ouverte (*open source*) et permettent, à partir d'un ou plusieurs
|
| 132 |
-
modèles initiaux, et possiblement de données supplémentaires, de créer
|
| 133 |
-
de nouveaux modèles. Parmi ces transformations qui apparaissent entre un
|
| 134 |
-
modèle cible et un modèle source, nous pouvons en mentionner quatre
|
| 135 |
-
types :
|
| 136 |
-
|
| 137 |
-
- Ajustement (*finetune*) : le modèle d'origine est un modèle général
|
| 138 |
-
> qui parfait son entrainement sur un jeu de données spécifique afin
|
| 139 |
-
> d'améliorer ses performances pour une tâche plus précise (par
|
| 140 |
-
> exemple : un grand modèle de langage (LLM), initialement entraîné
|
| 141 |
-
> sur des sources internet librement accessibles, est ajusté sur les
|
| 142 |
-
> données métiers d'une entreprise, afin de mieux maîtriser le
|
| 143 |
-
> vocabulaire et les expressions métiers de celle-ci).
|
| 144 |
-
|
| 145 |
-
- Quantification (*quantized*) : la précision des poids du modèle
|
| 146 |
-
> d'origine est réduite afin de diminuer son empreinte en mémoire
|
| 147 |
-
> (par exemple : le poids sont initialement encodés sur 32 bits, et
|
| 148 |
-
> sont arrondis au nombre codé sur 16 bits le plus proche).
|
| 149 |
-
|
| 150 |
-
- Adaptation (*adapter*) : le modèle d'origine est ajusté pour pouvoir
|
| 151 |
-
> être utilisée avec peu de ressources de calcul (par exemple pour
|
| 152 |
-
> pouvoir être utilisé sur téléphone portable), la plupart du temps
|
| 153 |
-
> basée sur la technique de [*Low Rank
|
| 154 |
-
> Adaptation*](https://arxiv.org/abs/2106.09685) (LoRA).
|
| 155 |
-
|
| 156 |
-
- Fusion (*merge) :* les couches de différents modèles sont mélangées
|
| 157 |
-
> afin d'améliorer leur performance. Par exemple : un LLM A et un
|
| 158 |
-
> LLM B ont tous les deux été entraînés sur des corpus généraux de
|
| 159 |
-
> texte. La moyenne des poids qui se situent dans la 12^e^ couche de
|
| 160 |
-
> A et B est effectué : il apparaît que le LLM C obtenu en
|
| 161 |
-
> remplaçant dans A la 12^e^ couche par la moyenne des couches de A
|
| 162 |
-
> et B a des meilleures performances que A et B.
|
| 163 |
-
|
| 164 |
-
Une plateforme pour l'IA en source ouverte : *HuggingFace*
|
| 165 |
-
==========================================================
|
| 166 |
-
|
| 167 |
-
Afin de permettre le partage et la mise à disposition de modèles d'IA
|
| 168 |
-
pour et par le plus grand nombre, l'entreprise franco-américaine
|
| 169 |
-
HuggingFace, créée en 2016, a développé une plateforme *de*
|
| 170 |
-
centralisation des modèles et jeux de données. Elle propose aussi des
|
| 171 |
-
outils logiciels pour déployer des modèles d'IA. C'est la plateforme qui
|
| 172 |
-
recense aujourd'hui le plus de modèles en source ouverte disponibles (de
|
| 173 |
-
deux millions de modèles disponibles en septembre 2025) et qui joue un
|
| 174 |
-
rôle de catalyseur de l'écosystème de l'IA en source ouverte.
|
| 175 |
-
|
| 176 |
-
Voici un exemple concret pour comprendre comment fonctionne cette
|
| 177 |
-
plateforme :
|
| 178 |
-
|
| 179 |
-
- L'utilisateur C a pour objectif la création d'un modèle permettant
|
| 180 |
-
la détection automatique de courriels frauduleux.
|
| 181 |
-
|
| 182 |
-
- L'utilisateur A a publié sur HuggingFace un modèle de traitement du
|
| 183 |
-
langage automatique (exemple : Google a publié
|
| 184 |
-
[google/gemma-3-27b-it · Hugging
|
| 185 |
-
Face](https://huggingface.co/google/gemma-3-27b-it)) et
|
| 186 |
-
l'utilisateur B a publié un jeu de données contenant des millions de
|
| 187 |
-
courriels classés comme frauduleux ou non.
|
| 188 |
-
|
| 189 |
-
- L'utilisateur C peut télécharger ce modèle et ce jeu de données.
|
| 190 |
-
Ensuite, il entraîne le modèle sur ce jeu de données afin de le
|
| 191 |
-
spécifier pour sa tâche de classification. Une fois qu'il obtient un
|
| 192 |
-
modèle de classification automatique avec de bons résultats, il peut
|
| 193 |
-
publier son nouveau modèle sur HuggingFace afin que n'importe quel
|
| 194 |
-
utilisateur puisse l'utiliser tel quel ou l'entraîner de nouveau sur
|
| 195 |
-
d'autres jeux de données pour améliorer ses performances.
|
| 196 |
-
|
| 197 |
-
{width="6.267823709536308in"
|
| 198 |
-
height="2.0866141732283463in"}
|
| 199 |
-
|
| 200 |
-
*[Figure 3 : Exemple d'utilisation de HuggingFace]{.underline}*
|
| 201 |
-
|
| 202 |
-
En somme, *HuggingFace* est une plateforme qui fournit des outils pour
|
| 203 |
-
construire, entraîner et déployer des modèles d\'apprentissage profond
|
| 204 |
-
basés sur des technologies et du code en source ouverte. Il offre
|
| 205 |
-
également un espace où chercheurs, ingénieurs et amateurs peuvent se
|
| 206 |
-
réunir pour échanger des idées, obtenir du soutien et contribuer à des
|
| 207 |
-
projets en source ouverte.
|
| 208 |
-
|
| 209 |
-
### Bienfaits de l\'IA en source ouverte
|
| 210 |
-
|
| 211 |
-
L'essor de l'IA en source ouverte montre que des modèles puissants et en
|
| 212 |
-
partie transparents peuvent rivaliser avec les solutions propriétaires
|
| 213 |
-
tout en stimulant l'innovation collective. Le modèle
|
| 214 |
-
[BLOOM](https://fr.wikipedia.org/wiki/BLOOM_(mod%C3%A8le_de_langage))
|
| 215 |
-
(176 milliards de paramètres, 2022) développé par le consortium
|
| 216 |
-
BigScience ([voir l'entrevue avec le
|
| 217 |
-
LINC](https://linc.cnil.fr/bigscience-il-faut-promouvoir-linnovation-ouverte-et-bienveillante-pour-mettre-le-respect-de-la-vie))
|
| 218 |
-
illustre cette dynamique : entraîné sur 46 langues, il a permis le
|
| 219 |
-
développement d'assistants conversationnels multilingues en Afrique, en
|
| 220 |
-
Amérique latine et dans le monde arabe, là où les modèles commerciaux
|
| 221 |
-
restaient peu adaptés aux langues locales.
|
| 222 |
-
|
| 223 |
-
De même, [GPT-J et GPT-NeoX](https://www.eleuther.ai/) (EleutherAI),
|
| 224 |
-
Vicuna (**LMSYS**) ont servi de base à des projets en source ouverte qui
|
| 225 |
-
ont permis à des universités et startups de créer des *chatbots*
|
| 226 |
-
spécialisés sans dépendre de services fermés. Ces modèles ont également
|
| 227 |
-
rendu possible la [recherche sur la détection de
|
| 228 |
-
biais](https://arxiv.org/pdf/2503.15815) et la [robustesse des grands
|
| 229 |
-
modèles de langage](https://arxiv.org/pdf/2307.15043).
|
| 230 |
-
|
| 231 |
-
Dans le domaine de la vision, [Stable
|
| 232 |
-
Diffusion](https://en.wikipedia.org/wiki/Stable_Diffusion) (**Stability
|
| 233 |
-
AI**) a bouleversé la création visuelle : les poids du modèle ont été
|
| 234 |
-
mis à disposition gratuitement, il a ouvert la voie à des applications
|
| 235 |
-
dans le jeu vidéo, la publicité et la production audiovisuelle
|
| 236 |
-
(génération d'images de concept, storyboards, design rapide). Son code
|
| 237 |
-
en source ouverte a permis la création d'outils comme
|
| 238 |
-
[Automatic1111](https://en.wikipedia.org/wiki/Automatic1111) ou
|
| 239 |
-
[ComfyUI](https://en.wikipedia.org/wiki/ComfyUI), utilisés par des
|
| 240 |
-
centaines de milliers d'artistes et de chercheurs.
|
| 241 |
-
|
| 242 |
-
L'impact est aussi industriel :
|
| 243 |
-
[LLaMA](https://fr.wikipedia.org/wiki/LLaMA) (Meta), initialement
|
| 244 |
-
diffusé à la communauté de recherche, a donné naissance à toute une
|
| 245 |
-
génération de modèles dérivés (Zephyr, Nous-Hermes, OpenChat, etc.)
|
| 246 |
-
utilisés aujourd'hui pour des tâches concrètes de support client, de
|
| 247 |
-
résumé de documents juridiques ou médicaux, et même de prototypage de
|
| 248 |
-
code.
|
| 249 |
-
|
| 250 |
-
Enfin, dans le domaine scientifique, des projets comme
|
| 251 |
-
[BioGPT](https://huggingface.co/microsoft/biogpt) (Microsoft Research)
|
| 252 |
-
ou [OpenFold](https://openfold.io/) (inspiré d'AlphaFold) démontrent
|
| 253 |
-
comment l'ouverture du code et des poids accélère la recherche
|
| 254 |
-
biomédicale, en permettant à des laboratoires indépendants de reproduire
|
| 255 |
-
et d'améliorer des résultats sur la prédiction de structures protéiques
|
| 256 |
-
ou la recherche de molécules.
|
| 257 |
-
|
| 258 |
-
Ces réussites montrent que la source ouverte ne se limite pas à la
|
| 259 |
-
réutilisation de modèles : elle permet une appropriation technologique,
|
| 260 |
-
une adaptation locale et une innovation ouverte dans des domaines aussi
|
| 261 |
-
variés que la création artistique, la santé, l'éducation, la science des
|
| 262 |
-
données et les industries culturelles.
|
| 263 |
-
|
| 264 |
-
Néanmoins, un certain niveau d'opacité peut demeurer dans la façon dont
|
| 265 |
-
ces modèles sont constitués : avec quelles données ? Avec quel
|
| 266 |
-
algorithme d'entraînement ? Pour aller plus loin, une [note de la
|
| 267 |
-
CNIL](https://www.cnil.fr/sites/cnil/files/2024-06/note_d_analyse_sur_les_pratiques_open_source_en_ia.pdf)
|
| 268 |
-
ainsi qu'une note du
|
| 269 |
-
[PEReN](https://www.peren.gouv.fr/rapports/2024-04-03_Eclairage%20sur_OpenSource-IAG_FR.pdf)
|
| 270 |
-
sont disponibles sur le sujet.
|
| 271 |
-
|
| 272 |
-
Enjeux pour la vie privée
|
| 273 |
-
=========================
|
| 274 |
-
|
| 275 |
-
### La mémorisation des modèles d'IA
|
| 276 |
-
|
| 277 |
-
La communauté scientifique a établi de longue date, qu'il est souvent
|
| 278 |
-
possible d'extraire des informations sur les données à partir desquelles
|
| 279 |
-
un modèle d'IA est entraîné, à partir d'un accès même partiel au modèle
|
| 280 |
-
(voire à ce sujet [l'article LINC sur la taxonomie des
|
| 281 |
-
attaques](https://linc.cnil.fr/petite-taxonomie-des-attaques-des-systemes-dia)).
|
| 282 |
-
Dans le cas de l'IA générative, un modèle peut par exemple reproduire du
|
| 283 |
-
texte ou des images qui sont très proches de données qui étaient
|
| 284 |
-
présentent dans son jeu de données d'entraînement. Dans la figure
|
| 285 |
-
ci-dessous, nous voyons que quand il est demandé au modèle de *stable
|
| 286 |
-
diffusion* de générer une image correspondant à la légende « Emma Watson
|
| 287 |
-
to play Belle in Disneys Beauty and the Beast », l'image générée en
|
| 288 |
-
sortie correspond de très près à une image qui était présente dans la
|
| 289 |
-
base d'entraînement. Il s'agit de **régurgitation (voir figure
|
| 290 |
-
ci-dessous), qui n'est qu'un des avatars de la mémorisation. Il est par
|
| 291 |
-
exemple parfois possible d'obtenir d'autres types d'informations, telle
|
| 292 |
-
que l'appartenance d'une donnée particulière au jeu d'entraînement, à
|
| 293 |
-
l'aide de méthodes statistiques (attaques par inférence
|
| 294 |
-
d'appartenance).**
|
| 295 |
-
|
| 296 |
-
{width="6.3in"
|
| 297 |
-
height="3.74325678040245in"}
|
| 298 |
-
|
| 299 |
-
[Figure]{.underline} [4 - Source Louis Hunt (Linkedin)\
|
| 300 |
-
Source photo originale : ONU Femmes]{.underline}
|
| 301 |
-
|
| 302 |
-
Pour les modèles de texte comme les chatbots, des cas emblématiques de
|
| 303 |
-
régurgitations sont déjà largement documentés, comme l'observation
|
| 304 |
-
qu'une version de ChatGPT a été capable de générer presque à l'identique
|
| 305 |
-
des [articles du New York
|
| 306 |
-
Times](https://www.lemonde.fr/pixels/article/2023/12/27/le-new-york-times-poursuit-en-justice-microsoft-et-openai-createur-de-chatgpt-pour-violation-de-droits-d-auteur_6207946_4408996.html),
|
| 307 |
-
ou bien de fournir des informations personnelles telles que [le nom,
|
| 308 |
-
l'adresse et le numéro de téléphone d'une
|
| 309 |
-
personne](https://arxiv.org/pdf/2311.17035) (voir notre article sur le
|
| 310 |
-
sujet).
|
| 311 |
-
|
| 312 |
-
### Le RGPD et les modèles d'IA
|
| 313 |
-
|
| 314 |
-
Dès lors qu'il est en général possible d'extraire des informations
|
| 315 |
-
concernant la base d'entraînement d'un modèle d'IA à partir de celui-ci,
|
| 316 |
-
quel régime juridique doit s'appliquer à celui-ci si le jeu
|
| 317 |
-
d'entraînement contient des données personnelles ? C'est ce qu'a
|
| 318 |
-
clarifié le Comité européen de protection des données dans [son avis
|
| 319 |
-
28/2024 sur les modèles
|
| 320 |
-
d'IA](https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_en),
|
| 321 |
-
sur lesquelles se basent les [dernières recommandation de la
|
| 322 |
-
CNIL](https://www.cnil.fr/fr/ia-analyser-le-statut-dun-modele-dia-au-regard-du-rgpd).
|
| 323 |
-
En particulier, l'avis conclut que le RGPD doit s'appliquer dans de
|
| 324 |
-
nombreux cas aux modèles d'IA lorsqu'ils ont été entraînés sur des
|
| 325 |
-
données personnelles, en raison de leur capacité de mémorisation.
|
| 326 |
-
|
| 327 |
-
### Exercer ses droits sur des modèles d'IA
|
| 328 |
-
|
| 329 |
-
Pour les modèles d'IA soumis au RGPD, les personnes concernées par la
|
| 330 |
-
mémorisation ont des droits sur leurs données, tels que le droit
|
| 331 |
-
d'opposition, d'accès ou d'effacement. Il faut noter que ces droits ne
|
| 332 |
-
sont pas absolus, et qu'un responsable de traitement peut y déroger dans
|
| 333 |
-
plusieurs situations, par exemple lorsque la demande est manifestement
|
| 334 |
-
infondée ou excessive (article 12), ou bien que celui-ci n'est pas en
|
| 335 |
-
mesure d'identifier la personne concernée (pour plus de détail, voir
|
| 336 |
-
[fiche sur l'exercice des
|
| 337 |
-
droits](https://www.cnil.fr/fr/ia-respecter-lexercice-des-droits-des-personnes)).
|
| 338 |
-
|
| 339 |
-
Dans un contexte où les instances européennes confirment que le droit à
|
| 340 |
-
la protection des données s'applique également aux modèles d'IA, la CNIL
|
| 341 |
-
souhaite étudier les conditions dans lesquelles ceux-ci pourraient
|
| 342 |
-
s'appliquer au sein de l'écosystème très dynamique de l'IA en source
|
| 343 |
-
ouverte.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|