nbkcnil commited on
Commit
c88701c
·
verified ·
1 Parent(s): cee3d59

Delete application_neo4j/static/notice/notice.md

Browse files
application_neo4j/static/notice/notice.md DELETED
@@ -1,343 +0,0 @@
1
- Un outil pour explorer la généalogie des modèles d'IA en source ouverte 
2
- ========================================================================
3
-
4
- Qu'est-ce qu'un modèle d'IA ?
5
- =============================
6
-
7
- ### Son entraînement
8
-
9
- Les champs d\'action de l\'IA sont vastes et semblent difficiles à
10
- circonscrire puisqu\'ils s\'étendent à de nombreux aspects du
11
- quotidien : que ce soit pour effectuer des recherches ou des achats en
12
- ligne, le ciblage publicitaire, la traduction automatique, les
13
- assistants numériques personnels, les villes connectées, mais aussi dans
14
- le domaine des transports, de la santé, etc.
15
-
16
- D'après l'[article
17
- 3](https://artificialintelligenceact.eu/fr/article/3/) du règlement
18
- européen sur l'intelligence artificielle un système d\'IA peut être
19
- défini comme *«  un système basé sur une machine qui est conçu pour
20
- fonctionner avec différents niveaux d\'autonomie et qui peut faire
21
- preuve d\'adaptabilité après son déploiement, et qui, pour des objectifs
22
- explicites ou implicites, déduit, à partir des données qu\'il reçoit,
23
- comment générer des résultats tels que des prédictions, du contenu, des
24
- recommandations ou des décisions qui peuvent influencer des
25
- environnements physiques ou virtuels. »*
26
-
27
- Ces systèmes intègrent un ou plusieurs
28
- [modèles](https://www.cnil.fr/fr/definition/modele-ia) d'IA qu'il est
29
- possible de définir comme des algorithmes, dont le fonctionnement est
30
- déterminé par un ensemble d'attributs, et qui sont conçus pour opérer,
31
- selon les cas, différentes tâches, telles que la prédiction, la
32
- classification, l'inférence ou la génération. Par exemple, les modèles
33
- de réseaux de neurones profonds (*deep neural networks*) sont constitués
34
- de nœuds (les neurones), répartis selon des couches, et reliés entre eux
35
- par des connections possédant chacune un paramètre ou « poids ». Ces
36
- paramètres sont ajustés durant la phase d'entraînement pour apprendre la
37
- distribution statistique des données d'entraînement. Concrètement, dans
38
- le cas d'un réseau de neurone simple, les attributs du modèle pourraient
39
- être :
40
-
41
- (i) Le type et la taille de chaque couche (linéaire, convolutionnel,
42
- attention, etc.),
43
-
44
- (ii) Les poids attribués à chaque arrête (parfois aussi appelés
45
- « paramètres »),
46
-
47
- (iii) Les fonctions d'activations présentes entre chaque couche,
48
-
49
- (iv) Et possiblement d'autres opérations qui peuvent être situées au
50
- sein ou entre les couches.
51
-
52
- ![](notice_images/media/image1.png){width="4.517054899387577in"
53
- height="2.165915354330709in"}
54
-
55
- *[Figure 1 : Schéma d'un réseau neuronal (auteurs)]{.underline}*
56
-
57
- Par exemple, quand un réseau de neurones est entraîné pour reconnaître
58
- des images, il lui est fourni des exemples où les pixels de l'image sont
59
- associés à une annotation (ou « étiquette »). Le modèle ajuste alors ses
60
- paramètres, appelés « poids », pour apprendre à attribuer le bon label
61
- le plus souvent possible.
62
-
63
- La principale différence entre un modèle d'apprentissage profond et un
64
- programme informatique classique est que le modèle apprend de manière
65
- autonome les règles d'inférence à partir des données.
66
-
67
- Dans un programme classique, la résolution d\'une tâche repose sur un
68
- ensemble de règles explicites définies à l'avance par le développeur.
69
- Par exemple, pour trier une liste de nombres, l'ordre dans lequel
70
- comparer les éléments est programmé précisément. Ce type d'approche
71
- fonctionne très bien pour des tâches précises et délimitées, ce qui
72
- permet d'établir des règles claires pour les résoudre.
73
-
74
- À l'inverse, dans le cas d'un modèle d'apprentissage profond, les règles
75
- ne sont pas spécifiées directement. Il est plutôt fourni au modèle un
76
- grand volume de données d'exemples (dites « données d'entraînement »)
77
- pour permettre, dans la phase dite d'apprentissage, de trouver les
78
- régularités statistiques ou les stratégies qui permettent de résoudre la
79
- tâche. Cette approche permet d'automatiser des tâches beaucoup plus
80
- complexes pour lesquelles il serait extrêmement difficile, voire
81
- impossible, de définir toutes les règles à la main.
82
-
83
- ### Son utilisation
84
-
85
- Nous allons maintenant explorer certaines des tâches complexes que les
86
- modèles d'IA peuvent résoudre. Une fois qu'un modèle a été entraîné, il
87
- peut être utilisé tel quel, sans modification supplémentaire, pour
88
- effectuer automatiquement des tâches spécifiques. C'est ce qu'on appelle
89
- la phase d'inférence. À ce moment-là, le modèle reçoit une entrée (par
90
- exemple une image, un texte, ou un signal audio) et produit une sortie
91
- en fonction de ce qu'il a appris lors de l'entraînement. Il agit alors
92
- comme une « boîte noire » : il applique les régularités qu'il a
93
- intégrées, sans modifier sa structure interne ni apprendre de nouvelles
94
- choses.
95
-
96
- Prenons l'exemple de la traduction automatique. Un modèle basé sur un
97
- réseau de neurones entraîné sur des millions de paires de phrases en
98
- espagnol et en anglais peut être utilisé, à l'inférence, pour traduire
99
- automatiquement un nouveau texte de l'anglais vers l'espagnol. Les
100
- règles linguistiques ne sont pas explicitement implémentées dans le
101
- modèle, mais il a appris à faire correspondre des séquences de mots en
102
- s'appuyant sur des régularités statistiques présentes dans les données
103
- d'entraînement.
104
-
105
- Autre exemple, les modèles « *image-to-text* » permettant la génération
106
- de légendes d'images. Il est possible d'entraîner un modèle à associer
107
- des images avec des descriptions textuelles. Une fois entraîné, il est
108
- capable de recevoir une nouvelle image, par exemple, une photo de chien
109
- courant dans un parc, et de générer automatiquement une phrase du type :
110
- « Un chien court sur l'herbe dans un parc ».
111
-
112
- ![](notice_images/media/image2.png){width="6.3in"
113
- height="1.5097222222222222in"}
114
-
115
- *[Figure 2 -- Exemple de description textuelle d'une image (source :
116
- https://imagedescriber.online/fr)]{.underline}*
117
-
118
- Ces cas d'usage illustrent la puissance des avancées de l'apprentissage
119
- profond dans l'automatisation de tâches complexes, souvent subjectives
120
- ou ambiguës, pour lesquelles il serait difficile voire impossible
121
- d'écrire des règles explicites à la main.
122
-
123
- ### Ses dérivés : *finetuning*, *merge*, *quantization*\...
124
-
125
- Toutefois, pour adapter plus finement un réseau de neurones à une tâche
126
- spécifique, optimiser ses performances, ou encore réduire ses coûts
127
- d\'exécution, plusieurs transformations peuvent être effectuées à partir
128
- d'un modèle initial pré-entraîné.
129
-
130
- Ces modifications sont très fréquentes dans l'écosystème en source
131
- ouverte (*open source*) et permettent, à partir d'un ou plusieurs
132
- modèles initiaux, et possiblement de données supplémentaires, de créer
133
- de nouveaux modèles. Parmi ces transformations qui apparaissent entre un
134
- modèle cible et un modèle source, nous pouvons en mentionner quatre
135
- types :
136
-
137
- - Ajustement (*finetune*) : le modèle d'origine est un modèle général
138
- > qui parfait son entrainement sur un jeu de données spécifique afin
139
- > d'améliorer ses performances pour une tâche plus précise (par
140
- > exemple : un grand modèle de langage (LLM), initialement entraîné
141
- > sur des sources internet librement accessibles, est ajusté sur les
142
- > données métiers d'une entreprise, afin de mieux maîtriser le
143
- > vocabulaire et les expressions métiers de celle-ci).
144
-
145
- - Quantification (*quantized*) : la précision des poids du modèle
146
- > d'origine est réduite afin de diminuer son empreinte en mémoire
147
- > (par exemple : le poids sont initialement encodés sur 32 bits, et
148
- > sont arrondis au nombre codé sur 16 bits le plus proche).
149
-
150
- - Adaptation (*adapter*) : le modèle d'origine est ajusté pour pouvoir
151
- > être utilisée avec peu de ressources de calcul (par exemple pour
152
- > pouvoir être utilisé sur téléphone portable), la plupart du temps
153
- > basée sur la technique de [*Low Rank
154
- > Adaptation*](https://arxiv.org/abs/2106.09685) (LoRA).
155
-
156
- - Fusion (*merge) :* les couches de différents modèles sont mélangées
157
- > afin d'améliorer leur performance. Par exemple : un LLM A et un
158
- > LLM B ont tous les deux été entraînés sur des corpus généraux de
159
- > texte. La moyenne des poids qui se situent dans la 12^e^ couche de
160
- > A et B est effectué : il apparaît que le LLM C obtenu en
161
- > remplaçant dans A la 12^e^ couche par la moyenne des couches de A
162
- > et B a des meilleures performances que A et B.
163
-
164
- Une plateforme pour l'IA en source ouverte : *HuggingFace*
165
- ==========================================================
166
-
167
- Afin de permettre le partage et la mise à disposition de modèles d'IA
168
- pour et par le plus grand nombre, l'entreprise franco-américaine
169
- HuggingFace, créée en 2016, a développé une plateforme *de*
170
- centralisation des modèles et jeux de données. Elle propose aussi des
171
- outils logiciels pour déployer des modèles d'IA. C'est la plateforme qui
172
- recense aujourd'hui le plus de modèles en source ouverte disponibles (de
173
- deux millions de modèles disponibles en septembre 2025) et qui joue un
174
- rôle de catalyseur de l'écosystème de l'IA en source ouverte.
175
-
176
- Voici un exemple concret pour comprendre comment fonctionne cette
177
- plateforme :
178
-
179
- - L'utilisateur C a pour objectif la création d'un modèle permettant
180
- la détection automatique de courriels frauduleux.
181
-
182
- - L'utilisateur A a publié sur HuggingFace un modèle de traitement du
183
- langage automatique (exemple : Google a publié
184
- [google/gemma-3-27b-it · Hugging
185
- Face](https://huggingface.co/google/gemma-3-27b-it)) et
186
- l'utilisateur B a publié un jeu de données contenant des millions de
187
- courriels classés comme frauduleux ou non.
188
-
189
- - L'utilisateur C peut télécharger ce modèle et ce jeu de données.
190
- Ensuite, il entraîne le modèle sur ce jeu de données afin de le
191
- spécifier pour sa tâche de classification. Une fois qu'il obtient un
192
- modèle de classification automatique avec de bons résultats, il peut
193
- publier son nouveau modèle sur HuggingFace afin que n'importe quel
194
- utilisateur puisse l'utiliser tel quel ou l'entraîner de nouveau sur
195
- d'autres jeux de données pour améliorer ses performances.
196
-
197
- ![](notice_images/media/image3.png){width="6.267823709536308in"
198
- height="2.0866141732283463in"}
199
-
200
- *[Figure 3 : Exemple d'utilisation de HuggingFace]{.underline}*
201
-
202
- En somme, *HuggingFace* est une plateforme qui fournit des outils pour
203
- construire, entraîner et déployer des modèles d\'apprentissage profond
204
- basés sur des technologies et du code en source ouverte. Il offre
205
- également un espace où chercheurs, ingénieurs et amateurs peuvent se
206
- réunir pour échanger des idées, obtenir du soutien et contribuer à des
207
- projets en source ouverte.
208
-
209
- ### Bienfaits de l\'IA en source ouverte
210
-
211
- L'essor de l'IA en source ouverte montre que des modèles puissants et en
212
- partie transparents peuvent rivaliser avec les solutions propriétaires
213
- tout en stimulant l'innovation collective. Le modèle
214
- [BLOOM](https://fr.wikipedia.org/wiki/BLOOM_(mod%C3%A8le_de_langage))
215
- (176 milliards de paramètres, 2022) développé par le consortium
216
- BigScience ([voir l'entrevue avec le
217
- LINC](https://linc.cnil.fr/bigscience-il-faut-promouvoir-linnovation-ouverte-et-bienveillante-pour-mettre-le-respect-de-la-vie))
218
- illustre cette dynamique : entraîné sur 46 langues, il a permis le
219
- développement d'assistants conversationnels multilingues en Afrique, en
220
- Amérique latine et dans le monde arabe, là où les modèles commerciaux
221
- restaient peu adaptés aux langues locales.
222
-
223
- De même, [GPT-J et GPT-NeoX](https://www.eleuther.ai/) (EleutherAI),
224
- Vicuna (**LMSYS**) ont servi de base à des projets en source ouverte qui
225
- ont permis à des universités et startups de créer des *chatbots*
226
- spécialisés sans dépendre de services fermés. Ces modèles ont également
227
- rendu possible la [recherche sur la détection de
228
- biais](https://arxiv.org/pdf/2503.15815) et la [robustesse des grands
229
- modèles de langage](https://arxiv.org/pdf/2307.15043).
230
-
231
- Dans le domaine de la vision, [Stable
232
- Diffusion](https://en.wikipedia.org/wiki/Stable_Diffusion) (**Stability
233
- AI**) a bouleversé la création visuelle : les poids du modèle ont été
234
- mis à disposition gratuitement, il a ouvert la voie à des applications
235
- dans le jeu vidéo, la publicité et la production audiovisuelle
236
- (génération d'images de concept, storyboards, design rapide). Son code
237
- en source ouverte a permis la création d'outils comme
238
- [Automatic1111](https://en.wikipedia.org/wiki/Automatic1111) ou
239
- [ComfyUI](https://en.wikipedia.org/wiki/ComfyUI), utilisés par des
240
- centaines de milliers d'artistes et de chercheurs.
241
-
242
- L'impact est aussi industriel :
243
- [LLaMA](https://fr.wikipedia.org/wiki/LLaMA) (Meta), initialement
244
- diffusé à la communauté de recherche, a donné naissance à toute une
245
- génération de modèles dérivés (Zephyr, Nous-Hermes, OpenChat, etc.)
246
- utilisés aujourd'hui pour des tâches concrètes de support client, de
247
- résumé de documents juridiques ou médicaux, et même de prototypage de
248
- code.
249
-
250
- Enfin, dans le domaine scientifique, des projets comme
251
- [BioGPT](https://huggingface.co/microsoft/biogpt) (Microsoft Research)
252
- ou [OpenFold](https://openfold.io/) (inspiré d'AlphaFold) démontrent
253
- comment l'ouverture du code et des poids accélère la recherche
254
- biomédicale, en permettant à des laboratoires indépendants de reproduire
255
- et d'améliorer des résultats sur la prédiction de structures protéiques
256
- ou la recherche de molécules.
257
-
258
- Ces réussites montrent que la source ouverte ne se limite pas à la
259
- réutilisation de modèles : elle permet une appropriation technologique,
260
- une adaptation locale et une innovation ouverte dans des domaines aussi
261
- variés que la création artistique, la santé, l'éducation, la science des
262
- données et les industries culturelles.
263
-
264
- Néanmoins, un certain niveau d'opacité peut demeurer dans la façon dont
265
- ces modèles sont constitués : avec quelles données ? Avec quel
266
- algorithme d'entraînement ? Pour aller plus loin, une [note de la
267
- CNIL](https://www.cnil.fr/sites/cnil/files/2024-06/note_d_analyse_sur_les_pratiques_open_source_en_ia.pdf)
268
- ainsi qu'une note du
269
- [PEReN](https://www.peren.gouv.fr/rapports/2024-04-03_Eclairage%20sur_OpenSource-IAG_FR.pdf)
270
- sont disponibles sur le sujet.
271
-
272
- Enjeux pour la vie privée
273
- =========================
274
-
275
- ### La mémorisation des modèles d'IA
276
-
277
- La communauté scientifique a établi de longue date, qu'il est souvent
278
- possible d'extraire des informations sur les données à partir desquelles
279
- un modèle d'IA est entraîné, à partir d'un accès même partiel au modèle
280
- (voire à ce sujet [l'article LINC sur la taxonomie des
281
- attaques](https://linc.cnil.fr/petite-taxonomie-des-attaques-des-systemes-dia)).
282
- Dans le cas de l'IA générative, un modèle peut par exemple reproduire du
283
- texte ou des images qui sont très proches de données qui étaient
284
- présentent dans son jeu de données d'entraînement. Dans la figure
285
- ci-dessous, nous voyons que quand il est demandé au modèle de *stable
286
- diffusion* de générer une image correspondant à la légende « Emma Watson
287
- to play Belle in Disneys Beauty and the Beast », l'image générée en
288
- sortie correspond de très près à une image qui était présente dans la
289
- base d'entraînement. Il s'agit de **régurgitation (voir figure
290
- ci-dessous), qui n'est qu'un des avatars de la mémorisation. Il est par
291
- exemple parfois possible d'obtenir d'autres types d'informations, telle
292
- que l'appartenance d'une donnée particulière au jeu d'entraînement, à
293
- l'aide de méthodes statistiques (attaques par inférence
294
- d'appartenance).**
295
-
296
- ![](notice_images/media/image4.png){width="6.3in"
297
- height="3.74325678040245in"}
298
-
299
- [Figure]{.underline} [4 - Source Louis Hunt (Linkedin)\
300
- Source photo originale : ONU Femmes]{.underline}
301
-
302
- Pour les modèles de texte comme les chatbots, des cas emblématiques de
303
- régurgitations sont déjà largement documentés, comme l'observation
304
- qu'une version de ChatGPT a été capable de générer presque à l'identique
305
- des [articles du New York
306
- Times](https://www.lemonde.fr/pixels/article/2023/12/27/le-new-york-times-poursuit-en-justice-microsoft-et-openai-createur-de-chatgpt-pour-violation-de-droits-d-auteur_6207946_4408996.html),
307
- ou bien de fournir des informations personnelles telles que [le nom,
308
- l'adresse et le numéro de téléphone d'une
309
- personne](https://arxiv.org/pdf/2311.17035) (voir notre article sur le
310
- sujet).
311
-
312
- ### Le RGPD et les modèles d'IA
313
-
314
- Dès lors qu'il est en général possible d'extraire des informations
315
- concernant la base d'entraînement d'un modèle d'IA à partir de celui-ci,
316
- quel régime juridique doit s'appliquer à celui-ci si le jeu
317
- d'entraînement contient des données personnelles ? C'est ce qu'a
318
- clarifié le Comité européen de protection des données dans [son avis
319
- 28/2024 sur les modèles
320
- d'IA](https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_en),
321
- sur lesquelles se basent les [dernières recommandation de la
322
- CNIL](https://www.cnil.fr/fr/ia-analyser-le-statut-dun-modele-dia-au-regard-du-rgpd).
323
- En particulier, l'avis conclut que le RGPD doit s'appliquer dans de
324
- nombreux cas aux modèles d'IA lorsqu'ils ont été entraînés sur des
325
- données personnelles, en raison de leur capacité de mémorisation.
326
-
327
- ### Exercer ses droits sur des modèles d'IA
328
-
329
- Pour les modèles d'IA soumis au RGPD, les personnes concernées par la
330
- mémorisation ont des droits sur leurs données, tels que le droit
331
- d'opposition, d'accès ou d'effacement. Il faut noter que ces droits ne
332
- sont pas absolus, et qu'un responsable de traitement peut y déroger dans
333
- plusieurs situations, par exemple lorsque la demande est manifestement
334
- infondée ou excessive (article 12), ou bien que celui-ci n'est pas en
335
- mesure d'identifier la personne concernée (pour plus de détail, voir
336
- [fiche sur l'exercice des
337
- droits](https://www.cnil.fr/fr/ia-respecter-lexercice-des-droits-des-personnes)).
338
-
339
- Dans un contexte où les instances européennes confirment que le droit à
340
- la protection des données s'applique également aux modèles d'IA, la CNIL
341
- souhaite étudier les conditions dans lesquelles ceux-ci pourraient
342
- s'appliquer au sein de l'écosystème très dynamique de l'IA en source
343
- ouverte.