Modèle de fondation
Un modèle de fondation ou modèle fondateur est un modèle d'intelligence artificielle (IA) de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais)[1],[2]. Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage basés sur l'architecture des transformeurs, notamment BERT qui était basé sur la partie « encodeur »[3] et la famille des GPT initialement basée sur la partie « décodeur ». Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo[4], et Florence[5], qui intègrent image et texte, ont fait leur apparition. Plus récemment, les modèles de fondation peuvent utiliser les LNN (liquid neural networks) à la place des transformeurs. Ce terme a été popularisé par le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI)[1].
Définitions
Le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI) a inventé le terme de modèle de fondation pour désigner « tout modèle entraîné sur un gros volume de données (généralement en utilisant l'apprentissage auto-supervisé à grande échelle sur des données non annotées) qui peut être adapté (par exemple, affiné) à un large éventail de tâches en aval »[6]. La technique n'est en soi pas nouvelle, étant basée sur des réseaux de neurones profonds et un apprentissage auto-supervisé, mais son échelle d'entraînement, sur un large volume de données, et le potentiel d'utilisation d'un même modèle pour de nombreuses tâches en aval justifie l'introduction d'un nouveau concept, affirme le groupe de Stanford[6].
De par sa capacité à s'adapter à de nombreuses tâches en aval, un modèle de fondation est un « paradigme pour la construction de systèmes d'IA », dans lequel un modèle pré-entraîné sur une grande quantité de données non étiquetées peut être adapté à de nombreuses applications[7],[8],[9].
Les principales caractéristiques des modèles de fondation sont l'émergence et l'homogénéisation[6]. Dans le cas de l'apprentissage auto-supervisé, les données d'entraînement n'étant pas étiquetées, la structuration de la représentation de l'information par le modèle est émergente plutôt que d'être explicitement encodée. Des propriétés qui n'étaient pas prévues peuvent alors apparaître. Par exemple, un modèle entraîné sur un grand ensemble de données linguistiques peut apprendre à générer ses propres histoires ou à faire de l'arithmétique, sans être explicitement entraîné pour le faire[10]. Par ailleurs, l'homogénéisation signifie que la même méthode est utilisée dans de nombreux domaines, ce qui permet des avancées mutualisées, mais aussi la possibilité de « points uniques de défaillance »[6].
Entraînement
Les modèles de fondation sont construits en optimisant un ou plusieurs objectifs d'entraînement, qui sont des fonctions mathématiques déterminant la manière dont les paramètres du modèle sont mis à jour en fonction de ses prédictions sur les données d'entraînement[11].
- Pour les LLM, cet entraînement repose en général sur un objectif de prédiction des prochains tokens (qui mesure la capacité du modèle à prévoir le prochain élément dans une séquence)
- Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier et les objectifs de diffusion (mécanismes où le modèle apprend à reconstituer des données bruitées). L'apprentissage contrastif est une méthode d'entraînement des modèles d'IA qui permet de maximiser la similitude entre des représentations d'objets similaires (par exemple, des images de la même catégorie), tout en renforçant les différences avec celles d'objets non liés (images d'autres catégories). Cette approche repose sur des comparaisons dans l'espace de représentation de l'IA, où chaque objet est transformé en une forme mathématique (vecteur) permettant de mesurer et d'optimiser sa proximité ou son éloignement par rapport à d'autres objets. L'apprentissage contrastif est souvent utilisé dans la reconnaissance d'images et la vision par ordinateur, notamment pour améliorer la classification ou la recherche d'images pertinentes. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément)[12]. Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.
- Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier (qui vise à maximiser la similarité entre des représentations d'images similaires tout en différenciant les images non liées) et les objectifs de diffusion. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément). Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.
Avec la montée en puissance des modèles de fondation, et avec les ensembles massifs (et croissants) de données qui les alimentent, l'objectif d'entraînement vise à traiter des données à l'échelle d'Internet, pour en extraire des informations pertinentes. De plus, ces modèles étant conçus pour résoudre un large éventail de tâches, leurs objectifs d'entraînement doivent être domain-complets (c'est-à-dire capables de couvrir une grande variété de capacités dans un domaine donné). Enfin, ces objectifs doivent être scalables (adaptables à grande échelle) et efficaces sur le plan computationnel. Dans le contexte des contraintes imposées par la taille des modèles et la puissance de calcul disponible, un objectif d'entraînement doit surmonter ces goulots d'étranglement.
Opportunités et risques
La publication du CRFM[6] a répertorié les capacités des modèles de fondation en ce qui concerne « le langage, la vision, la robotique, le raisonnement et l'interaction humaine » et ses principes techniques, tels que « les architectures de modèles, les algorithmes d'entraînement, la gestion des données, la sécurité, leur évaluation », leurs applications, par exemple dans « le droit, les soins de santé, l'éducation » et enfin leur impact potentiel sur la société, y compris « l'inéquité, l'utilisation abusive, l'impact économique et environnemental, les considérations juridiques et éthiques ».
Un article sur les modèles de fondation dans The Economist note que « pour certaines personnes, le développement sans précaution de la technologie risque de concentrer davantage le pouvoir économique et politique »[10],[13].
En , aux États-Unis, 5 mois après que la seconde présidence de Donald Trump ait lancé son plan d'accélération de l'innovation en IA pour assurer la domination technologique et sécuritaire du pays dans la compétition mondiale pour l'IAG[14], un rapport[15] réalisé par le réalisé par le Committee on Foundation Models for Scientific Discovery and Innovation des Académies nationales des sciences, d'ingénierie et de médecine, commandé par le Département de l'Énergie (DOE), recommande à ce dernier de combiner les avantages des modèles de fondation à ceux des méthodes de calcul traditionnelles pour associer rigueur physique, capacités prédictives et raisonnement interprétatif. Il recommande que le DOE poursuive ses investissements dans le développement de modèles de fondation dans les domaines où l'agence dispose déjà d'atouts stratégiques, tout en maintenant son expertise en modélisation computationnelle et en renforçant ses infrastructures logicielles et matérielles. IL préconise aussi de créer des protocoles standardisés, des benchmarks pour l'entraînement et la reproductibilité des modèles, et des partenariats avec l'industrie et le monde académique afin de soutenir les missions scientifiques nationales[16].
Modèles « frontière »
De premières définitions plus ou moins institutionnelles de la notion de modèle frontière ont été produites par OpenAI, le gouvernement du Royaume-Uni et le « Frontier Model Forum » (qui est une coalition internationale créée en 2023 par Anthropic, Google, Microsoft et OpenAI pour promouvoir la sécurité, la transparence et la gouvernance des modèles d'IA les plus puissants, dits “modèles frontière”). Ces définitions ont été synthétisées dans un rapport Frontier AI Regulation: Managing Emerging Risks to Public Safety par OpenAI, en 2023. Pour ce rapport, les frontier models sont des modèles d'IA généralistes, multimodaux, et très puissants. Ils sont capables d'effectuer un large éventail de tâches complexes, grâce à d'importantes capacités de raisonnement, de cohérence logique et de planification, ce qui les rends « susceptibles de posséder des capacités dangereuses suffisantes pour poser de graves risques pour la sécurité publique »[17]. Certains modèles de fondation particulièrement avancés sont qualifiés de « modèles frontière » en raison des risques qu'ils pourraient poser en termes de cybersécurité et/ou de sécurité publique[18].
Leur dangerosité peut résulter d'un mauvais alignement du modèle, ou d'un usage accidentel ou malveillant. À mesure que les modèles de fondation progressent, des chercheurs en intelligence artificielle alertent sur le fait qu'une grande partie des modèles de prochaine génération pourrait relever de cette catégorie. La notion de « dangerosité » est en partie subjective et prospective, car il n'existe pas de critère strict permettant de déterminer quels modèles doivent être considérés comme des modèles frontière ; parmi les capacités généralement citées comme suffisamment préoccupantes figurent notamment :
- la conception ou la synthèse de nouvelles armes biologiques ou chimiques[19] ;
- la production et la diffusion de désinformation ciblée et convaincante avec un minimum d'instructions[20] ;
- la possibilité pour l'IA d'échapper au contrôle humain par des comportements trompeurs[21].
De par ces caractéristiques, les modèles frontière sont difficiles à réguler juridiquement efficacement. Leurs capacités émergentes, par nature imprévisibles, peuvent apparaitre durant leur développement, ou après leur déploiement[18]. De plus, en tant que modèles apprenants, comme ils continueront à évoluer et peut être à se construire un modèle interne du monde après leur mise en service, il est complexe d'anticiper ou de limiter l'ensemble des risques associés. Quand un modèle frontière est publié en open source ou mis en circulation librement, sa diffusion rapide peut aussi compliquer la mise en place de mécanismes de responsabilité ou de contrôle.
Modèles de fondation causaux
Les modèles de fondation causaux (Causal foundation models) sont une extension des modèles de fondation, ayant émergé au milieu des années 2020. Ils intègrent explicitement des mécanismes de causalité dans les représentations apprises par l'IA, dans son espace latent et dans son modèle interne du monde.
Les modèles actuels d'IA ne savent pas vraiment répondre à des questions du type « que se serait‑il passé si… ? », car ils n'ont pas encore de sens commun et ne comprennent pas les liens de cause à effet derrière les événements. Leur méthode pour répondre à ce genre de question consiste à extraire ces liens causaux dans de grandes quantités de données pour construire un réseau de causes, puis à utiliser ce réseau pour raisonner étape par étape et améliorer la capacité des modèles à traiter des scénarios hypothétiques. Les modèles de fondation classiques peuvent le faire via des corrélations statistiques issues d'un entraînement auto-supervisé à grande échelle, Au contraire, les « modèles de fondation causaux » cherchent à capturer des relations causales structurelles permettant de raisonner sur les effets d'interventions, de simuler des scénarios contrefactuels et de mieux généraliser hors distribution[22]. L'IA peut apprendre d'abord une représentation causale grossière d'un environnement, puis la raffiner progressivement à mesure que l'agent acquiert des actions plus précises[23].
Ces démarches s'inscrivent dans la continuité des travaux fondateurs sur l'inférence causale, notamment ceux de Judea Pearl, qui distinguent les niveaux observationnel, interventionnel et contrefactuel dans la modélisation des systèmes complexes[24]. Des travaux récents proposent d'intégrer ces principes causaux dans des modèles de grande taille afin d'améliorer la robustesse, l'explicabilité et la capacité de planification des systèmes. Yang et al. (2024) soulignent que l'intégration d'un modèle causal explicite dans un modèle de fondation permet de mieux structurer les représentations latentes, d'améliorer la prédiction des effets d'actions dans les modèles du monde et de réduire la sensibilité aux biais corrélationnels présents dans les données massives[25].
D'autres travaux, notamment dans la robotique cognitive et les agents intelligents autonomes, montrent que les modèles causaux facilitent la planification séquentielle et l'apprentissage par renforcement en permettant de raisonner sur les conséquences futures d'actions hypothétiques[26]. En 2025, Petri et al. montrent qu'un modèle d'espace d'états (SSM) peut apprendre à la fois les règles qui gouvernent un petit environnement et les relations de cause à effet qui le structurent, parfois mieux qu'un transformeur équivalent, suggérant que ces modèles pourraient servir de base à des modèles du monde plus explicatifs, capables de comprendre « ce qui cause quoi » plutôt que de simplement repérer des corrélations[27].
En 2025, Zhiyu Zhao et al. montrent que certains agents d'IA, rendus plus curieux peuvent apprendre non seulement les règles de cause à effet d'un environnement, mais aussi comment ces règles changent selon les situations ; ils peuvent alors construit une « méta‑carte causale » qui regroupe plusieurs sous‑mécanismes causaux, permettant à l'agent de mieux s'adapter à des contextes nouveaux et à des dynamiques qui évoluent[28].
Les modèles de fondation causaux pourraient peut-être améliorer la fiabilité des systèmes d'IA dans des environnements dynamiques ou partiellement observables, en particulier dans les modèles du monde utilisés pour la simulation, la robotique ou la prise de décision autonome. Ils visent à combiner les capacités émergentes des modèles de fondation — telles que l'homogénéisation des architectures et l'apprentissage à grande échelle — avec les garanties structurelles offertes par les modèles causaux, afin de produire des systèmes plus interprétables et plus robustes aux changements de distribution[29].
Les « modèles de fondation causaux » sont l'une des piste explorées pour dépasser les limites des approches purement corrélationnelles et pour rapprocher les modèles de fondation d'une compréhension plus structurée et explicative du monde[30].
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Foundation_models » (voir la liste des auteurs).
- (en) « Introducing the Center for Research on Foundation Models (CRFM) », Stanford HAI (consulté le ).
- ↑ (en-US) Goldman, « Foundation models: 2022’s AI paradigm shift », VentureBeat, (consulté le ).
- ↑ (en) Anna Rogers, Olga Kovaleva et Anna Rumshisky, « A Primer in BERTology: What we know about how BERT works », arXiv:2002.12327 [cs], (lire en ligne, consulté le ).
- ↑ (en) « Tackling multiple tasks with a single visual language model », sur www.deepmind.com (consulté le ).
- ↑ (en) Lu Yuan, Dongdong Chen, Yi-Ling Chen et Noel Codella, « Florence: A New Foundation Model for Computer Vision », arXiv:2111.11432 [cs], (lire en ligne, consulté le ).
- (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs], (lire en ligne
, consulté le ).
- ↑ « Stanford CRFM » (consulté le ).
- ↑ (en) « What are foundation models? », IBM Research Blog, (consulté le ).
- ↑ (en) Fei, Lu, Gao et Yang, « Towards artificial general intelligence via a multimodal foundation model », Nature Communications, vol. 13, no 1, , p. 3094 (ISSN 2041-1723, PMID 35655064, PMCID 9163040, DOI 10.1038/s41467-022-30761-2, lire en ligne).
- (en) « Huge “foundation models” are turbo-charging AI progress », The Economist, (ISSN 0013-0613, lire en ligne, consulté le ).
- ↑ Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423 |url=https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf
- ↑ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (26 February 2021), Learning Transferable Visual Models From Natural Language Supervision |url=https://arxiv.org/abs/2103.00020.
- ↑ Texte original : Some worry that the technology's heedless spread will further concentrate economic and political power […].
- ↑ Maison Blanche, Winning the Race America's AI Action plan, juillet 2025, PDF, 28 pages.
- ↑ Committee on Foundation Models for Scientific Discovery and Innovation, Board on Mathematical Sciences and Analytics, Division on Engineering and Physical Sciences et National Academies of Sciences, Engineering, and Medicine, Foundation Models for Scientific Discovery and Innovation: Opportunities Across the Department of Energy and the Scientific Enterprise, National Academies Press (ISBN 978-0-309-99500-9, DOI 10.17226/29212, lire en ligne).
- ↑ (en) « DOE Should Develop AI-Based Foundation Models Fused with Traditional Computational Methods to Bring Paradigm Shift to Scientific Discovery », sur nationalacademies.org, (consulté le ).
- ↑ « Frontier models - AI Wiki - Artificial Intelligence Wiki », sur aiwiki.ai (consulté le ).
- Markus Anderljung, Joslyn Barnhart, Anton Korinek et Jade Leung, Frontier AI Regulation: Managing Emerging Risks to Public Safety, (DOI 10.48550/arXiv.2307.03718).
- ↑ Karan Singhal, Shekoofeh Azizi, Tao Tu et S. Sara Mahdavi, « Large language models encode clinical knowledge », Nature, vol. 620, no 7972, , p. 172–180 (ISSN 1476-4687, PMID 37438534, PMCID 10396962).
- ↑ Harsha Nori, Nicholas King, Scott Mayer McKinney et Dean Carignan, Capabilities of GPT-4 on Medical Challenge Problems, (DOI 10.48550/arXiv.2303.13375, lire en ligne).
- ↑ Harsha Nori, Nicholas King, Scott Mayer McKinney et Dean Carignan, Capabilities of GPT-4 on Medical Challenge Problems, (DOI 10.48550/arXiv.2303.13375).
- ↑ (en) Gaël Gendron, Jože M. Rožanec, Michael Witbrock et Gillian Dobbie, Causal Cartographer: From Mapping to Reasoning Over Counterfactual Worlds, (DOI 10.48550/arXiv.2505.14396).
- ↑ (en) Francesco Petri, Luigi Asprino et Aldo Gangemi, Learning Local Causal World Models with State Space Models and Attention, (DOI 10.48550/arXiv.2505.02074, lire en ligne).
- ↑ (en) Judea Pearl et Dana Mackenzie, The Book of Why: The New Science of Cause and Effect, Basic Books, 2018.
- ↑ (en) Mengyue Yang, « Toward Causal Foundation World Models: From Representation to Decision-Making », ojs.aaai.org, vol. 40, no 47, , p. 39841–39841 (ISSN 2374-3468, DOI 10.1609/aaai.v40i47.41360).
- ↑ (en) Schölkopf, B. et al., “Toward Causal Representation Learning”, Proceedings of the IEEE, vol. 109, no 5, 2021.
- ↑ (en) Francesco Petri, Luigi Asprino et Aldo Gangemi, Learning Local Causal World Models with State Space Models and Attention, (DOI 10.48550/arXiv.2505.02074).
- ↑ (en) Zhiyu Zhao, Haoxuan Li, Haifeng Zhang et Jun Wang, Curious Causality-Seeking Agents Learn Meta Causal World, .
- ↑ (en) Bommasani, R. et al., « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258, 2021.
- ↑ (en) John Gkountouras, Matthias Lindemann, Phillip Lippe et Efstratios Gavves, Language Agents Meet Causality -- Bridging LLMs and Causal World Models, (DOI 10.48550/arXiv.2410.19923).
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.