Frise chronologique de l'IA

Une chronologie qui montre que l'IA a été déclarée morte au moins trois fois — et qu'elle est revenue à chaque fois.

1837Jalons

La Machine analytique de Babbage : l'idée de l'ordinateur

L'histoire de l'IA ne commence pas avec les ordinateurs, mais avec l'idée qui les précède. Dans les années 1830, le mathématicien britannique Charles Babbage conçut la Machine analytique et la décrivit pour la première fois en détail en 1837 — constituant sur le papier le premier calculateur universel et programmable au monde. Son projet était en avance d'un siècle sur son époque : il comportait déjà une unité arithmétique que Babbage appelait le moulin (mill), une mémoire (store), une programmation par cartes perforées et même des branchements conditionnels — les composants fondamentaux de tout ordinateur moderne. La machine ne fut jamais construite de son vivant ; elle était trop complexe pour la mécanique du XIXe siècle. Elle n'en demeure pas moins la lointaine ancêtre de toute machine à calculer — et donc du matériel sur lequel l'intelligence artificielle peut fonctionner. Pour être rigoureux : la Machine analytique resta un projet inachevé, et c'était un calculateur, non une machine pensante. Elle fournit le fondement — le calcul — et non l'intelligence elle-même.

Dans les années 1830, le mathématicien britannique Charles Babbage conçut la Machine analytique, qu'il décrivit pour la première fois en 1837 — la première conception d'un calculateur universel et programmable.

Son projet comportait déjà les éléments des ordinateurs modernes : une unité arithmétique (mill), une mémoire (store), une programmation par cartes perforées et même des branchements conditionnels.

La machine de Babbage est la lointaine ancêtre de tout ordinateur — et donc du matériel sur lequel l'IA peut fonctionner.

Anti-hype : la Machine analytique ne fut jamais achevée du vivant de Babbage — elle resta un projet sur le papier. Et c'était un calculateur, pas une IA : le fondement, pas la pensée elle-même.

Personnes:Charles Babbage

1843Publications

Ada Lovelace : le premier programme — et une vision audacieuse

Charles Babbage avait conçu la machine — mais c'est Ada Lovelace qui comprit ce dont elle était vraiment capable. En 1843, la mathématicienne britannique traduisit un article sur la Machine analytique de Babbage et y ajouta ses propres annotations, qui dépassèrent largement l'original en ampleur et en profondeur. Dans sa note G, elle décrivit une procédure permettant à la machine de calculer les nombres de Bernoulli — souvent désignée comme le premier programme informatique publié. Plus visionnaire encore fut sa deuxième intuition : la machine ne devait pas se limiter aux nombres, mais pouvait traiter des symboles de toute nature et même composer de la musique. Lovelace anticipait ainsi l'idée du traitement universel de l'information avec un siècle d'avance. Pour être rigoureux : savoir si elle fut vraiment la première programmeuse est débattu — Babbage lui-même avait esquissé des programmes auparavant, et la routine de Bernoulli naquit en échange avec lui. Par ailleurs, Lovelace estimait que la machine ne pouvait rien créer de vraiment nouveau par elle-même — une objection à laquelle Alan Turing répondit explicitement en 1950.

En 1843, Ada Lovelace traduisit un article sur la Machine analytique de Babbage et le compléta de volumineuses annotations personnelles qui dépassèrent largement l'original.

Sa note G contient une procédure de calcul des nombres de Bernoulli — souvent désignée comme le premier programme informatique publié.

Visionnaire, elle reconnut que la machine pouvait faire plus que calculer : elle pouvait traiter des symboles et même composer de la musique — l'idée du traitement universel de l'information.

Anti-hype : savoir si Lovelace fut la première programmeuse est débattu (Babbage écrivit des programmes plus tôt ; la routine de Bernoulli naquit en échange avec lui). De plus, elle estimait que la machine ne pouvait rien créer de vraiment nouveau — une objection à laquelle Turing répondit en 1950.

Personnes:Ada Lovelace

1936Publications

La machine de Turing : ce que calculer signifie réellement

Avant de pouvoir demander si les machines peuvent penser, il fallait d'abord clarifier ce qu'une machine peut calculer. Cette question fut répondue par le mathématicien britannique Alan Turing en 1936 dans son article On Computable Numbers. Il y décrivit un modèle conceptuel d'une simplicité déconcertante — un ruban, une tête de lecture-écriture, quelques règles — qui fut ensuite appelé machine de Turing. Avec elle, Turing établit précisément ce qui est calculable et ce qui ne l'est pas. Sa découverte la plus importante : une seule machine de Turing universelle peut imiter toute autre. C'est le plan théorique de l'ordinateur universel — une machine qui, avec le bon programme, peut accomplir tout ce qui est calculable. Turing devint ainsi le fondateur de l'informatique et créa le fondement qui rendit possible l'idée de machines pensantes. Pour une évaluation honnête : la machine de Turing est une idée mathématique, non un appareil construit, et il s'agissait de calculabilité, non d'intelligence. La question de savoir si les machines peuvent penser, Turing ne la posa qu'en 1950. Le nom de machine de Turing fut par ailleurs forgé par d'autres.

En 1936, Alan Turing publia l'article On Computable Numbers et y décrivit un simple modèle de calcul conceptuel — la machine de Turing, appelée ainsi plus tard.

Avec elle, Turing établit ce qui est calculable. Une machine de Turing universelle peut imiter toute autre — le plan théorique de l'ordinateur universel.

Turing devint ainsi le fondateur de l'informatique. Le fait qu'une seule machine puisse calculer tout ce qui est calculable est le fondement qui permettrait aux machines d'apprendre à penser par la suite.

Anti-hype : la machine de Turing est une idée mathématique, non un appareil — et il s'agissait de calculabilité, non d'intelligence. La question de savoir si les machines peuvent penser, Turing ne la posa qu'en 1950. Le nom fut par ailleurs forgé par d'autres.

Personnes:Alan Turing

1943Publications

McCulloch & Pitts : le premier neurone artificiel

Treize ans avant la conférence de Dartmouth, en pleine guerre, parut l'acte de naissance véritable des réseaux de neurones artificiels. Le neurophysiologiste Warren McCulloch et le logicien autodidacte Walter Pitts — tout juste vingt ans, sans diplôme universitaire — publièrent en 1943 dans le Bulletin of Mathematical Biophysics l'article « A Logical Calculus of the Ideas Immanent in Nervous Activity ». Leur idée était radicalement simple : on peut décrire un neurone comme un élément binaire de commutation qui s'active selon le principe du tout-ou-rien dès que la somme de ses entrées dépasse un seuil. Sur le fondement de la pure logique propositionnelle, ils démontrèrent que des réseaux de telles unités peuvent calculer n'importe quelle fonction logique — et que des réseaux avec des boucles de rétroaction possèdent même une forme de mémoire. En conclusion, ils notèrent que leurs réseaux pouvaient effectuer les mêmes calculs qu'une machine de Turing. Ils fournirent ainsi le premier modèle mathématique du neurone en tant qu'unité de calcul logique. Le problème, qui allait marquer la décennie suivante : leur neurone ne pouvait pas apprendre.

Le premier modèle mathématique du neurone en tant qu'unité de calcul logique : McCulloch et Pitts ont exprimé le fonctionnement du système nerveux en logique propositionnelle formelle.

Tout ou rien : un neurone s'active quand la somme de ses entrées dépasse un seuil. Des réseaux de telles unités calculent n'importe quelle fonction logique ; les boucles de rétroaction créent de la mémoire.

La limite décisive : pas d'apprentissage. Les poids et les seuils étaient fixes, le réseau devait être conçu manuellement. Ce sont Hebb (1949) et le Perceptron de Rosenblatt (1957) qui apportèrent les règles d'apprentissage.

L'influence dépassa largement la biologie : l'architecture informatique de von Neumann (EDVAC, 1945), la cybernétique de Wiener et finalement tout réseau de neurones artificiel reposent sur ce travail.

Personnes:Warren S. McCulloch, Walter Pitts

Organisations:University of Illinois, College of Medicine, University of Chicago

1948Publications

La théorie de l'information de Shannon : naissance du bit

En 1948, parut aux Bell Labs un article qui fonda le monde numérique : A Mathematical Theory of Communication de Claude Shannon. Shannon montra comment mesurer mathématiquement l'information — indépendamment de sa signification. Il introduisit le bit comme plus petite unité d'information et forgea le concept d'entropie : une mesure de l'incertitude moyenne qu'un message dissipe. Il posa ainsi le fondement de la compression de données, de la transmission sans erreur et, en définitive, de tout ordinateur. Pour l'IA, cela va bien au-delà d'une préhistoire : les notions d'entropie croisée et de divergence de Kullback-Leibler, qui servent aujourd'hui d'objectifs d'entraînement pour les réseaux de neurones, sont directement issues de la théorie de Shannon. Pour une évaluation honnête : Shannon décrivait la transmission de messages, non la pensée. La théorie de l'information est un outil mathématique sur lequel l'IA s'appuie — elle n'est pas elle-même une intelligence artificielle.

En 1948, Claude Shannon publia aux Bell Labs A Mathematical Theory of Communication et fonda la théorie de l'information.

Il introduisit le bit comme unité de mesure de l'information et définit l'entropie — quelle incertitude un message dissipe en moyenne.

Essentiel pour l'IA : l'entropie croisée et la divergence KL — directement issues de la théorie de Shannon — sont aujourd'hui des objectifs d'entraînement standard en apprentissage automatique.

Anti-hype : Shannon décrivait la transmission de messages, non l'intelligence. La théorie de l'information est un fondement sur lequel l'IA s'appuie — ce n'est pas un résultat de l'IA. (C'est son collègue John Tukey qui proposa le terme bit.)

Personnes:Claude Shannon

Organisations:Bell Labs

1949Publications

La règle de Hebb : comment l'apprentissage naît dans le cerveau

En 1949, le psychologue canadien Donald Hebb publia l'ouvrage The Organization of Behavior et présenta une idée simple mais fondamentale : lorsque deux neurones connectés s'activent ensemble de façon répétée, leur connexion se renforce. Hebb donnait ainsi pour la première fois un mécanisme concret expliquant comment l'apprentissage pourrait fonctionner au niveau des synapses individuelles. Pour l'IA, cela devint un principe fondamental : apprendre signifie ajuster la force des connexions — c'est précisément ce que font les réseaux de neurones artificiels, comme les réseaux de Hopfield qui suivirent. Pour être rigoureux : le célèbre aphorisme selon lequel les neurones qui s'activent ensemble se connectent ensemble ne vient pas de Hebb lui-même — il est attribué à la neuroscientifique Carla Shatz (1992). Et la règle de Hebb seule n'explique pas encore l'apprentissage profond moderne, car il lui manque la correction d'erreur ciblée.

En 1949, le psychologue Donald Hebb publia The Organization of Behavior et formula la façon dont l'apprentissage pourrait fonctionner dans le cerveau au niveau des synapses.

La règle de Hebb : lorsque deux neurones connectés s'activent ensemble de façon répétée, leur connexion se renforce.

L'idée — apprendre signifie ajuster la force des connexions — devint le principe fondateur des réseaux de neurones apprenants (notamment les réseaux de Hopfield).

Anti-hype : le célèbre aphorisme (les neurones qui s'activent ensemble se connectent ensemble) ne vient pas de Hebb, mais est attribué à Carla Shatz (1992). La règle de Hebb seule n'explique pas encore l'apprentissage profond moderne — il lui manque la correction d'erreur.

Personnes:Donald Hebb

1950Publications

Test de Turing : le jeu de l'imitation

Le fondement philosophique de l'intelligence des machines et le premier benchmark de l'IA. En 1950, Alan Turing publia dans Mind le papier 'Computing Machinery and Intelligence' et reforma la question 'Les machines peuvent-elles penser ?'. Au lieu de définitions philosophiques, Turing proposa le pratique 'Jeu de l'imitation' : un évaluateur humain juge des transcriptions de conversations entre un être humain et une machine. L'évaluateur tente d'identifier la machine – la machine réussit le test si l'évaluateur ne peut pas la distinguer de manière fiable. Ce qui compte n'est pas la justesse des réponses, mais à quel point elles ressemblent à des réponses humaines. Ce test de l'indistinguabilité peut être généralisé à toutes les performances humaines, verbales comme non verbales (robotique). L'approche comportementale de Turing établit le fondement conceptuel de toute la recherche en IA et influença ELIZA, ChatGPT et tous les systèmes modernes d'IA conversationnelle.

Test de l'indistinguabilité : l'évaluateur tente de distinguer la machine de l'humain par conversation textuelle

Déplaça le focus des définitions philosophiques vers les démonstrations comportementales de l'intelligence

Posa la question fondamentale 'Les machines peuvent-elles penser ?' et proposa une approche opérationnelle

Établit le premier benchmark de l'IA et influença tous les développements ultérieurs en IA conversationnelle

Personnes:Alan Turing

Organisations:University of Manchester, Mind Journal

1956Percées

Logic Theorist : le premier programme de raisonnement

Durant l'été même où le terme « intelligence artificielle » fut créé à Dartmouth, Allen Newell, Herbert Simon et le programmeur souvent oublié Cliff Shaw présentèrent ce que l'on appelle volontiers « le premier programme d'IA » — avec un astérisque. Leur Logic Theorist démontrait des théorèmes mathématiques : il s'attaquait à la logique propositionnelle issue des Principia Mathematica de Whitehead et Russell, et trouva de manière autonome des preuves pour 38 des 52 premiers théorèmes. Ce qui était remarquable, c'était la méthode : plutôt que de tester stupidement toutes les possibilités, le programme cherchait de manière heuristique — il estimait quelles étapes valaient la peine et travaillait à rebours depuis l'objectif. Pour un théorème, il trouva même une preuve plus courte que l'originale ; selon les récits, Russell s'en réjouissait, tandis qu'une revue spécialisée refusa la preuve soumise. Tout était écrit en IPL, un langage de listes qui anticipait le LISP de McCarthy. La limite : des programmes de jeux comme celui de Samuel pour les dames existaient déjà avant — le Logic Theorist fut le premier à vouloir reproduire délibérément le raisonnement humain sur une tâche de réflexion ouverte.

Souvent appelé « le premier programme d'IA » — plus précisément : le premier programme visant à reproduire le raisonnement humain sur une tâche de réflexion ouverte (les programmes de jeux l'ont précédé).

Recherche heuristique plutôt que force brute : depuis l'objectif à rebours, en estimant les étapes prometteuses (substitution, séparation, enchaînement) — inspiré de la heuristique de Pólya.

A prouvé 38 des 52 premiers théorèmes du chapitre 2 des Principia Mathematica — pour l'un d'eux, avec une preuve plus courte que l'originale.

Écrit dans le langage de listes IPL (développé principalement par Shaw), qui influença le LISP de McCarthy ; l'approche heuristique mena directement au General Problem Solver (1957).

Personnes:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organisations:RAND Corporation, Carnegie Institute of Technology

1956Conférences

Conférence de Dartmouth : naissance de l'IA

Le moment historique où l'Intelligence artificielle (IA) est née en tant que domaine de recherche. Du 18 juin au 17 août 1956, le Dartmouth College accueillit la première AI Summer Research Conference. John McCarthy, Marvin Minsky, Nathaniel Rochester et Claude Shannon partageaient une vision audacieuse : 'Tout aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut être décrit avec une précision telle qu'une machine peut le simuler.' Durant cet atelier de huit semaines, McCarthy forgea le terme 'Artificial Intelligence', posant ainsi les bases d'une nouvelle discipline scientifique. Certains participants ne vinrent que quelques semaines, d'autres restèrent en continu : Herbert Simon et Allen Newell, par exemple, présentèrent leur Logic Theorist lors des premières semaines, tandis que Ray Solomonoff fut présent les huit semaines — les discussions se tenaient au dernier étage du département de mathématiques. De cette conférence émergèrent les trois grands centres historiques de l'IA : Carnegie Mellon avec Newell et Simon, le MIT avec Minsky et Stanford avec McCarthy.

Naissance de l'IA en tant que discipline de recherche autonome, grâce à un atelier de 8 semaines réunissant les plus grands penseurs du domaine

John McCarthy forgea le terme 'Artificial Intelligence', définissant ainsi un nouveau champ de recherche

Établit le programme de recherche : langage machine, abstraction, résolution de problèmes et auto-amélioration

Réunit les pères fondateurs de l'IA : McCarthy, Minsky, Shannon, Rochester et le futur prix Nobel Herbert Simon

Personnes:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisations:Dartmouth College, IBM, Bell Labs

1957Publications

Le Perceptron : le premier réseau de neurones apprenant

La naissance de l'apprentissage automatique grâce au premier neurone artificiel entraînable. En 1957, Frank Rosenblatt au Cornell Aeronautical Laboratory a développé le Perceptron - le premier réseau de neurones capable d'apprendre de l'expérience. En janvier 1957, il a publié le rapport technique « The Perceptron: A Perceiving and Recognizing Automaton » (Project PARA, Report 85-460-1). La publication scientifique formelle a eu lieu en novembre 1958 dans Psychological Review. Inspiré des neurones biologiques, le Perceptron combinait des entrées pondérées via une fonction d'activation de Heaviside pour produire des sorties binaires. La règle d'apprentissage du Perceptron corrigeait les poids chaque fois qu'un exemple était mal classifié - un précurseur précoce de l'apprentissage dans les réseaux de neurones modernes (à ne pas confondre avec la règle delta ultérieure de Widrow et Hoff, 1960). D'abord simulé sur un IBM 704 et annoncé publiquement en 1958, le matériel Mark-I Perceptron n'a été achevé que vers 1960. Bien que limité aux problèmes linéairement séparables, le Perceptron a posé le fondement conceptuel de toutes les architectures de réseaux de neurones ultérieures.

Premier neurone artificiel entraînable avec entrées pondérées et fonction d'activation de Heaviside

Classification binaire par décision de seuil, efficace pour les schémas linéairement séparables

La règle d'apprentissage du Perceptron de Frank Rosenblatt corrigeait les poids à chaque erreur de classification, permettant ainsi l'apprentissage automatique

La limitation aux problèmes linéairement séparables a conduit par la suite à la critique XOR de Minsky et Papert

Personnes:Frank Rosenblatt

Organisations:Cornell Aeronautical Laboratory, US Navy

1958Percées

LISP : le langage de l'IA

En 1958, John McCarthy au MIT conçut un langage de programmation centré sur le calcul symbolique : LISP, abréviation de List Processing. Plutôt que de traiter principalement des nombres, LISP manipulait des listes de symboles — exactement ce dont l'IA symbolique avait besoin. Pendant des décennies, LISP devint le langage de la recherche en IA : les systèmes experts, le traitement du langage naturel et les systèmes de planification y furent développés. Le langage de McCarthy introduisit également des idées aujourd'hui devenues évidentes : la récursion, le ramasse-miettes automatique (garbage collection), les fonctions en tant que données et l'évaluation interactive. Steve Russell mit en oeuvre le mécanisme eval théorique de McCarthy comme premier interpréteur — et rendit ainsi LISP opérationnel. Pour être rigoureux : LISP ne fut pas le premier langage de programmation de haut niveau (Fortran arriva en 1957), mais c'est le deuxième encore utilisé — et pour l'IA, le plus formateur.

John McCarthy conçut LISP en 1958 au MIT pour le calcul symbolique (listes plutôt que nombres) — pendant des décennies LE langage de la recherche en IA (systèmes experts, TAL, planification).

Introduisit des idées aujourd'hui standard : récursion, ramasse-miettes automatique, fonctions en tant que données, évaluation interactive (REPL).

S'appuya sur le traitement de listes d'IPL ; Steve Russell mit en oeuvre l'eval de McCarthy comme premier interpréteur et rendit ainsi LISP opérationnel.

Anti-hype : pas le premier langage de haut niveau (Fortran 1957 arriva auparavant) — mais le deuxième encore utilisé et pour l'IA le plus formateur.

Personnes:John McCarthy, Steve Russell

Organisations:MIT

1959Percées

Arthur Samuel : l'IA auto-apprenante et le terme « Machine Learning »

Quelques années avant la conférence de Dartmouth, Arthur Samuel apprit à une machine à jouer aux dames chez IBM — et en même temps à apprendre. Son programme tourna à partir de 1952 sur l'IBM 701 ; mais ce qui comptait vraiment se trouvait dans son article de 1959 « Some Studies in Machine Learning Using the Game of Checkers ». Le programme s'améliorait de lui-même : il joua des dizaines de milliers de parties contre lui-même et ajusta les poids de sa fonction d'évaluation en fonction des résultats. Dans le titre de cet article, le terme « Machine Learning » apparaît pour la première fois attesté dans son sens actuel — Samuel est considéré comme son inventeur. Richard Sutton salua plus tard l'auto-jeu de Samuel comme la première application de l'apprentissage par différence temporelle, qui est au coeur de l'apprentissage par renforcement moderne. La démonstration télévisée de 1956 et une victoire très citée contre un prétendu joueur de maître firent les manchettes — mais les deux furent largement exagérées : contre les vrais joueurs forts, le programme perdait clairement, et les dames ne furent complètement résolues que des décennies plus tard.

Dans le titre de son article de 1959, Samuel utilisa le terme « Machine Learning » — la première utilisation attestée dans le sens actuel ; il est considéré comme l'inventeur du terme.

Le premier programme auto-apprenant présenté publiquement : il ajustait lui-même les poids de sa fonction d'évaluation et mémorisait des positions (apprentissage par mémorisation).

En jouant des dizaines de milliers de parties contre lui-même, il anticipait l'auto-jeu que AlphaZero perfectionna plus tard — pour Sutton, la première application de l'apprentissage par différence temporelle.

Anti-hype : la victoire célébrée de 1962 fut remportée contre un adversaire surestimé ; contre des joueurs de classe mondiale, le programme perdait. Les dames ne furent complètement résolues qu'en 2007 (Chinook).

Personnes:Arthur Lee Samuel

Organisations:IBM

1965Jalons

DENDRAL : pionnier des systèmes experts

Au milieu des années 1960, l'IA prit une bifurcation décisive. À l'Université Stanford, Edward Feigenbaum et le généticien et prix Nobel Joshua Lederberg lancèrent DENDRAL — un programme souvent considéré comme le premier système expert et, en tout cas, le premier à appliquer l'IA au raisonnement scientifique. Plutôt que de chercher de façon générale comme les systèmes précédents, DENDRAL exploitait le savoir-faire d'experts chimistes : à partir des données d'un spectromètre de masse, il déduisait la structure de molécules organiques. La leçon en découlant marqua une décennie de l'IA — la connaissance est le pouvoir. Ce n'est pas l'algorithme général le plus intelligent qui l'emporte, mais celui qui dispose du plus d'expertise dans son domaine. DENDRAL ouvrit ainsi la voie au boom des systèmes experts des années 1980. Pour être rigoureux : DENDRAL lui-même fut un projet de recherche fructueux s'étalant sur de nombreuses années — pas un produit unique. Mais sa méthode, qui consistait à saisir laborieusement toutes les connaissances à la main, devint par la suite son talon d'Achille : elle rendit les systèmes experts commerciaux des années 1980 fragiles et coûteux, contribuant ainsi à l'hiver de l'IA.

À partir du milieu des années 1960, Edward Feigenbaum, Joshua Lederberg et leurs collègues de l'Université Stanford développèrent DENDRAL — souvent considéré comme le premier système expert et le premier à appliquer l'IA au raisonnement scientifique.

DENDRAL déduisait la structure de molécules organiques à partir de données de spectrométrie de masse — en exploitant le savoir-faire d'experts chimistes plutôt qu'une recherche générale.

La leçon : la connaissance est le pouvoir. Plutôt que des solveurs de problèmes généraux, l'IA misait désormais sur des domaines restreints et riches en connaissances — le début des systèmes experts.

Anti-hype : DENDRAL lui-même fut un projet fructueux sur de nombreuses années. Mais sa méthode — connaissances codées à la main — devint la faiblesse des systèmes experts commerciaux des années 1980 et contribua à l'hiver de l'IA.

Personnes:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organisations:Stanford University

1965Publications

Logique floue : la logique de l'imprécision

Une avancée mathématique importante pour la gestion de l'incertitude et du raisonnement approximatif. En 1965, Lotfi Zadeh a publié à l'UC Berkeley l'article fondateur 'Fuzzy Sets' – une réponse à l'incapacité de la logique classique à traiter des informations vagues et incomplètes. Son innovation résidait dans la constatation que les êtres humains prennent des décisions sur la base d'informations imprécises et non numériques. La logique floue permet des degrés d'appartenance entre 0 et 1, contrairement à la logique binaire oui/non. Avec plus de 100 000 citations aujourd'hui, le travail de Zadeh est devenu le fondement du Soft Computing et des approches modernes de l'IA. Cette 'logique précise de l'imprécision' a permis de modéliser mathématiquement l'incertitude, l'incomplétude et les informations contradictoires. La logique floue a trouvé des applications dans les systèmes experts, les systèmes de contrôle et, plus tard, dans les architectures modernes d'IA pour les processus de décision flous.

L'article 'Fuzzy Sets' de Lotfi Zadeh en 1965, avec plus de 100 000 citations, a considérablement modifié la gestion de l'incertitude

A permis la modélisation mathématique du flou, de l'incomplétude et des informations contradictoires

A trouvé des applications dans les systèmes experts, les systèmes de contrôle et les processus de décision approximatifs

A posé les bases du Soft Computing et des approches modernes de l'IA pour traiter l'information imparfaite

Personnes:Lotfi Zadeh

Organisations:UC Berkeley, Information and Control

1966Percées

ELIZA : le premier chatbot

La naissance de la conversation homme-machine et une expérience involontaire sur la psychologie humaine. Développé approximativement entre 1964 et 1966 par Joseph Weizenbaum au MIT, ELIZA fut le premier programme explicitement conçu pour dialoguer avec des humains. Avec un code étonnamment concis et une simple technique de reconnaissance de motifs (pattern matching), ELIZA simulait des conversations, notamment dans sa variante DOCTOR incarnant un thérapeute rogérien. La surprise ne résidait pas dans la technique, mais dans la réaction humaine : les utilisateurs, y compris la propre secrétaire de Weizenbaum, développèrent des liens émotionnels avec le programme et réclamèrent même le respect de leur vie privée lors de leurs 'séances de thérapie'. Weizenbaum décrivit et critiquer très tôt ce phénomène — la tendance à attribuer des qualités humaines à des programmes rudimentaires. Le terme 'effet ELIZA' lui-même ne fut toutefois forgé et popularisé que plus tard, dans les années 1990. ELIZA démontra le pouvoir de la simple illusion et posa les fondements de tous les agents conversationnels modernes.

Premier programme informatique explicitement conçu pour la conversation homme-machine, achevé en 1966

Utilisait une simple méthodologie de reconnaissance de motifs et de substitution — le programme fonctionnait avec étonnamment peu de code

Créait l'illusion de la compréhension et de l'intelligence émotionnelle sans véritable compréhension du langage

Mit en évidence ce que l'on appellera plus tard l'effet ELIZA et mit en garde contre la projection de qualités humaines sur des programmes rudimentaires

Personnes:Joseph Weizenbaum

Organisations:MIT, MIT AI Laboratory

1969Publications

Perceptrons : le livre qui contribua à déclencher l'hiver de l'IA

En 1969, les chercheurs du MIT Marvin Minsky et Seymour Papert publièrent le livre Perceptrons. Avec rigueur mathématique, ils montrèrent ce qu'un perceptron monocouche — la forme la plus simple d'un réseau de neurones — peut et ne peut pas faire. Leur résultat le plus célèbre : un tel réseau ne peut même pas apprendre la simple fonction XOR, car elle ne peut pas être séparée par une seule ligne. L'impact fut énorme : la confiance dans les réseaux de neurones s'effondra, les financements tarirent pendant plus d'une décennie — une contribution importante au premier hiver de l'IA. Pour une évaluation honnête : Minsky et Papert ne réfutèrent nullement les réseaux de neurones. Ils n'analysèrent que la variante monocouche ; les réseaux multicouches résolvent XOR sans problème — ce qui devint praticable ultérieurement, à partir de 1986, avec la méthode de rétropropagation. Le récit selon lequel le livre aurait tué la recherche à lui seul est en partie un mythe. La chute des financements et de l'attention fut cependant bien réelle.

En 1969, Marvin Minsky et Seymour Papert publièrent Perceptrons et analysèrent mathématiquement ce que les perceptrons monocouches peuvent faire — et ne pas faire.

Leur résultat célèbre : un perceptron monocouche ne peut pas apprendre la simple fonction XOR, car elle n'est pas linéairement séparable.

Le livre est considéré comme l'un des déclencheurs du premier hiver de l'IA : les financements des réseaux de neurones tarirent pendant plus d'une décennie.

Anti-hype : Minsky et Papert n'ont pas réfuté les réseaux de neurones en tant que tels — les réseaux multicouches résolvent XOR (ultérieurement par rétropropagation, 1986). L'idée que le livre ait tué le domaine à lui seul est en partie un mythe ; la chute des financements fut cependant réelle.

Personnes:Marvin Minsky, Seymour Papert

Organisations:MIT

1969Percées

Shakey : Le premier robot mobile intelligent

La naissance de la robotique autonome par l'intégration du raisonnement, de la planification et de l'action physique. De 1966 à 1972, l'équipe de Charles Rosen au SRI International développa Shakey – le premier robot mobile capable de réfléchir à ses propres actions. Ce robot de 2 mètres combinait caméra TV, télémètre sonar, processeurs et 'moustaches de chat' comme détecteurs de choc pour former un système autonome. Les remarquables capacités de Shakey comprenaient la perception de l'environnement, la déduction à partir de faits implicites, la création de plans et la compensation d'erreurs – le tout pilotable en langue anglaise naturelle. Ce projet financé par l'ARPA (aujourd'hui DARPA) combina pour la première fois le raisonnement logique et l'action physique, posant les bases des systèmes autonomes. Les innovations de Shakey menèrent à l'algorithme de recherche A*, aux méthodes de graphe de visibilité et à la variante informatisée influente de la transformation de Hough (Duda & Hart, SRI 1972). En 1970, le magazine Life appela Shakey la 'première personne électronique'.

Premier robot mobile capable de réfléchir à ses propres actions et de planifier des tâches complexes de manière autonome

Combinait caméra TV, sonar, processeurs et capteurs en un système mobile autonome

Développa le système de planification STRIPS pour la décomposition automatique des tâches et la recherche d'itinéraires

Unifia la vision par ordinateur, la navigation et le raisonnement logique dans un système physique

Personnes:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisations:SRI International, DARPA

1970Jalons

SHRDLU : comprendre le langage dans le monde des cubes

Vers 1970, Terry Winograd au MIT construisit un programme qui stupéfia les experts : SHRDLU. On pouvait lui donner des instructions en anglais simple — par exemple, poser le cube rouge sur le bloc vert — et il les exécutait dans un monde virtuel de cubes colorés. SHRDLU comprenait plus que de simples commandes : il résolvait des phrases ambiguës, se souvenait de ce qui avait été dit, répondait à des questions sur son monde et pouvait même expliquer pourquoi il avait fait quelque chose. Pour beaucoup, ce fut le sommet le plus impressionnant de l'IA symbolique — la preuve que les machines peuvent comprendre le langage de manière étonnamment efficace. Pour une évaluation honnête : la compréhension de SHRDLU ne fonctionnait que dans son minuscule monde fermé de cubes. Elle ne pouvait pas être transposée au monde réel, avec ses connaissances quotidiennes infinies. SHRDLU devint ainsi avec le temps un exemple emblématique des limites de ces micro-mondes — Winograd lui-même abandonna plus tard cette approche.

Vers 1970, Terry Winograd au MIT construisit SHRDLU — un programme qui comprenait des commandes en anglais simple et manipulait un monde virtuel de cubes.

SHRDLU pouvait résoudre des phrases ambiguës, se souvenir de ce qui avait été dit, répondre à des questions et même expliquer pourquoi il avait fait quelque chose.

Il était considéré comme le sommet le plus impressionnant de l'IA symbolique — la preuve que les machines peuvent comprendre le langage dans un monde limité de manière remarquable.

Anti-hype : la compréhension de SHRDLU ne fonctionnait que dans son minuscule monde de cubes. Elle ne pouvait pas être transposée au monde réel — un exemple emblématique des limites de ces micro-mondes.

Personnes:Terry Winograd

Organisations:MIT

1970Publications

Modèles de Markov cachés établis

Le fondement mathématique pour la reconnaissance vocale et la modélisation de séquences. De la fin des années 1960 jusqu'en 1970, Leonard Baum, Lloyd Welch et Ted Petrie à l'Institute for Defense Analyses ont développé les modèles de Markov cachés (HMM) et établi l'algorithme de Baum-Welch. Ces modèles statistiques modélisaient des états cachés dans des séquences et ont fourni l'une des premières approches pratiques pour capturer des états latents dans des données dépendantes du temps. À partir du milieu des années 1970, les HMM ont trouvé leur première application pratique dans la reconnaissance vocale grâce à James Baker à Carnegie Mellon et plus tard à IBM. La méthode a transformé la reconnaissance automatique de la parole des simples procédés de correspondance de gabarits vers des approches statistiques. Les HMM sont devenus la norme pour la modélisation de séquences dans de nombreux domaines : de la bioinformatique à l'analyse financière jusqu'à la reconnaissance de gestes. L'algorithme de Baum-Welch, reconnu plus tard comme un cas particulier de l'algorithme Expectation-Maximization formulé de manière générale en 1977, a posé le fondement des méthodes modernes d'apprentissage automatique probabiliste.

Algorithme de Baum-Welch comme cas particulier de l'Expectation-Maximization pour l'estimation des paramètres HMM

Première application pratique dans la reconnaissance vocale à partir du milieu des années 1970 à Carnegie Mellon et IBM

A transformé la modélisation de séquences du Template-Matching vers des approches probabilistes statistiques

A posé le fondement mathématique des méthodes modernes d'apprentissage automatique probabiliste

Personnes:Leonard Baum, Lloyd Welch, Ted Petrie

Organisations:Institute for Defense Analyses

1972Jalons

Prolog : programmer avec la logique

En 1972, à l'Université de Marseille, naquit un langage de programmation qui pensait tout autrement que tous les autres : Prolog, abréviation de Programmation en Logique. Ses créateurs Alain Colmerauer et Philippe Roussel — s'appuyant sur la théorie de Robert Kowalski — poursuivaient une idée séduisante. Plutôt que de dire à l'ordinateur étape par étape comment faire quelque chose, on décrit en Prolog uniquement les faits et les règles d'un monde. Le système tire lui-même les conclusions logiques. Prolog devint le langage le plus important de l'IA symbolique : dans les systèmes experts, le traitement du langage naturel et comme pièce maîtresse du ambitieux projet japonais de cinquième génération. Pour une évaluation honnête : la programmation logique ne devint jamais le paradigme dominant de l'IA. Le grand projet japonais, entièrement fondé sur Prolog, resta bien en deçà de ses promesses. Et la percée doit autant à la théorie de Robert Kowalski qu'au langage lui-même.

En 1972, Alain Colmerauer et Philippe Roussel développèrent à l'Université de Marseille le langage Prolog — abréviation de Programmation en Logique.

Prolog est déclaratif : on décrit des faits et des règles, et le système en déduit lui-même les conclusions logiques — sans indiquer étape par étape comment faire.

Prolog devint le langage le plus important de l'IA logique et symbolique — dans les systèmes experts, le traitement du langage naturel et le projet japonais de cinquième génération.

Anti-hype : la programmation logique ne devint jamais le paradigme dominant de l'IA ; le projet de cinquième génération japonais fondé sur Prolog resta en deçà des attentes. La théorie de Robert Kowalski était tout aussi importante que le langage lui-même.

Personnes:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organisations:University of Aix-Marseille

1974Jalons

Le premier hiver de l'IA

Une période de réductions drastiques des financements de recherche et d'une confiance déclinante dans l'intelligence artificielle. Après les promesses excessives des années 1960, la réalité amère s'imposa : les programmes d'IA ne pouvaient résoudre que des versions triviales des problèmes qu'ils étaient censés traiter. Au Royaume-Uni, le rapport Lighthill de 1973 formula une critique dévastatrice, ce qui amena le Science Research Council à réduire le financement de la recherche en IA non orientée. Aux États-Unis, la DARPA – sous l'impulsion du Mansfield Amendment – se détourna pendant plusieurs années de la recherche sans finalité précise ; la réduction brutale du financement de la compréhension du langage frappa en 1974/75 le projet de Carnegie Mellon et entraîna la résiliation d'un contrat de 3 millions de dollars. Cet hiver dura jusqu'en 1980 environ et enseigna à la communauté de l'IA une leçon importante : des attentes réalistes sont la clé d'un progrès durable.

La DARPA aux États-Unis et le Science Research Council britannique ont drastiquement réduit au milieu des années 1970 le financement de la recherche en IA non orientée

Le professeur James Lighthill a vivement critiqué en 1973 la recherche en IA pour ne pas avoir atteint ses objectifs et a signalé le problème de l'explosion combinatoire

La DARPA a résilié le contrat de 3 millions de dollars avec Carnegie Mellon pour les systèmes de compréhension du langage après des résultats décevants

Les programmes d'IA du début des années 1970 étaient limités à des versions triviales de problèmes réels et ressemblaient à des 'jouets' intelligents

Personnes:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisations:DARPA, British Science Research Council, Carnegie Mellon University

1980Publications

Néocognitron : l'ancêtre des réseaux convolutifs

En 1980, le chercheur japonais Kunihiko Fukushima présenta un réseau de neurones très en avance sur son temps : le Néocognitron. Son modèle était la nature — plus précisément le cortex visuel, tel que les lauréats du prix Nobel Hubel et Wiesel l'avaient étudié sur des chats. Là, des cellules simples et complexes traitent les stimuli visuels par étapes. Fukushima reproduisit ce principe : un réseau multicouche qui reconnaît des caractéristiques couche par couche — indépendamment de leur position dans l'image. Ainsi, le Néocognitron anticipait les idées fondamentales des réseaux de neurones convolutifs (CNN) actuels, ces réseaux qui dominent la reconnaissance d'images depuis 2012. Pour une évaluation honnête : le Néocognitron n'utilisait pas encore la rétropropagation et ne pouvait pas être entraîné comme les CNN modernes. Ce sont la rétropropagation (1986) et le LeNet de Yann LeCun (1989) qui transformèrent l'architecture en réseaux capables d'apprendre efficacement. Le rôle pionnier de Fukushima est encore souvent sous-estimé.

En 1980, Kunihiko Fukushima présenta le Néocognitron — un réseau de neurones multicouche pour la reconnaissance de formes.

Le modèle était le cortex visuel (Hubel et Wiesel) : des cellules simples et complexes qui reconnaissent des caractéristiques par étapes et indépendamment de leur position.

Le Néocognitron anticipait ainsi les idées fondamentales des réseaux de neurones convolutifs actuels — filtres locaux de caractéristiques et traitement hiérarchique. Le LeNet de LeCun (1989) s'en inspira.

Anti-hype : le Néocognitron n'utilisait pas encore la rétropropagation. Ce sont la rétropropagation (1986) et LeNet (1989) qui en firent des réseaux capables d'apprendre efficacement. Le rôle pionnier de Fukushima est souvent sous-estimé.

Personnes:Kunihiko Fukushima

Organisations:NHK Broadcasting Science Research Laboratories

1980Jalons

L'ère des systèmes experts dans les années 1980

Les années 1980 marquent l'apogée des systèmes experts, période où l'IA connaît ses premiers succès commerciaux. Des entreprises du monde entier adoptent ces programmes d'IA à base de règles, qui reproduisent l'expertise humaine dans des domaines spécialisés. L'industrie de l'IA passe de quelques millions de dollars en 1980 à plusieurs milliards en 1988. Les deux tiers des entreprises du Fortune 500 utilisent cette technologie. Des systèmes comme MYCIN atteignent dans les études un taux d'acceptation d'environ 65 % pour leurs recommandations thérapeutiques — comparable à celui d'experts facultaires, même si MYCIN ne fut jamais utilisé en clinique. Mais l'essor s'achève selon le schéma classique d'une bulle économique, lorsque des dizaines d'entreprises font faillite et que les limites de la technologie deviennent manifestes.

L'industrie de l'IA passe de quelques millions de dollars (1980) à plusieurs milliards (1988)

Les deux tiers des entreprises du Fortune 500 utilisent des systèmes experts dans leurs activités quotidiennes

Les recommandations thérapeutiques de MYCIN atteignent environ 65 % d'acceptation — comparable aux experts facultaires humains

Schéma classique d'une bulle économique : essor suivi d'un effondrement massif

Personnes:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisations:Stanford University, Fortune 500 Companies

1982Publications

Réseaux de Hopfield : Mémoire Associative

La renaissance des réseaux de neurones grâce aux capacités de mémoire associative. En 1982, John Hopfield publia l'article fondamental 'Neural networks and physical systems with emergent collective computational abilities' dans PNAS. Son innovation résidait dans la connexion de la neurobiologie avec la physique statistique : les réseaux de Hopfield fonctionnent comme une mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées. L'architecture récurrente avec des connexions bidirectionnelles symétriques converge vers des attracteurs à points fixes grâce à une fonction d'énergie de Lyapunov. Le système 'descend la pente' vers la mémoire stockée la plus proche. Le travail de Hopfield raviva l'intérêt pour les réseaux de neurones et posa les bases théoriques des RNN modernes. L'apprentissage hebbien permit le stockage de motifs associatifs - une percée pour la compréhension des systèmes de mémoire biologiques et artificiels.

Mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées

Architecture récurrente avec connexions bidirectionnelles symétriques et propriétés collectives émergentes

La fonction d'énergie de Lyapunov guide le système vers des attracteurs à points fixes en 'descendant la pente' vers la mémoire stockée

A ravivé l'intérêt pour les réseaux de neurones et posé les bases du développement moderne des RNN

Personnes:John Hopfield

Organisations:California Institute of Technology, Bell Laboratories

1986Publications

L'algorithme de rétropropagation

La naissance de l'apprentissage automatique moderne grâce à un algorithme d'entraînement élégant. En octobre 1986, David Rumelhart, Geoffrey Hinton et Ronald Williams ont publié dans Nature l'article 'Learning representations by back-propagating errors'. Cet algorithme a considérablement transformé l'entraînement des réseaux de neurones en fournissant une méthode efficace pour ajuster les poids dans les réseaux multicouches. La procédure ajuste répétitivement les poids des connexions pour minimiser la différence entre la sortie réelle et la sortie souhaitée. L'innovation déterminante résidait dans la capacité à entraîner des couches cachées qui reconnaissent automatiquement des caractéristiques importantes de la tâche. Les fondements mathématiques avaient déjà été établis auparavant – notamment par Paul Werbos (1974) et Seppo Linnainmaa (1970) –, mais c'est cet article qui a rendu la rétropropagation largement connue et en a démontré l'efficacité de manière convaincante. La rétropropagation est devenue le cheval de travail de l'apprentissage automatique et rend possibles aujourd'hui toutes les applications modernes d'apprentissage profond.

Publié dans Nature le 9 octobre 1986 sous le titre 'Learning representations by back-propagating errors'

A rendu praticable et largement connu l'entraînement efficace des réseaux de neurones multicouches grâce au calcul du gradient

Les couches cachées ont appris à reconnaître automatiquement des caractéristiques importantes – une avancée importante par rapport aux perceptrons

A posé les fondements mathématiques de toutes les applications modernes d'apprentissage profond et des architectures Transformer

Personnes:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisations:University of California San Diego, Carnegie Mellon University, Nature

1987Jalons

Le deuxième hiver de l'IA

L'effondrement du marché du matériel informatique spécialisé pour l'IA et l'échec des systèmes experts. En 1987, le marché des machines Lisp s'est effondré lorsque les ordinateurs Apple et IBM sont devenus moins chers et plus performants que les systèmes coûteux dédiés à l'IA. Des systèmes experts comme XCON se sont révélés trop exigeants en maintenance et trop rigides pour des applications réelles. Jack Schwartz, le nouveau directeur de l'IPTO, a qualifié les systèmes experts de 'programmation astucieuse' et a réduit le financement de l'IA 'profondément et brutalement'. Le déclin des fabricants de machines Lisp s'est étalé sur les années suivantes – le leader du marché Symbolics n'a déclaré faillite qu'en 1993 –, ce qui a conduit à un hiver plus long et plus profond que le premier de 1974. Cet hiver a duré jusqu'en 1993 environ et a mis fin à l'engouement commercial autour des systèmes experts et du matériel IA spécialisé – l'IA symbolique en tant qu'orientation de recherche est toutefois restée.

Le marché des machines Lisp spécialisées s'est effondré en 1987, les ordinateurs Apple et IBM étant devenus moins chers et plus performants

Les systèmes experts comme XCON se sont révélés trop exigeants en maintenance, trop rigides et incapables de traiter de nouvelles données

Jack Schwartz a réduit le financement de l'IA à la DARPA 'profondément et brutalement' et a qualifié les systèmes experts de 'programmation astucieuse'

Les coûts du matériel dédié à l'IA dépassaient de loin les retombées commerciales promises

Personnes:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organisations:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Jeux de données

UCI ML Repository : la bibliothèque de jeux de données

La démocratisation de la recherche en apprentissage automatique grâce à des jeux de données de référence standardisés. En 1987, l'étudiant en doctorat de l'UCI David Aha et ses camarades fondèrent le UCI Machine Learning Repository sous forme d'archive FTP – une collection de bases de données, de théories de domaine et de générateurs de données pour l'analyse empirique des algorithmes d'apprentissage automatique. Cette initiative répondit au manque critique de jeux de données standardisés et librement accessibles pour la communauté d'apprentissage automatique en pleine croissance. Le dépôt devint la source primaire de jeux de données d'apprentissage automatique dans le monde entier et permit aux étudiants, enseignants et chercheurs d'accéder à des benchmarks de haute qualité. Au fil des années, il fut cité des dizaines de milliers de fois, ce qui en fait l'une des ressources les plus utilisées de toute l'informatique. Aujourd'hui géré par le Center for Machine Learning and Intelligent Systems, le UCI ML Repository propose des jeux de données issus de la santé, de la finance et d'innombrables autres domaines. Le dépôt démocratisa fondamentalement l'éducation et la recherche en apprentissage automatique.

Fondé en 1987 en tant qu'archive FTP par David Aha et des étudiants de l'UCI pour l'analyse empirique des algorithmes d'apprentissage automatique

Devint la source primaire de jeux de données d'apprentissage automatique pour les étudiants, enseignants et chercheurs du monde entier

Cité des dizaines de milliers de fois – l'une des ressources de jeux de données les plus utilisées de toute l'informatique

Démocratisa la recherche en apprentissage automatique grâce à l'accès à des jeux de données de référence standardisés et de haute qualité

Personnes:David Aha, Patrick Murphy

Organisations:University of California Irvine, UCI

1988Publications

Réseaux bayésiens : raisonner sous l'incertitude

Tandis que les réseaux de neurones et les systèmes experts se disputaient l'attention, Judea Pearl à l'UCLA construisait un troisième grand pilier de l'IA : le raisonnement sous l'incertitude. Dans son ouvrage Probabilistic Reasoning in Intelligent Systems (1988), il popularisa les réseaux bayésiens — des graphes dans lesquels les noeuds représentent des variables et les arêtes leurs dépendances probabilistes. À la place des règles rigides si-alors et des facteurs de certitude ad hoc des systèmes experts, ils permettaient de combiner knowledge et incertitude de façon rigoureuse et d'en déduire des conclusions efficacement. Les réseaux bayésiens marquèrent l'IA et l'apprentissage automatique des années 1990 et 2000 ; Pearl reçut le prix Turing en 2011 et se consacra ensuite à l'inférence causale — le pourquoi derrière les données. Pour être rigoureux : le théorème de Bayes lui-même date du XVIIIe siècle ; l'apport de Pearl ne fut pas d'inventer la probabilité, mais de rendre le raisonnement probabiliste structurable et calculable pour l'IA.

Judea Pearl (UCLA) établit le raisonnement sous l'incertitude comme un troisième pilier de l'IA — aux côtés du symbolisme et des réseaux de neurones.

Réseaux bayésiens : graphes de variables (noeuds) et de dépendances probabilistes (arêtes) — remplacèrent les facteurs de certitude ad hoc par un raisonnement rigoureux et efficace.

A marqué l'apprentissage automatique des années 1990 et 2000 ; Pearl reçut le prix Turing en 2011 et fonda ensuite l'inférence causale moderne.

Anti-hype : le théorème de Bayes date du XVIIIe siècle ; l'apport de Pearl fut de rendre le raisonnement probabiliste structurable et calculable pour l'IA — pas d'inventer la probabilité.

Personnes:Judea Pearl

Organisations:UCLA

1989Publications

Théorème d'approximation universelle

La preuve mathématique de la puissance théorique des réseaux de neurones. En 1989, Kurt Hornik, Maxwell Stinchcombe et Halbert White publièrent dans Neural Networks le papier fondamental 'Multilayer feedforward networks are universal approximators'. Leur preuve rigoureuse montra : une seule couche cachée avec suffisamment de neurones peut approximer arbitrairement précisément n'importe quelle fonction mesurable au sens de Borel. Ce fondement théorique justifia mathématiquement l'utilisation des réseaux de neurones et assura aux chercheurs que des réseaux suffisamment grands pouvaient modéliser des relations complexes et non linéaires dans des données réelles. Des travaux similaires de George Cybenko et Funahashi parurent en parallèle avec différentes techniques. Le théorème établit l'universalité par élargissement de la couche cachée et devint le pilier théorique de tous les développements ultérieurs de l'apprentissage profond. Hornik et al. créèrent la confiance mathématique qui rendit possible la renaissance des réseaux de neurones dans les années 1990.

Preuve mathématique rigoureuse des capacités d'approximation universelle des réseaux de neurones

Une couche cachée avec suffisamment de neurones peut approximer arbitrairement précisément n'importe quelle fonction mesurable au sens de Borel (les travaux parallèles de Cybenko le montrèrent pour les fonctions continues)

Prouve la capacité à modéliser des relations complexes et non linéaires dans des données réelles

Fournit la justification mathématique de l'utilisation des réseaux de neurones et un fondement théorique de confiance

Personnes:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisations:University of California San Diego

1989Percées

World Wide Web : l'invention du WWW

L'invention qui a connecté le monde et créé les fondations des sources de données pour l'IA moderne. Le 12 mars 1989, Tim Berners-Lee a soumis au CERN sa proposition pour un 'Information Management System' - initialement appelé 'Mesh', plus tard 'World Wide Web'. En tant que scientifique britannique, il avait reconnu la nécessité d'un échange automatisé d'informations entre scientifiques du monde entier. D'ici fin 1990, il avait développé les trois technologies web fondamentales : HTML (Hypertext Markup Language), HTTP (Hypertext Transfer Protocol) et URI/URL. Le premier serveur web info.cern.ch tournait sur un ordinateur NeXT, accompagné du premier navigateur/éditeur 'WorldWideWeb.app'. En 1991, le Web est devenu accessible au public. La croissance exponentielle d'environ 10 sites web (1992) à plusieurs centaines de milliers (1996) a créé les bases de données pour les systèmes d'IA ultérieurs. Sans le Web, il n'y aurait pas de jeux de données Common Crawl et pas de Large Language Models.

Projet hypertexte avec documents liés, navigateurs et 'Hot Spots' - s'appuyant sur des idées hypertext plus anciennes (Ted Nelson, le Memex de Vannevar Bush), mais délibérément plus simple que le Xanadu de Nelson

Proposition de gestion de l'information du 12 mars 1989 au CERN pour l'échange scientifique automatisé

HTML, HTTP et URI/URL comme technologies web fondamentales, développées d'ici fin 1990

A créé l'infrastructure de données pour les collections Common Crawl ultérieures et l'entraînement des Large Language Models

Personnes:Tim Berners-Lee

Organisations:CERN

1989Publications

LeNet et la naissance des réseaux de neurones convolutifs

La première application réussie des réseaux de neurones convolutifs en pratique. En 1989, Yann LeCun aux laboratoires Bell d'AT&T combine pour la première fois la rétropropagation avec une architecture CNN pour la reconnaissance de l'écriture manuscrite. Ce système — connu plus tard comme l'ancêtre de la famille LeNet — reconnaissait les codes postaux écrits à la main pour le service postal américain (US Postal Service) avec une précision remarquable : environ 1 % d'erreur sur les données d'entraînement et environ 5 % sur les données de test inédites ; lorsque le réseau était autorisé à rejeter les cas incertains, le taux d'erreur sur les chiffres restants tombait à environ 1 %. Cette performance démontra la supériorité pratique des CNN sur les approches conventionnelles et posa les bases de la vision par ordinateur moderne. Elle prouva que les réseaux de neurones n'étaient pas de simples constructions théoriques, mais pouvaient résoudre de véritables problèmes commerciaux. L'architecture connut plusieurs itérations d'amélioration et aboutit en 1998 à LeNet-5 avec 99,05 % de précision sur MNIST. Ces travaux ont posé les fondations de toutes les architectures CNN modernes.

Première combinaison réussie de réseaux de neurones convolutifs avec l'entraînement par rétropropagation

Reconnaissait les codes postaux écrits à la main pour le service postal américain : environ 5 % d'erreur sur les données de test, environ 1 % lorsque les cas incertains étaient rejetés

Les travaux pionniers de Yann LeCun aux Bell Labs ont établi les CNN comme solution viable de vision par ordinateur

A posé les fondements de toutes les architectures CNN modernes, d'AlexNet aux systèmes de vision actuels

Personnes:Yann LeCun, Bernhard Boser, John Denker

Organisations:AT&T Bell Labs, NIPS

1992Percées

TD-Gammon : apprendre en jouant contre soi-même

Bien avant AlphaGo, un programme chez IBM montra de quoi l'apprentissage par renforcement est capable : en 1992, Gerald Tesauro présenta TD-Gammon, un réseau de neurones qui apprit à jouer au backgammon. Ce qui était remarquable, c'était la méthode d'apprentissage. TD-Gammon s'entraîna presque exclusivement en jouant des centaines de milliers de parties contre lui-même et en apprenant du résultat — avec la méthode de différence temporelle (Temporal Difference), qui corrige progressivement les prédictions. Personne n'avait besoin de lui montrer de bons coups. Le réseau atteignit un niveau quasi mondial et découvrit même des ouvertures que des professionnels humains adoptèrent ensuite. Pour une évaluation honnête : aussi impressionnant que fut le succès, il ne put longtemps pas être transposé à d'autres jeux. L'une des raisons réside dans le dé : le backgammon est un jeu de hasard, et le hasard assure de lui-même la variété lors de l'entraînement — un avantage pour l'auto-jeu que des jeux déterministes comme les échecs ou le go n'offrent pas.

En 1992, Gerald Tesauro présenta chez IBM TD-Gammon — un réseau de neurones qui apprit à jouer au backgammon.

Il apprit presque uniquement par des parties contre lui-même, avec la méthode d'apprentissage par renforcement par différence temporelle — sans parties humaines comme modèle.

TD-Gammon atteignit un niveau quasi mondial et découvrit de nouvelles ouvertures que des professionnels adoptèrent — un précurseur d'AlphaGo, presque 25 ans plus tôt.

Anti-hype : le succès ne put longtemps pas être transposé à d'autres jeux. Le dé dans le backgammon assure de lui-même la variété lors de l'entraînement — un avantage pour l'auto-jeu que les échecs ou le go n'ont pas.

Personnes:Gerald Tesauro

Organisations:IBM

1992Publications

Q-Learning : le fondement de l'apprentissage par renforcement

En 1992, Chris Watkins et Peter Dayan ont publié la preuve mathématique du Q-Learning - un algorithme qui allait considérablement changer le monde de l'IA. Watkins avait développé l'idée de base dès 1989 dans sa thèse de doctorat « Learning from Delayed Rewards » au King's College de Cambridge. Le Q-Learning a résolu un problème fondamental : comment un agent peut-il agir de manière optimale sans avoir besoin d'un modèle de son environnement ? La réponse était élégante - par l'optimisation progressive d'une fonction Q qui attribue une valeur à chaque paire état-action. La preuve de convergence de 1992 a montré que : avec une exploration infinie, le Q-Learning trouve garantiement la stratégie optimale pour tout problème de décision de Markov fini. Cette méthode sans modèle est devenue la pierre angulaire de l'apprentissage par renforcement moderne. De la robotique aux marchés financiers, des jeux aux systèmes autonomes - le Q-Learning est partout. Fin 2013, DeepMind a présenté une variante profonde avec les Deep Q-Networks (DQN) (publication dans Nature en 2015) et a ainsi atteint un niveau humain ou surhumain sur la majorité des jeux Atari. Jusqu'à aujourd'hui, le Q-Learning - surtout sous sa forme de Deep Q-Network - constitue un élément fondamental de nombreux systèmes d'IA.

Preuve mathématique de convergence de 1992 : le Q-Learning trouve garantiement des stratégies optimales avec une exploration infinie

Approche novatrice sans modèle : apprentissage d'actions optimales sans modèle d'environnement ni probabilités de transition

Solution élégante pour les problèmes de décision de Markov par optimisation progressive de la fonction Q

Pierre angulaire de l'apprentissage par renforcement moderne - encore aujourd'hui au coeur des Deep Q-Networks et de nombreux systèmes d'IA

Personnes:Chris Watkins, Peter Dayan

Organisations:King's College Cambridge, University College London

1993Jeux de données

Penn Treebank : l'annotation syntaxique transforme le traitement automatique des langues

La création du corpus fondamental pour la recherche moderne en analyse syntaxique. En 1993, Mitchell Marcus, Beatrice Santorini et Mary Ann Marcinkiewicz ont publié l'article de référence « Building a Large Annotated Corpus of English: The Penn Treebank » dans Computational Linguistics. Avec plus de 4,5 millions de mots d'anglais américain annotés avec des catégories grammaticales, dont environ 3 millions avec une annotation syntaxique détaillée (squelette parsé), le Penn Treebank a considérablement modifié la linguistique informatique. Le procédé en deux étapes combinait l'étiquetage automatique des parties du discours avec une correction humaine pour une qualité d'annotation exceptionnelle. Sur l'ensemble de la durée du projet d'environ sept ans (1989-1996) et dans le Penn Treebank II étendu, ont été produits au total 7 millions de mots étiquetés en parties du discours, 3 millions de textes parsés en squelette et 2 millions de structures Predicate-Argument. Le Penn Treebank a établi des méthodes empiriques en linguistique informatique et est devenu la base des algorithmes d'analyse syntaxique modernes. Jusqu'à aujourd'hui, le Penn Treebank sert aux systèmes modernes de traitement automatique des langues comme benchmark d'évaluation pour l'analyse syntaxique et la modélisation du langage.

Plus de 4,5 millions de mots avec annotation de catégories grammaticales, dont environ 3 millions avec annotation syntaxique détaillée - via un procédé semi-automatique en deux étapes

A établi des méthodes empiriques en linguistique informatique et est devenu le benchmark standard pour la recherche en analyse syntaxique

A considérablement modifié les algorithmes d'analyse syntaxique des approches fondées sur des règles vers des approches statistiques

A posé les bases de l'analyse syntaxique statistique et sert aux systèmes modernes de traitement automatique des langues comme benchmark d'évaluation

Personnes:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisations:University of Pennsylvania, Linguistic Data Consortium

1995Publications

AdaBoost : les apprenants faibles deviennent forts

En 1995, Yoav Freund et Robert Schapire ont développé AdaBoost (Adaptive Boosting), un algorithme qui a considérablement transformé l'apprentissage automatique. Leur idée centrale : combiner de nombreux 'apprenants faibles' pour former un modèle de prédiction très précis. Un apprenant faible n'est que légèrement meilleur que le hasard – mais des centaines d'entre eux peuvent ensemble obtenir des résultats remarquables. AdaBoost s'adapte de manière adaptative : les prédictions erronées sont davantage pondérées lors du passage suivant. Le système se concentre ainsi automatiquement sur les cas difficiles. L'élégance théorique a convaincu – Freund et Schapire ont prouvé que l'erreur d'entraînement diminue exponentiellement vite vers zéro, tant que chaque apprenant faible est meilleur que le hasard. En 2003, ils ont reçu pour cette fondation de la théorie du boosting le prix Gödel, l'une des distinctions les plus prestigieuses de l'informatique théorique. AdaBoost a trouvé des applications pratiques en biologie, en vision par ordinateur et en reconnaissance vocale. La méthode a posé les fondations des méthodes d'ensemble modernes et a inspiré toute une génération d'algorithmes de boosting, jusqu'à XGBoost.

Pondération adaptative : les cas difficiles sont davantage pondérés pour un apprentissage focalisé sur les points problématiques

Principe des apprenants faibles : des centaines de classificateurs simples produisent ensemble des prédictions très précises

Prix Gödel 2003 : l'une des distinctions les plus prestigieuses de l'informatique théorique pour la fondation de la théorie du boosting

Fondation des méthodes d'ensemble modernes : a inspiré XGBoost et toute une génération d'algorithmes de boosting

Personnes:Yoav Freund, Robert Schapire

Organisations:AT&T Bell Laboratories

1995Publications

Machines à vecteurs de support : classification à marge maximale

L'établissement d'approches géométriques élégantes pour une classification robuste. En 1995, Corinna Cortes et Vladimir Vapnik aux AT&T Bell Labs publièrent le papier fondamental 'Support-Vector Networks' dans Machine Learning. Les SVM étendirent l'approche précoce à marge maximale de Vapnik et Chervonenkis de 1964 (le 'Portrait généralisé') en une solution pratique pour les données d'entraînement non séparables grâce à l'innovation de la 'marge souple'. Le principe fondamental réside dans la construction de surfaces de décision linéaires dans des espaces de caractéristiques de très haute dimension via des transformations d'entrée non linéaires. L'astuce du noyau de 1992 permit un calcul efficace sans transformation explicite. Les SVM maximisent la marge entre les classes, offrant ainsi une grande capacité de généralisation. Avec des dizaines de milliers de citations, le papier devint l'un des travaux les plus cités de l'apprentissage automatique et domina les tâches de classification jusqu'à la révolution de l'apprentissage profond. Les SVM restèrent robustes, interprétables et efficaces pour les problèmes de haute dimension.

L'approche à marge maximale de Vapnik et Chervonenkis de 1964 étendue en solution pratique pour les données non séparables

L'astuce du noyau permet une classification non linéaire via des transformations implicites de haute dimension

Le principe de marge maximale maximise la distance entre les classes pour une généralisation optimale

Établit une alternative théoriquement fondée aux réseaux de neurones avec des garanties de généralisation

Personnes:Vladimir Vapnik, Corinna Cortes

Organisations:AT&T Bell Labs

1995Jeux de données

WordNet : le réseau sémantique du langage

Le premier dictionnaire lexical construit comme réseau sémantique pour la linguistique computationnelle. En novembre 1995, George Miller a publié l'article fondamental 'WordNet: A Lexical Database for English' dans Communications of the ACM, présentant sa vision développée depuis 1986. WordNet organise les substantifs, verbes, adjectifs et adverbes anglais en synsets - des groupes de synonymes cognitifs reliés par des relations sémantiques et lexicales. Cette structure reflète la mémoire sémantique humaine et permet la navigation à travers des réseaux de mots et de concepts porteurs de sens. Des dictionnaires lisibles par machine existaient déjà auparavant, mais WordNet était le premier à modéliser le vocabulaire de manière cohérente comme un réseau de synsets et de relations de sens, combinant ainsi l'information lexicographique traditionnelle avec le traitement informatique moderne. Lancé en 1986 par Miller et son équipe de Princeton, WordNet est devenu la base des hiérarchies d'ImageNet et des systèmes NLP modernes. La structure en réseau sémantique a influencé tous les Knowledge Graphs et techniques d'embedding qui ont suivi.

Premier dictionnaire lexical construit comme réseau sémantique de synsets et de relations de sens, avec accès programmatique

Les synsets reliés par des relations sémantiques et lexicales forment un réseau de sens navigable

Reflète la mémoire sémantique humaine et relie la science cognitive à la linguistique computationnelle

A posé les bases des hiérarchies d'ImageNet, des Knowledge Graphs et des systèmes NLP sémantiques modernes

Personnes:George Miller, Christiane Fellbaum

Organisations:Princeton University, Cognitive Science Laboratory

1996Publications

PageRank : l'algorithme à des milliards de dollars de Google

En 1996, deux doctorants de Stanford ont développé un algorithme qui allait considérablement changer Internet. Larry Page et Sergey Brin ont lancé le projet « BackRub » avec une idée novatrice : l'importance d'une page web ne se mesure pas seulement à son contenu, mais aux liens qui pointent vers elle. Comme dans les citations scientifiques : plus une page est liée, plus elle est importante. L'algorithme PageRank simule un « Random Surfer » qui clique aléatoirement sur le web. Plus le surfeur aléatoire atteint fréquemment une page via la structure de liens, plus elle est jugée importante. Le crawler web de Page a démarré en mars 1996 depuis sa propre page d'accueil de Stanford. La publication formelle du papier PageRank a eu lieu en janvier 1998 sous forme de Stanford Technical Report. Jusqu'en août 1996, BackRub avait déjà découvert environ 75 millions d'URL - c'est-à-dire des adresses trouvées via des liens, dont seule une partie avait effectivement été explorée. Dès le prototype Stanford précoce, les résultats étaient plus pertinents que les moteurs de recherche contemporains comme Excite ou Yahoo!. Stanford a obtenu le brevet et vendu ses 1,8 million d'actions Google en 2005 pour 336 millions de dollars. D'un projet universitaire est née l'une des entreprises les plus prospères - et le fondement du Web-IA moderne.

Projet Stanford 'BackRub' analysait les données de backlinks pour l'importance web - base de Google

Analyse de liens novatrice : importance des pages web par les références plutôt que par la seule fréquence des mots-clés

Modèle du Random Surfer : une page est d'autant plus importante que le surfeur aléatoire la visite fréquemment via la structure de liens

De la recherche de Stanford est née Google Inc. - PageRank comme fondement du moteur de recherche le plus précieux

Personnes:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisations:Stanford University, Google Inc.

1997Compétitions

Deep Blue bat Kasparov

La première victoire d'une machine sur un champion du monde d'échecs en titre, dans des conditions de tournoi. Le 11 mai 1997, Deep Blue entra dans l'histoire lorsque le supercalculateur d'IBM battit Garry Kasparov lors du match revanche à New York sur le score de 3½:2½. Après la défaite de 1996, IBM avait profondément remanié le système : de nouvelles puces d'échecs doublèrent la vitesse à 200 millions de positions par seconde, des bases de données de finales améliorées et des conseils de grands maîtres affinèrent la force de jeu. La sixième et décisive partie dura à peine une heure — après un sacrifice de cavalier, Kasparov se retrouva rapidement dans une position objectivement perdue et abandonna dès le 19e coup, un moment sans précédent dans sa carrière. La victoire démontra pour la première fois la supériorité des ordinateurs dans la réflexion stratégique complexe et marqua un tournant dans la perception publique de l'IA. Le prix de 700 000 dollars remporté par Deep Blue soulignait la portée historique de ce triomphe de l'intelligence machine.

Première victoire d'un ordinateur sur un champion du monde d'échecs en titre dans un match sous conditions de tournoi standard (Deep Blue avait déjà remporté une partie individuelle en 1996)

200 millions de positions par seconde, bases de données de finales améliorées et conseils de grands maîtres

Triomphe technique d'IBM après des années de développement, de ChipTest en 1985 à Deep Thought puis Deep Blue

Tournant dans la perception publique de l'IA et preuve de la supériorité de la machine dans la réflexion stratégique complexe

Personnes:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisations:IBM, World Chess Championship

1997Publications

LSTM : Long Short-Term Memory

La solution au problème du gradient qui s'évanouit et la naissance de la modélisation efficace de séquences. Le 15 novembre 1997, Sepp Hochreiter et Jürgen Schmidhuber publièrent l'article fondamental 'Long Short-Term Memory' dans Neural Computation. Leur innovation résolut un problème fondamental des réseaux récurrents : l'évanouissement des gradients sur les séquences longues. LSTM introduisit des cellules de mémoire spéciales avec des mécanismes de portes qui permettent un flux d'erreur constant sur des milliers de pas de temps. Les portes multiplicatives apprennent à ouvrir et fermer l'accès au carrousel d'erreur constante. Avec une complexité O(1) par pas de temps et un apprentissage local, LSTM surpassa clairement toutes les méthodes RNN contemporaines. Le système résolut pour la première fois des problèmes complexes de décalage temporel long qui étaient auparavant insolubles. LSTM devint la base de la reconnaissance vocale moderne, de la traduction et de l'analyse de séries temporelles.

A résolu le problème du gradient qui s'évanouit grâce à un flux d'erreur constant sur des milliers de pas de temps

Cellules de mémoire spéciales avec carrousels d'erreur constante pour le stockage d'information à long terme

Les unités de porte multiplicatives apprennent à ouvrir et fermer l'accès au flux d'erreur constant

A permis la modélisation efficace de séquences à long terme pour la reconnaissance vocale et l'analyse de séries temporelles

Personnes:Sepp Hochreiter, Jürgen Schmidhuber

Organisations:Technical University of Munich, IDSIA

1998Jeux de données

MNIST : le standard du Machine Learning

La création de l'un des jeux de données de référence les plus importants pour les débutants en vision par ordinateur. En 1998, Yann LeCun, Corinna Cortes et Christopher Burges ont présenté le jeu de données MNIST – une collection sélectionnée de chiffres écrits à la main, devenue le point de départ de l'apprentissage automatique. Fondé sur la Special Database 3 et la Special Database 1 du NIST, MNIST contient 70 000 images normalisées en niveaux de gris de 28x28 pixels : 60 000 pour l'entraînement et 10 000 pour les tests. Le prétraitement soigné et l'anti-aliasing ont rendu MNIST idéal pour l'apprentissage, sans préparation de données fastidieuse. MNIST est apparu dans le papier « Gradient-based learning applied to document recognition » (Proceedings of the IEEE, novembre 1998). Le jeu de données est devenu le benchmark standard pour d'innombrables algorithmes d'apprentissage automatique et a permis à des générations d'étudiants de connaître leurs premières réussites en vision par ordinateur. MNIST a démocratisé l'enseignement du Machine Learning à l'échelle mondiale.

70 000 chiffres écrits à la main sous forme d'images normalisées en niveaux de gris de 28x28 pixels

Sélectionné par Yann LeCun, Corinna Cortes et Christopher Burges à partir des bases de données NIST

Est devenu le point de départ incontournable du Machine Learning et le benchmark standard pour les algorithmes d'apprentissage automatique

A démocratisé l'enseignement du Machine Learning grâce à un accès simplifié, sans préparation de données fastidieuse

Personnes:Yann LeCun, Corinna Cortes, Christopher Burges

Organisations:AT&T Labs, Courant Institute

2001Publications

Random Forest : une avancée dans les méthodes d'ensemble

En 2001, Leo Breiman de l'UC Berkeley a publié l'un des articles de machine learning les plus cités de tous les temps : « Random Forests ». Son algorithme a considérablement modifié le concept des méthodes d'ensemble et est devenu l'un des outils les plus importants de la statistique moderne. L'idée de base était d'une simplicité géniale : au lieu d'un seul arbre de décision, on entraîne des centaines d'arbres aléatoires et on les fait voter. Chaque arbre ne voit qu'une partie aléatoire des données et des features - le « Bagging » combiné à la randomisation des caractéristiques. Le résultat : des problèmes de surapprentissage (overfitting) drastiquement réduits et une précision de prédiction remarquable. Breiman a également fourni la base théorique avec des erreurs de généralisation fondées sur la force des arbres et leur corrélation. Random Forest est devenu l'un des algorithmes de machine learning « plug-and-play » nécessitant le moins de maintenance - réglage minimal, performance maximale. De la bioinformatique à l'analyse des marchés financiers, Random Forest domine aujourd'hui d'innombrables applications et a fait des méthodes d'ensemble un outil standard - parallèlement à la ligne Boosting, dont est issu plus tard XGBoost.

Avancée dans les ensembles : des centaines d'arbres de décision aléatoires votent ensemble pour de meilleures prédictions

Bagging + randomisation des features : chaque arbre voit des données et des features différents pour la diversité

Fondement théorique : bornes d'erreur de généralisation basées sur la force des arbres et leur corrélation

Algorithme de machine learning plug-and-play : réglage minimal pour une performance remarquable dans tous les domaines

Personnes:Leo Breiman, Adele Cutler

Organisations:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisations

Fondation du Future of Humanity Institute

L'institutionnalisation de la recherche en sécurité de l'IA et de l'évaluation des risques existentiels. En 2005, Nick Bostrom a fondé le Future of Humanity Institute à l'Université d'Oxford en tant que groupe de recherche multidisciplinaire. Parti de seulement trois chercheurs, le FHI est devenu un centre de gravité intellectuel pour des penseurs brillants, souvent excentriques, et a grandi jusqu'à environ 40 collaborateurs. L'Institut a établi de nouveaux champs de recherche : les risques existentiels, l'AI Alignment, l'AI Governance et le Longtermism. Les premières publications de Bostrom comme 'The fable of the dragon tyrant' (2005) et 'What is a singleton?' (2006) ont marqué la réflexion sur la sécurité de l'IA. Malgré sa courte existence de 19 ans jusqu'à sa fermeture en 2024, le FHI a produit des avancées importantes et une nouvelle façon de penser les grandes questions de l'humanité. La légitimation académique de la recherche en AI Safety par Oxford a conféré au domaine une crédibilité scientifique.

Fondé en 2005 à l'Université d'Oxford, a grandi de 3 à environ 40 chercheurs jusqu'à sa fermeture en 2024

Travail précurseur sur les risques existentiels, le Longtermism et l'AI Governance comme nouveaux champs de recherche

A établi l'AI Alignment et l'AI Safety comme disciplines académiques légitimes à portée mondiale

A conféré à la recherche en sécurité de l'IA une crédibilité scientifique grâce à l'affiliation à Oxford

Personnes:Nick Bostrom, Anders Sandberg

Organisations:Oxford University, Future of Humanity Institute

2005Compétitions

DARPA Grand Challenge : la naissance de la conduite autonome

Le 8 octobre 2005, un Volkswagen Touareg bleu nommé 'Stanley' entre dans l'histoire. Sous la direction de Sebastian Thrun, la Stanford Racing Team remporte le DARPA Grand Challenge — le premier concours de véhicules autonomes réussi au monde. Après l'échec total de tous les participants en 2004 (meilleur résultat : 7,4 miles, soit 11,9 km), Stanley a parcouru l'intégralité du tracé désertique de 212 km en 6 heures et 53 minutes. Cinq véhicules ont atteint la ligne d'arrivée, dont quatre dans les délais impartis — un progrès considérable par rapport à zéro l'année précédente. Stanley a navigué à travers trois tunnels étroits, plus de 100 virages serrés et le dangereux Beer Bottle Pass avec ses précipices. L'innovation résidait dans le logiciel, non dans le matériel : des capteurs LiDAR, l'apprentissage automatique et un journal de décisions de conduite humaines ont conféré à Stanley des capacités qu'aucun robot ne possédait auparavant. Le prix de 2 millions de dollars n'était que le début — Stanley a jeté les bases du Tesla Autopilot, de Google Waymo et de toute l'industrie des véhicules autonomes. Aujourd'hui, Stanley est exposé au musée Smithsonian.

La 'Stanley' de Stanford a remporté en tant que premier véhicule autonome un parcours désertique de 212 km en moins de 7 heures

Passage de zéro véhicule ayant réussi (2004) à cinq arrivées (2005), dont quatre dans les délais, grâce à une meilleure IA

Reconnu comme une course logicielle : LiDAR, apprentissage automatique et données de conduite humaines comme clés du succès

Moment fondateur de la technologie de conduite autonome moderne — a inspiré Tesla, Google et toute une industrie

Personnes:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisations:DARPA, Stanford University, Stanford AI Lab

2006Publications

Deep Belief Networks : renaissance de l'apprentissage profond

Geoffrey Hinton transforma le monde de l'IA en 2006 avec son article essentiel sur les Deep Belief Networks. Après des années de désintérêt pour les réseaux de neurones, il montra comment entraîner efficacement des réseaux de neurones profonds. Son innovation : un pré-entraînement couche par couche (layer-by-layer) à l'aide de Restricted Boltzmann Machines (RBMs). Cette stratégie d'apprentissage 'greedy' (goulue) résolut le problème d'initialisation des poids et rendit l'apprentissage profond réellement applicable. La méthode empile les RBMs les unes sur les autres et entraîne chaque couche séparément avant d'affiner l'ensemble du réseau. Les travaux de Hinton mirent fin aux années de marginalisation des réseaux de neurones et inaugurèrent leur renaissance. Dès 2009, les DBNs réduisirent sensiblement les taux d'erreur en reconnaissance vocale. En 2012, l'équipe de Hinton remporta l'ImageNet Challenge (ILSVRC) avec AlexNet — un réseau de neurones convolutif profond exploitant l'entraînement sur GPU, ReLU et Dropout, sans plus recourir au pré-entraînement RBM des DBNs. AlexNet atteignit un taux d'erreur top-5 de 15,3 % contre 26,2 % pour la deuxième équipe — une amélioration notable. Ce moment marque la renaissance des réseaux de neurones et le début du boom actuel de l'IA.

Un algorithme d'apprentissage gourmand couche par couche permit pour la première fois l'entraînement efficace de réseaux de neurones profonds

Empilement de Restricted Boltzmann Machines (RBMs) comme blocs de construction pour des représentations complexes

Le pré-entraînement non supervisé résolut le problème d'initialisation des poids dans les réseaux profonds

Mit fin à la marginalisation des réseaux de neurones et fonda la renaissance moderne de l'apprentissage profond à partir de 2006

Personnes:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisations:University of Toronto, Neural Computation

2006Compétitions

Netflix Prize : l'algorithme à un million de dollars

La démocratisation du Machine Learning par un concours de crowdsourcing d'une ampleur sans précédent – avec un jeu de données public et un million de dollars de récompense. Le 2 octobre 2006, Netflix a lancé ce défi à un million de dollars : qui peut améliorer l'algorithme de recommandation Cinematch de 10 % ? Avec plus de 100 millions d'évaluations de 480 000 utilisateurs portant sur 17 770 films, Netflix a mis à disposition l'un des plus grands jeux de données publics d'apprentissage automatique. Plus de 40 000 équipes de 186 pays se sont inscrites ; plus de 5 000 d'entre elles ont atteint le tableau de qualification et ont soumis ensemble environ 44 000 solutions valides. Lorsque l'équipe « BellKors Pragmatic Chaos » a été la première à franchir la barre des 10 % le 26 juin 2009, cela a déclenché un dernier appel de 30 jours qui s'est terminé le 26 juillet 2009 ; le vainqueur, avec une amélioration de 10,06 %, n'a été officiellement couronné qu'à la cérémonie de remise des prix du 21 septembre 2009. Sa recette gagnante : une combinaison en ensemble de la factorisation matricielle et de machines de Boltzmann restreintes. Le concours a considérablement transformé le filtrage collaboratif et a démontré la puissance du crowdsourcing pour les problèmes complexes d'apprentissage automatique. Bien que Netflix n'ait jamais mis en production les algorithmes des gagnants (coûts de mise en œuvre trop élevés), le concours a durablement inspiré l'industrie moderne des systèmes de recommandation.

1 million de dollars de récompense pour une amélioration de 10 % de l'algorithme Cinematch sur 3 ans de compétition

Plus de 100 millions d'évaluations de 480 000 utilisateurs pour 17 770 films, en tant que jeu de données public d'apprentissage automatique

A considérablement transformé le filtrage collaboratif grâce à la factorisation matricielle et aux machines de Boltzmann restreintes

Plus de 40 000 équipes de 186 pays, plus de 5 000 sur le tableau de qualification avec environ 44 000 soumissions – la puissance du crowdsourcing au service du Machine Learning

Personnes:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisations:Netflix, BellKor, AT&T Research

2007Jeux de données

Fondation Common Crawl créée

La démocratisation d'Internet en tant que données d'entraînement pour l'intelligence artificielle. En 2007, Gil Elbaz fonde la Common Crawl Foundation avec la mission d'archiver l'ensemble du Web public et de le rendre librement accessible. Dès 2008, l'activité de crawling systématique débute ; son corpus a depuis augmenté de milliards de pages chaque mois et atteint désormais (en 2024) l'ordre de grandeur de plus de 100 milliards de pages Web et de plusieurs pétaoctets de données. Cette collection est devenue la source d'entraînement la plus importante pour les grands modèles de langage (LLM) et a permis le développement de GPT-3, ChatGPT, LLaMA et d'autres systèmes d'IA modernes. Common Crawl se distinguait des approches commerciales par sa nature à but non lucratif et sa disponibilité libre. La collecte de données brutes non filtrées exige certes un post-traitement, mais elle a démocratisé l'accès à des données linguistiques complètes et rendu la recherche en IA moins dépendante des ensembles de données propriétaires.

Fondée en 2007 avec pour mission d'archiver l'ensemble du Web public et de le rendre librement accessible

Augmente depuis le début du crawling en 2008 de milliards de pages par mois — ordre de grandeur désormais (en 2024) supérieur à 100 milliards de pages Web et plusieurs pétaoctets de données

Est devenue la principale source d'entraînement pour GPT-3, ChatGPT, LLaMA et d'autres grands modèles de langage modernes

L'approche à but non lucratif a démocratisé l'accès à des données linguistiques complètes pour la recherche en IA dans le monde entier

Personnes:Gil Elbaz, Common Crawl Team

Organisations:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Jalons

CUDA : la carte graphique devient le moteur de l'IA

La révolution de l'IA en 2012 ne s'appuyait pas seulement sur des algorithmes — elle tournait sur des cartes graphiques. NVIDIA posa les bases dès 2007 avec CUDA : une plateforme permettant d'exécuter des programmes ordinaires dans un langage proche du C directement sur le GPU — et pas seulement de la graphique. Annoncée avec la puce G80 fin 2006, lancée en bêta publique en février 2007 et en version 1.0 en juin 2007, CUDA rendit pour la première fois largement accessible l'énorme parallélisme des processeurs graphiques. Cela correspond parfaitement aux réseaux de neurones, dont le calcul repose essentiellement sur des multiplications matricielles — des milliers de petites opérations simultanées. Cinq ans plus tard, Krizhevsky, Sutskever et Hinton entraînèrent AlexNet sur deux cartes NVIDIA GTX 580 avec CUDA — la percée qui alluma l'apprentissage profond. À partir de 2014, cuDNN de NVIDIA fournit les composants optimisés sur lesquels TensorFlow, PyTorch et les autres frameworks fonctionnent aujourd'hui. Pour être rigoureux : CUDA n'a pas inventé le GPGPU (les shaders programmables existaient depuis 2001, BrookGPU depuis 2004) et n'a pas causé l'apprentissage profond à lui seul — mais il rendit la puissance de calcul nécessaire accessible, et sans elle, rien du reste n'aurait été possible.

CUDA (2007, NVIDIA ; architectes Ian Buck — issu du projet BrookGPU — et John Nickolls) permet d'exécuter des programmes généraux dans un langage proche du C directement sur le GPU — et pas seulement de la graphique.

Les GPU calculent des milliers d'opérations en parallèle. Cela correspond exactement aux réseaux de neurones, dont le coeur est constitué de multiplications matricielles.

Devint le moteur de l'apprentissage profond : AlexNet (2012) s'entraîna sur deux cartes GTX 580 avec CUDA ; depuis cuDNN (2014), pratiquement tous les grands frameworks s'appuient dessus.

Anti-hype : le GPGPU existait avant CUDA (shaders 2001, BrookGPU 2004) ; CUDA n'a pas causé l'apprentissage profond à lui seul — il rendit la puissance de calcul accessible (nécessaire, mais pas suffisante).

Personnes:Ian Buck, John Nickolls

Organisations:NVIDIA

2008Publications

Zero-Shot Learning : apprendre sans données

La formalisation de l'apprentissage de classes non vues grâce à des descriptions sémantiques. En juillet 2008, Hugo Larochelle, Dumitru Erhan et Yoshua Bengio ont publié lors de la conférence AAAI leur travail 'Zero-data Learning of New Tasks', fournissant la formalisation théorique précurseure. Le nom 'Zero-Shot Learning' a été forgé en 2009 par deux autres groupes : Palatucci et ses collègues avec 'Zero-Shot Learning with Semantic Output Codes' à la NIPS 2009, ainsi que Lampert et ses collègues avec leur approche basée sur les attributs à la CVPR 2009. Le problème fondamental : comment un modèle peut-il classifier des classes pour lesquelles aucune donnée d'entraînement n'est disponible, mais seulement des descriptions ? La solution résidait dans les embeddings sémantiques et le transfer learning - la réutilisation de modèles entraînés pour de nouvelles tâches. La formalisation de Larochelle s'attaquait à des ensembles de classes très larges, ne pouvant pas être entièrement couverts par des données d'entraînement. Des analyses expérimentales ont prouvé des capacités de généralisation significatives dans ce contexte. Ce travail a posé le fondement conceptuel des capacités modernes de Few-Shot et Zero-Shot dans GPT-3, GPT-4 et d'autres Large Language Models. Le Zero-Shot Learning est devenu une technologie clé pour les systèmes d'IA scalables.

Classification de classes sans données d'entraînement - uniquement avec des descriptions sémantiques des classes cibles

Réutilisation de modèles entraînés pour des tâches entièrement nouvelles grâce aux embeddings sémantiques

Les représentations sémantiques permettent la généralisation vers des concepts non vus

A posé les bases des capacités Few-Shot et Zero-Shot des Large Language Models modernes

Personnes:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisations:University of Montreal

2009Jeux de données

Les jeux de données CIFAR sont établis

La création d'un benchmark fondamental pour la vision par ordinateur. En 2009, Alex Krizhevsky, Vinod Nair et Geoffrey Hinton à l'Université de Toronto ont développé les jeux de données CIFAR-10 et CIFAR-100. Ceux-ci ont émergé comme des sous-ensembles étiquetés du jeu de données « Tiny Images » de 80 millions d'images. CIFAR-10 comprend 60 000 images couleur de 32x32 pixels dans dix catégories comme les avions, les voitures et les animaux, tandis que CIFAR-100 distribue le même nombre d'images dans cent classes plus fines. Les jeux de données sont devenus l'un des benchmarks les plus importants dans la recherche en vision par ordinateur et ont permis des comparaisons standardisées entre différents algorithmes. Notable est la connexion avec AlexNet : Krizhevsky a utilisé CIFAR-10 avant 2011 pour entraîner de petits CNNs sur des GPUs uniques – un précurseur de son succès ImageNet de 2012.

CIFAR-10 avec 60 000 images dans 10 catégories, CIFAR-100 avec 100 classes plus détaillées comme benchmarks de vision par ordinateur

Est devenu l'un des benchmarks standardisés les plus importants pour les algorithmes de vision par ordinateur dans le monde

A permis l'évaluation et la comparaison systématiques de différentes approches d'apprentissage automatique

Krizhevsky a utilisé CIFAR-10 avant 2011 pour l'entraînement de CNN – précurseur de son succès AlexNet en 2012

Personnes:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisations:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Jeux de données

ImageNet : le jeu de données qui a tout changé

La création du jeu de données qui a rendu possible le développement de l'apprentissage profond. En 2009, Fei-Fei Li et son équipe ont présenté le papier ImageNet et introduit une base de données visuelle destinée à transformer la vision par ordinateur – au lancement, elle comptait environ 3,2 millions d'images annotées manuellement réparties en quelque 5 200 catégories. Dans sa version finale, ImageNet a réuni plus de 14 millions d'images annotées manuellement et environ 22 000 catégories, fondées sur les hiérarchies de WordNet, comblant ainsi le goulet d'étranglement critique : le manque de données d'entraînement volumineuses et de haute qualité. Au fil du projet, l'annotation a été réalisée par quelque 49 000 contributeurs issus de 167 pays via Amazon Mechanical Turk – un projet d'une collaboration sans précédent. Ce qui avait débuté comme une affiche dans un coin du centre de conférences de Miami Beach s'est transformé en défi annuel ImageNet (ILSVRC) et est devenu l'un des trois moteurs du développement moderne de l'IA. ImageNet a rendu possible la percée d'AlexNet en 2012 et a posé les fondements de la conduite autonome, de la reconnaissance faciale et de l'imagerie médicale.

Au lancement en 2009, environ 3,2 millions d'images ; dans sa version complète, plus de 14 millions d'images annotées manuellement dans environ 22 000 catégories, par quelque 49 000 contributeurs issus de 167 pays

Fondé sur les hiérarchies de WordNet pour une catégorisation structurée des objets visuels

A fourni les données d'entraînement essentielles pour la percée d'AlexNet en 2012 et le développement de l'apprentissage profond

A transformé la recherche en vision par ordinateur et rendu possible la conduite autonome, la reconnaissance faciale et l'imagerie médicale

Personnes:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisations:Stanford University, Princeton University

2010Jalons

DeepMind est fondée

La naissance d'un laboratoire d'IA qui ferait les gros titres dans le monde entier. En septembre 2010, Demis Hassabis, Shane Legg et Mustafa Suleyman ont fondé DeepMind Technologies à Londres. Leur objectif : développer une intelligence artificielle générale en combinant les connaissances des neurosciences et de l'apprentissage automatique. Hassabis, ancien prodige des échecs et développeur de jeux, a apporté une vision unique : l'IA devrait apprendre comme le cerveau humain. En 2014, Google a acquis la startup pour un montant estimé à 500 millions de dollars – l'une des plus grandes acquisitions d'IA de l'histoire. DeepMind étonnerait plus tard le monde avec AlphaGo, AlphaFold et d'autres percées.

Fondée en septembre 2010 à Londres sous le nom DeepMind Technologies

Demis Hassabis (neuroscientifique, développeur de jeux), Shane Legg et Mustafa Suleyman

Acquise par Google en 2014 pour un montant estimé à 500 millions de dollars

Plus tard responsable d'AlphaGo, AlphaFold et d'autres systèmes d'IA majeurs

Personnes:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisations:DeepMind, Google

2010Compétitions

ImageNet Challenge : le départ de la compétition

L'établissement du benchmark de vision par ordinateur le plus important de l'histoire de l'IA. En 2010 a démarré le premier ImageNet Large Scale Visual Recognition Challenge (ILSVRC), créant une compétition standardisée qui allait façonner la recherche en vision par ordinateur pour la décennie suivante. Avec 1 000 catégories d'objets et 1,2 million d'images d'entraînement, le challenge dépassait largement les benchmarks alors disponibles comme PASCAL VOC, qui ne comptait que 20 classes. L'évaluation reposait sur les taux d'erreur Top-1 et Top-5 – des métriques qui font toujours référence aujourd'hui. De 2010 à 2017, la précision Top-5 des lauréats a considérablement progressé, passant de 71,8 % à 97,3 %, dépassant finalement les performances humaines. Le challenge annuel a attiré plus de 50 institutions du monde entier et a catalysé des avancées qui ont culminé en 2012 avec la percée notable d'AlexNet – un taux d'erreur Top-5 de seulement 15,3 % (soit environ 84,7 % de précision).

Premier ILSVRC 2010 avec 1 000 catégories et 1,2 million d'images d'entraînement – bien au-delà de PASCAL VOC

A établi les taux d'erreur Top-1 et Top-5 comme métriques standard pour l'évaluation en vision par ordinateur

Compétition annuelle depuis 2010, ayant attiré plus de 50 institutions dans le monde et stimulé les avancées de la recherche

A créé la structure de compétition qui a permis la percée d'AlexNet en 2012 : un taux d'erreur Top-5 de seulement 15,3 % (soit environ 84,7 % de précision)

Personnes:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisations:Stanford University, ImageNet Team

2011Compétitions

Watson bat les champions de Jeopardy

Le triomphe d'IBM en traitement du langage naturel et la preuve de la compréhension linguistique des machines. Le 16 février 2011, le système Watson d'IBM a battu lors du Jeopardy Challenge télévisé les deux champions les plus titrés de tous les temps : Ken Jennings (74 victoires consécutives) et Brad Rutter (3,25 millions de dollars de gains jusqu'en 2005). Watson, développé par l'équipe DeepQA de David Ferrucci, était composé de 90 serveurs IBM Power 750 (en 10 racks) avec 16 téraoctets de RAM et 2 880 coeurs de processeur POWER7. L'innovation résidait dans le traitement du langage naturel : Watson comprenait les questions en langage naturel et répondait avec plus de précision que toute technologie de recherche standard - sans connexion Internet. Avec 77 147 dollars de gains (reversés à des oeuvres caritatives), Watson a dominé ses adversaires humains de plus de 50 000 dollars. La célèbre remarque finale de Ken Jennings 'I for one welcome our new computer overlords' a souligné la portée historique de ce jalon du NLP.

A battu les légendes de Jeopardy Ken Jennings et Brad Rutter lors d'un défi télévisé

Première démonstration télévisée de capacités avancées de traitement du langage naturel devant des millions de téléspectateurs

Le système DeepQA combinait la recherche de connaissances avec un raisonnement complexe sans connexion Internet

Le commentaire 'computer overlords' de Ken Jennings a souligné la portée culturelle des progrès de l'IA

Personnes:David Ferrucci, Ken Jennings, Brad Rutter

Organisations:IBM Research, Jeopardy!, Sony Pictures Television

2011Produits

Lancement de Siri : l'assistante vocale devient grand public

Le 4 octobre 2011, Apple transforma considérablement l'interaction homme-machine en introduisant Siri sur l'iPhone 4S. Première assistante vocale grand public profondément intégrée à un smartphone, Siri mit l'IA dans la poche de millions de personnes. 'Quel temps fait-il aujourd'hui ?' ou 'Trouve-moi un bon restaurant grec' – les utilisateurs pouvaient soudain parler naturellement à leur téléphone. Siri n'était pas une invention entièrement nouvelle : elle existait depuis 2010 en tant qu'application iOS indépendante de Siri Inc. (rachetée par Apple), et Google proposait déjà la recherche vocale avec Voice Actions. Mais c'est l'intégration transparente d'Apple dans le système d'exploitation qui fit de l'assistant vocal un phénomène de masse. Siri reposait sur des décennies de recherche au SRI International et sur le projet CALO de la DARPA. Susan Bennett avait déjà enregistré la voix originale en 2005 sans le savoir. Steve Jobs, gravement malade dans ses derniers jours, ne parut plus lui-même lors de l'événement de lancement – c'est Tim Cook qui présenta l'iPhone 4S. Jobs décéda le lendemain de la présentation de Siri. Siri n'était pas parfaite – les critiques reprochaient la rigidité des commandes et le manque de flexibilité. Mais l'objectif était atteint : l'IA était devenue grand public. Siri inspira Amazon Alexa, Google Assistant et Microsoft Cortana. L'ère des assistants vocaux avait commencé.

Première assistante vocale grand public profondément intégrée à un smartphone pour des millions d'utilisateurs dans le monde

Le traitement avancé du langage naturel permit une communication intuitive entre l'humain et l'ordinateur

L'un des derniers grands produits de Steve Jobs avant son décès le 5 octobre 2011

Inaugura l'ère moderne des assistants vocaux et inspira tous les concurrents

Personnes:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisations:Apple, SRI International, DARPA

2012Publications

Régularisation Dropout

En juillet 2012, Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever et Ruslan Salakhutdinov transformèrent considérablement l'entraînement des réseaux de neurones avec l'invention de la régularisation Dropout. Cette technique élégante prévient le surapprentissage (overfitting) en désactivant aléatoirement environ la moitié de tous les neurones durant l'entraînement, évitant ainsi les co-adaptations complexes. Au lieu de combinaisons de caractéristiques spécifiques, chaque neurone apprend des motifs de reconnaissance robustes et universellement utiles. Publiée le 3 juillet 2012 sur arXiv, la méthode devint quelques mois plus tard l'un des éléments fondateurs du triomphe d'AlexNet à l'ImageNet lors de l'ILSVRC 2012, dont les résultats furent présentés en octobre 2012 — aux côtés de l'entraînement sur GPU, de l'activation ReLU et de la profondeur du réseau — et s'imposa comme standard dans la plupart des architectures modernes d'apprentissage profond. Le Dropout établit de nouveaux records en reconnaissance vocale et de la parole, et résout le problème central du surapprentissage dans les réseaux profonds.

Résout le problème central du surapprentissage dans les réseaux de neurones profonds

Désactivation aléatoire de la moitié de tous les neurones durant l'entraînement

L'un des éléments fondateurs de la percée d'AlexNet à l'ImageNet — aux côtés de l'entraînement sur GPU, de ReLU et de la profondeur du réseau

Devient le standard dans la plupart des architectures modernes d'apprentissage profond, grâce à son efficacité éprouvée

Personnes:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisations:University of Toronto

2012Percées

Le succès d'AlexNet

Le tournant pour l'apprentissage profond et l'IA moderne. Le 30 septembre 2012, les résultats du défi ImageNet ont été publiés : AlexNet l'a remporté avec une avance telle que la vision par ordinateur en a été durablement transformée. Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton de l'Université de Toronto ont développé une architecture CNN qui a battu ses concurrents de 10,9 points de pourcentage – une amélioration que la communauté scientifique considère comme remarquable. Avec 60 millions de paramètres et des techniques innovantes telles que les activations ReLU et les couches de dropout, AlexNet a démontré de manière convaincante la supériorité pratique de l'apprentissage profond. Ce fut le moment où une théorie intéressante est devenue une technologie dominante. Yann LeCun l'a qualifié de 'tournant indéniable dans l'histoire de la vision par ordinateur'. L'implémentation basée sur les GPU a ouvert la voie au développement moderne de l'IA.

AlexNet a remporté le défi ImageNet 2012 avec un taux d'erreur de 15,3 % – 10,9 points de pourcentage de mieux que le deuxième participant (26,2 %)

60 millions de paramètres, activations ReLU, couches de dropout et entraînement sur GPU ont établi de nouveaux standards techniques

A démontré de manière convaincante la supériorité pratique de l'apprentissage profond et mis fin au scepticisme envers les réseaux de neurones

A lancé le développement moderne de l'IA et fait des architectures CNN le standard en vision par ordinateur

Personnes:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisations:University of Toronto, ImageNet Challenge, NIPS

2012Percées

Révolution de l'apprentissage profond

L'année qui inaugura l'ère moderne de l'IA, grâce à la convergence de jeux de données massifs, de la puissance des GPU et de nouvelles architectures neuronales. 2012 marque l'avènement de l'apprentissage profond comme technologie d'IA dominante, catalysé par la victoire retentissante d'AlexNet à l'ImageNet. Cette percée fut rendue possible par la convergence de trois évolutions : le jeu de données ImageNet de Fei-Fei Li fournit d'immenses données d'entraînement annotées, le calcul sur GPU atteignit la puissance de calcul nécessaire aux réseaux profonds, et des méthodes d'entraînement améliorées comme les activations ReLU et la régularisation Dropout surmontèrent les anciennes limitations. L'équipe de Geoffrey Hinton — Alex Krizhevsky, Ilya Sutskever et Hinton lui-même — prouva, dans la maison des parents de Krizhevsky avec deux cartes Nvidia, que les réseaux de neurones profonds étaient réellement exploitables. AlexNet s'avéra être un tournant pour la vision par ordinateur. Ce succès suscita un intérêt considérable pour l'apprentissage profond et ouvrit la voie à VGG, ResNet et finalement au développement actuel de l'IA générative.

L'apprentissage profond s'imposa comme technologie d'IA dominante, mettant fin à la prédominance des approches traditionnelles d'apprentissage automatique

La victoire d'AlexNet à l'ImageNet démontra pour la première fois la supériorité pratique des réseaux de neurones profonds

Le calcul sur GPU permit l'entraînement de grands réseaux de neurones et transforma en profondeur les méthodes de recherche en IA

Déclencha des investissements massifs dans la recherche en apprentissage profond et l'adoption industrielle des architectures neuronales

Personnes:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organisations:University of Toronto, NYU, University of Montreal

2013Publications

Word2Vec : les mots comme vecteurs

La transformation de la représentation des mots par des espaces vectoriels sémantiques. Le 16 janvier 2013, Tomas Mikolov et son équipe chez Google ont publié l'article fondateur 'Efficient Estimation of Word Representations in Vector Space'. Word2Vec a transformé le NLP en représentant les mots sous forme de vecteurs denses et de faible dimension (typiquement 100 à 300 dimensions), capturant les relations sémantiques et syntaxiques - une rupture avec les immenses vecteurs one-hot creux des méthodes précédentes. Les deux variantes architecturales CBOW (Continuous Bag of Words) et Skip-Gram ont appris à partir de grands corpus de texte que des mots similaires apparaissent dans des contextes similaires. Le célèbre exemple illustrait l'arithmétique vectorielle : roi - homme + femme = reine. Avec plus de 49 000 citations, le travail de Mikolov est devenu l'un des articles NLP les plus influents. Word2Vec a posé les bases de toutes les techniques d'embedding modernes et a permis le raisonnement sémantique dans les espaces vectoriels. Cette innovation a ouvert la voie aux architectures Transformer et aux Large Language Models modernes.

Premières représentations vectorielles denses et de faible dimension des mots avec des relations sémantiques

Schémas sémantiques et syntaxiques par arithmétique vectorielle : roi - homme + femme = reine

A permis le raisonnement analogique dans les espaces vectoriels grâce à la similarité cosinus et aux métriques de distance

A posé les bases des techniques d'embedding modernes et des Large Language Models basés sur les Transformers

Personnes:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisations:Google, Google Research

2013Publications

VAE : autoencodeurs variationnels

Le développement de modèles génératifs probabilistes par modélisation de l'espace latent. Le 20 décembre 2013, Diederik Kingma et Max Welling ont publié l'article 'Auto-Encoding Variational Bayes'. Les VAE relient des réseaux encodeurs et décodeurs par un espace latent probabiliste - typiquement une distribution gaussienne multivariée. Contrairement aux autoencodeurs déterministes, l'encodeur représente les données sous forme de distributions plutôt que de points isolés, ce qui permet l'interpolation continue et la génération de données. Le Reparameterization Trick rend l'aléatoire différentiable en tant qu'entrée du modèle et permet l'optimisation par descente de gradient standard. Dans leurs expériences, les VAE ont généré des chiffres manuscrits (MNIST) et de petites images de visages (Frey Faces) - encore flous, mais constituant une preuve de faisabilité de l'inférence variationnelle. Ce travail a posé les bases de l'IA générative moderne et a influencé les approches probabilistes ultérieures jusqu'aux Diffusion Models.

Inférence variationnelle pour l'approximation efficace de distributions a posteriori intractables dans des variables latentes continues

L'espace latent probabiliste permet l'interpolation continue et la génération de nouveaux points de données

Liaison fondatrice entre l'architecture autoencodeur et la modélisation générative probabiliste scalable par inférence variationnelle amortie

Architecture encodeur-décodeur avec Reparameterization Trick pour un aléatoire différentiable

Personnes:Diederik P. Kingma, Max Welling

Organisations:University of Amsterdam

2014Publications

Adam : l'optimiseur standard de l'apprentissage profond

Pour qu'un réseau de neurones apprenne, un optimiseur doit ajuster ses millions de paramètres étape par étape dans la bonne direction. En 2014, Diederik Kingma et Jimmy Ba présentèrent une méthode qui devint rapidement la plus utilisée du secteur : Adam, un nom dérivé de l'expression anglaise Adaptive Moment Estimation (et non un acronyme). L'astuce d'Adam consiste à maintenir un taux d'apprentissage propre et automatiquement ajusté pour chaque paramètre. Pour cela, il combine deux idées éprouvées — la quantité de mouvement (momentum), qui conserve la direction passée, et les tailles de pas adaptatives à la manière de RMSProp. Le résultat : les réseaux s'entraînent de façon robuste, sans tâtonnements laborieux sur le taux d'apprentissage. L'article est devenu l'un des plus cités de la recherche en IA. Pour être rigoureux : Adam n'est pas une panacée. Dans certains cas, le plus simple SGD généralise mieux sur de nouvelles données. De plus, Adam s'appuie sur des prédécesseurs comme AdaGrad et RMSProp, et des variantes ultérieures comme AdamW (2017) ont dû corriger les faiblesses de l'original.

En 2014, Diederik Kingma et Jimmy Ba présentèrent l'optimiseur Adam — dont le nom est dérivé d'Adaptive Moment Estimation (pas un acronyme).

Adam ajuste automatiquement le taux d'apprentissage pour chaque paramètre en combinant deux idées : le momentum et les tailles de pas adaptatives (comme dans RMSProp).

Adam est devenu l'outil standard pour l'entraînement des réseaux de neurones — robuste et sans réglage fastidieux du taux d'apprentissage. L'article compte parmi les plus cités de la recherche en IA.

Anti-hype : Adam n'est pas une panacée — dans certains cas, le simple SGD généralise mieux. Il s'appuie sur des prédécesseurs (AdaGrad, RMSProp) ; des variantes comme AdamW (2017) en ont corrigé les faiblesses.

Personnes:Diederik Kingma, Jimmy Ba

2014Jeux de données

MS COCO : l'étalon-or de la vision par ordinateur

En 2014, une équipe de chercheurs de Microsoft Research, de l'Université Cornell et de l'UC Berkeley a considérablement transformé la recherche en vision par ordinateur avec le jeu de données COCO (Common Objects in Context). Contrairement à ImageNet, qui présentait des objets isolés, COCO montrait les objets dans leur contexte naturel, tel qu'ils apparaissent dans le monde réel. Le jeu de données comprenait 2,5 millions d'annotations réparties dans 328 000 images, organisées en 91 catégories selon le papier original, dont 80 constituent le benchmark de détection encore en usage aujourd'hui – toutes des objets du quotidien qu'un enfant de 4 ans pourrait reconnaître. L'innovation résidait dans les détails : des masques de segmentation précis au pixel près, et non de simples boîtes englobantes. COCO a permis pour la première fois une localisation précise des objets et la compréhension de scènes complexes. Le jeu de données est devenu l'étalon-or pour la détection d'objets, la segmentation d'instances et la description d'images. De YOLO à Mask R-CNN – tous les grands modèles de vision par ordinateur sont évalués sur COCO. Les métriques standardisées, comme la précision moyenne (mAP), ont rendu les comparaisons de modèles objectivement possibles. Plus d'une décennie plus tard, COCO reste le benchmark le plus important de la communauté CV. Sans COCO, il n'existerait pas de systèmes modernes de reconnaissance d'objets dans les véhicules autonomes, la surveillance ou la réalité augmentée.

Objets dans leur contexte naturel plutôt qu'isolés – a considérablement transformé la vision par ordinateur, passant de scènes artificielles à des scènes réelles

2,5 millions d'annotations précises au pixel près dans 328 000 images – une qualité et une profondeur d'annotation sans précédent

Étalon-or avec métriques mAP pour des comparaisons objectives de modèles – a défini l'évaluation en vision par ordinateur

Fondement de YOLO, Mask R-CNN et de tous les systèmes CV modernes – des voitures autonomes à la réalité augmentée

Personnes:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisations:Microsoft Research, Cornell University, UC Berkeley

2014Publications

GAN - Réseaux antagonistes génératifs

Ian Goodfellow invente en 2014 les Generative Adversarial Networks (GAN) au cours d'une nuit à Montréal, après une soirée au bar. Son framework fondateur fait s'affronter deux réseaux de neurones dans un jeu minimax : un générateur crée des données artificielles, un discriminateur tente de distinguer les vraies des fausses. Cet entraînement antagoniste transforme fondamentalement l'IA générative. Le GAN originel de 2014 ne produisait que de petites images floues (chiffres et visages notamment), mais a ouvert la voie à la génération d'images photoréalistes. L'article publié sur arXiv en 2014 est devenu l'un des travaux d'IA les plus influents et a fait de Goodfellow une célébrité dans le domaine de l'IA. Des centaines de variantes de GAN ont suivi.

Deux réseaux de neurones dans un jeu minimax : générateur contre discriminateur

Inventé en une nuit en 2014 à Montréal après une soirée au bar – a fonctionné immédiatement

Framework mathématiquement élégant pour l'optimisation antagoniste

Transforme fondamentalement l'IA générative – ouvre la voie à la génération d'images photoréalistes

Personnes:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisations:University of Montreal, NIPS Conference

2014Publications

Le mécanisme d'attention : la clé des LLM modernes

Septembre 2014 : Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio ont publié un article qui allait durablement transformer le monde du traitement automatique du langage naturel. 'Neural Machine Translation by Jointly Learning to Align and Translate' a résolu un problème fondamental des modèles séquence à séquence. Les architectures encodeur-décodeur existantes compressaient chaque phrase d'entrée en un seul vecteur de longueur fixe – un goulot d'étranglement informationnel pour les phrases longues. L'attention de Bahdanau a constitué une avancée importante : au lieu d'un vecteur fixe, le modèle utilisait une attention dynamique sur différentes parties de la phrase d'entrée. Comme l'oeil humain lors de la lecture, l'attention de l'IA saute entre les mots pertinents. Cette 'Additive Attention' est devenue le précurseur conceptuel des systèmes de traitement du langage modernes. Le Transformer ultérieur (2017) s'est appuyé sur l'idée de l'attention, mais a remplacé la variante additive par une Scaled-Dot-Product-Attention plus efficace. Sans le concept d'attention de Bahdanau, pas de Transformer ; sans Transformer, pas de famille GPT ni de BERT. Cette percée s'est produite trois ans avant 'Attention Is All You Need'.

A résolu le goulot d'étranglement encodeur-décodeur : longueurs de phrases variables au lieu d'une compression vectorielle fixe

Attention dynamique au lieu d'encodage statique : focalisation adaptative sur les parties pertinentes de l'entrée

Apprend l'alignement entre les langues : quels mots se correspondent lors de la traduction ? Quelle correspondance précise entre termes source et cible ?

Précurseur conceptuel du Transformer : l'idée d'attention de Bahdanau a ouvert la voie à GPT, BERT et ChatGPT

Personnes:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisations:University of Montreal, Jacobs University Bremen

2014Produits

Lancement d'Amazon Alexa et Echo

Amazon transforme considérablement l'interaction entre l'humain et la technologie en présentant Alexa et l'Echo Smart Speaker le 6 novembre 2014. L'Echo est d'abord lancé uniquement sur invitation et exclusivement pour les membres Prime ; c'est seulement avec la vente publique en 2015 que l'IA vocale devient accessible à un large public de consommateurs et transforme le foyer en environnement à commande vocale. En s'appuyant sur la technologie de synthèse vocale polonaise Ivona acquise le 24 janvier 2013, Amazon crée une expérience utilisateur inédite. L'Echo démarre comme appareil de contrôle musical, mais évolue rapidement en hub universel pour la maison connectée. Cette innovation crée une catégorie de masse et marque le début d'un développement à grande portée sur le marché des enceintes intelligentes, inspirant de nombreux concurrents.

Crée la catégorie de masse des enceintes intelligentes avec disponibilité vocale permanente

Rend l'IA vocale accessible à des millions de consommateurs via la vente publique à partir de 2015 – et pas seulement aux passionnés de technologie

Transforme les salons en centre de maison connectée à commande vocale

Marque le début d'un développement de marché à grande portée – Google, Apple et d'autres suivent

Personnes:Jeff Bezos, Amazon Alexa Team

Organisations:Amazon, Ivona (acquired 2013)

2015Percées

Deep Q-Networks : l'IA apprend à jouer à Atari à partir de pixels

Bien avant qu'AlphaGo ne fasse les manchettes, DeepMind amena en 2015 une IA à apprendre à jouer à des jeux vidéo Atari uniquement à partir des pixels bruts — posant ainsi les bases de l'apprentissage par renforcement profond. En février 2015, l'équipe de Volodymyr Mnih publia dans Nature 'Human-level control through deep reinforcement learning' (un premier précurseur était paru en 2013). Un réseau de neurones ne voyant que l'écran et le score apprit à jouer à 49 jeux Atari différents — avec la même architecture, sans ajustement par jeu. Techniquement, DeepMind combina un réseau de convolution avec le Q-learning, un mécanisme de mémoire d'expérience (Experience Replay, introduit par Lin au début des années 1990) et un réseau cible stabilisateur. Pour être précis : le système atteignit le niveau humain dans environ la moitié des jeux et surpassa toutes les méthodes antérieures dans 43 des 49 jeux — mais il échoua presque complètement dans les jeux à récompenses rares, comme Montezuma's Revenge. Il fut néanmoins la preuve que les réseaux profonds et l'apprentissage par renforcement fonctionnent ensemble à grande échelle — le pont entre le Q-learning des années 1990 et AlphaGo et AlphaZero.

Apprentissage à partir de pixels bruts : le système ne voyait que l'écran et le score — aucune caractéristique construite à la main, aucune connaissance spécifique par jeu.

Réseau de convolution + Q-learning + mémoire d'expérience (Experience Replay, introduit par Lin au début des années 1990) + un réseau cible ajouté en 2015, qui stabilisa l'entraînement.

Anti-hype : niveau humain dans environ la moitié des 49 jeux (43/49 meilleur que les méthodes antérieures) — proche de zéro pour les récompenses rares (Montezuma's Revenge).

Coup d'envoi de l'apprentissage par renforcement profond ; rendit DeepMind célèbre avant AlphaGo — le pont entre le Q-learning et AlphaGo et AlphaZero.

Personnes:Volodymyr Mnih, David Silver, Demis Hassabis

Organisations:Google DeepMind

2015Publications

Batch Normalization : une avancée importante dans l'entraînement des réseaux de neurones

Le 11 février 2015, Sergey Ioffe et Christian Szegedy de Google publient un article qui allait durablement transformer l'entraînement des réseaux de neurones profonds. Leur diagnostic : l'« Internal Covariate Shift » — la distribution des entrées de chaque couche se déplace pendant l'entraînement, rendant l'apprentissage instable. Leur solution élégante : la Batch Normalization normalise les activations de chaque couche pour chaque mini-lot (mini-batch). L'effet était remarquable : environ 14 fois moins d'étapes d'entraînement pour atteindre la même précision. Des taux d'apprentissage plus élevés devenaient possibles, le Dropout souvent superflu, l'initialisation moins critique. La méthode agissait à la fois comme régulariseur et accélérateur. Leur ensemble ImageNet atteignit un taux d'erreur Top-5 de 4,8 % et surpassa ainsi les évaluateurs humains (environ 5,1 %). Fait intéressant : des recherches ultérieures (Santurkar et al. 2018) montrèrent que le mécanisme effectif réside moins dans le contrôle du Covariate Shift que dans un lissage du paysage de perte — l'explication originale est donc aujourd'hui relativisée. Avec plus de 60 000 citations, cet article a inspiré d'innombrables méthodes de normalisation : GroupNorm, LayerNorm, InstanceNorm. Aujourd'hui, la Batch Normalization est standard dans de nombreuses architectures modernes, de ResNet aux CNN récents — les Transformers, en revanche, privilégient généralement la Layer Normalization, elle-même inspirée de ces travaux.

Résout le problème de l'Internal Covariate Shift par la normalisation des activations dans chaque mini-lot

Environ 14 fois moins d'étapes d'entraînement pour la même précision — permet des taux d'apprentissage plus élevés et une initialisation robuste

Double bénéfice : accélération ET régularisation — remplace souvent le Dropout dans les architectures modernes

4,8 % d'erreur Top-5 ImageNet avec l'ensemble — surpasse les évaluateurs humains (environ 5,1 %) et établit un nouveau standard

Personnes:Sergey Ioffe, Christian Szegedy

Organisations:Google Inc., ICML Conference

2015Publications

YOLO : You Only Look Once

La transformation de la détection d'objets en temps réel grâce à une architecture unifiée en une seule passe. Le 8 juin 2015, Joseph Redmon, Santosh Divvala, Ross Girshick et Ali Farhadi ont présenté l'article révolutionnaire « You Only Look Once: Unified, Real-Time Object Detection ». YOLO a brisé le paradigme traditionnel en deux étapes de la détection d'objets et a formulé la détection comme un problème de régression pour des boîtes englobantes spatialement séparées. Un seul réseau de neurones prédit les boîtes englobantes et les probabilités de classe directement à partir d'images complètes en une seule évaluation. Avec 45 fps de performance de base et Fast YOLO à un impressionnant 155 fps, le système était des centaines à des milliers de fois plus rapide que les détecteurs existants. L'architecture basée sur une grille divisait les images en cellules, chaque cellule prédisant les objets en son centre. YOLO a appris des représentations d'objets généralisantes et a significativement surpassé les autres méthodes en transfert de domaine.

45 fps de performance de base, Fast YOLO 155 fps – des centaines à milliers de fois plus rapide que les détecteurs existants

Architecture en une passe formule la détection d'objets comme problème de régression au lieu du paradigme deux étapes

Division en grille de cellules avec prédiction directe des boîtes englobantes et probabilités de classe

A permis la vision par ordinateur en temps réel pour véhicules autonomes, surveillance et applications mobiles

Personnes:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisations:University of Washington, Allen Institute, Facebook AI Research

2015Percées

Développement de DeepMind AlphaGo

En octobre 2015, DeepMind réalise une percée historique : AlphaGo devient le premier système d'IA à battre un joueur de go professionnel sur un plateau complet, sans handicap. AlphaGo s'impose face au champion européen de go Fan Hui sur le score de 5:0, conquérant ainsi le jeu de plateau classique le plus complexe au monde — une décennie plus tôt que prévu par les experts. Le match reste d'abord secret ; le succès n'est rendu public que le 27 janvier 2016, conjointement avec la publication dans la revue Nature. Le go est astronomiquement plus complexe que les échecs — environ un googol (10^100) fois plus de positions légales, avec davantage de configurations de plateau possibles que d'atomes dans l'univers connu. Cette percée remarquable démontre la puissance des réseaux de neurones associés à la recherche arborescente Monte-Carlo.

Première victoire d'un ordinateur sur un joueur de go professionnel sur un plateau complet sans handicap (Fan Hui 5:0)

Approche inédite fondée sur des réseaux de neurones profonds plutôt que sur des algorithmes codés en dur

Maîtrise de 10^170 configurations de plateau possibles — plus que le nombre d'atomes dans l'univers

La percée survint une décennie plus tôt que prévu par les experts en IA

Personnes:Demis Hassabis, David Silver, DeepMind Team

Organisations:DeepMind, Google

2015Produits

Tesla Autopilot : les systèmes d'assistance au grand public

Le 14 octobre 2015, Tesla publia la version logicielle 7.0 et activa pour la première fois l'Autopilot pour les véhicules Model S. Le matériel était déjà installé dans les véhicules depuis septembre 2014 – un an avant l'activation logicielle. Le système utilisait la technologie Mobileye avec une caméra frontale, un radar et 12 capteurs à ultrasons. Les conducteurs pouvaient désormais utiliser le régulateur de vitesse adaptatif, l'assistant de maintien de voie et le stationnement automatique – des fonctionnalités auparavant réservées aux véhicules haut de gamme. Tesla le qualifia de niveau 2 d'autonomie : le système assiste le conducteur sans le remplacer. Musk souligna lors de la mise en service : 'Nous conseillons aux conducteurs de garder les mains sur le volant.' Dès la première année, la flotte Tesla accumula des centaines de millions de kilomètres avec l'Autopilot actif – fin 2016, Tesla rapporta environ 222 millions de miles parcourus. Le concept – préinstaller le matériel et déverrouiller les fonctionnalités via mise à jour logicielle – montra à l'industrie automobile une nouvelle voie. De Mercedes aux fournisseurs purement technologiques comme Mobileye, de nombreux acteurs développèrent leurs propres systèmes d'assistance à la conduite.

La mise à jour logicielle du 14 octobre 2015 activa le matériel préinstallé – un nouveau concept pour l'industrie automobile

Capteurs basés sur Mobileye : caméra frontale, radar et 12 capteurs à ultrasons pour l'assistance à la conduite de niveau 2

Régulateur de vitesse adaptatif, assistant de maintien de voie et stationnement automatique – auparavant des fonctionnalités haut de gamme

Des centaines de millions de kilomètres dès la première année – attestant la maturité grand public des systèmes d'assistance à la conduite

Personnes:Elon Musk, Tesla Engineering Team

Organisations:Tesla Inc., Mobileye

2015Produits

TensorFlow : Le framework ML de Google devient open source

La démocratisation du machine learning grâce au puissant outil interne de Google. Le 9 novembre 2015, Google a rendu TensorFlow open source sous licence Apache 2.0 et a mis son système ML de deuxième génération à la disposition de tous. TensorFlow a remplacé le système interne DistBelief et offrait une vitesse doublée avec une meilleure évolutivité et préparation à la production. En tant que processeur universel de graphes de flux de calcul, TensorFlow permettait non seulement le deep learning mais tout calcul différentiable. L'interface Python flexible, l'auto-différentiation et les optimiseurs de première classe ont significativement amélioré le développement ML. La stratégie de Google : le développement communautaire accélère les progrès de l'IA pour tous. Développé avec plus de 30 auteurs de l'équipe Google Brain, TensorFlow est devenu l'une des principales plateformes ML et a permis à des millions de développeurs de créer des applications IA avancées.

La licence Apache 2.0 a rendu le puissant système ML interne de Google librement accessible à tous

A remplacé DistBelief avec une vitesse doublée et une meilleure évolutivité

L'interface Python flexible et l'auto-différentiation ont significativement amélioré le développement ML

A permis à des millions de développeurs d'accéder à la technologie IA avancée

Personnes:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisations:Google, Google Brain

2015Publications

ResNet : les réseaux résiduels font progresser l'apprentissage profond

La solution au problème de dégradation des réseaux très profonds et la naissance de réseaux ultra-profonds. Le 10 décembre 2015, l'équipe de Kaiming He chez Microsoft Research a publié l'article « Deep Residual Learning for Image Recognition » et a considérablement modifié l'apprentissage profond. Jusqu'alors, la précision de l'entraînement se dégradait lorsqu'on empilait des réseaux toujours plus profonds - non pas principalement à cause de gradients qui disparaissent, mais parce que les réseaux profonds étaient tout simplement plus difficiles à optimiser. ResNet a introduit les connexions résiduelles - des connexions « skip » qui transmettent directement les entrées aux couches ultérieures et permettent l'entraînement de réseaux ultra-profonds. Avec 152 couches, ResNet était huit fois plus profond que VGG, mais moins complexe. Le résultat remarquable : 3,57 % de taux d'erreur Top-5 de l'ensemble de modèles sur ImageNet - un triomphe qui a dominé toutes les catégories. ResNet a remporté la classification, la détection et la localisation ImageNet ainsi que la détection et la segmentation COCO en 2015. Le cadre d'apprentissage résiduel a reformulé les couches comme l'apprentissage de fonctions résiduelles plutôt que de fonctions non référencées. Cette innovation a permis l'entraînement de réseaux de plusieurs centaines de couches.

Les connexions skip transmettent directement les entrées et permettent l'entraînement de réseaux ultra-profonds

152 couches - 8 fois plus profond que VGG mais moins complexe grâce au cadre d'apprentissage résiduel

3,57 % de taux d'erreur Top-5 (ensemble) sur ImageNet, a remporté toutes les catégories ILSVRC et COCO 2015

A établi les connexions résiduelles comme standard pour les architectures modernes d'apprentissage profond

Personnes:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisations:Microsoft Research

2015Jalons

Fondation d'OpenAI

L'organisation qui voulait rendre l'IA accessible à tous - et qui a changé le monde. Le 11 décembre 2015, Sam Altman, Elon Musk et d'autres personnalités éminentes de la tech ont annoncé la fondation d'OpenAI. Avec un milliard de dollars promis - un engagement de financement réparti sur plusieurs années dont seule une fraction a effectivement afflué au départ - et l'objectif de développer une IA générale sûre au bénéfice de toute l'humanité, OpenAI entrait en scène en tant qu'organisation de recherche à but non lucratif. Ce qui a commencé comme une entreprise idéaliste est devenu le laboratoire d'IA le plus influent au monde. En 2019, une filiale à but lucratif a été fondée. Avec GPT-3 et ChatGPT, OpenAI a redéfini ce que l'IA peut accomplir.

Fondée le 11 décembre 2015 à San Francisco

Mission : développer une IA générale sûre au bénéfice de toute l'humanité

Promis : 1 milliard de dollars d'Elon Musk, Peter Thiel, Reid Hoffman et d'autres - un engagement de financement sur plusieurs années, non immédiatement disponible

GPT-1 (2018) et GPT-2 (2019) sont nés encore dans la phase purement non lucrative ; en 2019 a suivi la structure capped-profit, dans laquelle s'inscrivent GPT-3 (2020) et ChatGPT (2022)

Personnes:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisations:OpenAI, Y Combinator

2016Compétitions

AlphaGo bat Lee Sedol

Le moment historique où l'IA a battu pour la première fois un champion du monde dans le jeu de plateau le plus complexe. Du 9 au 15 mars 2016, le DeepMind Challenge Match a eu lieu à Séoul – cinq parties entre Lee Sedol, l'un des meilleurs joueurs de Go au monde, et AlphaGo. Le résultat a étonné le monde : 4:1 pour la machine. En particulier le fameux « Coup 37 » dans la deuxième partie a démontré la créativité de la machine – un coup avec une probabilité de 1:10 000 qui a renversé des siècles de sagesse du Go. AlphaGo combinait le deep learning avec la recherche arborescente Monte Carlo et s'est entraîné à la fois avec des parties humaines et par auto-apprentissage. La réponse de Lee Sedol dans la quatrième partie avec son « Coup divin 78 » a cependant montré que l'intuition humaine peut encore surprendre. Plus de 200 millions de personnes dans le monde ont suivi ces matchs.

AlphaGo a battu Lee Sedol 4:1 et a démontré la supériorité de l'IA dans le jeu de plateau le plus complexe pour la première fois

Le fameux « Coup 37 » avec une probabilité de 1:10 000 a montré la créativité de la machine et a défié les traditions du Go

La combinaison du deep learning et de la recherche arborescente Monte Carlo a permis de maîtriser la complexité du Go

Plus de 200 millions de personnes ont suivi les matchs – un tournant pour la perception publique de l'IA

Personnes:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisations:DeepMind, Google, Korean Baduk Association

2016Publications

XGBoost : Le gradient boosting extrême domine le ML

Le perfectionnement du gradient boosting et la conquête des problèmes de données structurées. Le 9 mars 2016, Tianqi Chen et Carlos Guestrin ont publié sur arXiv l'article XGBoost: A Scalable Tree Boosting System, présenté en août 2016 à la conférence KDD. Développé à partir du projet de doctorat de Chen à l'Université de Washington, XGBoost a significativement amélioré le gradient boosting traditionnel grâce à des optimisations extrêmes : la régularisation L1 et L2 prévenait le surapprentissage, les gradients de second ordre fournissaient une information directionnelle plus précise, et la parallélisation accélérait significativement la construction des arbres. XGBoost a dominé les compétitions de machine learning des années 2010 et est devenu le choix standard des équipes gagnantes sur Kaggle. Au Higgs Boson ML Challenge, Tianqi Chen a remporté un prix spécial et XGBoost a été adopté par de nombreux meilleurs participants, établissant sa dominance pour les données structurées. Le système de boosting d'arbres scalable de bout en bout supporte C++, Java, Python, R et d'autres langages.

Optimisation extrême du gradient boosting avec régularisation L1/L2 et gradients de second ordre

A dominé les compétitions ML des années 2010 et est devenu le choix standard des équipes gagnantes Kaggle

Construction d'arbres parallélisée et architecture scalable de bout en bout pour grands datasets

Algorithme de référence pour les données structurées en parallèle de la révolution du deep learning

Personnes:Tianqi Chen, Carlos Guestrin

Organisations:University of Washington

2016Produits

Google Assistant : la stratégie IA en priorité devient réalité

Le 18 mai 2016, Sundar Pichai a présenté Google Assistant lors de la Google I/O – la réponse de Google à Siri et Alexa. Après des années de retard dans le domaine des assistants vocaux, Google a rattrapé son retard avec force. L'Assistant était bien plus qu'une mise à niveau de Google Now – il était le fondement de la stratégie 'IA en priorité' de Pichai. 'Nous voulons que les utilisateurs aient un dialogue continu avec Google', a expliqué Pichai. 'Nous construisons pour chaque utilisateur son propre Google individuel.' L'Assistant devait devenir une 'expérience ambiante' s'étendant à tous les appareils – des smartphones à Google Home en passant par les voitures. Contrairement aux concurrents basés sur des commandes, Google a misé sur la conversation naturelle et la compréhension du contexte. Dans un premier temps, l'Assistant n'était qu'annoncé ; son premier foyer est devenu quelques mois plus tard l'application de messagerie Allo, suivi par l'enceinte Google Home fin 2016. Le lancement a marqué l'entrée sérieuse de Google dans le développement de l'IA vocale et a posé les bases de la domination actuelle de l'entreprise dans le domaine de l'IA.

Conversation naturelle plutôt que commandes – 'dialogue continu' comme objectif pour l'IA vocale

Fondement de la stratégie IA en priorité de Pichai – 'Google individuel' pour chaque utilisateur

Vision d'expérience ambiante – interaction IA fluide sur tous les appareils et toutes les plateformes

La remontée de Google contre Siri et Alexa – du suiveur à l'ambition de jouer en tête dans l'IA vocale

Personnes:Sundar Pichai, Google Assistant Team

Organisations:Google Inc., Google I/O Conference

2016Organisations

Partnership on AI : les géants de la tech s'unissent

Une alliance notable des principales entreprises technologiques pour un développement responsable de l'IA. Le 28 septembre 2016, Amazon, Facebook, Google, DeepMind, IBM et Microsoft ont fondé le « Partnership on Artificial Intelligence to Benefit People and Society » - une coalition inhabituelle d'anciens concurrents. Avec Eric Horvitz (Microsoft Research) et Mustafa Suleyman (DeepMind) comme Co-Présidents par intérim, le Partnership a démarré avec un conseil d'administration composé uniquement d'entreprises et a annoncé son intention de le transformer en un organe paritaire comportant autant de membres non-corporatifs. La mission comprend la recherche et les meilleures pratiques en matière d'éthique, d'équité, de transparence, de protection des données et de collaboration humain-IA. À noter : Apple était d'abord absent, mais a rejoint l'initiative en 2017. Le Partnership renonce délibérément aux activités de lobbying et se concentre sur la coopération en matière de recherche. Cette initiative a marqué le début d'une autorégulation industrielle structurée dans le développement de l'IA.

Alliance notable d'Amazon, Facebook, Google, DeepMind, IBM et Microsoft pour l'éthique de l'IA

Mission : l'IA au bénéfice des personnes et de la société grâce à l'éthique, l'équité et la transparence

Conseil paritaire prévu : au départ composé d'entreprises, puis complété par autant de membres non-corporatifs

Accent sur la coopération en matière de recherche et les meilleures pratiques sans activités de lobbying

Personnes:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisations:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Percées

La reconnaissance vocale atteint le niveau humain

Le 18 octobre 2016, Microsoft réalisa une exploit historique : son système de reconnaissance vocale fut la première entreprise à atteindre les performances humaines sur le benchmark Switchboard pour la parole conversationnelle. Après 25 ans de recherche, l'objectif était atteint – un taux d'erreur de mots de 5,9 %, aussi bon que des transcripteurs professionnels sur cette tâche. (En 2017, Microsoft corrigea le taux de référence humain à 5,1 % et dut de nouveau le rattraper.) Xuedong Huang, directeur scientifique de la reconnaissance vocale chez Microsoft, annonça : 'Nous avons atteint la parité humaine. C'est une réalisation historique.' Le système utilisa les dernières technologies d'apprentissage profond : réseaux de neurones convolutifs, architectures LSTM et modèles de langage neuronaux avec vecteurs de mots continus. Sa force résidait dans la combinaison systématique de composants éprouvés – un ensemble de modèles acoustiques CNN et BLSTM, une adaptation au locuteur par i-vector et un rescoring par modèle de langage. Cela fut rendu possible par la convergence de trois évolutions : des ensembles de données volumineux (Switchboard Corpus), le calcul GPU et des méthodes d'entraînement améliorées. Cette réalisation ouvrit la voie aux assistants vocaux modernes – mais elle n'atteste la parité que pour une tâche de transcription étroitement définie, et non les capacités cognitives humaines générales.

Taux d'erreur de mots de 5,9 % atteignant le niveau humain sur Switchboard : aussi précis que des transcripteurs professionnels

Jalon historique : taux d'erreur le plus bas jamais mesuré dans le standard Switchboard

CNN + LSTM + modèles de langage neuronaux : combinaison systématique des dernières technologies d'apprentissage profond

Objectif de recherche de 25 ans atteint : parité humaine sur une tâche de transcription étroitement définie

Personnes:Xuedong Huang, Microsoft AI Research Team

Organisations:Microsoft AI and Research, Switchboard Corpus

2017Réglementation

Principes d'Asilomar : la communauté scientifique se fixe des garde-fous

Début 2017, bien avant ChatGPT, d'éminents chercheurs en IA se réunirent à Asilomar, sur la côte californienne — au même endroit où des biologistes avaient débattu en 1975 des risques du génie génétique. Le Future of Life Institute avait organisé cette conférence sur l'IA bénéfique. Il en résulta les 23 principes d'IA d'Asilomar : des lignes directrices portant sur la recherche, sur des valeurs telles que la sécurité et la transparence, et sur les risques à long terme. Plus d'un millier de spécialistes de l'IA et des signataires de renom comme Stephen Hawking et Elon Musk apportèrent leur soutien. Ce fut l'une des premières tentatives de la communauté scientifique de se fixer elle-même des garde-fous — des années avant que les gouvernements ne s'emparent du sujet. Pour être rigoureux : ces principes étaient volontaires et non contraignants. Ils ont nourri le débat, mais n'avaient aucune force juridique.

Janvier 2017 : le Future of Life Institute rassembla d'éminents chercheurs en IA à Asilomar (Californie) — au site de la conférence historique sur le génie génétique de 1975.

Résultat : les 23 principes d'IA d'Asilomar sur la recherche, les valeurs (sécurité, transparence) et les risques à long terme — l'une des premières grandes déclarations d'engagement volontaire de la communauté.

Plus d'un millier de chercheurs en IA et autres signataires (dont Stephen Hawking, Elon Musk) — un consensus précoce que l'IA doit servir le bien commun.

Anti-hype : les principes étaient volontaires et non contraignants — fondateurs comme cadre de discussion, mais sans mécanisme d'application.

Personnes:Stephen Hawking, Elon Musk

Organisations:Future of Life Institute

2017Publications

MobileNet – l'IA pour smartphones

En avril 2017, Google Research transforme considérablement l'IA mobile avec MobileNet, l'un des premiers modèles d'apprentissage profond conçu spécifiquement pour les smartphones, l'IoT et les systèmes embarqués (des prédécesseurs comme SqueezeNet existaient déjà). Grâce à son architecture innovante de convolutions séparables en profondeur (Depthwise Separable Convolutions), MobileNet réduit la charge de calcul à environ un huitième de celle des convolutions classiques, à efficacité égale. Cette efficacité remarquable – environ neuf fois moins d'opérations de calcul pour des noyaux 3×3 – ouvre la voie au traitement d'images en temps réel sur appareils mobiles. MobileNet démocratise la vision par ordinateur pour des milliards de smartphones et établit l'Edge Computing comme nouveau paradigme de l'IA, au-delà des solutions basées sur le cloud.

L'un des premiers modèles d'apprentissage profond conçu spécifiquement pour les smartphones et les appareils IoT

Convolutions séparables en profondeur : environ neuf fois moins de charge de calcul à efficacité égale

Permet le traitement par IA directement sur les appareils plutôt que dans le cloud – l'Edge Computing

Réduit la charge de calcul à environ un huitième de celle des convolutions classiques, à précision comparable

Personnes:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisations:Google, Google Research

2017Publications

Publication de l'article de recherche RLHF

La technique qui a rendu ChatGPT possible – des années avant la percée. En juin 2017, des chercheurs d'OpenAI et DeepMind ont publié l'article 'Deep Reinforcement Learning from Human Preferences'. L'idée : Au lieu d'entraîner les systèmes d'IA avec des fonctions de récompense parfaitement définies, ils apprennent directement à partir du retour humain. Les humains évaluent différentes sorties de l'IA, et le système apprend quel comportement est préféré. Cette méthode, plus tard connue sous le nom de RLHF (Reinforcement Learning from Human Feedback), est devenue la technologie clé derrière ChatGPT et d'autres modèles de langage modernes. Le RLHF a rendu possible de rendre les systèmes d'IA plus utiles, honnêtes et sûrs.

Article 'Deep Reinforcement Learning from Human Preferences' publié en juin 2017

Idée centrale : L'IA apprend des préférences humaines au lieu de récompenses prédéfinies

Recherche conjointe d'OpenAI et DeepMind, incluant Paul Christiano et Dario Amodei

Le RLHF est devenu la technologie clé pour ChatGPT et les assistants IA modernes

Personnes:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisations:OpenAI, DeepMind

2017Publications

Transformer : 'Attention Is All You Need'

Le 12 juin 2017, huit chercheurs – majoritairement chez Google, dont un stagiaire de l'Université de Toronto – publièrent sur arXiv le papier 'Attention Is All You Need' – la base des grands modèles de langage modernes. Ashish Vaswani, Noam Shazeer et leurs collègues proposèrent une nouvelle architecture : le Transformer. Contrairement aux modèles de séquences précédents, le Transformer renonce aux couches récurrentes et convolutives. Il utilise à la place de purs mécanismes d'attention. L'auto-attention capture les relations entre toutes les positions d'une séquence en parallèle – plus besoin de traitement séquentiel. L'attention multi-têtes utilise plusieurs têtes d'attention parallèles qui apprennent différents aspects des relations entre les mots. Sur WMT 2014, le modèle atteignit 28,4 BLEU pour l'anglais-allemand et 41,8 BLEU pour l'anglais-français – de nouveaux records. L'architecture se révéla d'une grande portée : GPT, BERT, ChatGPT et de nombreux autres modèles reposent sur des variantes du Transformer. Avec bien plus de 100 000 citations – en constante augmentation – ce papier figure parmi les plus cités du XXIe siècle.

Le mécanisme d'auto-attention capture simultanément les dépendances entre toutes les positions de la séquence

L'abandon de la récurrence permet un traitement parallèle – nettement plus rapide que les modèles séquentiels

28,4 BLEU WMT anglais-allemand, 41,8 BLEU anglais-français – nouveaux standards de traduction automatique

Devenu la base de tous les grands modèles de langage modernes : GPT, BERT, ChatGPT reposent sur l'architecture Transformer

Personnes:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisations:Google Brain, Google Research

2017Réglementation

Le plan directeur de l'IA en Chine : la bataille pour le leadership mondial

Le 20 juillet 2017, le Conseil des affaires d'État de Chine annonce le 'New Generation Artificial Intelligence Development Plan' — la première stratégie nationale globale de l'IA d'une telle ampleur. L'objectif : devenir la puissance mondiale de l'IA d'ici 2030. Le plan en trois étapes était parfaitement clair : compétitif au niveau mondial en 2020, niveau de pointe mondial dans certains domaines et grandes avancées dans la théorie fondamentale de l'IA en 2025, puis superpuissance de l'IA n° 1 avec un résultat industriel de 1 000 milliards de yuans en 2030. La Chine a explicitement reconnu l'IA comme un 'point de focalisation de la concurrence internationale' et une 'technologie stratégique pour la sécurité nationale'. Les investissements sont considérables — des dizaines de milliards de dollars affluent dans la recherche, l'infrastructure et la formation des talents. Le plan englobe des applications militaires et civiles : des armes autonomes aux villes intelligentes. Les principes de l'open source doivent favoriser la coopération internationale, tandis que la Chine poursuit simultanément son indépendance technologique. Cette stratégie a considérablement modifié le paysage mondial de l'IA et a déclenché une vague d'initiatives nationales en matière d'IA aux États-Unis et en Europe.

Première stratégie nationale de l'IA d'une telle ampleur : planification gouvernementale coordonnée pour le leadership technologique mondial

Calendrier en trois étapes : compétitif en 2020, leader mondial dans certains domaines en 2025, superpuissance de l'IA en 2030

Investissement à l'échelle des milliards de yuans : financement public massif dans la recherche en IA, l'infrastructure et la formation de talents spécialisés

Ambition de leadership mondial : coup d'envoi de la course mondiale à l'IA entre la Chine, les États-Unis et l'Europe

Personnes:State Council of China, Chinese AI Research Community

Organisations:State Council of China, Chinese Academy of Sciences

2017Réglementation

Déclaration de Montréal pour une IA responsable

La première initiative internationale à élaborer des principes éthiques pour l'IA par le biais d'une participation citoyenne démocratique. Le 3 novembre 2017, l'Université de Montréal a lancé le processus de co-construction de la Déclaration de Montréal pour un développement responsable de l'IA. Le Forum sur le développement socialement responsable de l'IA a réuni plus de 400 participants issus de différents secteurs et disciplines. Au cours de 15 ateliers délibératifs sur trois mois, plus de 500 citoyens, experts et parties prenantes ont débattu des enjeux sociaux de l'IA. La déclaration publiée le 4 décembre 2018 présente 10 principes et 59 recommandations fondés sur des valeurs telles que le bien-être, l'autonomie, la justice, la vie privée et la démocratie. Avec plus de 500 signataires, la Déclaration de Montréal a établi une approche participative de la gouvernance de l'IA et a influencé les initiatives internationales ultérieures en faveur d'un développement responsable de l'IA.

10 principes éthiques et 59 recommandations pour un développement responsable de l'IA, dotés d'une légitimité démocratique

Accent mis sur le bien-être, l'autonomie, la justice, la vie privée, la démocratie et la durabilité écologique

Initiée par l'Université de Montréal avec plus de 400 participants issus de différents secteurs

Plus de 500 signataires ; a influencé la gouvernance internationale de l'IA et les initiatives de régulation ultérieures

Personnes:Yoshua Bengio, Montreal AI Ethics Team

Organisations:Université de Montréal, Montreal Institute for Learning Algorithms

2017Percées

AlphaZero maîtrise trois jeux

La naissance d'une IA de jeu universelle par apprentissage autonome pur. En décembre 2017, DeepMind a présenté AlphaZero – un système qui a maîtrisé trois jeux de stratégie entièrement différents sans aucune connaissance préalable : les échecs, le shogi et le go. L'approche tabula rasa signifiait : aucune base de données d'ouvertures, aucune stratégie humaine, uniquement les règles du jeu comme point de départ. En 24 heures, AlphaZero a atteint des performances surhumaines – aux échecs en seulement 4 heures, au shogi en 2 heures. Dans le match de 100 parties contre Stockfish, il a remporté 28 parties, n'en a perdu aucune et a obtenu 72 nuls. La particularité résidait dans son comportement de recherche efficace : tandis que Stockfish évalue 60 millions de positions par seconde, AlphaZero n'en analyse que 60 000 – mais de manière bien plus ciblée grâce à son réseau de neurones profond. Cette performance a démontré de manière convaincante la généralisabilité et l'indépendance de domaine de l'apprentissage par renforcement pur.

A appris trois jeux complexes entièrement de zéro – avec uniquement les règles du jeu, sans connaissances humaines préalables ni bases de données

A atteint des performances surhumaines aux échecs (4h), au shogi (2h) et au go (~8h) par pur jeu en solo

A appris par des millions de parties en solo et l'apprentissage par renforcement sans entrées externes

N'évaluait que 60 000 positions par seconde contre 60 millions pour Stockfish – mais de manière bien plus ciblée

Personnes:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisations:DeepMind, Google, Science Magazine, ArXiv

2018Jalons

Prix Turing pour le Deep Learning

En 2019, l'IA reçut sa plus haute distinction en informatique : le prix A.M. Turing 2018 — souvent qualifié de Nobel de l'informatique — fut décerné à Yoshua Bengio, Geoffrey Hinton et Yann LeCun, les trois parrains du Deep Learning. L'ACM récompensa leurs percées conceptuelles et techniques qui ont fait des réseaux de neurones profonds un élément central de l'informatique — de la rétropropagation aux réseaux convolutifs en passant par les idées qui portèrent la percée de 2012. La distinction fut la consécration officielle tardive d'une révolution qui avait été longtemps moquée. Pour une évaluation honnête : le Deep Learning a de nombreux pères et mères — des chercheurs comme Jürgen Schmidhuber ont publiquement critiqué le fait que des contributions importantes n'étaient pas suffisamment reconnues. Le prix honore le rôle central du trio, non une paternité exclusive.

Yoshua Bengio, Geoffrey Hinton et Yann LeCun — les trois parrains du Deep Learning — pour les percées à l'origine des réseaux de neurones modernes.

Le prix A.M. Turing (annoncé en mars 2019) est la plus haute distinction en informatique ; les réseaux de neurones profonds y furent reconnus comme élément central de l'informatique.

La consécration officielle de la révolution du Deep Learning de 2012 — et précurseur du prix Nobel de physique 2024 pour la même ligne de recherche.

Anti-hype : le Deep Learning a de nombreux contributeurs (notamment Schmidhuber, qui critiqua publiquement) ; le prix honore le rôle central du trio, non une paternité exclusive.

Personnes:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organisations:ACM

2018Publications

GPT-1 : naissance du pré-entraînement génératif

Le fondement de tous les grands modèles de langage modernes grâce au pré-entraînement non supervisé. Le 11 juin 2018, Alec Radford et son équipe d'OpenAI ont publié l'article fondateur 'Improving Language Understanding by Generative Pre-Training'. Ce travail a combiné pour la première fois l'architecture Transformer avec le pré-entraînement non supervisé et a établi le paradigme en deux étapes : d'abord un entraînement génératif sur de grands corpus de textes, puis un ajustement fin (fine-tuning) pour des tâches spécifiques. Avec 117 millions de paramètres et un entraînement sur le jeu de données BooksCorpus comprenant plus de 7 000 livres non publiés de genres variés, GPT-1 a prouvé que le Transfer Learning fonctionne pour la compréhension du langage. L'architecture Transformer à décodeur uniquement en douze couches, avec attention masquée sur soi-même, a posé le modèle pour toute la série GPT. Cette innovation a transformé l'architecture Transformer de 2017 en un outil pratique pour de nombreuses tâches de traitement du langage naturel et a fondé l'ère des grands modèles de langage.

A établi le pré-entraînement non supervisé sur de grands corpus de textes comme base des modèles de langage

A prouvé l'application réussie du Transfer Learning pour de nombreuses tâches de traitement du langage naturel

L'architecture Transformer à décodeur uniquement en douze couches est devenue le modèle pour toute la série GPT

A fondé l'ère des grands modèles de langage et le paradigme pré-entraînement/ajustement fin

Personnes:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisations:OpenAI

2018Publications

BERT améliore considérablement la compréhension du langage

Une avancée importante des modèles de langage bidirectionnels et la naissance du NLP moderne. En octobre 2018, Jacob Devlin et son équipe chez Google Research publient l'article sur BERT — Bidirectional Encoder Representations from Transformers. Cette innovation transforme considérablement le traitement du langage naturel en entraînant pour la première fois des représentations bidirectionnelles profondes à partir de textes non annotés. Contrairement aux modèles précédents, BERT prend en compte le contexte gauche et droit simultanément dans toutes les couches. Le résultat était remarquable : BERT atteignit de nouveaux records dans onze tâches de NLP et améliora le score GLUE de 7,7 points de pourcentage pour atteindre 80,5 %. Le pré-entraînement lui-même exigea certes plusieurs jours sur de nombreux TPU — mais la publication en open source démocratisa la technologie de pointe : le modèle pré-entraîné pouvait être ajusté (fine-tuning) à une tâche spécifique en environ 30 minutes sur un seul Cloud-TPU. BERT établit le paradigme pré-entraînement–fine-tuning qui constitue aujourd'hui la base de tous les grands modèles de langage.

Premier modèle de langage bidirectionnel profond prenant en compte le contexte gauche et droit simultanément dans toutes les couches

Atteignit de nouveaux records dans 11 tâches de NLP et améliora le score GLUE de 7,7 points de pourcentage pour atteindre 80,5 %

La publication en open source a permis le fine-tuning du modèle pré-entraîné sur des tâches spécifiques en environ 30 minutes sur un seul Cloud-TPU

Établit le paradigme pré-entraînement–fine-tuning pour tous les modèles de langage modernes

Personnes:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisations:Google Research, Google AI Language

2019Publications

GPT-2 - "Trop Dangereux pour être Publié"

OpenAI publie GPT-2 en février 2019 mais prend la décision surprenante de retenir le modèle complet de 1,5 milliard de paramètres - affirmant qu'il est 'trop dangereux' pour une publication complète. Cette décision sans précédent divise la communauté IA : les partisans louent la position responsable étant donné les risques d'abus comme les fausses nouvelles et le spam automatisé. Les critiques accusent OpenAI de 'fermer' la recherche et d'alimenter des peurs infondées. Après neuf mois sans preuve solide d'abus, OpenAI publie le modèle complet, marquant un tournant dans le débat sur le développement responsable de l'IA.

Décision sans précédent : OpenAI retient le modèle complet de 1,5B paramètres

Craintes de fausses nouvelles, usurpation d'identité et spam automatisé sur les réseaux sociaux

Communauté IA divisée : progrès éthique vs. accusation de fermeture de la recherche

Publication complète après 9 mois faute de preuves d'abus

Personnes:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisations:OpenAI

2019Compétitions

AlphaStar atteint le niveau Grand Maître

La conquête de la stratégie en temps réel la plus complexe par l'intelligence artificielle. En juillet et août 2019, AlphaStar de DeepMind a joué anonymement en mode classé sur Battle.net ; le 30 octobre 2019, DeepMind a rapporté dans la revue scientifique Nature que le système était devenu la première IA à atteindre le niveau Grand Maître dans StarCraft II – un jeu considéré comme trop complexe pour les machines. AlphaStar se classait parmi les 0,2 % meilleurs joueurs actifs sur Battle.net et maîtrisait les trois races : Protoss, Terran et Zerg. Auparavant, AlphaStar avait déjà battu les joueurs professionnels Grzegorz 'MaNa' Komincz et Dario 'TLO' Wünsch, chacun sur le score de 5:0. La particularité résidait dans l'architecture d'apprentissage par renforcement multi-agents, qui entraînait différentes stratégies et contre-stratégies dans une ligue. Avec en moyenne 280 actions par minute, AlphaStar était même en dessous des professionnels humains, mais a démontré une exécution plus précise. Cette performance a marqué un jalon pour l'IA dans les jeux vidéo et la prise de décision en temps réel.

AlphaStar a atteint le niveau Grand Maître avec les trois races de StarCraft II et s'est classé parmi les 0,2 % meilleurs joueurs actifs sur Battle.net

A battu les joueurs professionnels MaNa et TLO, chacun sur le score de 5:0, avant le succès public

Apprentissage par renforcement multi-agents avec entraînement basé sur une ligue de différentes stratégies et contre-stratégies

Première IA à maîtriser un jeu esports populaire sans restrictions au plus haut niveau

Personnes:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisations:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publications

T5 - Text-to-Text Transfer Transformer

Google AI a significativement transformé le NLP en octobre 2019 avec T5, le Text-to-Text Transfer Transformer, qui transforme toutes les tâches de traitement du langage naturel en un format unifié « texte-vers-texte ». Avec l'approche innovante « Tout est Texte », la traduction, le résumé, les questions-réponses et la classification peuvent être traités avec le même modèle, la même fonction de perte et les mêmes hyperparamètres. T5 introduit le dataset complet C4 et atteint des performances proches de l'humain sur les benchmarks SuperGLUE. En tant que modèle de fondation avec jusqu'à 11 milliards de paramètres, T5 ouvre la voie aux grands modèles de langage modernes et établit le paradigme unifié texte-vers-texte comme standard.

Approche unifiée innovante : Toutes les tâches NLP comme problèmes texte-vers-texte

« Tout est Texte » - le paradigme unifie traduction, résumé, Q&R

Établit le paradigme des modèles de fondation pour les grands modèles de langage modernes

Introduit le dataset complet C4 - Colossal Clean Crawled Corpus

Personnes:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisations:Google AI, Google Research

2020Publications

RAG : les modèles de langage consultent d'abord

Un modèle de langage ne sait que ce qui se trouvait dans son entraînement — et invente, en cas de doute, quelque chose avec assurance. En 2020, Patrick Lewis et ses collègues chez Facebook AI montrèrent une voie de sortie : la Retrieval-Augmented Generation (RAG), ou génération augmentée par récupération. L'idée est d'une simplicité séduisante. Avant que le modèle ne réponde, il cherche dans une source de connaissances externe — comme Wikipedia — les passages pertinents et fonde ensuite sa réponse sur ce qu'il a trouvé. Ainsi, les connaissances peuvent être mises à jour sans réentraîner le modèle, et la réponse devient vérifiable. Après le succès de ChatGPT, RAG devint la méthode standard pour connecter les modèles de langage à des sources actuelles et vérifiables — la base de presque toutes les applications permettant de dialoguer avec ses propres documents. Pour une évaluation honnête : RAG réduit les hallucinations, mais ne les élimine pas. Si ce qui est recherché est erroné ou si le modèle mal interprète le résultat, il continuera à se tromper. Il fournit des références, non une véritable compréhension — et s'appuie sur des recherches antérieures en récupération d'information.

En 2020, Patrick Lewis et ses collègues chez Facebook AI présentèrent la méthode Retrieval-Augmented Generation (RAG).

Au lieu de répondre uniquement de mémoire, le modèle de langage cherche d'abord des documents pertinents (par exemple dans Wikipedia) et fonde sa réponse sur ceux-ci.

RAG devint après ChatGPT la méthode standard pour connecter les modèles de langage à des sources actuelles et vérifiables — base de presque toutes les applications permettant de dialoguer avec ses propres documents.

Anti-hype : RAG réduit les hallucinations, mais ne les élimine pas — si ce qui est recherché est erroné ou mal compris, le modèle se trompe aussi. Il fournit des références, non une véritable compréhension, et s'appuie sur des recherches antérieures en récupération d'information (ex. DPR, REALM).

Personnes:Patrick Lewis

Organisations:Facebook AI Research, University College London, New York University

2020Publications

Lois de mise à l'échelle des réseaux de neurones

En janvier 2020, Jared Kaplan, Sam McCandlish, Tom Brown et Dario Amodei découvrent les lois mathématiques fondamentales de la mise à l'échelle des réseaux de neurones, transformant considérablement le développement des grands modèles de langage. Les travaux fondateurs d'OpenAI et de l'Université Johns Hopkins montrent que les performances suivent des lois de puissance en fonction de la taille du modèle, du volume de données et de la puissance de calcul – avec des tendances observées sur sept ordres de grandeur. Ces équations élégantes permettent pour la première fois de prédire systématiquement l'allocation des ressources et établissent le paradigme « Plus grand, c'est meilleur ». Ces bases mathématiques ont directement conduit au succès de GPT-3 et ont transformé le développement de l'IA, passant d'une approche expérimentale par essais et erreurs à une mise à l'échelle scientifiquement fondée et prévisible. La règle d'allocation concrète de Kaplan – augmenter fortement la taille du modèle, mais peu le volume de données – a été corrigée en 2022 par le papier Chinchilla de DeepMind : une mise à l'échelle optimale en calcul exige bien plus de données d'entraînement qu'initialement recommandé.

Découverte de lois de puissance fondamentales sur sept ordres de grandeur

Des équations élégantes permettent des prévisions systématiques de l'allocation des ressources ; précisées en 2022 par Chinchilla

Établit le paradigme « Plus grand, c'est meilleur » pour le développement systématique des grands modèles de langage

Transforme le développement de l'IA des essais et erreurs vers une méthodologie scientifique

Personnes:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisations:OpenAI, Johns Hopkins University

2020Publications

GPT-3 : le modèle à 175 milliards de paramètres

La percée vers l'apprentissage en quelques exemples (Few-Shot Learning) et les capacités émergentes de l'IA. Le 28 mai 2020, l'équipe d'OpenAI autour de Tom Brown a présenté l'article important 'Language Models are Few-Shot Learners' – GPT-3 avec 175 milliards de paramètres, plus de 100 fois plus grand que GPT-2. La mise à l'échelle a révélé des capacités émergentes : le modèle pouvait résoudre de nouvelles tâches avec seulement quelques exemples, sans ajustement fin. Des traductions aux devinettes lexicales en passant par l'arithmétique à 3 chiffres, GPT-3 a démontré une polyvalence remarquable. Des évaluateurs humains pouvaient à peine distinguer les articles de presse générés par GPT-3 des vrais. Par le seul In-Context Learning, GPT-3 s'est approché de l'état de l'art sur certaines sous-tâches de SuperGLUE – sur le benchmark global, il est toutefois resté bien en deçà des meilleurs modèles ajustés (environ 89 points) avec environ 71,8 points. Les 31 chercheurs d'OpenAI (Tom Brown et 30 co-auteurs) ont prouvé que la mise à l'échelle massive des paramètres peut faire émerger des capacités qualitativement nouvelles. GPT-3 a posé les bases de ChatGPT et de l'ère moderne des LLM.

175 milliards de paramètres – plus de 100 fois plus grand que GPT-2 avec d'importants effets de mise à l'échelle

Capacités Few-Shot émergentes sans ajustement fin : nouvelles tâches résolubles avec seulement quelques exemples

A montré des capacités émergentes : traduction, arithmétique, génération de texte au niveau humain

A posé les bases de ChatGPT et a commercialisé les grands modèles de langage via un accès par API

Personnes:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisations:OpenAI

2020Publications

DDPM : Modèles de diffusion établis

La fondation mathématique de la génération d'images moderne par des processus de débruitage. En juin 2020, Jonathan Ho, Ajay Jain et Pieter Abbeel ont publié l'article influent « Denoising Diffusion Probabilistic Models » – une classe de modèles à variables latentes inspirés de la thermodynamique hors équilibre. Leur innovation résidait dans une borne variationnelle pondérée et la connexion entre les modèles de diffusion et le score matching de débruitage avec la dynamique de Langevin. Les résultats étaient impressionnants : score FID de 3,17 sur CIFAR-10 et score Inception de 9,46. Les DDPM ont établi une approche de décompression progressive avec perte qui peut être interprétée comme une généralisation du décodage autorégressif. Ce travail a posé les fondations mathématiques de Stable Diffusion et de toute la génération texte-vers-image moderne.

Nouvelle classe de modèles génératifs basés sur la thermodynamique hors équilibre et les processus de débruitage

Approche de décompression progressive avec perte comme généralisation du décodage autorégressif

A posé les fondations mathématiques de Stable Diffusion et de la génération texte-vers-image moderne

Score FID 3,17 sur CIFAR-10 a démontré une qualité d'image rivalisant avec les GAN et établi la diffusion comme standard

Personnes:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisations:UC Berkeley

2020Publications

Vision Transformer : 'An Image is Worth 16x16 Words'

L'architecture Transformer appliquée à la vision par ordinateur. Le 22 octobre 2020, l'équipe d'Alexey Dosovitskiy chez Google Research a publié l'article 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale'. Le Vision Transformer (ViT) a démontré que les CNN ne sont pas indispensables - des Transformers purs peuvent être appliqués directement à des séquences de patches d'images. Le constat central ('at Scale') : c'est seulement après un pré-entraînement à grande échelle sur d'immenses jeux de données (ImageNet-21k ou JFT-300M) que ViT atteint des résultats comparables ou supérieurs aux CNN de pointe ; sur des jeux de données de taille moyenne sans ce pré-entraînement, ViT obtient en revanche de moins bons résultats. Le système découpe les images en patches - typiquement 16x16 pixels, mais d'autres tailles selon la variante - les traite comme des séquences de tokens et applique l'architecture Transformer standard. L'universalité de l'architecture Transformer est devenue évidente : la même technologie qui a transformé le NLP fonctionne également en vision par ordinateur. ViT a inspiré une nouvelle génération de modèles de vision basés sur l'attention et a démontré la puissance des architectures unifiées.

Première application scalable et basée sur les patches de l'architecture Transformer pure à la vision par ordinateur, sans composantes CNN

Les patches d'images (typiquement 16x16 pixels) traités comme des séquences de tokens ont transformé la conversion image-en-séquence

L'auto-attention appliquée au traitement d'images a prouvé l'universalité de l'architecture Transformer

A atteint le niveau des CNN de pointe après pré-entraînement à grande échelle et a inspiré les modèles de vision basés sur l'attention

Personnes:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisations:Google Research, Google Brain

2020Percées

Accomplissement d'AlphaFold

La solution à un puzzle biologique vieux de 50 ans grâce à l'intelligence artificielle. En novembre 2020, AlphaFold 2 de DeepMind a dominé la compétition CASP14 avec une précision que les scientifiques ont décrite comme « stupéfiante » et « transformationnelle ». Le système a atteint un score GDT de 92,4 sur 100 points dans la prédiction de structure protéique – une précision qui égale les méthodes expérimentales comme la cristallographie aux rayons X. AlphaFold a clairement battu 145 autres équipes et a résolu un problème qui avait occupé la biologie depuis les années 1970. L'architecture de réseau neuronal basée sur l'attention peut prédire comment les protéines se replient en quelques jours – un processus fondamental pour comprendre la vie. Pour cette réussite, Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024.

AlphaFold 2 a dominé CASP14 avec un score GDT de 92,4, battant clairement 145 autres équipes

A résolu le problème du repliement des protéines vieux de 50 ans et a fondamentalement changé la biologie structurale

L'architecture basée sur l'attention a atteint une précision expérimentale dans la prédiction de structure protéique

Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024 pour cette réussite

Personnes:Demis Hassabis, John Jumper

Organisations:DeepMind, Google, CASP, University of Washington

2021Percées

CLIP : le pont entre image et langage

Le même jour où OpenAI présentait DALL-E — le 5 janvier 2021 — apparut peut-être le modèle le plus important : CLIP. Il n'apprit pas à générer des images, mais à comprendre image et langage dans un même espace. À partir d'environ 400 millions de paires image-texte issues du Web, l'équipe d'Alec Radford entraîna deux encodeurs de façon contrastive, jusqu'à ce que les images et leurs légendes correspondantes se retrouvent au même point d'un espace vectoriel commun. L'effet fut surprenant : CLIP pouvait classifier des images en zéro-shot — il suffisait de décrire les catégories en mots, sans aucun entraînement sur la tâche. Il atteignit ainsi 76,2 % sur ImageNet, à égalité avec un ResNet-50 entraîné sur 1,28 million d'exemples annotés — dont CLIP n'avait vu aucun. Pour la vue d'ensemble : CLIP devint le fondement de la vague texte-vers-image — DALL-E 2 est construit sur les plongements CLIP, et Stable Diffusion utilise directement l'encodeur de texte de CLIP. Pour être précis : les modèles contrastifs image-texte n'étaient pas nouveaux (ConVIRT était arrivé quelques mois plus tôt) — la contribution de CLIP fut l'échelle, la largeur du zéro-shot et les poids ouverts, qui déclenchèrent tout un écosystème.

Entraînement contrastif : deux encodeurs (image + texte) apprennent à partir d'environ 400 millions de paires Web à placer images et textes correspondants dans le même espace vectoriel.

Zéro-shot : les catégories sont décrites en mots, sans entraînement sur la tâche — 76,2 % sur ImageNet, à égalité avec un ResNet-50 qui avait besoin de 1,28 million d'images annotées.

Fondement de la vague texte-vers-image : DALL-E 2 est bâti sur les plongements CLIP, Stable Diffusion utilise directement l'encodeur de texte de CLIP.

Anti-hype : les modèles contrastifs image-texte existaient déjà (ConVIRT, oct. 2020). La contribution de CLIP : l'échelle, la largeur du zéro-shot, les poids ouverts — mais héritage du biais des données Web.

Personnes:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organisations:OpenAI

2021Produits

DALL-E crée des images à partir de texte

Une avancée déterminante dans la génération image-texte et un progrès important de la créativité de l'IA. Le 5 janvier 2021, OpenAI dévoile DALL-E — un système qui génère des images cohérentes et souvent étonnamment créatives à partir de descriptions textuelles. Des modèles texte-vers-image existaient déjà auparavant (comme alignDRAW en 2015 ou des approches GAN telles que StackGAN et AttnGAN), mais DALL-E a porté la cohérence et la polyvalence à un tout autre niveau. Basé sur une version de GPT-3 à 12 milliards de paramètres, DALL-E a démontré que la frontière entre la compréhension du langage et celle des images pouvait être franchie. Le système s'est entraîné avec 250 millions de paires image-texte provenant d'Internet et a développé des capacités remarquables : il peut anthropomorphiser des animaux, combiner de manière plausible des concepts sans rapport et même restituer du texte dans des images. Mark Riedl du Georgia Tech a commenté que les résultats étaient 'nettement plus cohérents' que tous les systèmes texte-vers-image précédents. DALL-E a étendu avec succès la compréhension linguistique de GPT au domaine visuel et a ouvert une toute nouvelle dimension de la créativité de l'IA.

A porté la génération image-texte à un nouveau niveau — images cohérentes et créatives à partir de descriptions en langage naturel (des précurseurs comme alignDRAW ou StackGAN existaient déjà)

A développé des capacités créatives étonnantes : anthropomorphisation, combinaison de concepts, rendu de texte

Version de GPT-3 à 12 milliards de paramètres, entraînée avec 250 millions de paires image-texte provenant d'Internet

A ouvert une nouvelle dimension de la créativité de l'IA et inspiré le mouvement de l'IA générative

Personnes:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisations:OpenAI, DALL-E Team

2021Jalons

Fondation d'Anthropic

Lorsque d'anciens dirigeants d'OpenAI ont voulu réaliser leur propre vision d'une IA sûre. En janvier 2021, Dario et Daniela Amodei ont fondé Anthropic avec cinq autres anciens chercheurs d'OpenAI – parmi lesquels Tom Brown, Jared Kaplan et Chris Olah – soit sept cofondatrices et cofondateurs au total. Le duo frère-soeur avait auparavant occupé des postes clés chez OpenAI – Dario en tant que VP of Research. Leur nouvelle entreprise devait se concentrer sur la sécurité de l'IA et le développement de systèmes fiables et interprétables. Avec la Constitutional AI, Anthropic a développé une approche innovante pour entraîner des systèmes d'IA par des principes plutôt que par le seul retour humain. Claude, leur assistant IA, est devenu l'un des principaux concurrents de ChatGPT.

Fondée en janvier 2021 à San Francisco

Dario Amodei (PDG, ex-VP Research chez OpenAI) et Daniela Amodei (présidente) – membres d'une équipe fondatrice de sept personnes

Accent sur la sécurité de l'IA, l'interprétabilité et la Constitutional AI

A développé Claude, l'un des principaux assistants IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organisations:Anthropic, OpenAI

2021Produits

GitHub Copilot : Le programmeur pair IA

La démocratisation du développement logiciel assisté par IA pour des millions de développeurs. Le 29 juin 2021, GitHub annonça la preview technique de Copilot - le premier programmeur pair IA, propulsé par OpenAI Codex. Basé sur une variante GPT-3 entraînée avec des milliards de lignes de code public des dépôts GitHub, Copilot pouvait générer des complétions de code et des fonctions entières à partir de commentaires. Le modèle Codex sous-jacent atteignit un taux de réussite de 28,8% au premier essai dans le benchmark HumanEval - significativement meilleur que les 0% de GPT-3. Particulièrement impressionnant : Avec 100 tentatives d'échantillonnage, le taux de réussite augmenta à 70,2%. Copilot fonctionnait particulièrement bien avec Python, JavaScript, TypeScript, Ruby et Go. La preview technique limitée généra un intérêt énorme et établit la programmation assistée par IA comme un outil viable. Copilot changea fondamentalement l'expérience développeur et ouvrit la voie à une nouvelle génération d'outils de codage propulsés par l'IA.

Preview technique le 29 juin 2021 avec accès limité via liste d'attente pour développeurs sélectionnés

Propulsé par OpenAI Codex, entraîné avec des milliards de lignes de code des dépôts GitHub publics

Taux de réussite de 28,8% au premier essai (HumanEval), 70,2% avec 100 tentatives d'échantillonnage

A établi la programmation assistée par IA comme outil viable et inspiré de nouveaux outils de codage

Personnes:Nat Friedman, GitHub Team, OpenAI Team

Organisations:GitHub, OpenAI, Microsoft

2021Produits

OpenAI Codex : l'IA programme pour les humains

Le 10 août 2021, OpenAI a publié Codex via une API et a considérablement modifié le développement logiciel - un système d'IA à grande échelle pour la génération de code. Basé sur GPT-3, mais entraîné sur 159 gigaoctets de code Python provenant de 54 millions de dépôts GitHub, Codex transformait le langage naturel en code fonctionnel. « Crée une fonction pour les nombres premiers » devenait du vrai code Python en quelques secondes. Auparavant, le 29 juin 2021, le partenariat avec GitHub avait donné naissance à la Technical Preview de Copilot - un assistant de programmation IA qui fonctionnait déjà sur une version précoce de Codex. Codex maîtrisait plus d'une douzaine de langages de programmation : Python, JavaScript, Go, Ruby, Swift et d'autres. Dans le benchmark HumanEval, Codex-S affiné sur le code résolvait environ 37 % des tâches au premier essai (pass@1) - le modèle de base atteignait près de 29 % ; remarquable, mais pas une mesure pour des requêtes arbitraires. GitHub Copilot s'est révélé un gain de productivité notable pour les développeurs. Codex a démontré que l'IA peut soutenir un travail cognitif créatif et complexe. De la génération de code à la compréhension du code, Codex a ouvert la voie au développement logiciel assisté par l'IA.

Langage naturel vers code : 'Écris une fonction de tri' devient du Python/JavaScript fonctionnel

GitHub Copilot (Technical Preview à partir du 29 juin 2021) : assistant de programmation IA de premier plan, entraîné sur 54 millions de dépôts de code

Plus de 12 langages de programmation : de Python à Swift - l'IA comprend l'intention du développeur en langage naturel

Gain de productivité notable : Codex a démontré le potentiel de l'IA pour le travail cognitif créatif

Personnes:OpenAI Team, GitHub Development Team

Organisations:OpenAI, GitHub, Microsoft

2022Publications

InstructGPT : le pont vers ChatGPT

Entre la méthode et le succès mondial, il y eut une étape décisive — qui s'appelait InstructGPT. Début 2022, OpenAI montra dans l'article Training language models to follow instructions with human feedback comment amener GPT-3 à faire réellement ce que les utilisateurs souhaitent : grâce à l'apprentissage par renforcement à partir du retour humain (RLHF, Reinforcement Learning from Human Feedback). Le résultat fut surprenant : un InstructGPT de seulement 1,3 milliard de paramètres fut préféré par les humains aux réponses du GPT-3 cent fois plus grand (175 milliards). Ce n'est pas la taille brute, mais l'alignement sur l'intention qui fit la différence. InstructGPT fut le pont technique direct entre l'idée du RLHF (2017) et ChatGPT, qui popularisa la même méthode fin 2022. Pour être rigoureux : InstructGPT n'inventa pas le RLHF — c'est un article de 2017 qui le fit — mais il montra pour la première fois à grande échelle à quel point l'alignement rend un modèle de langage plus utile.

OpenAI appliqua le RLHF (apprentissage par renforcement à partir du retour humain) à GPT-3 pour qu'il suive des instructions et corresponde à l'intention des utilisateurs.

Surprenant : un InstructGPT de 1,3 Mrd. de paramètres fut préféré au GPT-3 100 fois plus grand (175 Mrd.) — l'alignement l'emporte sur la taille brute.

Le pont direct entre l'idée du RLHF (2017) et ChatGPT (fin 2022) — il explique pourquoi ChatGPT fonctionna si bien.

Anti-hype : InstructGPT n'inventa pas le RLHF (un article de 2017 le fit) ; il montra pour la première fois à grande échelle à quel point l'alignement rend un modèle plus utile.

Personnes:Long Ouyang

Organisations:OpenAI

2022Publications

Chinchilla : repenser la mise à l'échelle

En 2022, DeepMind posa une question dérangeante : construisons-nous nos modèles d'IA de la mauvaise façon ? Dans l'article Training Compute-Optimal Large Language Models, l'équipe de Jordan Hoffmann montra que les plus grands modèles de langage de l'époque — GPT-3, Gopher — avaient certes beaucoup de paramètres, mais trop peu de données d'entraînement. Leur correction, aujourd'hui connue sous le nom de lois de mise à l'échelle de Chinchilla : pour un budget de calcul donné, la taille du modèle et la quantité de données devraient croître à peu près de concert. Pour le démontrer, ils entraînèrent Chinchilla avec 70 milliards de paramètres sur 1 400 milliards de tokens — et battirent ainsi Gopher, quatre fois plus grand (280 milliards de paramètres). Cela transforma la façon dont pratiquement tous les modèles de pointe ultérieurs furent entraînés. Pour être rigoureux : Chinchilla n'inventa pas les lois de mise à l'échelle, mais corrigea celles de Kaplan (2020) ; des modèles ultérieurs comme Llama dépassèrent délibérément le ratio optimal en calcul afin d'être plus efficaces lors de l'utilisation.

Les lois de mise à l'échelle de Chinchilla : pour un budget de calcul fixe, la taille du modèle et les données d'entraînement devraient croître à peu près de concert.

Les plus grands modèles (GPT-3, Gopher) étaient surdimensionnés et sous-entraînés. Chinchilla (70 Mrd. de paramètres, 1 400 Mrd. de tokens) battit Gopher, 4× plus grand (280 Mrd.).

A transformé la façon dont pratiquement tous les modèles de pointe ultérieurs furent entraînés (ratio données/paramètres) ; a notamment influencé Llama.

Anti-hype : Chinchilla n'inventa pas les lois de mise à l'échelle, mais corrigea Kaplan (2020) ; les modèles ultérieurs sur-entraînent délibérément pour une utilisation plus efficace.

Personnes:Jordan Hoffmann

Organisations:Google DeepMind

2022Produits

PaLM : le géant de Google avec 540 milliards de paramètres

En 2022, Google montra jusqu'où les modèles de langage peuvent être mis à l'échelle : PaLM, le Pathways Language Model, comptait 540 milliards de paramètres et fut entraîné via le système Pathways de Google sur des milliers de puces TPU. Ce qui impressionnait n'était pas tant la taille brute que les capacités qui en découlaient. Avec des prompts de type Chain-of-Thought (chaîne de pensée), où le modèle écrit sa démarche étape par étape, il résolvait des tâches textuelles en plusieurs étapes et expliquait même les chutes de blagues. PaLM devint ainsi le fer de lance de l'idée des capacités émergentes — des compétences qui apparaissent brusquement à partir d'une certaine taille de modèle. Ce fut un sommet de l'ère de mise à l'échelle de Google et un précurseur de PaLM 2 et de Gemini. Pour une évaluation honnête : 540 milliards de paramètres représentaient un coût exorbitant, et PaLM ne fut jamais publié comme modèle ouvert. La thèse des capacités émergentes est par ailleurs contestée — certains de ces sauts sont en partie un artefact de la méthode de mesure choisie.

En 2022, Google présenta PaLM — un modèle de langage avec 540 milliards de paramètres, entraîné sur des milliers de puces TPU.

PaLM excellait dans le raisonnement en plusieurs étapes : avec des prompts Chain-of-Thought, il résolvait des tâches textuelles et expliquait même des blagues.

Il alimenta l'idée des capacités émergentes — des compétences qui apparaissent brusquement à partir d'une certaine taille de modèle.

Anti-hype : 540 milliards de paramètres étaient extrêmement coûteux, et PaLM ne fut jamais publié en accès ouvert. La thèse des capacités émergentes est par ailleurs contestée — certains sauts sont en partie un artefact de la méthode de mesure (Schaeffer et al. 2023).

Organisations:Google

2022Produits

Stable Diffusion : Génération d'images open-source

La démocratisation de la génération d'images par IA grâce au premier modèle open-source puissant. Le 22 août 2022, Stability AI a publié Stable Diffusion et a significativement transformé l'accès à la technologie avancée de texte-vers-image. En tant que premier modèle open-source de sa catégorie, Stable Diffusion pouvait générer des images photoréalistes de 512x512 pixels sur des GPU grand public – une avancée importante en termes de vitesse et d'accessibilité. Basé sur les Modèles de Diffusion Latente (LDM), le système itère par « débruitage » dans des espaces latents au lieu de la manipulation directe de pixels. Avec 860 millions de paramètres dans le U-Net et 123 millions dans l'encodeur de texte, il restait relativement léger malgré de hautes performances. Le code source disponible sur GitHub a permis à une communauté en croissance explosive de développer d'innombrables variantes et outils. Stable Diffusion a brisé le monopole des systèmes propriétaires et a rendu la génération d'images IA de haute qualité accessible à tous.

Premier modèle texte-vers-image open-source puissant avec code source disponible sur GitHub

Modèles de diffusion latente avec débruitage itératif dans les espaces latents au lieu de manipulation directe de pixels

Croissance explosive de la communauté avec d'innombrables variantes, outils et applications

A brisé le monopole des systèmes propriétaires et démocratisé la génération d'images IA de haute qualité

Personnes:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisations:Stability AI, CompVis, Runway

2022Percées

OpenAI publie Whisper

Quand la reconnaissance vocale est enfin devenue fiable - et accessible à tous. Le 21 septembre 2022, OpenAI a publié Whisper, un système de reconnaissance vocale entraîné pour fonctionner de manière robuste dans différentes langues, accents et bruits ambiants. Contrairement aux systèmes précédents entraînés sur des données audio propres, Whisper a utilisé 680 000 heures de données multilingues provenant d'Internet. Le résultat : un système capable de transcrire dans 99 langues et de rivaliser avec des solutions commerciales. OpenAI a mis Whisper à disposition en open source - un cadeau aux développeurs du monde entier, ouvrant la voie à d'innombrables applications.

Publié le 21 septembre 2022 en open source

Couvre 99 langues et transcrit de manière robuste même avec des accents et des bruits de fond - le plus performant en anglais, car la majorité des données d'entraînement est en anglais

Entraîné sur 680 000 heures de données audio multilingues provenant d'Internet

A démocratisé la reconnaissance vocale de haute qualité grâce à la disponibilité en open source

Personnes:Alec Radford, Jong Wook Kim, Tao Xu

Organisations:OpenAI

2022Produits

ChatGPT marque un tournant dans l'utilisation de l'IA

Le moment où l'IA est devenue accessible à tous et où une nouvelle ère a commencé. Le 30 novembre 2022, OpenAI publie ChatGPT en tant qu'aperçu de recherche gratuit (Research Preview) — sans grande campagne marketing, avec peu d'attentes. Ce qui suivit dépassa toutes les prévisions : après 5 jours, ChatGPT atteignait un million d'utilisateurs, après deux mois 100 millions — alors la progression la plus rapide jamais enregistrée pour une application grand public (dépassée en juillet 2023 par Threads de Meta). Basé sur GPT-3.5, ChatGPT offrait pour la première fois à un large public un accès direct à une IA puissante sans barrières techniques. Kevin Roose du New York Times l'a qualifié de 'meilleur chatbot d'IA jamais mis à la disposition du public'. ChatGPT a démocratisé l'intelligence artificielle et transformé un domaine de recherche en outil quotidien. Cette publication marque le début de la vague actuelle de l'IA générative.

Mis à la disposition du grand public le 30 novembre 2022 en tant qu'aperçu de recherche gratuit

A atteint 1 million d'utilisateurs en 5 jours, 100 millions en 2 mois — alors la progression la plus rapide d'une application grand public (dépassée ensuite par Threads)

Première IA puissante sans barrières techniques — accès direct par le Web pour tout internaute

A démocratisé l'IA et déclenché la vague actuelle de l'IA générative dans la société et l'économie

Personnes:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisations:OpenAI, Microsoft, ChatGPT

2022Publications

Constitutional AI — la sécurité de l'IA par constitution

En décembre 2022, Anthropic présente le Constitutional AI (CAI), une nouvelle méthode pour développer des systèmes d'IA inoffensifs, utiles et honnêtes. Une 'constitution' composée de principes éthiques permet à l'IA de s'autocritiquer et de s'améliorer face à des contenus préjudiciables — sans avoir besoin d'annotations humaines pour évaluer précisément ces préjudices. (L'ancrage explicite de ces principes dans la Déclaration universelle des droits de l'homme de l'ONU et d'autres documents fondamentaux n'a été décrit par Anthropic qu'en mai 2023 dans 'Claude's Constitution' ; l'article original utilisait un ensemble de principes assemblé de manière pragmatique.) La méthode innovante RLAIF (Reinforcement Learning from AI Feedback — apprentissage par renforcement à partir du retour de l'IA) ne remplace cependant le retour humain que pour l'innocuité, via l'autocritique de l'IA — l'utilité a continué à être entraînée via des données de préférences humaines (RLHF). Ainsi, le CAI établit une approche axée sur la sécurité comme alternative à l'approche purement axée sur les performances de ChatGPT et ouvre la voie à un développement responsable de l'IA.

L'IA s'autocritique et s'améliore face aux contenus préjudiciables — sans annotations humaines pour cette évaluation

Alternative axée sur la sécurité aux approches purement performatives telles que ChatGPT

Triple objectif : utile, honnête et inoffensif grâce à des principes éthiques

RLAIF : Reinforcement Learning from AI Feedback remplace les évaluations humaines pour l'innocuité (l'utilité reste entraînée via RLHF)

Personnes:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisations:Anthropic

2023Réglementation

NIST AI Framework : les États-Unis définissent une IA digne de confiance

Le 26 janvier 2023, le National Institute of Standards and Technology des États-Unis a publié le premier AI Risk Management Framework complet (AI RMF 1.0) - la réponse américaine à la régulation mondiale de l'IA. Après 18 mois de développement impliquant 240+ organisations issues de l'industrie, du monde académique et de la société civile, le NIST a établi pour la première fois des standards fédéraux pour une IA digne de confiance. Le framework définit quatre fonctions essentielles : Govern, Map, Measure, Manage - ainsi que sept caractéristiques d'une IA digne de confiance : sûre, résiliente, explicable, respectueuse de la vie privée, équitable, transparente et fiable. En tant que standard volontaire, il vise à minimiser les risques de l'IA pour les individus, les organisations et la société. La publication fait suite au AI Bill of Rights de Biden (2022) et a été complétée par son AI Executive Order (octobre 2023). Le AI RMF est né du mandat légal du National AI Initiative Act of 2020 - le NIST y a confirmé son rôle d'agence fédérale de normalisation. Le framework est devenu le fondement des standards industriels et de la coordination internationale - un contrepoids au contrôle étatique de l'IA en Chine et à l'approche réglementaire de l'Europe.

Quatre fonctions essentielles : Govern, Map, Measure, Manage pour une gestion systématique des risques de l'IA

Sept caractéristiques d'une IA digne de confiance : sûre, résiliente, explicable, respectueuse de la vie privée, équitable, transparente et fiable

Approche multi-parties prenantes volontaire : 240+ organisations ont élaboré conjointement des standards

Agence fédérale de normalisation : le NIST a développé le AI RMF sur mandat du National AI Initiative Act of 2020

Personnes:NIST AI Team, 240+ Contributing Organizations

Organisations:NIST, US Department of Commerce, Biden Administration

2023Produits

LLaMA : modèle de fondation open source

La démocratisation des grands modèles de langage par des modèles de recherche ouverts. Le 24 février 2023, Meta AI a publié LLaMA (Large Language Model Meta AI) – une collection de modèles de fondation allant de 7 milliards à 65 milliards de paramètres, entraînés exclusivement sur des données accessibles au public. Le papier fondateur « LLaMA: Open and Efficient Foundation Language Models » a démontré que des performances à la pointe de la technologie sont atteignables sans jeux de données propriétaires. LLaMA a permis aux chercheurs sans accès à une grande infrastructure d'étudier des modèles de langage avancés. Le code d'inférence a été publié sous licence GPLv3, tandis que l'accès aux modèles était accordé au cas par cas pour la recherche académique. Entraîné sur des milliards de tokens et disponible en plusieurs tailles, LLaMA répondait à des exigences matérielles variées. Ces travaux ont catalysé une vague de recherche ouverte sur les grands modèles de langage et ont inspiré de nombreux modèles dérivés au sein de la communauté open source.

Code d'inférence sous licence GPLv3 ; les poids des modèles ont été diffusés au cas par cas, exclusivement pour la recherche non commerciale

Modèles de 7 milliards à 65 milliards de paramètres, entraînés exclusivement sur des jeux de données accessibles au public

A permis aux chercheurs sans grande infrastructure d'étudier des modèles de langage avancés

Plusieurs tailles de modèles pour répondre à des exigences matérielles et des objectifs de recherche variés

Personnes:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisations:Meta AI, FAIR

2023Produits

Claude et Constitutional AI

L'introduction d'une IA avec un système de valeurs intégré et des principes éthiques. En mars 2023, Anthropic a présenté Claude - un assistant IA basé sur Constitutional AI qui a établi une approche novatrice de la sécurité de l'IA. Contrairement aux systèmes conventionnels, Claude apprend à travers une méthode en deux phases : d'abord le modèle critique et améliore ses propres réponses basées sur une constitution de principes éthiques, puis il est affiné par des retours générés par l'IA - sans évaluations humaines pour la prévention des dommages. Le résultat est un système qui agit de manière à la fois utile et inoffensive. Anthropic a publié Claude et Claude Instant simultanément, le dernier étant une variante plus rapide et plus rentable. Cette méthode Constitutional AI s'est avérée être une amélioration de Pareto par rapport aux retours humains et a ouvert de nouvelles voies pour une supervision évolutive de l'IA.

Framework Constitutional AI avec entraînement en deux phases : autocritique basée sur des principes éthiques, puis affinement basé sur les retours de l'IA

Approche de sécurité novatrice sans évaluations humaines des dommages - purement par supervision de l'IA

Publication simultanée de Claude et Claude Instant pour différentes exigences d'application

A établi « utile, inoffensif, honnête » comme valeurs fondamentales pour le développement responsable de l'IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisations:Anthropic, Constitutional AI, AI Safety

2023Produits

GPT-4 : modèle d'IA multimodal

La percée vers des performances humaines dans les benchmarks professionnels et académiques. Le 14 mars 2023, OpenAI a dévoilé GPT-4 – un grand modèle multimodal qui traite des entrées textuelles et visuelles et atteint le niveau humain dans diverses disciplines. Les améliorations étaient considérables : alors que GPT-3.5 passait l'examen du barreau dans les 10 % inférieurs, GPT-4 a atteint les 10 % supérieurs. Pour le SAT de mathématiques, les performances sont passées du 70e au 89e percentile. Après six mois d'alignement itératif avec les enseignements du programme de tests adversariaux et les retours de ChatGPT, toute la pile Deep Learning a été reconstruite. Les capacités multimodales permettent le traitement de documents, de diagrammes et de captures d'écran avec la même qualité que les entrées textuelles pures. GPT-4 a établi de nouveaux standards en matière de sécurité et de performance de l'IA.

Grand modèle multimodal avec entrées textuelles et visuelles, capacités de vision pour documents et diagrammes

Examen du barreau dans les 10 % supérieurs contre les 10 % inférieurs pour GPT-3.5, amélioration du SAT de mathématiques du 70e au 89e percentile

6 mois d'alignement itératif avec tests adversariaux et retours ChatGPT pour une sécurité améliorée

L'intégration dans ChatGPT Plus a rendu l'IA multimodale avancée accessible aux consommateurs

Personnes:Sam Altman, OpenAI Team

Organisations:OpenAI

2023Produits

Midjourney V5 : l'art IA photoréaliste

La génération d'images IA photoréalistes atteint un nouveau niveau de qualité et transforme considérablement l'industrie créative. Le 15 mars 2023, Midjourney a publié la version 5, marquant un bond qualitatif que les utilisateurs ont décrit comme 'troublant' et 'trop parfait'. La version alpha était pour la première fois capable de produire des images photoréalistes quasi impossibles à distinguer de vraies photographies. Point particulièrement remarquable : le problème chronique des mains difformes a été considérablement amélioré – V5 pouvait dans la plupart des cas représenter correctement cinq doigts. Julie Wieland, graphiste, a comparé l'expérience à 'mettre enfin des lunettes après avoir trop longtemps ignoré une mauvaise vue' – soudain, tout apparaît en qualité 4K [source : Ars Technica, mars 2023]. La sensibilité aux prompts améliorée a permis un contrôle créatif plus précis, tandis que l'upscaling automatique redimensionnait les images de base de 1024x1024 pixels sans coût GPU supplémentaire. V5 a déclenché d'intenses débats sur l'avenir de la créativité humaine.

Qualité d'image photoréaliste quasi impossible à distinguer de vraies photographies

A suscité des réactions intenses au sein de la communauté créative – de l'enthousiasme aux inquiétudes existentielles

A considérablement amélioré l'art généré par IA grâce à une représentation précise des mains et une sensibilité accrue aux prompts

A établi de nouveaux standards pour la génération commerciale d'images IA avec des répercussions importantes sur l'industrie créative

Personnes:David Holz, Midjourney Team

Organisations:Midjourney Inc

2023Réglementation

Décret Biden sur l'IA — première réglementation américaine globale

Le 30 octobre 2023, le président Biden signe l'Executive Order 14110 sur le 'développement et l'utilisation sûrs, sécurisés et dignes de confiance de l'intelligence artificielle' — première réglementation globale de l'IA aux États-Unis et, avec ses 110 pages, le décret exécutif le plus long de l'histoire. Ce décret d'une grande portée oblige les développeurs de systèmes d'IA puissants à divulguer les résultats de leurs tests de sécurité et établit des normes strictes de red teaming par le biais du NIST. Il protège contre la fraude fondée sur l'IA grâce à l'authentification de contenu et au watermarking, adresse les risques liés aux infrastructures critiques et aux menaces biologiques. Au moment de sa signature, cet acte a établi des standards mondiaux pour un développement responsable de l'IA et positionné les États-Unis comme pionniers en matière de gouvernance de l'IA. Ses effets n'ont cependant pas perduré : le 20 janvier 2025, le président Trump a révoqué l'EO 14110 par l'Executive Order 14148 — ce document marque donc l'état réglementaire de 2023.

Gouvernance de l'IA la plus complète jamais mise en oeuvre — 110 pages, le décret exécutif le plus long de l'histoire

Tests de sécurité obligatoires et résultats de red teaming pour les systèmes d'IA puissants

Defense Production Act : obligation de notification pour les systèmes d'IA présentant des risques pour la sécurité nationale

A positionné les États-Unis en 2023 comme pionniers d'une gouvernance responsable de l'IA — révoqué en 2025

Personnes:Joe Biden, Kamala Harris

Organisations:White House, NIST, Department of Homeland Security

2023Réglementation

Lettre de pause et Bletchley : la sécurité de l'IA devient mondiale

En 2023, dans le premier choc qui suivit ChatGPT, le monde cherchait des règles pour encadrer une technologie soudainement très puissante. En mars, des milliers de signataires — dont Yoshua Bengio et Elon Musk — demandèrent dans une lettre ouverte du Future of Life Institute une pause de six mois dans l'entraînement de systèmes d'IA plus puissants que GPT-4. La pause n'eut pas lieu, mais la lettre plaça le sujet à l'agenda mondial. En novembre suivit le premier sommet mondial sur la sécurité de l'IA à Bletchley Park, en Grande-Bretagne — lieu choisi délibérément là où Turing avait jadis décrypté des codes. 28 États et l'Union européenne, dont les États-Unis et la Chine, signèrent la Déclaration de Bletchley sur les risques de l'IA avancée. C'était la première fois que des puissances rivales parlaient ensemble de la sécurité de l'IA — le début d'une série de sommets (Séoul 2024, Paris 2025). Pour être rigoureux : la pause ne vint jamais, et la Déclaration de Bletchley n'était pas contraignante — les deux placèrent des sujets à l'agenda, mais ne créèrent pas de règles applicables.

Mars 2023 : une lettre ouverte du Future of Life Institute (des milliers de signataires, dont Bengio, Musk) demanda une pause de 6 mois dans l'entraînement de systèmes d'IA plus puissants que GPT-4.

Novembre 2023 : premier sommet mondial sur la sécurité de l'IA à Bletchley Park, en Grande-Bretagne — là où Turing déchiffrait des codes pendant la guerre.

28 États et l'Union européenne — dont les États-Unis et la Chine — signèrent la Déclaration de Bletchley sur les risques de l'IA avancée ; début de la série de sommets (Séoul 2024, Paris 2025).

Anti-hype : la pause ne vint jamais ; la déclaration n'était pas contraignante. Les deux placèrent des sujets à l'agenda, mais ne créèrent pas de règles applicables.

Organisations:Future of Life Institute, UK Government

2023Produits

Mistral & Mixtral : les modèles ouverts d'Europe

Tandis qu'en 2023 les grands groupes américains dominaient les manchettes, un challenger émergea de Paris : Mistral AI, fondée au printemps 2023 par Arthur Mensch (ancien de Google DeepMind) ainsi que Guillaume Lample et Timothée Lacroix (anciens de Meta). Dès septembre, le petit modèle Mistral 7B surprit la communauté — disponible librement sous licence Apache 2.0 et plus performant que le bien plus grand Llama 2 13B. En décembre suivit Mixtral 8x7B : un modèle Mixture-of-Experts ouvert qui atteignait sur de nombreuses tâches le niveau de GPT-3.5, tout en n'activant qu'une fraction de ses paramètres par requête (environ 13 des 47 milliards). Mistral devint le fleuron européen des modèles ouverts et leva des milliards. Pour une évaluation honnête : des poids ouverts ne signifient pas Open Source — les données et le code d'entraînement restent confidentiels. Et Mixtral atteignait GPT-3.5, non le modèle de pointe de l'époque, GPT-4 ; le Mixture-of-Experts lui-même est par ailleurs bien plus ancien.

Printemps 2023 : à Paris, Arthur Mensch (ex-Google DeepMind) ainsi que Guillaume Lample et Timothée Lacroix (ex-Meta) fondèrent Mistral AI — la réponse européenne aux laboratoires américains.

Septembre 2023 : Mistral 7B — un petit modèle à poids libres (Apache 2.0), qui surpassait le plus grand Llama 2 13B.

Décembre 2023 : Mixtral 8x7B, un modèle Mixture-of-Experts ouvert — sur de nombreux benchmarks au niveau de GPT-3.5, mais efficace (seulement ~13 Mrd. de paramètres actifs sur ~47 Mrd.).

Anti-hype : des poids ouverts ne signifient pas Open Source (données/code d'entraînement restent fermés) ; Mixtral atteignait GPT-3.5, non GPT-4. Le Mixture-of-Experts est par ailleurs plus ancien (notamment Shazeer 2017).

Personnes:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organisations:Mistral AI

2023Produits

Google Gemini : famille d'IA multimodale

La réponse de Google à ChatGPT et la percée vers la multimodalité native. Le 6 décembre 2023, Google a annoncé Gemini 1.0 – une famille d'IA développée dès le départ pour la multimodalité. La collaboration entre DeepMind et Google Brain a abouti à trois tailles de modèles : Gemini Ultra pour les tâches très complexes, Gemini Pro comme solution équilibrée et Gemini Nano pour les applications embarquées. Contrairement aux systèmes étendus a posteriori, Gemini a été conçu nativement avec la compréhension du langage, de l'audio, du code et de la vidéo. Sur six des huit benchmarks, Gemini Pro a dépassé le standard GPT-3.5, y compris les tests MMLU. Le jour de l'annonce, Bard ordinaire a reçu de nouvelles capacités grâce à Gemini Pro ; le Bard Advanced plus puissant avec Gemini Ultra a été annoncé par Google pour début 2024. Gemini a marqué la réponse stratégique de Google à la domination d'OpenAI et a établi l'IA multimodale comme nouveau standard pour les grands modèles de langage.

Développé dès le départ pour la multimodalité : compréhension du langage, de l'audio, du code et de la vidéo intégrée nativement

A dépassé GPT-3.5 dans 6 des 8 benchmarks standard et a établi Google comme alternative sérieuse à ChatGPT

Trois tailles de modèles : Ultra (complexe), Pro (équilibré), Nano (embarqué) pour différentes applications

Bard ordinaire a reçu Gemini Pro le jour de l'annonce ; Bard Advanced avec Gemini Ultra a été annoncé pour début 2024

Personnes:Sundar Pichai, Demis Hassabis, Gemini Team

Organisations:Google, DeepMind, Google AI

2024Produits

L'IA incarnée : les modèles s'emparent d'un corps

Pendant des années, les grands modèles d'IA ne vécurent que sur les écrans — ils écrivaient des textes, créaient des images, tenaient des conversations. En 2024, cela commença à changer : ce fut l'année de l'IA incarnée (embodied AI). L'idée est de placer les mêmes modèles de base qui comprennent le langage et les images dans de vrais corps — avant tout dans des robots humanoïdes. La société Figure s'associa à OpenAI et présenta un robot qui parle, voit et manipule des objets. NVIDIA dévoila avec le Projet GR00T un modèle de base spécialement conçu pour les humanoïdes, et de jeunes entreprises comme Physical Intelligence furent valorisées à des milliards. Beaucoup parlaient déjà du 'moment ChatGPT' de la robotique. Pour être rigoureux : la plupart de tout cela n'étaient jusqu'ici que des démonstrations et des annonces, et non des machines travaillant de façon fiable au quotidien. Le monde physique est infiniment plus difficile à maîtriser pour un robot que l'écran — la dextérité, la sécurité et la fiabilité restent des problèmes non résolus.

2024 fut l'année de l'IA incarnée : des modèles de langage qui ne vivaient jusqu'alors que dans le chat s'installèrent dans des robots — notamment des humanoïdes.

Figure s'associa à OpenAI et présenta un humanoïde parlant et agissant ; NVIDIA dévoila avec le Projet GR00T un modèle de base pour les humanoïdes ; des start-ups comme Physical Intelligence furent valorisées à des milliards.

L'espoir : un robot qui réunit langage, vision et action dans un seul modèle de base pourrait apprendre des tâches générales dans le monde réel — un moment ChatGPT pour la robotique.

Anti-hype : une grande partie n'étaient jusqu'ici que des démos et des annonces, pas des produits fonctionnant de façon fiable. Le monde réel est infiniment plus difficile pour les robots que l'écran — dextérité, sécurité et fiabilité restent non résolues.

Organisations:Figure AI, NVIDIA, Physical Intelligence

2024Produits

Waymo : le taxi sans chauffeur devient quotidien

Pendant plus d'une décennie, la conduite autonome fut l'exemple type des promesses de l'IA qui se retardaient sans cesse. En 2024, cela devint tangible : Waymo, la filiale de voitures-robots de Google, rendit pour la première fois les taxis sans chauffeur largement disponibles au public — à San Francisco, Los Angeles et Phoenix. À l'été 2024, l'entreprise annonçait plus de 100 000 trajets payants par semaine, entièrement sans conducteur de sécurité au volant. Après des années de promesses, c'était la première preuve concrète que la conduite autonome peut fonctionner comme un service réel et quotidien. Pour une évaluation honnête : Waymo ne circule que dans des zones urbaines strictement limitées et soigneusement cartographiées — pas partout et pas par tous les temps. Il y a toujours des pannes et des véhicules immobilisés, et l'exploitation est coûteuse. La conduite autonome complète partout reste non résolue ; le retrait du concurrent Cruise après un grave accident en 2023 a montré combien la technologie est encore fragile.

En 2024, Waymo, la filiale de voitures-robots de Google, devint le premier prestataire de taxis sans chauffeur à grande échelle — ouvert au public dans plusieurs villes américaines.

À l'été 2024, Waymo annonçait plus de 100 000 trajets payants par semaine, entièrement sans conducteur de sécurité au volant.

Après plus d'une décennie de promesses, c'était la première preuve concrète que la conduite autonome peut fonctionner comme un véritable service.

Anti-hype : Waymo ne circule que dans des zones urbaines limitées et cartographiées — pas partout. Il y a toujours des pannes, et l'exploitation est coûteuse. La conduite autonome complète partout reste non résolue (le retrait du concurrent Cruise a montré la fragilité).

Organisations:Waymo, Alphabet

2024Produits

Sora : des vidéos générées par IA à partir de texte

L'avancée vers des vidéos générées par IA photoréalistes et ses répercussions sur l'industrie cinématographique. Le 15 février 2024, OpenAI dévoila Sora – un modèle texte-vidéo capable de générer des vidéos HD détaillées jusqu'à une minute à partir de courtes descriptions. Nommé d'après le mot japonais pour 'ciel', Sora symbolise un 'potentiel créatif illimité'. En tant que Diffusion Transformer, Sora adapte la technologie DALL-E 3 pour la cohérence temporelle et simule souvent – quoique de façon non fiable – un mouvement physiquement plausible. Les vidéos de démonstration surpassèrent tous les systèmes texte-vidéo existants et établirent de nouveaux standards pour la créativité de l'IA. Le réalisateur Tyler Perry suspendit une expansion de studio à 800 millions de dollars par crainte des répercussions de Sora sur le secteur. OpenAI adopta une approche prudente avec des tests Red Team pour détecter les désinformations et les biais avant toute diffusion plus large.

Génération texte-vidéo photoréaliste produisant des vidéos HD de plusieurs minutes, surpassant les systèmes existants

Diffusion Transformer basé sur la technologie DALL-E 3 pour la cohérence temporelle

Simule souvent un mouvement physiquement plausible et maintient la cohérence sur toute la durée de la vidéo

Perturbation potentielle de l'industrie cinématographique – Tyler Perry suspendit une expansion de studio à 800 millions de dollars

Personnes:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisations:OpenAI

2024Produits

Famille Claude 3 avec capacités multimodales

L'introduction d'une famille d'IA avec vision et trois modèles spécialisés. Le 4 mars 2024, Anthropic a introduit la famille Claude 3 : Opus, Sonnet et Haiku – trois modèles avec différentes forces pour divers cas d'utilisation. La caractéristique centrale était un traitement visuel sophistiqué capable d'analyser photos, graphiques, diagrammes et dessins techniques. Claude 3 Opus a obtenu les meilleurs résultats dans les tâches cognitives et a surpassé les concurrents dans des benchmarks comme MMLU et GPQA. Sonnet offrait l'équilibre idéal entre intelligence et vitesse pour les entreprises, tandis que Haiku impressionnait par des temps de réponse quasi instantanés. Avec une fenêtre de contexte de 200 000 tokens (extensible à 1 million) et une disponibilité dans 159 pays, Claude 3 a établi de nouvelles normes de référence pour les systèmes d'IA multimodaux.

Traitement visuel sophistiqué pour photos, graphiques, diagrammes et dessins techniques

Opus (intelligence maximale), Sonnet (équilibre), Haiku (vitesse) pour différents cas d'utilisation

Capacités multimodales permettant le traitement de formats visuels en plus du traitement textuel

Claude 3 Opus a obtenu les meilleurs résultats en MMLU, GPQA et autres benchmarks cognitifs

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisations:Anthropic, Claude API, Amazon Bedrock

2024Produits

Devin : le premier ingénieur logiciel IA autonome

La naissance du développement logiciel entièrement autonome par intelligence artificielle. Le 12 mars 2024, Cognition Labs présenta Devin — présenté par l'entreprise comme le premier ingénieur logiciel IA entièrement autonome au monde. Le système peut planifier de façon indépendante, cloner des dépôts, écrire du code, déboguer, tester et même déployer des applications. Sur l'exigeant benchmark SWE-Bench, Devin atteignit un taux de réussite de 13,86 % sur des issues GitHub réels — un bond considérable par rapport au record précédent de 1,96 %. La startup fut valorisée à environ 350 millions de dollars lors d'un premier tour de financement ; peu après le lancement, des rapports faisaient état d'une valorisation d'environ 2 milliards de dollars. Malgré des résultats impressionnants, les tests révélèrent aussi des limites : seules 3 tâches sur 20 furent résolues avec succès, souvent avec des échecs imprévisibles.

Développement logiciel entièrement autonome : planification, codage, débogage, test et déploiement sans intervention humaine

Gère des tâches d'ingénierie complexes, de la migration de code au développement complet d'applications

13,86 % de taux de réussite sur SWE-Bench — 7 fois supérieur au précédent niveau de l'état de l'art de 1,96 %

Déclencha un débat sur l'avenir du développement logiciel et inspira des alternatives open source comme OpenHands

Personnes:Scott Wu, Steven Hao, Walden Yan

Organisations:Cognition Labs, SWE-Bench

2024Percées

AlphaFold 3 : l'IA prédit les interactions entre molécules

Quatre ans après la percée d'AlphaFold 2, Google DeepMind fit un pas de plus en mai 2024 — en collaboration avec sa société sœur Isomorphic Labs. AlphaFold 2 avait prédit comment une protéine unique se replie en sa forme tridimensionnelle. AlphaFold 3 va un cran plus loin : il modélise la façon dont les protéines interagissent avec d'autres molécules — l'ADN, l'ARN, des ions et de petites molécules médicamenteuses. C'est précisément cette interaction qui est décisive pour la recherche pharmaceutique, car elle permet d'évaluer in silico comment un principe actif se lie à sa protéine cible. Pour être rigoureux : les prédictions sont remarquables, mais pas infaillibles — leur précision varie selon le type de molécule, et elles doivent toujours être vérifiées en laboratoire. De plus, AlphaFold 3 fut d'abord publié sans code source ouvert, uniquement sous forme de service Web limité, ce qui suscita des critiques dans la communauté scientifique quant à la reproductibilité des résultats.

En mai 2024, Google DeepMind et Isomorphic Labs présentèrent AlphaFold 3.

Là où AlphaFold 2 prédisait le repliement de protéines individuelles, AlphaFold 3 modélise leurs interactions — avec l'ADN, l'ARN, des molécules médicamenteuses et des ions.

Particulièrement précieux pour la recherche pharmaceutique : il est désormais possible d'évaluer in silico comment un principe actif se lie à sa protéine cible.

Anti-hype : les prédictions ne sont pas infaillibles et doivent être vérifiées en laboratoire. De plus, AlphaFold 3 fut d'abord publié sans code ouvert — uniquement comme service Web limité, ce qui suscita des critiques quant à la reproductibilité.

Organisations:Google DeepMind, Isomorphic Labs

2024Compétitions

AlphaProof : l'IA décroche l'argent aux Olympiades de mathématiques

Les mathématiques étaient longtemps considérées comme la discipline reine où l'IA échoue — trop créatives, trop exigeantes en véritable compréhension. En juillet 2024, Google DeepMind signa une démonstration remarquable : le système AlphaProof, conjointement avec AlphaGeometry 2, résolut quatre des six problèmes de l'Olympiade internationale de mathématiques. Ce résultat correspond au niveau d'une médaille d'argent, à un seul point de l'or. Ce qui est particulièrement notable, c'est la méthode de travail : AlphaProof formule ses preuves dans le langage formel Lean, ce qui rend chaque étape vérifiable par la machine — l'IA ne peut donc pas tricher. L'apprentissage s'est fait par renforcement. C'est la première fois qu'une IA atteignit le niveau des médailles dans cette compétition très prestigieuse. Pour être rigoureux : les conditions n'étaient pas celles d'une vraie compétition. Là où les candidats humains disposent de quatre heures et demie, l'IA eut parfois besoin de plusieurs jours, et des experts humains durent d'abord traduire les problèmes en langage formel. Les deux problèmes de combinatoire restèrent non résolus.

En juillet 2024, AlphaProof de Google DeepMind, conjointement avec AlphaGeometry 2, résolut quatre des six problèmes de l'Olympiade internationale de mathématiques — au niveau d'une médaille d'argent.

AlphaProof formule des preuves dans le langage formel Lean et les vérifie lui-même ; l'apprentissage s'est fait par renforcement. AlphaGeometry 2 a pris en charge le problème de géométrie.

Pour la première fois, une IA atteignit le niveau des médailles dans cette compétition prestigieuse — une étape importante pour le raisonnement machine avec des preuves vérifiables.

Anti-hype : pas de conditions de compétition réelles — l'IA eut parfois besoin de jours au lieu de 4,5 heures, et des humains ont traduit les problèmes en langage formel. Les deux problèmes de combinatoire restèrent non résolus.

Organisations:Google DeepMind

2024Réglementation

EU AI Act : première loi complète sur l'IA

Le premier cadre réglementaire mondial complet sur l'intelligence artificielle entre en vigueur. Le 1er août 2024, l'EU AI Act devint juridiquement contraignant — un règlement fondé sur le risque comportant 180 considérants et 113 articles couvrant l'ensemble du cycle de vie des systèmes d'IA. La loi catégorise les systèmes d'IA selon quatre niveaux de risque : les applications interdites sont prohibées, les systèmes à haut risque dans les domaines de l'éducation, de l'emploi et de la justice sont soumis à des obligations de conformité détaillées, les systèmes à risque limité doivent respecter des obligations de transparence, et la grande majorité présentant un risque minimal demeure largement libre. Des règles spécifiques s'appliquent en parallèle aux modèles de fondation GPAI tels que GPT, qui alimentent notamment ChatGPT. L'effet extraterritorial du règlement s'étend également aux fournisseurs hors UE ayant des utilisateurs européens. En cas d'infraction, des amendes pouvant atteindre 35 millions d'euros ou 7 % du chiffre d'affaires annuel mondial sont prévues. À l'instar du RGPD en 2018, l'AI Act pourrait établir des standards mondiaux et déterminer comment l'IA influence nos vies. La mise en oeuvre échelonnée débute en 2025 et sera pleinement effective en 2027.

Première loi complète sur l'IA au monde, avec 180 considérants et 113 articles couvrant l'ensemble du cycle de vie des systèmes d'IA

Quatre niveaux de risque : applications interdites, à haut risque, à risque limité et minimal — plus des règles spécifiques pour les modèles de fondation GPAI

L'effet extraterritorial, à l'instar du RGPD, pourrait établir des standards mondiaux en matière d'IA et influencer la conformité à l'échelle internationale

Amendes jusqu'à 35 millions d'euros ou 7 % du chiffre d'affaires annuel, mise en oeuvre échelonnée de 2025 à 2027

Personnes:Ursula von der Leyen, Thierry Breton

Organisations:European Union, European Parliament, European Commission

2024Produits

OpenAI O1 - une avancée dans le raisonnement

OpenAI publie le 12 septembre 2024 d'abord o1-preview (et o1-mini) et étend considérablement le raisonnement de l'IA grâce au Chain-of-Thought, dont la chaîne de pensée est entraînée par apprentissage par renforcement. O1 est le premier modèle de langage largement disponible qui 'réfléchit' de manière systématique avant de répondre - avec une chaîne de pensée privée, il analyse les problèmes étape par étape. Cette nouvelle approche ouvre une dimension de mise à l'échelle supplémentaire : le Test-Time-Scaling, où une 'réflexion' plus longue conduit à de meilleurs résultats. Le modèle o1 complet atteint dans les tests de benchmarks des performances de niveau doctorat en physique, chimie et biologie et résout 83 % des tâches de l'American Invitational Mathematics Examination (GPT-4o : 13 %). La technologie démontre que l'IA peut développer des capacités de résolution de problèmes nettement améliorées grâce à un raisonnement structuré.

Premier modèle dont le Chain-of-Thought est entraîné et mis à l'échelle via l'apprentissage par renforcement - pour un raisonnement structuré

Nouvelle dimension de mise à l'échelle : plus il réfléchit longtemps, meilleurs sont les résultats

Nouvelle approche : de la reproduction de schémas à une résolution de problèmes améliorée

Avancée importante dans le raisonnement complexe - capacités de résolution de problèmes améliorées

Personnes:Sam Altman, Noam Brown, OpenAI Team

Organisations:OpenAI

2024Jalons

Les prix Nobel de l'IA 2024

En octobre 2024, il se passa quelque chose d'inédit : deux prix Nobel scientifiques récompensèrent simultanément les fondements de l'IA moderne. Le 8 octobre, le prix Nobel de physique fut attribué à John Hopfield et Geoffrey Hinton — pour des découvertes fondamentales qui rendent possible l'apprentissage automatique avec des réseaux de neurones artificiels. Que la physique récompense précisément les réseaux de neurones suscita des débats — mais les réseaux de Hopfield inspirés de la physique (1982) et les méthodes d'apprentissage de Hinton posèrent effectivement les bases. Le lendemain, le prix Nobel de chimie fut partagé entre David Baker (pour la conception de protéines assistée par ordinateur) et Demis Hassabis et John Jumper de DeepMind — pour AlphaFold, qui résolut le problème du repliement des protéines vieux de 50 ans. Pour la première fois, la recherche fondamentale en IA était consacrée au plus haut niveau de la science. Remarquable : Hinton, tout juste lauréat, profita de la tribune pour mettre en garde contre les risques de la technologie qu'il avait contribué à créer.

8 octobre 2024 : prix Nobel de physique à John Hopfield et Geoffrey Hinton pour les fondements de l'apprentissage automatique avec des réseaux de neurones — un prix de physique pour l'IA.

9 octobre 2024 : prix Nobel de chimie à David Baker (conception de protéines) ainsi qu'à Demis Hassabis et John Jumper de DeepMind (AlphaFold, repliement des protéines).

Pour la première fois, deux prix Nobel scientifiques la même année récompensèrent les fondements de l'IA — un tournant dans le statut du domaine.

En débat : les réseaux de neurones relèvent-ils vraiment de la physique ? Les prix honorent des bases vieilles de plusieurs décennies (réseaux de Hopfield 1982, machine de Boltzmann de Hinton). Hinton a aussi mis en garde contre les risques de l'IA.

Personnes:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organisations:Royal Swedish Academy of Sciences

2024Percées

OpenAI o3 : percée sur ARC-AGI

Peu avant la fin de l'année 2024, le 20 décembre, OpenAI annonça o3 — le successeur d'o1 et la preuve que le raisonnement à l'exécution (Test-Time-Scaling) peut se mettre à l'échelle davantage. Ce qui fit surtout sensation : un score de 87,5 % sur ARC-AGI, un test délibérément conçu pour ne pas pouvoir être réussi par mémorisation — les modèles précédents y restaient proches de zéro. o3 s'approchait ainsi pour la première fois des performances humaines sur ce benchmark, tout en excellant en mathématiques et en programmation. Avec o1 et le R1 de DeepSeek, o3 marquait l'ère des modèles de raisonnement (o3-mini suivit fin janvier 2025, le o3 complet en avril). Pour une évaluation honnête : les 87,5 % furent obtenus en mode haute performance avec une puissance de calcul considérable — et très coûteuse — par tâche ; les organisateurs du ARC Prize soulignèrent expressément que o3 n'est pas une AGI et qu'il chute nettement sur le test successeur plus difficile ARC-AGI-2.

o3 (annoncé le 20.12.2024) prolonge le Test-Time-Scaling d'o1 : plus de raisonnement à l'exécution → de meilleurs résultats, avec des performances de pointe en mathématiques et en code.

87,5 % sur ARC-AGI — un test conçu contre la mémorisation, sur lequel les prédécesseurs restaient proches de zéro : un bond très remarqué vers l'adaptativité proche du niveau humain.

Avec o1 et DeepSeek-R1, l'ère des modèles de raisonnement ; o3-mini fin janv. 2025, le o3 complet en avril 2025.

Anti-hype : les 87,5 % furent obtenus en mode haute performance coûteux de la preview de décembre (le o3 publié ultérieurement était plus bas) ; les organisateurs d'ARC soulignent : o3 n'est PAS une AGI et chute à ~3 % sur l'ARC-AGI-2 plus difficile.

Organisations:OpenAI

2025Produits

L'IA agentique entre dans le grand public

En 2024 et 2025, ce que l'IA fait fondamentalement changea : répondre laissa place à agir. Le coup d'envoi fut donné par Anthropic en octobre 2024 avec Computer Use — premier grand laboratoire d'IA à proposer un modèle capable d'utiliser lui-même un ordinateur : regarder l'écran, déplacer la souris, cliquer, taper. En janvier 2025, OpenAI lança Operator, un agent naviguant de façon autonome sur le Web et accomplissant des tâches ; peu après arriva Deep Research, capable de mener des recherches en plusieurs étapes et de rédiger des rapports sourcés. Du chatbot qui génère du texte, on est passé à un système agissant au nom de l'utilisateur — le basculement qualitatif qu'avait déjà amorcé Devin (2024). Pour être rigoureux : les premières versions étaient lentes, sujettes aux erreurs et souvent limitées à des tâches étroitement définies ; les systèmes commercialisés comme agents en 2025 bénéficiaient d'une communication marketing très offensive, que leur fiabilité réelle ne suivait pas encore.

Anthropic, Computer Use (oct. 2024) : premier modèle frontier en bêta publique avec utilisation d'ordinateur — écran, souris, clavier.

OpenAI : Operator (janv. 2025) navigue de façon autonome sur le Web ; Deep Research (févr. 2025) mène des recherches en plusieurs étapes et rédige des rapports sourcés.

Le basculement du chatbot (générer du texte) vers l'agent (agir) — amorcé par Devin (2024), devenu mainstream en 2025.

Anti-hype : les premières versions étaient lentes, sujettes aux erreurs et étroitement limitées ; les systèmes étaient davantage promus qu'ils n'étaient fiables en 2025.

Organisations:Anthropic, OpenAI

2025Produits

DeepSeek-R1 : le choc de l'IA venue de Chine

Fin janvier 2025, un modèle d'IA fit bouger les marchés boursiers mondiaux de façon visible pour la première fois. Le laboratoire chinois DeepSeek publia le 20 janvier 2025 R1 — un modèle de raisonnement au niveau d'o1 d'OpenAI, mais avec des poids ouverts (licence MIT) et entraîné pour une fraction du coût attendu. Cela fut rendu possible grâce à un apprentissage par renforcement à grande échelle sur le modèle de base DeepSeek-V3. Lorsque l'application DeepSeek prit la tête des classements américains une semaine plus tard, l'ambiance bascula : le 27 janvier, Nvidia perdit environ 17 % de sa valeur — soit environ 600 milliards de dollars en une seule journée, la plus grande perte en une journée de l'histoire boursière américaine —, les investisseurs craignant que l'IA de pointe n'ait finalement pas besoin de chips toujours plus coûteuses. R1 ébranla plusieurs certitudes à la fois : que seuls les hyperscalers américains jouent dans la cour des grands, que les modèles de raisonnement restent fermés, et que plus de puissance de calcul est la seule voie vers le progrès. Pour être rigoureux : le chiffre de quelques millions de dollars qui circula ne concerne que la phase finale d'entraînement du modèle de base V3 (pas R1 lui-même, ni la recherche et le matériel dans leur ensemble) — et R1 n'était pas meilleur qu'o1 dans toutes les disciplines.

R1 (20 janv. 2025) : un modèle de raisonnement au niveau d'o1 avec des poids ouverts (licence MIT), entraîné par apprentissage par renforcement à grande échelle sur DeepSeek-V3.

Entraîné pour une fraction du coût attendu — ce qui remit en question l'hypothèse selon laquelle l'IA de pointe nécessite obligatoirement des budgets de calcul colossaux.

27 janv. 2025 : Nvidia -environ 17 % (environ 600 Mrd. $ en un jour, record américain) ; la Chine à la pointe de l'IA — l'IA devint visiblement une question de marché et de géopolitique.

Anti-hype : les quelques millions de dollars ne concernent que la phase finale d'entraînement du modèle de base V3 — pas R1 lui-même ni la recherche et le matériel dans leur ensemble ; R1 n'était pas uniformément meilleur qu'o1.

Personnes:Liang Wenfeng

Organisations:DeepSeek

2025Jalons

Stargate : l'IA comme infrastructure à l'échelle d'un État

Le 21 janvier 2025, l'intelligence artificielle fit son entrée à la Maison-Blanche sur la scène — comme projet d'infrastructure à l'échelle d'un État. OpenAI, SoftBank, Oracle et l'investisseur MGX annoncèrent le projet Stargate : jusqu'à 500 milliards de dollars sur quatre ans pour des centres de données d'IA aux États-Unis, dont 100 milliards devaient être déployés immédiatement. Il apparut ainsi clairement que la prochaine phase de l'IA est moins une question d'algorithmes qu'une question d'énergie et de construction : des capacités de calcul à l'échelle de centrales électriques et de parcs industriels. Pour un domaine dont le fil rouge depuis AlexNet est la puissance de calcul (voir CUDA 2007), c'était la prochaine étape logique, mais colossale — et un signal que l'IA est devenue une priorité nationale et géopolitique. Pour une évaluation honnête : une annonce n'est pas un centre de données achevé. La question de savoir si les 500 milliards seraient intégralement réunis était controversée dès le départ — même des participants et des observateurs doutaient publiquement du financement.

Jusqu'à 500 Mrd. $ sur quatre ans pour des centres de données d'IA aux États-Unis (OpenAI, SoftBank, Oracle, MGX) ; les 100 Mrd. initiaux devaient être déployés immédiatement.

Présenté à la Maison-Blanche : l'IA est devenue visiblement une question d'infrastructure nationale et de géopolitique.

La prochaine phase de l'IA est une question d'énergie et de construction — des capacités de calcul à l'échelle de centrales électriques (fil rouge depuis CUDA/AlexNet).

Anti-hype : une annonce n'est pas un centre de données achevé ; la question de savoir si les 500 Mrd. seraient intégralement réunis était controversée dès le départ.

Personnes:Sam Altman, Masayoshi Son, Larry Ellison

Organisations:OpenAI, SoftBank, Oracle

2025Réglementation

Sommet d'action sur l'IA de Paris

Les 10 et 11 février 2025, des chefs d'État et de gouvernement, des entreprises technologiques et des chercheurs se réunirent au Grand Palais de Paris pour le Sommet d'action sur l'IA — le troisième grand sommet sur l'IA après Bletchley (2023) et Séoul (2024), co-présidé par le président français Macron et le Premier ministre indien Modi. Remarquable était le changement de ton : si le premier sommet avait placé la sécurité de l'IA au centre, Paris mit avant tout l'accent sur les opportunités, les investissements et la compétitivité — le vice-président américain plaidait ouvertement contre trop de réglementation. En fin de compte, 58 États ainsi que l'UE et l'Union africaine signèrent une déclaration pour une IA inclusive et durable — mais les États-Unis et le Royaume-Uni refusèrent de signer. Le sommet révéla ainsi ouvertement la fracture transatlantique dans la gouvernance de l'IA. Pour une évaluation honnête : la déclaration n'était pas contraignante, et les critiques qualifièrent le sommet d'occasion manquée sur le thème de la sécurité.

Troisième sommet mondial sur l'IA (après Bletchley 2023, Séoul 2024) : 10-11 février 2025, Grand Palais, co-présidé par Macron et Modi.

Changement de ton de la sécurité vers les opportunités et la compétitivité : Paris a mis l'accent sur les investissements plutôt que sur les risques ; le vice-président américain plaidait contre une réglementation excessive.

58 États plus l'UE et l'Union africaine ont signé la déclaration finale — les États-Unis et le Royaume-Uni ont refusé de signer (fracture transatlantique ouverte).

Anti-hype : la déclaration n'était pas contraignante ; les critiques ont qualifié le sommet d'occasion manquée pour la sécurité de l'IA.

Personnes:Emmanuel Macron, Narendra Modi

2025Produits

Les modèles frontier en 2025

En 2025, la capacité de raisonnement qu'o1 et R1 avaient lancée devint le standard des modèles de pointe — à un rythme difficile à suivre. En mars, Google présenta Gemini 2.5 Pro, en mai Anthropic lança Claude 4 (Opus 4 et Sonnet 4), en août OpenAI sortit GPT-5 ; entre-temps vinrent Claude 3.7 (le premier modèle hybride capable au choix de répondre rapidement ou de réfléchir plus longuement), GPT-4.5, Llama 4 de Meta et Grok de xAI. La nouvelle génération combina deux axes : la réflexion étape par étape des modèles de raisonnement et la capacité d'agir de façon autonome (agentique). La programmation autonome sur de longues séquences fut particulièrement mise en avant. Pour être rigoureux : les laboratoires se surpassèrent semaine après semaine avec des records sur les benchmarks, chacun revendiquant la première place — de vraies avancées, mais le mot souvent invoqué d'AGI relevait davantage du marketing que de la réalité.

En 2025, le raisonnement (réflexion étape par étape) et l'agentique (action autonome) devinrent le standard des modèles de pointe ; Claude 3.7 introduisit le modèle hybride capable de répondre rapidement ou de réfléchir selon les besoins.

Course serrée : Gemini 2.5 Pro (mars), Claude 4 / Opus 4 (mai), GPT-5 (août) — plus Llama 4, Grok, DeepSeek. Plusieurs laboratoires au sommet.

Au centre : la programmation autonome sur de longues séquences (ex. Claude Code) — des modèles qui traitent des tâches entières de façon indépendante.

Anti-hype : records de benchmarks semaine après semaine, chaque laboratoire revendique la première place ; de vraies avancées, mais l'AGI reste plus marketing que réalité.

Organisations:Anthropic, OpenAI, Google DeepMind

1837Jalons

La Machine analytique de Babbage : l'idée de l'ordinateur

La machine de Babbage est la lointaine ancêtre de tout ordinateur — et donc du matériel sur lequel l'IA peut fonctionner.

Anti-hype : la Machine analytique ne fut jamais achevée du vivant de Babbage — elle resta un projet sur le papier. Et c'était un calculateur, pas une IA : le fondement, pas la pensée elle-même.

Personnes:Charles Babbage

1843Publications

Ada Lovelace : le premier programme — et une vision audacieuse

En 1843, Ada Lovelace traduisit un article sur la Machine analytique de Babbage et le compléta de volumineuses annotations personnelles qui dépassèrent largement l'original.

Sa note G contient une procédure de calcul des nombres de Bernoulli — souvent désignée comme le premier programme informatique publié.

Visionnaire, elle reconnut que la machine pouvait faire plus que calculer : elle pouvait traiter des symboles et même composer de la musique — l'idée du traitement universel de l'information.

Personnes:Ada Lovelace

1936Publications

La machine de Turing : ce que calculer signifie réellement

En 1936, Alan Turing publia l'article On Computable Numbers et y décrivit un simple modèle de calcul conceptuel — la machine de Turing, appelée ainsi plus tard.

Avec elle, Turing établit ce qui est calculable. Une machine de Turing universelle peut imiter toute autre — le plan théorique de l'ordinateur universel.

Personnes:Alan Turing

1943Publications

McCulloch & Pitts : le premier neurone artificiel

Le premier modèle mathématique du neurone en tant qu'unité de calcul logique : McCulloch et Pitts ont exprimé le fonctionnement du système nerveux en logique propositionnelle formelle.

Personnes:Warren S. McCulloch, Walter Pitts

Organisations:University of Illinois, College of Medicine, University of Chicago

1948Publications

La théorie de l'information de Shannon : naissance du bit

En 1948, Claude Shannon publia aux Bell Labs A Mathematical Theory of Communication et fonda la théorie de l'information.

Il introduisit le bit comme unité de mesure de l'information et définit l'entropie — quelle incertitude un message dissipe en moyenne.

Personnes:Claude Shannon

Organisations:Bell Labs

1949Publications

La règle de Hebb : comment l'apprentissage naît dans le cerveau

En 1949, le psychologue Donald Hebb publia The Organization of Behavior et formula la façon dont l'apprentissage pourrait fonctionner dans le cerveau au niveau des synapses.

La règle de Hebb : lorsque deux neurones connectés s'activent ensemble de façon répétée, leur connexion se renforce.

L'idée — apprendre signifie ajuster la force des connexions — devint le principe fondateur des réseaux de neurones apprenants (notamment les réseaux de Hopfield).

Personnes:Donald Hebb

1950Publications

Test de Turing : le jeu de l'imitation

Test de l'indistinguabilité : l'évaluateur tente de distinguer la machine de l'humain par conversation textuelle

Déplaça le focus des définitions philosophiques vers les démonstrations comportementales de l'intelligence

Posa la question fondamentale 'Les machines peuvent-elles penser ?' et proposa une approche opérationnelle

Établit le premier benchmark de l'IA et influença tous les développements ultérieurs en IA conversationnelle

Personnes:Alan Turing

Organisations:University of Manchester, Mind Journal

1956Percées

Logic Theorist : le premier programme de raisonnement

Recherche heuristique plutôt que force brute : depuis l'objectif à rebours, en estimant les étapes prometteuses (substitution, séparation, enchaînement) — inspiré de la heuristique de Pólya.

A prouvé 38 des 52 premiers théorèmes du chapitre 2 des Principia Mathematica — pour l'un d'eux, avec une preuve plus courte que l'originale.

Écrit dans le langage de listes IPL (développé principalement par Shaw), qui influença le LISP de McCarthy ; l'approche heuristique mena directement au General Problem Solver (1957).

Personnes:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organisations:RAND Corporation, Carnegie Institute of Technology

1956Conférences

Conférence de Dartmouth : naissance de l'IA

Naissance de l'IA en tant que discipline de recherche autonome, grâce à un atelier de 8 semaines réunissant les plus grands penseurs du domaine

John McCarthy forgea le terme 'Artificial Intelligence', définissant ainsi un nouveau champ de recherche

Établit le programme de recherche : langage machine, abstraction, résolution de problèmes et auto-amélioration

Réunit les pères fondateurs de l'IA : McCarthy, Minsky, Shannon, Rochester et le futur prix Nobel Herbert Simon

Personnes:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisations:Dartmouth College, IBM, Bell Labs

1957Publications

Le Perceptron : le premier réseau de neurones apprenant

Premier neurone artificiel entraînable avec entrées pondérées et fonction d'activation de Heaviside

Classification binaire par décision de seuil, efficace pour les schémas linéairement séparables

La règle d'apprentissage du Perceptron de Frank Rosenblatt corrigeait les poids à chaque erreur de classification, permettant ainsi l'apprentissage automatique

La limitation aux problèmes linéairement séparables a conduit par la suite à la critique XOR de Minsky et Papert

Personnes:Frank Rosenblatt

Organisations:Cornell Aeronautical Laboratory, US Navy

1958Percées

LISP : le langage de l'IA

John McCarthy conçut LISP en 1958 au MIT pour le calcul symbolique (listes plutôt que nombres) — pendant des décennies LE langage de la recherche en IA (systèmes experts, TAL, planification).

Introduisit des idées aujourd'hui standard : récursion, ramasse-miettes automatique, fonctions en tant que données, évaluation interactive (REPL).

S'appuya sur le traitement de listes d'IPL ; Steve Russell mit en oeuvre l'eval de McCarthy comme premier interpréteur et rendit ainsi LISP opérationnel.

Anti-hype : pas le premier langage de haut niveau (Fortran 1957 arriva auparavant) — mais le deuxième encore utilisé et pour l'IA le plus formateur.

Personnes:John McCarthy, Steve Russell

Organisations:MIT

1959Percées

Arthur Samuel : l'IA auto-apprenante et le terme « Machine Learning »

Dans le titre de son article de 1959, Samuel utilisa le terme « Machine Learning » — la première utilisation attestée dans le sens actuel ; il est considéré comme l'inventeur du terme.

Le premier programme auto-apprenant présenté publiquement : il ajustait lui-même les poids de sa fonction d'évaluation et mémorisait des positions (apprentissage par mémorisation).

Personnes:Arthur Lee Samuel

Organisations:IBM

1965Jalons

DENDRAL : pionnier des systèmes experts

DENDRAL déduisait la structure de molécules organiques à partir de données de spectrométrie de masse — en exploitant le savoir-faire d'experts chimistes plutôt qu'une recherche générale.

Personnes:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organisations:Stanford University

1965Publications

Logique floue : la logique de l'imprécision

L'article 'Fuzzy Sets' de Lotfi Zadeh en 1965, avec plus de 100 000 citations, a considérablement modifié la gestion de l'incertitude

A permis la modélisation mathématique du flou, de l'incomplétude et des informations contradictoires

A trouvé des applications dans les systèmes experts, les systèmes de contrôle et les processus de décision approximatifs

A posé les bases du Soft Computing et des approches modernes de l'IA pour traiter l'information imparfaite

Personnes:Lotfi Zadeh

Organisations:UC Berkeley, Information and Control

1966Percées

ELIZA : le premier chatbot

Premier programme informatique explicitement conçu pour la conversation homme-machine, achevé en 1966

Utilisait une simple méthodologie de reconnaissance de motifs et de substitution — le programme fonctionnait avec étonnamment peu de code

Créait l'illusion de la compréhension et de l'intelligence émotionnelle sans véritable compréhension du langage

Mit en évidence ce que l'on appellera plus tard l'effet ELIZA et mit en garde contre la projection de qualités humaines sur des programmes rudimentaires

Personnes:Joseph Weizenbaum

Organisations:MIT, MIT AI Laboratory

1969Publications

Perceptrons : le livre qui contribua à déclencher l'hiver de l'IA

En 1969, Marvin Minsky et Seymour Papert publièrent Perceptrons et analysèrent mathématiquement ce que les perceptrons monocouches peuvent faire — et ne pas faire.

Leur résultat célèbre : un perceptron monocouche ne peut pas apprendre la simple fonction XOR, car elle n'est pas linéairement séparable.

Le livre est considéré comme l'un des déclencheurs du premier hiver de l'IA : les financements des réseaux de neurones tarirent pendant plus d'une décennie.

Personnes:Marvin Minsky, Seymour Papert

Organisations:MIT

1969Percées

Shakey : Le premier robot mobile intelligent

Premier robot mobile capable de réfléchir à ses propres actions et de planifier des tâches complexes de manière autonome

Combinait caméra TV, sonar, processeurs et capteurs en un système mobile autonome

Développa le système de planification STRIPS pour la décomposition automatique des tâches et la recherche d'itinéraires

Unifia la vision par ordinateur, la navigation et le raisonnement logique dans un système physique

Personnes:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisations:SRI International, DARPA

1970Jalons

SHRDLU : comprendre le langage dans le monde des cubes

Vers 1970, Terry Winograd au MIT construisit SHRDLU — un programme qui comprenait des commandes en anglais simple et manipulait un monde virtuel de cubes.

SHRDLU pouvait résoudre des phrases ambiguës, se souvenir de ce qui avait été dit, répondre à des questions et même expliquer pourquoi il avait fait quelque chose.

Il était considéré comme le sommet le plus impressionnant de l'IA symbolique — la preuve que les machines peuvent comprendre le langage dans un monde limité de manière remarquable.

Personnes:Terry Winograd

Organisations:MIT

1970Publications

Modèles de Markov cachés établis

Algorithme de Baum-Welch comme cas particulier de l'Expectation-Maximization pour l'estimation des paramètres HMM

Première application pratique dans la reconnaissance vocale à partir du milieu des années 1970 à Carnegie Mellon et IBM

A transformé la modélisation de séquences du Template-Matching vers des approches probabilistes statistiques

A posé le fondement mathématique des méthodes modernes d'apprentissage automatique probabiliste

Personnes:Leonard Baum, Lloyd Welch, Ted Petrie

Organisations:Institute for Defense Analyses

1972Jalons

Prolog : programmer avec la logique

En 1972, Alain Colmerauer et Philippe Roussel développèrent à l'Université de Marseille le langage Prolog — abréviation de Programmation en Logique.

Prolog est déclaratif : on décrit des faits et des règles, et le système en déduit lui-même les conclusions logiques — sans indiquer étape par étape comment faire.

Prolog devint le langage le plus important de l'IA logique et symbolique — dans les systèmes experts, le traitement du langage naturel et le projet japonais de cinquième génération.

Personnes:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organisations:University of Aix-Marseille

1974Jalons

Le premier hiver de l'IA

La DARPA aux États-Unis et le Science Research Council britannique ont drastiquement réduit au milieu des années 1970 le financement de la recherche en IA non orientée

Le professeur James Lighthill a vivement critiqué en 1973 la recherche en IA pour ne pas avoir atteint ses objectifs et a signalé le problème de l'explosion combinatoire

La DARPA a résilié le contrat de 3 millions de dollars avec Carnegie Mellon pour les systèmes de compréhension du langage après des résultats décevants

Les programmes d'IA du début des années 1970 étaient limités à des versions triviales de problèmes réels et ressemblaient à des 'jouets' intelligents

Personnes:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisations:DARPA, British Science Research Council, Carnegie Mellon University

1980Publications

Néocognitron : l'ancêtre des réseaux convolutifs

En 1980, Kunihiko Fukushima présenta le Néocognitron — un réseau de neurones multicouche pour la reconnaissance de formes.

Le modèle était le cortex visuel (Hubel et Wiesel) : des cellules simples et complexes qui reconnaissent des caractéristiques par étapes et indépendamment de leur position.

Personnes:Kunihiko Fukushima

Organisations:NHK Broadcasting Science Research Laboratories

1980Jalons

L'ère des systèmes experts dans les années 1980

L'industrie de l'IA passe de quelques millions de dollars (1980) à plusieurs milliards (1988)

Les deux tiers des entreprises du Fortune 500 utilisent des systèmes experts dans leurs activités quotidiennes

Les recommandations thérapeutiques de MYCIN atteignent environ 65 % d'acceptation — comparable aux experts facultaires humains

Schéma classique d'une bulle économique : essor suivi d'un effondrement massif

Personnes:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisations:Stanford University, Fortune 500 Companies

1982Publications

Réseaux de Hopfield : Mémoire Associative

Mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées

Architecture récurrente avec connexions bidirectionnelles symétriques et propriétés collectives émergentes

La fonction d'énergie de Lyapunov guide le système vers des attracteurs à points fixes en 'descendant la pente' vers la mémoire stockée

A ravivé l'intérêt pour les réseaux de neurones et posé les bases du développement moderne des RNN

Personnes:John Hopfield

Organisations:California Institute of Technology, Bell Laboratories

1986Publications

L'algorithme de rétropropagation

Publié dans Nature le 9 octobre 1986 sous le titre 'Learning representations by back-propagating errors'

A rendu praticable et largement connu l'entraînement efficace des réseaux de neurones multicouches grâce au calcul du gradient

Les couches cachées ont appris à reconnaître automatiquement des caractéristiques importantes – une avancée importante par rapport aux perceptrons

A posé les fondements mathématiques de toutes les applications modernes d'apprentissage profond et des architectures Transformer

Personnes:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisations:University of California San Diego, Carnegie Mellon University, Nature

1987Jalons

Le deuxième hiver de l'IA

Le marché des machines Lisp spécialisées s'est effondré en 1987, les ordinateurs Apple et IBM étant devenus moins chers et plus performants

Les systèmes experts comme XCON se sont révélés trop exigeants en maintenance, trop rigides et incapables de traiter de nouvelles données

Jack Schwartz a réduit le financement de l'IA à la DARPA 'profondément et brutalement' et a qualifié les systèmes experts de 'programmation astucieuse'

Les coûts du matériel dédié à l'IA dépassaient de loin les retombées commerciales promises

Personnes:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organisations:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Jeux de données

UCI ML Repository : la bibliothèque de jeux de données

Fondé en 1987 en tant qu'archive FTP par David Aha et des étudiants de l'UCI pour l'analyse empirique des algorithmes d'apprentissage automatique

Devint la source primaire de jeux de données d'apprentissage automatique pour les étudiants, enseignants et chercheurs du monde entier

Cité des dizaines de milliers de fois – l'une des ressources de jeux de données les plus utilisées de toute l'informatique

Démocratisa la recherche en apprentissage automatique grâce à l'accès à des jeux de données de référence standardisés et de haute qualité

Personnes:David Aha, Patrick Murphy

Organisations:University of California Irvine, UCI

1988Publications

Réseaux bayésiens : raisonner sous l'incertitude

Judea Pearl (UCLA) établit le raisonnement sous l'incertitude comme un troisième pilier de l'IA — aux côtés du symbolisme et des réseaux de neurones.

Réseaux bayésiens : graphes de variables (noeuds) et de dépendances probabilistes (arêtes) — remplacèrent les facteurs de certitude ad hoc par un raisonnement rigoureux et efficace.

A marqué l'apprentissage automatique des années 1990 et 2000 ; Pearl reçut le prix Turing en 2011 et fonda ensuite l'inférence causale moderne.

Anti-hype : le théorème de Bayes date du XVIIIe siècle ; l'apport de Pearl fut de rendre le raisonnement probabiliste structurable et calculable pour l'IA — pas d'inventer la probabilité.

Personnes:Judea Pearl

Organisations:UCLA

1989Publications

Théorème d'approximation universelle

Preuve mathématique rigoureuse des capacités d'approximation universelle des réseaux de neurones

Prouve la capacité à modéliser des relations complexes et non linéaires dans des données réelles

Fournit la justification mathématique de l'utilisation des réseaux de neurones et un fondement théorique de confiance

Personnes:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisations:University of California San Diego

1989Percées

World Wide Web : l'invention du WWW

Proposition de gestion de l'information du 12 mars 1989 au CERN pour l'échange scientifique automatisé

HTML, HTTP et URI/URL comme technologies web fondamentales, développées d'ici fin 1990

A créé l'infrastructure de données pour les collections Common Crawl ultérieures et l'entraînement des Large Language Models

Personnes:Tim Berners-Lee

Organisations:CERN

1989Publications

LeNet et la naissance des réseaux de neurones convolutifs

Première combinaison réussie de réseaux de neurones convolutifs avec l'entraînement par rétropropagation

Reconnaissait les codes postaux écrits à la main pour le service postal américain : environ 5 % d'erreur sur les données de test, environ 1 % lorsque les cas incertains étaient rejetés

Les travaux pionniers de Yann LeCun aux Bell Labs ont établi les CNN comme solution viable de vision par ordinateur

A posé les fondements de toutes les architectures CNN modernes, d'AlexNet aux systèmes de vision actuels

Personnes:Yann LeCun, Bernhard Boser, John Denker

Organisations:AT&T Bell Labs, NIPS

1992Percées

TD-Gammon : apprendre en jouant contre soi-même

En 1992, Gerald Tesauro présenta chez IBM TD-Gammon — un réseau de neurones qui apprit à jouer au backgammon.

Il apprit presque uniquement par des parties contre lui-même, avec la méthode d'apprentissage par renforcement par différence temporelle — sans parties humaines comme modèle.

TD-Gammon atteignit un niveau quasi mondial et découvrit de nouvelles ouvertures que des professionnels adoptèrent — un précurseur d'AlphaGo, presque 25 ans plus tôt.

Personnes:Gerald Tesauro

Organisations:IBM

1992Publications

Q-Learning : le fondement de l'apprentissage par renforcement

Preuve mathématique de convergence de 1992 : le Q-Learning trouve garantiement des stratégies optimales avec une exploration infinie

Approche novatrice sans modèle : apprentissage d'actions optimales sans modèle d'environnement ni probabilités de transition

Solution élégante pour les problèmes de décision de Markov par optimisation progressive de la fonction Q

Pierre angulaire de l'apprentissage par renforcement moderne - encore aujourd'hui au coeur des Deep Q-Networks et de nombreux systèmes d'IA

Personnes:Chris Watkins, Peter Dayan

Organisations:King's College Cambridge, University College London

1993Jeux de données

Penn Treebank : l'annotation syntaxique transforme le traitement automatique des langues

Plus de 4,5 millions de mots avec annotation de catégories grammaticales, dont environ 3 millions avec annotation syntaxique détaillée - via un procédé semi-automatique en deux étapes

A établi des méthodes empiriques en linguistique informatique et est devenu le benchmark standard pour la recherche en analyse syntaxique

A considérablement modifié les algorithmes d'analyse syntaxique des approches fondées sur des règles vers des approches statistiques

A posé les bases de l'analyse syntaxique statistique et sert aux systèmes modernes de traitement automatique des langues comme benchmark d'évaluation

Personnes:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisations:University of Pennsylvania, Linguistic Data Consortium

1995Publications

AdaBoost : les apprenants faibles deviennent forts

Pondération adaptative : les cas difficiles sont davantage pondérés pour un apprentissage focalisé sur les points problématiques

Principe des apprenants faibles : des centaines de classificateurs simples produisent ensemble des prédictions très précises

Prix Gödel 2003 : l'une des distinctions les plus prestigieuses de l'informatique théorique pour la fondation de la théorie du boosting

Fondation des méthodes d'ensemble modernes : a inspiré XGBoost et toute une génération d'algorithmes de boosting

Personnes:Yoav Freund, Robert Schapire

Organisations:AT&T Bell Laboratories

1995Publications

Machines à vecteurs de support : classification à marge maximale

L'approche à marge maximale de Vapnik et Chervonenkis de 1964 étendue en solution pratique pour les données non séparables

L'astuce du noyau permet une classification non linéaire via des transformations implicites de haute dimension

Le principe de marge maximale maximise la distance entre les classes pour une généralisation optimale

Établit une alternative théoriquement fondée aux réseaux de neurones avec des garanties de généralisation

Personnes:Vladimir Vapnik, Corinna Cortes

Organisations:AT&T Bell Labs

1995Jeux de données

WordNet : le réseau sémantique du langage

Premier dictionnaire lexical construit comme réseau sémantique de synsets et de relations de sens, avec accès programmatique

Les synsets reliés par des relations sémantiques et lexicales forment un réseau de sens navigable

Reflète la mémoire sémantique humaine et relie la science cognitive à la linguistique computationnelle

A posé les bases des hiérarchies d'ImageNet, des Knowledge Graphs et des systèmes NLP sémantiques modernes

Personnes:George Miller, Christiane Fellbaum

Organisations:Princeton University, Cognitive Science Laboratory

1996Publications

PageRank : l'algorithme à des milliards de dollars de Google

Projet Stanford 'BackRub' analysait les données de backlinks pour l'importance web - base de Google

Analyse de liens novatrice : importance des pages web par les références plutôt que par la seule fréquence des mots-clés

Modèle du Random Surfer : une page est d'autant plus importante que le surfeur aléatoire la visite fréquemment via la structure de liens

De la recherche de Stanford est née Google Inc. - PageRank comme fondement du moteur de recherche le plus précieux

Personnes:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisations:Stanford University, Google Inc.

1997Compétitions

Deep Blue bat Kasparov

Première victoire d'un ordinateur sur un champion du monde d'échecs en titre dans un match sous conditions de tournoi standard (Deep Blue avait déjà remporté une partie individuelle en 1996)

200 millions de positions par seconde, bases de données de finales améliorées et conseils de grands maîtres

Triomphe technique d'IBM après des années de développement, de ChipTest en 1985 à Deep Thought puis Deep Blue

Tournant dans la perception publique de l'IA et preuve de la supériorité de la machine dans la réflexion stratégique complexe

Personnes:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisations:IBM, World Chess Championship

1997Publications

LSTM : Long Short-Term Memory

A résolu le problème du gradient qui s'évanouit grâce à un flux d'erreur constant sur des milliers de pas de temps

Cellules de mémoire spéciales avec carrousels d'erreur constante pour le stockage d'information à long terme

Les unités de porte multiplicatives apprennent à ouvrir et fermer l'accès au flux d'erreur constant

A permis la modélisation efficace de séquences à long terme pour la reconnaissance vocale et l'analyse de séries temporelles

Personnes:Sepp Hochreiter, Jürgen Schmidhuber

Organisations:Technical University of Munich, IDSIA

1998Jeux de données

MNIST : le standard du Machine Learning

70 000 chiffres écrits à la main sous forme d'images normalisées en niveaux de gris de 28x28 pixels

Sélectionné par Yann LeCun, Corinna Cortes et Christopher Burges à partir des bases de données NIST

Est devenu le point de départ incontournable du Machine Learning et le benchmark standard pour les algorithmes d'apprentissage automatique

A démocratisé l'enseignement du Machine Learning grâce à un accès simplifié, sans préparation de données fastidieuse

Personnes:Yann LeCun, Corinna Cortes, Christopher Burges

Organisations:AT&T Labs, Courant Institute

2001Publications

Random Forest : une avancée dans les méthodes d'ensemble

Avancée dans les ensembles : des centaines d'arbres de décision aléatoires votent ensemble pour de meilleures prédictions

Bagging + randomisation des features : chaque arbre voit des données et des features différents pour la diversité

Fondement théorique : bornes d'erreur de généralisation basées sur la force des arbres et leur corrélation

Algorithme de machine learning plug-and-play : réglage minimal pour une performance remarquable dans tous les domaines

Personnes:Leo Breiman, Adele Cutler

Organisations:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisations

Fondation du Future of Humanity Institute

Fondé en 2005 à l'Université d'Oxford, a grandi de 3 à environ 40 chercheurs jusqu'à sa fermeture en 2024

Travail précurseur sur les risques existentiels, le Longtermism et l'AI Governance comme nouveaux champs de recherche

A établi l'AI Alignment et l'AI Safety comme disciplines académiques légitimes à portée mondiale

A conféré à la recherche en sécurité de l'IA une crédibilité scientifique grâce à l'affiliation à Oxford

Personnes:Nick Bostrom, Anders Sandberg

Organisations:Oxford University, Future of Humanity Institute

2005Compétitions

DARPA Grand Challenge : la naissance de la conduite autonome

La 'Stanley' de Stanford a remporté en tant que premier véhicule autonome un parcours désertique de 212 km en moins de 7 heures

Passage de zéro véhicule ayant réussi (2004) à cinq arrivées (2005), dont quatre dans les délais, grâce à une meilleure IA

Reconnu comme une course logicielle : LiDAR, apprentissage automatique et données de conduite humaines comme clés du succès

Moment fondateur de la technologie de conduite autonome moderne — a inspiré Tesla, Google et toute une industrie

Personnes:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisations:DARPA, Stanford University, Stanford AI Lab

2006Publications

Deep Belief Networks : renaissance de l'apprentissage profond

Un algorithme d'apprentissage gourmand couche par couche permit pour la première fois l'entraînement efficace de réseaux de neurones profonds

Empilement de Restricted Boltzmann Machines (RBMs) comme blocs de construction pour des représentations complexes

Le pré-entraînement non supervisé résolut le problème d'initialisation des poids dans les réseaux profonds

Mit fin à la marginalisation des réseaux de neurones et fonda la renaissance moderne de l'apprentissage profond à partir de 2006

Personnes:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisations:University of Toronto, Neural Computation

2006Compétitions

Netflix Prize : l'algorithme à un million de dollars

1 million de dollars de récompense pour une amélioration de 10 % de l'algorithme Cinematch sur 3 ans de compétition

Plus de 100 millions d'évaluations de 480 000 utilisateurs pour 17 770 films, en tant que jeu de données public d'apprentissage automatique

A considérablement transformé le filtrage collaboratif grâce à la factorisation matricielle et aux machines de Boltzmann restreintes

Plus de 40 000 équipes de 186 pays, plus de 5 000 sur le tableau de qualification avec environ 44 000 soumissions – la puissance du crowdsourcing au service du Machine Learning

Personnes:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisations:Netflix, BellKor, AT&T Research

2007Jeux de données

Fondation Common Crawl créée

Fondée en 2007 avec pour mission d'archiver l'ensemble du Web public et de le rendre librement accessible

Augmente depuis le début du crawling en 2008 de milliards de pages par mois — ordre de grandeur désormais (en 2024) supérieur à 100 milliards de pages Web et plusieurs pétaoctets de données

Est devenue la principale source d'entraînement pour GPT-3, ChatGPT, LLaMA et d'autres grands modèles de langage modernes

L'approche à but non lucratif a démocratisé l'accès à des données linguistiques complètes pour la recherche en IA dans le monde entier

Personnes:Gil Elbaz, Common Crawl Team

Organisations:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Jalons

CUDA : la carte graphique devient le moteur de l'IA

Les GPU calculent des milliers d'opérations en parallèle. Cela correspond exactement aux réseaux de neurones, dont le coeur est constitué de multiplications matricielles.

Devint le moteur de l'apprentissage profond : AlexNet (2012) s'entraîna sur deux cartes GTX 580 avec CUDA ; depuis cuDNN (2014), pratiquement tous les grands frameworks s'appuient dessus.

Personnes:Ian Buck, John Nickolls

Organisations:NVIDIA

2008Publications

Zero-Shot Learning : apprendre sans données

Classification de classes sans données d'entraînement - uniquement avec des descriptions sémantiques des classes cibles

Réutilisation de modèles entraînés pour des tâches entièrement nouvelles grâce aux embeddings sémantiques

Les représentations sémantiques permettent la généralisation vers des concepts non vus

A posé les bases des capacités Few-Shot et Zero-Shot des Large Language Models modernes

Personnes:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisations:University of Montreal

2009Jeux de données

Les jeux de données CIFAR sont établis

CIFAR-10 avec 60 000 images dans 10 catégories, CIFAR-100 avec 100 classes plus détaillées comme benchmarks de vision par ordinateur

Est devenu l'un des benchmarks standardisés les plus importants pour les algorithmes de vision par ordinateur dans le monde

A permis l'évaluation et la comparaison systématiques de différentes approches d'apprentissage automatique

Krizhevsky a utilisé CIFAR-10 avant 2011 pour l'entraînement de CNN – précurseur de son succès AlexNet en 2012

Personnes:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisations:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Jeux de données

ImageNet : le jeu de données qui a tout changé

Fondé sur les hiérarchies de WordNet pour une catégorisation structurée des objets visuels

A fourni les données d'entraînement essentielles pour la percée d'AlexNet en 2012 et le développement de l'apprentissage profond

A transformé la recherche en vision par ordinateur et rendu possible la conduite autonome, la reconnaissance faciale et l'imagerie médicale

Personnes:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisations:Stanford University, Princeton University

2010Jalons

DeepMind est fondée

Fondée en septembre 2010 à Londres sous le nom DeepMind Technologies

Demis Hassabis (neuroscientifique, développeur de jeux), Shane Legg et Mustafa Suleyman

Acquise par Google en 2014 pour un montant estimé à 500 millions de dollars

Plus tard responsable d'AlphaGo, AlphaFold et d'autres systèmes d'IA majeurs

Personnes:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisations:DeepMind, Google

2010Compétitions

ImageNet Challenge : le départ de la compétition

Premier ILSVRC 2010 avec 1 000 catégories et 1,2 million d'images d'entraînement – bien au-delà de PASCAL VOC

A établi les taux d'erreur Top-1 et Top-5 comme métriques standard pour l'évaluation en vision par ordinateur

Compétition annuelle depuis 2010, ayant attiré plus de 50 institutions dans le monde et stimulé les avancées de la recherche

A créé la structure de compétition qui a permis la percée d'AlexNet en 2012 : un taux d'erreur Top-5 de seulement 15,3 % (soit environ 84,7 % de précision)

Personnes:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisations:Stanford University, ImageNet Team

2011Compétitions

Watson bat les champions de Jeopardy

A battu les légendes de Jeopardy Ken Jennings et Brad Rutter lors d'un défi télévisé

Première démonstration télévisée de capacités avancées de traitement du langage naturel devant des millions de téléspectateurs

Le système DeepQA combinait la recherche de connaissances avec un raisonnement complexe sans connexion Internet

Le commentaire 'computer overlords' de Ken Jennings a souligné la portée culturelle des progrès de l'IA

Personnes:David Ferrucci, Ken Jennings, Brad Rutter

Organisations:IBM Research, Jeopardy!, Sony Pictures Television

2011Produits

Lancement de Siri : l'assistante vocale devient grand public

Première assistante vocale grand public profondément intégrée à un smartphone pour des millions d'utilisateurs dans le monde

Le traitement avancé du langage naturel permit une communication intuitive entre l'humain et l'ordinateur

L'un des derniers grands produits de Steve Jobs avant son décès le 5 octobre 2011

Inaugura l'ère moderne des assistants vocaux et inspira tous les concurrents

Personnes:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisations:Apple, SRI International, DARPA

2012Publications

Régularisation Dropout

Résout le problème central du surapprentissage dans les réseaux de neurones profonds

Désactivation aléatoire de la moitié de tous les neurones durant l'entraînement

L'un des éléments fondateurs de la percée d'AlexNet à l'ImageNet — aux côtés de l'entraînement sur GPU, de ReLU et de la profondeur du réseau

Devient le standard dans la plupart des architectures modernes d'apprentissage profond, grâce à son efficacité éprouvée

Personnes:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisations:University of Toronto

2012Percées

Le succès d'AlexNet

AlexNet a remporté le défi ImageNet 2012 avec un taux d'erreur de 15,3 % – 10,9 points de pourcentage de mieux que le deuxième participant (26,2 %)

60 millions de paramètres, activations ReLU, couches de dropout et entraînement sur GPU ont établi de nouveaux standards techniques

A démontré de manière convaincante la supériorité pratique de l'apprentissage profond et mis fin au scepticisme envers les réseaux de neurones

A lancé le développement moderne de l'IA et fait des architectures CNN le standard en vision par ordinateur

Personnes:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisations:University of Toronto, ImageNet Challenge, NIPS

2012Percées

Révolution de l'apprentissage profond

L'apprentissage profond s'imposa comme technologie d'IA dominante, mettant fin à la prédominance des approches traditionnelles d'apprentissage automatique

La victoire d'AlexNet à l'ImageNet démontra pour la première fois la supériorité pratique des réseaux de neurones profonds

Le calcul sur GPU permit l'entraînement de grands réseaux de neurones et transforma en profondeur les méthodes de recherche en IA

Déclencha des investissements massifs dans la recherche en apprentissage profond et l'adoption industrielle des architectures neuronales

Personnes:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organisations:University of Toronto, NYU, University of Montreal

2013Publications

Word2Vec : les mots comme vecteurs

Premières représentations vectorielles denses et de faible dimension des mots avec des relations sémantiques

Schémas sémantiques et syntaxiques par arithmétique vectorielle : roi - homme + femme = reine

A permis le raisonnement analogique dans les espaces vectoriels grâce à la similarité cosinus et aux métriques de distance

A posé les bases des techniques d'embedding modernes et des Large Language Models basés sur les Transformers

Personnes:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisations:Google, Google Research

2013Publications

VAE : autoencodeurs variationnels

Inférence variationnelle pour l'approximation efficace de distributions a posteriori intractables dans des variables latentes continues

L'espace latent probabiliste permet l'interpolation continue et la génération de nouveaux points de données

Liaison fondatrice entre l'architecture autoencodeur et la modélisation générative probabiliste scalable par inférence variationnelle amortie

Architecture encodeur-décodeur avec Reparameterization Trick pour un aléatoire différentiable

Personnes:Diederik P. Kingma, Max Welling

Organisations:University of Amsterdam

2014Publications

Adam : l'optimiseur standard de l'apprentissage profond

En 2014, Diederik Kingma et Jimmy Ba présentèrent l'optimiseur Adam — dont le nom est dérivé d'Adaptive Moment Estimation (pas un acronyme).

Adam ajuste automatiquement le taux d'apprentissage pour chaque paramètre en combinant deux idées : le momentum et les tailles de pas adaptatives (comme dans RMSProp).

Personnes:Diederik Kingma, Jimmy Ba

2014Jeux de données

MS COCO : l'étalon-or de la vision par ordinateur

Objets dans leur contexte naturel plutôt qu'isolés – a considérablement transformé la vision par ordinateur, passant de scènes artificielles à des scènes réelles

2,5 millions d'annotations précises au pixel près dans 328 000 images – une qualité et une profondeur d'annotation sans précédent

Étalon-or avec métriques mAP pour des comparaisons objectives de modèles – a défini l'évaluation en vision par ordinateur

Fondement de YOLO, Mask R-CNN et de tous les systèmes CV modernes – des voitures autonomes à la réalité augmentée

Personnes:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisations:Microsoft Research, Cornell University, UC Berkeley

2014Publications

GAN - Réseaux antagonistes génératifs

Deux réseaux de neurones dans un jeu minimax : générateur contre discriminateur

Inventé en une nuit en 2014 à Montréal après une soirée au bar – a fonctionné immédiatement

Framework mathématiquement élégant pour l'optimisation antagoniste

Transforme fondamentalement l'IA générative – ouvre la voie à la génération d'images photoréalistes

Personnes:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisations:University of Montreal, NIPS Conference

2014Publications

Le mécanisme d'attention : la clé des LLM modernes

A résolu le goulot d'étranglement encodeur-décodeur : longueurs de phrases variables au lieu d'une compression vectorielle fixe

Attention dynamique au lieu d'encodage statique : focalisation adaptative sur les parties pertinentes de l'entrée

Apprend l'alignement entre les langues : quels mots se correspondent lors de la traduction ? Quelle correspondance précise entre termes source et cible ?

Précurseur conceptuel du Transformer : l'idée d'attention de Bahdanau a ouvert la voie à GPT, BERT et ChatGPT

Personnes:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisations:University of Montreal, Jacobs University Bremen

2014Produits

Lancement d'Amazon Alexa et Echo

Crée la catégorie de masse des enceintes intelligentes avec disponibilité vocale permanente

Rend l'IA vocale accessible à des millions de consommateurs via la vente publique à partir de 2015 – et pas seulement aux passionnés de technologie

Transforme les salons en centre de maison connectée à commande vocale

Marque le début d'un développement de marché à grande portée – Google, Apple et d'autres suivent

Personnes:Jeff Bezos, Amazon Alexa Team

Organisations:Amazon, Ivona (acquired 2013)

2015Percées

Deep Q-Networks : l'IA apprend à jouer à Atari à partir de pixels

Apprentissage à partir de pixels bruts : le système ne voyait que l'écran et le score — aucune caractéristique construite à la main, aucune connaissance spécifique par jeu.

Réseau de convolution + Q-learning + mémoire d'expérience (Experience Replay, introduit par Lin au début des années 1990) + un réseau cible ajouté en 2015, qui stabilisa l'entraînement.

Anti-hype : niveau humain dans environ la moitié des 49 jeux (43/49 meilleur que les méthodes antérieures) — proche de zéro pour les récompenses rares (Montezuma's Revenge).

Coup d'envoi de l'apprentissage par renforcement profond ; rendit DeepMind célèbre avant AlphaGo — le pont entre le Q-learning et AlphaGo et AlphaZero.

Personnes:Volodymyr Mnih, David Silver, Demis Hassabis

Organisations:Google DeepMind

2015Publications

Batch Normalization : une avancée importante dans l'entraînement des réseaux de neurones

Résout le problème de l'Internal Covariate Shift par la normalisation des activations dans chaque mini-lot

Environ 14 fois moins d'étapes d'entraînement pour la même précision — permet des taux d'apprentissage plus élevés et une initialisation robuste

Double bénéfice : accélération ET régularisation — remplace souvent le Dropout dans les architectures modernes

4,8 % d'erreur Top-5 ImageNet avec l'ensemble — surpasse les évaluateurs humains (environ 5,1 %) et établit un nouveau standard

Personnes:Sergey Ioffe, Christian Szegedy

Organisations:Google Inc., ICML Conference

2015Publications

YOLO : You Only Look Once

45 fps de performance de base, Fast YOLO 155 fps – des centaines à milliers de fois plus rapide que les détecteurs existants

Architecture en une passe formule la détection d'objets comme problème de régression au lieu du paradigme deux étapes

Division en grille de cellules avec prédiction directe des boîtes englobantes et probabilités de classe

A permis la vision par ordinateur en temps réel pour véhicules autonomes, surveillance et applications mobiles

Personnes:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisations:University of Washington, Allen Institute, Facebook AI Research

2015Percées

Développement de DeepMind AlphaGo

Première victoire d'un ordinateur sur un joueur de go professionnel sur un plateau complet sans handicap (Fan Hui 5:0)

Approche inédite fondée sur des réseaux de neurones profonds plutôt que sur des algorithmes codés en dur

Maîtrise de 10^170 configurations de plateau possibles — plus que le nombre d'atomes dans l'univers

La percée survint une décennie plus tôt que prévu par les experts en IA

Personnes:Demis Hassabis, David Silver, DeepMind Team

Organisations:DeepMind, Google

2015Produits

Tesla Autopilot : les systèmes d'assistance au grand public

La mise à jour logicielle du 14 octobre 2015 activa le matériel préinstallé – un nouveau concept pour l'industrie automobile

Capteurs basés sur Mobileye : caméra frontale, radar et 12 capteurs à ultrasons pour l'assistance à la conduite de niveau 2

Régulateur de vitesse adaptatif, assistant de maintien de voie et stationnement automatique – auparavant des fonctionnalités haut de gamme

Des centaines de millions de kilomètres dès la première année – attestant la maturité grand public des systèmes d'assistance à la conduite

Personnes:Elon Musk, Tesla Engineering Team

Organisations:Tesla Inc., Mobileye

2015Produits

TensorFlow : Le framework ML de Google devient open source

La licence Apache 2.0 a rendu le puissant système ML interne de Google librement accessible à tous

A remplacé DistBelief avec une vitesse doublée et une meilleure évolutivité

L'interface Python flexible et l'auto-différentiation ont significativement amélioré le développement ML

A permis à des millions de développeurs d'accéder à la technologie IA avancée

Personnes:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisations:Google, Google Brain

2015Publications

ResNet : les réseaux résiduels font progresser l'apprentissage profond

Les connexions skip transmettent directement les entrées et permettent l'entraînement de réseaux ultra-profonds

152 couches - 8 fois plus profond que VGG mais moins complexe grâce au cadre d'apprentissage résiduel

3,57 % de taux d'erreur Top-5 (ensemble) sur ImageNet, a remporté toutes les catégories ILSVRC et COCO 2015

A établi les connexions résiduelles comme standard pour les architectures modernes d'apprentissage profond

Personnes:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisations:Microsoft Research

2015Jalons

Fondation d'OpenAI

Fondée le 11 décembre 2015 à San Francisco

Mission : développer une IA générale sûre au bénéfice de toute l'humanité

Promis : 1 milliard de dollars d'Elon Musk, Peter Thiel, Reid Hoffman et d'autres - un engagement de financement sur plusieurs années, non immédiatement disponible

GPT-1 (2018) et GPT-2 (2019) sont nés encore dans la phase purement non lucrative ; en 2019 a suivi la structure capped-profit, dans laquelle s'inscrivent GPT-3 (2020) et ChatGPT (2022)

Personnes:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisations:OpenAI, Y Combinator

2016Compétitions

AlphaGo bat Lee Sedol

AlphaGo a battu Lee Sedol 4:1 et a démontré la supériorité de l'IA dans le jeu de plateau le plus complexe pour la première fois

Le fameux « Coup 37 » avec une probabilité de 1:10 000 a montré la créativité de la machine et a défié les traditions du Go

La combinaison du deep learning et de la recherche arborescente Monte Carlo a permis de maîtriser la complexité du Go

Plus de 200 millions de personnes ont suivi les matchs – un tournant pour la perception publique de l'IA

Personnes:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisations:DeepMind, Google, Korean Baduk Association

2016Publications

XGBoost : Le gradient boosting extrême domine le ML

Optimisation extrême du gradient boosting avec régularisation L1/L2 et gradients de second ordre

A dominé les compétitions ML des années 2010 et est devenu le choix standard des équipes gagnantes Kaggle

Construction d'arbres parallélisée et architecture scalable de bout en bout pour grands datasets

Algorithme de référence pour les données structurées en parallèle de la révolution du deep learning

Personnes:Tianqi Chen, Carlos Guestrin

Organisations:University of Washington

2016Produits

Google Assistant : la stratégie IA en priorité devient réalité

Conversation naturelle plutôt que commandes – 'dialogue continu' comme objectif pour l'IA vocale

Fondement de la stratégie IA en priorité de Pichai – 'Google individuel' pour chaque utilisateur

Vision d'expérience ambiante – interaction IA fluide sur tous les appareils et toutes les plateformes

La remontée de Google contre Siri et Alexa – du suiveur à l'ambition de jouer en tête dans l'IA vocale

Personnes:Sundar Pichai, Google Assistant Team

Organisations:Google Inc., Google I/O Conference

2016Organisations

Partnership on AI : les géants de la tech s'unissent

Alliance notable d'Amazon, Facebook, Google, DeepMind, IBM et Microsoft pour l'éthique de l'IA

Mission : l'IA au bénéfice des personnes et de la société grâce à l'éthique, l'équité et la transparence

Conseil paritaire prévu : au départ composé d'entreprises, puis complété par autant de membres non-corporatifs

Accent sur la coopération en matière de recherche et les meilleures pratiques sans activités de lobbying

Personnes:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisations:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Percées

La reconnaissance vocale atteint le niveau humain

Taux d'erreur de mots de 5,9 % atteignant le niveau humain sur Switchboard : aussi précis que des transcripteurs professionnels

Jalon historique : taux d'erreur le plus bas jamais mesuré dans le standard Switchboard

CNN + LSTM + modèles de langage neuronaux : combinaison systématique des dernières technologies d'apprentissage profond

Objectif de recherche de 25 ans atteint : parité humaine sur une tâche de transcription étroitement définie

Personnes:Xuedong Huang, Microsoft AI Research Team

Organisations:Microsoft AI and Research, Switchboard Corpus

2017Réglementation

Principes d'Asilomar : la communauté scientifique se fixe des garde-fous

Janvier 2017 : le Future of Life Institute rassembla d'éminents chercheurs en IA à Asilomar (Californie) — au site de la conférence historique sur le génie génétique de 1975.

Plus d'un millier de chercheurs en IA et autres signataires (dont Stephen Hawking, Elon Musk) — un consensus précoce que l'IA doit servir le bien commun.

Anti-hype : les principes étaient volontaires et non contraignants — fondateurs comme cadre de discussion, mais sans mécanisme d'application.

Personnes:Stephen Hawking, Elon Musk

Organisations:Future of Life Institute

2017Publications

MobileNet – l'IA pour smartphones

L'un des premiers modèles d'apprentissage profond conçu spécifiquement pour les smartphones et les appareils IoT

Convolutions séparables en profondeur : environ neuf fois moins de charge de calcul à efficacité égale

Permet le traitement par IA directement sur les appareils plutôt que dans le cloud – l'Edge Computing

Réduit la charge de calcul à environ un huitième de celle des convolutions classiques, à précision comparable

Personnes:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisations:Google, Google Research

2017Publications

Publication de l'article de recherche RLHF

Article 'Deep Reinforcement Learning from Human Preferences' publié en juin 2017

Idée centrale : L'IA apprend des préférences humaines au lieu de récompenses prédéfinies

Recherche conjointe d'OpenAI et DeepMind, incluant Paul Christiano et Dario Amodei

Le RLHF est devenu la technologie clé pour ChatGPT et les assistants IA modernes

Personnes:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisations:OpenAI, DeepMind

2017Publications

Transformer : 'Attention Is All You Need'

Le mécanisme d'auto-attention capture simultanément les dépendances entre toutes les positions de la séquence

L'abandon de la récurrence permet un traitement parallèle – nettement plus rapide que les modèles séquentiels

28,4 BLEU WMT anglais-allemand, 41,8 BLEU anglais-français – nouveaux standards de traduction automatique

Devenu la base de tous les grands modèles de langage modernes : GPT, BERT, ChatGPT reposent sur l'architecture Transformer

Personnes:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisations:Google Brain, Google Research

2017Réglementation

Le plan directeur de l'IA en Chine : la bataille pour le leadership mondial

Première stratégie nationale de l'IA d'une telle ampleur : planification gouvernementale coordonnée pour le leadership technologique mondial

Calendrier en trois étapes : compétitif en 2020, leader mondial dans certains domaines en 2025, superpuissance de l'IA en 2030

Investissement à l'échelle des milliards de yuans : financement public massif dans la recherche en IA, l'infrastructure et la formation de talents spécialisés

Ambition de leadership mondial : coup d'envoi de la course mondiale à l'IA entre la Chine, les États-Unis et l'Europe

Personnes:State Council of China, Chinese AI Research Community

Organisations:State Council of China, Chinese Academy of Sciences

2017Réglementation

Déclaration de Montréal pour une IA responsable

10 principes éthiques et 59 recommandations pour un développement responsable de l'IA, dotés d'une légitimité démocratique

Accent mis sur le bien-être, l'autonomie, la justice, la vie privée, la démocratie et la durabilité écologique

Initiée par l'Université de Montréal avec plus de 400 participants issus de différents secteurs

Plus de 500 signataires ; a influencé la gouvernance internationale de l'IA et les initiatives de régulation ultérieures

Personnes:Yoshua Bengio, Montreal AI Ethics Team

Organisations:Université de Montréal, Montreal Institute for Learning Algorithms

2017Percées

AlphaZero maîtrise trois jeux

A appris trois jeux complexes entièrement de zéro – avec uniquement les règles du jeu, sans connaissances humaines préalables ni bases de données

A atteint des performances surhumaines aux échecs (4h), au shogi (2h) et au go (~8h) par pur jeu en solo

A appris par des millions de parties en solo et l'apprentissage par renforcement sans entrées externes

N'évaluait que 60 000 positions par seconde contre 60 millions pour Stockfish – mais de manière bien plus ciblée

Personnes:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisations:DeepMind, Google, Science Magazine, ArXiv

2018Jalons

Prix Turing pour le Deep Learning

Yoshua Bengio, Geoffrey Hinton et Yann LeCun — les trois parrains du Deep Learning — pour les percées à l'origine des réseaux de neurones modernes.

Le prix A.M. Turing (annoncé en mars 2019) est la plus haute distinction en informatique ; les réseaux de neurones profonds y furent reconnus comme élément central de l'informatique.

La consécration officielle de la révolution du Deep Learning de 2012 — et précurseur du prix Nobel de physique 2024 pour la même ligne de recherche.

Anti-hype : le Deep Learning a de nombreux contributeurs (notamment Schmidhuber, qui critiqua publiquement) ; le prix honore le rôle central du trio, non une paternité exclusive.

Personnes:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organisations:ACM

2018Publications

GPT-1 : naissance du pré-entraînement génératif

A établi le pré-entraînement non supervisé sur de grands corpus de textes comme base des modèles de langage

A prouvé l'application réussie du Transfer Learning pour de nombreuses tâches de traitement du langage naturel

L'architecture Transformer à décodeur uniquement en douze couches est devenue le modèle pour toute la série GPT

A fondé l'ère des grands modèles de langage et le paradigme pré-entraînement/ajustement fin

Personnes:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisations:OpenAI

2018Publications

BERT améliore considérablement la compréhension du langage

Premier modèle de langage bidirectionnel profond prenant en compte le contexte gauche et droit simultanément dans toutes les couches

Atteignit de nouveaux records dans 11 tâches de NLP et améliora le score GLUE de 7,7 points de pourcentage pour atteindre 80,5 %

La publication en open source a permis le fine-tuning du modèle pré-entraîné sur des tâches spécifiques en environ 30 minutes sur un seul Cloud-TPU

Établit le paradigme pré-entraînement–fine-tuning pour tous les modèles de langage modernes

Personnes:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisations:Google Research, Google AI Language

2019Publications

GPT-2 - "Trop Dangereux pour être Publié"

Décision sans précédent : OpenAI retient le modèle complet de 1,5B paramètres

Craintes de fausses nouvelles, usurpation d'identité et spam automatisé sur les réseaux sociaux

Communauté IA divisée : progrès éthique vs. accusation de fermeture de la recherche

Publication complète après 9 mois faute de preuves d'abus

Personnes:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisations:OpenAI

2019Compétitions

AlphaStar atteint le niveau Grand Maître

AlphaStar a atteint le niveau Grand Maître avec les trois races de StarCraft II et s'est classé parmi les 0,2 % meilleurs joueurs actifs sur Battle.net

A battu les joueurs professionnels MaNa et TLO, chacun sur le score de 5:0, avant le succès public

Apprentissage par renforcement multi-agents avec entraînement basé sur une ligue de différentes stratégies et contre-stratégies

Première IA à maîtriser un jeu esports populaire sans restrictions au plus haut niveau

Personnes:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisations:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publications

T5 - Text-to-Text Transfer Transformer

Approche unifiée innovante : Toutes les tâches NLP comme problèmes texte-vers-texte

« Tout est Texte » - le paradigme unifie traduction, résumé, Q&R

Établit le paradigme des modèles de fondation pour les grands modèles de langage modernes

Introduit le dataset complet C4 - Colossal Clean Crawled Corpus

Personnes:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisations:Google AI, Google Research

2020Publications

RAG : les modèles de langage consultent d'abord

En 2020, Patrick Lewis et ses collègues chez Facebook AI présentèrent la méthode Retrieval-Augmented Generation (RAG).

Au lieu de répondre uniquement de mémoire, le modèle de langage cherche d'abord des documents pertinents (par exemple dans Wikipedia) et fonde sa réponse sur ceux-ci.

Personnes:Patrick Lewis

Organisations:Facebook AI Research, University College London, New York University

2020Publications

Lois de mise à l'échelle des réseaux de neurones

Découverte de lois de puissance fondamentales sur sept ordres de grandeur

Des équations élégantes permettent des prévisions systématiques de l'allocation des ressources ; précisées en 2022 par Chinchilla

Établit le paradigme « Plus grand, c'est meilleur » pour le développement systématique des grands modèles de langage

Transforme le développement de l'IA des essais et erreurs vers une méthodologie scientifique

Personnes:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisations:OpenAI, Johns Hopkins University

2020Publications

GPT-3 : le modèle à 175 milliards de paramètres

175 milliards de paramètres – plus de 100 fois plus grand que GPT-2 avec d'importants effets de mise à l'échelle

Capacités Few-Shot émergentes sans ajustement fin : nouvelles tâches résolubles avec seulement quelques exemples

A montré des capacités émergentes : traduction, arithmétique, génération de texte au niveau humain

A posé les bases de ChatGPT et a commercialisé les grands modèles de langage via un accès par API

Personnes:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisations:OpenAI

2020Publications

DDPM : Modèles de diffusion établis

Nouvelle classe de modèles génératifs basés sur la thermodynamique hors équilibre et les processus de débruitage

Approche de décompression progressive avec perte comme généralisation du décodage autorégressif

A posé les fondations mathématiques de Stable Diffusion et de la génération texte-vers-image moderne

Score FID 3,17 sur CIFAR-10 a démontré une qualité d'image rivalisant avec les GAN et établi la diffusion comme standard

Personnes:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisations:UC Berkeley

2020Publications

Vision Transformer : 'An Image is Worth 16x16 Words'

Première application scalable et basée sur les patches de l'architecture Transformer pure à la vision par ordinateur, sans composantes CNN

Les patches d'images (typiquement 16x16 pixels) traités comme des séquences de tokens ont transformé la conversion image-en-séquence

L'auto-attention appliquée au traitement d'images a prouvé l'universalité de l'architecture Transformer

A atteint le niveau des CNN de pointe après pré-entraînement à grande échelle et a inspiré les modèles de vision basés sur l'attention

Personnes:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisations:Google Research, Google Brain

2020Percées

Accomplissement d'AlphaFold

AlphaFold 2 a dominé CASP14 avec un score GDT de 92,4, battant clairement 145 autres équipes

A résolu le problème du repliement des protéines vieux de 50 ans et a fondamentalement changé la biologie structurale

L'architecture basée sur l'attention a atteint une précision expérimentale dans la prédiction de structure protéique

Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024 pour cette réussite

Personnes:Demis Hassabis, John Jumper

Organisations:DeepMind, Google, CASP, University of Washington

2021Percées

CLIP : le pont entre image et langage

Entraînement contrastif : deux encodeurs (image + texte) apprennent à partir d'environ 400 millions de paires Web à placer images et textes correspondants dans le même espace vectoriel.

Zéro-shot : les catégories sont décrites en mots, sans entraînement sur la tâche — 76,2 % sur ImageNet, à égalité avec un ResNet-50 qui avait besoin de 1,28 million d'images annotées.

Fondement de la vague texte-vers-image : DALL-E 2 est bâti sur les plongements CLIP, Stable Diffusion utilise directement l'encodeur de texte de CLIP.

Personnes:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organisations:OpenAI

2021Produits

DALL-E crée des images à partir de texte

A développé des capacités créatives étonnantes : anthropomorphisation, combinaison de concepts, rendu de texte

Version de GPT-3 à 12 milliards de paramètres, entraînée avec 250 millions de paires image-texte provenant d'Internet

A ouvert une nouvelle dimension de la créativité de l'IA et inspiré le mouvement de l'IA générative

Personnes:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisations:OpenAI, DALL-E Team

2021Jalons

Fondation d'Anthropic

Fondée en janvier 2021 à San Francisco

Dario Amodei (PDG, ex-VP Research chez OpenAI) et Daniela Amodei (présidente) – membres d'une équipe fondatrice de sept personnes

Accent sur la sécurité de l'IA, l'interprétabilité et la Constitutional AI

A développé Claude, l'un des principaux assistants IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organisations:Anthropic, OpenAI

2021Produits

GitHub Copilot : Le programmeur pair IA

Preview technique le 29 juin 2021 avec accès limité via liste d'attente pour développeurs sélectionnés

Propulsé par OpenAI Codex, entraîné avec des milliards de lignes de code des dépôts GitHub publics

Taux de réussite de 28,8% au premier essai (HumanEval), 70,2% avec 100 tentatives d'échantillonnage

A établi la programmation assistée par IA comme outil viable et inspiré de nouveaux outils de codage

Personnes:Nat Friedman, GitHub Team, OpenAI Team

Organisations:GitHub, OpenAI, Microsoft

2021Produits

OpenAI Codex : l'IA programme pour les humains

Langage naturel vers code : 'Écris une fonction de tri' devient du Python/JavaScript fonctionnel

GitHub Copilot (Technical Preview à partir du 29 juin 2021) : assistant de programmation IA de premier plan, entraîné sur 54 millions de dépôts de code

Plus de 12 langages de programmation : de Python à Swift - l'IA comprend l'intention du développeur en langage naturel

Gain de productivité notable : Codex a démontré le potentiel de l'IA pour le travail cognitif créatif

Personnes:OpenAI Team, GitHub Development Team

Organisations:OpenAI, GitHub, Microsoft

2022Publications

InstructGPT : le pont vers ChatGPT

OpenAI appliqua le RLHF (apprentissage par renforcement à partir du retour humain) à GPT-3 pour qu'il suive des instructions et corresponde à l'intention des utilisateurs.

Surprenant : un InstructGPT de 1,3 Mrd. de paramètres fut préféré au GPT-3 100 fois plus grand (175 Mrd.) — l'alignement l'emporte sur la taille brute.

Le pont direct entre l'idée du RLHF (2017) et ChatGPT (fin 2022) — il explique pourquoi ChatGPT fonctionna si bien.

Anti-hype : InstructGPT n'inventa pas le RLHF (un article de 2017 le fit) ; il montra pour la première fois à grande échelle à quel point l'alignement rend un modèle plus utile.

Personnes:Long Ouyang

Organisations:OpenAI

2022Publications

Chinchilla : repenser la mise à l'échelle

Les lois de mise à l'échelle de Chinchilla : pour un budget de calcul fixe, la taille du modèle et les données d'entraînement devraient croître à peu près de concert.

Les plus grands modèles (GPT-3, Gopher) étaient surdimensionnés et sous-entraînés. Chinchilla (70 Mrd. de paramètres, 1 400 Mrd. de tokens) battit Gopher, 4× plus grand (280 Mrd.).

A transformé la façon dont pratiquement tous les modèles de pointe ultérieurs furent entraînés (ratio données/paramètres) ; a notamment influencé Llama.

Anti-hype : Chinchilla n'inventa pas les lois de mise à l'échelle, mais corrigea Kaplan (2020) ; les modèles ultérieurs sur-entraînent délibérément pour une utilisation plus efficace.

Personnes:Jordan Hoffmann

Organisations:Google DeepMind

2022Produits

PaLM : le géant de Google avec 540 milliards de paramètres

En 2022, Google présenta PaLM — un modèle de langage avec 540 milliards de paramètres, entraîné sur des milliers de puces TPU.

PaLM excellait dans le raisonnement en plusieurs étapes : avec des prompts Chain-of-Thought, il résolvait des tâches textuelles et expliquait même des blagues.

Il alimenta l'idée des capacités émergentes — des compétences qui apparaissent brusquement à partir d'une certaine taille de modèle.

Organisations:Google

2022Produits

Stable Diffusion : Génération d'images open-source

Premier modèle texte-vers-image open-source puissant avec code source disponible sur GitHub

Modèles de diffusion latente avec débruitage itératif dans les espaces latents au lieu de manipulation directe de pixels

Croissance explosive de la communauté avec d'innombrables variantes, outils et applications

A brisé le monopole des systèmes propriétaires et démocratisé la génération d'images IA de haute qualité

Personnes:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisations:Stability AI, CompVis, Runway

2022Percées

OpenAI publie Whisper

Publié le 21 septembre 2022 en open source

Couvre 99 langues et transcrit de manière robuste même avec des accents et des bruits de fond - le plus performant en anglais, car la majorité des données d'entraînement est en anglais

Entraîné sur 680 000 heures de données audio multilingues provenant d'Internet

A démocratisé la reconnaissance vocale de haute qualité grâce à la disponibilité en open source

Personnes:Alec Radford, Jong Wook Kim, Tao Xu

Organisations:OpenAI

2022Produits

ChatGPT marque un tournant dans l'utilisation de l'IA

Mis à la disposition du grand public le 30 novembre 2022 en tant qu'aperçu de recherche gratuit

A atteint 1 million d'utilisateurs en 5 jours, 100 millions en 2 mois — alors la progression la plus rapide d'une application grand public (dépassée ensuite par Threads)

Première IA puissante sans barrières techniques — accès direct par le Web pour tout internaute

A démocratisé l'IA et déclenché la vague actuelle de l'IA générative dans la société et l'économie

Personnes:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisations:OpenAI, Microsoft, ChatGPT

2022Publications

Constitutional AI — la sécurité de l'IA par constitution

L'IA s'autocritique et s'améliore face aux contenus préjudiciables — sans annotations humaines pour cette évaluation

Alternative axée sur la sécurité aux approches purement performatives telles que ChatGPT

Triple objectif : utile, honnête et inoffensif grâce à des principes éthiques

RLAIF : Reinforcement Learning from AI Feedback remplace les évaluations humaines pour l'innocuité (l'utilité reste entraînée via RLHF)

Personnes:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisations:Anthropic

2023Réglementation

NIST AI Framework : les États-Unis définissent une IA digne de confiance

Quatre fonctions essentielles : Govern, Map, Measure, Manage pour une gestion systématique des risques de l'IA

Sept caractéristiques d'une IA digne de confiance : sûre, résiliente, explicable, respectueuse de la vie privée, équitable, transparente et fiable

Approche multi-parties prenantes volontaire : 240+ organisations ont élaboré conjointement des standards

Agence fédérale de normalisation : le NIST a développé le AI RMF sur mandat du National AI Initiative Act of 2020

Personnes:NIST AI Team, 240+ Contributing Organizations

Organisations:NIST, US Department of Commerce, Biden Administration

2023Produits

LLaMA : modèle de fondation open source

Code d'inférence sous licence GPLv3 ; les poids des modèles ont été diffusés au cas par cas, exclusivement pour la recherche non commerciale

Modèles de 7 milliards à 65 milliards de paramètres, entraînés exclusivement sur des jeux de données accessibles au public

A permis aux chercheurs sans grande infrastructure d'étudier des modèles de langage avancés

Plusieurs tailles de modèles pour répondre à des exigences matérielles et des objectifs de recherche variés

Personnes:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisations:Meta AI, FAIR

2023Produits

Claude et Constitutional AI

Framework Constitutional AI avec entraînement en deux phases : autocritique basée sur des principes éthiques, puis affinement basé sur les retours de l'IA

Approche de sécurité novatrice sans évaluations humaines des dommages - purement par supervision de l'IA

Publication simultanée de Claude et Claude Instant pour différentes exigences d'application

A établi « utile, inoffensif, honnête » comme valeurs fondamentales pour le développement responsable de l'IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisations:Anthropic, Constitutional AI, AI Safety

2023Produits

GPT-4 : modèle d'IA multimodal

Grand modèle multimodal avec entrées textuelles et visuelles, capacités de vision pour documents et diagrammes

Examen du barreau dans les 10 % supérieurs contre les 10 % inférieurs pour GPT-3.5, amélioration du SAT de mathématiques du 70e au 89e percentile

6 mois d'alignement itératif avec tests adversariaux et retours ChatGPT pour une sécurité améliorée

L'intégration dans ChatGPT Plus a rendu l'IA multimodale avancée accessible aux consommateurs

Personnes:Sam Altman, OpenAI Team

Organisations:OpenAI

2023Produits

Midjourney V5 : l'art IA photoréaliste

Qualité d'image photoréaliste quasi impossible à distinguer de vraies photographies

A suscité des réactions intenses au sein de la communauté créative – de l'enthousiasme aux inquiétudes existentielles

A considérablement amélioré l'art généré par IA grâce à une représentation précise des mains et une sensibilité accrue aux prompts

A établi de nouveaux standards pour la génération commerciale d'images IA avec des répercussions importantes sur l'industrie créative

Personnes:David Holz, Midjourney Team

Organisations:Midjourney Inc

2023Réglementation

Décret Biden sur l'IA — première réglementation américaine globale

Gouvernance de l'IA la plus complète jamais mise en oeuvre — 110 pages, le décret exécutif le plus long de l'histoire

Tests de sécurité obligatoires et résultats de red teaming pour les systèmes d'IA puissants

Defense Production Act : obligation de notification pour les systèmes d'IA présentant des risques pour la sécurité nationale

A positionné les États-Unis en 2023 comme pionniers d'une gouvernance responsable de l'IA — révoqué en 2025

Personnes:Joe Biden, Kamala Harris

Organisations:White House, NIST, Department of Homeland Security

2023Réglementation

Lettre de pause et Bletchley : la sécurité de l'IA devient mondiale

Novembre 2023 : premier sommet mondial sur la sécurité de l'IA à Bletchley Park, en Grande-Bretagne — là où Turing déchiffrait des codes pendant la guerre.

Anti-hype : la pause ne vint jamais ; la déclaration n'était pas contraignante. Les deux placèrent des sujets à l'agenda, mais ne créèrent pas de règles applicables.

Organisations:Future of Life Institute, UK Government

2023Produits

Mistral & Mixtral : les modèles ouverts d'Europe

Printemps 2023 : à Paris, Arthur Mensch (ex-Google DeepMind) ainsi que Guillaume Lample et Timothée Lacroix (ex-Meta) fondèrent Mistral AI — la réponse européenne aux laboratoires américains.

Septembre 2023 : Mistral 7B — un petit modèle à poids libres (Apache 2.0), qui surpassait le plus grand Llama 2 13B.

Décembre 2023 : Mixtral 8x7B, un modèle Mixture-of-Experts ouvert — sur de nombreux benchmarks au niveau de GPT-3.5, mais efficace (seulement ~13 Mrd. de paramètres actifs sur ~47 Mrd.).

Personnes:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organisations:Mistral AI

2023Produits

Google Gemini : famille d'IA multimodale

Développé dès le départ pour la multimodalité : compréhension du langage, de l'audio, du code et de la vidéo intégrée nativement

A dépassé GPT-3.5 dans 6 des 8 benchmarks standard et a établi Google comme alternative sérieuse à ChatGPT

Trois tailles de modèles : Ultra (complexe), Pro (équilibré), Nano (embarqué) pour différentes applications

Bard ordinaire a reçu Gemini Pro le jour de l'annonce ; Bard Advanced avec Gemini Ultra a été annoncé pour début 2024

Personnes:Sundar Pichai, Demis Hassabis, Gemini Team

Organisations:Google, DeepMind, Google AI

2024Produits

L'IA incarnée : les modèles s'emparent d'un corps

2024 fut l'année de l'IA incarnée : des modèles de langage qui ne vivaient jusqu'alors que dans le chat s'installèrent dans des robots — notamment des humanoïdes.

L'espoir : un robot qui réunit langage, vision et action dans un seul modèle de base pourrait apprendre des tâches générales dans le monde réel — un moment ChatGPT pour la robotique.

Organisations:Figure AI, NVIDIA, Physical Intelligence

2024Produits

Waymo : le taxi sans chauffeur devient quotidien

En 2024, Waymo, la filiale de voitures-robots de Google, devint le premier prestataire de taxis sans chauffeur à grande échelle — ouvert au public dans plusieurs villes américaines.

À l'été 2024, Waymo annonçait plus de 100 000 trajets payants par semaine, entièrement sans conducteur de sécurité au volant.

Après plus d'une décennie de promesses, c'était la première preuve concrète que la conduite autonome peut fonctionner comme un véritable service.

Organisations:Waymo, Alphabet

2024Produits

Sora : des vidéos générées par IA à partir de texte

Génération texte-vidéo photoréaliste produisant des vidéos HD de plusieurs minutes, surpassant les systèmes existants

Diffusion Transformer basé sur la technologie DALL-E 3 pour la cohérence temporelle

Simule souvent un mouvement physiquement plausible et maintient la cohérence sur toute la durée de la vidéo

Perturbation potentielle de l'industrie cinématographique – Tyler Perry suspendit une expansion de studio à 800 millions de dollars

Personnes:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisations:OpenAI

2024Produits

Famille Claude 3 avec capacités multimodales

Traitement visuel sophistiqué pour photos, graphiques, diagrammes et dessins techniques

Opus (intelligence maximale), Sonnet (équilibre), Haiku (vitesse) pour différents cas d'utilisation

Capacités multimodales permettant le traitement de formats visuels en plus du traitement textuel

Claude 3 Opus a obtenu les meilleurs résultats en MMLU, GPQA et autres benchmarks cognitifs

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisations:Anthropic, Claude API, Amazon Bedrock

2024Produits

Devin : le premier ingénieur logiciel IA autonome

Développement logiciel entièrement autonome : planification, codage, débogage, test et déploiement sans intervention humaine

Gère des tâches d'ingénierie complexes, de la migration de code au développement complet d'applications

13,86 % de taux de réussite sur SWE-Bench — 7 fois supérieur au précédent niveau de l'état de l'art de 1,96 %

Déclencha un débat sur l'avenir du développement logiciel et inspira des alternatives open source comme OpenHands

Personnes:Scott Wu, Steven Hao, Walden Yan

Organisations:Cognition Labs, SWE-Bench

2024Percées

AlphaFold 3 : l'IA prédit les interactions entre molécules

En mai 2024, Google DeepMind et Isomorphic Labs présentèrent AlphaFold 3.

Là où AlphaFold 2 prédisait le repliement de protéines individuelles, AlphaFold 3 modélise leurs interactions — avec l'ADN, l'ARN, des molécules médicamenteuses et des ions.

Particulièrement précieux pour la recherche pharmaceutique : il est désormais possible d'évaluer in silico comment un principe actif se lie à sa protéine cible.

Organisations:Google DeepMind, Isomorphic Labs

2024Compétitions

AlphaProof : l'IA décroche l'argent aux Olympiades de mathématiques

AlphaProof formule des preuves dans le langage formel Lean et les vérifie lui-même ; l'apprentissage s'est fait par renforcement. AlphaGeometry 2 a pris en charge le problème de géométrie.

Pour la première fois, une IA atteignit le niveau des médailles dans cette compétition prestigieuse — une étape importante pour le raisonnement machine avec des preuves vérifiables.

Organisations:Google DeepMind

2024Réglementation

EU AI Act : première loi complète sur l'IA

Première loi complète sur l'IA au monde, avec 180 considérants et 113 articles couvrant l'ensemble du cycle de vie des systèmes d'IA

Quatre niveaux de risque : applications interdites, à haut risque, à risque limité et minimal — plus des règles spécifiques pour les modèles de fondation GPAI

L'effet extraterritorial, à l'instar du RGPD, pourrait établir des standards mondiaux en matière d'IA et influencer la conformité à l'échelle internationale

Amendes jusqu'à 35 millions d'euros ou 7 % du chiffre d'affaires annuel, mise en oeuvre échelonnée de 2025 à 2027

Personnes:Ursula von der Leyen, Thierry Breton

Organisations:European Union, European Parliament, European Commission

2024Produits

OpenAI O1 - une avancée dans le raisonnement

Premier modèle dont le Chain-of-Thought est entraîné et mis à l'échelle via l'apprentissage par renforcement - pour un raisonnement structuré

Nouvelle dimension de mise à l'échelle : plus il réfléchit longtemps, meilleurs sont les résultats

Nouvelle approche : de la reproduction de schémas à une résolution de problèmes améliorée

Avancée importante dans le raisonnement complexe - capacités de résolution de problèmes améliorées

Personnes:Sam Altman, Noam Brown, OpenAI Team

Organisations:OpenAI

2024Jalons

Les prix Nobel de l'IA 2024

8 octobre 2024 : prix Nobel de physique à John Hopfield et Geoffrey Hinton pour les fondements de l'apprentissage automatique avec des réseaux de neurones — un prix de physique pour l'IA.

9 octobre 2024 : prix Nobel de chimie à David Baker (conception de protéines) ainsi qu'à Demis Hassabis et John Jumper de DeepMind (AlphaFold, repliement des protéines).

Pour la première fois, deux prix Nobel scientifiques la même année récompensèrent les fondements de l'IA — un tournant dans le statut du domaine.

Personnes:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organisations:Royal Swedish Academy of Sciences

2024Percées

OpenAI o3 : percée sur ARC-AGI

o3 (annoncé le 20.12.2024) prolonge le Test-Time-Scaling d'o1 : plus de raisonnement à l'exécution → de meilleurs résultats, avec des performances de pointe en mathématiques et en code.

87,5 % sur ARC-AGI — un test conçu contre la mémorisation, sur lequel les prédécesseurs restaient proches de zéro : un bond très remarqué vers l'adaptativité proche du niveau humain.

Avec o1 et DeepSeek-R1, l'ère des modèles de raisonnement ; o3-mini fin janv. 2025, le o3 complet en avril 2025.

Organisations:OpenAI

2025Produits

L'IA agentique entre dans le grand public

Anthropic, Computer Use (oct. 2024) : premier modèle frontier en bêta publique avec utilisation d'ordinateur — écran, souris, clavier.

OpenAI : Operator (janv. 2025) navigue de façon autonome sur le Web ; Deep Research (févr. 2025) mène des recherches en plusieurs étapes et rédige des rapports sourcés.

Le basculement du chatbot (générer du texte) vers l'agent (agir) — amorcé par Devin (2024), devenu mainstream en 2025.

Anti-hype : les premières versions étaient lentes, sujettes aux erreurs et étroitement limitées ; les systèmes étaient davantage promus qu'ils n'étaient fiables en 2025.

Organisations:Anthropic, OpenAI

2025Produits

DeepSeek-R1 : le choc de l'IA venue de Chine

R1 (20 janv. 2025) : un modèle de raisonnement au niveau d'o1 avec des poids ouverts (licence MIT), entraîné par apprentissage par renforcement à grande échelle sur DeepSeek-V3.

Entraîné pour une fraction du coût attendu — ce qui remit en question l'hypothèse selon laquelle l'IA de pointe nécessite obligatoirement des budgets de calcul colossaux.

27 janv. 2025 : Nvidia -environ 17 % (environ 600 Mrd. $ en un jour, record américain) ; la Chine à la pointe de l'IA — l'IA devint visiblement une question de marché et de géopolitique.

Personnes:Liang Wenfeng

Organisations:DeepSeek

2025Jalons

Stargate : l'IA comme infrastructure à l'échelle d'un État

Jusqu'à 500 Mrd. $ sur quatre ans pour des centres de données d'IA aux États-Unis (OpenAI, SoftBank, Oracle, MGX) ; les 100 Mrd. initiaux devaient être déployés immédiatement.

Présenté à la Maison-Blanche : l'IA est devenue visiblement une question d'infrastructure nationale et de géopolitique.

La prochaine phase de l'IA est une question d'énergie et de construction — des capacités de calcul à l'échelle de centrales électriques (fil rouge depuis CUDA/AlexNet).

Anti-hype : une annonce n'est pas un centre de données achevé ; la question de savoir si les 500 Mrd. seraient intégralement réunis était controversée dès le départ.

Personnes:Sam Altman, Masayoshi Son, Larry Ellison

Organisations:OpenAI, SoftBank, Oracle

2025Réglementation

Sommet d'action sur l'IA de Paris

Troisième sommet mondial sur l'IA (après Bletchley 2023, Séoul 2024) : 10-11 février 2025, Grand Palais, co-présidé par Macron et Modi.

58 États plus l'UE et l'Union africaine ont signé la déclaration finale — les États-Unis et le Royaume-Uni ont refusé de signer (fracture transatlantique ouverte).

Anti-hype : la déclaration n'était pas contraignante ; les critiques ont qualifié le sommet d'occasion manquée pour la sécurité de l'IA.

Personnes:Emmanuel Macron, Narendra Modi

2025Produits

Les modèles frontier en 2025

Course serrée : Gemini 2.5 Pro (mars), Claude 4 / Opus 4 (mai), GPT-5 (août) — plus Llama 4, Grok, DeepSeek. Plusieurs laboratoires au sommet.

Au centre : la programmation autonome sur de longues séquences (ex. Claude Code) — des modèles qui traitent des tâches entières de façon indépendante.

Anti-hype : records de benchmarks semaine après semaine, chaque laboratoire revendique la première place ; de vraies avancées, mais l'AGI reste plus marketing que réalité.

Organisations:Anthropic, OpenAI, Google DeepMind

Rechercher

Catégorie

Plage de dates

La Machine analytique de Babbage : l'idée de l'ordinateur

Contenu associé

Ada Lovelace : le premier programme — et une vision audacieuse

Contenu associé

La machine de Turing : ce que calculer signifie réellement

Contenu associé

McCulloch & Pitts : le premier neurone artificiel

Contenu associé

La théorie de l'information de Shannon : naissance du bit

Contenu associé

La règle de Hebb : comment l'apprentissage naît dans le cerveau

Contenu associé

Test de Turing : le jeu de l'imitation

Contenu associé

Logic Theorist : le premier programme de raisonnement

Contenu associé

Conférence de Dartmouth : naissance de l'IA

Contenu associé

Le Perceptron : le premier réseau de neurones apprenant

Contenu associé

LISP : le langage de l'IA

Contenu associé

Arthur Samuel : l'IA auto-apprenante et le terme « Machine Learning »

Contenu associé

DENDRAL : pionnier des systèmes experts

Contenu associé

Logique floue : la logique de l'imprécision

Contenu associé

ELIZA : le premier chatbot

Contenu associé

Perceptrons : le livre qui contribua à déclencher l'hiver de l'IA

Contenu associé

Shakey : Le premier robot mobile intelligent

Contenu associé

SHRDLU : comprendre le langage dans le monde des cubes

Contenu associé

Modèles de Markov cachés établis

Contenu associé

Prolog : programmer avec la logique

Contenu associé

Le premier hiver de l'IA

Contenu associé

Néocognitron : l'ancêtre des réseaux convolutifs

Contenu associé

L'ère des systèmes experts dans les années 1980

Contenu associé

Réseaux de Hopfield : Mémoire Associative

Contenu associé

L'algorithme de rétropropagation

Contenu associé

Le deuxième hiver de l'IA

Contenu associé

UCI ML Repository : la bibliothèque de jeux de données

Contenu associé

Réseaux bayésiens : raisonner sous l'incertitude

Contenu associé

Théorème d'approximation universelle

Contenu associé

World Wide Web : l'invention du WWW

Contenu associé

LeNet et la naissance des réseaux de neurones convolutifs

Contenu associé

TD-Gammon : apprendre en jouant contre soi-même

Contenu associé

Q-Learning : le fondement de l'apprentissage par renforcement

Contenu associé

Penn Treebank : l'annotation syntaxique transforme le traitement automatique des langues

Contenu associé

AdaBoost : les apprenants faibles deviennent forts

Contenu associé

Machines à vecteurs de support : classification à marge maximale

Contenu associé

WordNet : le réseau sémantique du langage

Contenu associé

PageRank : l'algorithme à des milliards de dollars de Google

Contenu associé

Deep Blue bat Kasparov