96 timeline.aiTimeline.results

Frise chronologique de l'IA

Une chronologie qui montre que l'IA a été déclarée morte au moins trois fois — et qu'elle est revenue à chaque fois.

1950Publications

Test de Turing : Le jeu de l'imitation

Le fondement philosophique de l'intelligence machine et le premier benchmark IA. En 1950, Alan Turing a publié l'article « Computing Machinery and Intelligence » dans Mind et a reformulé la question « Les machines peuvent-elles penser ? » Au lieu de définitions philosophiques, Turing a proposé le « Jeu de l'Imitation » pratique (conçu initialement en 1949) : Un évaluateur humain juge des transcriptions de conversations en langage naturel entre un humain et une machine. L'évaluateur essaie d'identifier la machine, et la machine réussit le test si l'évaluateur ne peut pas les distinguer de manière fiable. Les résultats ne dépendent pas de la capacité de la machine à répondre correctement, mais de la ressemblance de ses réponses avec celles d'un humain. Ce test d'indistinguabilité en termes de performance se généralise naturellement à toute performance humaine, verbale comme non verbale. L'approche comportementale de Turing a établi le fondement conceptuel de toute la recherche en IA et a influencé ELIZA, ChatGPT et tous les systèmes d'IA conversationnelle modernes.

Test d'indistinguabilité : l'évaluateur tente de distinguer la machine de l'humain via conversation textuelle
A déplacé l'attention des définitions philosophiques vers les démonstrations comportementales de l'intelligence
A posé la question fondamentale « Les machines peuvent-elles penser ? » et proposé une approche opérationnelle
A établi le premier benchmark IA et influencé tous les développements ultérieurs d'IA conversationnelle

Personnes:Alan Turing

Organisations:University of Manchester, Mind Journal

1956Conférences

Conférence de Dartmouth : Naissance de l'IA

Le moment historique où l'Intelligence Artificielle est née comme domaine de recherche. Du 18 juin au 17 août 1956, la première conférence d'été de recherche sur l'IA a eu lieu au Dartmouth College. John McCarthy, Marvin Minsky, Nathaniel Rochester et Claude Shannon avaient une vision audacieuse : « Chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut en principe être décrit si précisément qu'une machine peut être faite pour le simuler. » Dans cet atelier de huit semaines, McCarthy a inventé le terme « Intelligence Artificielle » et a posé les bases d'une nouvelle discipline scientifique. Les participants – dont les futurs lauréats du prix Nobel Herbert Simon et John Nash – discutaient quotidiennement au dernier étage du département de mathématiques. De cette conférence ont émergé les trois centres historiques de l'IA : Carnegie Mellon avec Newell et Simon, MIT avec Minsky et Stanford avec McCarthy.

Naissance de l'IA comme discipline de recherche indépendante à travers un atelier de 8 semaines avec des penseurs de premier plan
John McCarthy a inventé le terme « Intelligence Artificielle » et défini un nouveau domaine de recherche
Programme de recherche établi : langage machine, abstraction, résolution de problèmes et auto-amélioration
Rassemblement des pères fondateurs de l'IA : McCarthy, Minsky, Shannon, Rochester et futurs lauréats Nobel

Personnes:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisations:Dartmouth College, IBM, Bell Labs

1957Publications

Perceptron : Le premier réseau neuronal apprenant

La naissance de l'apprentissage automatique à travers le premier neurone artificiel entraînable. En 1957, Frank Rosenblatt au Cornell Aeronautical Laboratory a développé le Perceptron – le premier réseau neuronal qui pouvait apprendre de l'expérience. En janvier 1957, il a publié le rapport technique 'The Perceptron: A Perceiving and Recognizing Automaton' (Projet PARA, Rapport 85-460-1). La publication scientifique formelle a suivi en novembre 1958 dans Psychological Review. Inspiré par les neurones biologiques, le Perceptron combinait des entrées pondérées via une fonction échelon de Heaviside pour des sorties binaires. La règle d'apprentissage innovante du Perceptron (règle delta) ajustait les poids en fonction des erreurs de prédiction – un concept encore fondamental dans les réseaux profonds modernes aujourd'hui. Initialement simulé sur un IBM 704, le Perceptron Mark I a été démontré publiquement en 1960. Bien que limité aux problèmes linéairement séparables, le Perceptron a posé les fondations conceptuelles pour toutes les architectures neuronales ultérieures.

Premier neurone artificiel entraînable avec entrées pondérées et fonction échelon de Heaviside
Classification binaire par décision de seuil, efficace pour les motifs linéairement séparables
La règle d'apprentissage du Perceptron de Frank Rosenblatt (règle delta) a permis l'ajustement automatique des poids
La limitation aux problèmes linéairement séparables a plus tard mené à la critique XOR par Minsky et Papert

Personnes:Frank Rosenblatt

Organisations:Cornell Aeronautical Laboratory, US Navy

1965Publications

Logique floue : La logique de l'imprécision

Une avancée mathématique importante pour traiter l'incertitude et le raisonnement approximatif. En 1965, Lotfi Zadeh à UC Berkeley publia l'article fondateur 'Fuzzy Sets' - une réponse à l'incapacité de la logique classique à gérer les informations vagues et incomplètes. Son innovation résidait dans la reconnaissance que les humains prennent des décisions basées sur des informations imprécises et non numériques. La logique floue permet des degrés d'appartenance entre 0 et 1, contrairement à la logique binaire oui/non. Avec maintenant près de 100 000 citations, le travail de Zadeh devint la fondation du calcul souple et des approches modernes de l'IA. La 'logique précise de l'imprécision' permit de modéliser mathématiquement l'incertitude, l'incomplétude et les informations contradictoires. La logique floue trouva des applications dans les systèmes experts, les systèmes de contrôle, et plus tard dans les architectures IA modernes pour les processus décisionnels imprécis.

L'article de Lotfi Zadeh 'Fuzzy Sets' de 1965 avec près de 100 000 citations a significativement changé la gestion de l'incertitude
A permis la modélisation mathématique du vague, de l'incomplétude et des informations contradictoires
A trouvé des applications dans les systèmes experts, systèmes de contrôle et processus décisionnels approximatifs
A posé les bases du calcul souple et des approches IA modernes pour traiter l'information imparfaite

Personnes:Lotfi Zadeh

Organisations:UC Berkeley, Information and Control

1966Percées

ELIZA : Le premier chatbot

La naissance de la conversation homme-machine et une expérience involontaire en psychologie humaine. De 1964 à 1967, Joseph Weizenbaum au MIT a développé ELIZA – le premier programme explicitement conçu pour des conversations avec des humains. Avec seulement 200 lignes de code et une simple technologie de correspondance de motifs, ELIZA simulait des conversations, notamment dans la variante DOCTOR comme thérapeute rogérien. La surprise ne résidait pas dans la technologie, mais dans la réaction humaine : les utilisateurs, y compris la propre secrétaire de Weizenbaum, ont développé des connexions émotionnelles avec le programme et ont même exigé de l'intimité pour leurs « séances de thérapie ». Weizenbaum a inventé le terme « effet ELIZA » pour ce phénomène – la tendance à attribuer des caractéristiques humaines à des programmes rudimentaires. ELIZA a prouvé la puissance de l'illusion simple et a posé les bases de tous les chatbots modernes.

Premier programme informatique explicitement développé pour la conversation homme-machine, achevé en 1966
Utilisait une simple correspondance de motifs et une méthodologie de substitution en seulement 200 lignes de code
Créait l'illusion de compréhension et d'intelligence émotionnelle sans vraie compréhension du langage
A inventé « l'effet ELIZA » et mis en garde contre la projection de caractéristiques humaines sur des programmes rudimentaires

Personnes:Joseph Weizenbaum

Organisations:MIT, MIT AI Laboratory

1969Percées

Shakey : Le premier robot mobile intelligent

La naissance de la robotique autonome à travers l'intégration du raisonnement, de la planification et de l'action physique. De 1966 à 1972, l'équipe de Charles Rosen au SRI International a développé Shakey – le premier robot mobile qui pouvait raisonner sur ses propres actions. Le robot de 2 mètres de haut combinait caméra TV, télémètres sonar, processeurs et détecteurs de chocs 'moustaches de chat' en un système autonome. Les capacités remarquables de Shakey incluaient la perception environnementale, l'inférence à partir de faits implicites, la création de plans et la compensation d'erreurs – le tout contrôlable en anglais naturel. Le projet financé par la DARPA a combiné pour la première fois le raisonnement logique avec l'action physique et a posé les fondations pour les systèmes autonomes. Les innovations de Shakey ont conduit à l'algorithme de recherche A*, la transformée de Hough et les méthodes de graphes de visibilité. En 1970, le magazine Life a appelé Shakey 'la première personne électronique'.

Premier robot mobile qui pouvait raisonner sur ses propres actions et planifier indépendamment des tâches complexes
A combiné caméra TV, sonar, processeurs et capteurs en un système mobile autonome
A développé le système de planification STRIPS pour la décomposition automatique de tâches et la recherche d'itinéraires
A uni vision par ordinateur, navigation et raisonnement logique dans un système physique

Personnes:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisations:SRI International, DARPA

1970Publications

Les Modèles de Markov Cachés établis

La fondation mathématique pour la reconnaissance vocale et la modélisation de séquences. Au début des années 1970, Leonard Baum, Lloyd Welch et Ted Petrie à l'Institute for Defense Analyses développèrent davantage les Modèles de Markov Cachés et établirent l'algorithme Baum-Welch. Ces modèles statistiques modélisèrent les états cachés dans les séquences et permirent pour la première fois des approches probabilistes efficaces pour les données dépendantes du temps. À partir du milieu des années 1970, les HMM trouvèrent leur première application pratique dans la reconnaissance vocale grâce à James Baker à Carnegie Mellon puis plus tard chez IBM. La méthode transforma la reconnaissance automatique de la parole des procédures simples de correspondance de modèles en approches statistiques. Les HMM devinrent le standard pour la modélisation de séquences dans de nombreux domaines : de la bio-informatique à l'analyse financière en passant par la reconnaissance de gestes. L'algorithme d'Espérance-Maximisation de Baum-Welch posa les bases des procédures modernes d'apprentissage automatique probabiliste.

L'algorithme Baum-Welch comme cas spécial d'Espérance-Maximisation pour l'estimation des paramètres HMM
Première application pratique dans la reconnaissance vocale dès le milieu des années 1970 à Carnegie Mellon et IBM
A transformé la modélisation de séquences de la correspondance de modèles aux approches probabilistes statistiques
A posé les fondations mathématiques des procédures modernes d'apprentissage automatique probabiliste

Personnes:Leonard Baum, Lloyd Welch, Ted Petrie

Organisations:Institute for Defense Analyses, Bell Labs

1974Jalons

Le Premier Hiver de l'IA

Une période de coupes substantielles dans le financement de la recherche et de confiance diminuée dans l'Intelligence Artificielle. Après les promesses exagérées des années 1960 est venue la dure réalité : les programmes d'IA ne pouvaient résoudre que des versions triviales des problèmes qu'ils étaient censés traiter. Le Rapport Lighthill de 1973 a livré une critique sévère, et en 1974, DARPA et les conseils de recherche britanniques ont arrêté le financement de la recherche en IA non dirigée. La déception avec le système de compréhension de la parole de Carnegie Mellon a conduit à l'annulation d'un contrat de 3 millions de dollars. Cet hiver a duré jusqu'à environ 1980 et a enseigné à la communauté IA une leçon cruciale : des attentes réalistes sont essentielles pour un progrès durable.

DARPA et les conseils de recherche britanniques ont drastiquement coupé le financement de la recherche en IA non dirigée en 1974
Le professeur James Lighthill a sévèrement critiqué la recherche en IA en 1973 pour avoir échoué à atteindre ses objectifs et a souligné le problème de l'explosion combinatoire
DARPA a annulé le contrat de 3 millions de dollars avec Carnegie Mellon pour les systèmes de compréhension de la parole après des résultats décevants
Les programmes d'IA du début des années 1970 étaient limités à des versions triviales de vrais problèmes et ressemblaient à des « jouets » intelligents

Personnes:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisations:DARPA, British Science Research Council, Carnegie Mellon University

1980Jalons

Ère des systèmes experts des années 1980

Les années 1980 marquent l'âge d'or des systèmes experts alors que l'IA atteint son premier succès commercial. Les entreprises du monde entier adoptent ces programmes d'IA basés sur des règles qui répliquent les connaissances d'experts humains dans des domaines spécialisés. L'industrie de l'IA passe de quelques millions de dollars en 1980 à des milliards en 1988. Deux tiers des entreprises Fortune 500 déploient la technologie dans leurs activités commerciales quotidiennes. Des systèmes comme MYCIN atteignent des taux de réussite de 69%, surpassant les experts humains. Cependant, le boom se termine selon le schéma classique d'une bulle économique alors que des dizaines d'entreprises échouent et que les limitations de la technologie deviennent apparentes.

L'industrie de l'IA passe de quelques millions de dollars (1980) à des milliards (1988)
Deux tiers des entreprises Fortune 500 déploient des systèmes experts dans leurs opérations commerciales quotidiennes
MYCIN atteint un taux de réussite de 69%, surpassant certains experts médicaux humains
Schéma classique de bulle économique : boom suivi d'un crash massif

Personnes:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisations:Stanford University, Fortune 500 Companies

1982Publications

Réseaux de Hopfield : Mémoire Associative

La renaissance des réseaux de neurones grâce aux capacités de mémoire associative. En 1982, John Hopfield publia l'article fondamental 'Neural networks and physical systems with emergent collective computational abilities' dans PNAS. Son innovation résidait dans la connexion de la neurobiologie avec la physique statistique : les réseaux de Hopfield fonctionnent comme une mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées. L'architecture récurrente avec des connexions bidirectionnelles symétriques converge vers des attracteurs à points fixes grâce à une fonction d'énergie de Lyapunov. Le système 'descend la pente' vers la mémoire stockée la plus proche. Le travail de Hopfield raviva l'intérêt pour les réseaux de neurones et posa les bases théoriques des RNN modernes. L'apprentissage hebbien permit le stockage de motifs associatifs - une percée pour la compréhension des systèmes de mémoire biologiques et artificiels.

Mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées
Architecture récurrente avec connexions bidirectionnelles symétriques et propriétés collectives émergentes
La fonction d'énergie de Lyapunov guide le système vers des attracteurs à points fixes en 'descendant la pente' vers la mémoire stockée
A ravivé l'intérêt pour les réseaux de neurones et posé les bases du développement moderne des RNN

Personnes:John Hopfield

Organisations:California Institute of Technology, Princeton University

1986Publications

Algorithme de Rétropropagation

La naissance de l'apprentissage automatique moderne grâce à un algorithme d'entraînement élégant. En octobre 1986, David Rumelhart, Geoffrey Hinton et Ronald Williams ont publié dans Nature l'article « Learning representations by back-propagating errors ». Cet algorithme a significativement changé l'entraînement des réseaux neuronaux en fournissant une méthode efficace pour l'ajustement des poids dans les réseaux multicouches. La procédure ajuste de manière répétée les poids de connexion pour minimiser la différence entre la sortie réelle et la sortie désirée. L'innovation cruciale résidait dans la capacité à entraîner des couches cachées qui reconnaissent automatiquement les caractéristiques importantes de la tâche. Bien que des prédécesseurs de l'algorithme existaient dans les années 1960, cet article a établi pour la première fois la fondation mathématique formelle. La rétropropagation est devenue le cheval de bataille de l'apprentissage automatique et permet toutes les applications modernes de deep learning aujourd'hui.

Publié dans Nature le 9 octobre 1986 sous le titre « Learning representations by back-propagating errors »
A permis un entraînement efficace des réseaux neuronaux multicouches par le calcul des gradients pour la première fois
Les couches cachées ont appris à reconnaître automatiquement les caractéristiques importantes – une avancée importante par rapport aux perceptrons
A posé les fondations mathématiques pour toutes les applications modernes de deep learning et les architectures transformer

Personnes:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisations:University of California San Diego, Carnegie Mellon University, Nature

1987Jalons

Le Deuxième Hiver de l'IA

L'effondrement du marché du matériel IA spécialisé et l'échec des systèmes experts. En 1987, le marché des machines Lisp s'est effondré quand les ordinateurs Apple et IBM sont devenus moins chers et plus puissants que les systèmes spécifiques à l'IA coûteux. Les systèmes experts comme XCON se sont avérés trop gourmands en maintenance et inflexibles pour les applications du monde réel. Jack Schwarz, le nouveau leader de l'IPTO, a rejeté les systèmes experts comme de la « programmation intelligente » et a coupé le financement de l'IA « profondément et brutalement ». La plupart des fabricants de machines Lisp ont fait faillite en 1990, conduisant à un hiver plus long et plus profond que le premier en 1974. Cet hiver a duré jusqu'à environ 1993 et a marqué la fin de l'ère de l'IA symbolique.

Le marché des machines Lisp spécialisées s'est effondré en 1987 car les ordinateurs Apple et IBM sont devenus moins chers et plus puissants
Les systèmes experts comme XCON se sont avérés trop gourmands en maintenance, rigides et incapables de gérer de nouvelles données
Jack Schwarz a coupé le financement de l'IA à DARPA « profondément et brutalement » en 1987, rejetant les systèmes experts comme de la « programmation intelligente »
Le coût de l'équipement spécifique à l'IA dépassait largement les retours commerciaux promis

Personnes:Jack Schwarz, Marvin Minsky, Roger Schank

Organisations:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Jeux de données

UCI ML Repository : La bibliothèque de datasets

La démocratisation de la recherche en machine learning grâce à des datasets de benchmark standardisés. En 1987, David Aha, doctorant à UCI, avec d'autres étudiants a fondé le UCI Machine Learning Repository comme archive FTP – une collection de bases de données, théories de domaine et générateurs de données pour l'analyse empirique d'algorithmes ML. Cette initiative répondait au manque critique de datasets standardisés et librement disponibles pour la communauté ML en croissance. Le dépôt est devenu la source principale de datasets ML dans le monde et a permis aux étudiants, éducateurs et chercheurs d'accéder à des benchmarks de haute qualité. Avec plus de 1 000 citations, il fait partie des 100 « articles » les plus cités en informatique. Aujourd'hui géré par le Center for Machine Learning and Intelligent Systems, le UCI ML Repository propose des datasets de la santé, de la finance et d'innombrables autres domaines. Le dépôt a fondamentalement démocratisé l'éducation et la recherche en ML.

Fondé en 1987 comme archive FTP par David Aha et des étudiants UCI pour l'analyse empirique d'algorithmes ML
Devenu la source principale de datasets ML pour étudiants, éducateurs et chercheurs du monde entier
Plus de 1 000 citations, l'un des 100 « articles » les plus cités en informatique
A démocratisé la recherche ML grâce à l'accès à des datasets de benchmark standardisés et de haute qualité

Personnes:David Aha, Patrick Murphy

Organisations:University of California Irvine, UCI

1989Publications

Théorème d'approximation universelle

La preuve mathématique du pouvoir théorique des réseaux de neurones. En 1989, Kurt Hornik, Maxwell Stinchcombe et Halbert White ont publié l'article fondamental « Multilayer feedforward networks are universal approximators » dans Neural Networks. Leur preuve rigoureuse a montré : Même une seule couche cachée avec suffisamment de neurones peut approximer toute fonction Borel-mesurable avec une précision arbitraire. Ce fondement théorique a justifié mathématiquement l'utilisation des réseaux de neurones et a assuré aux chercheurs que des réseaux suffisamment grands peuvent modéliser des relations complexes et non linéaires dans les données réelles. Des travaux similaires de George Cybenko et Funahashi sont apparus en parallèle utilisant différentes techniques. Le théorème a établi l'universalité par élargissement de la couche cachée et est devenu le pilier théorique de tous les développements ultérieurs du deep learning. Hornik et al. ont créé la confiance mathématique qui a permis la renaissance des réseaux de neurones des années 1990.

Preuve mathématique rigoureuse des capacités d'approximation universelle des réseaux de neurones
Une couche cachée avec assez de neurones peut approximer toute fonction continue avec précision arbitraire
Prouve la capacité de modéliser des relations complexes et non linéaires dans les données réelles
A fourni la justification mathématique pour l'utilisation des réseaux de neurones et le fondement de confiance théorique

Personnes:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisations:University of California San Diego

1989Percées

World Wide Web : La naissance d'internet

L'invention qui a mis le monde en réseau et créé le fondement des sources de données de l'IA moderne. Le 12 mars 1989, Tim Berners-Lee a soumis sa proposition pour un « Système de Gestion de l'Information » au CERN – originellement appelé « Mesh », plus tard « World Wide Web ». En tant que scientifique britannique, il a reconnu le besoin d'échange automatisé d'informations entre scientifiques du monde entier. À la fin de 1990, il avait développé les trois technologies web fondamentales : HTML (Hypertext Markup Language), HTTP (Hypertext Transfer Protocol) et URI/URL. Le premier serveur web info.cern.ch fonctionnait sur un ordinateur NeXT, avec le premier navigateur/éditeur « WorldWideWeb.app ». En 1991, le Web est devenu accessible au public. La croissance exponentielle de 10 sites web (1992) à 2 millions (1996) a créé le fondement de données pour les systèmes IA ultérieurs. Sans le Web, il n'y aurait pas de datasets Common Crawl ni de grands modèles de langage.

Projet hypertexte avec documents liés, navigateurs et « points chauds » basé sur le modèle de Ted Nelson
Proposition de Gestion de l'Information du 12 mars 1989 au CERN pour l'échange scientifique automatisé
HTML, HTTP et URI/URL comme technologies web fondamentales développées fin 1990
A créé l'infrastructure de données pour les collections Common Crawl et l'entraînement des grands modèles de langage

Personnes:Tim Berners-Lee

Organisations:CERN, World Wide Web Consortium

1989Publications

LeNet et la naissance des CNN

La première application réussie des réseaux de neurones convolutifs en pratique. En 1989, Yann LeCun aux Bell Labs d'AT&T a combiné pour la première fois la rétropropagation avec une architecture CNN pour la reconnaissance d'écriture manuscrite. Le système LeNet résultant a atteint des taux de précision remarquables dans la reconnaissance des codes postaux manuscrits pour le service postal américain – moins de 1% d'erreur par chiffre. Cette performance a prouvé la supériorité pratique des CNN sur les approches conventionnelles et a établi les fondations de la vision par ordinateur moderne. LeNet a démontré que les réseaux de neurones n'étaient pas que des constructions théoriques mais pouvaient résoudre de vrais problèmes commerciaux. L'architecture a traversé plusieurs itérations d'amélioration et a culminé avec LeNet-5 en 1998 avec 99,05% de précision sur MNIST. Ce travail a posé les bases de toutes les architectures CNN modernes.

Première combinaison réussie de réseaux de neurones convolutifs avec entraînement par rétropropagation
Moins de 1% d'erreur dans la reconnaissance des codes postaux manuscrits pour le service postal américain
Le travail pionnier de Yann LeCun aux Bell Labs a établi les CNN comme solution viable de vision par ordinateur
A posé les bases de toutes les architectures CNN modernes d'AlexNet aux systèmes de vision actuels

Personnes:Yann LeCun, Bernhard Boser, John Denker

Organisations:AT&T Bell Labs, NIPS

1992Publications

Q-Learning : Fondation de l'apprentissage par renforcement

En 1992, Chris Watkins et Peter Dayan ont publié la preuve mathématique du Q-Learning - un algorithme qui allait significativement changer le monde de l'IA. Watkins avait développé l'idée centrale en 1989 dans sa thèse de doctorat 'Learning from Delayed Rewards' au King's College Cambridge. Le Q-Learning a résolu un problème fondamental : Comment un agent peut-il agir de manière optimale sans avoir besoin d'un modèle de son environnement ? La réponse était élégante - par l'optimisation incrémentale d'une fonction Q qui attribue des valeurs à chaque paire état-action. La preuve de convergence de 1992 a montré : Avec une exploration infinie, le Q-Learning est garanti de trouver la politique optimale pour tout processus de décision markovien fini. Cette méthode sans modèle est devenue la pierre angulaire de l'apprentissage par renforcement moderne. De la robotique aux marchés financiers, des jeux aux systèmes autonomes - le Q-Learning est partout. En 2014, DeepMind a étendu l'algorithme au Deep Q-Learning et a battu les experts humains d'Atari. Aujourd'hui, le Q-Learning alimente AlphaGo, AlphaZero et d'innombrables systèmes d'IA.

Preuve mathématique de convergence 1992 : Q-Learning garanti de trouver les politiques optimales avec exploration infinie
Approche innovante sans modèle : Apprendre les actions optimales sans modèle d'environnement ni probabilités de transition
Solution élégante pour les problèmes de décision markoviens par optimisation incrémentale de la fonction Q
Fondation de l'apprentissage par renforcement moderne - alimente aujourd'hui AlphaGo, Deep Q-Networks et d'innombrables systèmes IA

Personnes:Chris Watkins, Peter Dayan

Organisations:King's College Cambridge, University College London

1993Jeux de données

Penn Treebank : L'annotation syntaxique transforme le TAL

La création du corpus fondamental pour la recherche moderne en analyse syntaxique. En 1993, Mitchell Marcus, Beatrice Santorini et Mary Ann Marcinkiewicz ont publié l'article fondateur 'Building a Large Annotated Corpus of English: The Penn Treebank' dans Computational Linguistics. Avec plus de 4,5 millions de mots d'anglais américain et une annotation syntaxique détaillée, le Penn Treebank a significativement transformé la linguistique computationnelle. Le processus en deux étapes combinait l'étiquetage POS automatique avec la correction humaine pour une qualité d'annotation exceptionnelle. En huit ans de durée de projet (1989-1996), 7 millions de mots étiquetés POS, 3 millions de textes analysés en squelette, et 2 millions de structures prédicat-argument ont émergé. Penn Treebank a établi les méthodes empiriques en linguistique computationnelle et est devenu la fondation pour les algorithmes modernes d'analyse syntaxique. Aujourd'hui encore, BERT et les systèmes TAL modernes utilisent les connaissances de ce corpus fondamental.

4,5+ millions de mots avec annotation syntaxique détaillée via un processus semi-automatique en deux étapes
A établi les méthodes empiriques en linguistique computationnelle et est devenu le benchmark standard pour la recherche en analyse syntaxique
A significativement changé les algorithmes d'analyse syntaxique des approches basées sur des règles vers les approches statistiques
A posé les fondations pour les systèmes TAL modernes de l'analyse statistique à BERT et aux modèles transformer

Personnes:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisations:University of Pennsylvania, Linguistic Data Consortium

1995Publications

AdaBoost : Les Apprenants Faibles Deviennent Forts

En 1995, Yoav Freund et Robert Schapire ont développé AdaBoost (Adaptive Boosting), un algorithme qui a significativement changé l'apprentissage automatique. Leur idée centrale : Combiner de nombreux « apprenants faibles » en un modèle de prédiction hautement précis. Un apprenant faible n'est que légèrement meilleur que le hasard – mais des centaines ensemble peuvent atteindre des résultats notables. AdaBoost s'adapte automatiquement : Les prédictions incorrectes sont pondérées plus fortement au tour suivant. Ainsi le système se concentre automatiquement sur les cas difficiles. L'élégance théorique était convaincante – Freund et Schapire ont prouvé que leur méthode converge exponentiellement vers la classification optimale. En 2003, ils ont reçu le Prix Gödel, la plus haute distinction en informatique théorique. AdaBoost a trouvé des applications pratiques en biologie, vision par ordinateur et reconnaissance vocale. La méthode a posé les fondations des méthodes d'ensemble modernes et a inspiré toute une génération d'algorithmes de boosting jusqu'à XGBoost.

Pondération adaptative : Les cas difficiles sont pondérés plus fortement pour un apprentissage ciblé sur les zones problématiques
Principe des apprenants faibles : Des centaines de classifieurs simples ensemble produisent des prédictions hautement précises
Prix Gödel 2003 : Plus haute distinction en informatique théorique pour le développement de la théorie du boosting
Fondation des méthodes d'ensemble modernes : A inspiré XGBoost et toute une génération d'algorithmes de boosting

Personnes:Yoav Freund, Robert Schapire

Organisations:UC San Diego, AT&T Labs

1995Publications

Machines à Vecteurs de Support : Classification à marge maximale

L'établissement d'approches géométriques élégantes pour une classification robuste. En 1995, Corinna Cortes et Vladimir Vapnik aux AT&T Bell Labs ont publié l'article fondamental « Support-Vector Networks » dans Machine Learning. Les SVM ont étendu les fondements théoriques de Vapnik de 1964 à une solution pratique pour les données d'entraînement non séparables grâce à l'innovation de la « marge souple ». Le principe fondamental réside dans la construction de surfaces de décision linéaires dans des espaces de caractéristiques de très haute dimension par des transformations non linéaires des entrées. L'astuce du noyau de 1992 a permis un calcul efficace sans transformation explicite. Les SVM maximisent la marge entre les classes, offrant ainsi une haute capacité de généralisation. Avec plus de 5 900 citations, l'article est devenu une pierre angulaire du machine learning et a dominé les tâches de classification jusqu'à la révolution du deep learning. Les SVM sont restées robustes, interprétables et efficaces pour les problèmes de haute dimension.

Théorie de l'apprentissage statistique de Vapnik de 1964 étendue à une solution pratique pour les données non séparables
L'astuce du noyau permet une classification non linéaire par des transformations implicites de haute dimension
Le principe de marge maximale maximise la distance entre les classes pour une généralisation optimale
A établi une alternative théoriquement fondée aux réseaux de neurones avec des garanties de généralisation

Personnes:Vladimir Vapnik, Corinna Cortes

Organisations:AT&T Bell Labs

1995Jeux de données

WordNet : Réseau sémantique du langage

La première base de données lexicale complète comme réseau sémantique pour la linguistique computationnelle. En novembre 1995, George Miller a publié l'article fondamental « WordNet: A Lexical Database for English » dans Communications of the ACM et a présenté sa vision développée depuis 1986. WordNet organise les noms, verbes, adjectifs et adverbes anglais en synsets – groupes de synonymes cognitifs liés par des relations sémantiques et lexicales. Cette structure reflète la mémoire sémantique humaine et permet la navigation à travers des réseaux significatifs de mots et de concepts. En tant que première base de données lexicale contrôlée par programme, WordNet a combiné l'information lexicographique traditionnelle avec le traitement de données moderne. Le développement ayant commencé en 1986 par Miller et son équipe de Princeton, WordNet est devenu le fondement des hiérarchies ImageNet et des systèmes NLP modernes. La structure en réseau sémantique a influencé tous les graphes de connaissances et techniques d'embeddings ultérieurs.

Première base de données lexicale électronique complète avec accès contrôlé par programme
Synsets liés par des relations sémantiques et lexicales forment un réseau de sens navigable
Reflète la mémoire sémantique humaine et connecte sciences cognitives et linguistique computationnelle
A posé les fondements des hiérarchies ImageNet, graphes de connaissances et systèmes NLP sémantiques modernes

Personnes:George Miller, Christiane Fellbaum

Organisations:Princeton University, Cognitive Science Laboratory

1996Publications

PageRank : L'algorithme à un milliard de dollars de Google

En 1996, deux doctorants de Stanford ont développé un algorithme qui allait significativement changer Internet. Larry Page et Sergey Brin ont lancé le projet 'BackRub' avec une idée novatrice : L'importance d'une page web n'est pas seulement mesurée par son contenu, mais par les liens qui pointent vers elle. Comme les citations académiques, plus une page est liée, plus elle est importante. L'algorithme PageRank simule un 'Surfeur Aléatoire' cliquant au hasard sur le web. Les pages avec un temps de visite élevé sont classées comme plus importantes. Le robot d'exploration web de Page a démarré en mars 1996 depuis sa propre page d'accueil Stanford. L'article formel sur PageRank a été publié en janvier 1998 comme rapport technique de Stanford. En août 1996, BackRub avait déjà indexé 75 millions de pages. Google livrait des résultats significativement meilleurs que Hotbot, Excite ou Yahoo!. Stanford a reçu le brevet et vendu 1,8 million d'actions Google en 2005 pour 336 millions de dollars. Ce qui a commencé comme un projet universitaire est devenu l'un des moteurs de recherche les plus réussis - et la fondation de l'IA web moderne.

Le projet Stanford 'BackRub' a analysé les données de backlinks pour l'importance web - fondation pour Google
Analyse de liens innovante : Importance de page web par références au lieu de juste fréquence de mots-clés
Modèle du Surfeur Aléatoire : Simulation de navigation web aléatoire pour déterminer l'autorité
De la recherche Stanford à Google Inc. - PageRank comme fondation du moteur de recherche le plus précieux au monde

Personnes:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisations:Stanford University, Google Inc.

1997Compétitions

Deep Blue bat Kasparov

La première victoire d'une machine sur un champion du monde d'échecs en titre dans des conditions de tournoi. Le 11 mai 1997, Deep Blue a fait l'histoire quand le superordinateur IBM a battu Garry Kasparov dans le match revanche à New York avec 3½:2½. Après la défaite de 1996, IBM avait fondamentalement reconçu le système : de nouvelles puces d'échecs ont doublé la vitesse à 200 millions de positions par seconde, des bases de données de fin de partie améliorées et la consultation de grands maîtres ont affiné la force de jeu. La sixième partie décisive n'a duré qu'une heure – Kasparov a abandonné dans une position encore jouable, un moment sans précédent dans sa carrière. La victoire a démontré pour la première fois la supériorité informatique dans la réflexion stratégique complexe et a marqué un tournant pour la perception publique de l'IA. Le prix de 700 000 dollars pour Deep Blue a souligné la signification historique de ce triomphe de l'intelligence machine.

Première victoire d'un ordinateur sur un champion du monde d'échecs en titre dans des conditions de tournoi standard
200 millions de positions par seconde, bases de données de fin de partie améliorées et consultation de grands maîtres
Triomphe technique d'IBM après des années de développement de ChipTest 1985 à Deep Thought jusqu'à Deep Blue
Tournant pour la perception publique de l'IA et preuve de la supériorité machine dans la réflexion stratégique complexe

Personnes:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisations:IBM, World Chess Championship

1997Publications

LSTM : Long Short-Term Memory

La solution au problème du gradient qui s'évanouit et la naissance de la modélisation efficace de séquences. Le 15 novembre 1997, Sepp Hochreiter et Jürgen Schmidhuber publièrent l'article fondamental 'Long Short-Term Memory' dans Neural Computation. Leur innovation résolut un problème fondamental des réseaux récurrents : l'évanouissement des gradients sur les séquences longues. LSTM introduisit des cellules de mémoire spéciales avec des mécanismes de portes qui permettent un flux d'erreur constant sur des milliers de pas de temps. Les portes multiplicatives apprennent à ouvrir et fermer l'accès au carrousel d'erreur constante. Avec une complexité O(1) par pas de temps et un apprentissage local, LSTM surpassa clairement toutes les méthodes RNN contemporaines. Le système résolut pour la première fois des problèmes complexes de décalage temporel long qui étaient auparavant insolubles. LSTM devint la base de la reconnaissance vocale moderne, de la traduction et de l'analyse de séries temporelles.

A résolu le problème du gradient qui s'évanouit grâce à un flux d'erreur constant sur des milliers de pas de temps
Cellules de mémoire spéciales avec carrousels d'erreur constante pour le stockage d'information à long terme
Les unités de porte multiplicatives apprennent à ouvrir et fermer l'accès au flux d'erreur constant
A permis la modélisation efficace de séquences à long terme pour la reconnaissance vocale et l'analyse de séries temporelles

Personnes:Sepp Hochreiter, Jürgen Schmidhuber

Organisations:Johannes Kepler University, Technical University of Munich

1998Jeux de données

MNIST : Le standard de l'apprentissage automatique

La création d'un des datasets de benchmark les plus importants pour les débutants en vision par ordinateur. En 1998, Yann LeCun, Corinna Cortes et Christopher Burges introduisirent le dataset MNIST - une collection organisée de chiffres manuscrits qui devint le 'Hello World' de l'apprentissage automatique. Basé sur la Special Database 3 et 1 du NIST, MNIST contient 70 000 images en niveaux de gris normalisées de 28x28 pixels : 60 000 pour l'entraînement, 10 000 pour les tests. Un prétraitement soigneux et l'anticrénelage rendirent MNIST idéal pour l'apprentissage sans préparation de données complexe. MNIST apparut dans l'article 'Gradient-based learning applied to document recognition' (Proceedings of the IEEE, novembre 1998). Le dataset devint le benchmark standard pour d'innombrables algorithmes ML et permit à des générations d'étudiants de vivre leurs premiers succès en vision par ordinateur. MNIST démocratisa l'éducation en apprentissage automatique dans le monde entier.

70 000 chiffres manuscrits en images normalisées en niveaux de gris de 28x28 pixels
Organisé par Yann LeCun, Corinna Cortes et Christopher Burges à partir des bases de données NIST
Devenu le 'Hello World' de l'apprentissage automatique et benchmark standard pour les algorithmes ML
A démocratisé l'éducation ML grâce à un accès facile sans préparation de données complexe

Personnes:Yann LeCun, Corinna Cortes, Christopher Burges

Organisations:AT&T Labs, Courant Institute

2001Publications

Random Forest : Percée dans les méthodes d'ensemble

En 2001, Leo Breiman de l'UC Berkeley a publié l'un des articles d'apprentissage automatique les plus cités de tous les temps : 'Random Forests'. Son algorithme a significativement changé le concept des méthodes d'ensemble et est devenu l'un des outils les plus importants en statistiques modernes. L'idée centrale était brillamment simple : Au lieu d'entraîner un arbre de décision, en entraîner des centaines d'arbres aléatoires et les faire voter. Chaque arbre ne voit qu'un sous-ensemble aléatoire de données et de caractéristiques - 'bagging' combiné avec la randomisation des caractéristiques. Le résultat : problèmes de surapprentissage drastiquement réduits et précision de prédiction exceptionnelle. Breiman a également fourni une fondation théorique avec des bornes d'erreur de généralisation basées sur la force et la corrélation des arbres. Random Forest est devenu le premier algorithme ML 'plug-and-play' - réglage minimal, performance maximale. De la bioinformatique à l'analyse des marchés financiers, Random Forest domine aujourd'hui d'innombrables applications et a ouvert la voie aux méthodes d'ensemble modernes comme XGBoost.

Percée en ensemble : Des centaines d'arbres de décision aléatoires votent ensemble pour de meilleures prédictions
Bagging + randomisation des caractéristiques : Chaque arbre voit différentes données et caractéristiques pour la diversité
Fondation théorique : Bornes d'erreur de généralisation basées sur la force et la corrélation des arbres
Algorithme ML plug-and-play : Réglage minimal avec performance exceptionnelle dans tous les domaines

Personnes:Leo Breiman, Adele Cutler

Organisations:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisations

Future of Humanity Institute fondé

L'institutionnalisation de la recherche sur la sécurité de l'IA et l'évaluation des risques existentiels. En 2005, Nick Bostrom a fondé le Future of Humanity Institute à l'Université d'Oxford comme groupe de recherche multidisciplinaire. Commençant avec seulement trois chercheurs, FHI s'est développé en un centre de gravité intellectuel pour des penseurs brillants, souvent excentriques, et a grandi jusqu'à environ 50 membres. L'institut a établi de nouveaux domaines de recherche : risques existentiels, alignement de l'IA, gouvernance de l'IA et long-termisme. Les premières publications de Bostrom en 2005 comme « The fable of the dragon tyrant » et « What is a singleton? » ont façonné la réflexion sur la sécurité de l'IA. Malgré son existence relativement courte de 19 ans jusqu'à sa fermeture en 2024, FHI a produit des avancées significatives et une nouvelle façon de penser les grandes questions pour l'humanité. La légitimation académique de la recherche sur la sécurité de l'IA par Oxford a donné au domaine une crédibilité scientifique.

Fondé en 2005 à l'Université d'Oxford, est passé de 3 à 50 chercheurs jusqu'à sa fermeture en 2024
Travail pionnier sur les risques existentiels, le long-termisme et la gouvernance de l'IA comme nouveaux domaines de recherche
A établi l'alignement de l'IA et la sécurité de l'IA comme disciplines académiques légitimes avec impact mondial
A donné à la recherche sur la sécurité de l'IA crédibilité et respect scientifiques grâce à l'affiliation à Oxford

Personnes:Nick Bostrom, Anders Sandberg

Organisations:Oxford University, Future of Humanity Institute

2005Compétitions

DARPA Grand Challenge : Naissance de la conduite autonome

Le 8 octobre 2005, un Volkswagen Touareg bleu nommé « Stanley » a fait l'histoire. Dirigée par Sebastian Thrun, l'équipe de course de Stanford a remporté le DARPA Grand Challenge - la première compétition de véhicules autonomes réussie au monde. Après l'échec complet de tous les participants en 2004 (meilleur : 7,4 miles ou 11,9 km), Stanley a complété le parcours désertique de 212 km en 6 heures et 53 minutes. Cinq véhicules ont atteint la ligne d'arrivée - une amélioration significative par rapport à zéro l'année précédente. Stanley a navigué à travers trois tunnels étroits, plus de 100 virages serrés et le dangereux Beer Bottle Pass avec ses précipices. L'innovation était le logiciel, pas le matériel : les capteurs LiDAR, l'apprentissage automatique et un journal des décisions de conduite humaine ont donné à Stanley des capacités qu'aucun robot n'avait possédées auparavant. Le prix de 2 millions de dollars n'était que le début - Stanley a posé les bases de Tesla Autopilot, Google Waymo et de toute l'industrie des véhicules autonomes. Aujourd'hui, Stanley se trouve au Smithsonian Museum.

« Stanley » de Stanford est devenu le premier véhicule autonome à compléter un parcours désertique de 212 km en moins de 7 heures
Passage de zéro véhicule réussi (2004) à cinq arrivants (2005) grâce à une meilleure IA
Reconnu comme course logicielle : LiDAR, apprentissage automatique et données de conduite humaine comme clé
Moment de naissance de la technologie de conduite autonome moderne - a inspiré Tesla, Google et toute l'industrie

Personnes:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisations:DARPA, Stanford University, Stanford AI Lab

2006Publications

Réseaux de croyance profonds : La renaissance du Deep Learning

Geoffrey Hinton a transformé le monde de l'IA en 2006 avec son article important sur les réseaux de croyance profonds. Après des décennies d'hiver de l'IA, il a démontré comment les réseaux de neurones profonds pouvaient être entraînés efficacement. Son innovation : le pré-entraînement couche par couche utilisant les machines de Boltzmann restreintes (RBM). Cette stratégie d'apprentissage « gourmande » a résolu le problème d'initialisation des poids et a rendu le deep learning pratiquement applicable. La méthode empile les RBM les unes sur les autres, entraînant chaque couche individuellement avant d'affiner le réseau entier. Le travail de Hinton a mis fin à l'hiver de l'IA et initié la transformation du deep learning. En 2009, les DBN avaient significativement réduit les taux d'erreur dans les systèmes de reconnaissance vocale. En 2012, l'équipe de Hinton a atteint un taux d'erreur de 15,3% en reconnaissance d'image utilisant le deep learning - une amélioration substantielle par rapport aux 26,2% précédents. Ce moment marque la renaissance des réseaux de neurones et le début du boom actuel de l'IA.

L'algorithme d'apprentissage gourmand couche par couche a permis pour la première fois un entraînement efficace des réseaux de neurones profonds
Empilement de machines de Boltzmann restreintes (RBM) comme blocs de construction pour des représentations complexes
Le pré-entraînement non supervisé a résolu le problème d'initialisation des poids des réseaux profonds
A mis fin à l'hiver de l'IA et établi l'essor moderne du deep learning à partir de 2006

Personnes:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisations:University of Toronto, Neural Computation

2006Compétitions

Prix Netflix : L'algorithme à un million de dollars

La démocratisation de l'apprentissage automatique à travers le premier grand concours de crowdsourcing. Le 2 octobre 2006, Netflix a lancé un défi sans précédent d'un million de dollars : Qui peut améliorer l'algorithme de recommandation Cinematch de 10% ? Avec plus de 100 millions d'évaluations de 480 000 utilisateurs pour 17 770 films, Netflix a fourni l'un des plus grands jeux de données ML publics. Plus de 20 000 équipes de plus de 150 pays se sont inscrites, 2 000 équipes ont soumis plus de 13 000 solutions. Le 26 juillet 2009, 'BellKor's Pragmatic Chaos' a gagné avec une amélioration de 10,06% grâce à une combinaison ensemble de factorisation matricielle et de machines de Boltzmann restreintes (cérémonie de remise : 21 septembre 2009). Le concours a significativement transformé le filtrage collaboratif et démontré la puissance du crowdsourcing pour les problèmes ML complexes. Bien que Netflix n'ait jamais déployé les algorithmes gagnants en production (coûts d'implémentation trop élevés), le concours a durablement inspiré l'industrie moderne des systèmes de recommandation.

Prix d'un million de dollars pour une amélioration de 10% de l'algorithme Cinematch sur un concours de 3 ans
100+ millions d'évaluations de 480k utilisateurs pour 17 770 films comme jeu de données ML public
A significativement transformé le filtrage collaboratif par la factorisation matricielle et les machines de Boltzmann restreintes
20 000+ équipes de 150 pays, 13 000 soumissions ont démontré la puissance du crowdsourcing pour le ML

Personnes:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisations:Netflix, BellKor, AT&T Research

2007Jeux de données

Fondation Common Crawl établie

La démocratisation d'Internet comme données d'entraînement pour l'intelligence artificielle. En 2007, Gil Elbaz a fondé la Common Crawl Foundation avec la mission : archiver tout l'Internet public et le rendre librement disponible. À partir de 2008, une activité de crawling systématique a commencé, qui englobe aujourd'hui plus de 100 milliards de pages web et 9,5 pétaoctets de données. Cette collection est devenue la source d'entraînement la plus importante pour les grands modèles de langage et a permis le développement de GPT-3, ChatGPT, LLaMA et d'autres systèmes d'IA modernes. Common Crawl se différenciait des approches commerciales par sa nature non lucrative et sa disponibilité gratuite. La collection de données brutes non filtrées nécessite un post-traitement, mais elle a démocratisé l'accès aux données linguistiques complètes et a rendu la recherche en IA plus indépendante des ensembles de données propriétaires.

Fondée en 2007 avec la mission d'archiver tout l'Internet public et de le rendre librement disponible
Plus de 100 milliards de pages web et 9,5+ pétaoctets de données depuis le début du crawling en 2008
Devenue la source d'entraînement principale pour GPT-3, ChatGPT, LLaMA et autres grands modèles de langage
L'approche non lucrative a démocratisé l'accès aux données linguistiques pour la recherche en IA mondiale

Personnes:Gil Elbaz, Common Crawl Team

Organisations:Common Crawl Foundation, Internet Archive, Alexa Internet

2008Publications

Zero-Shot Learning : Apprendre sans données

La formalisation de l'apprentissage de classes non vues à travers des descriptions sémantiques. En juillet 2008, Hugo Larochelle, Dumitru Erhan et Yoshua Bengio ont publié à la conférence AAAI leur travail « Zero-data Learning of New Tasks » et ont établi les fondements théoriques du zero-shot learning. Le problème fondamental : Comment un modèle peut-il classifier des classes pour lesquelles aucune donnée d'entraînement n'est disponible, seulement des descriptions ? La solution résidait dans les embeddings sémantiques et le transfer learning – la réutilisation de modèles entraînés pour de nouvelles tâches. Leur formalisation adressait de très grands ensembles de classes qui ne sont pas complètement couverts par les données d'entraînement. Les analyses expérimentales ont prouvé des capacités de généralisation significatives dans ce contexte. Ce travail a posé le fondement conceptuel des capacités modernes few-shot et zero-shot de GPT-3, GPT-4 et d'autres grands modèles de langage. Le zero-shot learning est devenu une technologie clé pour les systèmes IA scalables.

Classification de classes sans données d'entraînement – seulement avec des descriptions sémantiques des classes cibles
Réutilisation de modèles entraînés pour des tâches complètement nouvelles via embeddings sémantiques
Les représentations sémantiques permettent la généralisation à des concepts non vus
A posé les fondements des capacités few-shot et zero-shot des grands modèles de langage modernes

Personnes:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisations:University of Montreal, Google

2009Jeux de données

Les jeux de données CIFAR sont établis

La création d'un benchmark fondamental pour la vision par ordinateur. En 2009, Alex Krizhevsky, Vinod Nair et Geoffrey Hinton à l'Université de Toronto ont développé les jeux de données CIFAR-10 et CIFAR-100. Ceux-ci ont émergé comme des sous-ensembles étiquetés du jeu de données « Tiny Images » de 80 millions d'images. CIFAR-10 comprend 60 000 images couleur de 32x32 pixels dans dix catégories comme les avions, les voitures et les animaux, tandis que CIFAR-100 distribue le même nombre d'images dans cent classes plus fines. Les jeux de données sont devenus l'un des benchmarks les plus importants dans la recherche en vision par ordinateur et ont permis des comparaisons standardisées entre différents algorithmes. Notable est la connexion avec AlexNet : Krizhevsky a utilisé CIFAR-10 avant 2011 pour entraîner de petits CNNs sur des GPUs uniques – un précurseur de son succès ImageNet de 2012.

CIFAR-10 avec 60 000 images dans 10 catégories, CIFAR-100 avec 100 classes plus détaillées comme benchmarks de vision par ordinateur
Est devenu l'un des benchmarks standardisés les plus importants pour les algorithmes de vision par ordinateur dans le monde
A permis l'évaluation et la comparaison systématiques de différentes approches d'apprentissage automatique
Krizhevsky a utilisé CIFAR-10 avant 2011 pour l'entraînement de CNN – précurseur de son succès AlexNet en 2012

Personnes:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisations:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Jeux de données

ImageNet : Le dataset qui a tout changé

La création du dataset qui permit l'avancée du deep learning. En 2009, Fei-Fei Li avec son équipe publia l'article ImageNet et introduisit une base de données visuelle qui allait transformer la vision par ordinateur. Avec plus de 14 millions d'images annotées à la main et 22 000 catégories basées sur les hiérarchies WordNet, ImageNet résolut le goulot d'étranglement critique : le manque de données d'entraînement de grande qualité et en grand volume. L'annotation fut réalisée par 49 000 travailleurs de 167 pays via Amazon Mechanical Turk - un projet collaboratif sans précédent. Ce qui commença comme un poster dans un coin d'un centre de conférence de Miami Beach se développa en le Challenge ImageNet annuel (ILSVRC) et devint l'un des trois moteurs du développement de l'IA moderne. ImageNet permit la percée d'AlexNet en 2012 et posa les bases des véhicules autonomes, de la reconnaissance faciale et de l'imagerie médicale.

Plus de 14 millions d'images annotées à la main dans 22 000 catégories par 49 000 travailleurs de 167 pays
Basé sur les hiérarchies WordNet pour la catégorisation structurée des objets visuels
A fourni les données d'entraînement critiques pour la percée d'AlexNet en 2012 et l'avancée du deep learning
A transformé la recherche en vision par ordinateur et permis les véhicules autonomes, la reconnaissance faciale, l'imagerie médicale

Personnes:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisations:Stanford University, Princeton University

2010Jalons

DeepMind est fondée

La naissance d'un laboratoire d'IA qui ferait les gros titres dans le monde entier. En septembre 2010, Demis Hassabis, Shane Legg et Mustafa Suleyman ont fondé DeepMind Technologies à Londres. Leur objectif : développer une intelligence artificielle générale en combinant les connaissances des neurosciences et de l'apprentissage automatique. Hassabis, ancien prodige des échecs et développeur de jeux, a apporté une vision unique : l'IA devrait apprendre comme le cerveau humain. En 2014, Google a acquis la startup pour un montant estimé à 500 millions de dollars – l'une des plus grandes acquisitions d'IA de l'histoire. DeepMind étonnerait plus tard le monde avec AlphaGo, AlphaFold et d'autres percées.

Fondée en septembre 2010 à Londres sous le nom DeepMind Technologies
Demis Hassabis (neuroscientifique, développeur de jeux), Shane Legg et Mustafa Suleyman
Acquise par Google en 2014 pour un montant estimé à 500 millions de dollars
Plus tard responsable d'AlphaGo, AlphaFold et d'autres systèmes d'IA majeurs

Personnes:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisations:DeepMind, Google

2010Compétitions

Challenge ImageNet : La compétition commence

L'établissement du benchmark de vision par ordinateur le plus important de l'histoire de l'IA. En 2010, le premier ImageNet Large Scale Visual Recognition Challenge (ILSVRC) démarra et créa une compétition standardisée qui allait façonner la recherche en vision par ordinateur pour la décennie suivante. Avec 1 000 catégories d'objets et 1,2 million d'images d'entraînement, le challenge dépassait de loin les benchmarks alors disponibles comme PASCAL VOC avec seulement 20 classes. L'évaluation se faisait via les taux d'erreur Top-1 et Top-5 - des métriques qui restent standard aujourd'hui. De 2010 à 2017, les taux de classification des gagnants s'améliorèrent substantiellement de 71,8% à 97,3%, dépassant finalement la performance humaine. Le challenge annuel attira plus de 50 institutions du monde entier et catalysa les avancées qui culminèrent dans la percée significative d'AlexNet en 2012.

Premier ILSVRC 2010 avec 1 000 catégories et 1,2 million d'images d'entraînement - bien au-delà de PASCAL VOC
A établi les taux d'erreur Top-1 et Top-5 comme métriques standard pour l'évaluation de la vision par ordinateur
Compétition annuelle depuis 2010 attirant plus de 50 institutions mondiales et stimulant les avancées de recherche
A créé la structure compétitive qui permit la percée significative de 15,3% d'AlexNet en 2012

Personnes:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisations:Stanford University, ImageNet Team

2011Compétitions

Watson bat les champions de Jeopardy

Le triomphe d'IBM en traitement du langage naturel et preuve de la compréhension du langage par machine. Le 16 février 2011, le système Watson d'IBM a battu les deux champions les plus titrés de tous les temps dans le défi télévisé Jeopardy : Ken Jennings (74 victoires consécutives) et Brad Rutter (3,25 millions de dollars de gains jusqu'en 2005). Watson, développé par l'équipe DeepQA de David Ferrucci, consistait en 90 serveurs IBM Power 750 (dans 10 baies) avec 16 téraoctets de RAM et 2 880 cœurs de processeurs POWER7. L'innovation résidait dans le traitement du langage naturel : Watson comprenait les questions en langage naturel et répondait plus précisément que toute technologie de recherche standard – sans connexion internet. Avec 77 147 $ de gains (donnés à une œuvre caritative), Watson a dominé ses concurrents humains de près de 50 000 $. La remarque finale célèbre de Ken Jennings « Pour ma part, je souhaite la bienvenue à nos nouveaux maîtres informatiques » a souligné l'importance historique de cette étape du NLP.

A battu les légendes de Jeopardy Ken Jennings et Brad Rutter dans un défi télévisé
Première démonstration télévisée de capacités avancées de traitement du langage naturel pour des millions de téléspectateurs
Le système DeepQA combinait récupération de connaissances et raisonnement complexe sans connexion internet
Le commentaire de Ken Jennings sur les « maîtres informatiques » a souligné l'importance culturelle des progrès de l'IA

Personnes:David Ferrucci, Ken Jennings, Brad Rutter

Organisations:IBM Research, Jeopardy!, Sony Pictures Television

2011Produits

Lancement de Siri : La première IA vocale grand public

Le 4 octobre 2011, Apple a significativement transformé l'interaction homme-machine avec l'introduction de Siri sur l'iPhone 4S. En tant que premier assistant vocal largement disponible, Siri a mis l'IA dans les poches de millions de personnes. 'Quel temps fait-il aujourd'hui ?' ou 'Trouve-moi un bon restaurant grec' - soudain les utilisateurs pouvaient parler naturellement avec leurs téléphones. Siri était construit sur des décennies de recherche au SRI International et le projet CALO de la DARPA. Susan Bennett avait enregistré sans le savoir la voix originale en 2005. Steve Jobs, dans ses derniers jours, a assisté à la dernière démo de cette technologie significative. Un jour après l'introduction de Siri, il est décédé. Siri n'était pas parfait - les critiques se plaignaient des commandes rigides et du manque de flexibilité. Mais l'objectif était atteint : l'IA était devenue grand public. Siri a inspiré Amazon Alexa, Google Assistant et Microsoft Cortana. L'ère des assistants vocaux avait commencé.

Premier assistant vocal IA largement disponible pour des millions d'utilisateurs de smartphones dans le monde
Le traitement du langage naturel avancé a permis une communication intuitive homme-machine
Dernier grand projet produit de Steve Jobs avant son décès le 5 octobre 2011
A fondé l'ère moderne des assistants vocaux et inspiré tous les concurrents

Personnes:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisations:Apple, SRI International, DARPA

2012Publications

Régularisation Dropout

Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever et Ruslan Salakhutdinov améliorent significativement l'entraînement des réseaux de neurones en juillet 2012 avec l'invention de la régularisation dropout. Cette technique élégante prévient le surapprentissage en « désactivant » aléatoirement environ la moitié de tous les neurones pendant l'entraînement, évitant les co-adaptations complexes. Au lieu de combinaisons de caractéristiques spécifiques, chaque neurone apprend des motifs de reconnaissance robustes et généralement utiles. La méthode publiée sur arXiv le 3 juillet 2012 permet la percée d'AlexNet sur ImageNet en septembre 2012 et devient le standard dans la plupart des architectures modernes de deep learning. Le dropout établit de nouveaux records en reconnaissance vocale et d'objets et résout le problème central de surapprentissage des réseaux profonds.

Résout le problème central de surapprentissage des réseaux de neurones profonds
Désactivation aléatoire de la moitié de tous les neurones pendant l'entraînement
Permet la percée d'AlexNet sur ImageNet - le succès serait impossible sans le dropout
Devient le standard dans la plupart des architectures modernes de deep learning

Personnes:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisations:University of Toronto

2012Percées

Accomplissement d'AlexNet

Le tournant pour le deep learning et l'IA moderne. Le 30 septembre 2012, AlexNet a gagné le Challenge ImageNet avec une marge telle que la vision par ordinateur a été fondamentalement changée. Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton de l'Université de Toronto ont développé une architecture CNN qui a battu sa compétition par 9,8 points de pourcentage remarquables – une amélioration considérée comme exceptionnelle dans la communauté scientifique. Avec 60 millions de paramètres et des techniques innovantes comme les activations ReLU et les couches dropout, AlexNet a prouvé pour la première fois la supériorité pratique du deep learning. C'était le moment où une théorie intéressante est devenue une technologie dominante. Yann LeCun l'a appelé un « tournant sans équivoque dans l'histoire de la vision par ordinateur ». L'implémentation basée sur GPU a ouvert la voie au développement moderne de l'IA.

AlexNet a gagné le Challenge ImageNet 2012 avec un taux d'erreur de 15,3% – 9,8 points de pourcentage meilleurs que le deuxième participant
60 millions de paramètres, activations ReLU, couches dropout et entraînement GPU ont établi de nouveaux standards techniques
A prouvé pour la première fois la supériorité pratique du deep learning et a mis fin au scepticisme envers les réseaux neuronaux
A lancé le développement moderne de l'IA et a fait des architectures CNN le standard en vision par ordinateur

Personnes:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisations:University of Toronto, ImageNet Challenge, NIPS

2012Percées

Révolution du Deep Learning

L'année qui a inauguré l'ère moderne de l'IA par la convergence des ensembles de données, de la puissance GPU et des architectures neuronales. 2012 a marqué l'essor du deep learning comme technologie d'IA dominante, catalysé par l'impressionnante victoire d'AlexNet sur ImageNet. La convergence de trois développements l'a rendu possible : l'ensemble de données ImageNet de Fei-Fei Li a fourni des données d'entraînement étiquetées massives, le calcul GPU a atteint la puissance de calcul nécessaire pour les réseaux profonds, et des méthodes d'entraînement améliorées comme les activations ReLU et la régularisation dropout ont surmonté les anciennes limitations. L'équipe de Geoffrey Hinton a prouvé dans la maison des parents de Krizhevsky avec deux cartes Nvidia que les réseaux de neurones profonds étaient pratiques. AlexNet s'est avéré être un tournant pour la vision par ordinateur. Ce succès a considérablement augmenté l'intérêt pour le deep learning et a ouvert la voie à VGG, ResNet et finalement au développement actuel de l'IA générative.

Le Deep Learning s'est établi comme technologie d'IA dominante et a mis fin à la dominance des approches traditionnelles d'apprentissage automatique
La victoire d'AlexNet sur ImageNet a démontré pour la première fois la supériorité pratique des réseaux de neurones profonds
Le calcul GPU a permis l'entraînement de grands réseaux de neurones et a fondamentalement changé les méthodes de recherche en IA
A déclenché des investissements massifs dans la recherche en deep learning et l'adoption industrielle des architectures neuronales

Personnes:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky

Organisations:University of Toronto, NYU, University of Montreal

2013Publications

Word2Vec : Les mots comme vecteurs

La transformation de la représentation des mots par les espaces vectoriels sémantiques. Le 16 janvier 2013, Tomas Mikolov avec son équipe Google a publié l'article révolutionnaire « Efficient Estimation of Word Representations in Vector Space ». Word2Vec a transformé le NLP en représentant les mots comme des vecteurs de haute dimension qui capturent les relations sémantiques et syntaxiques. Les deux variantes d'architecture CBOW (Continuous Bag of Words) et Skip-Gram ont appris de grands corpus de texte que les mots similaires apparaissent dans des contextes similaires. L'exemple célèbre a démontré l'arithmétique vectorielle : Roi - Homme + Femme = Reine. Avec plus de 49 000 citations, le travail de Mikolov est devenu l'un des articles NLP les plus influents. Word2Vec a posé les fondements de toutes les techniques modernes d'embeddings et a permis le raisonnement sémantique dans les espaces vectoriels. Cette innovation a ouvert la voie aux architectures transformer et aux grands modèles de langage modernes.

Premières représentations vectorielles de haute dimension efficaces des mots avec relations sémantiques
Patterns sémantiques et syntaxiques par arithmétique vectorielle : Roi - Homme + Femme = Reine
A permis le raisonnement analogique dans les espaces vectoriels par similarité cosinus et métriques de distance
A posé les fondements des techniques modernes d'embeddings et des grands modèles de langage basés sur transformer

Personnes:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisations:Google, Google Research

2013Publications

VAE : Autoencodeurs Variationnels

La naissance des modèles génératifs probabilistes par la modélisation d'espaces latents. Le 20 décembre 2013, Diederik Kingma et Max Welling ont révolutionné la modélisation générative avec leur article « Auto-Encoding Variational Bayes ». Les VAE connectent les réseaux encodeur et décodeur à travers un espace latent probabiliste – typiquement une distribution gaussienne multivariée. Contrairement aux autoencodeurs déterministes, l'encodeur code les données comme des distributions plutôt que des points uniques, permettant l'interpolation continue et la génération de données. L'astuce innovante de reparamétrisation rend l'aléatoire différentiable comme entrée du modèle et permet l'optimisation par gradient standard. Les VAE ont démontré la génération réaliste de visages et de chiffres manuscrits par inférence variationnelle. Ce travail a posé les fondements de l'IA générative moderne et a influencé toutes les approches probabilistes ultérieures, des GAN aux modèles de diffusion.

Inférence variationnelle pour l'approximation efficace des distributions postérieures intractables en variables latentes continues
L'espace latent probabiliste permet l'interpolation continue et la génération de nouveaux points de données
Première combinaison réussie d'architecture autoencodeur avec modélisation générative probabiliste
Architecture encodeur-décodeur avec astuce de reparamétrisation pour l'aléatoire différentiable

Personnes:Diederik P. Kingma, Max Welling

Organisations:University of Amsterdam

2014Jeux de données

MS COCO : Le standard d'or de la vision par ordinateur

En 2014, Microsoft a significativement transformé la recherche en vision par ordinateur avec le jeu de données COCO (Common Objects in Context). Contrairement à ImageNet avec des objets isolés, COCO montrait des objets dans leur contexte naturel - tels qu'ils apparaissent dans le monde réel. 2,5 millions d'annotations dans 328 000 images avec 91 catégories d'objets qu'un enfant de 4 ans pourrait reconnaître. L'innovation résidait dans les détails : des masques de segmentation précis au pixel au lieu de simples boîtes englobantes. COCO a permis pour la première fois une localisation précise des objets et une compréhension complexe des scènes. Le jeu de données est devenu le standard d'or pour la détection d'objets, la segmentation d'instances et le sous-titrage d'images. De YOLO à Mask R-CNN - tous les grands modèles de vision par ordinateur sont mesurés contre COCO. Des métriques standardisées comme la précision moyenne (mAP) ont rendu possibles les comparaisons objectives de modèles. Plus d'une décennie plus tard, COCO reste le benchmark le plus important de la communauté CV. Sans COCO, il n'y aurait pas de systèmes modernes de reconnaissance d'objets dans les véhicules autonomes, la surveillance ou la réalité augmentée.

Objets en contexte naturel au lieu d'isolés - a transformé la vision par ordinateur des scènes artificielles aux scènes réelles
2,5 millions d'annotations précises au pixel dans 328k images - qualité et profondeur d'annotation sans précédent
Standard d'or avec métriques mAP pour comparaisons objectives de modèles - a défini l'évaluation en vision par ordinateur
Fondation pour YOLO, Mask R-CNN et tous les systèmes CV modernes - des voitures autonomes à la RA

Personnes:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisations:Microsoft Research, Cornell University, UC Berkeley

2014Publications

GANs - Réseaux Antagonistes Génératifs

Ian Goodfellow invente les Réseaux Antagonistes Génératifs (GANs) en 2014 durant une seule nuit à Montréal après avoir bu avec des amis. Son framework novateur oppose deux réseaux de neurones dans un jeu minimax : Un générateur crée des données artificielles tandis qu'un discriminateur essaie de distinguer le vrai du faux. Cet entraînement adversarial change fondamentalement l'IA générative et permet pour la première fois la génération d'images photoréalistes. Le travail publié sur arXiv en 2014 devient l'un des articles d'IA les plus influents, faisant de Goodfellow une célébrité de l'IA. Des centaines de variantes de GAN suivent.

Deux réseaux de neurones en jeu minimax : Générateur vs. Discriminateur
Inventé en une nuit à Montréal en 2014 après une visite au pub - a fonctionné immédiatement
Framework mathématiquement élégant pour l'optimisation adversariale
Change fondamentalement l'IA générative - permet la génération d'images photoréalistes

Personnes:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisations:University of Montreal, NIPS Conference

2014Publications

Mécanisme d'Attention : La Clé des LLM Modernes

Septembre 2014 : Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio ont publié un article qui allait significativement changer le monde du NLP. « Neural Machine Translation by Jointly Learning to Align and Translate » a résolu un problème fondamental des modèles séquence-à-séquence. Les architectures encodeur-décodeur précédentes compressaient chaque phrase d'entrée en un seul vecteur de longueur fixe – un goulot d'étranglement d'information pour les phrases longues. L'attention de Bahdanau était une avancée majeure : Au lieu d'un vecteur fixe, le modèle utilisait une attention dynamique sur différentes parties de la phrase d'entrée. Comme l'œil humain en lisant, l'attention de l'IA saute entre les mots pertinents. Cette « Attention Additive » est devenue la fondation de tous les systèmes NLP modernes. Pas de Bahdanau, pas de Transformers ; pas de Transformers, pas de famille GPT ni de BERT. Cette percée s'est produite trois ans avant « Attention Is All You Need ».

A résolu le goulot d'étranglement encodeur-décodeur : Longueurs de phrases variables au lieu de compression en vecteur fixe
Attention dynamique au lieu d'encodage statique : Focus adaptatif sur les parties pertinentes de l'entrée
Apprend l'alignement entre les langues : Quels mots correspondent lors de la traduction ?
Fondation pour le développement des Transformers : Sans l'attention de Bahdanau, pas de GPT, BERT ou ChatGPT

Personnes:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisations:University of Montreal, Jacobs University Bremen

2014Produits

Lancement d'Amazon Alexa & Echo

Amazon change significativement l'interaction humain-technologie le 6 novembre 2014 avec l'introduction d'Alexa et de l'enceinte intelligente Echo. Cette nouvelle catégorie de produits rend l'IA vocale accessible au grand public pour la première fois et transforme les foyers en environnements contrôlés par la voix. S'appuyant sur la technologie de synthèse vocale polonaise Ivona acquise le 24 janvier 2013, Amazon crée une expérience utilisateur novatrice. Echo commence comme un appareil de contrôle musical mais évolue rapidement vers un hub universel pour maison intelligente. Cette innovation marque le début d'un développement de marché majeur et inspire de nombreux concurrents.

Introduction d'une nouvelle catégorie de produits : Enceinte intelligente avec disponibilité vocale permanente
L'IA vocale devient accessible à des millions de consommateurs – pas seulement les passionnés de technologie
Transforme les salons en centres de maison intelligente contrôlés par la voix
Marque le début d'un développement de marché majeur – Google, Apple et d'autres suivent

Personnes:Jeff Bezos, Amazon Alexa Team

Organisations:Amazon, Ivona (acquired 2013)

2015Publications

Batch Normalization : Avancée Importante dans l'Entraînement des Réseaux Neuronaux

Le 11 février 2015, Sergey Ioffe et Christian Szegedy de Google ont publié un article qui a significativement changé l'entraînement des réseaux neuronaux profonds. Leur problème : « Internal Covariate Shift » – la distribution d'entrée de chaque couche change pendant l'entraînement, conduisant à un apprentissage instable. Leur solution élégante : La Batch Normalization normalise les activations de chaque couche pour chaque mini-batch. L'effet était substantiel : un entraînement 14x plus rapide avec la même précision. Des taux d'apprentissage plus élevés sont devenus possibles, le dropout souvent inutile, l'initialisation moins critique. La méthode agissait simultanément comme régulariseur et accélérateur. Leur ensemble ImageNet a atteint 4,8% de taux d'erreur top-5, surpassant les évaluateurs humains (environ 5,1%). Avec plus de 12 000 citations, l'article a inspiré d'innombrables méthodes de normalisation : GroupNorm, LayerNorm, InstanceNorm. Aujourd'hui, la Batch Normalization est standard dans pratiquement toutes les architectures modernes – de ResNet au Transformer.

A résolu le problème de l'Internal Covariate Shift en normalisant les activations dans chaque mini-batch
Entraînement 14x plus rapide avec la même précision – a permis des taux d'apprentissage plus élevés et une initialisation robuste
Double bénéfice : accélération ET régularisation – remplace souvent le dropout dans les architectures modernes
4,8% d'erreur top-5 ImageNet avec ensemble – a surpassé les évaluateurs humains (environ 5,1%) et établi un nouveau standard

Personnes:Sergey Ioffe, Christian Szegedy

Organisations:Google Inc., ICML Conference

2015Publications

YOLO : You Only Look Once

La transformation de la détection d'objets en temps réel grâce à une architecture unifiée en une seule passe. Le 8 juin 2015, Joseph Redmon, Santosh Divvala, Ross Girshick et Ali Farhadi ont présenté l'article révolutionnaire « You Only Look Once: Unified, Real-Time Object Detection ». YOLO a brisé le paradigme traditionnel en deux étapes de la détection d'objets et a formulé la détection comme un problème de régression pour des boîtes englobantes spatialement séparées. Un seul réseau de neurones prédit les boîtes englobantes et les probabilités de classe directement à partir d'images complètes en une seule évaluation. Avec 45 fps de performance de base et Fast YOLO à un impressionnant 155 fps, le système était des centaines à des milliers de fois plus rapide que les détecteurs existants. L'architecture basée sur une grille divisait les images en cellules, chaque cellule prédisant les objets en son centre. YOLO a appris des représentations d'objets généralisantes et a significativement surpassé les autres méthodes en transfert de domaine.

45 fps de performance de base, Fast YOLO 155 fps – des centaines à milliers de fois plus rapide que les détecteurs existants
Architecture en une passe formule la détection d'objets comme problème de régression au lieu du paradigme deux étapes
Division en grille de cellules avec prédiction directe des boîtes englobantes et probabilités de classe
A permis la vision par ordinateur en temps réel pour véhicules autonomes, surveillance et applications mobiles

Personnes:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisations:University of Washington, Allen Institute, Facebook AI Research

2015Percées

Développement d'AlphaGo par DeepMind

DeepMind annonce le succès d'AlphaGo en 2015, le premier système d'IA à battre un joueur professionnel de Go sur un plateau complet sans handicap. En octobre 2015, AlphaGo bat le champion européen de Go Fan Hui 5-0, conquérant le jeu de plateau le plus complexe du monde une décennie plus tôt que prévu par les experts. Le Go est un googol de fois plus complexe que les échecs, avec plus de configurations de plateau possibles qu'il n'y a d'atomes dans l'univers connu. Ce succès remarquable démontre la puissance des réseaux de neurones et de la recherche arborescente Monte Carlo.

Première victoire informatique contre un joueur professionnel de Go sur plateau complet sans handicap (Fan Hui 5-0)
Approche novatrice utilisant des réseaux de neurones profonds au lieu d'algorithmes codés en dur
Maîtrisé 10^170 configurations de plateau possibles - plus que les atomes dans l'univers
Percée survenue une décennie plus tôt que prévu par les experts en IA

Personnes:Demis Hassabis, David Silver, DeepMind Team

Organisations:DeepMind, Google

2015Produits

Tesla Autopilot : Assistance à la conduite pour le grand public

Le 14 octobre 2015, Tesla a publié la version logicielle 7.0, activant pour la première fois Autopilot sur les véhicules Model S. Le matériel avait été installé dans les véhicules depuis septembre 2014 – un an avant l'activation logicielle. Le système utilisait la technologie Mobileye avec une caméra frontale, un radar et 12 capteurs à ultrasons. Les conducteurs pouvaient désormais utiliser le régulateur de vitesse adaptatif, l'assistance au maintien de voie et le stationnement automatique – des fonctionnalités auparavant réservées aux véhicules de luxe. Tesla l'a classé comme autonomie de niveau 2 : le système assiste le conducteur mais ne le remplace pas. Musk a souligné lors du lancement : « Nous conseillons aux conducteurs de garder les mains sur le volant. » En un an, la flotte Tesla a accumulé 300 millions de miles avec Autopilot actif. Le concept – pré-installer le matériel, débloquer les fonctionnalités via mise à jour logicielle – a montré à l'industrie automobile une nouvelle voie.

La mise à jour du 14 octobre 2015 a activé le matériel pré-installé - nouveau concept pour l'industrie automobile
Capteurs Mobileye : caméra frontale, radar et 12 capteurs à ultrasons pour l'assistance niveau 2
Régulateur adaptatif, maintien de voie et stationnement automatique - auparavant réservés au luxe
300 millions de miles la première année - a démontré la maturité pour le grand public

Personnes:Elon Musk, Tesla Engineering Team

Organisations:Tesla Inc., Mobileye

2015Produits

TensorFlow : Le framework ML de Google devient open source

La démocratisation du machine learning grâce au puissant outil interne de Google. Le 9 novembre 2015, Google a rendu TensorFlow open source sous licence Apache 2.0 et a mis son système ML de deuxième génération à la disposition de tous. TensorFlow a remplacé le système interne DistBelief et offrait une vitesse doublée avec une meilleure évolutivité et préparation à la production. En tant que processeur universel de graphes de flux de calcul, TensorFlow permettait non seulement le deep learning mais tout calcul différentiable. L'interface Python flexible, l'auto-différentiation et les optimiseurs de première classe ont significativement amélioré le développement ML. La stratégie de Google : le développement communautaire accélère les progrès de l'IA pour tous. Développé avec plus de 30 auteurs de l'équipe Google Brain, TensorFlow est devenu l'une des principales plateformes ML et a permis à des millions de développeurs de créer des applications IA avancées.

La licence Apache 2.0 a rendu le puissant système ML interne de Google librement accessible à tous
A remplacé DistBelief avec une vitesse doublée et une meilleure évolutivité
L'interface Python flexible et l'auto-différentiation ont significativement amélioré le développement ML
A permis à des millions de développeurs d'accéder à la technologie IA avancée

Personnes:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisations:Google, Google Brain

2015Publications

ResNet : Les réseaux résiduels transforment l'apprentissage profond

La solution au problème du gradient évanescent et la naissance des réseaux ultra-profonds. Le 10 décembre 2015, l'équipe de Kaiming He chez Microsoft Research a publié l'article 'Deep Residual Learning for Image Recognition' et a significativement transformé l'apprentissage profond. ResNet a introduit les connexions résiduelles – des connexions de saut qui transmettent directement les entrées aux couches ultérieures et permettent l'entraînement de réseaux ultra-profonds. Avec 152 couches, ResNet était huit fois plus profond que VGG mais moins complexe. Le résultat remarquable : 3,57% de taux d'erreur sur ImageNet – un triomphe qui a dominé toutes les catégories. ResNet a remporté la Classification, Détection, Localisation ImageNet ainsi que la Détection et Segmentation COCO en 2015. Le cadre d'apprentissage résiduel a reformulé les couches comme apprenant des fonctions résiduelles au lieu de fonctions non référencées. Cette innovation a permis d'entraîner des réseaux avec des centaines de couches.

Les connexions de saut transmettent directement les entrées et permettent l'entraînement de réseaux ultra-profonds
152 couches – 8x plus profond que VGG mais moins complexe grâce au cadre d'apprentissage résiduel
3,57% de taux d'erreur ImageNet, a remporté toutes les catégories ILSVRC & COCO 2015
A établi les connexions résiduelles comme standard pour les architectures modernes d'apprentissage profond

Personnes:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisations:Microsoft Research

2015Jalons

OpenAI est fondée

L'organisation qui voulait rendre l'IA accessible à tous – et a changé le monde. Le 11 décembre 2015, Sam Altman, Elon Musk et d'autres personnalités technologiques de premier plan ont annoncé la fondation d'OpenAI. Avec un milliard de dollars de financement initial et l'objectif de développer une intelligence artificielle générale sûre qui bénéficie à toute l'humanité, OpenAI est entrée en scène comme une organisation de recherche à but non lucratif. Ce qui a commencé comme une entreprise idéaliste est devenu le laboratoire d'IA le plus influent au monde. En 2019, une filiale à but lucratif a été établie. Avec GPT-3 et ChatGPT, OpenAI a redéfini ce que l'IA peut accomplir.

Fondée le 11 décembre 2015 à San Francisco
Mission : Développer une intelligence artificielle générale sûre qui bénéficie à toute l'humanité
Lancée avec 1 milliard de dollars d'Elon Musk, Peter Thiel, Reid Hoffman et d'autres
De non-profit à structure à profit plafonné (2019), plus tard responsable de la série GPT et ChatGPT

Personnes:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisations:OpenAI, Y Combinator

2016Compétitions

AlphaGo bat Lee Sedol

Le moment historique où l'IA a battu pour la première fois un champion du monde dans le jeu de plateau le plus complexe. Du 9 au 15 mars 2016, le DeepMind Challenge Match a eu lieu à Séoul – cinq parties entre Lee Sedol, l'un des meilleurs joueurs de Go au monde, et AlphaGo. Le résultat a étonné le monde : 4:1 pour la machine. En particulier le fameux « Coup 37 » dans la deuxième partie a démontré la créativité de la machine – un coup avec une probabilité de 1:10 000 qui a renversé des siècles de sagesse du Go. AlphaGo combinait le deep learning avec la recherche arborescente Monte Carlo et s'est entraîné à la fois avec des parties humaines et par auto-apprentissage. La réponse de Lee Sedol dans la quatrième partie avec son « Coup divin 78 » a cependant montré que l'intuition humaine peut encore surprendre. Plus de 200 millions de personnes dans le monde ont suivi ces matchs.

AlphaGo a battu Lee Sedol 4:1 et a démontré la supériorité de l'IA dans le jeu de plateau le plus complexe pour la première fois
Le fameux « Coup 37 » avec une probabilité de 1:10 000 a montré la créativité de la machine et a défié les traditions du Go
La combinaison du deep learning et de la recherche arborescente Monte Carlo a permis de maîtriser la complexité du Go
Plus de 200 millions de personnes ont suivi les matchs – un tournant pour la perception publique de l'IA

Personnes:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisations:DeepMind, Google, Korean Baduk Association

2016Publications

XGBoost : Le gradient boosting extrême domine le ML

Le perfectionnement du gradient boosting et la conquête des problèmes de données structurées. Le 9 mars 2016, Tianqi Chen et Carlos Guestrin ont publié sur arXiv l'article XGBoost: A Scalable Tree Boosting System, présenté en août 2016 à la conférence KDD. Développé à partir du projet de doctorat de Chen à l'Université de Washington, XGBoost a significativement amélioré le gradient boosting traditionnel grâce à des optimisations extrêmes : la régularisation L1 et L2 prévenait le surapprentissage, les gradients de second ordre fournissaient une information directionnelle plus précise, et la parallélisation accélérait significativement la construction des arbres. XGBoost a dominé les compétitions de machine learning des années 2010 et est devenu le choix standard des équipes gagnantes sur Kaggle. Au Higgs Boson ML Challenge, Tianqi Chen a remporté un prix spécial et XGBoost a été adopté par de nombreux meilleurs participants, établissant sa dominance pour les données structurées. Le système de boosting d'arbres scalable de bout en bout supporte C++, Java, Python, R et d'autres langages.

Optimisation extrême du gradient boosting avec régularisation L1/L2 et gradients de second ordre
A dominé les compétitions ML des années 2010 et est devenu le choix standard des équipes gagnantes Kaggle
Construction d'arbres parallélisée et architecture scalable de bout en bout pour grands datasets
Algorithme de référence pour les données structurées en parallèle de la révolution du deep learning

Personnes:Tianqi Chen, Carlos Guestrin

Organisations:University of Washington, Amazon

2016Produits

Google Assistant : La stratégie AI-First devient réalité

Le 18 mai 2016, Sundar Pichai présenta Google Assistant à Google I/O - la réponse de Google à Siri et Alexa. Après des années de retard dans l'espace des assistants vocaux, Google rattrapait en force. L'Assistant était plus qu'une mise à niveau de Google Now - c'était la fondation de la stratégie 'AI-First' de Pichai. 'Nous voulons que les utilisateurs aient un dialogue continu avec Google', expliqua Pichai. 'Nous construisons pour chaque utilisateur son propre Google individuel.' L'Assistant devait devenir une 'expérience ambiante' s'étendant sur tous les appareils - des smartphones à Google Home en passant par les voitures. Contrairement aux concurrents basés sur les commandes, Google se concentra sur la conversation naturelle et la compréhension contextuelle. PC World loua l'Assistant comme 'une avancée par rapport à Cortana et Siri.' Le lancement marqua l'entrée sérieuse de Google dans le développement de l'IA vocale et posa les bases de la dominance IA actuelle de l'entreprise.

Conversation naturelle au lieu de commandes - 'dialogue continu' comme objectif pour l'IA vocale
Fondation de la stratégie AI-First de Pichai - 'Google individuel' pour chaque utilisateur
Vision d'expérience ambiante - interaction IA fluide sur tous les appareils et plateformes
Course de rattrapage de Google contre Siri et Alexa - de retardataire à leader du marché de l'IA vocale

Personnes:Sundar Pichai, Google Assistant Team

Organisations:Google Inc., Google I/O Conference

2016Organisations

Partnership on AI : Les géants de la tech s'unissent

Une alliance significative des principales entreprises technologiques pour un développement responsable de l'IA. Le 28 septembre 2016, Amazon, Facebook, Google, DeepMind, IBM et Microsoft ont fondé le 'Partnership on Artificial Intelligence to Benefit People and Society' – une coalition inhabituelle d'anciens concurrents. Avec Eric Horvitz (Microsoft Research) et Mustafa Suleyman (DeepMind) comme co-présidents intérimaires, le Partnership a établi un conseil de 10 membres avec des parts égales de membres corporatifs et non-corporatifs. La mission englobe la recherche et les meilleures pratiques pour l'éthique, l'équité, la transparence, la vie privée et la collaboration humain-IA. Notable : Apple était initialement absent mais a rejoint en 2017. Le Partnership évite délibérément les activités de lobbying et se concentre sur la coopération en recherche. Cette initiative a marqué le début de l'autorégulation industrielle structurée dans le développement de l'IA.

Alliance significative d'Amazon, Facebook, Google, DeepMind, IBM et Microsoft pour l'éthique de l'IA
Mission : L'IA au bénéfice des personnes et de la société à travers l'éthique, l'équité et la transparence
Conseil de 10 membres avec parts égales de membres corporatifs et non-corporatifs
Focus sur la coopération en recherche et les meilleures pratiques sans activités de lobbying

Personnes:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisations:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Percées

La reconnaissance vocale atteint le niveau humain

Le 18 octobre 2016, Microsoft a réalisé un succès historique : Leur système de reconnaissance vocale est devenu le premier à atteindre des performances de niveau humain en parole conversationnelle. Après 25 ans de recherche, l'objectif était atteint - 5,9% de taux d'erreur de mots, aussi bon que les transcripteurs professionnels. Xuedong Huang, Chief Speech Scientist de Microsoft, a annoncé : 'Nous avons atteint la parité humaine. C'est un accomplissement historique.' Le système utilisait les dernières technologies d'apprentissage profond : réseaux de neurones convolutifs, architectures LSTM, et modèles de langage neuraux avec vecteurs de mots continus. L'innovation résidait dans la combinaison systématique de différentes approches et une méthode innovante de lissage spatial. Cela a été rendu possible par la convergence de trois développements : grands jeux de données (Switchboard Corpus), calcul GPU, et méthodes d'entraînement améliorées. Cet accomplissement a ouvert la voie aux assistants vocaux modernes et prouvé que l'IA peut atteindre les capacités cognitives humaines.

5,9% de taux d'erreur de mots atteint le niveau humain : Aussi bon que les transcripteurs professionnels
Jalon historique : Plus bas taux d'erreur jamais mesuré sur le standard Switchboard
CNN + LSTM + modèles de langage neuraux : Combinaison systématique de technologie d'apprentissage profond de pointe
Objectif de recherche de 25 ans atteint : Preuve que l'IA peut atteindre les capacités cognitives humaines

Personnes:Xuedong Huang, Microsoft AI Research Team

Organisations:Microsoft AI and Research, Switchboard Corpus

2017Publications

MobileNet - L'IA pour smartphones

Google Research transforme significativement l'IA mobile en avril 2017 avec MobileNet, le premier modèle d'apprentissage profond spécifiquement conçu pour les smartphones, l'IoT et les systèmes embarqués. Grâce à l'architecture innovante de convolution séparable en profondeur, MobileNet réduit le coût computationnel et les paramètres à un huitième des convolutions conventionnelles tout en maintenant l'efficacité. Cette remarquable efficacité - neuf fois plus rapide pour les noyaux 3×3 - permet pour la première fois le traitement d'images en temps réel sur les appareils mobiles. MobileNet démocratise la vision par ordinateur pour des milliards de smartphones et établit l'edge computing comme un nouveau paradigme d'IA au-delà des solutions basées sur le cloud.

Premier modèle d'apprentissage profond spécifiquement développé pour smartphones et appareils IoT
Convolutions séparables en profondeur : neuf fois plus rapides avec la même efficacité
Permet le traitement IA directement sur les appareils au lieu du cloud - Edge Computing
Réduit les paramètres à un huitième avec de meilleures performances que GoogleNet

Personnes:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisations:Google, Google Research

2017Publications

Publication de l'article de recherche RLHF

La technique qui a rendu ChatGPT possible – des années avant la percée. En juin 2017, des chercheurs d'OpenAI et DeepMind ont publié l'article 'Deep Reinforcement Learning from Human Preferences'. L'idée : Au lieu d'entraîner les systèmes d'IA avec des fonctions de récompense parfaitement définies, ils apprennent directement à partir du retour humain. Les humains évaluent différentes sorties de l'IA, et le système apprend quel comportement est préféré. Cette méthode, plus tard connue sous le nom de RLHF (Reinforcement Learning from Human Feedback), est devenue la technologie clé derrière ChatGPT et d'autres modèles de langage modernes. Le RLHF a rendu possible de rendre les systèmes d'IA plus utiles, honnêtes et sûrs.

Article 'Deep Reinforcement Learning from Human Preferences' publié en juin 2017
Idée centrale : L'IA apprend des préférences humaines au lieu de récompenses prédéfinies
Recherche conjointe d'OpenAI et DeepMind, incluant Paul Christiano et Dario Amodei
Le RLHF est devenu la technologie clé pour ChatGPT et les assistants IA modernes

Personnes:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisations:OpenAI, DeepMind

2017Publications

Transformer : « L'Attention Est Tout Ce Dont Vous Avez Besoin »

Le 12 juin 2017, huit chercheurs de Google ont publié l'article « Attention Is All You Need » sur arXiv – le fondement des grands modèles de langage modernes. Ashish Vaswani, Noam Shazeer et leurs collègues ont proposé une nouvelle architecture : le Transformer. Contrairement aux modèles de séquences précédents, le Transformer se passe des couches récurrentes et convolutionnelles. À la place, il utilise des mécanismes d'attention purs. L'auto-attention capture les relations entre toutes les positions d'une séquence en parallèle – pas besoin de traitement séquentiel. L'attention multi-têtes utilise plusieurs têtes d'attention parallèles qui apprennent différents aspects des relations entre mots. Sur WMT 2014, le modèle a atteint 28,4 BLEU pour anglais-allemand et 41,8 BLEU pour anglais-français – de nouveaux records. L'architecture s'est avérée fondamentale : GPT, BERT, ChatGPT et de nombreux autres modèles sont basés sur des variantes du Transformer. Avec plus de 173 000 citations, l'article est parmi les plus cités du 21e siècle.

Le mécanisme d'auto-attention capture les dépendances entre toutes les positions de séquence simultanément
L'abandon de la récurrence permet le traitement parallèle – significativement plus rapide que les modèles séquentiels
28,4 BLEU WMT anglais-allemand, 41,8 BLEU anglais-français – nouveaux standards de traduction
Devenu le fondement de tous les LLM modernes : GPT, BERT, ChatGPT sont basés sur l'architecture Transformer

Personnes:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisations:Google Brain, Google Research

2017Réglementation

Plan Directeur IA de la Chine : La Bataille pour le Leadership Mondial

Le 20 juillet 2017, le Conseil d'État chinois a annoncé le « Plan de Développement de l'Intelligence Artificielle de Nouvelle Génération » – la première stratégie nationale complète de l'IA de cette ampleur. L'objectif : Devenir la puissance mondiale leader en IA d'ici 2030. Le plan en trois étapes était très clair : 2020 globalement compétitive, 2025 leader mondial, 2030 la superpuissance IA leader avec 1 billion de yuans de production industrielle. La Chine a explicitement reconnu l'IA comme « focus de la compétition internationale » et « technologie stratégique pour la sécurité nationale ». Les investissements sont substantiels – des dizaines de milliards de dollars affluent dans la recherche, l'infrastructure et le développement des talents. Le plan englobe les applications militaires et civiles : des armes autonomes aux villes intelligentes. Les principes open source devraient favoriser la coopération internationale tandis que la Chine poursuit simultanément l'indépendance technologique. Cette stratégie a significativement changé le paysage mondial de l'IA et a déclenché une vague d'initiatives nationales d'IA aux USA et en Europe.

Première stratégie nationale complète de l'IA : Planification gouvernementale coordonnée pour le leadership technologique mondial
Calendrier en trois étapes : 2020 compétitive, 2025 leader mondial, 2030 superpuissance IA leader
Investissement de mille milliards de yuans : Financement massif de l'État dans la recherche IA, l'infrastructure et les talents
Ambition de leadership mondial : Coup d'envoi de la course mondiale à l'IA entre la Chine, les USA et l'Europe

Personnes:State Council of China, Chinese AI Research Community

Organisations:State Council of China, Chinese Academy of Sciences

2017Réglementation

Déclaration de Montréal pour une IA responsable

La première initiative internationale pour des principes éthiques de l'IA à travers la participation démocratique des citoyens. Le 3 novembre 2017, l'Université de Montréal a lancé le processus de co-création de la Déclaration de Montréal pour un développement responsable de l'IA. Le Forum pour un développement socialement responsable de l'IA a réuni plus de 400 participants de divers secteurs et disciplines. En 15 ateliers de délibération sur trois mois, plus de 500 citoyens, experts et parties prenantes ont discuté des défis sociétaux de l'IA. La déclaration publiée en 2018 présente 10 principes et 59 recommandations basés sur des valeurs comme le bien-être, l'autonomie, la justice, la vie privée et la démocratie. Avec plus de 500 signataires, la Déclaration de Montréal a établi une approche participative de la gouvernance de l'IA et influencé les efforts internationaux ultérieurs pour le développement responsable de l'IA.

10 principes éthiques et 59 recommandations pour un développement responsable de l'IA avec légitimité démocratique
Focus sur le bien-être, l'autonomie, la justice, la vie privée, la démocratie et la durabilité écologique
Initiée par l'Université de Montréal avec plus de 400 participants de divers secteurs
Plus de 500 signataires, a influencé la gouvernance internationale de l'IA et les initiatives réglementaires ultérieures

Personnes:Yoshua Bengio, Montreal AI Ethics Team

Organisations:Université de Montréal, Montreal Institute for Learning Algorithms

2017Percées

AlphaZero maîtrise trois jeux

La naissance d'une IA de jeu universelle par pur auto-apprentissage. En décembre 2017, DeepMind a présenté AlphaZero – un système qui a maîtrisé trois jeux de stratégie complètement différents sans aucune connaissance préalable : les échecs, le shogi et le Go. L'approche tabula rasa signifiait : pas de bases de données d'ouvertures, pas de stratégies humaines, seulement les règles du jeu comme point de départ. En 24 heures, AlphaZero a atteint une performance surhumaine – aux échecs après seulement 4 heures, au shogi après 2 heures. Contre Stockfish, il a gagné 25 parties, perdu 0, et fait 72 nulles. L'unicité résidait dans un comportement de recherche efficace : alors que Stockfish évalue 60 millions de positions par seconde, AlphaZero n'en analyse que 60 000 – mais de manière beaucoup plus ciblée grâce à son réseau neuronal profond. Cette performance a démontré pour la première fois la supériorité de l'apprentissage par renforcement pur.

A appris trois jeux complexes complètement de zéro – seulement avec les règles du jeu, sans connaissances humaines préalables ou bases de données
A atteint une performance surhumaine aux échecs (4h), shogi (2h) et Go (13 jours) par pur auto-apprentissage
A appris à travers des millions de parties contre lui-même et l'apprentissage par renforcement sans entrées externes
A évalué seulement 60 000 positions par seconde contre 60 millions pour Stockfish – mais de manière beaucoup plus ciblée

Personnes:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisations:DeepMind, Google, Science Magazine, ArXiv

2018Réglementation

RGPD : Tournant de la vie privée avec impact sur l'IA

Le 25 mai 2018, le Règlement Général sur la Protection des Données (RGPD) de l'UE entra en vigueur - un tournant pour l'IA et la vie privée dans le monde entier. En tant que 'Mère de toutes les lois sur la protection des données', il remplaça la directive obsolète de 1995 de l'âge de pierre d'Internet. Le RGPD introduisit le 'Privacy by Design' comme obligation : la protection des données doit être intégrée dans les systèmes d'IA dès le départ. L'effet de portée mondiale fut considérable - même les géants technologiques américains doivent se conformer aux normes européennes lors du traitement des données européennes. Pour l'IA, cela signifia un défi fondamental : Comment expliquer des algorithmes 'boîte noire' quand le RGPD exige la transparence ? Les brevets IA passèrent d'une approche gourmande en données à économe en données. L'apprentissage par transfert explosa de 185% entre 2018-2021. Le RGPD inspira des lois sur la vie privée dans le monde entier, de la Californie à Singapour. Le règlement ouvrit la voie au AI Act de l'UE 2024 - de la protection des données à la réglementation de l'IA n'était qu'une étape logique.

Obligation Privacy by Design : La protection des données doit être intégrée dans les systèmes d'IA dès le début
Défi de transparence IA : Algorithmes boîte noire vs. exigences d'explicabilité du RGPD
Effet de portée mondiale : Même les entreprises tech américaines doivent suivre les normes UE pour les données européennes
Modèle réglementaire : A inspiré des lois sur la vie privée dans le monde et ouvert la voie au AI Act de l'UE

Personnes:EU Parliament, European Commission

Organisations:European Union, European Parliament

2018Publications

GPT-1 : Naissance du Pré-entraînement Génératif

La fondation de tous les Grands Modèles de Langage modernes grâce au pré-entraînement non supervisé. Le 11 juin 2018, Alec Radford avec son équipe OpenAI publia l'article révolutionnaire 'Improving Language Understanding by Generative Pre-Training'. Ce travail combina pour la première fois l'architecture transformer avec le pré-entraînement non supervisé et établit le paradigme en deux étapes : d'abord l'entraînement génératif sur de grands corpus de texte, puis l'ajustement fin pour des tâches spécifiques. Avec 117 millions de paramètres et un entraînement sur le dataset BooksCorpus avec plus de 7 000 romans non publiés, GPT-1 prouva que l'apprentissage par transfert fonctionne pour la compréhension du langage. L'architecture transformer décodeur seul à douze couches avec auto-attention masquée établit le modèle pour toute la série GPT. Cette innovation transforma l'architecture transformer de 2017 en un outil pratique pour diverses tâches NLP et fonda l'ère des Grands Modèles de Langage.

A établi le pré-entraînement non supervisé sur de grands corpus de texte comme fondation des modèles de langage
A prouvé l'application réussie de l'apprentissage par transfert pour diverses tâches NLP
L'architecture transformer décodeur seul à douze couches devint le modèle pour toute la série GPT
A fondé l'ère des Grands Modèles de Langage et le paradigme pré-entraînement-ajustement fin

Personnes:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisations:OpenAI

2018Publications

BERT améliore significativement la compréhension du langage

Une avancée importante dans les modèles de langage bidirectionnels et la naissance du NLP moderne. En octobre 2018, Jacob Devlin et son équipe chez Google Research ont publié l'article sur BERT – Bidirectional Encoder Representations from Transformers. Cette innovation a significativement changé le traitement du langage en entraînant des représentations bidirectionnelles profondes à partir de textes non étiquetés pour la première fois. Contrairement aux modèles précédents, BERT considère simultanément le contexte gauche et droit dans toutes les couches. Le résultat était notable : BERT a atteint de nouveaux meilleurs résultats dans onze tâches NLP et a amélioré le score GLUE de 7,7 points de pourcentage remarquables à 80,5%. La publication open source a démocratisé la technologie de pointe et a permis à quiconque d'entraîner ses propres puissants modèles de langage en 30 minutes. BERT a établi le paradigme pré-entraînement-fine-tuning qui forme la base de tous les grands modèles de langage aujourd'hui.

Premier modèle de langage bidirectionnel profond qui considère simultanément le contexte gauche et droit dans toutes les couches
A atteint de nouveaux meilleurs résultats dans 11 tâches NLP et a amélioré le score GLUE de 7,7 points de pourcentage à 80,5%
La publication open source a permis à quiconque d'entraîner ses propres modèles de langage en 30 minutes
A établi le paradigme pré-entraînement-fine-tuning pour tous les modèles de langage modernes

Personnes:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisations:Google Research, Google AI Language

2019Publications

GPT-2 - "Trop Dangereux pour être Publié"

OpenAI publie GPT-2 en février 2019 mais prend la décision surprenante de retenir le modèle complet de 1,5 milliard de paramètres - affirmant qu'il est 'trop dangereux' pour une publication complète. Cette décision sans précédent divise la communauté IA : les partisans louent la position responsable étant donné les risques d'abus comme les fausses nouvelles et le spam automatisé. Les critiques accusent OpenAI de 'fermer' la recherche et d'alimenter des peurs infondées. Après neuf mois sans preuve solide d'abus, OpenAI publie le modèle complet, marquant un tournant dans le débat sur le développement responsable de l'IA.

Décision sans précédent : OpenAI retient le modèle complet de 1,5B paramètres
Craintes de fausses nouvelles, usurpation d'identité et spam automatisé sur les réseaux sociaux
Communauté IA divisée : progrès éthique vs. accusation de fermeture de la recherche
Publication complète après 9 mois faute de preuves d'abus

Personnes:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisations:OpenAI

2019Compétitions

AlphaStar atteint le niveau Grand Maître

La conquête de la stratégie en temps réel la plus complexe par l'intelligence artificielle. En août 2019, AlphaStar de DeepMind est devenu la première IA à atteindre le niveau Grand Maître dans StarCraft II – un jeu considéré comme trop complexe pour les machines. Le système s'est classé au-dessus de 99,8% de tous les joueurs actifs de Battle.net et a maîtrisé les trois races : Protoss, Terran et Zerg. Précédemment, AlphaStar avait déjà battu les joueurs professionnels Grzegorz « MaNa » Komincz et Dario « TLO » Wunsch 5:0 chacun. L'unicité résidait dans l'architecture d'apprentissage par renforcement multi-agents qui entraînait différentes stratégies et contre-stratégies dans une ligue. Avec une moyenne de 280 actions par minute, AlphaStar était même en dessous des professionnels humains mais a prouvé une exécution plus précise. Cette réussite a marqué une étape pour l'IA dans les jeux vidéo et la prise de décision en temps réel.

AlphaStar a atteint le niveau Grand Maître dans les trois races de StarCraft II et s'est classé au-dessus de 99,8% de tous les joueurs Battle.net
A battu les joueurs professionnels MaNa et TLO 5:0 chacun avant la réussite publique
Apprentissage par renforcement multi-agents avec entraînement en ligue de diverses stratégies et contre-stratégies
Première IA à maîtriser un jeu esport populaire sans restrictions au plus haut niveau

Personnes:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisations:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publications

T5 - Text-to-Text Transfer Transformer

Google AI a significativement transformé le NLP en octobre 2019 avec T5, le Text-to-Text Transfer Transformer, qui transforme toutes les tâches de traitement du langage naturel en un format unifié « texte-vers-texte ». Avec l'approche innovante « Tout est Texte », la traduction, le résumé, les questions-réponses et la classification peuvent être traités avec le même modèle, la même fonction de perte et les mêmes hyperparamètres. T5 introduit le dataset complet C4 et atteint des performances proches de l'humain sur les benchmarks SuperGLUE. En tant que modèle de fondation avec jusqu'à 11 milliards de paramètres, T5 ouvre la voie aux grands modèles de langage modernes et établit le paradigme unifié texte-vers-texte comme standard.

Approche unifiée innovante : Toutes les tâches NLP comme problèmes texte-vers-texte
« Tout est Texte » - le paradigme unifie traduction, résumé, Q&R
Établit le paradigme des modèles de fondation pour les grands modèles de langage modernes
Introduit le dataset complet C4 - Colossal Clean Crawled Corpus

Personnes:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisations:Google AI, Google Research

2020Publications

Lois de mise à l'échelle neuronale

Jared Kaplan et l'équipe OpenAI découvrent les lois mathématiques fondamentales de la mise à l'échelle neuronale en janvier 2020, transformant significativement le développement des grands modèles de langage. La recherche pionnière montre que la performance suit des lois de puissance avec la taille du modèle, l'échelle du jeu de données et la puissance de calcul - avec des tendances couvrant sept ordres de grandeur. Les équations élégantes permettent pour la première fois des prédictions systématiques de l'allocation optimale des ressources et établissent le paradigme "Plus grand est mieux". Ces fondations mathématiques guident directement le succès de GPT-3 et transforment le développement de l'IA d'un processus expérimental d'essais-erreurs vers une mise à l'échelle scientifiquement fondée et prévisible.

Découverte de lois de puissance fondamentales couvrant sept ordres de grandeur
Des équations élégantes permettent la prédiction de l'allocation optimale des ressources
Établit le paradigme "Plus grand est mieux" pour le développement systématique des LLM
Transforme le développement de l'IA des essais-erreurs vers une méthodologie scientifique

Personnes:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisations:OpenAI

2020Publications

GPT-3 : Le modèle à 175 milliards de paramètres

La percée vers l'apprentissage few-shot et les capacités IA émergentes. Le 28 mai 2020, l'équipe d'OpenAI dirigée par Tom Brown présenta l'article significatif 'Language Models are Few-Shot Learners' - GPT-3 avec 175 milliards de paramètres, plus de 100 fois plus grand que GPT-2. La mise à l'échelle révéla des capacités émergentes : le modèle pouvait résoudre de nouvelles tâches avec seulement quelques exemples, sans ajustement fin. Des traductions aux jeux de mots en passant par l'arithmétique à 3 chiffres, GPT-3 démontra une polyvalence impressionnante. Les évaluateurs humains pouvaient à peine distinguer les articles de presse générés par GPT-3 des vrais. Le système atteignit des résultats proches de l'état de l'art sur les benchmarks SuperGLUE grâce à l'apprentissage en contexte seul. 31 chercheurs d'OpenAI (Tom Brown et 30 co-auteurs) prouvèrent : la mise à l'échelle massive des paramètres peut produire des capacités qualitativement nouvelles. GPT-3 posa les bases de ChatGPT et de l'ère moderne des LLM.

175 milliards de paramètres - plus de 100 fois plus grand que GPT-2 avec des effets de mise à l'échelle significatifs
Capacités few-shot émergentes sans ajustement fin : nouvelles tâches résolubles avec quelques exemples
A montré des capacités émergentes : traduction, arithmétique, génération de texte au niveau humain
A posé les bases de ChatGPT et commercialisé les Grands Modèles de Langage via accès API

Personnes:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisations:OpenAI

2020Publications

DDPM : Modèles de diffusion établis

La fondation mathématique de la génération d'images moderne par des processus de débruitage. En juin 2020, Jonathan Ho, Ajay Jain et Pieter Abbeel ont publié l'article influent « Denoising Diffusion Probabilistic Models » – une classe de modèles à variables latentes inspirés de la thermodynamique hors équilibre. Leur innovation résidait dans une borne variationnelle pondérée et la connexion entre les modèles de diffusion et le score matching de débruitage avec la dynamique de Langevin. Les résultats étaient impressionnants : score FID de 3,17 sur CIFAR-10 et score Inception de 9,46. Les DDPM ont établi une approche de décompression progressive avec perte qui peut être interprétée comme une généralisation du décodage autorégressif. Ce travail a posé les fondations mathématiques de Stable Diffusion et de toute la génération texte-vers-image moderne.

Nouvelle classe de modèles génératifs basés sur la thermodynamique hors équilibre et les processus de débruitage
Approche de décompression progressive avec perte comme généralisation du décodage autorégressif
A posé les fondations mathématiques de Stable Diffusion et de la génération texte-vers-image moderne
Score FID 3,17 sur CIFAR-10 a démontré une qualité d'image rivalisant avec les GAN et établi la diffusion comme standard

Personnes:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisations:UC Berkeley, Google Brain

2020Publications

Vision Transformer : « Une image vaut 16x16 mots »

La conquête de la vision par ordinateur par l'architecture transformer. Le 22 octobre 2020, l'équipe d'Alexey Dosovitskiy chez Google Research a révolutionné le traitement d'images avec l'article « An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ». Le Vision Transformer (ViT) a prouvé que les CNN ne sont pas nécessaires – des transformers purs peuvent être appliqués directement à des séquences de patches d'images et surpasser les CNN de pointe. Le système décompose les images en patches de 16x16 pixels, les traite comme des séquences de tokens et applique l'architecture transformer standard. Sur les benchmarks ImageNet, CIFAR-100 et VTAB, ViT a obtenu d'excellents résultats avec significativement moins d'effort d'entraînement. L'universalité de l'architecture transformer a été prouvée : la même technologie qui a transformé le NLP a aussi conquis la vision par ordinateur. ViT a inspiré une nouvelle génération de modèles de vision basés sur l'attention et a démontré la puissance des architectures unifiées.

Première application réussie de l'architecture transformer pure à la vision par ordinateur sans composants CNN
Patches de 16x16 pixels traités comme séquences de tokens, transformation image-vers-séquence
L'auto-attention pour le traitement d'images a prouvé l'universalité de l'architecture transformer
A surpassé les CNN de pointe avec moins d'effort d'entraînement et inspiré les modèles de vision basés sur l'attention

Personnes:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisations:Google Research, Google Brain

2020Percées

Accomplissement d'AlphaFold

La solution à un puzzle biologique vieux de 50 ans grâce à l'intelligence artificielle. En novembre 2020, AlphaFold 2 de DeepMind a dominé la compétition CASP14 avec une précision que les scientifiques ont décrite comme « stupéfiante » et « transformationnelle ». Le système a atteint un score GDT de 92,4 sur 100 points dans la prédiction de structure protéique – une précision qui égale les méthodes expérimentales comme la cristallographie aux rayons X. AlphaFold a clairement battu 145 autres équipes et a résolu un problème qui avait occupé la biologie depuis les années 1970. L'architecture de réseau neuronal basée sur l'attention peut prédire comment les protéines se replient en quelques jours – un processus fondamental pour comprendre la vie. Pour cette réussite, Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024.

AlphaFold 2 a dominé CASP14 avec un score GDT de 92,4, battant clairement 145 autres équipes
A résolu le problème du repliement des protéines vieux de 50 ans et a fondamentalement changé la biologie structurale
L'architecture basée sur l'attention a atteint une précision expérimentale dans la prédiction de structure protéique
Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024 pour cette réussite

Personnes:Demis Hassabis, John Jumper

Organisations:DeepMind, Google, CASP, University of Washington

2021Produits

DALL-E crée des images à partir de texte

La naissance de la génération texte-vers-image et une avancée importante dans la créativité de l'IA. Le 5 janvier 2021, OpenAI a dévoilé DALL-E – un système qui crée des images cohérentes et souvent étonnamment créatives à partir de descriptions textuelles. Basé sur une version de 12 milliards de paramètres de GPT-3, DALL-E a prouvé que la frontière entre compréhension du langage et de l'image pouvait être franchie. Le système s'est entraîné avec 250 millions de paires image-texte d'Internet et a développé des capacités remarquables : il peut anthropomorphiser des animaux, combiner de manière plausible des concepts sans rapport et même rendre du texte dans les images. Mark Riedl de Georgia Tech a commenté que les résultats étaient « remarquablement plus cohérents » que tous les systèmes texte-vers-image précédents. DALL-E a réussi à étendre la compréhension linguistique de GPT au domaine visuel et a ouvert une dimension entièrement nouvelle de créativité IA.

Premier système capable de générer des images cohérentes et créatives à partir de descriptions en langage naturel
Capacités créatives étonnantes : anthropomorphisation, combinaison de concepts, rendu de texte
Version de 12 milliards de paramètres de GPT-3, entraînée avec 250 millions de paires image-texte d'Internet
A ouvert une nouvelle dimension de créativité IA et inspiré le mouvement de l'IA générative

Personnes:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisations:OpenAI, DALL-E Team

2021Jalons

Anthropic est fondée

Quand d'anciens dirigeants d'OpenAI se sont mis à réaliser leur propre vision d'une IA sûre. En janvier 2021, Dario et Daniela Amodei, ainsi que d'autres anciens chercheurs d'OpenAI, ont fondé Anthropic. Les frère et sœur avaient précédemment occupé des postes clés chez OpenAI – Dario en tant que VP de la Recherche. Leur nouvelle entreprise se concentrerait sur la sécurité de l'IA et le développement de systèmes fiables et interprétables. Avec Constitutional AI, Anthropic a développé une approche innovante pour entraîner les systèmes d'IA à travers des principes plutôt que seulement des retours humains. Claude, leur assistant IA, est devenu l'un des principaux concurrents de ChatGPT.

Fondée en janvier 2021 à San Francisco
Dario Amodei (PDG, ex-VP Recherche chez OpenAI) et Daniela Amodei (Présidente)
Focus sur la sécurité de l'IA, l'interprétabilité et Constitutional AI
A développé Claude, l'un des principaux assistants IA

Personnes:Dario Amodei, Daniela Amodei

Organisations:Anthropic, OpenAI

2021Produits

GitHub Copilot : Le programmeur pair IA

La démocratisation du développement logiciel assisté par IA pour des millions de développeurs. Le 29 juin 2021, GitHub annonça la preview technique de Copilot - le premier programmeur pair IA, propulsé par OpenAI Codex. Basé sur une variante GPT-3 entraînée avec des milliards de lignes de code public des dépôts GitHub, Copilot pouvait générer des complétions de code et des fonctions entières à partir de commentaires. Le modèle Codex sous-jacent atteignit un taux de réussite de 28,8% au premier essai dans le benchmark HumanEval - significativement meilleur que les 0% de GPT-3. Particulièrement impressionnant : Avec 100 tentatives d'échantillonnage, le taux de réussite augmenta à 70,2%. Copilot fonctionnait particulièrement bien avec Python, JavaScript, TypeScript, Ruby et Go. La preview technique limitée généra un intérêt énorme et établit la programmation assistée par IA comme un outil viable. Copilot changea fondamentalement l'expérience développeur et ouvrit la voie à une nouvelle génération d'outils de codage propulsés par l'IA.

Preview technique le 29 juin 2021 avec accès limité via liste d'attente pour développeurs sélectionnés
Propulsé par OpenAI Codex, entraîné avec des milliards de lignes de code des dépôts GitHub publics
Taux de réussite de 28,8% au premier essai (HumanEval), 70,2% avec 100 tentatives d'échantillonnage
A établi la programmation assistée par IA comme outil viable et inspiré de nouveaux outils de codage

Personnes:Nat Friedman, GitHub Team, OpenAI Team

Organisations:GitHub, OpenAI, Microsoft

2021Produits

OpenAI Codex : L'IA programme pour les humains

Le 10 août 2021, OpenAI a significativement changé le développement logiciel avec Codex - une IA à grande échelle pour la génération de code. Basé sur GPT-3 mais entraîné sur 159 gigaoctets de code Python provenant de 54 millions de dépôts GitHub, Codex transformait le langage naturel en code fonctionnel. 'Créer une fonction pour les nombres premiers' devenait du vrai code Python en quelques secondes. Le partenariat avec GitHub a donné naissance à Copilot - un programmeur IA en binôme. Codex maîtrisait plus d'une douzaine de langages de programmation : Python, JavaScript, Go, Ruby, Swift et plus. Le système pouvait résoudre 37% de toutes les requêtes - pas parfait, mais remarquable. GitHub Copilot s'est avéré être un gain de productivité significatif pour les développeurs. Codex a démontré : l'IA peut soutenir le travail cognitif créatif et complexe. De la génération de code à la compréhension du code, Codex a ouvert la porte au développement logiciel assisté par l'IA.

Du langage naturel au code : 'Écris une fonction de tri' devient du Python/JavaScript fonctionnel
Lancement de GitHub Copilot : Premier programmeur IA en binôme entraîné sur 54 millions de dépôts de code
12+ langages de programmation : De Python à Swift - l'IA comprend l'intention du développeur en langage naturel
Gain de productivité significatif : Codex a prouvé le potentiel de l'IA pour le travail cognitif créatif

Personnes:OpenAI Team, GitHub Development Team

Organisations:OpenAI, GitHub, Microsoft

2022Produits

Stable Diffusion : Génération d'images open-source

La démocratisation de la génération d'images par IA grâce au premier modèle open-source puissant. Le 22 août 2022, Stability AI a publié Stable Diffusion et a significativement transformé l'accès à la technologie avancée de texte-vers-image. En tant que premier modèle open-source de sa catégorie, Stable Diffusion pouvait générer des images photoréalistes de 512x512 pixels sur des GPU grand public – une avancée importante en termes de vitesse et d'accessibilité. Basé sur les Modèles de Diffusion Latente (LDM), le système itère par « débruitage » dans des espaces latents au lieu de la manipulation directe de pixels. Avec 860 millions de paramètres dans le U-Net et 123 millions dans l'encodeur de texte, il restait relativement léger malgré de hautes performances. Le code source disponible sur GitHub a permis à une communauté en croissance explosive de développer d'innombrables variantes et outils. Stable Diffusion a brisé le monopole des systèmes propriétaires et a rendu la génération d'images IA de haute qualité accessible à tous.

Premier modèle texte-vers-image open-source puissant avec code source disponible sur GitHub
Modèles de diffusion latente avec débruitage itératif dans les espaces latents au lieu de manipulation directe de pixels
Croissance explosive de la communauté avec d'innombrables variantes, outils et applications
A brisé le monopole des systèmes propriétaires et démocratisé la génération d'images IA de haute qualité

Personnes:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisations:Stability AI, CompVis, Runway

2022Percées

OpenAI publie Whisper

Quand la reconnaissance vocale est enfin devenue fiable – et accessible à tous. Le 21 septembre 2022, OpenAI a publié Whisper, un système de reconnaissance vocale entraîné pour fonctionner de manière robuste dans différentes langues, accents et bruits de fond. Contrairement aux systèmes précédents entraînés sur des données audio propres, Whisper a utilisé 680 000 heures de données multilingues provenant d'internet. Le résultat : un système capable de transcrire dans 99 langues tout en rivalisant avec les solutions commerciales. OpenAI a rendu Whisper disponible en open source – un cadeau aux développeurs du monde entier qui a permis d'innombrables applications.

Publié le 21 septembre 2022 en open source
Supporte 99 langues avec haute précision même avec accents et bruit de fond
Entraîné sur 680 000 heures de données audio multilingues d'internet
A démocratisé la reconnaissance vocale de haute qualité grâce à sa disponibilité open source

Personnes:Alec Radford, Jong Wook Kim, Tao Xu

Organisations:OpenAI

2022Produits

ChatGPT marque un tournant dans l'utilisation de l'IA

Le moment où l'IA est devenue accessible à tous et où une nouvelle ère a commencé. Le 30 novembre 2022, OpenAI a publié ChatGPT en tant qu'aperçu de recherche gratuit – sans grand marketing, avec peu d'attentes. Ce qui a suivi a dépassé toutes les prédictions : Après 5 jours, ChatGPT a atteint un million d'utilisateurs, après deux mois 100 millions – plus rapidement que toute autre application grand public de l'histoire. Basé sur GPT-3.5, ChatGPT a offert à un large public un accès direct à une IA puissante pour la première fois sans barrières techniques. Kevin Roose du New York Times l'a appelé le « meilleur chatbot IA jamais mis à la disposition du public ». ChatGPT a démocratisé l'intelligence artificielle et a transformé un domaine de recherche en un outil quotidien. Cette sortie a marqué le début de la vague actuelle d'IA générative.

Rendu accessible au grand public le 30 novembre 2022 en tant qu'aperçu de recherche gratuit
A atteint 1 million d'utilisateurs en 5 jours, 100 millions en 2 mois – application grand public la plus rapide de tous les temps
Première IA puissante sans barrières techniques – accès web direct pour chaque internaute
A démocratisé l'IA et a déclenché la vague actuelle d'IA générative dans la société et les entreprises

Personnes:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisations:OpenAI, Microsoft, ChatGPT

2022Publications

IA Constitutionnelle - Sécurité de l'IA par Constitution

Anthropic développe l'IA Constitutionnelle (CAI) en décembre 2022, une nouvelle méthode pour développer des systèmes d'IA inoffensifs, utiles et honnêtes. Grâce à une « constitution » de principes éthiques - dérivés de la Déclaration Universelle des Droits de l'Homme et d'autres documents fondamentaux - l'IA peut s'améliorer sans nécessiter d'étiquettes humaines pour le contenu nuisible. Le processus innovant RLAIF (Reinforcement Learning from AI Feedback) remplace les évaluations humaines par l'autocritique de l'IA et établit une approche Safety-First comme alternative à l'approche pure performance de ChatGPT. L'IA Constitutionnelle ouvre la voie à un développement responsable de l'IA.

L'IA s'améliore grâce aux principes constitutionnels sans étiquettes humaines de nuisance
Alternative Safety-First aux approches de pure performance comme ChatGPT
Triple objectif : utile, honnête et inoffensif grâce aux principes éthiques
RLAIF : Reinforcement Learning from AI Feedback au lieu des évaluations humaines

Personnes:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisations:Anthropic

2023Réglementation

Cadre IA du NIST : Les USA définissent l'IA de confiance

Le 26 janvier 2023, le National Institute of Standards and Technology américain a publié le premier cadre complet de gestion des risques IA (AI RMF 1.0) – la réponse américaine à la régulation mondiale de l'IA. Après 18 mois de développement avec plus de 240 organisations de l'industrie, du monde académique et de la société civile, le NIST a défini pour la première fois des standards fédéraux pour une IA de confiance. Le cadre établit quatre fonctions fondamentales : Gouverner, Cartographier, Mesurer, Gérer – et sept caractéristiques d'une IA de confiance : sûre, résiliente, explicable, respectueuse de la vie privée, équitable, transparente et fiable. En tant que standard volontaire, il vise à minimiser les risques de l'IA pour les individus, les organisations et la société. La publication a suivi la Déclaration des Droits IA de Biden (2022) et a été complétée par son décret exécutif sur l'IA (octobre 2023). Le NIST a utilisé son autorité constitutionnelle pour les « Poids et Mesures » pour établir des standards IA. Le cadre est devenu la base des standards industriels et de la coordination internationale.

Quatre fonctions fondamentales : Gouverner, Cartographier, Mesurer, Gérer pour une gestion systématique des risques IA
Sept caractéristiques de confiance définies : Sûre, explicable, équitable, transparente, fiable
Approche volontaire multipartite : plus de 240 organisations ont développé les standards ensemble
Autorité de standards constitutionnelle : le NIST comme institution fédérale pour les poids et mesures de l'IA

Personnes:NIST AI Team, 240+ Contributing Organizations

Organisations:NIST, US Department of Commerce, Biden Administration

2023Produits

LLaMA : Modèle fondation open-source

La démocratisation des Grands Modèles de Langage grâce à des modèles de recherche ouverts. Le 24 février 2023, Meta AI publia LLaMA (Large Language Model Meta AI) - une collection de modèles fondation de 7B à 65B paramètres, entraînés exclusivement avec des données publiquement disponibles. L'article fondateur 'LLaMA: Open and Efficient Foundation Language Models' prouva que des performances à l'état de l'art sont atteignables sans datasets propriétaires. LLaMA permit aux chercheurs sans accès à de grandes infrastructures d'étudier les modèles de langage avancés. Le code d'inférence fut publié sous licence GPLv3, tandis que l'accès aux modèles était accordé au cas par cas pour la recherche académique. Avec l'entraînement sur des trillions de tokens et diverses tailles de modèle, LLaMA répondit à différents besoins matériels. Ce travail catalysa une vague de recherche LLM ouverte et inspira de nombreux modèles dérivés dans la communauté open-source.

Code d'inférence sous licence GPLv3, accès aux modèles pour la recherche académique sans restrictions commerciales
Modèles de 7B à 65B paramètres entraînés exclusivement avec des datasets publiquement disponibles
A permis aux chercheurs sans grande infrastructure d'étudier les modèles de langage avancés
Diverses tailles de modèle pour différents besoins matériels et objectifs de recherche

Personnes:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisations:Meta AI, FAIR

2023Produits

Claude et Constitutional AI

L'introduction d'une IA avec un système de valeurs intégré et des principes éthiques. En mars 2023, Anthropic a présenté Claude - un assistant IA basé sur Constitutional AI qui a établi une approche novatrice de la sécurité de l'IA. Contrairement aux systèmes conventionnels, Claude apprend à travers une méthode en deux phases : d'abord le modèle critique et améliore ses propres réponses basées sur une constitution de principes éthiques, puis il est affiné par des retours générés par l'IA - sans évaluations humaines pour la prévention des dommages. Le résultat est un système qui agit de manière à la fois utile et inoffensive. Anthropic a publié Claude et Claude Instant simultanément, le dernier étant une variante plus rapide et plus rentable. Cette méthode Constitutional AI s'est avérée être une amélioration de Pareto par rapport aux retours humains et a ouvert de nouvelles voies pour une supervision évolutive de l'IA.

Framework Constitutional AI avec entraînement en deux phases : autocritique basée sur des principes éthiques, puis affinement basé sur les retours de l'IA
Approche de sécurité novatrice sans évaluations humaines des dommages - purement par supervision de l'IA
Publication simultanée de Claude et Claude Instant pour différentes exigences d'application
A établi « utile, inoffensif, honnête » comme valeurs fondamentales pour le développement responsable de l'IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisations:Anthropic, Constitutional AI, AI Safety

2023Produits

GPT-4 : Modèle IA multimodal

La percée vers la performance humaine dans les benchmarks professionnels et académiques. Le 14 mars 2023, OpenAI dévoila GPT-4 - un Grand Modèle Multimodal qui traite les entrées texte et image et atteint le niveau humain dans diverses disciplines. Les améliorations furent substantielles : alors que GPT-3.5 réussit l'examen du Barreau dans les 10% inférieurs, GPT-4 atteignit les 10% supérieurs. Aux tests SAT, la performance passa du 82e au 94e percentile. Après six mois d'alignement itératif avec les insights du programme de test adversarial et les retours de ChatGPT, toute la pile de deep learning fut reconstruite. Les capacités multimodales permettent le traitement de documents, diagrammes et captures d'écran avec la même qualité que les entrées texte pures. GPT-4 établit de nouvelles normes pour la sécurité et la performance de l'IA.

Grand Modèle Multimodal avec entrées texte et image, capacités de vision pour documents et diagrammes
Examen du Barreau top 10% vs. GPT-3.5 bottom 10%, amélioration SAT du 82e au 94e percentile
6 mois d'alignement itératif avec tests adversariaux et retours ChatGPT pour une sécurité améliorée
L'intégration dans ChatGPT Plus a rendu l'IA multimodale avancée accessible aux consommateurs

Personnes:Sam Altman, OpenAI Team

Organisations:OpenAI, Microsoft

2023Produits

Midjourney V5 : Art IA photoréaliste

La génération d'images IA photoréalistes atteint un nouveau niveau de qualité et transforme significativement l'industrie créative. Le 15 mars 2023, Midjourney publia la Version 5 et atteignit un bond qualitatif que les utilisateurs décrivirent comme 'effrayant' et 'trop parfait'. La version alpha pouvait pour la première fois générer des images photoréalistes à peine distinguables de vraies photographies. Particulièrement notable : le problème chronique des mains défectueuses fut significativement amélioré - V5 pouvait correctement afficher cinq doigts dans la plupart des cas. Julie Wieland, graphiste, compara l'expérience à 'enfin recevoir des lunettes après avoir ignoré une mauvaise vue trop longtemps' - voir soudainement tout en qualité 4K [Source: Ars Technica, mars 2023]. La sensibilité améliorée aux prompts permit un contrôle créatif plus précis, tandis que l'upscaling automatique offrait une résolution maximale sans coûts GPU supplémentaires. V5 déclencha des débats intenses sur l'avenir de la créativité humaine.

Qualité d'image photoréaliste à peine distinguable de vraies photographies
A déclenché des réactions intenses dans la communauté créative - de l'enthousiasme aux préoccupations existentielles
A significativement amélioré l'art IA grâce à une représentation précise des mains et une sensibilité aux prompts améliorée
A établi de nouvelles normes pour la génération d'images IA commerciale avec un impact significatif sur l'industrie créative

Personnes:David Holz, Midjourney Team

Organisations:Midjourney Inc

2023Réglementation

Décret Biden sur l'IA – Première Réglementation Complète Américaine

Le Président Biden signe le Décret Exécutif 14110 sur le « Développement et l'Utilisation Sûrs, Sécurisés et Dignes de Confiance de l'Intelligence Artificielle » le 30 octobre 2023 – la première réglementation complète de l'IA aux USA et avec 110 pages, le plus long décret exécutif de l'histoire. Le décret de grande portée exige que les développeurs de systèmes IA puissants divulguent les résultats des tests de sécurité et établit des standards stricts de red-team à travers le NIST. Il protège contre la fraude basée sur l'IA à travers l'authentification de contenu et le tatouage numérique, aborde les risques dans les infrastructures critiques et les menaces biologiques. Ce document historique établit des standards mondiaux pour le développement responsable de l'IA et positionne les USA comme leader mondial dans la gouvernance de l'IA.

Gouvernance de l'IA la plus complète jamais vue – 110 pages, plus long décret exécutif de l'histoire
Tests de sécurité obligatoires et résultats de red-team pour les systèmes IA puissants
Defense Production Act : Exigences de reporting pour les systèmes IA présentant des risques de sécurité nationale
Établit les USA comme leader mondial dans la gouvernance responsable de l'IA et les standards

Personnes:Joe Biden, Kamala Harris

Organisations:White House, NIST, Department of Homeland Security

2023Produits

Google Gemini : Famille d'IA multimodale

La réponse de Google à ChatGPT et la percée vers la multimodalité native. Le 6 décembre 2023, Google annonça Gemini 1.0 - une famille d'IA développée dès le départ pour la multimodalité. La collaboration entre DeepMind et Google Brain aboutit à trois tailles de modèle : Gemini Ultra pour les tâches hautement complexes, Gemini Pro comme solution équilibrée, et Gemini Nano pour les applications sur appareil. Contrairement aux systèmes étendus rétroactivement, Gemini fut conçu nativement avec la compréhension du langage, de l'audio, du code et de la vidéo. Dans six des huit benchmarks, Gemini Pro surpassa le standard GPT-3.5, incluant les tests MMLU. L'intégration dans Bard Advanced donna aux utilisateurs accès aux capacités IA les plus avancées de Google pour la première fois. Gemini marqua la réponse stratégique de Google à la dominance d'OpenAI et établit l'IA multimodale comme le nouveau standard pour les Grands Modèles de Langage.

Développé dès le départ pour la multimodalité : compréhension du langage, audio, code et vidéo nativement intégrée
A surpassé GPT-3.5 dans 6 des 8 benchmarks standards et établi Google comme alternative sérieuse à ChatGPT
Trois tailles de modèle : Ultra (complexe), Pro (équilibré), Nano (sur appareil) pour différentes applications
L'intégration dans Bard Advanced offrit aux utilisateurs l'accès aux capacités IA les plus avancées de Google

Personnes:Sundar Pichai, Demis Hassabis, Gemini Team

Organisations:Google, DeepMind, Google AI

2024Produits

Sora : Vidéos générées par IA à partir de texte

L'avancée vers les vidéos photoréalistes générées par IA et l'impact sur l'industrie du film. Le 15 février 2024, OpenAI a dévoilé Sora – un modèle texte-vers-vidéo qui génère des vidéos HD détaillées jusqu'à une minute à partir de courtes descriptions. Nommé d'après le mot japonais pour 'ciel', Sora symbolise un 'potentiel créatif illimité'. En tant que transformeur de diffusion, Sora adapte la technologie DALL-E 3 pour la cohérence temporelle et comprend non seulement les requêtes de prompt mais aussi les lois du monde physique. Les vidéos de démonstration ont surpassé tous les systèmes texte-vers-vidéo existants et établi de nouveaux standards pour la créativité IA. Le réalisateur Tyler Perry a arrêté une expansion de studio de 800 millions de dollars en raison de préoccupations concernant l'impact de Sora sur l'industrie. OpenAI a poursuivi une approche prudente avec des tests red team pour la désinformation et les biais avant une diffusion plus large.

Première génération texte-vers-vidéo avec vidéos HD d'une minute et qualité photoréaliste
Transformeur de diffusion basé sur la technologie DALL-E 3 pour la cohérence temporelle
Comprend les lois du monde physique et maintient la cohérence sur toute la durée de la vidéo
Perturbation potentielle de l'industrie du film, Tyler Perry a arrêté une expansion de studio de 800 millions de dollars

Personnes:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisations:OpenAI

2024Produits

Famille Claude 3 avec capacités multimodales

L'introduction d'une famille d'IA avec vision et trois modèles spécialisés. Le 4 mars 2024, Anthropic a introduit la famille Claude 3 : Opus, Sonnet et Haiku – trois modèles avec différentes forces pour divers cas d'utilisation. La caractéristique centrale était un traitement visuel sophistiqué capable d'analyser photos, graphiques, diagrammes et dessins techniques. Claude 3 Opus a obtenu les meilleurs résultats dans les tâches cognitives et a surpassé les concurrents dans des benchmarks comme MMLU et GPQA. Sonnet offrait l'équilibre idéal entre intelligence et vitesse pour les entreprises, tandis que Haiku impressionnait par des temps de réponse quasi instantanés. Avec une fenêtre de contexte de 200 000 tokens (extensible à 1 million) et une disponibilité dans 159 pays, Claude 3 a établi de nouvelles normes de référence pour les systèmes d'IA multimodaux.

Traitement visuel sophistiqué pour photos, graphiques, diagrammes et dessins techniques
Opus (intelligence maximale), Sonnet (équilibre), Haiku (vitesse) pour différents cas d'utilisation
Capacités multimodales permettant le traitement de formats visuels en plus du traitement textuel
Claude 3 Opus a obtenu les meilleurs résultats en MMLU, GPQA et autres benchmarks cognitifs

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisations:Anthropic, Claude API, Amazon Bedrock

2024Produits

Devin : Le premier ingénieur logiciel IA autonome

La naissance du développement logiciel entièrement autonome par l'intelligence artificielle. Le 12 mars 2024, Cognition Labs a introduit Devin – le premier ingénieur logiciel IA entièrement autonome au monde. Le système peut planifier de manière indépendante, cloner des dépôts, écrire du code, déboguer, tester et même déployer. Sur le difficile SWE-Bench, Devin a atteint un taux de réussite de 13,86% sur de vrais problèmes GitHub – un bond massif par rapport au meilleur précédent de 1,96%. Basé sur GPT-4 avec des éléments d'apprentissage par renforcement, Devin a démontré une amélioration d'efficacité de 12x et des économies de coûts de 20x chez Nubank. La startup a atteint une valorisation de 350 millions de dollars avec des discussions sur 2 milliards. Malgré des succès impressionnants, les tests ont aussi montré des limitations : seules 3 tâches sur 20 ont été complétées avec succès, souvent avec des échecs imprévisibles.

Développement logiciel entièrement autonome : planification, codage, débogage, test et déploiement sans intervention humaine
Gère des tâches d'ingénierie complexes de la migration de code au développement d'applications complètes
Taux de réussite de 13,86% sur SWE-Bench – 7x mieux que l'état de l'art précédent de 1,96%
A déclenché un débat sur l'avenir du développement logiciel et inspiré des alternatives open-source comme OpenHands

Personnes:Scott Wu, Steven Hao, Walden Yan

Organisations:Cognition Labs, SWE-Bench

2024Réglementation

EU AI Act : Première loi complète sur l'IA

La première réglementation complète de l'intelligence artificielle au monde entre en vigueur. Le 1er août 2024, l'EU AI Act est devenu juridiquement contraignant – un cadre réglementaire basé sur les risques avec 180 considérants et 113 articles pour l'ensemble du cycle de vie de l'IA. La loi catégorise les systèmes d'IA par niveaux de risque : les applications inacceptables sont interdites, les systèmes à haut risque dans l'éducation, l'emploi et la justice sont soumis à des obligations de conformité détaillées, tandis que les modèles GPAI comme ChatGPT doivent respecter des exigences de transparence. L'effet extraterritorial couvre également les fournisseurs hors de l'UE avec des utilisateurs européens. Les violations font face à des sanctions allant jusqu'à 35 millions d'euros ou 7% du chiffre d'affaires annuel mondial. Comme le RGPD en 2018, l'AI Act pourrait établir des normes mondiales et déterminer comment l'IA influence nos vies. La mise en œuvre progressive commence en 2025 et est pleinement effective d'ici 2027.

Première loi complète sur l'IA au monde avec 180 considérants et 113 articles pour tout le cycle de vie de l'IA
Catégorisation des risques à quatre niveaux : Interdit, haut risque, risque limité et systèmes GPAI
L'effet extraterritorial comme le RGPD pourrait établir des normes mondiales d'IA et influencer la conformité mondiale
Sanctions jusqu'à 35 millions d'euros ou 7% du chiffre d'affaires annuel, mise en œuvre progressive 2025-2027

Personnes:Ursula von der Leyen, Thierry Breton

Organisations:European Union, European Parliament, European Commission

2024Produits

OpenAI O1 - Avancées en raisonnement

OpenAI publie le modèle O1 le 12 septembre 2024, élargissant significativement le raisonnement de l'IA grâce à l'entraînement par chaîne de pensée. O1 est le premier modèle de langage largement disponible à systématiquement "penser" avant de répondre - utilisant une chaîne de pensée privée, il analyse les problèmes étape par étape. Cette nouvelle approche ouvre une dimension de mise à l'échelle supplémentaire : la mise à l'échelle au moment du test, où une "réflexion" plus longue mène à de meilleurs résultats. O1 atteint des performances de niveau doctorat sur les tests de référence en physique, chimie et biologie, et résout 83% des problèmes de l'American Invitational Mathematics Examination (GPT-4o : 13%). La technologie démontre que l'IA peut développer des capacités de résolution de problèmes significativement améliorées grâce au raisonnement structuré.

Premier modèle avec entraînement systématique par chaîne de pensée pour un raisonnement structuré
Nouvelle dimension de mise à l'échelle : Plus il réfléchit longtemps, meilleurs sont les résultats
Nouvelle approche : De la reproduction de motifs à la résolution de problèmes améliorée
Progrès important en raisonnement complexe - capacités de résolution de problèmes améliorées

Personnes:Sam Altman, Noam Brown, OpenAI Team

Organisations:OpenAI

1950Publications

Test de Turing : Le jeu de l'imitation

Le fondement philosophique de l'intelligence machine et le premier benchmark IA. En 1950, Alan Turing a publié l'article « Computing Machinery and Intelligence » dans Mind et a reformulé la question « Les machines peuvent-elles penser ? » Au lieu de définitions philosophiques, Turing a proposé le « Jeu de l'Imitation » pratique (conçu initialement en 1949) : Un évaluateur humain juge des transcriptions de conversations en langage naturel entre un humain et une machine. L'évaluateur essaie d'identifier la machine, et la machine réussit le test si l'évaluateur ne peut pas les distinguer de manière fiable. Les résultats ne dépendent pas de la capacité de la machine à répondre correctement, mais de la ressemblance de ses réponses avec celles d'un humain. Ce test d'indistinguabilité en termes de performance se généralise naturellement à toute performance humaine, verbale comme non verbale. L'approche comportementale de Turing a établi le fondement conceptuel de toute la recherche en IA et a influencé ELIZA, ChatGPT et tous les systèmes d'IA conversationnelle modernes.

Test d'indistinguabilité : l'évaluateur tente de distinguer la machine de l'humain via conversation textuelle
A déplacé l'attention des définitions philosophiques vers les démonstrations comportementales de l'intelligence
A posé la question fondamentale « Les machines peuvent-elles penser ? » et proposé une approche opérationnelle
A établi le premier benchmark IA et influencé tous les développements ultérieurs d'IA conversationnelle

Personnes:Alan Turing

Organisations:University of Manchester, Mind Journal

1956Conférences

Conférence de Dartmouth : Naissance de l'IA

Le moment historique où l'Intelligence Artificielle est née comme domaine de recherche. Du 18 juin au 17 août 1956, la première conférence d'été de recherche sur l'IA a eu lieu au Dartmouth College. John McCarthy, Marvin Minsky, Nathaniel Rochester et Claude Shannon avaient une vision audacieuse : « Chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut en principe être décrit si précisément qu'une machine peut être faite pour le simuler. » Dans cet atelier de huit semaines, McCarthy a inventé le terme « Intelligence Artificielle » et a posé les bases d'une nouvelle discipline scientifique. Les participants – dont les futurs lauréats du prix Nobel Herbert Simon et John Nash – discutaient quotidiennement au dernier étage du département de mathématiques. De cette conférence ont émergé les trois centres historiques de l'IA : Carnegie Mellon avec Newell et Simon, MIT avec Minsky et Stanford avec McCarthy.

Naissance de l'IA comme discipline de recherche indépendante à travers un atelier de 8 semaines avec des penseurs de premier plan
John McCarthy a inventé le terme « Intelligence Artificielle » et défini un nouveau domaine de recherche
Programme de recherche établi : langage machine, abstraction, résolution de problèmes et auto-amélioration
Rassemblement des pères fondateurs de l'IA : McCarthy, Minsky, Shannon, Rochester et futurs lauréats Nobel

Personnes:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisations:Dartmouth College, IBM, Bell Labs

1957Publications

Perceptron : Le premier réseau neuronal apprenant

La naissance de l'apprentissage automatique à travers le premier neurone artificiel entraînable. En 1957, Frank Rosenblatt au Cornell Aeronautical Laboratory a développé le Perceptron – le premier réseau neuronal qui pouvait apprendre de l'expérience. En janvier 1957, il a publié le rapport technique 'The Perceptron: A Perceiving and Recognizing Automaton' (Projet PARA, Rapport 85-460-1). La publication scientifique formelle a suivi en novembre 1958 dans Psychological Review. Inspiré par les neurones biologiques, le Perceptron combinait des entrées pondérées via une fonction échelon de Heaviside pour des sorties binaires. La règle d'apprentissage innovante du Perceptron (règle delta) ajustait les poids en fonction des erreurs de prédiction – un concept encore fondamental dans les réseaux profonds modernes aujourd'hui. Initialement simulé sur un IBM 704, le Perceptron Mark I a été démontré publiquement en 1960. Bien que limité aux problèmes linéairement séparables, le Perceptron a posé les fondations conceptuelles pour toutes les architectures neuronales ultérieures.

Premier neurone artificiel entraînable avec entrées pondérées et fonction échelon de Heaviside
Classification binaire par décision de seuil, efficace pour les motifs linéairement séparables
La règle d'apprentissage du Perceptron de Frank Rosenblatt (règle delta) a permis l'ajustement automatique des poids
La limitation aux problèmes linéairement séparables a plus tard mené à la critique XOR par Minsky et Papert

Personnes:Frank Rosenblatt

Organisations:Cornell Aeronautical Laboratory, US Navy

1965Publications

Logique floue : La logique de l'imprécision

Une avancée mathématique importante pour traiter l'incertitude et le raisonnement approximatif. En 1965, Lotfi Zadeh à UC Berkeley publia l'article fondateur 'Fuzzy Sets' - une réponse à l'incapacité de la logique classique à gérer les informations vagues et incomplètes. Son innovation résidait dans la reconnaissance que les humains prennent des décisions basées sur des informations imprécises et non numériques. La logique floue permet des degrés d'appartenance entre 0 et 1, contrairement à la logique binaire oui/non. Avec maintenant près de 100 000 citations, le travail de Zadeh devint la fondation du calcul souple et des approches modernes de l'IA. La 'logique précise de l'imprécision' permit de modéliser mathématiquement l'incertitude, l'incomplétude et les informations contradictoires. La logique floue trouva des applications dans les systèmes experts, les systèmes de contrôle, et plus tard dans les architectures IA modernes pour les processus décisionnels imprécis.

L'article de Lotfi Zadeh 'Fuzzy Sets' de 1965 avec près de 100 000 citations a significativement changé la gestion de l'incertitude
A permis la modélisation mathématique du vague, de l'incomplétude et des informations contradictoires
A trouvé des applications dans les systèmes experts, systèmes de contrôle et processus décisionnels approximatifs
A posé les bases du calcul souple et des approches IA modernes pour traiter l'information imparfaite

Personnes:Lotfi Zadeh

Organisations:UC Berkeley, Information and Control

1966Percées

ELIZA : Le premier chatbot

La naissance de la conversation homme-machine et une expérience involontaire en psychologie humaine. De 1964 à 1967, Joseph Weizenbaum au MIT a développé ELIZA – le premier programme explicitement conçu pour des conversations avec des humains. Avec seulement 200 lignes de code et une simple technologie de correspondance de motifs, ELIZA simulait des conversations, notamment dans la variante DOCTOR comme thérapeute rogérien. La surprise ne résidait pas dans la technologie, mais dans la réaction humaine : les utilisateurs, y compris la propre secrétaire de Weizenbaum, ont développé des connexions émotionnelles avec le programme et ont même exigé de l'intimité pour leurs « séances de thérapie ». Weizenbaum a inventé le terme « effet ELIZA » pour ce phénomène – la tendance à attribuer des caractéristiques humaines à des programmes rudimentaires. ELIZA a prouvé la puissance de l'illusion simple et a posé les bases de tous les chatbots modernes.

Premier programme informatique explicitement développé pour la conversation homme-machine, achevé en 1966
Utilisait une simple correspondance de motifs et une méthodologie de substitution en seulement 200 lignes de code
Créait l'illusion de compréhension et d'intelligence émotionnelle sans vraie compréhension du langage
A inventé « l'effet ELIZA » et mis en garde contre la projection de caractéristiques humaines sur des programmes rudimentaires

Personnes:Joseph Weizenbaum

Organisations:MIT, MIT AI Laboratory

1969Percées

Shakey : Le premier robot mobile intelligent

La naissance de la robotique autonome à travers l'intégration du raisonnement, de la planification et de l'action physique. De 1966 à 1972, l'équipe de Charles Rosen au SRI International a développé Shakey – le premier robot mobile qui pouvait raisonner sur ses propres actions. Le robot de 2 mètres de haut combinait caméra TV, télémètres sonar, processeurs et détecteurs de chocs 'moustaches de chat' en un système autonome. Les capacités remarquables de Shakey incluaient la perception environnementale, l'inférence à partir de faits implicites, la création de plans et la compensation d'erreurs – le tout contrôlable en anglais naturel. Le projet financé par la DARPA a combiné pour la première fois le raisonnement logique avec l'action physique et a posé les fondations pour les systèmes autonomes. Les innovations de Shakey ont conduit à l'algorithme de recherche A*, la transformée de Hough et les méthodes de graphes de visibilité. En 1970, le magazine Life a appelé Shakey 'la première personne électronique'.

Premier robot mobile qui pouvait raisonner sur ses propres actions et planifier indépendamment des tâches complexes
A combiné caméra TV, sonar, processeurs et capteurs en un système mobile autonome
A développé le système de planification STRIPS pour la décomposition automatique de tâches et la recherche d'itinéraires
A uni vision par ordinateur, navigation et raisonnement logique dans un système physique

Personnes:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisations:SRI International, DARPA

1970Publications

Les Modèles de Markov Cachés établis

La fondation mathématique pour la reconnaissance vocale et la modélisation de séquences. Au début des années 1970, Leonard Baum, Lloyd Welch et Ted Petrie à l'Institute for Defense Analyses développèrent davantage les Modèles de Markov Cachés et établirent l'algorithme Baum-Welch. Ces modèles statistiques modélisèrent les états cachés dans les séquences et permirent pour la première fois des approches probabilistes efficaces pour les données dépendantes du temps. À partir du milieu des années 1970, les HMM trouvèrent leur première application pratique dans la reconnaissance vocale grâce à James Baker à Carnegie Mellon puis plus tard chez IBM. La méthode transforma la reconnaissance automatique de la parole des procédures simples de correspondance de modèles en approches statistiques. Les HMM devinrent le standard pour la modélisation de séquences dans de nombreux domaines : de la bio-informatique à l'analyse financière en passant par la reconnaissance de gestes. L'algorithme d'Espérance-Maximisation de Baum-Welch posa les bases des procédures modernes d'apprentissage automatique probabiliste.

L'algorithme Baum-Welch comme cas spécial d'Espérance-Maximisation pour l'estimation des paramètres HMM
Première application pratique dans la reconnaissance vocale dès le milieu des années 1970 à Carnegie Mellon et IBM
A transformé la modélisation de séquences de la correspondance de modèles aux approches probabilistes statistiques
A posé les fondations mathématiques des procédures modernes d'apprentissage automatique probabiliste

Personnes:Leonard Baum, Lloyd Welch, Ted Petrie

Organisations:Institute for Defense Analyses, Bell Labs

1974Jalons

Le Premier Hiver de l'IA

Une période de coupes substantielles dans le financement de la recherche et de confiance diminuée dans l'Intelligence Artificielle. Après les promesses exagérées des années 1960 est venue la dure réalité : les programmes d'IA ne pouvaient résoudre que des versions triviales des problèmes qu'ils étaient censés traiter. Le Rapport Lighthill de 1973 a livré une critique sévère, et en 1974, DARPA et les conseils de recherche britanniques ont arrêté le financement de la recherche en IA non dirigée. La déception avec le système de compréhension de la parole de Carnegie Mellon a conduit à l'annulation d'un contrat de 3 millions de dollars. Cet hiver a duré jusqu'à environ 1980 et a enseigné à la communauté IA une leçon cruciale : des attentes réalistes sont essentielles pour un progrès durable.

DARPA et les conseils de recherche britanniques ont drastiquement coupé le financement de la recherche en IA non dirigée en 1974
Le professeur James Lighthill a sévèrement critiqué la recherche en IA en 1973 pour avoir échoué à atteindre ses objectifs et a souligné le problème de l'explosion combinatoire
DARPA a annulé le contrat de 3 millions de dollars avec Carnegie Mellon pour les systèmes de compréhension de la parole après des résultats décevants
Les programmes d'IA du début des années 1970 étaient limités à des versions triviales de vrais problèmes et ressemblaient à des « jouets » intelligents

Personnes:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisations:DARPA, British Science Research Council, Carnegie Mellon University

1980Jalons

Ère des systèmes experts des années 1980

Les années 1980 marquent l'âge d'or des systèmes experts alors que l'IA atteint son premier succès commercial. Les entreprises du monde entier adoptent ces programmes d'IA basés sur des règles qui répliquent les connaissances d'experts humains dans des domaines spécialisés. L'industrie de l'IA passe de quelques millions de dollars en 1980 à des milliards en 1988. Deux tiers des entreprises Fortune 500 déploient la technologie dans leurs activités commerciales quotidiennes. Des systèmes comme MYCIN atteignent des taux de réussite de 69%, surpassant les experts humains. Cependant, le boom se termine selon le schéma classique d'une bulle économique alors que des dizaines d'entreprises échouent et que les limitations de la technologie deviennent apparentes.

L'industrie de l'IA passe de quelques millions de dollars (1980) à des milliards (1988)
Deux tiers des entreprises Fortune 500 déploient des systèmes experts dans leurs opérations commerciales quotidiennes
MYCIN atteint un taux de réussite de 69%, surpassant certains experts médicaux humains
Schéma classique de bulle économique : boom suivi d'un crash massif

Personnes:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisations:Stanford University, Fortune 500 Companies

1982Publications

Réseaux de Hopfield : Mémoire Associative

La renaissance des réseaux de neurones grâce aux capacités de mémoire associative. En 1982, John Hopfield publia l'article fondamental 'Neural networks and physical systems with emergent collective computational abilities' dans PNAS. Son innovation résidait dans la connexion de la neurobiologie avec la physique statistique : les réseaux de Hopfield fonctionnent comme une mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées. L'architecture récurrente avec des connexions bidirectionnelles symétriques converge vers des attracteurs à points fixes grâce à une fonction d'énergie de Lyapunov. Le système 'descend la pente' vers la mémoire stockée la plus proche. Le travail de Hopfield raviva l'intérêt pour les réseaux de neurones et posa les bases théoriques des RNN modernes. L'apprentissage hebbien permit le stockage de motifs associatifs - une percée pour la compréhension des systèmes de mémoire biologiques et artificiels.

Mémoire adressable par le contenu qui reconstruit des motifs complets à partir d'entrées incomplètes ou bruitées
Architecture récurrente avec connexions bidirectionnelles symétriques et propriétés collectives émergentes
La fonction d'énergie de Lyapunov guide le système vers des attracteurs à points fixes en 'descendant la pente' vers la mémoire stockée
A ravivé l'intérêt pour les réseaux de neurones et posé les bases du développement moderne des RNN

Personnes:John Hopfield

Organisations:California Institute of Technology, Princeton University

1986Publications

Algorithme de Rétropropagation

La naissance de l'apprentissage automatique moderne grâce à un algorithme d'entraînement élégant. En octobre 1986, David Rumelhart, Geoffrey Hinton et Ronald Williams ont publié dans Nature l'article « Learning representations by back-propagating errors ». Cet algorithme a significativement changé l'entraînement des réseaux neuronaux en fournissant une méthode efficace pour l'ajustement des poids dans les réseaux multicouches. La procédure ajuste de manière répétée les poids de connexion pour minimiser la différence entre la sortie réelle et la sortie désirée. L'innovation cruciale résidait dans la capacité à entraîner des couches cachées qui reconnaissent automatiquement les caractéristiques importantes de la tâche. Bien que des prédécesseurs de l'algorithme existaient dans les années 1960, cet article a établi pour la première fois la fondation mathématique formelle. La rétropropagation est devenue le cheval de bataille de l'apprentissage automatique et permet toutes les applications modernes de deep learning aujourd'hui.

Publié dans Nature le 9 octobre 1986 sous le titre « Learning representations by back-propagating errors »
A permis un entraînement efficace des réseaux neuronaux multicouches par le calcul des gradients pour la première fois
Les couches cachées ont appris à reconnaître automatiquement les caractéristiques importantes – une avancée importante par rapport aux perceptrons
A posé les fondations mathématiques pour toutes les applications modernes de deep learning et les architectures transformer

Personnes:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisations:University of California San Diego, Carnegie Mellon University, Nature

1987Jalons

Le Deuxième Hiver de l'IA

L'effondrement du marché du matériel IA spécialisé et l'échec des systèmes experts. En 1987, le marché des machines Lisp s'est effondré quand les ordinateurs Apple et IBM sont devenus moins chers et plus puissants que les systèmes spécifiques à l'IA coûteux. Les systèmes experts comme XCON se sont avérés trop gourmands en maintenance et inflexibles pour les applications du monde réel. Jack Schwarz, le nouveau leader de l'IPTO, a rejeté les systèmes experts comme de la « programmation intelligente » et a coupé le financement de l'IA « profondément et brutalement ». La plupart des fabricants de machines Lisp ont fait faillite en 1990, conduisant à un hiver plus long et plus profond que le premier en 1974. Cet hiver a duré jusqu'à environ 1993 et a marqué la fin de l'ère de l'IA symbolique.

Le marché des machines Lisp spécialisées s'est effondré en 1987 car les ordinateurs Apple et IBM sont devenus moins chers et plus puissants
Les systèmes experts comme XCON se sont avérés trop gourmands en maintenance, rigides et incapables de gérer de nouvelles données
Jack Schwarz a coupé le financement de l'IA à DARPA « profondément et brutalement » en 1987, rejetant les systèmes experts comme de la « programmation intelligente »
Le coût de l'équipement spécifique à l'IA dépassait largement les retours commerciaux promis

Personnes:Jack Schwarz, Marvin Minsky, Roger Schank

Organisations:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Jeux de données

UCI ML Repository : La bibliothèque de datasets

La démocratisation de la recherche en machine learning grâce à des datasets de benchmark standardisés. En 1987, David Aha, doctorant à UCI, avec d'autres étudiants a fondé le UCI Machine Learning Repository comme archive FTP – une collection de bases de données, théories de domaine et générateurs de données pour l'analyse empirique d'algorithmes ML. Cette initiative répondait au manque critique de datasets standardisés et librement disponibles pour la communauté ML en croissance. Le dépôt est devenu la source principale de datasets ML dans le monde et a permis aux étudiants, éducateurs et chercheurs d'accéder à des benchmarks de haute qualité. Avec plus de 1 000 citations, il fait partie des 100 « articles » les plus cités en informatique. Aujourd'hui géré par le Center for Machine Learning and Intelligent Systems, le UCI ML Repository propose des datasets de la santé, de la finance et d'innombrables autres domaines. Le dépôt a fondamentalement démocratisé l'éducation et la recherche en ML.

Fondé en 1987 comme archive FTP par David Aha et des étudiants UCI pour l'analyse empirique d'algorithmes ML
Devenu la source principale de datasets ML pour étudiants, éducateurs et chercheurs du monde entier
Plus de 1 000 citations, l'un des 100 « articles » les plus cités en informatique
A démocratisé la recherche ML grâce à l'accès à des datasets de benchmark standardisés et de haute qualité

Personnes:David Aha, Patrick Murphy

Organisations:University of California Irvine, UCI

1989Publications

Théorème d'approximation universelle

La preuve mathématique du pouvoir théorique des réseaux de neurones. En 1989, Kurt Hornik, Maxwell Stinchcombe et Halbert White ont publié l'article fondamental « Multilayer feedforward networks are universal approximators » dans Neural Networks. Leur preuve rigoureuse a montré : Même une seule couche cachée avec suffisamment de neurones peut approximer toute fonction Borel-mesurable avec une précision arbitraire. Ce fondement théorique a justifié mathématiquement l'utilisation des réseaux de neurones et a assuré aux chercheurs que des réseaux suffisamment grands peuvent modéliser des relations complexes et non linéaires dans les données réelles. Des travaux similaires de George Cybenko et Funahashi sont apparus en parallèle utilisant différentes techniques. Le théorème a établi l'universalité par élargissement de la couche cachée et est devenu le pilier théorique de tous les développements ultérieurs du deep learning. Hornik et al. ont créé la confiance mathématique qui a permis la renaissance des réseaux de neurones des années 1990.

Preuve mathématique rigoureuse des capacités d'approximation universelle des réseaux de neurones
Une couche cachée avec assez de neurones peut approximer toute fonction continue avec précision arbitraire
Prouve la capacité de modéliser des relations complexes et non linéaires dans les données réelles
A fourni la justification mathématique pour l'utilisation des réseaux de neurones et le fondement de confiance théorique

Personnes:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisations:University of California San Diego

1989Percées

World Wide Web : La naissance d'internet

L'invention qui a mis le monde en réseau et créé le fondement des sources de données de l'IA moderne. Le 12 mars 1989, Tim Berners-Lee a soumis sa proposition pour un « Système de Gestion de l'Information » au CERN – originellement appelé « Mesh », plus tard « World Wide Web ». En tant que scientifique britannique, il a reconnu le besoin d'échange automatisé d'informations entre scientifiques du monde entier. À la fin de 1990, il avait développé les trois technologies web fondamentales : HTML (Hypertext Markup Language), HTTP (Hypertext Transfer Protocol) et URI/URL. Le premier serveur web info.cern.ch fonctionnait sur un ordinateur NeXT, avec le premier navigateur/éditeur « WorldWideWeb.app ». En 1991, le Web est devenu accessible au public. La croissance exponentielle de 10 sites web (1992) à 2 millions (1996) a créé le fondement de données pour les systèmes IA ultérieurs. Sans le Web, il n'y aurait pas de datasets Common Crawl ni de grands modèles de langage.

Projet hypertexte avec documents liés, navigateurs et « points chauds » basé sur le modèle de Ted Nelson
Proposition de Gestion de l'Information du 12 mars 1989 au CERN pour l'échange scientifique automatisé
HTML, HTTP et URI/URL comme technologies web fondamentales développées fin 1990
A créé l'infrastructure de données pour les collections Common Crawl et l'entraînement des grands modèles de langage

Personnes:Tim Berners-Lee

Organisations:CERN, World Wide Web Consortium

1989Publications

LeNet et la naissance des CNN

La première application réussie des réseaux de neurones convolutifs en pratique. En 1989, Yann LeCun aux Bell Labs d'AT&T a combiné pour la première fois la rétropropagation avec une architecture CNN pour la reconnaissance d'écriture manuscrite. Le système LeNet résultant a atteint des taux de précision remarquables dans la reconnaissance des codes postaux manuscrits pour le service postal américain – moins de 1% d'erreur par chiffre. Cette performance a prouvé la supériorité pratique des CNN sur les approches conventionnelles et a établi les fondations de la vision par ordinateur moderne. LeNet a démontré que les réseaux de neurones n'étaient pas que des constructions théoriques mais pouvaient résoudre de vrais problèmes commerciaux. L'architecture a traversé plusieurs itérations d'amélioration et a culminé avec LeNet-5 en 1998 avec 99,05% de précision sur MNIST. Ce travail a posé les bases de toutes les architectures CNN modernes.

Première combinaison réussie de réseaux de neurones convolutifs avec entraînement par rétropropagation
Moins de 1% d'erreur dans la reconnaissance des codes postaux manuscrits pour le service postal américain
Le travail pionnier de Yann LeCun aux Bell Labs a établi les CNN comme solution viable de vision par ordinateur
A posé les bases de toutes les architectures CNN modernes d'AlexNet aux systèmes de vision actuels

Personnes:Yann LeCun, Bernhard Boser, John Denker

Organisations:AT&T Bell Labs, NIPS

1992Publications

Q-Learning : Fondation de l'apprentissage par renforcement

En 1992, Chris Watkins et Peter Dayan ont publié la preuve mathématique du Q-Learning - un algorithme qui allait significativement changer le monde de l'IA. Watkins avait développé l'idée centrale en 1989 dans sa thèse de doctorat 'Learning from Delayed Rewards' au King's College Cambridge. Le Q-Learning a résolu un problème fondamental : Comment un agent peut-il agir de manière optimale sans avoir besoin d'un modèle de son environnement ? La réponse était élégante - par l'optimisation incrémentale d'une fonction Q qui attribue des valeurs à chaque paire état-action. La preuve de convergence de 1992 a montré : Avec une exploration infinie, le Q-Learning est garanti de trouver la politique optimale pour tout processus de décision markovien fini. Cette méthode sans modèle est devenue la pierre angulaire de l'apprentissage par renforcement moderne. De la robotique aux marchés financiers, des jeux aux systèmes autonomes - le Q-Learning est partout. En 2014, DeepMind a étendu l'algorithme au Deep Q-Learning et a battu les experts humains d'Atari. Aujourd'hui, le Q-Learning alimente AlphaGo, AlphaZero et d'innombrables systèmes d'IA.

Preuve mathématique de convergence 1992 : Q-Learning garanti de trouver les politiques optimales avec exploration infinie
Approche innovante sans modèle : Apprendre les actions optimales sans modèle d'environnement ni probabilités de transition
Solution élégante pour les problèmes de décision markoviens par optimisation incrémentale de la fonction Q
Fondation de l'apprentissage par renforcement moderne - alimente aujourd'hui AlphaGo, Deep Q-Networks et d'innombrables systèmes IA

Personnes:Chris Watkins, Peter Dayan

Organisations:King's College Cambridge, University College London

1993Jeux de données

Penn Treebank : L'annotation syntaxique transforme le TAL

La création du corpus fondamental pour la recherche moderne en analyse syntaxique. En 1993, Mitchell Marcus, Beatrice Santorini et Mary Ann Marcinkiewicz ont publié l'article fondateur 'Building a Large Annotated Corpus of English: The Penn Treebank' dans Computational Linguistics. Avec plus de 4,5 millions de mots d'anglais américain et une annotation syntaxique détaillée, le Penn Treebank a significativement transformé la linguistique computationnelle. Le processus en deux étapes combinait l'étiquetage POS automatique avec la correction humaine pour une qualité d'annotation exceptionnelle. En huit ans de durée de projet (1989-1996), 7 millions de mots étiquetés POS, 3 millions de textes analysés en squelette, et 2 millions de structures prédicat-argument ont émergé. Penn Treebank a établi les méthodes empiriques en linguistique computationnelle et est devenu la fondation pour les algorithmes modernes d'analyse syntaxique. Aujourd'hui encore, BERT et les systèmes TAL modernes utilisent les connaissances de ce corpus fondamental.

4,5+ millions de mots avec annotation syntaxique détaillée via un processus semi-automatique en deux étapes
A établi les méthodes empiriques en linguistique computationnelle et est devenu le benchmark standard pour la recherche en analyse syntaxique
A significativement changé les algorithmes d'analyse syntaxique des approches basées sur des règles vers les approches statistiques
A posé les fondations pour les systèmes TAL modernes de l'analyse statistique à BERT et aux modèles transformer

Personnes:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisations:University of Pennsylvania, Linguistic Data Consortium

1995Publications

AdaBoost : Les Apprenants Faibles Deviennent Forts

En 1995, Yoav Freund et Robert Schapire ont développé AdaBoost (Adaptive Boosting), un algorithme qui a significativement changé l'apprentissage automatique. Leur idée centrale : Combiner de nombreux « apprenants faibles » en un modèle de prédiction hautement précis. Un apprenant faible n'est que légèrement meilleur que le hasard – mais des centaines ensemble peuvent atteindre des résultats notables. AdaBoost s'adapte automatiquement : Les prédictions incorrectes sont pondérées plus fortement au tour suivant. Ainsi le système se concentre automatiquement sur les cas difficiles. L'élégance théorique était convaincante – Freund et Schapire ont prouvé que leur méthode converge exponentiellement vers la classification optimale. En 2003, ils ont reçu le Prix Gödel, la plus haute distinction en informatique théorique. AdaBoost a trouvé des applications pratiques en biologie, vision par ordinateur et reconnaissance vocale. La méthode a posé les fondations des méthodes d'ensemble modernes et a inspiré toute une génération d'algorithmes de boosting jusqu'à XGBoost.

Pondération adaptative : Les cas difficiles sont pondérés plus fortement pour un apprentissage ciblé sur les zones problématiques
Principe des apprenants faibles : Des centaines de classifieurs simples ensemble produisent des prédictions hautement précises
Prix Gödel 2003 : Plus haute distinction en informatique théorique pour le développement de la théorie du boosting
Fondation des méthodes d'ensemble modernes : A inspiré XGBoost et toute une génération d'algorithmes de boosting

Personnes:Yoav Freund, Robert Schapire

Organisations:UC San Diego, AT&T Labs

1995Publications

Machines à Vecteurs de Support : Classification à marge maximale

L'établissement d'approches géométriques élégantes pour une classification robuste. En 1995, Corinna Cortes et Vladimir Vapnik aux AT&T Bell Labs ont publié l'article fondamental « Support-Vector Networks » dans Machine Learning. Les SVM ont étendu les fondements théoriques de Vapnik de 1964 à une solution pratique pour les données d'entraînement non séparables grâce à l'innovation de la « marge souple ». Le principe fondamental réside dans la construction de surfaces de décision linéaires dans des espaces de caractéristiques de très haute dimension par des transformations non linéaires des entrées. L'astuce du noyau de 1992 a permis un calcul efficace sans transformation explicite. Les SVM maximisent la marge entre les classes, offrant ainsi une haute capacité de généralisation. Avec plus de 5 900 citations, l'article est devenu une pierre angulaire du machine learning et a dominé les tâches de classification jusqu'à la révolution du deep learning. Les SVM sont restées robustes, interprétables et efficaces pour les problèmes de haute dimension.

Théorie de l'apprentissage statistique de Vapnik de 1964 étendue à une solution pratique pour les données non séparables
L'astuce du noyau permet une classification non linéaire par des transformations implicites de haute dimension
Le principe de marge maximale maximise la distance entre les classes pour une généralisation optimale
A établi une alternative théoriquement fondée aux réseaux de neurones avec des garanties de généralisation

Personnes:Vladimir Vapnik, Corinna Cortes

Organisations:AT&T Bell Labs

1995Jeux de données

WordNet : Réseau sémantique du langage

La première base de données lexicale complète comme réseau sémantique pour la linguistique computationnelle. En novembre 1995, George Miller a publié l'article fondamental « WordNet: A Lexical Database for English » dans Communications of the ACM et a présenté sa vision développée depuis 1986. WordNet organise les noms, verbes, adjectifs et adverbes anglais en synsets – groupes de synonymes cognitifs liés par des relations sémantiques et lexicales. Cette structure reflète la mémoire sémantique humaine et permet la navigation à travers des réseaux significatifs de mots et de concepts. En tant que première base de données lexicale contrôlée par programme, WordNet a combiné l'information lexicographique traditionnelle avec le traitement de données moderne. Le développement ayant commencé en 1986 par Miller et son équipe de Princeton, WordNet est devenu le fondement des hiérarchies ImageNet et des systèmes NLP modernes. La structure en réseau sémantique a influencé tous les graphes de connaissances et techniques d'embeddings ultérieurs.

Première base de données lexicale électronique complète avec accès contrôlé par programme
Synsets liés par des relations sémantiques et lexicales forment un réseau de sens navigable
Reflète la mémoire sémantique humaine et connecte sciences cognitives et linguistique computationnelle
A posé les fondements des hiérarchies ImageNet, graphes de connaissances et systèmes NLP sémantiques modernes

Personnes:George Miller, Christiane Fellbaum

Organisations:Princeton University, Cognitive Science Laboratory

1996Publications

PageRank : L'algorithme à un milliard de dollars de Google

En 1996, deux doctorants de Stanford ont développé un algorithme qui allait significativement changer Internet. Larry Page et Sergey Brin ont lancé le projet 'BackRub' avec une idée novatrice : L'importance d'une page web n'est pas seulement mesurée par son contenu, mais par les liens qui pointent vers elle. Comme les citations académiques, plus une page est liée, plus elle est importante. L'algorithme PageRank simule un 'Surfeur Aléatoire' cliquant au hasard sur le web. Les pages avec un temps de visite élevé sont classées comme plus importantes. Le robot d'exploration web de Page a démarré en mars 1996 depuis sa propre page d'accueil Stanford. L'article formel sur PageRank a été publié en janvier 1998 comme rapport technique de Stanford. En août 1996, BackRub avait déjà indexé 75 millions de pages. Google livrait des résultats significativement meilleurs que Hotbot, Excite ou Yahoo!. Stanford a reçu le brevet et vendu 1,8 million d'actions Google en 2005 pour 336 millions de dollars. Ce qui a commencé comme un projet universitaire est devenu l'un des moteurs de recherche les plus réussis - et la fondation de l'IA web moderne.

Le projet Stanford 'BackRub' a analysé les données de backlinks pour l'importance web - fondation pour Google
Analyse de liens innovante : Importance de page web par références au lieu de juste fréquence de mots-clés
Modèle du Surfeur Aléatoire : Simulation de navigation web aléatoire pour déterminer l'autorité
De la recherche Stanford à Google Inc. - PageRank comme fondation du moteur de recherche le plus précieux au monde

Personnes:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisations:Stanford University, Google Inc.

1997Compétitions

Deep Blue bat Kasparov

La première victoire d'une machine sur un champion du monde d'échecs en titre dans des conditions de tournoi. Le 11 mai 1997, Deep Blue a fait l'histoire quand le superordinateur IBM a battu Garry Kasparov dans le match revanche à New York avec 3½:2½. Après la défaite de 1996, IBM avait fondamentalement reconçu le système : de nouvelles puces d'échecs ont doublé la vitesse à 200 millions de positions par seconde, des bases de données de fin de partie améliorées et la consultation de grands maîtres ont affiné la force de jeu. La sixième partie décisive n'a duré qu'une heure – Kasparov a abandonné dans une position encore jouable, un moment sans précédent dans sa carrière. La victoire a démontré pour la première fois la supériorité informatique dans la réflexion stratégique complexe et a marqué un tournant pour la perception publique de l'IA. Le prix de 700 000 dollars pour Deep Blue a souligné la signification historique de ce triomphe de l'intelligence machine.

Première victoire d'un ordinateur sur un champion du monde d'échecs en titre dans des conditions de tournoi standard
200 millions de positions par seconde, bases de données de fin de partie améliorées et consultation de grands maîtres
Triomphe technique d'IBM après des années de développement de ChipTest 1985 à Deep Thought jusqu'à Deep Blue
Tournant pour la perception publique de l'IA et preuve de la supériorité machine dans la réflexion stratégique complexe

Personnes:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisations:IBM, World Chess Championship

1997Publications

LSTM : Long Short-Term Memory

La solution au problème du gradient qui s'évanouit et la naissance de la modélisation efficace de séquences. Le 15 novembre 1997, Sepp Hochreiter et Jürgen Schmidhuber publièrent l'article fondamental 'Long Short-Term Memory' dans Neural Computation. Leur innovation résolut un problème fondamental des réseaux récurrents : l'évanouissement des gradients sur les séquences longues. LSTM introduisit des cellules de mémoire spéciales avec des mécanismes de portes qui permettent un flux d'erreur constant sur des milliers de pas de temps. Les portes multiplicatives apprennent à ouvrir et fermer l'accès au carrousel d'erreur constante. Avec une complexité O(1) par pas de temps et un apprentissage local, LSTM surpassa clairement toutes les méthodes RNN contemporaines. Le système résolut pour la première fois des problèmes complexes de décalage temporel long qui étaient auparavant insolubles. LSTM devint la base de la reconnaissance vocale moderne, de la traduction et de l'analyse de séries temporelles.

A résolu le problème du gradient qui s'évanouit grâce à un flux d'erreur constant sur des milliers de pas de temps
Cellules de mémoire spéciales avec carrousels d'erreur constante pour le stockage d'information à long terme
Les unités de porte multiplicatives apprennent à ouvrir et fermer l'accès au flux d'erreur constant
A permis la modélisation efficace de séquences à long terme pour la reconnaissance vocale et l'analyse de séries temporelles

Personnes:Sepp Hochreiter, Jürgen Schmidhuber

Organisations:Johannes Kepler University, Technical University of Munich

1998Jeux de données

MNIST : Le standard de l'apprentissage automatique

La création d'un des datasets de benchmark les plus importants pour les débutants en vision par ordinateur. En 1998, Yann LeCun, Corinna Cortes et Christopher Burges introduisirent le dataset MNIST - une collection organisée de chiffres manuscrits qui devint le 'Hello World' de l'apprentissage automatique. Basé sur la Special Database 3 et 1 du NIST, MNIST contient 70 000 images en niveaux de gris normalisées de 28x28 pixels : 60 000 pour l'entraînement, 10 000 pour les tests. Un prétraitement soigneux et l'anticrénelage rendirent MNIST idéal pour l'apprentissage sans préparation de données complexe. MNIST apparut dans l'article 'Gradient-based learning applied to document recognition' (Proceedings of the IEEE, novembre 1998). Le dataset devint le benchmark standard pour d'innombrables algorithmes ML et permit à des générations d'étudiants de vivre leurs premiers succès en vision par ordinateur. MNIST démocratisa l'éducation en apprentissage automatique dans le monde entier.

70 000 chiffres manuscrits en images normalisées en niveaux de gris de 28x28 pixels
Organisé par Yann LeCun, Corinna Cortes et Christopher Burges à partir des bases de données NIST
Devenu le 'Hello World' de l'apprentissage automatique et benchmark standard pour les algorithmes ML
A démocratisé l'éducation ML grâce à un accès facile sans préparation de données complexe

Personnes:Yann LeCun, Corinna Cortes, Christopher Burges

Organisations:AT&T Labs, Courant Institute

2001Publications

Random Forest : Percée dans les méthodes d'ensemble

En 2001, Leo Breiman de l'UC Berkeley a publié l'un des articles d'apprentissage automatique les plus cités de tous les temps : 'Random Forests'. Son algorithme a significativement changé le concept des méthodes d'ensemble et est devenu l'un des outils les plus importants en statistiques modernes. L'idée centrale était brillamment simple : Au lieu d'entraîner un arbre de décision, en entraîner des centaines d'arbres aléatoires et les faire voter. Chaque arbre ne voit qu'un sous-ensemble aléatoire de données et de caractéristiques - 'bagging' combiné avec la randomisation des caractéristiques. Le résultat : problèmes de surapprentissage drastiquement réduits et précision de prédiction exceptionnelle. Breiman a également fourni une fondation théorique avec des bornes d'erreur de généralisation basées sur la force et la corrélation des arbres. Random Forest est devenu le premier algorithme ML 'plug-and-play' - réglage minimal, performance maximale. De la bioinformatique à l'analyse des marchés financiers, Random Forest domine aujourd'hui d'innombrables applications et a ouvert la voie aux méthodes d'ensemble modernes comme XGBoost.

Percée en ensemble : Des centaines d'arbres de décision aléatoires votent ensemble pour de meilleures prédictions
Bagging + randomisation des caractéristiques : Chaque arbre voit différentes données et caractéristiques pour la diversité
Fondation théorique : Bornes d'erreur de généralisation basées sur la force et la corrélation des arbres
Algorithme ML plug-and-play : Réglage minimal avec performance exceptionnelle dans tous les domaines

Personnes:Leo Breiman, Adele Cutler

Organisations:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisations

Future of Humanity Institute fondé

L'institutionnalisation de la recherche sur la sécurité de l'IA et l'évaluation des risques existentiels. En 2005, Nick Bostrom a fondé le Future of Humanity Institute à l'Université d'Oxford comme groupe de recherche multidisciplinaire. Commençant avec seulement trois chercheurs, FHI s'est développé en un centre de gravité intellectuel pour des penseurs brillants, souvent excentriques, et a grandi jusqu'à environ 50 membres. L'institut a établi de nouveaux domaines de recherche : risques existentiels, alignement de l'IA, gouvernance de l'IA et long-termisme. Les premières publications de Bostrom en 2005 comme « The fable of the dragon tyrant » et « What is a singleton? » ont façonné la réflexion sur la sécurité de l'IA. Malgré son existence relativement courte de 19 ans jusqu'à sa fermeture en 2024, FHI a produit des avancées significatives et une nouvelle façon de penser les grandes questions pour l'humanité. La légitimation académique de la recherche sur la sécurité de l'IA par Oxford a donné au domaine une crédibilité scientifique.

Fondé en 2005 à l'Université d'Oxford, est passé de 3 à 50 chercheurs jusqu'à sa fermeture en 2024
Travail pionnier sur les risques existentiels, le long-termisme et la gouvernance de l'IA comme nouveaux domaines de recherche
A établi l'alignement de l'IA et la sécurité de l'IA comme disciplines académiques légitimes avec impact mondial
A donné à la recherche sur la sécurité de l'IA crédibilité et respect scientifiques grâce à l'affiliation à Oxford

Personnes:Nick Bostrom, Anders Sandberg

Organisations:Oxford University, Future of Humanity Institute

2005Compétitions

DARPA Grand Challenge : Naissance de la conduite autonome

Le 8 octobre 2005, un Volkswagen Touareg bleu nommé « Stanley » a fait l'histoire. Dirigée par Sebastian Thrun, l'équipe de course de Stanford a remporté le DARPA Grand Challenge - la première compétition de véhicules autonomes réussie au monde. Après l'échec complet de tous les participants en 2004 (meilleur : 7,4 miles ou 11,9 km), Stanley a complété le parcours désertique de 212 km en 6 heures et 53 minutes. Cinq véhicules ont atteint la ligne d'arrivée - une amélioration significative par rapport à zéro l'année précédente. Stanley a navigué à travers trois tunnels étroits, plus de 100 virages serrés et le dangereux Beer Bottle Pass avec ses précipices. L'innovation était le logiciel, pas le matériel : les capteurs LiDAR, l'apprentissage automatique et un journal des décisions de conduite humaine ont donné à Stanley des capacités qu'aucun robot n'avait possédées auparavant. Le prix de 2 millions de dollars n'était que le début - Stanley a posé les bases de Tesla Autopilot, Google Waymo et de toute l'industrie des véhicules autonomes. Aujourd'hui, Stanley se trouve au Smithsonian Museum.

« Stanley » de Stanford est devenu le premier véhicule autonome à compléter un parcours désertique de 212 km en moins de 7 heures
Passage de zéro véhicule réussi (2004) à cinq arrivants (2005) grâce à une meilleure IA
Reconnu comme course logicielle : LiDAR, apprentissage automatique et données de conduite humaine comme clé
Moment de naissance de la technologie de conduite autonome moderne - a inspiré Tesla, Google et toute l'industrie

Personnes:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisations:DARPA, Stanford University, Stanford AI Lab

2006Publications

Réseaux de croyance profonds : La renaissance du Deep Learning

Geoffrey Hinton a transformé le monde de l'IA en 2006 avec son article important sur les réseaux de croyance profonds. Après des décennies d'hiver de l'IA, il a démontré comment les réseaux de neurones profonds pouvaient être entraînés efficacement. Son innovation : le pré-entraînement couche par couche utilisant les machines de Boltzmann restreintes (RBM). Cette stratégie d'apprentissage « gourmande » a résolu le problème d'initialisation des poids et a rendu le deep learning pratiquement applicable. La méthode empile les RBM les unes sur les autres, entraînant chaque couche individuellement avant d'affiner le réseau entier. Le travail de Hinton a mis fin à l'hiver de l'IA et initié la transformation du deep learning. En 2009, les DBN avaient significativement réduit les taux d'erreur dans les systèmes de reconnaissance vocale. En 2012, l'équipe de Hinton a atteint un taux d'erreur de 15,3% en reconnaissance d'image utilisant le deep learning - une amélioration substantielle par rapport aux 26,2% précédents. Ce moment marque la renaissance des réseaux de neurones et le début du boom actuel de l'IA.

L'algorithme d'apprentissage gourmand couche par couche a permis pour la première fois un entraînement efficace des réseaux de neurones profonds
Empilement de machines de Boltzmann restreintes (RBM) comme blocs de construction pour des représentations complexes
Le pré-entraînement non supervisé a résolu le problème d'initialisation des poids des réseaux profonds
A mis fin à l'hiver de l'IA et établi l'essor moderne du deep learning à partir de 2006

Personnes:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisations:University of Toronto, Neural Computation

2006Compétitions

Prix Netflix : L'algorithme à un million de dollars

La démocratisation de l'apprentissage automatique à travers le premier grand concours de crowdsourcing. Le 2 octobre 2006, Netflix a lancé un défi sans précédent d'un million de dollars : Qui peut améliorer l'algorithme de recommandation Cinematch de 10% ? Avec plus de 100 millions d'évaluations de 480 000 utilisateurs pour 17 770 films, Netflix a fourni l'un des plus grands jeux de données ML publics. Plus de 20 000 équipes de plus de 150 pays se sont inscrites, 2 000 équipes ont soumis plus de 13 000 solutions. Le 26 juillet 2009, 'BellKor's Pragmatic Chaos' a gagné avec une amélioration de 10,06% grâce à une combinaison ensemble de factorisation matricielle et de machines de Boltzmann restreintes (cérémonie de remise : 21 septembre 2009). Le concours a significativement transformé le filtrage collaboratif et démontré la puissance du crowdsourcing pour les problèmes ML complexes. Bien que Netflix n'ait jamais déployé les algorithmes gagnants en production (coûts d'implémentation trop élevés), le concours a durablement inspiré l'industrie moderne des systèmes de recommandation.

Prix d'un million de dollars pour une amélioration de 10% de l'algorithme Cinematch sur un concours de 3 ans
100+ millions d'évaluations de 480k utilisateurs pour 17 770 films comme jeu de données ML public
A significativement transformé le filtrage collaboratif par la factorisation matricielle et les machines de Boltzmann restreintes
20 000+ équipes de 150 pays, 13 000 soumissions ont démontré la puissance du crowdsourcing pour le ML

Personnes:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisations:Netflix, BellKor, AT&T Research

2007Jeux de données

Fondation Common Crawl établie

La démocratisation d'Internet comme données d'entraînement pour l'intelligence artificielle. En 2007, Gil Elbaz a fondé la Common Crawl Foundation avec la mission : archiver tout l'Internet public et le rendre librement disponible. À partir de 2008, une activité de crawling systématique a commencé, qui englobe aujourd'hui plus de 100 milliards de pages web et 9,5 pétaoctets de données. Cette collection est devenue la source d'entraînement la plus importante pour les grands modèles de langage et a permis le développement de GPT-3, ChatGPT, LLaMA et d'autres systèmes d'IA modernes. Common Crawl se différenciait des approches commerciales par sa nature non lucrative et sa disponibilité gratuite. La collection de données brutes non filtrées nécessite un post-traitement, mais elle a démocratisé l'accès aux données linguistiques complètes et a rendu la recherche en IA plus indépendante des ensembles de données propriétaires.

Fondée en 2007 avec la mission d'archiver tout l'Internet public et de le rendre librement disponible
Plus de 100 milliards de pages web et 9,5+ pétaoctets de données depuis le début du crawling en 2008
Devenue la source d'entraînement principale pour GPT-3, ChatGPT, LLaMA et autres grands modèles de langage
L'approche non lucrative a démocratisé l'accès aux données linguistiques pour la recherche en IA mondiale

Personnes:Gil Elbaz, Common Crawl Team

Organisations:Common Crawl Foundation, Internet Archive, Alexa Internet

2008Publications

Zero-Shot Learning : Apprendre sans données

La formalisation de l'apprentissage de classes non vues à travers des descriptions sémantiques. En juillet 2008, Hugo Larochelle, Dumitru Erhan et Yoshua Bengio ont publié à la conférence AAAI leur travail « Zero-data Learning of New Tasks » et ont établi les fondements théoriques du zero-shot learning. Le problème fondamental : Comment un modèle peut-il classifier des classes pour lesquelles aucune donnée d'entraînement n'est disponible, seulement des descriptions ? La solution résidait dans les embeddings sémantiques et le transfer learning – la réutilisation de modèles entraînés pour de nouvelles tâches. Leur formalisation adressait de très grands ensembles de classes qui ne sont pas complètement couverts par les données d'entraînement. Les analyses expérimentales ont prouvé des capacités de généralisation significatives dans ce contexte. Ce travail a posé le fondement conceptuel des capacités modernes few-shot et zero-shot de GPT-3, GPT-4 et d'autres grands modèles de langage. Le zero-shot learning est devenu une technologie clé pour les systèmes IA scalables.

Classification de classes sans données d'entraînement – seulement avec des descriptions sémantiques des classes cibles
Réutilisation de modèles entraînés pour des tâches complètement nouvelles via embeddings sémantiques
Les représentations sémantiques permettent la généralisation à des concepts non vus
A posé les fondements des capacités few-shot et zero-shot des grands modèles de langage modernes

Personnes:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisations:University of Montreal, Google

2009Jeux de données

Les jeux de données CIFAR sont établis

La création d'un benchmark fondamental pour la vision par ordinateur. En 2009, Alex Krizhevsky, Vinod Nair et Geoffrey Hinton à l'Université de Toronto ont développé les jeux de données CIFAR-10 et CIFAR-100. Ceux-ci ont émergé comme des sous-ensembles étiquetés du jeu de données « Tiny Images » de 80 millions d'images. CIFAR-10 comprend 60 000 images couleur de 32x32 pixels dans dix catégories comme les avions, les voitures et les animaux, tandis que CIFAR-100 distribue le même nombre d'images dans cent classes plus fines. Les jeux de données sont devenus l'un des benchmarks les plus importants dans la recherche en vision par ordinateur et ont permis des comparaisons standardisées entre différents algorithmes. Notable est la connexion avec AlexNet : Krizhevsky a utilisé CIFAR-10 avant 2011 pour entraîner de petits CNNs sur des GPUs uniques – un précurseur de son succès ImageNet de 2012.

CIFAR-10 avec 60 000 images dans 10 catégories, CIFAR-100 avec 100 classes plus détaillées comme benchmarks de vision par ordinateur
Est devenu l'un des benchmarks standardisés les plus importants pour les algorithmes de vision par ordinateur dans le monde
A permis l'évaluation et la comparaison systématiques de différentes approches d'apprentissage automatique
Krizhevsky a utilisé CIFAR-10 avant 2011 pour l'entraînement de CNN – précurseur de son succès AlexNet en 2012

Personnes:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisations:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Jeux de données

ImageNet : Le dataset qui a tout changé

La création du dataset qui permit l'avancée du deep learning. En 2009, Fei-Fei Li avec son équipe publia l'article ImageNet et introduisit une base de données visuelle qui allait transformer la vision par ordinateur. Avec plus de 14 millions d'images annotées à la main et 22 000 catégories basées sur les hiérarchies WordNet, ImageNet résolut le goulot d'étranglement critique : le manque de données d'entraînement de grande qualité et en grand volume. L'annotation fut réalisée par 49 000 travailleurs de 167 pays via Amazon Mechanical Turk - un projet collaboratif sans précédent. Ce qui commença comme un poster dans un coin d'un centre de conférence de Miami Beach se développa en le Challenge ImageNet annuel (ILSVRC) et devint l'un des trois moteurs du développement de l'IA moderne. ImageNet permit la percée d'AlexNet en 2012 et posa les bases des véhicules autonomes, de la reconnaissance faciale et de l'imagerie médicale.

Plus de 14 millions d'images annotées à la main dans 22 000 catégories par 49 000 travailleurs de 167 pays
Basé sur les hiérarchies WordNet pour la catégorisation structurée des objets visuels
A fourni les données d'entraînement critiques pour la percée d'AlexNet en 2012 et l'avancée du deep learning
A transformé la recherche en vision par ordinateur et permis les véhicules autonomes, la reconnaissance faciale, l'imagerie médicale

Personnes:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisations:Stanford University, Princeton University

2010Jalons

DeepMind est fondée

La naissance d'un laboratoire d'IA qui ferait les gros titres dans le monde entier. En septembre 2010, Demis Hassabis, Shane Legg et Mustafa Suleyman ont fondé DeepMind Technologies à Londres. Leur objectif : développer une intelligence artificielle générale en combinant les connaissances des neurosciences et de l'apprentissage automatique. Hassabis, ancien prodige des échecs et développeur de jeux, a apporté une vision unique : l'IA devrait apprendre comme le cerveau humain. En 2014, Google a acquis la startup pour un montant estimé à 500 millions de dollars – l'une des plus grandes acquisitions d'IA de l'histoire. DeepMind étonnerait plus tard le monde avec AlphaGo, AlphaFold et d'autres percées.

Fondée en septembre 2010 à Londres sous le nom DeepMind Technologies
Demis Hassabis (neuroscientifique, développeur de jeux), Shane Legg et Mustafa Suleyman
Acquise par Google en 2014 pour un montant estimé à 500 millions de dollars
Plus tard responsable d'AlphaGo, AlphaFold et d'autres systèmes d'IA majeurs

Personnes:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisations:DeepMind, Google

2010Compétitions

Challenge ImageNet : La compétition commence

L'établissement du benchmark de vision par ordinateur le plus important de l'histoire de l'IA. En 2010, le premier ImageNet Large Scale Visual Recognition Challenge (ILSVRC) démarra et créa une compétition standardisée qui allait façonner la recherche en vision par ordinateur pour la décennie suivante. Avec 1 000 catégories d'objets et 1,2 million d'images d'entraînement, le challenge dépassait de loin les benchmarks alors disponibles comme PASCAL VOC avec seulement 20 classes. L'évaluation se faisait via les taux d'erreur Top-1 et Top-5 - des métriques qui restent standard aujourd'hui. De 2010 à 2017, les taux de classification des gagnants s'améliorèrent substantiellement de 71,8% à 97,3%, dépassant finalement la performance humaine. Le challenge annuel attira plus de 50 institutions du monde entier et catalysa les avancées qui culminèrent dans la percée significative d'AlexNet en 2012.

Premier ILSVRC 2010 avec 1 000 catégories et 1,2 million d'images d'entraînement - bien au-delà de PASCAL VOC
A établi les taux d'erreur Top-1 et Top-5 comme métriques standard pour l'évaluation de la vision par ordinateur
Compétition annuelle depuis 2010 attirant plus de 50 institutions mondiales et stimulant les avancées de recherche
A créé la structure compétitive qui permit la percée significative de 15,3% d'AlexNet en 2012

Personnes:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisations:Stanford University, ImageNet Team

2011Compétitions

Watson bat les champions de Jeopardy

Le triomphe d'IBM en traitement du langage naturel et preuve de la compréhension du langage par machine. Le 16 février 2011, le système Watson d'IBM a battu les deux champions les plus titrés de tous les temps dans le défi télévisé Jeopardy : Ken Jennings (74 victoires consécutives) et Brad Rutter (3,25 millions de dollars de gains jusqu'en 2005). Watson, développé par l'équipe DeepQA de David Ferrucci, consistait en 90 serveurs IBM Power 750 (dans 10 baies) avec 16 téraoctets de RAM et 2 880 cœurs de processeurs POWER7. L'innovation résidait dans le traitement du langage naturel : Watson comprenait les questions en langage naturel et répondait plus précisément que toute technologie de recherche standard – sans connexion internet. Avec 77 147 $ de gains (donnés à une œuvre caritative), Watson a dominé ses concurrents humains de près de 50 000 $. La remarque finale célèbre de Ken Jennings « Pour ma part, je souhaite la bienvenue à nos nouveaux maîtres informatiques » a souligné l'importance historique de cette étape du NLP.

A battu les légendes de Jeopardy Ken Jennings et Brad Rutter dans un défi télévisé
Première démonstration télévisée de capacités avancées de traitement du langage naturel pour des millions de téléspectateurs
Le système DeepQA combinait récupération de connaissances et raisonnement complexe sans connexion internet
Le commentaire de Ken Jennings sur les « maîtres informatiques » a souligné l'importance culturelle des progrès de l'IA

Personnes:David Ferrucci, Ken Jennings, Brad Rutter

Organisations:IBM Research, Jeopardy!, Sony Pictures Television

2011Produits

Lancement de Siri : La première IA vocale grand public

Le 4 octobre 2011, Apple a significativement transformé l'interaction homme-machine avec l'introduction de Siri sur l'iPhone 4S. En tant que premier assistant vocal largement disponible, Siri a mis l'IA dans les poches de millions de personnes. 'Quel temps fait-il aujourd'hui ?' ou 'Trouve-moi un bon restaurant grec' - soudain les utilisateurs pouvaient parler naturellement avec leurs téléphones. Siri était construit sur des décennies de recherche au SRI International et le projet CALO de la DARPA. Susan Bennett avait enregistré sans le savoir la voix originale en 2005. Steve Jobs, dans ses derniers jours, a assisté à la dernière démo de cette technologie significative. Un jour après l'introduction de Siri, il est décédé. Siri n'était pas parfait - les critiques se plaignaient des commandes rigides et du manque de flexibilité. Mais l'objectif était atteint : l'IA était devenue grand public. Siri a inspiré Amazon Alexa, Google Assistant et Microsoft Cortana. L'ère des assistants vocaux avait commencé.

Premier assistant vocal IA largement disponible pour des millions d'utilisateurs de smartphones dans le monde
Le traitement du langage naturel avancé a permis une communication intuitive homme-machine
Dernier grand projet produit de Steve Jobs avant son décès le 5 octobre 2011
A fondé l'ère moderne des assistants vocaux et inspiré tous les concurrents

Personnes:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisations:Apple, SRI International, DARPA

2012Publications

Régularisation Dropout

Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever et Ruslan Salakhutdinov améliorent significativement l'entraînement des réseaux de neurones en juillet 2012 avec l'invention de la régularisation dropout. Cette technique élégante prévient le surapprentissage en « désactivant » aléatoirement environ la moitié de tous les neurones pendant l'entraînement, évitant les co-adaptations complexes. Au lieu de combinaisons de caractéristiques spécifiques, chaque neurone apprend des motifs de reconnaissance robustes et généralement utiles. La méthode publiée sur arXiv le 3 juillet 2012 permet la percée d'AlexNet sur ImageNet en septembre 2012 et devient le standard dans la plupart des architectures modernes de deep learning. Le dropout établit de nouveaux records en reconnaissance vocale et d'objets et résout le problème central de surapprentissage des réseaux profonds.

Résout le problème central de surapprentissage des réseaux de neurones profonds
Désactivation aléatoire de la moitié de tous les neurones pendant l'entraînement
Permet la percée d'AlexNet sur ImageNet - le succès serait impossible sans le dropout
Devient le standard dans la plupart des architectures modernes de deep learning

Personnes:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisations:University of Toronto

2012Percées

Accomplissement d'AlexNet

Le tournant pour le deep learning et l'IA moderne. Le 30 septembre 2012, AlexNet a gagné le Challenge ImageNet avec une marge telle que la vision par ordinateur a été fondamentalement changée. Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton de l'Université de Toronto ont développé une architecture CNN qui a battu sa compétition par 9,8 points de pourcentage remarquables – une amélioration considérée comme exceptionnelle dans la communauté scientifique. Avec 60 millions de paramètres et des techniques innovantes comme les activations ReLU et les couches dropout, AlexNet a prouvé pour la première fois la supériorité pratique du deep learning. C'était le moment où une théorie intéressante est devenue une technologie dominante. Yann LeCun l'a appelé un « tournant sans équivoque dans l'histoire de la vision par ordinateur ». L'implémentation basée sur GPU a ouvert la voie au développement moderne de l'IA.

AlexNet a gagné le Challenge ImageNet 2012 avec un taux d'erreur de 15,3% – 9,8 points de pourcentage meilleurs que le deuxième participant
60 millions de paramètres, activations ReLU, couches dropout et entraînement GPU ont établi de nouveaux standards techniques
A prouvé pour la première fois la supériorité pratique du deep learning et a mis fin au scepticisme envers les réseaux neuronaux
A lancé le développement moderne de l'IA et a fait des architectures CNN le standard en vision par ordinateur

Personnes:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisations:University of Toronto, ImageNet Challenge, NIPS

2012Percées

Révolution du Deep Learning

L'année qui a inauguré l'ère moderne de l'IA par la convergence des ensembles de données, de la puissance GPU et des architectures neuronales. 2012 a marqué l'essor du deep learning comme technologie d'IA dominante, catalysé par l'impressionnante victoire d'AlexNet sur ImageNet. La convergence de trois développements l'a rendu possible : l'ensemble de données ImageNet de Fei-Fei Li a fourni des données d'entraînement étiquetées massives, le calcul GPU a atteint la puissance de calcul nécessaire pour les réseaux profonds, et des méthodes d'entraînement améliorées comme les activations ReLU et la régularisation dropout ont surmonté les anciennes limitations. L'équipe de Geoffrey Hinton a prouvé dans la maison des parents de Krizhevsky avec deux cartes Nvidia que les réseaux de neurones profonds étaient pratiques. AlexNet s'est avéré être un tournant pour la vision par ordinateur. Ce succès a considérablement augmenté l'intérêt pour le deep learning et a ouvert la voie à VGG, ResNet et finalement au développement actuel de l'IA générative.

Le Deep Learning s'est établi comme technologie d'IA dominante et a mis fin à la dominance des approches traditionnelles d'apprentissage automatique
La victoire d'AlexNet sur ImageNet a démontré pour la première fois la supériorité pratique des réseaux de neurones profonds
Le calcul GPU a permis l'entraînement de grands réseaux de neurones et a fondamentalement changé les méthodes de recherche en IA
A déclenché des investissements massifs dans la recherche en deep learning et l'adoption industrielle des architectures neuronales

Personnes:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky

Organisations:University of Toronto, NYU, University of Montreal

2013Publications

Word2Vec : Les mots comme vecteurs

La transformation de la représentation des mots par les espaces vectoriels sémantiques. Le 16 janvier 2013, Tomas Mikolov avec son équipe Google a publié l'article révolutionnaire « Efficient Estimation of Word Representations in Vector Space ». Word2Vec a transformé le NLP en représentant les mots comme des vecteurs de haute dimension qui capturent les relations sémantiques et syntaxiques. Les deux variantes d'architecture CBOW (Continuous Bag of Words) et Skip-Gram ont appris de grands corpus de texte que les mots similaires apparaissent dans des contextes similaires. L'exemple célèbre a démontré l'arithmétique vectorielle : Roi - Homme + Femme = Reine. Avec plus de 49 000 citations, le travail de Mikolov est devenu l'un des articles NLP les plus influents. Word2Vec a posé les fondements de toutes les techniques modernes d'embeddings et a permis le raisonnement sémantique dans les espaces vectoriels. Cette innovation a ouvert la voie aux architectures transformer et aux grands modèles de langage modernes.

Premières représentations vectorielles de haute dimension efficaces des mots avec relations sémantiques
Patterns sémantiques et syntaxiques par arithmétique vectorielle : Roi - Homme + Femme = Reine
A permis le raisonnement analogique dans les espaces vectoriels par similarité cosinus et métriques de distance
A posé les fondements des techniques modernes d'embeddings et des grands modèles de langage basés sur transformer

Personnes:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisations:Google, Google Research

2013Publications

VAE : Autoencodeurs Variationnels

La naissance des modèles génératifs probabilistes par la modélisation d'espaces latents. Le 20 décembre 2013, Diederik Kingma et Max Welling ont révolutionné la modélisation générative avec leur article « Auto-Encoding Variational Bayes ». Les VAE connectent les réseaux encodeur et décodeur à travers un espace latent probabiliste – typiquement une distribution gaussienne multivariée. Contrairement aux autoencodeurs déterministes, l'encodeur code les données comme des distributions plutôt que des points uniques, permettant l'interpolation continue et la génération de données. L'astuce innovante de reparamétrisation rend l'aléatoire différentiable comme entrée du modèle et permet l'optimisation par gradient standard. Les VAE ont démontré la génération réaliste de visages et de chiffres manuscrits par inférence variationnelle. Ce travail a posé les fondements de l'IA générative moderne et a influencé toutes les approches probabilistes ultérieures, des GAN aux modèles de diffusion.

Inférence variationnelle pour l'approximation efficace des distributions postérieures intractables en variables latentes continues
L'espace latent probabiliste permet l'interpolation continue et la génération de nouveaux points de données
Première combinaison réussie d'architecture autoencodeur avec modélisation générative probabiliste
Architecture encodeur-décodeur avec astuce de reparamétrisation pour l'aléatoire différentiable

Personnes:Diederik P. Kingma, Max Welling

Organisations:University of Amsterdam

2014Jeux de données

MS COCO : Le standard d'or de la vision par ordinateur

En 2014, Microsoft a significativement transformé la recherche en vision par ordinateur avec le jeu de données COCO (Common Objects in Context). Contrairement à ImageNet avec des objets isolés, COCO montrait des objets dans leur contexte naturel - tels qu'ils apparaissent dans le monde réel. 2,5 millions d'annotations dans 328 000 images avec 91 catégories d'objets qu'un enfant de 4 ans pourrait reconnaître. L'innovation résidait dans les détails : des masques de segmentation précis au pixel au lieu de simples boîtes englobantes. COCO a permis pour la première fois une localisation précise des objets et une compréhension complexe des scènes. Le jeu de données est devenu le standard d'or pour la détection d'objets, la segmentation d'instances et le sous-titrage d'images. De YOLO à Mask R-CNN - tous les grands modèles de vision par ordinateur sont mesurés contre COCO. Des métriques standardisées comme la précision moyenne (mAP) ont rendu possibles les comparaisons objectives de modèles. Plus d'une décennie plus tard, COCO reste le benchmark le plus important de la communauté CV. Sans COCO, il n'y aurait pas de systèmes modernes de reconnaissance d'objets dans les véhicules autonomes, la surveillance ou la réalité augmentée.

Objets en contexte naturel au lieu d'isolés - a transformé la vision par ordinateur des scènes artificielles aux scènes réelles
2,5 millions d'annotations précises au pixel dans 328k images - qualité et profondeur d'annotation sans précédent
Standard d'or avec métriques mAP pour comparaisons objectives de modèles - a défini l'évaluation en vision par ordinateur
Fondation pour YOLO, Mask R-CNN et tous les systèmes CV modernes - des voitures autonomes à la RA

Personnes:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisations:Microsoft Research, Cornell University, UC Berkeley

2014Publications

GANs - Réseaux Antagonistes Génératifs

Ian Goodfellow invente les Réseaux Antagonistes Génératifs (GANs) en 2014 durant une seule nuit à Montréal après avoir bu avec des amis. Son framework novateur oppose deux réseaux de neurones dans un jeu minimax : Un générateur crée des données artificielles tandis qu'un discriminateur essaie de distinguer le vrai du faux. Cet entraînement adversarial change fondamentalement l'IA générative et permet pour la première fois la génération d'images photoréalistes. Le travail publié sur arXiv en 2014 devient l'un des articles d'IA les plus influents, faisant de Goodfellow une célébrité de l'IA. Des centaines de variantes de GAN suivent.

Deux réseaux de neurones en jeu minimax : Générateur vs. Discriminateur
Inventé en une nuit à Montréal en 2014 après une visite au pub - a fonctionné immédiatement
Framework mathématiquement élégant pour l'optimisation adversariale
Change fondamentalement l'IA générative - permet la génération d'images photoréalistes

Personnes:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisations:University of Montreal, NIPS Conference

2014Publications

Mécanisme d'Attention : La Clé des LLM Modernes

Septembre 2014 : Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio ont publié un article qui allait significativement changer le monde du NLP. « Neural Machine Translation by Jointly Learning to Align and Translate » a résolu un problème fondamental des modèles séquence-à-séquence. Les architectures encodeur-décodeur précédentes compressaient chaque phrase d'entrée en un seul vecteur de longueur fixe – un goulot d'étranglement d'information pour les phrases longues. L'attention de Bahdanau était une avancée majeure : Au lieu d'un vecteur fixe, le modèle utilisait une attention dynamique sur différentes parties de la phrase d'entrée. Comme l'œil humain en lisant, l'attention de l'IA saute entre les mots pertinents. Cette « Attention Additive » est devenue la fondation de tous les systèmes NLP modernes. Pas de Bahdanau, pas de Transformers ; pas de Transformers, pas de famille GPT ni de BERT. Cette percée s'est produite trois ans avant « Attention Is All You Need ».

A résolu le goulot d'étranglement encodeur-décodeur : Longueurs de phrases variables au lieu de compression en vecteur fixe
Attention dynamique au lieu d'encodage statique : Focus adaptatif sur les parties pertinentes de l'entrée
Apprend l'alignement entre les langues : Quels mots correspondent lors de la traduction ?
Fondation pour le développement des Transformers : Sans l'attention de Bahdanau, pas de GPT, BERT ou ChatGPT

Personnes:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisations:University of Montreal, Jacobs University Bremen

2014Produits

Lancement d'Amazon Alexa & Echo

Amazon change significativement l'interaction humain-technologie le 6 novembre 2014 avec l'introduction d'Alexa et de l'enceinte intelligente Echo. Cette nouvelle catégorie de produits rend l'IA vocale accessible au grand public pour la première fois et transforme les foyers en environnements contrôlés par la voix. S'appuyant sur la technologie de synthèse vocale polonaise Ivona acquise le 24 janvier 2013, Amazon crée une expérience utilisateur novatrice. Echo commence comme un appareil de contrôle musical mais évolue rapidement vers un hub universel pour maison intelligente. Cette innovation marque le début d'un développement de marché majeur et inspire de nombreux concurrents.

Introduction d'une nouvelle catégorie de produits : Enceinte intelligente avec disponibilité vocale permanente
L'IA vocale devient accessible à des millions de consommateurs – pas seulement les passionnés de technologie
Transforme les salons en centres de maison intelligente contrôlés par la voix
Marque le début d'un développement de marché majeur – Google, Apple et d'autres suivent

Personnes:Jeff Bezos, Amazon Alexa Team

Organisations:Amazon, Ivona (acquired 2013)

2015Publications

Batch Normalization : Avancée Importante dans l'Entraînement des Réseaux Neuronaux

Le 11 février 2015, Sergey Ioffe et Christian Szegedy de Google ont publié un article qui a significativement changé l'entraînement des réseaux neuronaux profonds. Leur problème : « Internal Covariate Shift » – la distribution d'entrée de chaque couche change pendant l'entraînement, conduisant à un apprentissage instable. Leur solution élégante : La Batch Normalization normalise les activations de chaque couche pour chaque mini-batch. L'effet était substantiel : un entraînement 14x plus rapide avec la même précision. Des taux d'apprentissage plus élevés sont devenus possibles, le dropout souvent inutile, l'initialisation moins critique. La méthode agissait simultanément comme régulariseur et accélérateur. Leur ensemble ImageNet a atteint 4,8% de taux d'erreur top-5, surpassant les évaluateurs humains (environ 5,1%). Avec plus de 12 000 citations, l'article a inspiré d'innombrables méthodes de normalisation : GroupNorm, LayerNorm, InstanceNorm. Aujourd'hui, la Batch Normalization est standard dans pratiquement toutes les architectures modernes – de ResNet au Transformer.

A résolu le problème de l'Internal Covariate Shift en normalisant les activations dans chaque mini-batch
Entraînement 14x plus rapide avec la même précision – a permis des taux d'apprentissage plus élevés et une initialisation robuste
Double bénéfice : accélération ET régularisation – remplace souvent le dropout dans les architectures modernes
4,8% d'erreur top-5 ImageNet avec ensemble – a surpassé les évaluateurs humains (environ 5,1%) et établi un nouveau standard

Personnes:Sergey Ioffe, Christian Szegedy

Organisations:Google Inc., ICML Conference

2015Publications

YOLO : You Only Look Once

La transformation de la détection d'objets en temps réel grâce à une architecture unifiée en une seule passe. Le 8 juin 2015, Joseph Redmon, Santosh Divvala, Ross Girshick et Ali Farhadi ont présenté l'article révolutionnaire « You Only Look Once: Unified, Real-Time Object Detection ». YOLO a brisé le paradigme traditionnel en deux étapes de la détection d'objets et a formulé la détection comme un problème de régression pour des boîtes englobantes spatialement séparées. Un seul réseau de neurones prédit les boîtes englobantes et les probabilités de classe directement à partir d'images complètes en une seule évaluation. Avec 45 fps de performance de base et Fast YOLO à un impressionnant 155 fps, le système était des centaines à des milliers de fois plus rapide que les détecteurs existants. L'architecture basée sur une grille divisait les images en cellules, chaque cellule prédisant les objets en son centre. YOLO a appris des représentations d'objets généralisantes et a significativement surpassé les autres méthodes en transfert de domaine.

45 fps de performance de base, Fast YOLO 155 fps – des centaines à milliers de fois plus rapide que les détecteurs existants
Architecture en une passe formule la détection d'objets comme problème de régression au lieu du paradigme deux étapes
Division en grille de cellules avec prédiction directe des boîtes englobantes et probabilités de classe
A permis la vision par ordinateur en temps réel pour véhicules autonomes, surveillance et applications mobiles

Personnes:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisations:University of Washington, Allen Institute, Facebook AI Research

2015Percées

Développement d'AlphaGo par DeepMind

DeepMind annonce le succès d'AlphaGo en 2015, le premier système d'IA à battre un joueur professionnel de Go sur un plateau complet sans handicap. En octobre 2015, AlphaGo bat le champion européen de Go Fan Hui 5-0, conquérant le jeu de plateau le plus complexe du monde une décennie plus tôt que prévu par les experts. Le Go est un googol de fois plus complexe que les échecs, avec plus de configurations de plateau possibles qu'il n'y a d'atomes dans l'univers connu. Ce succès remarquable démontre la puissance des réseaux de neurones et de la recherche arborescente Monte Carlo.

Première victoire informatique contre un joueur professionnel de Go sur plateau complet sans handicap (Fan Hui 5-0)
Approche novatrice utilisant des réseaux de neurones profonds au lieu d'algorithmes codés en dur
Maîtrisé 10^170 configurations de plateau possibles - plus que les atomes dans l'univers
Percée survenue une décennie plus tôt que prévu par les experts en IA

Personnes:Demis Hassabis, David Silver, DeepMind Team

Organisations:DeepMind, Google

2015Produits

Tesla Autopilot : Assistance à la conduite pour le grand public

Le 14 octobre 2015, Tesla a publié la version logicielle 7.0, activant pour la première fois Autopilot sur les véhicules Model S. Le matériel avait été installé dans les véhicules depuis septembre 2014 – un an avant l'activation logicielle. Le système utilisait la technologie Mobileye avec une caméra frontale, un radar et 12 capteurs à ultrasons. Les conducteurs pouvaient désormais utiliser le régulateur de vitesse adaptatif, l'assistance au maintien de voie et le stationnement automatique – des fonctionnalités auparavant réservées aux véhicules de luxe. Tesla l'a classé comme autonomie de niveau 2 : le système assiste le conducteur mais ne le remplace pas. Musk a souligné lors du lancement : « Nous conseillons aux conducteurs de garder les mains sur le volant. » En un an, la flotte Tesla a accumulé 300 millions de miles avec Autopilot actif. Le concept – pré-installer le matériel, débloquer les fonctionnalités via mise à jour logicielle – a montré à l'industrie automobile une nouvelle voie.

La mise à jour du 14 octobre 2015 a activé le matériel pré-installé - nouveau concept pour l'industrie automobile
Capteurs Mobileye : caméra frontale, radar et 12 capteurs à ultrasons pour l'assistance niveau 2
Régulateur adaptatif, maintien de voie et stationnement automatique - auparavant réservés au luxe
300 millions de miles la première année - a démontré la maturité pour le grand public

Personnes:Elon Musk, Tesla Engineering Team

Organisations:Tesla Inc., Mobileye

2015Produits

TensorFlow : Le framework ML de Google devient open source

La démocratisation du machine learning grâce au puissant outil interne de Google. Le 9 novembre 2015, Google a rendu TensorFlow open source sous licence Apache 2.0 et a mis son système ML de deuxième génération à la disposition de tous. TensorFlow a remplacé le système interne DistBelief et offrait une vitesse doublée avec une meilleure évolutivité et préparation à la production. En tant que processeur universel de graphes de flux de calcul, TensorFlow permettait non seulement le deep learning mais tout calcul différentiable. L'interface Python flexible, l'auto-différentiation et les optimiseurs de première classe ont significativement amélioré le développement ML. La stratégie de Google : le développement communautaire accélère les progrès de l'IA pour tous. Développé avec plus de 30 auteurs de l'équipe Google Brain, TensorFlow est devenu l'une des principales plateformes ML et a permis à des millions de développeurs de créer des applications IA avancées.

La licence Apache 2.0 a rendu le puissant système ML interne de Google librement accessible à tous
A remplacé DistBelief avec une vitesse doublée et une meilleure évolutivité
L'interface Python flexible et l'auto-différentiation ont significativement amélioré le développement ML
A permis à des millions de développeurs d'accéder à la technologie IA avancée

Personnes:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisations:Google, Google Brain

2015Publications

ResNet : Les réseaux résiduels transforment l'apprentissage profond

La solution au problème du gradient évanescent et la naissance des réseaux ultra-profonds. Le 10 décembre 2015, l'équipe de Kaiming He chez Microsoft Research a publié l'article 'Deep Residual Learning for Image Recognition' et a significativement transformé l'apprentissage profond. ResNet a introduit les connexions résiduelles – des connexions de saut qui transmettent directement les entrées aux couches ultérieures et permettent l'entraînement de réseaux ultra-profonds. Avec 152 couches, ResNet était huit fois plus profond que VGG mais moins complexe. Le résultat remarquable : 3,57% de taux d'erreur sur ImageNet – un triomphe qui a dominé toutes les catégories. ResNet a remporté la Classification, Détection, Localisation ImageNet ainsi que la Détection et Segmentation COCO en 2015. Le cadre d'apprentissage résiduel a reformulé les couches comme apprenant des fonctions résiduelles au lieu de fonctions non référencées. Cette innovation a permis d'entraîner des réseaux avec des centaines de couches.

Les connexions de saut transmettent directement les entrées et permettent l'entraînement de réseaux ultra-profonds
152 couches – 8x plus profond que VGG mais moins complexe grâce au cadre d'apprentissage résiduel
3,57% de taux d'erreur ImageNet, a remporté toutes les catégories ILSVRC & COCO 2015
A établi les connexions résiduelles comme standard pour les architectures modernes d'apprentissage profond

Personnes:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisations:Microsoft Research

2015Jalons

OpenAI est fondée

L'organisation qui voulait rendre l'IA accessible à tous – et a changé le monde. Le 11 décembre 2015, Sam Altman, Elon Musk et d'autres personnalités technologiques de premier plan ont annoncé la fondation d'OpenAI. Avec un milliard de dollars de financement initial et l'objectif de développer une intelligence artificielle générale sûre qui bénéficie à toute l'humanité, OpenAI est entrée en scène comme une organisation de recherche à but non lucratif. Ce qui a commencé comme une entreprise idéaliste est devenu le laboratoire d'IA le plus influent au monde. En 2019, une filiale à but lucratif a été établie. Avec GPT-3 et ChatGPT, OpenAI a redéfini ce que l'IA peut accomplir.

Fondée le 11 décembre 2015 à San Francisco
Mission : Développer une intelligence artificielle générale sûre qui bénéficie à toute l'humanité
Lancée avec 1 milliard de dollars d'Elon Musk, Peter Thiel, Reid Hoffman et d'autres
De non-profit à structure à profit plafonné (2019), plus tard responsable de la série GPT et ChatGPT

Personnes:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisations:OpenAI, Y Combinator

2016Compétitions

AlphaGo bat Lee Sedol

Le moment historique où l'IA a battu pour la première fois un champion du monde dans le jeu de plateau le plus complexe. Du 9 au 15 mars 2016, le DeepMind Challenge Match a eu lieu à Séoul – cinq parties entre Lee Sedol, l'un des meilleurs joueurs de Go au monde, et AlphaGo. Le résultat a étonné le monde : 4:1 pour la machine. En particulier le fameux « Coup 37 » dans la deuxième partie a démontré la créativité de la machine – un coup avec une probabilité de 1:10 000 qui a renversé des siècles de sagesse du Go. AlphaGo combinait le deep learning avec la recherche arborescente Monte Carlo et s'est entraîné à la fois avec des parties humaines et par auto-apprentissage. La réponse de Lee Sedol dans la quatrième partie avec son « Coup divin 78 » a cependant montré que l'intuition humaine peut encore surprendre. Plus de 200 millions de personnes dans le monde ont suivi ces matchs.

AlphaGo a battu Lee Sedol 4:1 et a démontré la supériorité de l'IA dans le jeu de plateau le plus complexe pour la première fois
Le fameux « Coup 37 » avec une probabilité de 1:10 000 a montré la créativité de la machine et a défié les traditions du Go
La combinaison du deep learning et de la recherche arborescente Monte Carlo a permis de maîtriser la complexité du Go
Plus de 200 millions de personnes ont suivi les matchs – un tournant pour la perception publique de l'IA

Personnes:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisations:DeepMind, Google, Korean Baduk Association

2016Publications

XGBoost : Le gradient boosting extrême domine le ML

Le perfectionnement du gradient boosting et la conquête des problèmes de données structurées. Le 9 mars 2016, Tianqi Chen et Carlos Guestrin ont publié sur arXiv l'article XGBoost: A Scalable Tree Boosting System, présenté en août 2016 à la conférence KDD. Développé à partir du projet de doctorat de Chen à l'Université de Washington, XGBoost a significativement amélioré le gradient boosting traditionnel grâce à des optimisations extrêmes : la régularisation L1 et L2 prévenait le surapprentissage, les gradients de second ordre fournissaient une information directionnelle plus précise, et la parallélisation accélérait significativement la construction des arbres. XGBoost a dominé les compétitions de machine learning des années 2010 et est devenu le choix standard des équipes gagnantes sur Kaggle. Au Higgs Boson ML Challenge, Tianqi Chen a remporté un prix spécial et XGBoost a été adopté par de nombreux meilleurs participants, établissant sa dominance pour les données structurées. Le système de boosting d'arbres scalable de bout en bout supporte C++, Java, Python, R et d'autres langages.

Optimisation extrême du gradient boosting avec régularisation L1/L2 et gradients de second ordre
A dominé les compétitions ML des années 2010 et est devenu le choix standard des équipes gagnantes Kaggle
Construction d'arbres parallélisée et architecture scalable de bout en bout pour grands datasets
Algorithme de référence pour les données structurées en parallèle de la révolution du deep learning

Personnes:Tianqi Chen, Carlos Guestrin

Organisations:University of Washington, Amazon

2016Produits

Google Assistant : La stratégie AI-First devient réalité

Le 18 mai 2016, Sundar Pichai présenta Google Assistant à Google I/O - la réponse de Google à Siri et Alexa. Après des années de retard dans l'espace des assistants vocaux, Google rattrapait en force. L'Assistant était plus qu'une mise à niveau de Google Now - c'était la fondation de la stratégie 'AI-First' de Pichai. 'Nous voulons que les utilisateurs aient un dialogue continu avec Google', expliqua Pichai. 'Nous construisons pour chaque utilisateur son propre Google individuel.' L'Assistant devait devenir une 'expérience ambiante' s'étendant sur tous les appareils - des smartphones à Google Home en passant par les voitures. Contrairement aux concurrents basés sur les commandes, Google se concentra sur la conversation naturelle et la compréhension contextuelle. PC World loua l'Assistant comme 'une avancée par rapport à Cortana et Siri.' Le lancement marqua l'entrée sérieuse de Google dans le développement de l'IA vocale et posa les bases de la dominance IA actuelle de l'entreprise.

Conversation naturelle au lieu de commandes - 'dialogue continu' comme objectif pour l'IA vocale
Fondation de la stratégie AI-First de Pichai - 'Google individuel' pour chaque utilisateur
Vision d'expérience ambiante - interaction IA fluide sur tous les appareils et plateformes
Course de rattrapage de Google contre Siri et Alexa - de retardataire à leader du marché de l'IA vocale

Personnes:Sundar Pichai, Google Assistant Team

Organisations:Google Inc., Google I/O Conference

2016Organisations

Partnership on AI : Les géants de la tech s'unissent

Une alliance significative des principales entreprises technologiques pour un développement responsable de l'IA. Le 28 septembre 2016, Amazon, Facebook, Google, DeepMind, IBM et Microsoft ont fondé le 'Partnership on Artificial Intelligence to Benefit People and Society' – une coalition inhabituelle d'anciens concurrents. Avec Eric Horvitz (Microsoft Research) et Mustafa Suleyman (DeepMind) comme co-présidents intérimaires, le Partnership a établi un conseil de 10 membres avec des parts égales de membres corporatifs et non-corporatifs. La mission englobe la recherche et les meilleures pratiques pour l'éthique, l'équité, la transparence, la vie privée et la collaboration humain-IA. Notable : Apple était initialement absent mais a rejoint en 2017. Le Partnership évite délibérément les activités de lobbying et se concentre sur la coopération en recherche. Cette initiative a marqué le début de l'autorégulation industrielle structurée dans le développement de l'IA.

Alliance significative d'Amazon, Facebook, Google, DeepMind, IBM et Microsoft pour l'éthique de l'IA
Mission : L'IA au bénéfice des personnes et de la société à travers l'éthique, l'équité et la transparence
Conseil de 10 membres avec parts égales de membres corporatifs et non-corporatifs
Focus sur la coopération en recherche et les meilleures pratiques sans activités de lobbying

Personnes:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisations:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Percées

La reconnaissance vocale atteint le niveau humain

Le 18 octobre 2016, Microsoft a réalisé un succès historique : Leur système de reconnaissance vocale est devenu le premier à atteindre des performances de niveau humain en parole conversationnelle. Après 25 ans de recherche, l'objectif était atteint - 5,9% de taux d'erreur de mots, aussi bon que les transcripteurs professionnels. Xuedong Huang, Chief Speech Scientist de Microsoft, a annoncé : 'Nous avons atteint la parité humaine. C'est un accomplissement historique.' Le système utilisait les dernières technologies d'apprentissage profond : réseaux de neurones convolutifs, architectures LSTM, et modèles de langage neuraux avec vecteurs de mots continus. L'innovation résidait dans la combinaison systématique de différentes approches et une méthode innovante de lissage spatial. Cela a été rendu possible par la convergence de trois développements : grands jeux de données (Switchboard Corpus), calcul GPU, et méthodes d'entraînement améliorées. Cet accomplissement a ouvert la voie aux assistants vocaux modernes et prouvé que l'IA peut atteindre les capacités cognitives humaines.

5,9% de taux d'erreur de mots atteint le niveau humain : Aussi bon que les transcripteurs professionnels
Jalon historique : Plus bas taux d'erreur jamais mesuré sur le standard Switchboard
CNN + LSTM + modèles de langage neuraux : Combinaison systématique de technologie d'apprentissage profond de pointe
Objectif de recherche de 25 ans atteint : Preuve que l'IA peut atteindre les capacités cognitives humaines

Personnes:Xuedong Huang, Microsoft AI Research Team

Organisations:Microsoft AI and Research, Switchboard Corpus

2017Publications

MobileNet - L'IA pour smartphones

Google Research transforme significativement l'IA mobile en avril 2017 avec MobileNet, le premier modèle d'apprentissage profond spécifiquement conçu pour les smartphones, l'IoT et les systèmes embarqués. Grâce à l'architecture innovante de convolution séparable en profondeur, MobileNet réduit le coût computationnel et les paramètres à un huitième des convolutions conventionnelles tout en maintenant l'efficacité. Cette remarquable efficacité - neuf fois plus rapide pour les noyaux 3×3 - permet pour la première fois le traitement d'images en temps réel sur les appareils mobiles. MobileNet démocratise la vision par ordinateur pour des milliards de smartphones et établit l'edge computing comme un nouveau paradigme d'IA au-delà des solutions basées sur le cloud.

Premier modèle d'apprentissage profond spécifiquement développé pour smartphones et appareils IoT
Convolutions séparables en profondeur : neuf fois plus rapides avec la même efficacité
Permet le traitement IA directement sur les appareils au lieu du cloud - Edge Computing
Réduit les paramètres à un huitième avec de meilleures performances que GoogleNet

Personnes:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisations:Google, Google Research

2017Publications

Publication de l'article de recherche RLHF

La technique qui a rendu ChatGPT possible – des années avant la percée. En juin 2017, des chercheurs d'OpenAI et DeepMind ont publié l'article 'Deep Reinforcement Learning from Human Preferences'. L'idée : Au lieu d'entraîner les systèmes d'IA avec des fonctions de récompense parfaitement définies, ils apprennent directement à partir du retour humain. Les humains évaluent différentes sorties de l'IA, et le système apprend quel comportement est préféré. Cette méthode, plus tard connue sous le nom de RLHF (Reinforcement Learning from Human Feedback), est devenue la technologie clé derrière ChatGPT et d'autres modèles de langage modernes. Le RLHF a rendu possible de rendre les systèmes d'IA plus utiles, honnêtes et sûrs.

Article 'Deep Reinforcement Learning from Human Preferences' publié en juin 2017
Idée centrale : L'IA apprend des préférences humaines au lieu de récompenses prédéfinies
Recherche conjointe d'OpenAI et DeepMind, incluant Paul Christiano et Dario Amodei
Le RLHF est devenu la technologie clé pour ChatGPT et les assistants IA modernes

Personnes:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisations:OpenAI, DeepMind

2017Publications

Transformer : « L'Attention Est Tout Ce Dont Vous Avez Besoin »

Le 12 juin 2017, huit chercheurs de Google ont publié l'article « Attention Is All You Need » sur arXiv – le fondement des grands modèles de langage modernes. Ashish Vaswani, Noam Shazeer et leurs collègues ont proposé une nouvelle architecture : le Transformer. Contrairement aux modèles de séquences précédents, le Transformer se passe des couches récurrentes et convolutionnelles. À la place, il utilise des mécanismes d'attention purs. L'auto-attention capture les relations entre toutes les positions d'une séquence en parallèle – pas besoin de traitement séquentiel. L'attention multi-têtes utilise plusieurs têtes d'attention parallèles qui apprennent différents aspects des relations entre mots. Sur WMT 2014, le modèle a atteint 28,4 BLEU pour anglais-allemand et 41,8 BLEU pour anglais-français – de nouveaux records. L'architecture s'est avérée fondamentale : GPT, BERT, ChatGPT et de nombreux autres modèles sont basés sur des variantes du Transformer. Avec plus de 173 000 citations, l'article est parmi les plus cités du 21e siècle.

Le mécanisme d'auto-attention capture les dépendances entre toutes les positions de séquence simultanément
L'abandon de la récurrence permet le traitement parallèle – significativement plus rapide que les modèles séquentiels
28,4 BLEU WMT anglais-allemand, 41,8 BLEU anglais-français – nouveaux standards de traduction
Devenu le fondement de tous les LLM modernes : GPT, BERT, ChatGPT sont basés sur l'architecture Transformer

Personnes:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisations:Google Brain, Google Research

2017Réglementation

Plan Directeur IA de la Chine : La Bataille pour le Leadership Mondial

Le 20 juillet 2017, le Conseil d'État chinois a annoncé le « Plan de Développement de l'Intelligence Artificielle de Nouvelle Génération » – la première stratégie nationale complète de l'IA de cette ampleur. L'objectif : Devenir la puissance mondiale leader en IA d'ici 2030. Le plan en trois étapes était très clair : 2020 globalement compétitive, 2025 leader mondial, 2030 la superpuissance IA leader avec 1 billion de yuans de production industrielle. La Chine a explicitement reconnu l'IA comme « focus de la compétition internationale » et « technologie stratégique pour la sécurité nationale ». Les investissements sont substantiels – des dizaines de milliards de dollars affluent dans la recherche, l'infrastructure et le développement des talents. Le plan englobe les applications militaires et civiles : des armes autonomes aux villes intelligentes. Les principes open source devraient favoriser la coopération internationale tandis que la Chine poursuit simultanément l'indépendance technologique. Cette stratégie a significativement changé le paysage mondial de l'IA et a déclenché une vague d'initiatives nationales d'IA aux USA et en Europe.

Première stratégie nationale complète de l'IA : Planification gouvernementale coordonnée pour le leadership technologique mondial
Calendrier en trois étapes : 2020 compétitive, 2025 leader mondial, 2030 superpuissance IA leader
Investissement de mille milliards de yuans : Financement massif de l'État dans la recherche IA, l'infrastructure et les talents
Ambition de leadership mondial : Coup d'envoi de la course mondiale à l'IA entre la Chine, les USA et l'Europe

Personnes:State Council of China, Chinese AI Research Community

Organisations:State Council of China, Chinese Academy of Sciences

2017Réglementation

Déclaration de Montréal pour une IA responsable

La première initiative internationale pour des principes éthiques de l'IA à travers la participation démocratique des citoyens. Le 3 novembre 2017, l'Université de Montréal a lancé le processus de co-création de la Déclaration de Montréal pour un développement responsable de l'IA. Le Forum pour un développement socialement responsable de l'IA a réuni plus de 400 participants de divers secteurs et disciplines. En 15 ateliers de délibération sur trois mois, plus de 500 citoyens, experts et parties prenantes ont discuté des défis sociétaux de l'IA. La déclaration publiée en 2018 présente 10 principes et 59 recommandations basés sur des valeurs comme le bien-être, l'autonomie, la justice, la vie privée et la démocratie. Avec plus de 500 signataires, la Déclaration de Montréal a établi une approche participative de la gouvernance de l'IA et influencé les efforts internationaux ultérieurs pour le développement responsable de l'IA.

10 principes éthiques et 59 recommandations pour un développement responsable de l'IA avec légitimité démocratique
Focus sur le bien-être, l'autonomie, la justice, la vie privée, la démocratie et la durabilité écologique
Initiée par l'Université de Montréal avec plus de 400 participants de divers secteurs
Plus de 500 signataires, a influencé la gouvernance internationale de l'IA et les initiatives réglementaires ultérieures

Personnes:Yoshua Bengio, Montreal AI Ethics Team

Organisations:Université de Montréal, Montreal Institute for Learning Algorithms

2017Percées

AlphaZero maîtrise trois jeux

La naissance d'une IA de jeu universelle par pur auto-apprentissage. En décembre 2017, DeepMind a présenté AlphaZero – un système qui a maîtrisé trois jeux de stratégie complètement différents sans aucune connaissance préalable : les échecs, le shogi et le Go. L'approche tabula rasa signifiait : pas de bases de données d'ouvertures, pas de stratégies humaines, seulement les règles du jeu comme point de départ. En 24 heures, AlphaZero a atteint une performance surhumaine – aux échecs après seulement 4 heures, au shogi après 2 heures. Contre Stockfish, il a gagné 25 parties, perdu 0, et fait 72 nulles. L'unicité résidait dans un comportement de recherche efficace : alors que Stockfish évalue 60 millions de positions par seconde, AlphaZero n'en analyse que 60 000 – mais de manière beaucoup plus ciblée grâce à son réseau neuronal profond. Cette performance a démontré pour la première fois la supériorité de l'apprentissage par renforcement pur.

A appris trois jeux complexes complètement de zéro – seulement avec les règles du jeu, sans connaissances humaines préalables ou bases de données
A atteint une performance surhumaine aux échecs (4h), shogi (2h) et Go (13 jours) par pur auto-apprentissage
A appris à travers des millions de parties contre lui-même et l'apprentissage par renforcement sans entrées externes
A évalué seulement 60 000 positions par seconde contre 60 millions pour Stockfish – mais de manière beaucoup plus ciblée

Personnes:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisations:DeepMind, Google, Science Magazine, ArXiv

2018Réglementation

RGPD : Tournant de la vie privée avec impact sur l'IA

Le 25 mai 2018, le Règlement Général sur la Protection des Données (RGPD) de l'UE entra en vigueur - un tournant pour l'IA et la vie privée dans le monde entier. En tant que 'Mère de toutes les lois sur la protection des données', il remplaça la directive obsolète de 1995 de l'âge de pierre d'Internet. Le RGPD introduisit le 'Privacy by Design' comme obligation : la protection des données doit être intégrée dans les systèmes d'IA dès le départ. L'effet de portée mondiale fut considérable - même les géants technologiques américains doivent se conformer aux normes européennes lors du traitement des données européennes. Pour l'IA, cela signifia un défi fondamental : Comment expliquer des algorithmes 'boîte noire' quand le RGPD exige la transparence ? Les brevets IA passèrent d'une approche gourmande en données à économe en données. L'apprentissage par transfert explosa de 185% entre 2018-2021. Le RGPD inspira des lois sur la vie privée dans le monde entier, de la Californie à Singapour. Le règlement ouvrit la voie au AI Act de l'UE 2024 - de la protection des données à la réglementation de l'IA n'était qu'une étape logique.

Obligation Privacy by Design : La protection des données doit être intégrée dans les systèmes d'IA dès le début
Défi de transparence IA : Algorithmes boîte noire vs. exigences d'explicabilité du RGPD
Effet de portée mondiale : Même les entreprises tech américaines doivent suivre les normes UE pour les données européennes
Modèle réglementaire : A inspiré des lois sur la vie privée dans le monde et ouvert la voie au AI Act de l'UE

Personnes:EU Parliament, European Commission

Organisations:European Union, European Parliament

2018Publications

GPT-1 : Naissance du Pré-entraînement Génératif

La fondation de tous les Grands Modèles de Langage modernes grâce au pré-entraînement non supervisé. Le 11 juin 2018, Alec Radford avec son équipe OpenAI publia l'article révolutionnaire 'Improving Language Understanding by Generative Pre-Training'. Ce travail combina pour la première fois l'architecture transformer avec le pré-entraînement non supervisé et établit le paradigme en deux étapes : d'abord l'entraînement génératif sur de grands corpus de texte, puis l'ajustement fin pour des tâches spécifiques. Avec 117 millions de paramètres et un entraînement sur le dataset BooksCorpus avec plus de 7 000 romans non publiés, GPT-1 prouva que l'apprentissage par transfert fonctionne pour la compréhension du langage. L'architecture transformer décodeur seul à douze couches avec auto-attention masquée établit le modèle pour toute la série GPT. Cette innovation transforma l'architecture transformer de 2017 en un outil pratique pour diverses tâches NLP et fonda l'ère des Grands Modèles de Langage.

A établi le pré-entraînement non supervisé sur de grands corpus de texte comme fondation des modèles de langage
A prouvé l'application réussie de l'apprentissage par transfert pour diverses tâches NLP
L'architecture transformer décodeur seul à douze couches devint le modèle pour toute la série GPT
A fondé l'ère des Grands Modèles de Langage et le paradigme pré-entraînement-ajustement fin

Personnes:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisations:OpenAI

2018Publications

BERT améliore significativement la compréhension du langage

Une avancée importante dans les modèles de langage bidirectionnels et la naissance du NLP moderne. En octobre 2018, Jacob Devlin et son équipe chez Google Research ont publié l'article sur BERT – Bidirectional Encoder Representations from Transformers. Cette innovation a significativement changé le traitement du langage en entraînant des représentations bidirectionnelles profondes à partir de textes non étiquetés pour la première fois. Contrairement aux modèles précédents, BERT considère simultanément le contexte gauche et droit dans toutes les couches. Le résultat était notable : BERT a atteint de nouveaux meilleurs résultats dans onze tâches NLP et a amélioré le score GLUE de 7,7 points de pourcentage remarquables à 80,5%. La publication open source a démocratisé la technologie de pointe et a permis à quiconque d'entraîner ses propres puissants modèles de langage en 30 minutes. BERT a établi le paradigme pré-entraînement-fine-tuning qui forme la base de tous les grands modèles de langage aujourd'hui.

Premier modèle de langage bidirectionnel profond qui considère simultanément le contexte gauche et droit dans toutes les couches
A atteint de nouveaux meilleurs résultats dans 11 tâches NLP et a amélioré le score GLUE de 7,7 points de pourcentage à 80,5%
La publication open source a permis à quiconque d'entraîner ses propres modèles de langage en 30 minutes
A établi le paradigme pré-entraînement-fine-tuning pour tous les modèles de langage modernes

Personnes:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisations:Google Research, Google AI Language

2019Publications

GPT-2 - "Trop Dangereux pour être Publié"

OpenAI publie GPT-2 en février 2019 mais prend la décision surprenante de retenir le modèle complet de 1,5 milliard de paramètres - affirmant qu'il est 'trop dangereux' pour une publication complète. Cette décision sans précédent divise la communauté IA : les partisans louent la position responsable étant donné les risques d'abus comme les fausses nouvelles et le spam automatisé. Les critiques accusent OpenAI de 'fermer' la recherche et d'alimenter des peurs infondées. Après neuf mois sans preuve solide d'abus, OpenAI publie le modèle complet, marquant un tournant dans le débat sur le développement responsable de l'IA.

Décision sans précédent : OpenAI retient le modèle complet de 1,5B paramètres
Craintes de fausses nouvelles, usurpation d'identité et spam automatisé sur les réseaux sociaux
Communauté IA divisée : progrès éthique vs. accusation de fermeture de la recherche
Publication complète après 9 mois faute de preuves d'abus

Personnes:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisations:OpenAI

2019Compétitions

AlphaStar atteint le niveau Grand Maître

La conquête de la stratégie en temps réel la plus complexe par l'intelligence artificielle. En août 2019, AlphaStar de DeepMind est devenu la première IA à atteindre le niveau Grand Maître dans StarCraft II – un jeu considéré comme trop complexe pour les machines. Le système s'est classé au-dessus de 99,8% de tous les joueurs actifs de Battle.net et a maîtrisé les trois races : Protoss, Terran et Zerg. Précédemment, AlphaStar avait déjà battu les joueurs professionnels Grzegorz « MaNa » Komincz et Dario « TLO » Wunsch 5:0 chacun. L'unicité résidait dans l'architecture d'apprentissage par renforcement multi-agents qui entraînait différentes stratégies et contre-stratégies dans une ligue. Avec une moyenne de 280 actions par minute, AlphaStar était même en dessous des professionnels humains mais a prouvé une exécution plus précise. Cette réussite a marqué une étape pour l'IA dans les jeux vidéo et la prise de décision en temps réel.

AlphaStar a atteint le niveau Grand Maître dans les trois races de StarCraft II et s'est classé au-dessus de 99,8% de tous les joueurs Battle.net
A battu les joueurs professionnels MaNa et TLO 5:0 chacun avant la réussite publique
Apprentissage par renforcement multi-agents avec entraînement en ligue de diverses stratégies et contre-stratégies
Première IA à maîtriser un jeu esport populaire sans restrictions au plus haut niveau

Personnes:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisations:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publications

T5 - Text-to-Text Transfer Transformer

Google AI a significativement transformé le NLP en octobre 2019 avec T5, le Text-to-Text Transfer Transformer, qui transforme toutes les tâches de traitement du langage naturel en un format unifié « texte-vers-texte ». Avec l'approche innovante « Tout est Texte », la traduction, le résumé, les questions-réponses et la classification peuvent être traités avec le même modèle, la même fonction de perte et les mêmes hyperparamètres. T5 introduit le dataset complet C4 et atteint des performances proches de l'humain sur les benchmarks SuperGLUE. En tant que modèle de fondation avec jusqu'à 11 milliards de paramètres, T5 ouvre la voie aux grands modèles de langage modernes et établit le paradigme unifié texte-vers-texte comme standard.

Approche unifiée innovante : Toutes les tâches NLP comme problèmes texte-vers-texte
« Tout est Texte » - le paradigme unifie traduction, résumé, Q&R
Établit le paradigme des modèles de fondation pour les grands modèles de langage modernes
Introduit le dataset complet C4 - Colossal Clean Crawled Corpus

Personnes:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisations:Google AI, Google Research

2020Publications

Lois de mise à l'échelle neuronale

Jared Kaplan et l'équipe OpenAI découvrent les lois mathématiques fondamentales de la mise à l'échelle neuronale en janvier 2020, transformant significativement le développement des grands modèles de langage. La recherche pionnière montre que la performance suit des lois de puissance avec la taille du modèle, l'échelle du jeu de données et la puissance de calcul - avec des tendances couvrant sept ordres de grandeur. Les équations élégantes permettent pour la première fois des prédictions systématiques de l'allocation optimale des ressources et établissent le paradigme "Plus grand est mieux". Ces fondations mathématiques guident directement le succès de GPT-3 et transforment le développement de l'IA d'un processus expérimental d'essais-erreurs vers une mise à l'échelle scientifiquement fondée et prévisible.

Découverte de lois de puissance fondamentales couvrant sept ordres de grandeur
Des équations élégantes permettent la prédiction de l'allocation optimale des ressources
Établit le paradigme "Plus grand est mieux" pour le développement systématique des LLM
Transforme le développement de l'IA des essais-erreurs vers une méthodologie scientifique

Personnes:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisations:OpenAI

2020Publications

GPT-3 : Le modèle à 175 milliards de paramètres

La percée vers l'apprentissage few-shot et les capacités IA émergentes. Le 28 mai 2020, l'équipe d'OpenAI dirigée par Tom Brown présenta l'article significatif 'Language Models are Few-Shot Learners' - GPT-3 avec 175 milliards de paramètres, plus de 100 fois plus grand que GPT-2. La mise à l'échelle révéla des capacités émergentes : le modèle pouvait résoudre de nouvelles tâches avec seulement quelques exemples, sans ajustement fin. Des traductions aux jeux de mots en passant par l'arithmétique à 3 chiffres, GPT-3 démontra une polyvalence impressionnante. Les évaluateurs humains pouvaient à peine distinguer les articles de presse générés par GPT-3 des vrais. Le système atteignit des résultats proches de l'état de l'art sur les benchmarks SuperGLUE grâce à l'apprentissage en contexte seul. 31 chercheurs d'OpenAI (Tom Brown et 30 co-auteurs) prouvèrent : la mise à l'échelle massive des paramètres peut produire des capacités qualitativement nouvelles. GPT-3 posa les bases de ChatGPT et de l'ère moderne des LLM.

175 milliards de paramètres - plus de 100 fois plus grand que GPT-2 avec des effets de mise à l'échelle significatifs
Capacités few-shot émergentes sans ajustement fin : nouvelles tâches résolubles avec quelques exemples
A montré des capacités émergentes : traduction, arithmétique, génération de texte au niveau humain
A posé les bases de ChatGPT et commercialisé les Grands Modèles de Langage via accès API

Personnes:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisations:OpenAI

2020Publications

DDPM : Modèles de diffusion établis

La fondation mathématique de la génération d'images moderne par des processus de débruitage. En juin 2020, Jonathan Ho, Ajay Jain et Pieter Abbeel ont publié l'article influent « Denoising Diffusion Probabilistic Models » – une classe de modèles à variables latentes inspirés de la thermodynamique hors équilibre. Leur innovation résidait dans une borne variationnelle pondérée et la connexion entre les modèles de diffusion et le score matching de débruitage avec la dynamique de Langevin. Les résultats étaient impressionnants : score FID de 3,17 sur CIFAR-10 et score Inception de 9,46. Les DDPM ont établi une approche de décompression progressive avec perte qui peut être interprétée comme une généralisation du décodage autorégressif. Ce travail a posé les fondations mathématiques de Stable Diffusion et de toute la génération texte-vers-image moderne.

Nouvelle classe de modèles génératifs basés sur la thermodynamique hors équilibre et les processus de débruitage
Approche de décompression progressive avec perte comme généralisation du décodage autorégressif
A posé les fondations mathématiques de Stable Diffusion et de la génération texte-vers-image moderne
Score FID 3,17 sur CIFAR-10 a démontré une qualité d'image rivalisant avec les GAN et établi la diffusion comme standard

Personnes:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisations:UC Berkeley, Google Brain

2020Publications

Vision Transformer : « Une image vaut 16x16 mots »

La conquête de la vision par ordinateur par l'architecture transformer. Le 22 octobre 2020, l'équipe d'Alexey Dosovitskiy chez Google Research a révolutionné le traitement d'images avec l'article « An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ». Le Vision Transformer (ViT) a prouvé que les CNN ne sont pas nécessaires – des transformers purs peuvent être appliqués directement à des séquences de patches d'images et surpasser les CNN de pointe. Le système décompose les images en patches de 16x16 pixels, les traite comme des séquences de tokens et applique l'architecture transformer standard. Sur les benchmarks ImageNet, CIFAR-100 et VTAB, ViT a obtenu d'excellents résultats avec significativement moins d'effort d'entraînement. L'universalité de l'architecture transformer a été prouvée : la même technologie qui a transformé le NLP a aussi conquis la vision par ordinateur. ViT a inspiré une nouvelle génération de modèles de vision basés sur l'attention et a démontré la puissance des architectures unifiées.

Première application réussie de l'architecture transformer pure à la vision par ordinateur sans composants CNN
Patches de 16x16 pixels traités comme séquences de tokens, transformation image-vers-séquence
L'auto-attention pour le traitement d'images a prouvé l'universalité de l'architecture transformer
A surpassé les CNN de pointe avec moins d'effort d'entraînement et inspiré les modèles de vision basés sur l'attention

Personnes:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisations:Google Research, Google Brain

2020Percées

Accomplissement d'AlphaFold

La solution à un puzzle biologique vieux de 50 ans grâce à l'intelligence artificielle. En novembre 2020, AlphaFold 2 de DeepMind a dominé la compétition CASP14 avec une précision que les scientifiques ont décrite comme « stupéfiante » et « transformationnelle ». Le système a atteint un score GDT de 92,4 sur 100 points dans la prédiction de structure protéique – une précision qui égale les méthodes expérimentales comme la cristallographie aux rayons X. AlphaFold a clairement battu 145 autres équipes et a résolu un problème qui avait occupé la biologie depuis les années 1970. L'architecture de réseau neuronal basée sur l'attention peut prédire comment les protéines se replient en quelques jours – un processus fondamental pour comprendre la vie. Pour cette réussite, Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024.

AlphaFold 2 a dominé CASP14 avec un score GDT de 92,4, battant clairement 145 autres équipes
A résolu le problème du repliement des protéines vieux de 50 ans et a fondamentalement changé la biologie structurale
L'architecture basée sur l'attention a atteint une précision expérimentale dans la prédiction de structure protéique
Demis Hassabis et John Jumper ont reçu le Prix Nobel de Chimie 2024 pour cette réussite

Personnes:Demis Hassabis, John Jumper

Organisations:DeepMind, Google, CASP, University of Washington

2021Produits

DALL-E crée des images à partir de texte

La naissance de la génération texte-vers-image et une avancée importante dans la créativité de l'IA. Le 5 janvier 2021, OpenAI a dévoilé DALL-E – un système qui crée des images cohérentes et souvent étonnamment créatives à partir de descriptions textuelles. Basé sur une version de 12 milliards de paramètres de GPT-3, DALL-E a prouvé que la frontière entre compréhension du langage et de l'image pouvait être franchie. Le système s'est entraîné avec 250 millions de paires image-texte d'Internet et a développé des capacités remarquables : il peut anthropomorphiser des animaux, combiner de manière plausible des concepts sans rapport et même rendre du texte dans les images. Mark Riedl de Georgia Tech a commenté que les résultats étaient « remarquablement plus cohérents » que tous les systèmes texte-vers-image précédents. DALL-E a réussi à étendre la compréhension linguistique de GPT au domaine visuel et a ouvert une dimension entièrement nouvelle de créativité IA.

Premier système capable de générer des images cohérentes et créatives à partir de descriptions en langage naturel
Capacités créatives étonnantes : anthropomorphisation, combinaison de concepts, rendu de texte
Version de 12 milliards de paramètres de GPT-3, entraînée avec 250 millions de paires image-texte d'Internet
A ouvert une nouvelle dimension de créativité IA et inspiré le mouvement de l'IA générative

Personnes:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisations:OpenAI, DALL-E Team

2021Jalons

Anthropic est fondée

Quand d'anciens dirigeants d'OpenAI se sont mis à réaliser leur propre vision d'une IA sûre. En janvier 2021, Dario et Daniela Amodei, ainsi que d'autres anciens chercheurs d'OpenAI, ont fondé Anthropic. Les frère et sœur avaient précédemment occupé des postes clés chez OpenAI – Dario en tant que VP de la Recherche. Leur nouvelle entreprise se concentrerait sur la sécurité de l'IA et le développement de systèmes fiables et interprétables. Avec Constitutional AI, Anthropic a développé une approche innovante pour entraîner les systèmes d'IA à travers des principes plutôt que seulement des retours humains. Claude, leur assistant IA, est devenu l'un des principaux concurrents de ChatGPT.

Fondée en janvier 2021 à San Francisco
Dario Amodei (PDG, ex-VP Recherche chez OpenAI) et Daniela Amodei (Présidente)
Focus sur la sécurité de l'IA, l'interprétabilité et Constitutional AI
A développé Claude, l'un des principaux assistants IA

Personnes:Dario Amodei, Daniela Amodei

Organisations:Anthropic, OpenAI

2021Produits

GitHub Copilot : Le programmeur pair IA

La démocratisation du développement logiciel assisté par IA pour des millions de développeurs. Le 29 juin 2021, GitHub annonça la preview technique de Copilot - le premier programmeur pair IA, propulsé par OpenAI Codex. Basé sur une variante GPT-3 entraînée avec des milliards de lignes de code public des dépôts GitHub, Copilot pouvait générer des complétions de code et des fonctions entières à partir de commentaires. Le modèle Codex sous-jacent atteignit un taux de réussite de 28,8% au premier essai dans le benchmark HumanEval - significativement meilleur que les 0% de GPT-3. Particulièrement impressionnant : Avec 100 tentatives d'échantillonnage, le taux de réussite augmenta à 70,2%. Copilot fonctionnait particulièrement bien avec Python, JavaScript, TypeScript, Ruby et Go. La preview technique limitée généra un intérêt énorme et établit la programmation assistée par IA comme un outil viable. Copilot changea fondamentalement l'expérience développeur et ouvrit la voie à une nouvelle génération d'outils de codage propulsés par l'IA.

Preview technique le 29 juin 2021 avec accès limité via liste d'attente pour développeurs sélectionnés
Propulsé par OpenAI Codex, entraîné avec des milliards de lignes de code des dépôts GitHub publics
Taux de réussite de 28,8% au premier essai (HumanEval), 70,2% avec 100 tentatives d'échantillonnage
A établi la programmation assistée par IA comme outil viable et inspiré de nouveaux outils de codage

Personnes:Nat Friedman, GitHub Team, OpenAI Team

Organisations:GitHub, OpenAI, Microsoft

2021Produits

OpenAI Codex : L'IA programme pour les humains

Le 10 août 2021, OpenAI a significativement changé le développement logiciel avec Codex - une IA à grande échelle pour la génération de code. Basé sur GPT-3 mais entraîné sur 159 gigaoctets de code Python provenant de 54 millions de dépôts GitHub, Codex transformait le langage naturel en code fonctionnel. 'Créer une fonction pour les nombres premiers' devenait du vrai code Python en quelques secondes. Le partenariat avec GitHub a donné naissance à Copilot - un programmeur IA en binôme. Codex maîtrisait plus d'une douzaine de langages de programmation : Python, JavaScript, Go, Ruby, Swift et plus. Le système pouvait résoudre 37% de toutes les requêtes - pas parfait, mais remarquable. GitHub Copilot s'est avéré être un gain de productivité significatif pour les développeurs. Codex a démontré : l'IA peut soutenir le travail cognitif créatif et complexe. De la génération de code à la compréhension du code, Codex a ouvert la porte au développement logiciel assisté par l'IA.

Du langage naturel au code : 'Écris une fonction de tri' devient du Python/JavaScript fonctionnel
Lancement de GitHub Copilot : Premier programmeur IA en binôme entraîné sur 54 millions de dépôts de code
12+ langages de programmation : De Python à Swift - l'IA comprend l'intention du développeur en langage naturel
Gain de productivité significatif : Codex a prouvé le potentiel de l'IA pour le travail cognitif créatif

Personnes:OpenAI Team, GitHub Development Team

Organisations:OpenAI, GitHub, Microsoft

2022Produits

Stable Diffusion : Génération d'images open-source

La démocratisation de la génération d'images par IA grâce au premier modèle open-source puissant. Le 22 août 2022, Stability AI a publié Stable Diffusion et a significativement transformé l'accès à la technologie avancée de texte-vers-image. En tant que premier modèle open-source de sa catégorie, Stable Diffusion pouvait générer des images photoréalistes de 512x512 pixels sur des GPU grand public – une avancée importante en termes de vitesse et d'accessibilité. Basé sur les Modèles de Diffusion Latente (LDM), le système itère par « débruitage » dans des espaces latents au lieu de la manipulation directe de pixels. Avec 860 millions de paramètres dans le U-Net et 123 millions dans l'encodeur de texte, il restait relativement léger malgré de hautes performances. Le code source disponible sur GitHub a permis à une communauté en croissance explosive de développer d'innombrables variantes et outils. Stable Diffusion a brisé le monopole des systèmes propriétaires et a rendu la génération d'images IA de haute qualité accessible à tous.

Premier modèle texte-vers-image open-source puissant avec code source disponible sur GitHub
Modèles de diffusion latente avec débruitage itératif dans les espaces latents au lieu de manipulation directe de pixels
Croissance explosive de la communauté avec d'innombrables variantes, outils et applications
A brisé le monopole des systèmes propriétaires et démocratisé la génération d'images IA de haute qualité

Personnes:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisations:Stability AI, CompVis, Runway

2022Percées

OpenAI publie Whisper

Quand la reconnaissance vocale est enfin devenue fiable – et accessible à tous. Le 21 septembre 2022, OpenAI a publié Whisper, un système de reconnaissance vocale entraîné pour fonctionner de manière robuste dans différentes langues, accents et bruits de fond. Contrairement aux systèmes précédents entraînés sur des données audio propres, Whisper a utilisé 680 000 heures de données multilingues provenant d'internet. Le résultat : un système capable de transcrire dans 99 langues tout en rivalisant avec les solutions commerciales. OpenAI a rendu Whisper disponible en open source – un cadeau aux développeurs du monde entier qui a permis d'innombrables applications.

Publié le 21 septembre 2022 en open source
Supporte 99 langues avec haute précision même avec accents et bruit de fond
Entraîné sur 680 000 heures de données audio multilingues d'internet
A démocratisé la reconnaissance vocale de haute qualité grâce à sa disponibilité open source

Personnes:Alec Radford, Jong Wook Kim, Tao Xu

Organisations:OpenAI

2022Produits

ChatGPT marque un tournant dans l'utilisation de l'IA

Le moment où l'IA est devenue accessible à tous et où une nouvelle ère a commencé. Le 30 novembre 2022, OpenAI a publié ChatGPT en tant qu'aperçu de recherche gratuit – sans grand marketing, avec peu d'attentes. Ce qui a suivi a dépassé toutes les prédictions : Après 5 jours, ChatGPT a atteint un million d'utilisateurs, après deux mois 100 millions – plus rapidement que toute autre application grand public de l'histoire. Basé sur GPT-3.5, ChatGPT a offert à un large public un accès direct à une IA puissante pour la première fois sans barrières techniques. Kevin Roose du New York Times l'a appelé le « meilleur chatbot IA jamais mis à la disposition du public ». ChatGPT a démocratisé l'intelligence artificielle et a transformé un domaine de recherche en un outil quotidien. Cette sortie a marqué le début de la vague actuelle d'IA générative.

Rendu accessible au grand public le 30 novembre 2022 en tant qu'aperçu de recherche gratuit
A atteint 1 million d'utilisateurs en 5 jours, 100 millions en 2 mois – application grand public la plus rapide de tous les temps
Première IA puissante sans barrières techniques – accès web direct pour chaque internaute
A démocratisé l'IA et a déclenché la vague actuelle d'IA générative dans la société et les entreprises

Personnes:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisations:OpenAI, Microsoft, ChatGPT

2022Publications

IA Constitutionnelle - Sécurité de l'IA par Constitution

Anthropic développe l'IA Constitutionnelle (CAI) en décembre 2022, une nouvelle méthode pour développer des systèmes d'IA inoffensifs, utiles et honnêtes. Grâce à une « constitution » de principes éthiques - dérivés de la Déclaration Universelle des Droits de l'Homme et d'autres documents fondamentaux - l'IA peut s'améliorer sans nécessiter d'étiquettes humaines pour le contenu nuisible. Le processus innovant RLAIF (Reinforcement Learning from AI Feedback) remplace les évaluations humaines par l'autocritique de l'IA et établit une approche Safety-First comme alternative à l'approche pure performance de ChatGPT. L'IA Constitutionnelle ouvre la voie à un développement responsable de l'IA.

L'IA s'améliore grâce aux principes constitutionnels sans étiquettes humaines de nuisance
Alternative Safety-First aux approches de pure performance comme ChatGPT
Triple objectif : utile, honnête et inoffensif grâce aux principes éthiques
RLAIF : Reinforcement Learning from AI Feedback au lieu des évaluations humaines

Personnes:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisations:Anthropic

2023Réglementation

Cadre IA du NIST : Les USA définissent l'IA de confiance

Le 26 janvier 2023, le National Institute of Standards and Technology américain a publié le premier cadre complet de gestion des risques IA (AI RMF 1.0) – la réponse américaine à la régulation mondiale de l'IA. Après 18 mois de développement avec plus de 240 organisations de l'industrie, du monde académique et de la société civile, le NIST a défini pour la première fois des standards fédéraux pour une IA de confiance. Le cadre établit quatre fonctions fondamentales : Gouverner, Cartographier, Mesurer, Gérer – et sept caractéristiques d'une IA de confiance : sûre, résiliente, explicable, respectueuse de la vie privée, équitable, transparente et fiable. En tant que standard volontaire, il vise à minimiser les risques de l'IA pour les individus, les organisations et la société. La publication a suivi la Déclaration des Droits IA de Biden (2022) et a été complétée par son décret exécutif sur l'IA (octobre 2023). Le NIST a utilisé son autorité constitutionnelle pour les « Poids et Mesures » pour établir des standards IA. Le cadre est devenu la base des standards industriels et de la coordination internationale.

Quatre fonctions fondamentales : Gouverner, Cartographier, Mesurer, Gérer pour une gestion systématique des risques IA
Sept caractéristiques de confiance définies : Sûre, explicable, équitable, transparente, fiable
Approche volontaire multipartite : plus de 240 organisations ont développé les standards ensemble
Autorité de standards constitutionnelle : le NIST comme institution fédérale pour les poids et mesures de l'IA

Personnes:NIST AI Team, 240+ Contributing Organizations

Organisations:NIST, US Department of Commerce, Biden Administration

2023Produits

LLaMA : Modèle fondation open-source

La démocratisation des Grands Modèles de Langage grâce à des modèles de recherche ouverts. Le 24 février 2023, Meta AI publia LLaMA (Large Language Model Meta AI) - une collection de modèles fondation de 7B à 65B paramètres, entraînés exclusivement avec des données publiquement disponibles. L'article fondateur 'LLaMA: Open and Efficient Foundation Language Models' prouva que des performances à l'état de l'art sont atteignables sans datasets propriétaires. LLaMA permit aux chercheurs sans accès à de grandes infrastructures d'étudier les modèles de langage avancés. Le code d'inférence fut publié sous licence GPLv3, tandis que l'accès aux modèles était accordé au cas par cas pour la recherche académique. Avec l'entraînement sur des trillions de tokens et diverses tailles de modèle, LLaMA répondit à différents besoins matériels. Ce travail catalysa une vague de recherche LLM ouverte et inspira de nombreux modèles dérivés dans la communauté open-source.

Code d'inférence sous licence GPLv3, accès aux modèles pour la recherche académique sans restrictions commerciales
Modèles de 7B à 65B paramètres entraînés exclusivement avec des datasets publiquement disponibles
A permis aux chercheurs sans grande infrastructure d'étudier les modèles de langage avancés
Diverses tailles de modèle pour différents besoins matériels et objectifs de recherche

Personnes:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisations:Meta AI, FAIR

2023Produits

Claude et Constitutional AI

L'introduction d'une IA avec un système de valeurs intégré et des principes éthiques. En mars 2023, Anthropic a présenté Claude - un assistant IA basé sur Constitutional AI qui a établi une approche novatrice de la sécurité de l'IA. Contrairement aux systèmes conventionnels, Claude apprend à travers une méthode en deux phases : d'abord le modèle critique et améliore ses propres réponses basées sur une constitution de principes éthiques, puis il est affiné par des retours générés par l'IA - sans évaluations humaines pour la prévention des dommages. Le résultat est un système qui agit de manière à la fois utile et inoffensive. Anthropic a publié Claude et Claude Instant simultanément, le dernier étant une variante plus rapide et plus rentable. Cette méthode Constitutional AI s'est avérée être une amélioration de Pareto par rapport aux retours humains et a ouvert de nouvelles voies pour une supervision évolutive de l'IA.

Framework Constitutional AI avec entraînement en deux phases : autocritique basée sur des principes éthiques, puis affinement basé sur les retours de l'IA
Approche de sécurité novatrice sans évaluations humaines des dommages - purement par supervision de l'IA
Publication simultanée de Claude et Claude Instant pour différentes exigences d'application
A établi « utile, inoffensif, honnête » comme valeurs fondamentales pour le développement responsable de l'IA

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisations:Anthropic, Constitutional AI, AI Safety

2023Produits

GPT-4 : Modèle IA multimodal

La percée vers la performance humaine dans les benchmarks professionnels et académiques. Le 14 mars 2023, OpenAI dévoila GPT-4 - un Grand Modèle Multimodal qui traite les entrées texte et image et atteint le niveau humain dans diverses disciplines. Les améliorations furent substantielles : alors que GPT-3.5 réussit l'examen du Barreau dans les 10% inférieurs, GPT-4 atteignit les 10% supérieurs. Aux tests SAT, la performance passa du 82e au 94e percentile. Après six mois d'alignement itératif avec les insights du programme de test adversarial et les retours de ChatGPT, toute la pile de deep learning fut reconstruite. Les capacités multimodales permettent le traitement de documents, diagrammes et captures d'écran avec la même qualité que les entrées texte pures. GPT-4 établit de nouvelles normes pour la sécurité et la performance de l'IA.

Grand Modèle Multimodal avec entrées texte et image, capacités de vision pour documents et diagrammes
Examen du Barreau top 10% vs. GPT-3.5 bottom 10%, amélioration SAT du 82e au 94e percentile
6 mois d'alignement itératif avec tests adversariaux et retours ChatGPT pour une sécurité améliorée
L'intégration dans ChatGPT Plus a rendu l'IA multimodale avancée accessible aux consommateurs

Personnes:Sam Altman, OpenAI Team

Organisations:OpenAI, Microsoft

2023Produits

Midjourney V5 : Art IA photoréaliste

La génération d'images IA photoréalistes atteint un nouveau niveau de qualité et transforme significativement l'industrie créative. Le 15 mars 2023, Midjourney publia la Version 5 et atteignit un bond qualitatif que les utilisateurs décrivirent comme 'effrayant' et 'trop parfait'. La version alpha pouvait pour la première fois générer des images photoréalistes à peine distinguables de vraies photographies. Particulièrement notable : le problème chronique des mains défectueuses fut significativement amélioré - V5 pouvait correctement afficher cinq doigts dans la plupart des cas. Julie Wieland, graphiste, compara l'expérience à 'enfin recevoir des lunettes après avoir ignoré une mauvaise vue trop longtemps' - voir soudainement tout en qualité 4K [Source: Ars Technica, mars 2023]. La sensibilité améliorée aux prompts permit un contrôle créatif plus précis, tandis que l'upscaling automatique offrait une résolution maximale sans coûts GPU supplémentaires. V5 déclencha des débats intenses sur l'avenir de la créativité humaine.

Qualité d'image photoréaliste à peine distinguable de vraies photographies
A déclenché des réactions intenses dans la communauté créative - de l'enthousiasme aux préoccupations existentielles
A significativement amélioré l'art IA grâce à une représentation précise des mains et une sensibilité aux prompts améliorée
A établi de nouvelles normes pour la génération d'images IA commerciale avec un impact significatif sur l'industrie créative

Personnes:David Holz, Midjourney Team

Organisations:Midjourney Inc

2023Réglementation

Décret Biden sur l'IA – Première Réglementation Complète Américaine

Le Président Biden signe le Décret Exécutif 14110 sur le « Développement et l'Utilisation Sûrs, Sécurisés et Dignes de Confiance de l'Intelligence Artificielle » le 30 octobre 2023 – la première réglementation complète de l'IA aux USA et avec 110 pages, le plus long décret exécutif de l'histoire. Le décret de grande portée exige que les développeurs de systèmes IA puissants divulguent les résultats des tests de sécurité et établit des standards stricts de red-team à travers le NIST. Il protège contre la fraude basée sur l'IA à travers l'authentification de contenu et le tatouage numérique, aborde les risques dans les infrastructures critiques et les menaces biologiques. Ce document historique établit des standards mondiaux pour le développement responsable de l'IA et positionne les USA comme leader mondial dans la gouvernance de l'IA.

Gouvernance de l'IA la plus complète jamais vue – 110 pages, plus long décret exécutif de l'histoire
Tests de sécurité obligatoires et résultats de red-team pour les systèmes IA puissants
Defense Production Act : Exigences de reporting pour les systèmes IA présentant des risques de sécurité nationale
Établit les USA comme leader mondial dans la gouvernance responsable de l'IA et les standards

Personnes:Joe Biden, Kamala Harris

Organisations:White House, NIST, Department of Homeland Security

2023Produits

Google Gemini : Famille d'IA multimodale

La réponse de Google à ChatGPT et la percée vers la multimodalité native. Le 6 décembre 2023, Google annonça Gemini 1.0 - une famille d'IA développée dès le départ pour la multimodalité. La collaboration entre DeepMind et Google Brain aboutit à trois tailles de modèle : Gemini Ultra pour les tâches hautement complexes, Gemini Pro comme solution équilibrée, et Gemini Nano pour les applications sur appareil. Contrairement aux systèmes étendus rétroactivement, Gemini fut conçu nativement avec la compréhension du langage, de l'audio, du code et de la vidéo. Dans six des huit benchmarks, Gemini Pro surpassa le standard GPT-3.5, incluant les tests MMLU. L'intégration dans Bard Advanced donna aux utilisateurs accès aux capacités IA les plus avancées de Google pour la première fois. Gemini marqua la réponse stratégique de Google à la dominance d'OpenAI et établit l'IA multimodale comme le nouveau standard pour les Grands Modèles de Langage.

Développé dès le départ pour la multimodalité : compréhension du langage, audio, code et vidéo nativement intégrée
A surpassé GPT-3.5 dans 6 des 8 benchmarks standards et établi Google comme alternative sérieuse à ChatGPT
Trois tailles de modèle : Ultra (complexe), Pro (équilibré), Nano (sur appareil) pour différentes applications
L'intégration dans Bard Advanced offrit aux utilisateurs l'accès aux capacités IA les plus avancées de Google

Personnes:Sundar Pichai, Demis Hassabis, Gemini Team

Organisations:Google, DeepMind, Google AI

2024Produits

Sora : Vidéos générées par IA à partir de texte

L'avancée vers les vidéos photoréalistes générées par IA et l'impact sur l'industrie du film. Le 15 février 2024, OpenAI a dévoilé Sora – un modèle texte-vers-vidéo qui génère des vidéos HD détaillées jusqu'à une minute à partir de courtes descriptions. Nommé d'après le mot japonais pour 'ciel', Sora symbolise un 'potentiel créatif illimité'. En tant que transformeur de diffusion, Sora adapte la technologie DALL-E 3 pour la cohérence temporelle et comprend non seulement les requêtes de prompt mais aussi les lois du monde physique. Les vidéos de démonstration ont surpassé tous les systèmes texte-vers-vidéo existants et établi de nouveaux standards pour la créativité IA. Le réalisateur Tyler Perry a arrêté une expansion de studio de 800 millions de dollars en raison de préoccupations concernant l'impact de Sora sur l'industrie. OpenAI a poursuivi une approche prudente avec des tests red team pour la désinformation et les biais avant une diffusion plus large.

Première génération texte-vers-vidéo avec vidéos HD d'une minute et qualité photoréaliste
Transformeur de diffusion basé sur la technologie DALL-E 3 pour la cohérence temporelle
Comprend les lois du monde physique et maintient la cohérence sur toute la durée de la vidéo
Perturbation potentielle de l'industrie du film, Tyler Perry a arrêté une expansion de studio de 800 millions de dollars

Personnes:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisations:OpenAI

2024Produits

Famille Claude 3 avec capacités multimodales

L'introduction d'une famille d'IA avec vision et trois modèles spécialisés. Le 4 mars 2024, Anthropic a introduit la famille Claude 3 : Opus, Sonnet et Haiku – trois modèles avec différentes forces pour divers cas d'utilisation. La caractéristique centrale était un traitement visuel sophistiqué capable d'analyser photos, graphiques, diagrammes et dessins techniques. Claude 3 Opus a obtenu les meilleurs résultats dans les tâches cognitives et a surpassé les concurrents dans des benchmarks comme MMLU et GPQA. Sonnet offrait l'équilibre idéal entre intelligence et vitesse pour les entreprises, tandis que Haiku impressionnait par des temps de réponse quasi instantanés. Avec une fenêtre de contexte de 200 000 tokens (extensible à 1 million) et une disponibilité dans 159 pays, Claude 3 a établi de nouvelles normes de référence pour les systèmes d'IA multimodaux.

Traitement visuel sophistiqué pour photos, graphiques, diagrammes et dessins techniques
Opus (intelligence maximale), Sonnet (équilibre), Haiku (vitesse) pour différents cas d'utilisation
Capacités multimodales permettant le traitement de formats visuels en plus du traitement textuel
Claude 3 Opus a obtenu les meilleurs résultats en MMLU, GPQA et autres benchmarks cognitifs

Personnes:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisations:Anthropic, Claude API, Amazon Bedrock

2024Produits

Devin : Le premier ingénieur logiciel IA autonome

La naissance du développement logiciel entièrement autonome par l'intelligence artificielle. Le 12 mars 2024, Cognition Labs a introduit Devin – le premier ingénieur logiciel IA entièrement autonome au monde. Le système peut planifier de manière indépendante, cloner des dépôts, écrire du code, déboguer, tester et même déployer. Sur le difficile SWE-Bench, Devin a atteint un taux de réussite de 13,86% sur de vrais problèmes GitHub – un bond massif par rapport au meilleur précédent de 1,96%. Basé sur GPT-4 avec des éléments d'apprentissage par renforcement, Devin a démontré une amélioration d'efficacité de 12x et des économies de coûts de 20x chez Nubank. La startup a atteint une valorisation de 350 millions de dollars avec des discussions sur 2 milliards. Malgré des succès impressionnants, les tests ont aussi montré des limitations : seules 3 tâches sur 20 ont été complétées avec succès, souvent avec des échecs imprévisibles.

Développement logiciel entièrement autonome : planification, codage, débogage, test et déploiement sans intervention humaine
Gère des tâches d'ingénierie complexes de la migration de code au développement d'applications complètes
Taux de réussite de 13,86% sur SWE-Bench – 7x mieux que l'état de l'art précédent de 1,96%
A déclenché un débat sur l'avenir du développement logiciel et inspiré des alternatives open-source comme OpenHands

Personnes:Scott Wu, Steven Hao, Walden Yan

Organisations:Cognition Labs, SWE-Bench

2024Réglementation

EU AI Act : Première loi complète sur l'IA

La première réglementation complète de l'intelligence artificielle au monde entre en vigueur. Le 1er août 2024, l'EU AI Act est devenu juridiquement contraignant – un cadre réglementaire basé sur les risques avec 180 considérants et 113 articles pour l'ensemble du cycle de vie de l'IA. La loi catégorise les systèmes d'IA par niveaux de risque : les applications inacceptables sont interdites, les systèmes à haut risque dans l'éducation, l'emploi et la justice sont soumis à des obligations de conformité détaillées, tandis que les modèles GPAI comme ChatGPT doivent respecter des exigences de transparence. L'effet extraterritorial couvre également les fournisseurs hors de l'UE avec des utilisateurs européens. Les violations font face à des sanctions allant jusqu'à 35 millions d'euros ou 7% du chiffre d'affaires annuel mondial. Comme le RGPD en 2018, l'AI Act pourrait établir des normes mondiales et déterminer comment l'IA influence nos vies. La mise en œuvre progressive commence en 2025 et est pleinement effective d'ici 2027.

Première loi complète sur l'IA au monde avec 180 considérants et 113 articles pour tout le cycle de vie de l'IA
Catégorisation des risques à quatre niveaux : Interdit, haut risque, risque limité et systèmes GPAI
L'effet extraterritorial comme le RGPD pourrait établir des normes mondiales d'IA et influencer la conformité mondiale
Sanctions jusqu'à 35 millions d'euros ou 7% du chiffre d'affaires annuel, mise en œuvre progressive 2025-2027

Personnes:Ursula von der Leyen, Thierry Breton

Organisations:European Union, European Parliament, European Commission

2024Produits

OpenAI O1 - Avancées en raisonnement

OpenAI publie le modèle O1 le 12 septembre 2024, élargissant significativement le raisonnement de l'IA grâce à l'entraînement par chaîne de pensée. O1 est le premier modèle de langage largement disponible à systématiquement "penser" avant de répondre - utilisant une chaîne de pensée privée, il analyse les problèmes étape par étape. Cette nouvelle approche ouvre une dimension de mise à l'échelle supplémentaire : la mise à l'échelle au moment du test, où une "réflexion" plus longue mène à de meilleurs résultats. O1 atteint des performances de niveau doctorat sur les tests de référence en physique, chimie et biologie, et résout 83% des problèmes de l'American Invitational Mathematics Examination (GPT-4o : 13%). La technologie démontre que l'IA peut développer des capacités de résolution de problèmes significativement améliorées grâce au raisonnement structuré.

Premier modèle avec entraînement systématique par chaîne de pensée pour un raisonnement structuré
Nouvelle dimension de mise à l'échelle : Plus il réfléchit longtemps, meilleurs sont les résultats
Nouvelle approche : De la reproduction de motifs à la résolution de problèmes améliorée
Progrès important en raisonnement complexe - capacités de résolution de problèmes améliorées

Personnes:Sam Altman, Noam Brown, OpenAI Team

Organisations:OpenAI