Cronología de IA

Una línea de tiempo que muestra: la IA fue declarada muerta al menos tres veces — y volvió cada vez.

1837Hitos

La Analytical Engine de Babbage: la idea del ordenador

La historia de la IA no comienza con los ordenadores, sino con su idea. En la década de 1830, el matemático británico Charles Babbage diseñó la Analytical Engine y la describió por primera vez en detalle en 1837: sobre el papel, el primer ordenador universal y programable del mundo. Su diseño estaba un siglo por delante de su tiempo: ya contaba con una unidad aritmética, que Babbage llamó mill, una memoria (store), programación mediante tarjetas perforadas e incluso saltos condicionales, los bloques constructivos de cualquier ordenador moderno. La máquina nunca llegó a construirse en vida de su autor, pues era demasiado compleja para la mecánica del siglo XIX. Sin embargo, es la antepasada lejana de toda máquina calculadora y, por tanto, del hardware en el que la inteligencia artificial puede funcionar. Para ser honestos: la Analytical Engine quedó como un diseño inconcluso y era un calculador, no una máquina pensante. Proporcionó el fundamento, el cálculo, no la inteligencia.

En la década de 1830, el matemático británico Charles Babbage diseñó la Analytical Engine, que describió por primera vez en 1837: el primer diseño de un ordenador universal y programable.

Su diseño ya incluía los bloques constructivos de los ordenadores actuales: una unidad aritmética (mill), una memoria (store), programación con tarjetas perforadas e incluso saltos condicionales.

La máquina de Babbage es la antepasada lejana de cualquier ordenador y, por tanto, del hardware sobre el que puede funcionar la IA.

Anti-hype: la Analytical Engine nunca se terminó de construir en vida de Babbage; quedó como un diseño en papel. Y era un calculador, no una IA: el fundamento, no el pensamiento en sí.

Personas:Charles Babbage

1843Publicaciones

Ada Lovelace: el primer programa y una visión audaz

Charles Babbage había diseñado la máquina, pero fue Ada Lovelace quien comprendió de verdad lo que podría llegar a hacer. En 1843, la matemática británica tradujo un artículo sobre la Analytical Engine de Babbage y añadió sus propias notas, que superaron con creces el texto original en extensión y profundidad. En su nota G describió un procedimiento para que la máquina calculase los llamados números de Bernoulli, considerado a menudo el primer programa informático publicado. Aún más visionaria fue su segunda intuición: la máquina no tendría que limitarse a los números, sino que podría procesar símbolos de cualquier tipo e incluso componer música. Con ello, Lovelace anticipó la idea del procesamiento universal de datos un siglo antes de su tiempo. Para ser honestos: si fue realmente la primera programadora está en debate, pues el propio Babbage había esbozado programas anteriormente y la rutina de Bernoulli surgió en intercambio con él. Al mismo tiempo, Lovelace sostuvo que la máquina no podía crear nada verdaderamente nuevo por sí misma, objeción a la que Alan Turing respondió expresamente en 1950.

En 1843, Ada Lovelace tradujo un artículo sobre la Analytical Engine de Babbage y lo amplió con extensas notas propias que superaron ampliamente el texto original.

Su nota G contiene un procedimiento para calcular los números de Bernoulli, considerado a menudo el primer programa informático publicado.

Con visión de futuro, comprendió que la máquina podría hacer más que calcular: podría procesar símbolos e incluso componer música, anticipando la idea del procesamiento universal de datos.

Anti-hype: si Lovelace fue la primera programadora está en debate (Babbage escribió programas antes; la rutina de Bernoulli surgió en intercambio con él). Además, sostuvo que la máquina no podía crear nada realmente nuevo, objeción a la que Turing respondió en 1950.

Personas:Ada Lovelace

1936Publicaciones

La máquina de Turing: qué significa calcular

Antes de poder preguntarse si las máquinas podían pensar, había que aclarar primero qué puede calcular una máquina en absoluto. A esta pregunta respondió el matemático británico Alan Turing en 1936 con su artículo 'On Computable Numbers'. En él describía un modelo conceptual sorprendentemente sencillo: una cinta, un cabezal lector-escritor, unas pocas reglas, lo que más tarde recibiría el nombre de máquina de Turing. Con ella, Turing estableció con precisión qué es computable y qué no. Su intuición más importante: una sola máquina de Turing universal puede imitar a cualquier otra. Ese es el plano teórico del ordenador universal, una máquina que, con el programa adecuado, puede realizar todo lo computable. Con ello, Turing se convirtió en el fundador de la informática y creó el fundamento que hizo posible la idea de las máquinas pensantes. Para ser precisos: la máquina de Turing es una idea matemática, no un dispositivo construido, y el tema era la computabilidad, no la inteligencia. La pregunta de si las máquinas podían pensar la formuló Turing recién en 1950. Además, el nombre 'máquina de Turing' lo acuñaron otros.

En 1936, Alan Turing publicó el artículo 'On Computable Numbers' y describió en él un sencillo modelo conceptual de cómputo, la que más tarde se llamaría máquina de Turing.

Con ella, Turing estableció qué es computable en absoluto. Una máquina de Turing universal puede imitar a cualquier otra: el plano teórico del ordenador universal.

Con ello, Turing se convirtió en el fundador de la informática. Que una sola máquina pueda calcular todo lo computable es el fundamento de que las máquinas pudieran aprender a pensar.

Sin exagerar: la máquina de Turing es una idea matemática, no un dispositivo, y el tema era la computabilidad, no la inteligencia. La pregunta de si las máquinas pueden pensar la formuló Turing en 1950. El nombre lo acuñaron otros.

Personas:Alan Turing

1943Publicaciones

McCulloch y Pitts: la primera neurona artificial

Trece años antes de la Conferencia de Dartmouth, en plena guerra, apareció el verdadero certificado de nacimiento de las redes neuronales artificiales. El neurofisiólogo Warren McCulloch y el lógico autodidacta Walter Pitts — con apenas veinte años y sin ningún título académico — publicaron en 1943 en el Bulletin of Mathematical Biophysics el artículo 'A Logical Calculus of the Ideas Immanent in Nervous Activity'. Su idea era radicalmente simple: se puede describir una neurona como un elemento de conmutación binario que se activa siguiendo el principio de todo o nada, en cuanto la suma de sus entradas supera un umbral. Partiendo de la lógica proposicional pura, demostraron que las redes formadas por esas unidades pueden calcular cualquier función lógica, y que las redes con bucles de retroalimentación poseen incluso una forma de memoria. En la conclusión señalaron que sus redes pueden calcular lo mismo que una máquina de Turing. Con ello aportaron el primer modelo matemático de la neurona como unidad de cómputo lógico. El problema que marcaría la siguiente década: su neurona no podía aprender.

El primer modelo matemático de la neurona como unidad de cómputo lógico: McCulloch y Pitts tradujeron el funcionamiento del sistema nervioso a lógica proposicional formal.

Todo o nada: una neurona se activa cuando la suma de sus entradas supera un umbral. Redes de esas unidades calculan cualquier función lógica; los bucles de retroalimentación generan memoria.

El límite decisivo: sin aprendizaje. Los pesos y los umbrales eran fijos; la red debía diseñarse a mano. Solo Hebb (1949) y el perceptrón de Rosenblatt (1957) introdujeron reglas de aprendizaje.

El impacto alcanzó mucho más allá de la biología: la arquitectura de von Neumann (EDVAC, 1945), la cibernética de Wiener y, en última instancia, cada red neuronal artificial tienen sus raíces en este trabajo.

Personas:Warren S. McCulloch, Walter Pitts

Organizaciones:University of Illinois, College of Medicine, University of Chicago

1948Publicaciones

La teoría de la información de Shannon: nace el bit

En 1948, en los Bell Labs apareció un artículo que fundó el mundo digital: 'A Mathematical Theory of Communication' de Claude Shannon. Shannon mostró cómo puede medirse la información de forma matemática, con independencia de su significado. Introdujo el bit como unidad mínima de información y acuñó el concepto de entropía: una medida de cuánta incertidumbre resuelve de media un mensaje. Con ello sentó los cimientos de la compresión de datos, la transmisión sin errores y, en última instancia, de todos los ordenadores. Para la IA esto es más que prehistoria: conceptos como la entropía cruzada y la divergencia de Kullback-Leibler, que hoy sirven como objetivos de entrenamiento de las redes neuronales, proceden directamente de la teoría de Shannon. Para ser precisos: Shannon describía la transmisión de mensajes, no el pensamiento. La teoría de la información es una herramienta matemática sobre la que se construye la IA; no es en sí misma inteligencia artificial.

En 1948, Claude Shannon publicó en Bell Labs 'A Mathematical Theory of Communication' y fundó la teoría de la información.

Introdujo el bit como unidad de medida de la información y definió la entropía: cuánta incertidumbre resuelve de media un mensaje.

Fundamental para la IA: la entropía cruzada y la divergencia KL, directamente procedentes de la teoría de Shannon, son hoy objetivos de entrenamiento estándar en el aprendizaje automático.

Sin exagerar: Shannon describía la transmisión de mensajes, no la inteligencia. La teoría de la información es un fundamento sobre el que se construye la IA, no un resultado de la IA. (El término bit lo propuso su colega John Tukey.)

Personas:Claude Shannon

Organizaciones:Bell Labs

1949Publicaciones

La regla de Hebb: cómo surge el aprendizaje en el cerebro

En 1949, el psicólogo canadiense Donald Hebb publicó el libro The Organization of Behavior y propuso una idea sencilla pero de enorme alcance: cuando dos neuronas conectadas se activan juntas repetidamente, su conexión se refuerza. Con ello, Hebb ofreció por primera vez un mecanismo concreto de cómo podría funcionar el aprendizaje a nivel de las sinapsis individuales. Para la IA, esto se convirtió en un principio fundamental: aprender significa ajustar la fuerza de las conexiones, exactamente lo que hacen las redes neuronales artificiales, como las posteriores redes de Hopfield. Para ser honestos: la célebre frase de que las neuronas que se activan juntas se conectan juntas no es de Hebb, sino que se atribuye a la neurocientiífica Carla Shatz (1992). Y la regla de Hebb por sí sola no explica el aprendizaje profundo moderno, pues carece de corrección de errores dirigida.

En 1949, el psicólogo Donald Hebb publicó The Organization of Behavior y formuló cómo podría funcionar el aprendizaje en el cerebro a nivel de las sinapsis.

Regla de Hebb: cuando dos neuronas conectadas se activan juntas repetidamente, su conexión se refuerza.

La idea, aprender significa ajustar la fuerza de las conexiones, se convirtió en el principio fundamental de las redes neuronales que aprenden (por ejemplo, las redes de Hopfield).

Anti-hype: la célebre frase (las neuronas que se activan juntas se conectan juntas) no es de Hebb, sino que se atribuye a Carla Shatz (1992). La regla de Hebb por sí sola no explica el aprendizaje profundo moderno, pues le falta la corrección de errores.

Personas:Donald Hebb

1950Publicaciones

Test de Turing: el juego de la imitación

La base filosófica de la inteligencia artificial y el primer benchmark de IA. En 1950, Alan Turing publicó el artículo 'Computing Machinery and Intelligence' en la revista Mind y reformuló la pregunta '¿Pueden pensar las máquinas?'. En lugar de definiciones filosóficas, Turing propuso el práctico 'juego de la imitación': un evaluador humano valora transcripciones de texto de conversaciones entre un ser humano y una máquina. El evaluador intenta identificar a la máquina; esta supera el test cuando el evaluador no puede distinguirla de forma fiable. Lo decisivo no es la corrección de las respuestas, sino en qué medida se asemejan a las respuestas humanas. Este test de indistinguibilidad puede generalizarse a todas las capacidades humanas, tanto verbales como no verbales (robótica). El enfoque conductual de Turing estableció el fundamento conceptual de toda la investigación en IA e influyó en ELIZA, ChatGPT y todos los sistemas modernos de IA conversacional.

Test de indistinguibilidad: el evaluador intenta distinguir a la máquina de un ser humano mediante conversación de texto

Desplazó el foco de las definiciones filosóficas a las demostraciones conductuales de la inteligencia

Planteó la pregunta fundamental '¿Pueden pensar las máquinas?' y propuso un enfoque operacional

Estableció el primer benchmark de IA e influyó en todos los desarrollos posteriores de IA conversacional

Personas:Alan Turing

Organizaciones:University of Manchester, Mind Journal

1956Avances

Logic Theorist: el primer programa que razona

En el mismo verano en que en Dartmouth se acuñaba el término 'inteligencia artificial', Allen Newell, Herbert Simon y el a menudo olvidado programador Cliff Shaw presentaron lo que suele llamarse 'el primer programa de IA', aunque con un matiz. Su Logic Theorist demostraba teoremas matemáticos: tomaba la lógica proposicional de 'Principia Mathematica' de Whitehead y Russell, y encontraba por sí solo pruebas para 38 de los primeros 52 teoremas. Lo notable era el cómo: en lugar de probar todas las posibilidades por la fuerza bruta, el programa buscaba de forma heurística, estimando qué pasos merecían la pena y trabajando hacia atrás desde el objetivo. Para uno de los teoremas encontró incluso una prueba más corta que la original; según se cuenta, Russell reaccionó con agrado, mientras que una revista especializada rechazó la prueba enviada. Todo estaba escrito en IPL, un lenguaje de listas que anticipó el LISP de McCarthy. La limitación: programas de juegos como el de Samuel con las damas ya funcionaban antes; el Logic Theorist fue el primero en intentar reproducir deliberadamente el razonamiento humano en una tarea abierta de pensamiento.

A menudo llamado 'el primer programa de IA', aunque con más precisión: fue el primero en intentar reproducir el razonamiento humano en una tarea abierta de pensamiento (los programas de juegos vinieron antes).

Búsqueda heurística en lugar de fuerza bruta: hacia atrás desde el objetivo, estimando los pasos que merecían la pena (sustitución, separación, encadenamiento), inspirado en la heurística de Pólya.

Demostró 38 de los primeros 52 teoremas del capítulo 2 de 'Principia Mathematica'; para uno de ellos encontró una prueba más corta que la original.

Escrito en el lenguaje de listas IPL (cuya parte esencial la realizó Shaw), que influyó en el LISP de McCarthy; el enfoque heurístico llevó directamente al General Problem Solver (1957).

Personas:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organizaciones:RAND Corporation, Carnegie Institute of Technology

1956Conferencias

Conferencia de Dartmouth: el nacimiento de la IA

El momento histórico en que la inteligencia artificial nació como campo de investigación. Del 18 de junio al 17 de agosto de 1956 se celebró en el Dartmouth College la primera AI Summer Research Conference. John McCarthy, Marvin Minsky, Nathaniel Rochester y Claude Shannon tenían una audaz visión: 'Cada aspecto del aprendizaje o cualquier otra característica de la inteligencia puede describirse con tanta precisión que una máquina puede simularlo.' En este taller de ocho semanas, McCarthy acuñó el término 'Artificial Intelligence' y sentó así las bases de una nueva disciplina científica. Algunos participantes vinieron solo unas pocas semanas, otros permanecieron todo el tiempo: Herbert Simon y Allen Newell, por ejemplo, demostraron en las primeras semanas su Logic Theorist, mientras que Ray Solomonoff estuvo las ocho semanas completas — los debates tenían lugar en el piso superior del Departamento de Matemáticas. De esta conferencia surgieron los tres históricos centros de IA: Carnegie Mellon con Newell y Simon, el MIT con Minsky y Stanford con McCarthy.

Nacimiento de la IA como disciplina de investigación independiente mediante un taller de 8 semanas con los principales pensadores

John McCarthy acuñó el término 'Artificial Intelligence' y definió así un nuevo campo de investigación

Estableció el programa de investigación: lenguaje máquina, abstracción, resolución de problemas y automejora

Reunió a los padres fundadores de la IA: McCarthy, Minsky, Shannon, Rochester y el futuro premio Nobel Herbert Simon

Personas:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organizaciones:Dartmouth College, IBM, Bell Labs

1957Publicaciones

Perceptrón: la primera red neuronal que aprende

El nacimiento del aprendizaje automático a través de la primera neurona artificial entrenable. En 1957, Frank Rosenblatt desarrolló en el Cornell Aeronautical Laboratory el perceptrón: la primera red neuronal capaz de aprender de la experiencia. En enero de 1957 publicó el informe técnico 'The Perceptron: A Perceiving and Recognizing Automaton' (Project PARA, Report 85-460-1). La publicación científica formal tuvo lugar en noviembre de 1958 en Psychological Review. Inspirado en las neuronas biológicas, el perceptrón combinaba entradas ponderadas mediante una función escalón de Heaviside para producir salidas binarias. La innovadora regla de aprendizaje del perceptrón corregía los pesos cada vez que un ejemplo era clasificado incorrectamente, un precursor temprano del aprendizaje en las redes neuronales modernas (que no debe confundirse con la posterior regla delta de Widrow y Hoff, 1960). Simulado inicialmente en un IBM 704 y anunciado públicamente en 1958, el hardware Mark-I Perceptron no se terminó hasta alrededor de 1960. Aunque limitado a problemas linealmente separables, el perceptrón sentó el fundamento conceptual de todas las arquitecturas neuronales posteriores.

Primera neurona artificial entrenable con entradas ponderadas y función escalón de Heaviside

Clasificación binaria mediante decisión por umbral, eficaz para patrones linealmente separables

La regla de aprendizaje del perceptrón de Frank Rosenblatt corregía los pesos en cada clasificación errónea y permitía así el aprendizaje automático

La limitación a problemas linealmente separables llevó posteriormente a la crítica del XOR de Minsky y Papert

Personas:Frank Rosenblatt

Organizaciones:Cornell Aeronautical Laboratory, US Navy

1958Avances

LISP: el lenguaje de la IA

En 1958, John McCarthy diseñó en el MIT un lenguaje de programación que ponía el cálculo simbólico en el centro: LISP, abreviatura de List Processing. En lugar de procesar principalmente números, LISP manipulaba listas de símbolos, exactamente lo que necesitaba la IA simbólica. Durante décadas, LISP fue el lenguaje de la investigación en IA: los sistemas expertos, el procesamiento del lenguaje y los sistemas de planificación se desarrollaron en él. El lenguaje de McCarthy introdujo además ideas que hoy son habituales: la recursión, la recolección automática de basura (garbage collection), las funciones como datos y la evaluación interactiva. Steve Russell implementó el mecanismo teórico eval de McCarthy como primer intérprete y con ello hizo que LISP fuera ejecutable. Para ser honestos: LISP no fue el primer lenguaje de programación de alto nivel (Fortran llegó en 1957), pero es el segundo más antiguo todavía en uso y el más influyente para la IA.

John McCarthy diseñó LISP en 1958 en el MIT para el cálculo simbólico (listas en lugar de números); durante décadas fue EL lenguaje de la investigación en IA (sistemas expertos, PLN, planificación).

Introdujo ideas hoy estándar: recursión, recolección automática de basura (garbage collection), funciones como datos y evaluación interactiva (REPL).

Enlazó con el procesamiento de listas de IPL; Steve Russell implementó el eval de McCarthy como primer intérprete y con ello hizo que LISP fuera ejecutable.

Anti-hype: no fue el primer lenguaje de alto nivel (Fortran, de 1957, llegó antes), pero es el segundo más antiguo todavía en uso y el más influyente para la IA.

Personas:John McCarthy, Steve Russell

Organizaciones:MIT

1959Avances

Arthur Samuel: IA que aprende sola y el término 'machine learning'

Algunos años antes de la Conferencia de Dartmouth, Arthur Samuel enseñó a una máquina de IBM a jugar a las damas y, al mismo tiempo, a aprender. Su programa funcionó a partir de 1952 en la IBM 701; lo decisivo, sin embargo, estaba en lo que escribió en 1959 en su artículo 'Some Studies in Machine Learning Using the Game of Checkers'. El programa mejoraba por sí solo: jugaba decenas de miles de partidas contra sí mismo y ajustaba los pesos de su función de evaluación en función de los resultados. En el título de ese artículo aparece por primera vez documentado el término 'machine learning' con su significado actual; Samuel es considerado su creador. Richard Sutton reconoció más tarde el juego contra sí mismo de Samuel como la primera aplicación del aprendizaje por diferencia temporal (Temporal Difference), que está en el núcleo del aprendizaje por refuerzo moderno. La demostración televisiva de 1956 y una victoria muy citada contra un supuesto jugador experto acapararon titulares, pero ambas fueron muy exageradas: contra los jugadores realmente fuertes el programa perdía claramente, y las damas no se resolvieron de forma completa hasta décadas después.

En el título de su artículo de 1959, Samuel empleó el término 'machine learning', el primer uso documentado con el significado actual; se le considera su creador.

El primer programa de autoaprendizaje demostrado públicamente: ajustaba por sí mismo los pesos de su función de evaluación y memorizaba posiciones.

Con decenas de miles de partidas contra sí mismo anticipó el juego autónomo que más tarde perfeccionó AlphaZero; para Sutton, fue la primera aplicación del aprendizaje por diferencia temporal.

Sin exagerar: la victoria celebrada de 1962 fue contra un rival sobrevalorado; contra los mejores del mundo el programa perdía. Las damas no se resolvieron completamente hasta 2007 (Chinook).

Personas:Arthur Lee Samuel

Organizaciones:IBM

1965Hitos

DENDRAL: pionero de los sistemas expertos

A mediados de la década de 1960, la IA tomó una bifurcación decisiva. En la Universidad de Stanford, Edward Feigenbaum y el genetista y premio Nobel Joshua Lederberg comenzaron a desarrollar DENDRAL, un programa considerado a menudo el primer sistema experto y que, en cualquier caso, fue el primero en aplicar la IA al razonamiento científico. En lugar de buscar de forma general como los sistemas anteriores, DENDRAL empleaba el conocimiento especializado de químicos humanos: a partir de los datos de un espectrómetro de masas, deducía la estructura de moléculas orgánicas. La lección extraída marcó una década de la IA: el conocimiento es poder. No gana el algoritmo general más ingenioso, sino aquel que posee más conocimiento especializado. DENDRAL allanó así el camino para el auge de los sistemas expertos en los años 1980. Para ser honestos: el propio DENDRAL fue un proyecto de investigación exitoso que se prolongó durante muchos años, no un producto único. Sin embargo, su método de introducir todo el conocimiento laboriosamente a mano se convirtió más tarde en su talón de Aquiles: hizo que los sistemas expertos comerciales de los 1980 fueran frágiles y costosos, y contribuyó así al invierno de la IA.

Desde mediados de los años 1960, Edward Feigenbaum, Joshua Lederberg y colegas de la Universidad de Stanford desarrollaron DENDRAL, considerado a menudo el primer sistema experto y el primero en aplicar la IA al razonamiento científico.

DENDRAL deducía la estructura de moléculas orgánicas a partir de datos de espectrometría de masas, empleando el conocimiento de químicos humanos en lugar de búsqueda general.

La lección: el conocimiento es poder. En lugar de sistemas de resolución general, la IA apostó por dominios acotados y ricos en conocimiento, dando inicio a los sistemas expertos.

Anti-hype: el propio DENDRAL fue un proyecto exitoso de varios años. Pero su método, el conocimiento codificado a mano, se convirtió en la debilidad de los sistemas expertos comerciales de los 1980 y contribuyó al invierno de la IA.

Personas:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organizaciones:Stanford University

1965Publicaciones

Fuzzy Logic: la lógica de la imprecisión

Un avance matemático importante para el tratamiento de la incertidumbre y el razonamiento aproximado. En 1965, Lotfi Zadeh publicó en la UC Berkeley el artículo fundamental 'Fuzzy Sets', una respuesta a la incapacidad de la lógica clásica para manejar información vaga e incompleta. Su innovación residía en el reconocimiento de que las personas toman decisiones basándose en información imprecisa y no numérica. La Fuzzy Logic permite grados de pertenencia entre 0 y 1, a diferencia de la lógica binaria de sí/no. Con más de 100.000 citas hasta la fecha, el trabajo de Zadeh se convirtió en la base del Soft Computing y de los enfoques modernos de IA. La 'lógica precisa de la imprecisión' permitió modelar matemáticamente la incertidumbre, la incompletitud y la información contradictoria. La Fuzzy Logic encontró aplicación en sistemas expertos, sistemas de control y, posteriormente, en arquitecturas modernas de IA para procesos de decisión difusos.

El artículo 'Fuzzy Sets' de Lotfi Zadeh de 1965, con más de 100.000 citas, cambió significativamente el tratamiento de la incertidumbre

Permitió la modelización matemática de la vaguedad, la incompletitud y la información contradictoria

Encontró aplicación en sistemas expertos, sistemas de control y procesos de decisión aproximados

Sentó las bases del Soft Computing y de los enfoques modernos de IA para el tratamiento de información imperfecta

Personas:Lotfi Zadeh

Organizaciones:UC Berkeley, Information and Control

1966Avances

ELIZA: el primer chatbot

El nacimiento de la conversación entre humanos y máquinas, y un experimento involuntario sobre la psicología humana. Aproximadamente entre 1964 y 1966, Joseph Weizenbaum desarrolló en el MIT ELIZA — el primer programa diseñado explícitamente para conversar con personas. Con un código asombrosamente compacto y una sencilla tecnología de reconocimiento de patrones, ELIZA simulaba conversaciones, especialmente en la variante DOCTOR como terapeuta rogeriano. La sorpresa no estaba en la tecnología, sino en la reacción humana: los usuarios, incluida la propia secretaria de Weizenbaum, desarrollaban vínculos emocionales con el programa e incluso exigían privacidad para sus 'sesiones de terapia'. Weizenbaum describió y criticó este fenómeno desde el principio — la tendencia a atribuir cualidades humanas a programas rudimentarios. El término 'efecto ELIZA' en sí no fue acuñado y popularizado hasta más tarde, en la década de 1990. ELIZA demostró el poder de la ilusión más simple y sentó las bases de todos los chatbots modernos.

Primer programa informático desarrollado explícitamente para la conversación entre humanos y máquinas, finalizado en 1966

Utilizaba una sencilla metodología de reconocimiento de patrones y sustitución — el programa se las arreglaba con una cantidad asombrosamente reducida de código

Generaba la ilusión de comprensión e inteligencia emocional sin entender el lenguaje de verdad

Hizo visible el denominado 'efecto ELIZA' y advirtió contra la proyección de cualidades humanas en programas rudimentarios

Personas:Joseph Weizenbaum

Organizaciones:MIT, MIT AI Laboratory

1969Publicaciones

Perceptrons: el libro que contribuyó al invierno de la IA

En 1969, los investigadores del MIT Marvin Minsky y Seymour Papert publicaron el libro Perceptrons. Con rigor matemático demostraron qué puede y qué no puede hacer un perceptrón de una sola capa, la forma más sencilla de red neuronal. Su resultado más célebre: esa red no puede aprender ni siquiera la sencilla función XOR, porque no es linealmente separable con una única línea. El impacto fue enorme: la confianza en las redes neuronales se desplomó y la financiación se agotó durante más de una década, una contribución importante al primer invierno de la IA. Para ser precisos: Minsky y Papert no refutaron las redes neuronales en absoluto. Solo analizaron la variante de una sola capa; las redes multicapa resuelven XOR sin problema, lo que más adelante, a partir de 1986, se hizo prácticamente utilizable con el algoritmo de retropropagación. La narrativa de que el libro mató en solitario la investigación es en parte un mito. Pero el desplome en financiación y atención fue muy real.

En 1969, Marvin Minsky y Seymour Papert publicaron Perceptrons y analizaron matemáticamente qué pueden hacer los perceptrones de una sola capa y qué no.

Su resultado célebre: un perceptrón de una sola capa no puede aprender la función XOR porque no es linealmente separable.

El libro se considera uno de los desencadenantes del primer invierno de la IA: la financiación de las redes neuronales se agotó durante más de una década.

Sin exagerar: Minsky y Papert no refutaron las redes neuronales en sí; las redes multicapa resuelven XOR (más tarde mediante retropropagación, 1986). Que el libro acabara solo con el campo es en parte un mito; el desplome de la financiación, sin embargo, fue real.

Personas:Marvin Minsky, Seymour Papert

Organizaciones:MIT

1969Avances

Shakey: el primer robot móvil inteligente

El nacimiento de la robótica autónoma mediante la integración de razonamiento, planificación y acción física. De 1966 a 1972, el equipo de Charles Rosen en SRI International desarrolló Shakey, el primer robot móvil capaz de reflexionar sobre sus propias acciones. El robot de 2 metros de altura combinaba una cámara de televisión, un telémetro de sonar, procesadores y 'bigotes de gato' como detectores de impacto en un sistema autónomo. Las notables capacidades de Shakey incluían la percepción del entorno, la deducción a partir de hechos implícitos, la creación de planes y la compensación de errores, todo controlable mediante lenguaje inglés natural. El proyecto financiado por la ARPA (hoy DARPA) fue el primero en combinar el razonamiento lógico con la acción física y sentó las bases de los sistemas autónomos. Las innovaciones de Shakey condujeron al algoritmo de búsqueda A*, a los métodos de grafo de visibilidad y a la influyente variante computacional de la transformada de Hough (Duda y Hart, SRI 1972). En 1970, la revista Life llamó a Shakey 'la primera persona electrónica'.

Primer robot móvil capaz de reflexionar sobre sus propias acciones y planificar tareas complejas de forma autónoma

Combinaba cámara de televisión, sonar, procesadores y sensores en un sistema móvil autónomo

Desarrolló el sistema de planificación STRIPS para la descomposición automática de tareas y la búsqueda de rutas

Unificó visión por ordenador, navegación y razonamiento lógico en un sistema físico

Personas:Charles Rosen, Nils Nilsson, Bertram Raphael

Organizaciones:SRI International, DARPA

1970Hitos

SHRDLU: comprender el lenguaje en el mundo de los bloques

Hacia 1970, Terry Winograd construyó en el MIT un programa que asombró a los expertos: SHRDLU. Era posible darle instrucciones en inglés sencillo, por ejemplo colocar el cubo rojo sobre el bloque verde, y las ejecutaba en un mundo virtual de bloques de colores. SHRDLU comprendía más que simples órdenes: resolvía ambigüedades en las frases, recordaba lo que se había dicho, respondía preguntas sobre su mundo e incluso podía explicar por qué había hecho algo. Para muchos fue el punto culminante más impresionante de la IA simbólica: la prueba de que las máquinas podían comprender el lenguaje de forma sorprendentemente buena. Para ser precisos: la comprensión de SHRDLU solo funcionaba en su pequeño y cerrado mundo de bloques. No podía trasladarse al mundo real, desordenado, con su infinito conocimiento cotidiano. Así, con el tiempo, SHRDLU se convirtió en una lección sobre los límites de esos micromundos; el propio Winograd se alejó más tarde de este enfoque.

Hacia 1970, Terry Winograd construyó en el MIT SHRDLU, un programa que comprendía órdenes en inglés sencillo y manipulaba un mundo virtual de bloques.

SHRDLU podía resolver ambigüedades, recordar lo dicho, responder preguntas e incluso explicar por qué había realizado una acción.

Se consideró el punto culminante más impresionante de la IA simbólica: la prueba de que las máquinas podían comprender el lenguaje de forma notable en un mundo acotado.

Sin exagerar: la comprensión de SHRDLU solo funcionaba en su pequeño mundo de bloques. No podía trasladarse al mundo real, una lección sobre los límites de esos micromundos.

Personas:Terry Winograd

Organizaciones:MIT

1970Publicaciones

Modelos ocultos de Markov establecidos

El fundamento matemático para el reconocimiento del habla y la modelización de secuencias. Desde finales de los años sesenta hasta 1970, Leonard Baum, Lloyd Welch y Ted Petrie desarrollaron los Hidden Markov Models en el Institute for Defense Analyses y establecieron el algoritmo de Baum-Welch. Estos modelos estadísticos modelizaban estados ocultos en secuencias y proporcionaron uno de los primeros enfoques prácticos para capturar estados latentes en datos dependientes del tiempo. A mediados de los años setenta, los HMM encontraron su primera aplicación práctica en el reconocimiento del habla, de la mano de James Baker en la Universidad Carnegie Mellon y posteriormente en IBM. El método transformó el reconocimiento automático del habla, pasando de simples procedimientos de comparación de plantillas a enfoques estadísticos. Los HMM se convirtieron en el estándar para la modelización de secuencias en numerosos ámbitos: desde la bioinformática y el análisis financiero hasta el reconocimiento de gestos. El algoritmo de Baum-Welch, reconocido posteriormente como caso especial del algoritmo de Expectation-Maximization formulado de manera general en 1977, sentó las bases de los modernos métodos probabilísticos de aprendizaje automático.

Algoritmo de Baum-Welch como caso especial del Expectation-Maximization para la estimación de parámetros de HMM

Primera aplicación práctica en reconocimiento del habla desde mediados de los años setenta en Carnegie Mellon e IBM

Transformó la modelización de secuencias, pasando de la comparación de plantillas a enfoques estadísticos probabilísticos

Sentó las bases matemáticas para los modernos métodos probabilísticos de aprendizaje automático

Personas:Leonard Baum, Lloyd Welch, Ted Petrie

Organizaciones:Institute for Defense Analyses

1972Hitos

Prolog: programar con lógica

En 1972, en la Universidad de Marsella surgió un lenguaje de programación que pensaba de forma totalmente diferente a todos los demás: Prolog, abreviatura de Programmation en Logique. Sus creadores Alain Colmerauer y Philippe Roussel, apoyados en la teoría de Robert Kowalski, perseguían una idea brillante. En lugar de decirle al ordenador paso a paso cómo debe hacer algo, en Prolog uno se limita a describir los hechos y las reglas de un mundo. El sistema extrae entonces las conclusiones lógicas por sí mismo. Prolog se convirtió en el lenguaje más importante de la IA simbólica: en los sistemas expertos, en el procesamiento del lenguaje y como núcleo del ambicioso proyecto japonés de la quinta generación. Para ser precisos: la programación lógica nunca llegó a ser el paradigma dominante de la IA. El gran proyecto japonés, que apostó todo por Prolog, quedó muy por debajo de sus promesas. Y el avance se debe tanto a la teoría de Robert Kowalski como al propio lenguaje.

En 1972, Alain Colmerauer y Philippe Roussel desarrollaron en la Universidad de Marsella el lenguaje Prolog, abreviatura de Programmation en Logique. La teoría lógica se apoyó en Robert Kowalski.

Prolog es declarativo: se describen hechos y reglas, y el sistema deduce por sí mismo las conclusiones lógicas, sin indicar paso a paso cómo hacerlo.

Prolog se convirtió en el lenguaje más importante de la IA lógica y simbólica: en los sistemas expertos, el procesamiento del lenguaje y el proyecto japonés de la quinta generación.

Sin exagerar: la programación lógica nunca fue el paradigma dominante de la IA; el proyecto japonés de la quinta generación construido sobre ella quedó por debajo de las expectativas. La teoría de Robert Kowalski fue igualmente importante, no solo el lenguaje.

Personas:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organizaciones:University of Aix-Marseille

1974Hitos

El primer invierno de la IA

Un periodo de drásticos recortes en los fondos de investigación y de creciente desconfianza en la inteligencia artificial. Tras las exageradas promesas de los años sesenta llegó la amarga realidad: los programas de IA solo podían resolver versiones triviales de los problemas que se suponía debían resolver. En el Reino Unido, el informe Lighthill de 1973 emitió una crítica devastadora, tras la cual el Science Research Council redujo la financiación de la investigación en IA no dirigida. En los Estados Unidos, la DARPA, impulsada por la Enmienda Mansfield, se alejó durante varios años de la investigación sin aplicación concreta; el drástico recorte en la financiación de la comprensión del habla afectó en 1974/75 al proyecto de la Universidad Carnegie Mellon y llevó a la cancelación de un contrato de 3 millones de dólares. Este invierno duró hasta aproximadamente 1980 y enseñó a la comunidad de la IA una lección importante: las expectativas realistas son la clave para un progreso sostenible.

La DARPA en los Estados Unidos y el britáico Science Research Council redujeron drásticamente a mediados de los años setenta la financiación de la investigación en IA no dirigida

El profesor James Lighthill criticó duramente en 1973 la investigación en IA por no alcanzar sus objetivos y señaló el problema de la explosión combinatoria

La DARPA canceló el contrato de 3 millones de dólares con Carnegie Mellon para sistemas de comprensión del habla tras resultados decepcionantes

Los programas de IA de principios de los años setenta estaban limitados a versiones triviales de problemas reales y parecían 'juguetes' inteligentes

Personas:James Lighthill, J.C.R. Licklider, Hans Moravec

Organizaciones:DARPA, British Science Research Council, Carnegie Mellon University

1980Publicaciones

Neocognitron: el antecesor de las CNN

En 1980, el investigador japonés Kunihiko Fukushima presentó una red neuronal muy adelantada a su tiempo: el Neocognitron. Su inspiración fue la naturaleza, más concretamente la corteza visual, tal como la habían estudiado en gatos los premios Nobel Hubel y Wiesel. En ella, las células simples y complejas procesan los estímulos visuales de forma escalonada. Fukushima reprodujo ese principio: una red de múltiples capas que reconoce características capa a capa, con independencia del lugar del imagen donde aparezcan. Con ello, el Neocognitron anticipó las ideas centrales de las redes neuronales convolucionales (CNN) actuales, las redes que desde 2012 dominan el reconocimiento de imágenes. Para ser precisos: el Neocognitron aún no empleaba retropropagación y no podía entrenarse como las CNN modernas. Solo la retropropagación (1986) y la LeNet de Yann LeCun (1989) convirtieron esa arquitectura en redes que aprenden de forma práctica. El papel pionero de Fukushima sigue siendo a menudo subestimado.

En 1980, Kunihiko Fukushima presentó el Neocognitron, una red neuronal de múltiples capas para el reconocimiento de patrones.

La inspiración fue la corteza visual (Hubel y Wiesel): células simples y complejas que reconocen características de forma escalonada e independientemente de su posición.

Con ello, el Neocognitron anticipó las ideas centrales de las redes neuronales convolucionales (CNN) actuales: filtros de características locales y procesamiento jerárquico. La LeNet de LeCun (1989) se construyó sobre esta base.

Sin exagerar: el Neocognitron no empleaba retropropagación. Solo la retropropagación (1986) y la LeNet (1989) lo convirtieron en redes que aprenden de forma práctica. El papel pionero de Fukushima es a menudo subestimado.

Personas:Kunihiko Fukushima

Organizaciones:NHK Broadcasting Science Research Laboratories

1980Hitos

La era de los sistemas expertos de los años 80

Los años 80 marcan el apogeo de los sistemas expertos, cuando la IA logra por primera vez un éxito comercial. Empresas de todo el mundo adoptan estos programas de IA basados en reglas que reproducen el conocimiento de expertos humanos en dominios especializados. La industria de la IA crece de unos pocos millones de dólares en 1980 a miles de millones en 1988. Dos tercios de las empresas de la lista Fortune 500 emplean la tecnología. Sistemas como MYCIN alcanzan en estudios una tasa de aceptación de sus recomendaciones terapéuticas de alrededor del 65% — a la altura de los expertos de facultad, aunque MYCIN nunca se utiliza clínicamente. Pero el auge termina siguiendo el patrón clásico de una burbuja económica, cuando docenas de empresas fracasan y los límites de la tecnología se hacen evidentes.

La industria de la IA crece de unos pocos millones de dólares (1980) a miles de millones (1988)

Dos tercios de las empresas de la lista Fortune 500 adoptaron sistemas expertos en su gestión operativa diária

Las recomendaciones terapéuticas de MYCIN alcanzan una aceptación de alrededor del 65% — comparable a la de expertos de facultad

Patrón clásico de una burbuja económica: auge seguido de un colapso masivo

Personas:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organizaciones:Stanford University, Fortune 500 Companies

1982Publicaciones

Redes de Hopfield: Memoria Asociativa

El renacimiento de las redes neuronales a traves de capacidades de memoria asociativa. En 1982, John Hopfield publico el articulo pionero 'Neural networks and physical systems with emergent collective computational abilities' en PNAS. Su innovacion radico en conectar la neurobiologia con la fisica estadistica: las redes de Hopfield funcionan como memoria direccionable por contenido que reconstruye patrones completos a partir de entradas incompletas o ruidosas. La arquitectura recurrente con conexiones bidireccionales simetricas converge a atractores de punto fijo a traves de una funcion de energia de Lyapunov. El sistema 'rueda cuesta abajo' hacia la memoria almacenada mas cercana. El trabajo de Hopfield reavivoó el interes en las redes neuronales y establecio la base teorica para las RNNs modernas. El aprendizaje hebbiano permitio el almacenamiento asociativo de patrones - un avance para entender los sistemas de memoria biologicos y artificiales.

Memoria direccionable por contenido que reconstruye patrones completos a partir de entradas incompletas o ruidosas

Arquitectura recurrente con conexiones bidireccionales simetricas y propiedades colectivas emergentes

La funcion de energia de Lyapunov guia al sistema a atractores de punto fijo al 'rodar cuesta abajo' hacia la memoria almacenada

Reavivoó el interes en las redes neuronales y establecio la base para el desarrollo moderno de RNN

Personas:John Hopfield

Organizaciones:California Institute of Technology, Bell Laboratories

1986Publicaciones

Algoritmo de retropropagación

El nacimiento del aprendizaje automático moderno mediante un elegante algoritmo de entrenamiento. En octubre de 1986, David Rumelhart, Geoffrey Hinton y Ronald Williams publicaron en Nature el artículo 'Learning representations by back-propagating errors'. Este algoritmo transformó considerablemente el entrenamiento de las redes neuronales al proporcionar un método eficiente para ajustar los pesos en redes de múltiples capas. El procedimiento ajusta repetidamente los pesos de las conexiones para minimizar la diferencia entre la salida real y la deseada. La innovación decisiva radicó en la capacidad de entrenar capas ocultas que reconocen automáticamente características importantes de la tarea. Los fundamentos matemáticos ya habían sido desarrollados con anterioridad, por ejemplo por Paul Werbos (1974) y Seppo Linnainmaa (1970), pero fue este artículo el que dio a conocer la retropropagación de forma generalizada y demostró de manera convincente su eficacia. La retropropagación se convirtió en el caballo de batalla del aprendizaje automático y hace posibles hoy todas las aplicaciones modernas de aprendizaje profundo.

Publicado en la revista Nature el 9 de octubre de 1986 bajo el título 'Learning representations by back-propagating errors'

Hizo práctico y ampliamente conocido el entrenamiento eficiente de redes neuronales de múltiples capas mediante el cálculo del gradiente

Las capas ocultas aprendieron a reconocer automáticamente características importantes: un avance significativo respecto al perceptrón

Sentó los fundamentos matemáticos de todas las aplicaciones modernas de aprendizaje profundo y las arquitecturas Transformer

Personas:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organizaciones:University of California San Diego, Carnegie Mellon University, Nature

1987Hitos

El segundo invierno de la IA

El colapso del mercado especializado de hardware para IA y el fracaso de los sistemas expertos. En 1987 se hundió el mercado de las máquinas Lisp, cuando los ordenadores de Apple e IBM se volvieron más económicos y potentes que los costosos sistemas específicos para IA. Los sistemas expertos como XCON resultaron ser demasiado costosos de mantener e inflexibles para las aplicaciones reales. Jack Schwartz, el nuevo director del IPTO, calificó los sistemas expertos de 'programación ingeniosa' y recortó la financiación de la IA 'de forma profunda y brutal'. La caída de los fabricantes de máquinas Lisp se prolongó durante los años siguientes: el líder del mercado Symbolics no declaró la insolvencia hasta 1993, lo que condujo a un invierno más largo y profundo que el primero de 1974. Este invierno duró hasta aproximadamente 1993 y puso fin al auge comercial de los sistemas expertos y el hardware especializado para IA, aunque la IA simbólica como línea de investigación siguió existiendo.

El mercado de las máquinas Lisp especializadas se hundió en 1987, ya que los ordenadores de Apple e IBM se volvieron más económicos y potentes

Los sistemas expertos como XCON resultaron ser demasiado costosos de mantener, rígidos e incapaces de manejar datos nuevos

Jack Schwartz recortó la financiación de la IA en la DARPA 'de forma profunda y brutal' y calificó los sistemas expertos de 'programación ingeniosa'

Los costes del hardware específico para IA superaban con creces los rendimientos empresariales prometidos

Personas:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organizaciones:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Conjuntos de datos

UCI ML Repository: la biblioteca de conjuntos de datos

La democratización de la investigación en aprendizaje automático mediante conjuntos de datos de referencia estandarizados. En 1987, el estudiante de doctorado de la UCI David Aha, junto con sus compañeros, fundó el UCI Machine Learning Repository como archivo FTP: una colección de bases de datos, teorías de dominio y generadores de datos para el análisis empírico de algoritmos de aprendizaje automático. Esta iniciativa abordó la crítica escasez de conjuntos de datos estandarizados y de libre acceso para la creciente comunidad de aprendizaje automático. El repositorio se convirtió en la fuente principal de conjuntos de datos de aprendizaje automático en todo el mundo y permitió a estudiantes, docentes e investigadores acceder a benchmarks de alta calidad. A lo largo de los años ha sido citado decenas de miles de veces y se encuentra entre los recursos más utilizados de toda la informática. Gestionado hoy por el Center for Machine Learning and Intelligent Systems, el UCI ML Repository ofrece conjuntos de datos de sanidad, finanzas y muchos otros ámbitos. El repositorio democratizó de forma fundamental la educación y la investigación en aprendizaje automático.

Fundado en 1987 como archivo FTP por David Aha y estudiantes de la UCI para el análisis empírico de algoritmos de aprendizaje automático

Se convirtió en la fuente principal de conjuntos de datos de aprendizaje automático para estudiantes, docentes e investigadores de todo el mundo

Citado decenas de miles de veces: uno de los recursos de conjuntos de datos más utilizados de toda la informática

Democratizó la investigación en aprendizaje automático mediante el acceso a conjuntos de datos de referencia estandarizados y de alta calidad

Personas:David Aha, Patrick Murphy

Organizaciones:University of California Irvine, UCI

1988Publicaciones

Redes bayesianas: razonamiento bajo incertidumbre

Mientras las redes neuronales y los sistemas expertos competían por la atención, Judea Pearl en la UCLA construía un tercer gran pilar de la IA: el razonamiento bajo incertidumbre. En su libro Probabilistic Reasoning in Intelligent Systems (1988) popularizó las redes bayesianas: grafos en los que los nodos representan variables y las aristas sus dependencias probabilísticas. En lugar de las rígidas reglas si-entonces y los factores de certeza ad hoc de los sistemas expertos, permitían combinar conocimiento e incertidumbre de forma rigurosa y extraer inferencias de manera eficiente. Las redes bayesianas marcaron la IA y el aprendizaje automático de las décadas de 1990 y 2000; Pearl recibió el Premio Turing en 2011 y se dedicó después a la inferencia causal, el porqué que subyace a los datos. Para ser honestos: el teorema de Bayes data del siglo XVIII; el mérito de Pearl no fue inventar la probabilidad, sino hacer que el razonamiento probabilístico fuese estructurado y computable para la IA.

Judea Pearl (UCLA) estableció el razonamiento bajo incertidumbre como un tercer pilar de la IA, junto a los sistemas simbólicos y las redes neuronales.

Redes bayesianas: grafos de variables (nodos) y dependencias probabilísticas (aristas) que reemplazaron los factores de certeza ad hoc por un razonamiento riguroso y eficiente.

Influyó en el aprendizaje automático de los años 1990 y 2000; Pearl recibió el Premio Turing en 2011 y fundó después la inferencia causal moderna.

Anti-hype: el teorema de Bayes es del siglo XVIII; el mérito de Pearl fue hacer que el razonamiento probabilístico fuese estructurado y computable para la IA, no inventar la probabilidad.

Personas:Judea Pearl

Organizaciones:UCLA

1989Publicaciones

Teorema de aproximación universal

La demostración matemática del poder teórico de las redes neuronales. En 1989, Kurt Hornik, Maxwell Stinchcombe y Halbert White publicaron el artículo fundamental 'Multilayer feedforward networks are universal approximators' en Neural Networks. Su rigurosa demostración mostró que incluso una única capa oculta con suficientes neuronas puede aproximar con precisión arbitraria cualquier función medible según Borel. Esta base teórica justificó matemáticamente el uso de redes neuronales y aseguró a los investigadores que redes suficientemente grandes pueden modelar relaciones complejas y no lineales de los datos reales. De forma paralela, aparecieron trabajos similares de George Cybenko y Funahashi con distintas técnicas. El teorema estableció la universalidad mediante la ampliación de la capa oculta y se convirtió en el pilar teórico de todos los desarrollos posteriores del aprendizaje profundo. Hornik et al. crearon la confianza matemática que posibilitó el renacimiento de las redes neuronales en la década de 1990.

Demostración matemática rigurosa de las capacidades de aproximación universal de las redes neuronales

Una capa oculta con suficientes neuronas puede aproximar con precisión arbitraria cualquier función medible según Borel (el trabajo paralelo de Cybenko demostró esto para funciones continuas)

Prueba que las redes son capaces también de modelar vínculos no lineales y complejos en datos del mundo real

Proporcionó la justificación matemática para el uso de redes neuronales y una base de confianza teórica

Personas:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organizaciones:University of California San Diego

1989Avances

World Wide Web: la invención de la WWW

La invención que conectó el mundo y creó la base de las fuentes de datos para la IA moderna. El 12 de marzo de 1989, Tim Berners-Lee presentó en el CERN su propuesta para un 'Sistema de Gestión de la Información', denominado originalmente 'Mesh' y posteriormente 'World Wide Web'. Como científico británico, reconoció la necesidad de un intercambio automatizado de información entre científicos de todo el mundo. Hasta finales de 1990 desarrolló las tres tecnologías web fundamentales: HTML (HyperText Markup Language), HTTP (HyperText Transfer Protocol) y URI/URL. El primer servidor web, info.cern.ch, funcionaba en un ordenador NeXT junto con el primer navegador y editor 'WorldWideWeb.app'. En 1991 la web se hizo accesible al público. El crecimiento exponencial de unos 10 sitios web (1992) a varios cientos de miles (1996) creó la base de datos para los sistemas de IA posteriores. Sin la web no existirían los conjuntos de datos de Common Crawl ni los modelos de lenguaje grandes.

Proyecto de hipertexto con documentos enlazados, navegadores y 'puntos activos', basado en ideas previas de hipertexto (Ted Nelson, Memex de Vannevar Bush), pero deliberadamente más sencillo que el Xanadu de Nelson

Propuesta de gestión de la información del 12 de marzo de 1989 en el CERN para el intercambio automatizado de conocimiento científico

HTML, HTTP y URI/URL desarrollados como tecnologías web fundamentales hasta finales de 1990

Creó la infraestructura de datos para las colecciones posteriores de Common Crawl y el entrenamiento de modelos de lenguaje grandes

Personas:Tim Berners-Lee

Organizaciones:CERN

1989Publicaciones

LeNet y el nacimiento de las CNN

La primera aplicación exitosa de redes neuronales convolucionales en la práctica. En 1989, Yann LeCun en AT&T Bell Labs combinó por primera vez la retropropagación con una arquitectura CNN para el reconocimiento de escritura a mano. Este sistema — conocido posteriormente como el antecesor de la familia LeNet — reconocía códigos postales escritos a mano para el Servicio Postal de los EE. UU. con una precisión notable: alrededor de un 1% de error en los datos de entrenamiento y aproximadamente un 5% en datos de prueba no vistos previamente; cuando se permitía al sistema rechazar los casos dudosos, el error sobre los dígitos restantes bajaba hasta aproximadamente el 1%. Este rendimiento demostró la superioridad práctica de las CNN frente a los enfoques convencionales y sentó las bases de la visión artificial moderna. Evidenció que las redes neuronales no eran meros constructos teóricos, sino que podían resolver problemas empresariales reales. La arquitectura pasó por varias iteraciones de mejora y desembocó en 1998 en LeNet-5, con un 99,05% de precisión en MNIST. Este trabajo sentó los cimientos de todas las arquitecturas CNN modernas.

Primera combinación exitosa de redes neuronales convolucionales con entrenamiento por retropropagación

Reconocía códigos postales escritos a mano para el Servicio Postal de los EE. UU.: alrededor de un 5% de error en datos de prueba, aproximadamente un 1% cuando se permitía rechazar los casos dudosos

El trabajo pionero de Yann LeCun en Bell Labs estableció las CNN como una solución viable de visión artificial

Sentó las bases de todas las arquitecturas CNN modernas, desde AlexNet hasta los sistemas de visión actuales

Personas:Yann LeCun, Bernhard Boser, John Denker

Organizaciones:AT&T Bell Labs, NIPS

1992Avances

TD-Gammon: aprender jugando contra sí mismo

Mucho antes de AlphaGo, un programa de IBM mostró de qué era capaz el aprendizaje por refuerzo: en 1992, Gerald Tesauro presentó TD-Gammon, una red neuronal que aprendió a jugar al backgammon. Lo notable era el método de aprendizaje. TD-Gammon se entrenó casi exclusivamente jugando cientos de miles de partidas contra sí mismo y aprendiendo del resultado, con el método de diferencia temporal (Temporal Difference), que corrige las predicciones de forma progresiva. Nadie necesitó mostrarle buenas jugadas. La red alcanzó un nivel casi de clase mundial e incluso descubrió aperturas que los profesionales humanos adoptaron a continuación. Para ser precisos: por impresionante que fuera el éxito, durante mucho tiempo no pudo trasladarse a otros juegos. Una de las razones reside en el dado: el backgammon es un juego de azar, y el azar genera por sí solo variedad durante el entrenamiento, una ventaja para el juego autónomo que los juegos deterministas como el ajedrez o el go no ofrecen.

En 1992, Gerald Tesauro presentó en IBM TD-Gammon, una red neuronal que aprendió a jugar al backgammon.

Aprendió casi exclusivamente a través de partidas contra sí mismo, con el método de aprendizaje por refuerzo de diferencia temporal, sin necesitar partidas humanas como referencia.

TD-Gammon alcanzó un nivel casi de clase mundial y descubrió nuevas aperturas que los profesionales adoptaron; un precursor de AlphaGo, casi 25 años antes.

Sin exagerar: el éxito no pudo trasladarse durante mucho tiempo a otros juegos. El dado del backgammon genera variedad de entrenamiento por sí solo, una ventaja para el juego autónomo que el ajedrez o el go no tienen.

Personas:Gerald Tesauro

Organizaciones:IBM

1992Publicaciones

Q-Learning: fundamento del aprendizaje por refuerzo

En 1992, Chris Watkins y Peter Dayan publicaron la demostración matemática del Q-Learning, un algoritmo que cambiaría considerablemente el mundo de la IA. Watkins había desarrollado la idea fundamental ya en 1989 en su tesis doctoral 'Learning from Delayed Rewards' en el King's College Cambridge. El Q-Learning resolvió un problema fundamental: ¿cómo puede un agente actuar de manera óptima sin necesitar un modelo de su entorno? La respuesta era elegante: mediante la optimización gradual de una función Q que asigna un valor a cada par estado-acción. La demostración de convergencia de 1992 mostró que, con exploración infinita, el Q-Learning encuentra garantizadamente la estrategia óptima para cualquier problema de decisión de Markov finito. Este método sin modelo se convirtió en la piedra angular del aprendizaje por refuerzo moderno. Desde la robótica hasta los mercados financieros, desde los juegos hasta los sistemas autónomos: el Q-Learning está en todas partes. A finales de 2013, DeepMind presentó una variante profunda con Deep Q-Networks (DQN), publicada en Nature en 2015, que alcanzó un nivel humano o sobrehumano en la mayoría de los juegos de Atari. Hasta hoy, el Q-Learning, especialmente en su forma de Deep Q-Network, es un componente fundamental de innumerables sistemas de IA.

Demostración matemática de convergencia de 1992: el Q-Learning encuentra garantizadamente estrategias óptimas con exploración infinita

Innovador enfoque sin modelo: aprendizaje de acciones óptimas sin modelo del entorno ni probabilidades de transición

Solución elegante para los problemas de decisión de Markov mediante la optimización gradual de la función Q

Piedra angular del aprendizaje por refuerzo moderno: núcleo de Deep Q-Networks e innumerables sistemas de IA hasta hoy

Personas:Chris Watkins, Peter Dayan

Organizaciones:King's College Cambridge, University College London

1993Conjuntos de datos

Penn Treebank: la anotación sintáctica transforma el PLN

La creación del corpus fundamental para la investigación moderna sobre análisis sintáctico. En 1993, Mitchell Marcus, Beatrice Santorini y Mary Ann Marcinkiewicz publicaron el influyente artículo 'Building a Large Annotated Corpus of English: The Penn Treebank' en Computational Linguistics. Con más de 4,5 millones de palabras de inglés americano anotadas con categorías gramaticales, y alrededor de 3 millones de ellas con anotación sintáctica detallada (análisis esquelético), el Penn Treebank transformó considerablemente la lingüística computacional. El procedimiento en dos fases combinaba el etiquetado automático de categorías gramaticales con la corrección humana para lograr una calidad de anotación excepcional. A lo largo de toda la duración del proyecto, de unos siete años (1989-1996), y en el Penn Treebank II ampliado, se generaron en total 7 millones de palabras etiquetadas con categorías gramaticales, 3 millones de textos con análisis esquelético y 2 millones de estructuras de predicado-argumento. El Penn Treebank consolidó los métodos empíricos en la lingüística computacional y se convirtió en la base de los algoritmos de análisis sintáctico modernos. Hasta hoy, el Penn Treebank sirve a los sistemas modernos de PLN como referencia de evaluación para el análisis sintáctico y el modelado del lenguaje.

Más de 4,5 millones de palabras con etiquetado de categorías gramaticales, alrededor de 3 millones con anotación sintáctica detallada, mediante un procedimiento semiautomático en dos fases

Consolidó los métodos empíricos en lingüística computacional y se convirtió en el benchmark estándar para la investigación en análisis sintáctico

Transformó considerablemente los algoritmos de análisis sintáctico, de los enfoques basados en reglas a los estadísticos

Sentó las bases del análisis sintáctico estadístico y sirve a los sistemas modernos de PLN como referencia de evaluación

Personas:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organizaciones:University of Pennsylvania, Linguistic Data Consortium

1995Publicaciones

AdaBoost: los aprendices débiles se vuelven fuertes

En 1995, Yoav Freund y Robert Schapire desarrollaron AdaBoost (Adaptive Boosting), un algoritmo que cambió considerablemente el aprendizaje automático. Su idea central: combinar muchos 'aprendices débiles' para obtener un modelo de predicción de alta precisión. Un aprendiz débil solo es ligeramente mejor que el azar, pero cientos de ellos juntos pueden lograr resultados notables. AdaBoost se adapta de forma adaptativa: las predicciones erróneas reciben mayor peso en la siguiente iteración, de modo que el sistema se enfoca automáticamente en los casos difíciles. La elegancia teórica convenció a todos: Freund y Schapire demostraron que el error de entrenamiento cae de forma exponencialmente rápida hacia cero, siempre que cada aprendiz débil supere al azar. En 2003 recibieron por esta fundamentación de la teoría del boosting el Premio Gödel, uno de los reconocimientos más prestigiosos de la informática teórica. AdaBoost encontró aplicación práctica en biología, visión por ordenador y reconocimiento del habla. El método sentó las bases de los métodos de conjunto modernos e inspiró a toda una generación de algoritmos de boosting, hasta llegar a XGBoost.

Ponderación adaptativa: los casos difíciles reciben mayor peso para un aprendizaje enfocado en los puntos problemáticos

Principio de los aprendices débiles: cientos de clasificadores simples producen juntos predicciones de alta precisión

Premio Gödel 2003: uno de los reconocimientos más prestigiosos de la informática teórica por la fundamentación de la teoría del boosting

Fundamento de los métodos de conjunto modernos: inspiró a XGBoost y a toda una generación de algoritmos de boosting

Personas:Yoav Freund, Robert Schapire

Organizaciones:AT&T Bell Laboratories

1995Publicaciones

Máquinas de vectores soporte: clasificación por margen máximo

El establecimiento de enfoques geométricos elegantes para una clasificación robusta. En 1995, Corinna Cortes y Vladimir Vapnik publicaron en AT&T Bell Labs el artículo fundamental 'Support-Vector Networks' en Machine Learning. Las SVM ampliaron el enfoque de margen máximo de Vapnik y Chervonenkis de 1964 (el 'Generalized Portrait') hasta convertirlo en una solución práctica para datos de entrenamiento no separables, gracias a la innovación del 'margen blando' (Soft Margin). El principio clave reside en la construcción de superficies de decisión lineales en espacios de características de muy alta dimensión mediante transformaciones no lineales de la entrada. El truco del kernel de 1992 permitió un cálculo eficiente sin necesidad de transformación explícita. Las SVM maximizan el margen entre clases y ofrecen así una alta capacidad de generalización. Con decenas de miles de citas, el artículo se convirtió en una de las obras más citadas del aprendizaje automático y dominó las tareas de clasificación hasta la revolución del aprendizaje profundo. Las SVM siguieron siendo robustas, interpretables y eficaces para problemas de alta dimensionalidad.

El enfoque de margen máximo de Vapnik y Chervonenkis de 1964 se amplía a una solución práctica para datos no separables

El truco del kernel permite la clasificación no lineal mediante transformaciones implícitas de alta dimensión

El principio de margen máximo maximiza la distancia entre clases para una generalización óptima

Estableció una alternativa teóricamente fundada a las redes neuronales con garantías de generalización

Personas:Vladimir Vapnik, Corinna Cortes

Organizaciones:AT&T Bell Labs

1995Conjuntos de datos

WordNet: la red semántica del lenguaje

El primer diccionario léxico estructurado como red semántica para la lingüística computacional. En noviembre de 1995, George Miller publicó el artículo fundamental 'WordNet: A Lexical Database for English' en Communications of the ACM y presentó su visión desarrollada desde 1986. WordNet organiza sustantivos, verbos, adjetivos y adverbios del inglés en synsets, grupos de sinónimos cognitivos vinculados por relaciones semánticas y léxicas. Esta estructura refleja la memoria semántica humana y permite navegar por redes significativas de palabras y conceptos. Aunque ya existían diccionarios legibles por máquina, WordNet fue el primero en modelar el vocabulario de forma sistemática como una red de synsets y relaciones de significado, combinando así la información lexicográfica tradicional con el procesamiento moderno de datos. Con el inicio de su desarrollo en 1986 por Miller y su equipo de Princeton, WordNet se convirtió en la base de las jerarquías de ImageNet y los sistemas modernos de procesamiento del lenguaje natural. La estructura de red semántica influyó en todos los grafos de conocimiento y técnicas de embeddings posteriores.

Primer diccionario léxico estructurado como red semántica de synsets y relaciones de significado con acceso programático

Los synsets vinculados por relaciones semánticas y léxicas forman una red de significados navegable

Refleja la memoria semántica humana y conecta la ciencia cognitiva con la lingüística computacional

Sentó las bases de las jerarquías de ImageNet, los grafos de conocimiento y los sistemas semánticos modernos de procesamiento del lenguaje natural

Personas:George Miller, Christiane Fellbaum

Organizaciones:Princeton University, Cognitive Science Laboratory

1996Publicaciones

PageRank: el algoritmo que vale miles de millones

En 1996, dos doctorandos de Stanford desarrollaron un algoritmo que cambiaría considerablemente internet. Larry Page y Sergey Brin pusieron en marcha el proyecto 'BackRub' con una idea novedosa: la importancia de una página web no se mide solo por su contenido, sino por los enlaces que apuntan a ella. Como en las citas científicas, cuanto más veces se enlaza una página, más importante es. El algoritmo PageRank simula un 'navegante aleatorio' que hace clic al azar por la web. Cuanto más frecuentemente llega el navegante aleatorio a una página a través de la estructura de enlaces, más importante se considera. El rastreador web de Page empezó en marzo de 1996 desde su propia página de inicio en Stanford. La publicación formal del artículo sobre PageRank tuvo lugar en enero de 1998 como Stanford Technical Report. Hasta agosto de 1996, BackRub ya había descubierto alrededor de 75 millones de URLs, es decir, direcciones encontradas a través de enlaces, de las cuales solo una parte había sido rastreada realmente. Ya el primer prototipo de Stanford ofrecía resultados más relevantes que los servicios de búsqueda contemporáneos como Excite o Yahoo!. Stanford obtuvo la patente y vendió sus 1,8 millones de acciones de Google en 2005 por 336 millones de dólares. De un proyecto universitario surgió uno de los motores de búsqueda más exitosos y la base de la IA web moderna.

El proyecto 'BackRub' de Stanford analizaba datos de backlinks para medir la importancia en la web: base y génesis de Google

Innovador análisis de enlaces: importancia de las páginas web a través de referencias, no solo por la frecuencia de palabras clave

Modelo del navegante aleatorio: una página es tanto más importante cuanto más frecuentemente la visita el navegante aleatorio a través de la estructura de enlaces

De la investigación en Stanford surgió Google Inc., con PageRank como fundamento del motor de búsqueda más valioso

Personas:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organizaciones:Stanford University, Google Inc.

1997Competiciones

Deep Blue vence a Kasparov

La primera victoria de una máquina sobre un campeón mundial de ajedrez en activo en condiciones de torneo. El 11 de mayo de 1997, Deep Blue hizo historia cuando el superordenador de IBM venció a Garry Kasparov en el partido de revancha en Nueva York por 3,5:2,5. Tras la derrota de 1996, IBM había renovado el sistema de manera fundamental: nuevos chips de ajedrez duplicaron la velocidad hasta 200 millones de posiciones por segundo, y mejores bases de datos de finales junto con el asesoramiento de grandes maestros refinaron la fuerza de juego. La decisiva sexta partida duró solo una hora — tras un sacrificio de caballo, Kasparov cayó rápidamente en una posición objetivamente perdida y abandonó ya en el movimiento 19, un momento sin precedentes en su carrera. La victoria demostró por primera vez la superioridad de los ordenadores en el pensamiento estratégico complejo y marcó un punto de inflexión en la percepción pública de la IA. El premio de 700.000 dólares para Deep Blue subrayó la importancia histórica de este triunfo de la inteligencia de las máquinas.

Primera victoria de un ordenador sobre un campeón mundial de ajedrez en activo en un match en condiciones estándar de torneo (Deep Blue ya había ganado una partida individual en 1996)

Capacidad de análisis de 200 millones de posiciones por segundo, mejores bases de datos de finales y asesoramiento de grandes maestros

El triunfo técnico de IBM tras años de desarrollo desde ChipTest en 1985, pasando por Deep Thought hasta Deep Blue

Punto de inflexión en la percepción pública de la IA y prueba de la superioridad de las máquinas en el pensamiento estratégico complejo

Personas:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organizaciones:IBM, World Chess Championship

1997Publicaciones

LSTM: Memoria de Largo Plazo a Corto Plazo

La solucion al problema del gradiente que desaparece y el nacimiento del modelado efectivo de secuencias. El 15 de noviembre de 1997, Sepp Hochreiter y Juergen Schmidhuber publicaron el articulo pionero 'Long Short-Term Memory' en Neural Computation. Su innovacion resolvio un problema fundamental de las redes recurrentes: la desaparicion de gradientes sobre secuencias mas largas. LSTM introdujo celulas de memoria especiales con mecanismos de compuerta que permiten un flujo de error constante sobre miles de pasos de tiempo. Las compuertas multiplicativas aprenden a abrir y cerrar el acceso al carrusel de error constante. Con complejidad O(1) por paso de tiempo y aprendizaje local, LSTM supero claramente todos los metodos RNN contemporaneos. El sistema resolvio problemas complejos de desfase temporal largo por primera vez que antes eran irresolubles. LSTM se convirtio en la base para el reconocimiento de voz moderno, traduccion y analisis de series temporales.

Resolvio el problema del gradiente que desaparece a traves de flujo de error constante sobre miles de pasos de tiempo

Celulas de memoria especiales con carruseles de error constante para almacenamiento de informacion a largo plazo

Unidades de compuerta multiplicativas aprenden a abrir y cerrar el acceso al flujo de error constante

Permitio el modelado efectivo de secuencias a largo plazo para reconocimiento de voz y analisis de series temporales

Personas:Sepp Hochreiter, Jürgen Schmidhuber

Organizaciones:Technical University of Munich, IDSIA

1998Conjuntos de datos

MNIST: el estándar del aprendizaje automático

La creación de uno de los conjuntos de datos de referencia más importantes para los principiantes en visión por ordenador. En 1998, Yann LeCun, Corinna Cortes y Christopher Burges presentaron el conjunto de datos MNIST, una colección curada de dígitos escritos a mano que se convertiría en el 'Hello World' del aprendizaje automático. Basado en la Special Database 3 y la Special Database 1 del NIST, MNIST contiene 70.000 imágenes normalizadas de 28x28 píxeles en escala de grises: 60.000 para entrenamiento y 10.000 para pruebas. El cuidadoso preprocesamiento y el antialiasing convirtieron a MNIST en el conjunto de datos ideal para el aprendizaje sin necesidad de una costosa preparación de datos. MNIST apareció en el artículo 'Gradient-based learning applied to document recognition' (Proceedings of the IEEE, noviembre de 1998). El conjunto de datos se convirtió en el punto de referencia estándar para innumerables algoritmos de aprendizaje automático y permitió a generaciones de estudiantes lograr sus primeros éxitos en visión por ordenador. MNIST democratizó la educación en aprendizaje automático en todo el mundo.

70.000 dígitos escritos a mano como imágenes normalizadas de 28x28 píxeles en escala de grises

Colección creada por Yann LeCun, Corinna Cortes y Christopher Burges a partir de las bases de datos del NIST

Se convirtió en el 'Hello World' del aprendizaje automático y en el punto de referencia estándar para algoritmos de ML

Democratizó la educación en ML mediante un acceso sencillo sin necesidad de una costosa preparación de datos

Personas:Yann LeCun, Corinna Cortes, Christopher Burges

Organizaciones:AT&T Labs, Courant Institute

2001Publicaciones

Random Forest: avance en los métodos de conjunto

En 2001, Leo Breiman, de la UC Berkeley, publicó uno de los artículos de aprendizaje automático más citados de todos los tiempos: 'Random Forests'. Su algoritmo transformó considerablemente el concepto de los métodos de conjunto y se convirtió en una de las herramientas más importantes de la estadística moderna. La idea fundamental era genialmente sencilla: en lugar de un árbol de decisión, se entrenan cientos de árboles aleatorios y se les hace votar. Cada árbol ve solo una parte aleatoria de los datos y las características: 'bagging' combinado con aleatorización de características. El resultado: una reducción drástica de los problemas de sobreajuste y una precisión predictiva excepcional. Breiman también proporcionó la base teórica con errores de generalización basados en la fortaleza y la correlación de los árboles. Random Forest se convirtió en uno de los algoritmos de aprendizaje automático de tipo 'plug-and-play' con menos mantenimiento: ajuste mínimo, rendimiento máximo. Desde la bioinformática hasta el análisis de mercados financieros, Random Forest domina hasta hoy innumerables aplicaciones e hizo de los métodos de conjunto la herramienta estándar, en paralelo a la línea del boosting, de la que surgió posteriormente XGBoost.

Avance en conjuntos: cientos de árboles de decisión aleatorios votan conjuntamente para obtener mejores predicciones

Bagging más aleatorización de características: cada árbol ve datos y características distintos para garantizar diversidad

Fundamentación teórica: límites del error de generalización basados en la fortaleza y la correlación de los árboles

Algoritmo de aprendizaje automático tipo plug-and-play: ajuste mínimo con rendimiento excepcional en todos los ámbitos

Personas:Leo Breiman, Adele Cutler

Organizaciones:UC Berkeley Statistics Department, Machine Learning Journal

2005Organizaciones

Fundación del Future of Humanity Institute

La institucionalización de la investigación en seguridad de la IA y la evaluación de riesgos existenciales. En 2005, Nick Bostrom fundó el Future of Humanity Institute en la Universidad de Oxford como grupo de investigación multidisciplinar. Comenzando con solo tres investigadores, el FHI se convirtió en un centro intelectual de atracción para pensadores brillantes, a menudo excéntricos, y creció hasta alcanzar unos 40 empleados. El instituto estableció nuevos campos de investigación: riesgos existenciales, AI Alignment, AI Governance y Longtermism. Las primeras publicaciones de Bostrom, como 'The fable of the dragon tyrant' (2005) y 'What is a singleton?' (2006), marcaron el pensamiento sobre la seguridad de la IA. A pesar de su relativamente breve existencia de 19 años hasta su cierre en 2024, el FHI produjo avances notables y una nueva forma de pensar sobre las grandes cuestiones de la humanidad. La legitimación académica de la investigación en AI Safety por parte de Oxford otorgó al campo credibilidad científica.

Fundado en 2005 en la Universidad de Oxford, creció de 3 a unos 40 investigadores hasta su cierre en 2024

Trabajo pionero en riesgos existenciales, Longtermism y AI Governance como nuevos campos de investigación

Estableció el AI Alignment y la AI Safety como disciplinas académicas legítimas con impacto global

Otorgó a la investigación en seguridad de la IA credibilidad científica y respeto gracias a su afiliación con Oxford

Personas:Nick Bostrom, Anders Sandberg

Organizaciones:Oxford University, Future of Humanity Institute

2005Competiciones

DARPA Grand Challenge: el nacimiento del vehículo autónomo

El 8 de octubre de 2005, un Volkswagen Touareg azul llamado 'Stanley' hizo historia. Bajo la dirección de Sebastian Thrun, el Stanford Racing Team ganó la DARPA Grand Challenge — la primera competición de vehículos autónomos ganada con éxito en el mundo. Tras el fracaso total de todos los participantes en 2004 (el mejor: 7,4 millas, es decir, 11,9 km), Stanley recorrió la totalidad del trayecto desértico de 212 km en 6 horas y 53 minutos. Cinco vehículos alcanzaron la meta, cuatro de ellos dentro del límite de tiempo — un avance notable en comparación con los cero del año anterior. Stanley navegó por tres túneles estrechos, más de 100 curvas pronunciadas y el peligroso Beer Bottle Pass con sus precipicios. La innovación fue el software, no el hardware: sensores LiDAR, aprendizaje automático y un registro de decisiones de conducción humanas dotaron a Stanley de capacidades que ningún robot había tenido antes. Los 2 millones de dólares en premios fueron solo el principio — Stanley sentó las bases del Tesla Autopilot, Google Waymo y toda la industria de los vehículos autónomos. Hoy, Stanley se expone en el Smithsonian Museum.

El 'Stanley' de Stanford ganó como primer vehículo autónomo un recorrido desértico de 212 km en menos de 7 horas

Salto de cero vehículos exitosos (2004) a cinco llegadas a meta (2005), cuatro dentro del límite de tiempo, gracias a una IA mejorada

Reconocido como carrera de software: LiDAR, aprendizaje automático y datos de conducción humana como claves del éxito

Momento fundacional de la tecnología de conducción autónoma moderna — inspiró a Tesla, Google y a toda una industria

Personas:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organizaciones:DARPA, Stanford University, Stanford AI Lab

2006Publicaciones

Redes de creencia profunda: el renacimiento del aprendizaje profundo

Geoffrey Hinton transformó el mundo de la IA en 2006 con su importante artículo sobre las redes de creencia profunda. Tras años de impopularidad de las redes neuronales, demostró cómo entrenar de forma eficiente redes neuronales profundas. Su innovación: el preentrenamiento capa a capa con máquinas de Boltzmann restringidas (RBM). Esta estrategia de aprendizaje 'voraz' resolvió el problema de la inicialización de pesos y hizo que el aprendizaje profundo fuera prácticamente aplicable. El método apila RBM una encima de otra y entrena cada capa por separado antes de refinar la red completa. El trabajo de Hinton puso fin a los años de oscuridad de las redes neuronales e inició su renacimiento. Ya en 2009, las DBN redujeron considerablemente las tasas de error en el reconocimiento de voz. En 2012, el equipo de Hinton ganó el ImageNet Challenge (ILSVRC) con AlexNet — una red neuronal convolucional profunda que utilizaba entrenamiento en GPU, ReLU y Dropout, y ya no dependía del preentrenamiento con RBM de las DBN. AlexNet alcanzó una tasa de error top-5 del 15,3% frente al 26,2% del segundo mejor equipo — una mejora notable. Este momento marca el renacimiento de las redes neuronales y el inicio del actual auge de la IA.

El algoritmo de aprendizaje voraz capa a capa permitió por primera vez el entrenamiento eficiente de redes neuronales profundas

Apilamiento de máquinas de Boltzmann restringidas (RBM) como bloques constructivos para representaciones complejas

El preentrenamiento no supervisado resolvió el problema de inicialización de pesos en redes profundas

Puso fin al período de oscuridad de las redes neuronales y fundó la moderna revolución del aprendizaje profundo a partir de 2006

Personas:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organizaciones:University of Toronto, Neural Computation

2006Competiciones

Netflix Prize: el algoritmo del millón de dólares

La democratización del aprendizaje automático a través de un concurso de crowdsourcing de una magnitud sin precedentes, con un conjunto de datos público y un premio de un millón de dólares. El 2 de octubre de 2006, Netflix lanzó este desafío de un millón de dólares: ¿quién puede mejorar en un 10% el algoritmo de recomendación Cinematch? Con más de 100 millones de valoraciones de 480.000 usuarios para 17.770 películas, Netflix puso a disposición uno de los mayores conjuntos de datos públicos de ML. Se registraron más de 40.000 equipos de 186 países; de ellos, más de 5.000 lograron acceder al marcador de clasificación y presentaron conjuntamente unas 44.000 soluciones válidas. Cuando el equipo 'BellKors Pragmatic Chaos' superó el 26 de junio de 2009 el umbral del 10% como primero en hacerlo, se activó el último plazo de 30 días, que concluyó el 26 de julio de 2009; el ganador, con una mejora del 10,06%, fue proclamado oficialmente en la ceremonia de entrega de premios del 21 de septiembre de 2009. Su fórmula de éxito: una combinación de conjuntos de factorización matricial y máquinas de Boltzmann restringidas. El concurso transformó considerablemente el filtrado colaborativo y demostró el poder del crowdsourcing para resolver problemas complejos de ML. Aunque Netflix nunca puso en producción los algoritmos ganadores (el coste de implementación era demasiado elevado), el concurso inspiró de forma duradera la industria moderna de los sistemas de recomendación.

1 millón de dólares de premio por mejorar en un 10% el algoritmo Cinematch a lo largo de 3 años de competición

Más de 100 millones de valoraciones de 480.000 usuarios para 17.770 películas como conjunto de datos público de ML

Transformó considerablemente el filtrado colaborativo mediante factorización matricial y máquinas de Boltzmann restringidas

Más de 40.000 equipos de 186 países; más de 5.000 en el marcador de clasificación con unas 44.000 propuestas: el poder del crowdsourcing para el ML

Personas:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organizaciones:Netflix, BellKor, AT&T Research

2007Conjuntos de datos

Fundación de Common Crawl

La democratización de internet como datos de entrenamiento para la inteligencia artificial. En 2007, Gil Elbaz fundó la Common Crawl Foundation con la misión de archivar la totalidad de la web pública y ponerla a disposición de forma gratuita. A partir de 2008 comenzó la actividad sistemática de rastreo, cuyo corpus crece mes a mes con miles de millones de páginas y que actualmente (a fecha de 2024) supera las 100.000 millones de páginas web y varios petabytes de datos. Esta colección se convirtió en la fuente de entrenamiento más importante para los modelos de lenguaje de gran escala y posibilitó el desarrollo de GPT-3, ChatGPT, LLaMA y otros sistemas de IA modernos. Common Crawl se distinguió de los enfoques comerciales por su carácter sin ánimo de lucro y su libre disponibilidad. La colección de datos brutos sin filtrar requiere un procesamiento posterior, pero democratizó el acceso a datos lingüísticos exhaustivos e hizo la investigación en IA menos dependiente de conjuntos de datos propietarios.

Fundada en 2007 con la misión de archivar la totalidad de la web pública y ponerla a disposición de forma gratuita

Crece mensualmente con miles de millones de páginas desde el inicio del rastreo en 2008 — a fecha de 2024, más de 100.000 millones de páginas web y varios petabytes de datos

Se convirtió en la fuente de entrenamiento más importante para GPT-3, ChatGPT, LLaMA y otros grandes modelos de lenguaje modernos

El enfoque sin ánimo de lucro democratizó el acceso a datos lingüísticos exhaustivos para la investigación en IA a escala mundial

Personas:Gil Elbaz, Common Crawl Team

Organizaciones:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Hitos

CUDA: la tarjeta gráfica se convierte en el motor de la IA

La revolución de la IA de 2012 no funcionó solo gracias a los algoritmos, sino también a las tarjetas gráficas. El terreno lo preparó NVIDIA en 2007 con CUDA: una plataforma que permitía ejecutar programas ordinarios escritos en un lenguaje similar a C directamente en la GPU, no solo gráficos. Presentada con el chip G80 a finales de 2006, lanzada en beta pública en febrero de 2007 y como versión 1.0 en junio de 2007, CUDA hizo accesible por primera vez de forma masiva el enorme paralelismo de los procesadores gráficos. Esto encajaba perfectamente con las redes neuronales, cuyo núcleo computacional son las multiplicaciones de matrices: miles de pequeñas operaciones simultáneas. Cinco años más tarde, Krizhevsky, Sutskever y Hinton entrenaron AlexNet en dos tarjetas NVIDIA GTX 580 con CUDA, el avance que detonó el aprendizaje profundo. A partir de 2014, cuDNN de NVIDIA proporcionó los bloques optimizados sobre los que hoy corren TensorFlow, PyTorch y otros. Para contextualizar: CUDA no inventó el GPGPU (los shaders programables existían desde 2001 y BrookGPU desde 2004) y no fue la causa única del aprendizaje profundo, pero hizo accesible la potencia de cómputo necesaria, sin la cual nada de lo demás habría sido posible.

CUDA (2007, NVIDIA; arquitectos Ian Buck, del proyecto BrookGPU, y John Nickolls) permite ejecutar programas de propósito general en un lenguaje similar a C directamente en la GPU, no solo gráficos.

Las GPU calculan miles de operaciones en paralelo. Esto encaja exactamente con las redes neuronales, cuyo núcleo son las multiplicaciones de matrices.

Se convirtió en el motor del aprendizaje profundo: AlexNet (2012) se entrenó en dos tarjetas GTX 580 con CUDA; a partir de cuDNN (2014), prácticamente todos los grandes frameworks corren sobre él.

Anti-hype: el GPGPU existía antes de CUDA (shaders en 2001, BrookGPU en 2004); CUDA no causó solo el aprendizaje profundo, sino que hizo accesible la potencia de cómputo (condición necesaria, no suficiente).

Personas:Ian Buck, John Nickolls

Organizaciones:NVIDIA

2008Publicaciones

Zero-Shot Learning: aprender sin datos

La formalización del aprendizaje de clases no vistas mediante descripciones semánticas. En julio de 2008, Hugo Larochelle, Dumitru Erhan y Yoshua Bengio publicaron en la conferencia AAAI su trabajo 'Zero-data Learning of New Tasks', que proporcionó la formalización teórica precursora. El nombre 'Zero-Shot Learning' fue acuñado en 2009 por dos grupos distintos: Palatucci y colaboradores con 'Zero-Shot Learning with Semantic Output Codes' en NIPS 2009, y Lampert y colaboradores con su enfoque basado en atributos en CVPR 2009. El problema fundamental: ¿cómo puede un modelo clasificar clases para las que no hay datos de entrenamiento disponibles, sino solo descripciones? La solución residía en los embeddings semánticos y el aprendizaje por transferencia, es decir, la reutilización de modelos entrenados para nuevas tareas. La formalización de Larochelle abordaba conjuntos de clases muy grandes que no pueden cubrirse completamente con datos de entrenamiento. Los análisis experimentales demostraron una capacidad de generalización significativa en este contexto. Este trabajo sentó las bases conceptuales de las modernas capacidades Few-Shot y Zero-Shot en GPT-3, GPT-4 y otros modelos de lenguaje grandes. El Zero-Shot Learning se convirtió en una tecnología clave para los sistemas de IA escalables.

Clasificación de clases sin datos de entrenamiento, solo con descripciones semánticas de las clases objetivo

Reutilización de modelos entrenados para tareas completamente nuevas mediante embeddings semánticos

Las representaciones semánticas permiten la generalización a conceptos no vistos

Sentó las bases de las capacidades Few-Shot y Zero-Shot de los modelos de lenguaje grandes modernos

Personas:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organizaciones:University of Montreal

2009Conjuntos de datos

Se establecen los datasets CIFAR

La creación de un benchmark fundamental para visión por computadora. En 2009, Alex Krizhevsky, Vinod Nair y Geoffrey Hinton en la Universidad de Toronto desarrollaron los datasets CIFAR-10 y CIFAR-100. Estos emergieron como subconjuntos etiquetados del dataset 'Tiny Images' de 80 millones de imágenes. CIFAR-10 comprende 60,000 imágenes a color de 32x32 píxeles en diez categorías como aviones, autos y animales, mientras CIFAR-100 distribuye el mismo número de imágenes en cien clases más finas. Los datasets se convirtieron en uno de los benchmarks más importantes en investigación de visión por computadora y permitieron comparaciones estandarizadas entre diferentes algoritmos. Notable es la conexión con AlexNet: Krizhevsky usó CIFAR-10 antes de 2011 para entrenar CNNs pequeñas en GPUs individuales - un precursor de su posterior éxito en ImageNet de 2012.

CIFAR-10 con 60,000 imágenes en 10 categorías, CIFAR-100 con 100 clases más detalladas como benchmarks de visión por computadora

Se convirtió en uno de los benchmarks estandarizados más importantes para algoritmos de visión por computadora mundialmente

Permitió evaluación sistemática y comparación de diferentes enfoques de machine learning

Krizhevsky usó CIFAR-10 antes de 2011 para entrenamiento de CNN - precursor de su éxito con AlexNet en 2012

Personas:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organizaciones:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Conjuntos de datos

ImageNet: el conjunto de datos que lo cambió todo

La creación del conjunto de datos que hizo posible el desarrollo del aprendizaje profundo. En 2009, Fei-Fei Li y su equipo presentaron el artículo de ImageNet e introdujeron una base de datos visual destinada a transformar la visión por ordenador; en el momento de su lanzamiento contaba con unos 3,2 millones de imágenes anotadas manualmente en unas 5.200 categorías. En su dimensión completa, ImageNet llegó a incluir más de 14 millones de imágenes anotadas manualmente y unas 22.000 categorías, basadas en las jerarquías de WordNet, y abordó así el cuello de botella crítico: la escasez de datos de entrenamiento de gran escala y alta calidad. La anotación fue realizada a lo largo del proyecto por unos 49.000 trabajadores de 167 países a través de Amazon Mechanical Turk, un proyecto colaborativo sin precedentes. Lo que comenzó como un póster en un rincón de un centro de conferencias en Miami Beach se convirtió en el desafío anual ImageNet (ILSVRC) y pasó a ser uno de los tres motores del desarrollo moderno de la IA. ImageNet hizo posible el avance de AlexNet en 2012 y sentó las bases para los vehículos autónomos, el reconocimiento facial y el diagnóstico médico por imagen.

En el lanzamiento de 2009, unos 3,2 millones de imágenes; en su dimensión completa, más de 14 millones de imágenes anotadas manualmente en unas 22.000 categorías por unos 49.000 trabajadores de 167 países

Basado en las jerarquías de WordNet para una categorización estructurada de objetos visuales

Proporcionó los datos de entrenamiento críticos para el avance de AlexNet en 2012 y el desarrollo del aprendizaje profundo

Transformó la investigación en visión por ordenador y posibilitó los vehículos autónomos, el reconocimiento facial y el diagnóstico médico por imagen

Personas:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organizaciones:Stanford University, Princeton University

2010Hitos

DeepMind es fundada

El nacimiento de un laboratorio de IA que haría titulares mundiales. En septiembre de 2010, Demis Hassabis, Shane Legg y Mustafa Suleyman fundaron DeepMind Technologies en Londres. Su objetivo: desarrollar inteligencia artificial general combinando conocimientos de neurociencia y aprendizaje automático. Hassabis, un ex prodigio del ajedrez y desarrollador de juegos, trajo una visión única: la IA debería aprender como el cerebro humano. En 2014, Google adquirió la startup por un estimado de $500 millones – una de las mayores adquisiciones de IA en la historia. DeepMind posteriormente asombraría al mundo con AlphaGo, AlphaFold y otros avances.

Fundada en septiembre de 2010 en Londres como DeepMind Technologies

Demis Hassabis (neurocientífico, desarrollador de juegos), Shane Legg y Mustafa Suleyman

Adquirida por Google en 2014 por un estimado de $500 millones

Posteriormente responsable de AlphaGo, AlphaFold y otros sistemas de IA revolucionarios

Personas:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organizaciones:DeepMind, Google

2010Competiciones

ImageNet Challenge: empieza la competición

El establecimiento del punto de referencia más importante en visión por ordenador de toda la historia de la IA. En 2010 arrancó la primera ImageNet Large Scale Visual Recognition Challenge (ILSVRC) y creó una competición estandarizada que marcaría la investigación en visión por ordenador durante la siguiente década. Con 1.000 categorías de objetos y 1,2 millones de imágenes de entrenamiento, la Challenge superaba con creces los puntos de referencia disponibles hasta entonces, como PASCAL VOC, que solo contaba con 20 clases. La evaluación se realizó mediante las tasas de error Top-1 y Top-5, métricas que siguen siendo estándar hoy en día. De 2010 a 2017, la precisión Top-5 de los ganadores mejoró de forma notable, pasando del 71,8% al 97,3%, y finalmente superó el rendimiento humano. La competición anual atrajo a más de 50 instituciones de todo el mundo y catalizó avances que culminaron en 2012 con el significativo avance de AlexNet: una tasa de error Top-5 de solo el 15,3% (una precisión de aproximadamente el 84,7%).

Primera ILSVRC 2010 con 1.000 categorías y 1,2 millones de imágenes de entrenamiento, muy por encima de PASCAL VOC

Estableció las tasas de error Top-1 y Top-5 como métricas estándar para la evaluación en visión por ordenador

La competición anual celebrada desde 2010 atrajo a más de 50 instituciones de todo el mundo y impulsó los avances en investigación

Creó la estructura competitiva que en 2012 hizo posible el avance de AlexNet: una tasa de error Top-5 de solo el 15,3% (una precisión de aproximadamente el 84,7%)

Personas:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organizaciones:Stanford University, ImageNet Team

2011Competiciones

Watson vence a los campeones de Jeopardy

El triunfo de IBM en el procesamiento del lenguaje natural y la demostración de la comprensión lingüística por parte de las máquinas. El 16 de febrero de 2011, el sistema Watson de IBM venció en el desafío televisado de Jeopardy a los dos campeones más exitosos de todos los tiempos: Ken Jennings (74 victorias consecutivas) y Brad Rutter (3,25 millones de dólares en premios hasta 2005). Watson, desarrollado por el equipo DeepQA de David Ferrucci, constaba de 90 servidores IBM Power 750 (en 10 racks) con 16 terabytes de RAM y 2.880 núcleos de procesador POWER7. La innovación residía en el procesamiento del lenguaje natural: Watson comprendía preguntas en lenguaje natural y respondía con mayor precisión que cualquier tecnología de búsqueda estándar, sin conexión a internet. Con 77.147 dólares en premios (donados a obras benéficas), Watson dominó a sus rivales humanos por más de 50.000 dólares. El famoso comentario final de Ken Jennings, 'I for one welcome our new computer overlords', subrayó la importancia histórica de este hito en el procesamiento del lenguaje natural.

Venció a las leyendas de Jeopardy Ken Jennings y Brad Rutter en un desafío televisado

Primera demostración televisada de capacidades avanzadas de procesamiento del lenguaje natural ante millones de espectadores

El sistema DeepQA combinó la recuperación de conocimiento con un razonamiento complejo sin conexión a internet

El comentario 'computer overlords' de Ken Jennings subrayó la importancia cultural del avance de la IA

Personas:David Ferrucci, Ken Jennings, Brad Rutter

Organizaciones:IBM Research, Jeopardy!, Sony Pictures Television

2011Productos

Lanzamiento de Siri: el asistente de voz llega al gran público

El 4 de octubre de 2011, Apple transformó notablemente la interacción entre humanos y ordenadores con la introducción de Siri en el iPhone 4S. Como primera asistente de voz de masas integrada de forma profunda en un smartphone, Siri acercó la IA al bolsillo de millones de personas. ¿Qué tiempo hace hoy? o Encuéntrame un buen restaurante griego: de repente los usuarios podían hablar con su teléfono de forma natural. Siri no era una invención completamente nueva: existía desde 2010 como aplicación iOS independiente de Siri Inc. (adquirida por Apple), y Google ya ofrecía búsqueda por voz con Voice Actions. Pero fue la integración fluida de Apple en el sistema operativo lo que convirtió al asistente de voz en un fenómeno de masas. Siri se basaba en décadas de investigación en SRI International y en el proyecto CALO de DARPA. Susan Bennett había grabado sin saberlo la voz original en 2005. Steve Jobs, gravemente enfermo en sus últimos días, ya no apareció en el acto de presentación; fue Tim Cook quien presentó el iPhone 4S. Un día después de la presentación de Siri, Jobs falleció. Siri no era perfecta: los críticos señalaron sus comandos rígidos y su falta de flexibilidad. Pero el objetivo estaba logrado: la IA se había convertido en algo masivo. Siri inspiró a Amazon Alexa, Google Assistant y Microsoft Cortana. La era de los asistentes de voz había comenzado.

Primera asistente de voz de masas integrada en un smartphone, que acercó la IA a millones de usuarios de todo el mundo

El procesamiento avanzado del lenguaje natural posibilitó una comunicación intuitiva entre personas y ordenadores

Uno de los últimos grandes productos de Steve Jobs antes de su muerte el 5 de octubre de 2011

Inauguró la era moderna de los asistentes de voz e inspiró a todos los competidores

Personas:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organizaciones:Apple, SRI International, DARPA

2012Publicaciones

Regularización Dropout

Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever y Ruslan Salakhutdinov transformaron en julio de 2012 el entrenamiento de redes neuronales con la invención de la regularización Dropout. Esta elegante técnica previene el sobreajuste desactivando aleatoriamente aproximadamente la mitad de todas las neuronas durante el entrenamiento, lo que evita las complejas co-adaptaciones. En lugar de combinaciones específicas de características, cada neurona aprende patrones de reconocimiento robustos y de utilidad general. El método, publicado el 3 de julio de 2012 en arXiv, se convirtió pocos meses después en uno de los componentes clave del triunfo de AlexNet en ImageNet en la ILSVRC 2012, cuyos resultados se presentaron en octubre de 2012 — junto al entrenamiento en GPU, la activación ReLU y la profundidad de la red — y se establece como estándar en la mayoría de las arquitecturas modernas de aprendizaje profundo. Dropout bate nuevos récords en reconocimiento de voz y de objetos, y resuelve el problema central del sobreajuste en redes profundas.

Resuelve el problema central del sobreajuste en las redes neuronales profundas, mejorando la generalización

Desactivación aleatoria de la mitad de todas las neuronas durante el entrenamiento

Uno de los componentes clave del avance de AlexNet en ImageNet — junto al entrenamiento en GPU, ReLU y la profundidad de la red

Se establece como estándar en la mayoría de las arquitecturas modernas de aprendizaje profundo

Personas:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organizaciones:University of Toronto

2012Avances

El éxito de AlexNet

El punto de inflexión para el aprendizaje profundo y la IA moderna. El 30 de septiembre de 2012 se publicaron los resultados del ImageNet Challenge, que AlexNet ganó con una ventaja tal que transformó de forma duradera la visión por ordenador. Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton de la Universidad de Toronto desarrollaron una arquitectura CNN que superó a su competencia en notables 10,9 puntos porcentuales, una mejora que la comunidad científica considera extraordinaria. Con 60 millones de parámetros y técnicas innovadoras como las activaciones ReLU y las capas de dropout, AlexNet demostró de forma convincente la superioridad práctica del aprendizaje profundo. Ese fue el momento en que una teoría interesante se convirtió en una tecnología dominante. Yann LeCun lo llamó 'un punto de inflexión indudable en la historia de la visión por ordenador'. La implementación basada en GPU allanó el camino para el desarrollo moderno de la IA.

AlexNet ganó el ImageNet Challenge 2012 con una tasa de error del 15,3%: 10,9 puntos porcentuales mejor que el segundo participante (26,2%)

60 millones de parámetros, activaciones ReLU, capas de dropout y entrenamiento en GPU establecieron nuevos estándares técnicos

Demostró de forma convincente la superioridad práctica del aprendizaje profundo y acabó con el escepticismo hacia las redes neuronales

Impulsó el desarrollo moderno de la IA y convirtió las arquitecturas CNN en el estándar en visión por ordenador

Personas:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organizaciones:University of Toronto, ImageNet Challenge, NIPS

2012Avances

La revolución del aprendizaje profundo

El año que inauguró la era moderna de la IA mediante la convergencia de conjuntos de datos, potencia de GPU y arquitecturas neuronales. 2012 marcó el ascenso del aprendizaje profundo como tecnología de IA dominante, catalizado por la impresionante victoria de AlexNet en ImageNet. La convergencia de tres avances lo hizo posible: el conjunto de datos ImageNet de Fei-Fei Li proporcionó masivos datos de entrenamiento etiquetados, la computación con GPU alcanzó la potencia de cálculo necesaria para redes profundas, y los métodos de entrenamiento mejorados como las activaciones ReLU y la regularización Dropout superaron las antiguas limitaciones. El equipo de Geoffrey Hinton — Alex Krizhevsky, Ilya Sutskever y el propio Hinton — demostró en la casa de los padres de Krizhevsky con dos tarjetas Nvidia que las redes neuronales profundas eran viables. AlexNet resultó ser un punto de inflexión para la visión artificial. Este éxito aumentó considerablemente el interés por el aprendizaje profundo y allanó el camino para VGG, ResNet y, finalmente, el desarrollo actual de la IA generativa.

El aprendizaje profundo se estableció como la tecnología de IA dominante y puso fin al predominio de los enfoques tradicionales de aprendizaje automático

La victoria de AlexNet en ImageNet demostró por primera vez la superioridad práctica de las redes neuronales profundas

La computación con GPU posibilitó el entrenamiento de grandes redes neuronales y transformó radicalmente los métodos de investigación en IA

Desencadenó masivas inversiones en investigación de aprendizaje profundo y la adopción industrial de arquitecturas neuronales

Personas:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organizaciones:University of Toronto, NYU, University of Montreal

2013Publicaciones

Word2Vec: palabras como vectores

La transformación de la representación de palabras mediante espacios vectoriales semánticos. El 16 de enero de 2013, Tomas Mikolov y su equipo de Google publicaron el influyente artículo 'Efficient Estimation of Word Representations in Vector Space'. Word2Vec transformó el procesamiento del lenguaje natural al representar las palabras como vectores densos y de baja dimensionalidad (típicamente entre 100 y 300 dimensiones) que capturan relaciones semánticas y sintácticas, una ruptura con los enormes vectores dispersos one-hot de los métodos anteriores. Las dos variantes arquitectónicas, CBOW (Continuous Bag of Words) y Skip-Gram, aprendían a partir de grandes corpus de texto que palabras similares aparecen en contextos similares. El célebre ejemplo ilustraba la aritmética vectorial: rey - hombre + mujer = reina. Con más de 49.000 citas, el trabajo de Mikolov se convirtió en uno de los artículos más influyentes del procesamiento del lenguaje natural. Word2Vec sentó las bases de todas las técnicas modernas de embeddings y permitió el razonamiento semántico en espacios vectoriales. Esta innovación allanó el camino para las arquitecturas Transformer y los modelos de lenguaje grandes modernos.

Primeras representaciones vectoriales densas y de baja dimensionalidad de palabras con relaciones semánticas

Patrones semánticos y sintácticos mediante aritmética vectorial: rey - hombre + mujer = reina

Permitió el razonamiento analógico en espacios vectoriales mediante similitud coseno y métricas de distancia

Sentó las bases de las técnicas modernas de embeddings y los modelos de lenguaje grandes basados en Transformer

Personas:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organizaciones:Google, Google Research

2013Publicaciones

VAE: Autoencoders variacionales

El desarrollo de modelos generativos probabilísticos mediante la modelización del espacio latente. El 20 de diciembre de 2013, Diederik Kingma y Max Welling publicaron el artículo 'Auto-Encoding Variational Bayes'. Los VAE conectan redes de codificador y decodificador a través de un espacio latente probabilístico, normalmente una distribución gaussiana multivariante. A diferencia de los autoencoders deterministas, el codificador codifica los datos como distribuciones en lugar de puntos individuales, lo que permite la interpolación continua y la generación de datos. El truco de reparametrización hace que la aleatoriedad sea diferenciable como entrada del modelo y permite la optimización estándar por gradiente. En sus experimentos, los VAE generaron dígitos escritos a mano (MNIST) e imágenes pequeñas de rostros (Frey Faces), aún borrosas, pero demostrando la viabilidad de la inferencia variacional. Este trabajo sentó las bases de la IA generativa moderna e influyó en enfoques probabilísticos posteriores, incluidos los modelos de difusión.

Inferencia variacional para la aproximación eficiente de distribuciones posteriores intratables en variables latentes continuas

El espacio latente probabilístico permite la interpolación continua y la generación de nuevos puntos de datos

Conexion pionera entre la arquitectura de autoencoder y la modelización generativa probabilística escalable mediante inferencia variacional amortizada

Arquitectura codificador-decodificador con truco de reparametrización para aleatoriedad diferenciable

Personas:Diederik P. Kingma, Max Welling

Organizaciones:University of Amsterdam

2014Publicaciones

Adam: el optimizador estándar del aprendizaje profundo

Para que una red neuronal aprenda, un optimizador debe ajustar paso a paso sus millones de parámetros en la dirección correcta. En 2014, Diederik Kingma y Jimmy Ba presentaron un procedimiento que pronto se convirtió en el más utilizado del sector: Adam, nombre derivado de la expresión inglesa Adaptive Moment Estimation (y no es un acrónimo). El truco de Adam consiste en mantener una tasa de aprendizaje propia y ajustada automáticamente para cada parámetro individual. Para ello combina dos ideas contrastadas: el momentum, que incorpora la dirección anterior, y los pasos adaptativos al estilo de RMSProp. El resultado: las redes se entrenan de forma robusta y sin tener que experimentar laboriosamente con la tasa de aprendizaje. El artículo se convirtió en uno de los más citados de la investigación en IA. Para ser honestos: Adam no es una panacea. En algunos casos, el más sencillo SGD generaliza mejor a datos nuevos. Además, Adam se apoya en precursores como AdaGrad y RMSProp, y variantes posteriores como AdamW (2017) tuvieron que corregir debilidades del original.

En 2014, Diederik Kingma y Jimmy Ba presentaron el optimizador Adam, cuyo nombre deriva de Adaptive Moment Estimation (no es un acrónimo).

Adam ajusta la tasa de aprendizaje para cada parámetro automáticamente y combina dos ideas: momentum y pasos adaptativos (como en RMSProp).

Adam se convirtió en la herramienta estándar para el entrenamiento de redes neuronales: robusto y sin necesidad de ajuste manual. El artículo figura entre los más citados de la investigación en IA.

Anti-hype: Adam no es una panacea; en algunos casos el SGD sencillo generaliza más eficazmente. Se apoya en precursores (AdaGrad, RMSProp); variantes posteriores como AdamW (2017) corrigieron sus debilidades.

Personas:Diederik Kingma, Jimmy Ba

2014Conjuntos de datos

MS COCO: el estándar de oro en visión por ordenador

En 2014, un equipo de investigadores de Microsoft Research, la Cornell University y la UC Berkeley transformó considerablemente la investigación en visión por ordenador con el conjunto de datos COCO (Common Objects in Context). A diferencia de ImageNet, que mostraba objetos de forma aislada, COCO presentaba los objetos en su contexto natural, tal como aparecen en el mundo real. 2,5 millones de anotaciones en 328.000 imágenes, organizadas en 91 categorías según el artículo original, de las cuales 80 conforman el punto de referencia de detección que sigue vigente hoy en día; todas ellas son objetos cotidianos que un niño de 4 años podría reconocer. La innovación radicaba en el detalle: máscaras de segmentación con precisión de píxel en lugar de simples bounding boxes. COCO hizo posible por primera vez la localización precisa de objetos y la comprensión de escenas complejas. El conjunto de datos se convirtió en el estándar de oro para la detección de objetos, la segmentación de instancias y el subtitulado de imágenes. Desde YOLO hasta Mask R-CNN, todos los grandes modelos de visión por ordenador se evalúan con COCO. Las métricas estandarizadas, como la precisión media promedio (mAP), permitieron realizar comparaciones objetivas entre modelos. Más de una década después, COCO sigue siendo el punto de referencia más importante de la comunidad de visión por ordenador. Sin COCO no existirían los modernos sistemas de reconocimiento de objetos en vehículos autónomos, vigilancia o realidad aumentada.

Objetos en contexto natural en lugar de aislados: transformó considerablemente la visión por ordenador, de escenas artificiales a escenas reales

2,5 millones de anotaciones con precisión de píxel en 328.000 imágenes: calidad y profundidad de anotación sin precedentes

Estándar de oro con métricas mAP para comparaciones objetivas entre modelos, que definió la evaluación en visión por ordenador

Base para YOLO, Mask R-CNN y todos los sistemas modernos de visión por ordenador, desde coches autónomos hasta realidad aumentada

Personas:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organizaciones:Microsoft Research, Cornell University, UC Berkeley

2014Publicaciones

GANs - Redes Generativas Adversariales

Ian Goodfellow inventa en 2014 las Generative Adversarial Networks (GANs) durante una noche en Montreal tras visitar un bar. Su innovador framework enfrenta dos redes neuronales en un juego minimax: un generador crea datos artificiales y un discriminador intenta distinguir los reales de los falsos. Este entrenamiento adversarial transforma fundamentalmente la IA generativa. La GAN original de 2014 solo generaba imágenes pequeñas y borrosas (de dígitos y rostros, por ejemplo), pero allanó el camino hacia la generación de imágenes fotorrealistas posterior. El artículo publicado en arXiv en 2014 se convirtió en uno de los papers de IA más influyentes y consagró a Goodfellow como una celebridad de la IA. Cientos de variantes de GAN le siguieron.

Dos redes neuronales en un juego de minimax: generación artificial frente a discriminación

Inventado en una noche de 2014 en Montreal tras visitar un bar — funcionó de inmediato

Framework matemáticamente elegante para la optimización adversarial

Transforma fundamentalmente la IA generativa — allana el camino hacia la generación de imágenes fotorrealistas posterior

Personas:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organizaciones:University of Montreal, NIPS Conference

2014Publicaciones

Mecanismo de atención: la clave para los LLM modernos

Septiembre de 2014: Dzmitry Bahdanau, Kyunghyun Cho y Yoshua Bengio publicaron un artículo que cambiaría de forma duradera el mundo del PLN. 'Neural Machine Translation by Jointly Learning to Align and Translate' resolvió un problema fundamental de los modelos secuencia a secuencia. Las arquitecturas codificador-decodificador anteriores comprimían cada oración de entrada en un único vector de longitud fija, un cuello de botella informativo en el caso de oraciones largas. La atención de Bahdanau fue un avance significativo: en lugar de un vector fijo, el modelo utilizaba una atención dinámica sobre distintas partes de la oración de entrada. Al igual que el ojo humano al leer, la atención de la IA salta entre las palabras relevantes. Esta 'atención aditiva' se convirtió en el precursor conceptual de los sistemas de PLN modernos. El Transformer posterior (2017) se basó en la idea de la atención, pero sustituyó la variante aditiva por la más eficiente Scaled-Dot-Product-Attention. Sin el concepto de atención de Bahdanau no habría Transformer; sin Transformer no habría familia GPT ni BERT. Este avance tuvo lugar tres años antes de 'Attention Is All You Need'.

Resolvió el cuello de botella del codificador-decodificador: longitudes de oración variables en lugar de compresión en un vector fijo

Atención dinámica en lugar de codificación estática: enfoque adaptativo en las partes relevantes de la entrada

Aprende la alineación entre idiomas: ¿qué palabras se corresponden al traducir?

Precursor conceptual del Transformer: la idea de atención de Bahdanau allanó el camino hacia GPT, BERT y ChatGPT

Personas:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organizaciones:University of Montreal, Jacobs University Bremen

2014Productos

Lanzamiento de Amazon Alexa y Echo

Amazon transforma considerablemente la interacción entre el ser humano y la tecnología con la presentación de Alexa y el altavoz inteligente Echo el 6 de noviembre de 2014. El Echo comenzó con acceso solo por invitación y exclusivamente para miembros Prime; no fue hasta las ventas al público general en 2015 cuando la IA de voz se volvió accesible para el gran consumidor y transformó el hogar en un entorno controlado por voz. Aprovechando la tecnología de síntesis de voz polaca Ivona, adquirida el 24 de enero de 2013, Amazon creó una experiencia de usuario completamente nueva. El Echo comenzó como dispositivo para controlar la música, pero se desarrolló rápidamente hasta convertirse en un hub universal para el hogar inteligente. Esta innovación fundó una categoría de masas y marcó el inicio de un desarrollo de amplio alcance en el mercado de los altavoces inteligentes, inspirando a numerosos competidores.

Fundó la categoría de masas de los altavoces inteligentes con disponibilidad de voz permanente

Hizo accesible la IA de voz para millones de consumidores a través de las ventas al público general a partir de 2015, no solo para entusiastas tecnológicos

Transformó los salones en centrales de hogar inteligente controladas por voz

Marcó el inicio de un amplio desarrollo de mercado: Google, Apple y otros siguieron su ejemplo

Personas:Jeff Bezos, Amazon Alexa Team

Organizaciones:Amazon, Ivona (acquired 2013)

2015Avances

Deep Q-Networks: la IA aprende Atari a partir de píxeles

Mucho antes de que AlphaGo acaparara los titulares, DeepMind consiguió en 2015 que una IA aprendiese videojuegos de Atari únicamente a partir de los píxeles en bruto, sentando así las bases del aprendizaje por refuerzo profundo. En febrero de 2015, el equipo liderado por Volodymyr Mnih publicó en Nature 'Human-level control through deep reinforcement learning' (un primer precursor había aparecido en 2013). Una red neuronal que solo veía la pantalla y la puntuación aprendió 49 juegos de Atari distintos con la misma arquitectura y sin ajustes por juego. Técnicamente, DeepMind combinó una red convolucional con Q-learning, un almacén de experiencias (experience replay, introducido por Lin a principios de los 1990) y una red objetivo estabilizadora. Para contextualizar con precisión: el sistema alcanzó el nivel humano en aproximadamente la mitad de los juegos y superó a todos los métodos anteriores en 43 de 49, pero fracasó casi por completo en juegos con recompensa escasa como Montezuma's Revenge. Aun así, fue la prueba de que las redes profundas y el aprendizaje por refuerzo encajaban a gran escala: el puente desde el Q-learning de los 1990 hasta AlphaGo y AlphaZero.

Aprendizaje a partir de píxeles en bruto: el sistema solo veía la pantalla y la puntuación; sin características construidas a mano ni conocimiento específico por juego.

Red convolucional + Q-learning + almacén de experiencias (experience replay, de Lin, principios de los 1990) + una red objetivo añadida en 2015 que estabilizó el entrenamiento.

Anti-hype: nivel humano en aproximadamente la mitad de los 49 juegos (43/49 mejor que métodos anteriores); prácticamente nulo en juegos de recompensa escasa (Montezuma's Revenge).

Pistoletazo de salida del aprendizaje por refuerzo profundo; dio notoriedad a DeepMind antes de AlphaGo: el puente que unió el Q-learning de los años 1990 con AlphaGo y AlphaZero.

Personas:Volodymyr Mnih, David Silver, Demis Hassabis

Organizaciones:Google DeepMind

2015Publicaciones

Batch Normalization: un avance importante en el entrenamiento de redes neuronales

El 11 de febrero de 2015, Sergey Ioffe y Christian Szegedy de Google publicaron un artículo que transformó de forma duradera el entrenamiento de redes neuronales profundas. Su diagnóstico: el 'Internal Covariate Shift' — la distribución de entrada de cada capa se desplaza durante el entrenamiento, lo que desestabiliza el aprendizaje. Su elegante solución: Batch Normalization normaliza las activaciones de cada capa para cada mini-batch. El efecto fue notable: alrededor de 14 veces menos pasos de entrenamiento para alcanzar la misma precisión. Se hicieron posibles tasas de aprendizaje más altas, el Dropout resultó a menudo innecesario y la inicialización menos crítica. El método actuaba a la vez como regularizador y como acelerador. Su ensemble en ImageNet alcanzó una tasa de error Top-5 del 4,8%, superando a los evaluadores humanos (aprox. 5,1%). Algo interesante: investigaciones posteriores (Santurkar et al. 2018) demostraron que el mecanismo real reside menos en el dominio del Covariate Shift que en un paisaje de pérdida más suavizado — la explicación original se considera hoy relativizada. Con más de 60.000 citas, el artículo ha inspirado numerosos métodos de normalización: GroupNorm, LayerNorm, InstanceNorm. Hoy en día, Batch Normalization es un estándar en muchas arquitecturas modernas, desde ResNet hasta las CNN actuales — mientras que los Transformers suelen optar por la Layer Normalization, en parte inspirada por este trabajo.

Resolvió el problema del Internal Covariate Shift mediante la normalización de las activaciones en cada mini-batch

Alrededor de 14 veces menos pasos de entrenamiento para alcanzar la misma precisión — permitió tasas de aprendizaje más altas e inicialización robusta

Doble ventaja: aceleración Y regularización — sustituto habitual del Dropout en arquitecturas modernas

4,8% de error Top-5 en ImageNet con ensemble — superó a los evaluadores humanos (aprox. 5,1%) y estableció un nuevo estándar

Personas:Sergey Ioffe, Christian Szegedy

Organizaciones:Google Inc., ICML Conference

2015Publicaciones

YOLO: Solo Miras Una Vez

La transformación de la detección de objetos en tiempo real a través de arquitectura unificada de una sola pasada. El 8 de junio de 2015, Joseph Redmon, Santosh Divvala, Ross Girshick y Ali Farhadi presentaron el artículo fundamental 'You Only Look Once: Unified, Real-Time Object Detection'. YOLO rompió el paradigma tradicional de dos etapas de detección de objetos y formuló la detección como un problema de regresión para cajas delimitadoras espacialmente separadas. Una sola red neuronal predice cajas delimitadoras y probabilidades de clase directamente desde imágenes completas en una evaluación. Con rendimiento base de 45 fps y Fast YOLO a asombrosos 155 fps, el sistema era cientos a miles de veces más rápido que detectores existentes. La arquitectura basada en cuadrícula dividía imágenes en celdas, con cada celda prediciendo objetos en su centro. YOLO aprendió representaciones generalizantes de objetos y superó significativamente otros métodos en transferencia de dominio.

Rendimiento base de 45 fps, Fast YOLO 155 fps – cientos a miles de veces más rápido que detectores existentes

Arquitectura de una sola pasada formula detección de objetos como problema de regresión en lugar de paradigma de dos etapas

División de celdas basada en cuadrícula con predicción directa de caja delimitadora y probabilidad de clase

Permitió visión por computadora en tiempo real para vehículos autónomos, vigilancia y aplicaciones móviles

Personas:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organizaciones:University of Washington, Allen Institute, Facebook AI Research

2015Avances

Desarrollo de DeepMind AlphaGo

En octubre de 2015, DeepMind logra un avance histórico: AlphaGo se convierte en el primer sistema de IA que vence a un jugador de Go profesional en un tablero completo sin handicap. AlphaGo derrota al campeón europeo de Go Fan Hui por 5:0 y conquista así el juego de mesa clásico más complejo del mundo — una década antes de lo que los expertos habían pronosticado. El partido permanece en secreto al principio; el éxito se hace público el 27 de enero de 2016, junto con la publicación en la revista científica Nature. El Go es astronómicamente más complejo que el ajedrez — aproximadamente un googol (10^100) veces más posiciones legales, con más configuraciones posibles del tablero que átomos en el universo conocido. Este notable éxito demuestra el poder de las redes neuronales y la búsqueda en árbol de Monte Carlo.

Primera victoria de un ordenador frente a un jugador profesional de Go en tablero completo sin hándicap (Fan Hui 5:0)

Enfoque novedoso con redes neuronales profundas en lugar de algoritmos con lógica codificada de forma fija

Superación de 10^170 posibles configuraciones del tablero, más que átomos en el universo

El avance llegó una década antes de lo que los expertos en IA habían pronosticado

Personas:Demis Hassabis, David Silver, DeepMind Team

Organizaciones:DeepMind, Google

2015Productos

Tesla Autopilot: sistemas de asistencia a la conducción para el gran público

El 14 de octubre de 2015, Tesla publicó la versión de software 7.0 y activó por primera vez el Autopilot en los vehículos Model S. El hardware ya estaba instalado en los vehículos desde septiembre de 2014, un año antes de la habilitación del software. El sistema utilizaba tecnología Mobileye con una cámara frontal, radar y 12 sensores ultrasónicos. Los conductores podían utilizar ahora el control de crucero adaptativo, el asistente de mantenimiento de carril y el aparcamiento automático, funciones que hasta entonces estaban reservadas a los vehículos de gama alta. Tesla lo calificó como automatización de nivel 2: el sistema asiste al conductor, pero no lo sustituye. Musk subrayó en la presentación: 'Recomendamos a los conductores que mantengan las manos en el volante.' Ya en el primer año, la flota de Tesla acumuló cientos de millones de kilómetros con el Autopilot activado; a finales de 2016, Tesla informó de unas 222 millones de millas recorridas. El concepto de instalar el hardware de antemano y activar las funciones mediante actualizaciones de software mostró a la industria automovilística un nuevo camino. Desde Mercedes hasta proveedores de tecnología puros como Mobileye, numerosos actores impulsaron sus propios sistemas de asistencia a la conducción.

La actualización de software del 14 de octubre de 2015 activó el hardware preinstalado: un nuevo concepto para la industria automovilística

Sensórica basada en Mobileye: cámara frontal, radar y 12 sensores ultrasónicos para la asistencia a la conducción de nivel 2

Control de crucero adaptativo, asistente de mantenimiento de carril y aparcamiento automático: funciones antes reservadas a la gama alta

Cientos de millones de kilómetros ya en el primer año: demostró la disposición del mercado masivo para los sistemas de asistencia a la conducción

Personas:Elon Musk, Tesla Engineering Team

Organizaciones:Tesla Inc., Mobileye

2015Productos

TensorFlow: el framework de ML de Google se hace código abierto

La democratización del aprendizaje automático a través de la poderosa herramienta interna de Google. El 9 de noviembre de 2015, Google liberó TensorFlow bajo licencia Apache 2.0 e hizo su sistema de ML de segunda generación disponible para todos. TensorFlow reemplazó el sistema interno DistBelief y ofreció el doble de velocidad con escalabilidad mejorada y preparación para producción. Como procesador universal de grafos de flujo computacional, TensorFlow permitió no solo deep learning sino cualquier computación diferenciable. La interfaz flexible de Python, auto-diferenciación y optimizadores de primera clase revolucionaron el desarrollo de ML. La estrategia de Google: el desarrollo basado en comunidad acelera el progreso de la IA para todos. Desarrollado con más de 30 autores del equipo Google Brain, TensorFlow se convirtió en una de las plataformas de ML líderes y permitió a millones de desarrolladores crear aplicaciones avanzadas de IA.

La licencia Apache 2.0 hizo el poderoso sistema interno de ML de Google disponible gratuitamente para todos

Reemplazó DistBelief con el doble de velocidad y escalabilidad mejorada

La interfaz flexible de Python y auto-diferenciación mejoraron significativamente el desarrollo de ML

Permitió a millones de desarrolladores acceso a tecnología avanzada de IA

Personas:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organizaciones:Google, Google Brain

2015Publicaciones

ResNet: las redes residuales transforman el aprendizaje profundo

La solución al problema de degradación de las redes muy profundas y el nacimiento de las redes ultraprofundas. El 10 de diciembre de 2015, el equipo de Kaiming He en Microsoft Research publicó el artículo 'Deep Residual Learning for Image Recognition' y transformó considerablemente el aprendizaje profundo. Hasta entonces, la precisión de entrenamiento empeoraba al apilar redes cada vez más profundas, no principalmente por los gradientes que desaparecen, sino porque las redes profundas simplemente eran más difíciles de optimizar. ResNet introdujo las conexiones residuales, conexiones de salto que transmiten las entradas directamente a capas posteriores y permiten el entrenamiento de redes ultraprofundas. Con 152 capas, ResNet era ocho veces más profundo que VGG, pero menos complejo. El resultado fue notable: una tasa de error Top-5 del 3,57% del conjunto de modelos en ImageNet, un triunfo que dominó todas las categorías. ResNet ganó la clasificación, detección y localización de ImageNet, así como la detección y segmentación de COCO en 2015. El marco de aprendizaje residual reformuló las capas como aprendizaje de funciones residuales en lugar de funciones sin referencia. Esta innovación permitió el entrenamiento de redes con cientos de capas.

Las conexiones de salto transmiten las entradas directamente a capas posteriores y permiten así el entrenamiento de redes ultraprofundas

152 capas: 8 veces más profundo que VGG, pero menos complejo gracias al marco de aprendizaje residual

Tasa de error Top-5 del 3,57% (conjunto) en ImageNet; ganó todas las categorías de ILSVRC y COCO 2015

Estableció las conexiones residuales como estándar para las arquitecturas modernas de aprendizaje profundo

Personas:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organizaciones:Microsoft Research

2015Hitos

Fundación de OpenAI

La organización que quería hacer la IA accesible para todos, y que cambió el mundo. El 11 de diciembre de 2015, Sam Altman, Elon Musk y otras personalidades destacadas del sector tecnológico anunciaron la fundación de OpenAI. Con un compromiso de financiación de mil millones de dólares, distribuido a lo largo de varios años, del que al principio solo fluyó una pequeña parte, y con el objetivo de desarrollar una IA general segura que beneficie a toda la humanidad, OpenAI entró en escena como organización de investigación sin ánimo de lucro. Lo que comenzó como un proyecto idealista se convirtió en el laboratorio de IA más influyente del mundo. En 2019 se fundó una filial con ánimo de lucro. Con GPT-3 y ChatGPT, OpenAI redefinió lo que la IA puede lograr.

Fundada el 11 de diciembre de 2015 en San Francisco; misión benéfica desde el principio

Misión: desarrollar una IA general segura que beneficie a toda la humanidad

Comprometido: 1.000 millones de dólares de Elon Musk, Peter Thiel, Reid Hoffman y otros, un compromiso de financiación a lo largo de varios años, no disponible de inmediato

GPT-1 (2018) y GPT-2 (2019) surgieron aún en la fase puramente sin ánimo de lucro; en 2019 llegó la estructura capped-profit, en la que se enmarcan GPT-3 (2020) y ChatGPT (2022)

Personas:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organizaciones:OpenAI, Y Combinator

2016Competiciones

AlphaGo derrota a Lee Sedol

El momento histórico cuando la IA derrotó por primera vez a un campeón mundial en el juego de mesa más complejo. Del 9 al 15 de marzo de 2016, el DeepMind Challenge Match tuvo lugar en Seúl: cinco partidas entre Lee Sedol, uno de los mejores jugadores de Go del mundo, y AlphaGo. El resultado asombró al mundo: 4:1 para la máquina. Particularmente el famoso 'Movimiento 37' en la partida dos demostró creatividad de máquina, un movimiento con probabilidad de 1:10,000 que volteó siglos de sabiduría del Go. AlphaGo combinó deep learning con búsqueda de árbol Monte Carlo y entrenó tanto con partidas humanas como mediante auto-juego. La respuesta de Lee Sedol en la partida cuatro con su 'Movimiento divino 78' mostró, sin embargo, que la intuición humana aún puede sorprender. Más de 200 millones de personas en todo el mundo siguieron estas partidas.

AlphaGo derrotó a Lee Sedol 4:1 y demostró la superioridad de IA en el juego de mesa más complejo por primera vez

El famoso 'Movimiento 37' con probabilidad 1:10,000 mostró creatividad de máquina y desafió tradiciones del Go

Combinación de deep learning y búsqueda de árbol Monte Carlo permitió dominar la complejidad del Go

Más de 200 millones de personas siguieron las partidas - un punto de inflexión para la percepción pública de IA

Personas:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organizaciones:DeepMind, Google, Korean Baduk Association

2016Publicaciones

XGBoost: El gradient boosting extremo domina ML

La perfección del gradient boosting y la conquista de problemas de datos estructurados. El 9 de marzo de 2016, Tianqi Chen y Carlos Guestrin publicaron en arXiv el artículo XGBoost: A Scalable Tree Boosting System, presentado en agosto de 2016 en la conferencia KDD. Desarrollado del proyecto de doctorado de Chen en la Universidad de Washington, XGBoost mejoró significativamente el gradient boosting tradicional a través de optimizaciones extremas: regularización L1 y L2 prevenían sobreajuste, gradientes de segundo orden proporcionaban información de dirección más precisa, y la paralelización aceleraba significativamente la construcción de árboles. XGBoost dominó las competencias de aprendizaje automático de los 2010s y se convirtió en la opción estándar para equipos ganadores en Kaggle. En el Higgs Boson ML Challenge, Tianqi Chen ganó un premio especial y XGBoost fue adoptado por muchos participantes destacados, estableciendo su dominio para datos estructurados. El sistema escalable de tree boosting de extremo a extremo soporta C++, Java, Python, R y otros lenguajes. XGBoost demostró la relevancia continua de métodos tradicionales de ML en paralelo a la revolución del deep learning.

Optimización extrema de gradient boosting con regularización L1/L2 y gradientes de segundo orden

Dominó competencias de ML de los 2010s y se convirtió en opción estándar para equipos ganadores de Kaggle

Construcción de árboles paralelizada y arquitectura escalable de extremo a extremo para grandes conjuntos de datos

Algoritmo predeterminado para datos estructurados en paralelo a la revolución del deep learning

Personas:Tianqi Chen, Carlos Guestrin

Organizaciones:University of Washington

2016Productos

Google Assistant: la estrategia IA-First se hace realidad

El 18 de mayo de 2016, Sundar Pichai presentó Google Assistant en el Google I/O — la respuesta de Google a Siri y Alexa. Tras años de retraso en el ámbito de los asistentes de voz, Google recuperó el terreno con plena energía. El Assistant era más que una actualización de Google Now — era el pilar de la estrategia 'IA-First' de Pichai. 'Queremos que los usuarios mantengan un diálogo continuo con Google', explicó Pichai. 'Estamos construyendo un Google individual para cada usuario.' El Assistant estaba llamado a convertirse en una 'experiencia ambiental' que se extendiera por todos los dispositivos — desde smartphones hasta Google Home y automóviles. A diferencia de los competidores basados en comandos, Google apostó por la conversación natural y la comprensión del contexto. En un principio, el Assistant solo fue anunciado; su primer hogar llegó pocos meses después en la aplicación de mensajería Allo, seguida del altavoz Google Home a finales de 2016. El lanzamiento marcó la entrada seria de Google en el desarrollo de IA de voz y sentó las bases del dominio actual de la empresa en IA.

Conversación natural en lugar de comandos — 'diálogo continuo' como objetivo para la IA de voz

Pilar de la estrategia IA-First de Pichai — 'Google individual' para cada usuario

Visión de computación ambiental — interacción fluida con la IA en todos los dispositivos y plataformas

La persecución de Google a Siri y Alexa — de rezagado a aspirante a liderar la IA de voz

Personas:Sundar Pichai, Google Assistant Team

Organizaciones:Google Inc., Google I/O Conference

2016Organizaciones

Partnership on AI: los gigantes tecnológicos se unen

Una alianza importante de las principales empresas tecnológicas para el desarrollo responsable de la IA. El 28 de septiembre de 2016, Amazon, Facebook, Google, DeepMind, IBM y Microsoft fundaron la 'Partnership on Artificial Intelligence to Benefit People and Society', una inusual coalición de antiguos competidores. Con Eric Horvitz (Microsoft Research) y Mustafa Suleiman (DeepMind) como co-presidentes interinos, la Partnership arrancó con un consejo compuesto exclusivamente por empresas y anunció que lo ampliaría hasta un órgano paritario con el mismo número de miembros no corporativos. La misión abarca la investigación y las mejores prácticas en materia de ética, equidad, transparencia, privacidad y colaboración entre humanos e IA. Destacable: Apple estuvo inicialmente ausente, pero se incorporó en 2017. La Partnership renuncia deliberadamente a actividades de lobby y se centra en la cooperación en investigación. Esta iniciativa marcó el comienzo de la autorregulación industrial estructurada en el desarrollo de la IA.

Alianza importante de Amazon, Facebook, Google, DeepMind, IBM y Microsoft para la ética de la IA

Misión: IA al servicio de las personas y la sociedad mediante ética, equidad y transparencia

Consejo paritario planificado: inicialmente de composición corporativa, ampliado posteriormente con el mismo número de miembros no corporativos

Enfoque en la cooperación en investigación y las mejores prácticas sin actividades de lobby

Personas:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organizaciones:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Avances

El reconocimiento de voz alcanza el nivel humano

El 18 de octubre de 2016, Microsoft logró un hito histórico: su sistema de reconocimiento de voz fue la primera empresa en alcanzar un rendimiento a nivel humano en el benchmark Switchboard para el habla conversacional. Tras 25 años de investigación, el objetivo estaba cumplido: una tasa de error de palabra del 5,9%, tan buena como la de los transcriptores profesionales en esa tarea. (En 2017, Microsoft revisó la tasa de comparación humana al 5,1% y tuvo que volver a mejorar el sistema.) Xuedong Huang, director científico de reconocimiento de voz de Microsoft, anunció: 'Hemos alcanzado la paridad con el ser humano. Es un logro histórico.' El sistema utilizaba la tecnología más avanzada de aprendizaje profundo: redes neuronales convolucionales, arquitecturas LSTM y modelos de lenguaje neuronal con vectores de palabras continuos. Su fortaleza residía en la combinación sistemática de componentes probados: un conjunto de modelos acústicos CNN y BLSTM, adaptación de locutor mediante i-vector y reordenación con un modelo de lenguaje. Esto fue posible gracias a la convergencia de tres avances: grandes conjuntos de datos (Switchboard Corpus), computación con GPU y métodos de entrenamiento mejorados. Este logro allanó el camino para los asistentes de voz modernos, aunque acredita la paridad únicamente en una tarea de transcripción bien definida, no en las capacidades cognitivas humanas en general.

Una tasa de error de palabra del 5,9% equipara el rendimiento al nivel humano en Switchboard, igualando a los transcriptores más precisos

Hito histórico: la tasa de error más baja jamás medida en el estándar Switchboard

CNN + LSTM + modelos de lenguaje neuronal: combinación sistemática de la tecnología de aprendizaje profundo más avanzada

Objetivo de investigación de 25 años logrado: paridad con el ser humano en una tarea de transcripción bien definida

Personas:Xuedong Huang, Microsoft AI Research Team

Organizaciones:Microsoft AI and Research, Switchboard Corpus

2017Regulación

Principios de Asilomar: la comunidad científica establece sus propias directrices

A principios de 2017, mucho antes de ChatGPT, los principales investigadores en IA se reunieron en Asilomar, en la costa californiana, el mismo lugar donde en 1975 los biólogos habían debatido los riesgos de la ingeniería genética. El Future of Life Institute los había convocado a una conferencia sobre IA beneficiosa. El resultado fue los 23 Principios de IA de Asilomar: directrices sobre investigación, valores como la seguridad y la transparencia, y riesgos a largo plazo. Más de mil especialistas en IA y firmantes destacados como Stephen Hawking y Elon Musk los respaldaron. Fue uno de los primeros intentos amplios de la comunidad científica de establecer sus propias directrices, años antes de que los gobiernos descubrieran el tema. Para ser honestos: los principios eran voluntarios y no vinculantes. Marcaron el debate, pero carecían de fuerza jurídica.

Enero de 2017: el Future of Life Institute reunió a los principales investigadores en IA en Asilomar (California), el lugar de la histórica conferencia sobre ingeniería genética de 1975.

Resultado: los 23 Principios de IA de Asilomar sobre investigación, valores (seguridad, transparencia) y riesgos a largo plazo; uno de los primeros compromisos amplios de la comunidad científica.

Más de mil investigadores en IA y otros firmantes (entre ellos Stephen Hawking y Elon Musk): consenso temprano de que la IA debe servir al bien común.

Anti-hype: los principios eran voluntarios y no vinculantes; orientadores como marco de debate, pero sin mecanismo de aplicación.

Personas:Stephen Hawking, Elon Musk

Organizaciones:Future of Life Institute

2017Publicaciones

MobileNet: IA para smartphones

Google Research transforma considerablemente la IA móvil en abril de 2017 con MobileNet, uno de los primeros modelos de aprendizaje profundo diseñado específicamente para smartphones, IoT y sistemas embebidos (ya existían precursores como SqueezeNet). Gracias a su innovadora arquitectura de convoluciones separables en profundidad (Depthwise Separable Convolutions), MobileNet reduce el coste computacional a aproximadamente un octavo respecto a las convoluciones convencionales, manteniendo la misma eficacia. Esta notable eficiencia, con alrededor de nueve veces menos operaciones de cómputo para kernels de 3x3, allana el camino para el procesamiento de imágenes en tiempo real en dispositivos móviles. MobileNet democratiza la visión por ordenador para miles de millones de smartphones y establece el edge computing como nuevo paradigma de la IA más allá de las soluciones basadas en la nube.

Uno de los primeros modelos de aprendizaje profundo diseñado específicamente para smartphones y dispositivos IoT

Convoluciones separables en profundidad: alrededor de nueve veces menos operaciones de cómputo, con idéntica eficacia

Posibilita el procesamiento con IA directamente en los dispositivos en lugar de en la nube: así nace el edge computing

Reduce el coste computacional a aproximadamente un octavo respecto a las convoluciones convencionales con una precisión comparable

Personas:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organizaciones:Google, Google Research

2017Publicaciones

Se publica el artículo de investigación RLHF

La técnica que hizo posible ChatGPT - años antes del avance. En junio de 2017, investigadores de OpenAI y DeepMind publicaron el artículo 'Deep Reinforcement Learning from Human Preferences'. La idea: En lugar de entrenar sistemas de IA con funciones de recompensa perfectamente definidas, aprenden directamente de la retroalimentación humana. Los humanos califican diferentes salidas de IA, y el sistema aprende qué comportamiento se prefiere. Este método, más tarde conocido como RLHF (Reinforcement Learning from Human Feedback), se convirtió en la tecnología clave detrás de ChatGPT y otros modelos de lenguaje modernos. RLHF hizo posible hacer los sistemas de IA más útiles, honestos y seguros.

Artículo 'Deep Reinforcement Learning from Human Preferences' publicado en junio de 2017

Idea central: La IA aprende de preferencias humanas en lugar de recompensas predefinidas

Investigación conjunta de OpenAI y DeepMind, incluyendo Paul Christiano y Dario Amodei

RLHF se convirtió en la tecnología clave para ChatGPT y asistentes de IA modernos

Personas:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organizaciones:OpenAI, DeepMind

2017Publicaciones

Transformer: 'Attention Is All You Need'

El 12 de junio de 2017, ocho investigadores, en su mayoría de Google y entre ellos un estudiante en prácticas de la Universidad de Toronto, publicaron en arXiv el artículo 'Attention Is All You Need', la base de los modelos de lenguaje grandes modernos. Ashish Vaswani, Noam Shazeer y sus colegas propusieron una nueva arquitectura: el Transformer. A diferencia de los modelos de secuencias anteriores, el Transformer prescinde de capas recurrentes y convolucionales. En su lugar, emplea mecanismos de atención puros. La autoatención captura las relaciones entre todas las posiciones de una secuencia en paralelo, sin necesidad de procesamiento secuencial. La atención multicabezal utiliza múltiples cabezales de atención en paralelo que aprenden distintos aspectos de las relaciones entre palabras. En WMT 2014, el modelo alcanzó 28,4 BLEU para inglés-alemán y 41,8 BLEU para inglés-francés, nuevos mejores resultados. La arquitectura demostró tener un alcance amplio: GPT, BERT, ChatGPT y muchos otros modelos se basan en variantes del Transformer. Con más de 100.000 citas y una tendencia en constante aumento, el artículo se encuentra entre los más citados del siglo XXI.

El mecanismo de autoatención captura las dependencias entre todas las posiciones de una secuencia de forma simultánea

La eliminación de la recurrencia permite el procesamiento en paralelo, mucho más rápido que los modelos secuenciales

28,4 BLEU WMT inglés-alemán, 41,8 BLEU inglés-francés: nuevos estándares de traducción automática

Se convirtió en la base de todos los LLM modernos: GPT, BERT y ChatGPT se basan en la arquitectura Transformer

Personas:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organizaciones:Google Brain, Google Research

2017Regulación

El plan maestro de IA de China: la lucha por el liderazgo mundial

El 20 de julio de 2017, el Consejo de Estado de China anunció el 'Plan de Desarrollo de Inteligencia Artificial de Nueva Generación' — la primera estrategia nacional de IA integral a esta escala. El objetivo: convertirse en la potencia líder mundial en IA para 2030. El plan en tres etapas era nítido: competir a escala global en 2020, alcanzar el nivel líder mundial en áreas parciales y lograr grandes avances en la teoría fundamental de IA en 2025, y en 2030 ser la superpotencia de IA dominante con una producción industrial de 1 billón de yuanes. China reconoció explícitamente la IA como 'foco de la competencia internacional' y 'tecnología estratégica para la seguridad nacional'. Las inversiones son cuantiosas — decenas de miles de millones de dólares fluyen hacia la investigación, la infraestructura y el desarrollo del talento. El plan abarca aplicaciones militares y civiles: desde armas autónomas hasta ciudades inteligentes. Los principios de código abierto deben fomentar la colaboración internacional, mientras China aspira simultáneamente a la independencia tecnológica. Esta estrategia transformó de forma notable el panorama global de la IA y desencadenó una ola de iniciativas nacionales de IA en EE. UU. y Europa.

Primera estrategia nacional de IA a esta escala: planificación gubernamental coordinada para el liderazgo tecnológico global

Hoja de ruta en tres etapas: competitiva en 2020, líder mundial en áreas parciales en 2025, superpotencia de IA dominante en 2030

Inversión de billones de yuanes: financiación estatal masiva en investigación, infraestructura y talento en IA

Ambición de liderazgo mundial: pistoletazo de salida para la carrera global de IA entre China, EE. UU. y Europa

Personas:State Council of China, Chinese AI Research Community

Organizaciones:State Council of China, Chinese Academy of Sciences

2017Regulación

Declaración de Montreal para una IA responsable

La primera iniciativa internacional que elaboró principios éticos de IA mediante la participación democrática ciudadana. El 3 de noviembre de 2017, la Université de Montréal puso en marcha el proceso de codecreación de la Declaración de Montreal para el desarrollo responsable de la IA. El foro sobre el desarrollo socialmente responsable de la IA reunió a más de 400 participantes de distintos sectores y disciplinas. A lo largo de 15 talleres deliberativos celebrados durante tres meses, más de 500 ciudadanos, expertos y partes interesadas debatieron los retos sociales de la IA. La Declaración, publicada el 4 de diciembre de 2018, presenta 10 principios y 59 recomendaciones basados en valores como el bienestar, la autonomía, la justicia, la privacidad y la democracia. Con más de 500 firmantes, la Declaración de Montreal estableció un enfoque participativo para la gobernanza de la IA e influyó en los esfuerzos internacionales posteriores en favor de un desarrollo responsable de la IA.

10 principios éticos y 59 recomendaciones para el desarrollo responsable de la IA con legitimidad democrática

Enfocada en el bienestar, la autonomía, la justicia, la privacidad, la democracia y la sostenibilidad ecológica

Impulsada por la Université de Montréal con más de 400 participantes de distintos sectores

Más de 500 firmantes; influyó en la gobernanza internacional de la IA y en iniciativas regulatorias posteriores

Personas:Yoshua Bengio, Montreal AI Ethics Team

Organizaciones:Université de Montréal, Montreal Institute for Learning Algorithms

2017Avances

AlphaZero domina tres juegos

El nacimiento de una IA de juego universal mediante el puro autoaprendizaje. En diciembre de 2017, DeepMind presentó AlphaZero: un sistema que dominó tres juegos de estrategia completamente distintos sin ningún conocimiento previo: el ajedrez, el shogi y el go. El enfoque tabula rasa significaba que no había bases de datos de aperturas, ni estrategias humanas, solo las reglas del juego como punto de partida. En 24 horas, AlphaZero alcanzó un rendimiento sobrehumano: en ajedrez tras solo 4 horas, en shogi tras 2 horas. En el match de 100 partidas contra Stockfish ganó 28, no perdió ninguna y logró 72 tablas. El aspecto destacado fue su eficiente comportamiento de búsqueda: mientras Stockfish evalúa 60 millones de posiciones por segundo, AlphaZero analiza solo 60.000, pero de forma mucho más selectiva gracias a su red neuronal profunda. Este logro demostró de forma convincente la generalización y la independencia de dominio del aprendizaje por refuerzo puro.

Aprendió tres juegos complejos completamente desde cero: solo con las reglas del juego, sin conocimiento humano previo ni bases de datos

Alcanzó un rendimiento sobrehumano en ajedrez (4h), shogi (2h) y go (~8h) mediante el puro autojuego

Aprendió mediante millones de partidas de autojuego y aprendizaje por refuerzo sin entradas externas

Evaluó solo 60.000 posiciones por segundo frente a los 60 millones de Stockfish, pero de forma mucho más selectiva

Personas:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organizaciones:DeepMind, Google, Science Magazine, ArXiv

2018Hitos

Premio Turing para el aprendizaje profundo

En 2019, la IA recibió su máximo reconocimiento de la informática: el Premio A.M. Turing 2018, a menudo calificado como el Nobel de la informática, fue otorgado a Yoshua Bengio, Geoffrey Hinton y Yann LeCun, los tres padrinos del aprendizaje profundo. La ACM reconoció sus avances conceptuales y técnicos que convirtieron las redes neuronales profundas en un componente central de la informática: desde la retropropagación hasta las redes convolucionales, pasando por las ideas que sustentaron el avance de 2012. El galardón fue el tardío reconocimiento oficial de una revolución que durante décadas había sido menospreciada. Para ser precisos: el aprendizaje profundo tiene muchos padres y madres; investigadores como Jürgen Schmidhuber criticaron públicamente que importantes contribuciones recibían poco reconocimiento. El premio honra el papel central del trío, no una autoría exclusiva.

Yoshua Bengio, Geoffrey Hinton y Yann LeCun, los tres padrinos del aprendizaje profundo; reconocidos por los avances conceptuales y técnicos que sustentan las redes neuronales modernas.

El Premio A.M. Turing (anunciado en marzo de 2019) es el máximo galardón de la informática; reconoció las redes neuronales profundas como componente central del cómputo.

El reconocimiento oficial de la revolución del aprendizaje profundo de 2012, y precursor del Premio Nobel de Física 2024 para la misma línea de investigación.

Sin exagerar: el aprendizaje profundo tiene muchas contribuciones (entre otros, Schmidhuber, que criticó públicamente); el premio honra el papel central del trío, no una autoría exclusiva.

Personas:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organizaciones:ACM

2018Publicaciones

GPT-1: el nacimiento del preentrenamiento generativo

La base de todos los modelos de lenguaje grandes modernos mediante el preentrenamiento no supervisado. El 11 de junio de 2018, Alec Radford y su equipo de OpenAI publicaron el artículo fundamental 'Improving Language Understanding by Generative Pre-Training'. Este trabajo combinó por primera vez la arquitectura Transformer con el preentrenamiento no supervisado y estableció el paradigma en dos etapas: primero el entrenamiento generativo en grandes corpus de texto y luego el ajuste fino para tareas específicas. Con 117 millones de parámetros y entrenamiento en el conjunto de datos BooksCorpus — más de 7.000 libros inéditos de distintos géneros — GPT-1 demostró que el Transfer Learning funciona para la comprensión del lenguaje. La arquitectura Transformer de solo decodificador con doce capas y atención enmascarada estableció la plantilla para toda la serie GPT. Esta innovación convirtió la arquitectura Transformer de 2017 en una herramienta práctica para diversas tareas de PLN y fundó la era de los modelos de lenguaje grandes.

Estableció el preentrenamiento no supervisado en grandes corpus de texto como base para los modelos de lenguaje

Demostró la aplicación exitosa del Transfer Learning para diversas tareas de PLN

La arquitectura Transformer de solo decodificador con doce capas se convirtió en la plantilla de toda la serie GPT

Fundó la era de los modelos de lenguaje grandes y el paradigma de preentrenamiento y ajuste fino

Personas:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organizaciones:OpenAI

2018Publicaciones

BERT mejora considerablemente la comprensión del lenguaje

Un avance importante de los modelos de lenguaje bidireccionales y el nacimiento del NLP moderno. En octubre de 2018, Jacob Devlin y su equipo en Google Research publicaron el artículo sobre BERT — Bidirectional Encoder Representations from Transformers. Esta innovación transformó el procesamiento del lenguaje de forma significativa al entrenar por primera vez representaciones bidireccionales profundas a partir de textos sin etiquetar. A diferencia de los modelos anteriores, BERT tiene en cuenta el contexto izquierdo y derecho en todas las capas de forma simultánea. El resultado fue notable: BERT alcanzó nuevas marcas en once tareas de NLP y mejoró la puntuación GLUE en 7,7 puntos porcentuales, hasta 80,5%. El preentrenamiento propiamente dicho requirió varios días en muchas TPUs — pero la publicación en código abierto democratizó la tecnología punta: el modelo ya preentrenado podía ajustarse a una tarea propia (fine-tuning) en unos 30 minutos sobre una única TPU en la nube. BERT estableció el paradigma de preentrenamiento y fine-tuning que hoy constituye la base de todos los grandes modelos de lenguaje.

Primer modelo de lenguaje bidireccional profundo que tiene en cuenta el contexto izquierdo y derecho de forma simultánea en todas las capas

Alcanzó nuevas marcas en 11 tareas de NLP y mejoró la puntuación GLUE en 7,7 puntos porcentuales, hasta 80,5%

La publicación en código abierto permitió el fine-tuning del modelo preentrenado para tareas propias en unos 30 minutos sobre una única TPU en la nube

Estableció el paradigma de preentrenamiento y fine-tuning para todos los modelos de lenguaje modernos

Personas:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organizaciones:Google Research, Google AI Language

2019Publicaciones

GPT-2 - "Demasiado Peligroso para Publicar"

OpenAI publica GPT-2 en febrero de 2019 pero toma la sorprendente decision de retener el modelo completo de 1.5 mil millones de parametros - afirmando que es "demasiado peligroso" para la publicacion completa. Esta decision sin precedentes divide a la comunidad de IA: los partidarios elogian la postura responsable dados los riesgos de mal uso como noticias falsas y spam automatizado. Los criticos acusan a OpenAI de "cerrar" la investigacion y alimentar miedos infundados. Despues de nueve meses sin evidencia fuerte de mal uso, OpenAI publica el modelo completo, marcando un punto de inflexion en el debate sobre el desarrollo responsable de IA.

Decision sin precedentes: OpenAI retiene el modelo completo de 1.5B parametros

Temores de noticias falsas, suplantacion de identidad y spam automatizado en redes sociales

Comunidad de IA dividida: progreso etico vs. acusacion de cierre de investigacion

Publicacion completa despues de 9 meses debido a falta de evidencia de mal uso

Personas:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organizaciones:OpenAI

2019Competiciones

AlphaStar alcanza el nivel Grandmaster

La conquista de la estrategia en tiempo real más compleja por la inteligencia artificial. En julio y agosto de 2019, AlphaStar de DeepMind jugó de forma anónima en el modo clasificatorio de Battle.net; el 30 de octubre de 2019, DeepMind informó en la revista Nature que el sistema se había convertido en la primera IA en alcanzar el nivel Grandmaster en StarCraft II, un juego considerado demasiado complejo para las máquinas. AlphaStar superó al 99,8% de todos los jugadores activos de Battle.net y dominó las tres razas: Protoss, Terran y Zerg. Previamente, AlphaStar ya había derrotado a los jugadores profesionales Grzegorz 'MaNa' Komincz y Dario 'TLO' Wünsch con un marcador de 5:0 en cada caso. El aspecto destacado fue su arquitectura de aprendizaje por refuerzo multiagente, que entrenó diversas estrategias y contraestrategias en una liga. Con una media de 280 acciones por minuto, AlphaStar se situó incluso por debajo de los profesionales humanos, pero demostró una ejecución más precisa. Este logro marcó un hito para la IA en los videojuegos y en la toma de decisiones en tiempo real.

AlphaStar alcanzó el nivel Grandmaster en las tres razas de StarCraft II y superó al 99,8% de todos los jugadores de Battle.net

Derrotó a los jugadores profesionales MaNa y TLO con un marcador de 5:0 en cada caso, antes del éxito público

Aprendizaje por refuerzo multiagente con entrenamiento basado en liga de diversas estrategias y contraestrategias: un método más eficaz

Primera IA que dominó un popular juego de esports sin restricciones al más alto nivel

Personas:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organizaciones:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publicaciones

T5 - Text-to-Text Transfer Transformer

Google AI transforma significativamente el NLP en octubre de 2019 con T5, el Text-to-Text Transfer Transformer, que transforma todas las tareas de procesamiento de lenguaje natural en un formato unificado de "texto a texto". Con el innovador enfoque "Todo es Texto", traducción, resumen, respuesta a preguntas y clasificación pueden manejarse con el mismo modelo, función de pérdida e hiperparámetros. T5 introduce el completo conjunto de datos C4 y logra rendimiento casi humano en benchmarks SuperGLUE. Como modelo base con hasta 11 mil millones de parámetros, T5 abre el camino para los modelos de lenguaje grande modernos y establece el paradigma unificado de texto a texto como estándar.

Enfoque unificado innovador: Todas las tareas de NLP como problemas de texto a texto

"Todo es Texto" - paradigma que unifica traducción, resumen, preguntas y respuestas

Establece el paradigma de modelo base para los modelos de lenguaje grande modernos

Introduce el completo conjunto de datos C4 - Colossal Clean Crawled Corpus

Personas:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organizaciones:Google AI, Google Research

2020Publicaciones

RAG: los modelos de lenguaje buscan antes de responder

Un modelo de lenguaje solo sabe lo que contenía su entrenamiento y, en caso de duda, inventa algo con total confianza. En 2020, Patrick Lewis y sus colegas de Facebook AI mostraron una salida: la generación aumentada por recuperación, conocida como RAG (Retrieval-Augmented Generation). La idea es brillante en su sencillez. Antes de responder, el modelo busca en una fuente de conocimiento externa, por ejemplo en Wikipedia, los fragmentos de texto relevantes, y basa entonces su respuesta en lo encontrado. Así es posible actualizar el conocimiento sin necesidad de volver a entrenar el modelo, y la respuesta puede verificarse. Tras el éxito de ChatGPT, RAG se convirtió en el método estándar para conectar los modelos de lenguaje con fuentes actuales y verificables: la base de casi todas las aplicaciones con las que se puede conversar con los propios documentos. Para ser precisos: RAG reduce las alucinaciones, pero no las elimina. Si lo que se busca es incorrecto o el modelo malinterpreta el hallazgo, sigue equivocándose. Proporciona referencias, no comprensión real, y se apoya en investigaciones previas de recuperación de información.

En 2020, Patrick Lewis y sus colegas de Facebook AI presentaron el método de generación aumentada por recuperación (RAG).

En lugar de responder solo desde la memoria, el modelo busca primero documentos relevantes (por ejemplo, en Wikipedia) y basa en ellos su respuesta: así la información puede verificarse.

RAG se convirtió tras ChatGPT en el método estándar para conectar los modelos de lenguaje con fuentes actuales y verificables: la base de casi todas las aplicaciones para conversar con documentos propios.

Sin exagerar: RAG reduce las alucinaciones, pero no las elimina; si lo buscado es incorrecto o está malinterpretado, el modelo también se equivoca. Proporciona referencias, no comprensión real, y se apoya en investigaciones previas de recuperación (p. ej., DPR, REALM).

Personas:Patrick Lewis

Organizaciones:Facebook AI Research, University College London, New York University

2020Publicaciones

Leyes de escala neuronal

Jared Kaplan, Sam McCandlish, Tom Brown y Dario Amodei descubren en enero de 2020 las leyes matemáticas fundamentales del escalado neuronal y transforman considerablemente el desarrollo de los grandes modelos de lenguaje. El trabajo pionero de OpenAI y la Johns Hopkins University demuestra que el rendimiento sigue leyes de potencia en función del tamaño del modelo, el volumen del conjunto de datos y la potencia de cómputo, con tendencias que abarcan siete órdenes de magnitud. Las elegantes ecuaciones permiten por primera vez realizar predicciones sistemáticas sobre la asignación de recursos y establecen el paradigma 'cuanto más grande, mejor'. Estos fundamentos matemáticos conducen directamente al éxito de GPT-3 y transforman el desarrollo de la IA, que pasa del ensayo y error experimental a una escala científicamente fundamentada y predecible. La regla de asignación concreta de Kaplan, que propugnaba escalar agresivamente el tamaño del modelo con un aumento moderado de los datos, fue corregida en 2022 por el artículo Chinchilla de DeepMind: el entrenamiento óptimo en términos de cómputo requiere bastantes más datos de entrenamiento de los que se recomendaban inicialmente.

Descubrimiento de leyes de potencia fundamentales a lo largo de siete órdenes de magnitud

Elegantes ecuaciones que permiten predicciones sistemáticas de la asignación de recursos; precisadas en 2022 por Chinchilla

Establece el paradigma 'cuanto más grande, mejor' para el desarrollo sistemático de LLM

Transforma el desarrollo de la IA del ensayo y error a una metodología científica

Personas:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organizaciones:OpenAI, Johns Hopkins University

2020Publicaciones

GPT-3: el modelo de 175.000 millones de parámetros

El gran avance hacia el aprendizaje con pocos ejemplos y las capacidades emergentes de la IA. El 28 de mayo de 2020, el equipo de OpenAI encabezado por Tom Brown presentó el artículo relevante 'Language Models are Few-Shot Learners' — GPT-3 con 175.000 millones de parámetros, más de 100 veces mayor que GPT-2. El escalado reveló capacidades emergentes: el modelo podía resolver nuevas tareas con solo unos pocos ejemplos, sin ajuste fino. Desde traducciones hasta acertijos de palabras y aritmética de 3 cifras, GPT-3 demostró una versatilidad notable. Los evaluadores humanos apenas podían distinguir los artículos de noticias generados por GPT-3 de los reales. Únicamente mediante el aprendizaje en contexto, GPT-3 se aproximó al estado del arte en algunas subtareas de SuperGLUE — aunque en el benchmark global se quedó con unos 71,8 puntos, muy por debajo de los modelos de vanguardia con ajuste fino (alrededor de 89). 31 investigadores de OpenAI (Tom Brown y 30 coautores) demostraron que el escalado masivo de parámetros puede generar capacidades cualitativamente nuevas. GPT-3 sentó los cimientos de ChatGPT y de la era moderna de los LLM.

175.000 millones de parámetros — más de 100 veces mayor que GPT-2, con notables efectos de escalado

Capacidades emergentes: el modelo resuelve tareas nuevas a partir de muy pocos ejemplos, sin reentrenamiento específico

Mostró capacidades emergentes: traducción, aritmética y generación de texto a nivel humano

Sentó las bases de ChatGPT y comercializó los modelos de lenguaje grandes mediante acceso por API

Personas:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organizaciones:OpenAI

2020Publicaciones

DDPM: Modelos de difusión establecidos

La base matemática de la generación de imágenes moderna a través de procesos de eliminación de ruido. En junio de 2020, Jonathan Ho, Ajay Jain y Pieter Abbeel publicaron el influyente artículo 'Denoising Diffusion Probabilistic Models' – una clase de modelos de variables latentes inspirados en la termodinámica de no equilibrio. Su innovación residía en un límite variacional ponderado y la conexión entre modelos de difusión y coincidencia de puntuación de eliminación de ruido con dinámicas de Langevin. Los resultados fueron impresionantes: puntuación FID de 3.17 en CIFAR-10 y puntuación Inception de 9.46. Los DDPMs establecieron un enfoque de descompresión progresiva con pérdida que puede interpretarse como una generalización de la decodificación autorregresiva. Este trabajo sentó las bases matemáticas para Stable Diffusion y toda la generación moderna de texto a imagen.

Nueva clase de modelos generativos basados en termodinámica de no equilibrio y procesos de eliminación de ruido

Enfoque de descompresión progresiva con pérdida como generalización de la decodificación autorregresiva

Sentó las bases matemáticas para Stable Diffusion y la generación moderna de texto a imagen

Puntuación FID 3.17 en CIFAR-10 demostró calidad de imagen rivalizando con GANs y estableció la difusión como estándar

Personas:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organizaciones:UC Berkeley

2020Publicaciones

Vision Transformer: 'An Image is Worth 16x16 Words'

La arquitectura Transformer aplicada a la visión por ordenador. El 22 de octubre de 2020, el equipo de Alexey Dosovitskiy en Google Research publicó el artículo 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale'. Vision Transformer (ViT) demostró que las CNN no son necesarias: los Transformers puros pueden aplicarse directamente a secuencias de parches de imagen. El hallazgo clave ('at Scale') es que solo tras un preentrenamiento a gran escala en conjuntos de datos masivos (ImageNet-21k o JFT-300M) alcanza ViT resultados comparables o superiores a las CNN de última generación; en conjuntos de datos de tamaño intermedio sin ese preentrenamiento, ViT obtiene resultados inferiores. El sistema divide las imágenes en parches, típicamente de 16x16 píxeles aunque con variantes de otros tamaños, los trata como secuencias de tokens y aplica la arquitectura Transformer estándar. La universalidad de la arquitectura Transformer quedó clara: la misma tecnología que transformó el procesamiento del lenguaje natural funciona también en visión por ordenador. ViT inspiró una nueva generación de modelos de visión basados en atención y demostró el poder de las arquitecturas unificadas.

Primera aplicación escalable y basada en parches de la arquitectura Transformer pura a la visión por ordenador sin componentes CNN

Los parches de imagen (típicamente 16x16 píxeles) tratados como secuencias de tokens transformaron la conversión de imagen a secuencia

La autoatención para el procesamiento de imágenes demostró la universalidad de la arquitectura Transformer

Alcanzó el nivel de las CNN de última generación tras un preentrenamiento a gran escala e inspiró modelos de visión basados en atención

Personas:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organizaciones:Google Research, Google Brain

2020Avances

Logro de AlphaFold

La solución a un rompecabezas biológico de 50 años mediante inteligencia artificial. En noviembre de 2020, AlphaFold 2 de DeepMind dominó la competición CASP14 con una precisión que los científicos describieron como 'asombrosa' y 'transformacional'. El sistema logró una puntuación GDT de 92.4 sobre 100 puntos en predicción de estructuras de proteínas, una precisión que iguala métodos experimentales como la cristalografía de rayos X. AlphaFold superó claramente a otros 145 equipos y resolvió un problema que había ocupado a la biología desde los años 1970. La arquitectura de red neuronal basada en atención puede predecir cómo se pliegan las proteínas en días, un proceso fundamental para comprender la vida. Por este logro, Demis Hassabis y John Jumper recibieron el Premio Nobel de Química 2024.

AlphaFold 2 dominó CASP14 con puntuación GDT de 92.4, superando claramente a 145 otros equipos

Resolvió el problema de plegamiento de proteínas de 50 años y cambió fundamentalmente la biología estructural

Arquitectura basada en atención logró precisión experimental en predicción de estructuras de proteínas

Demis Hassabis y John Jumper recibieron el Premio Nobel de Química 2024 por este logro

Personas:Demis Hassabis, John Jumper

Organizaciones:DeepMind, Google, CASP, University of Washington

2021Avances

CLIP: el puente entre imagen y lenguaje

El mismo día en que OpenAI presentó DALL-E, el 5 de enero de 2021, apareció el modelo quizás más influyente: CLIP. No aprendió a generar imágenes, sino a comprender imagen y lenguaje en el mismo espacio. A partir de unos 400 millones de pares imagen-texto extraídos de la web, el equipo liderado por Alec Radford entrenó de forma contrastiva dos codificadores hasta que las imágenes y los pies de foto correspondientes quedaban en el mismo punto de un espacio vectorial compartido. El efecto fue sorprendente: CLIP podía clasificar imágenes de forma zero-shot; bastaba con describir las categorías en palabras, sin ningún entrenamiento específico en la tarea. Así alcanzó un 76,2 % en ImageNet, a la par de una ResNet-50 entrenada con 1,28 millones de ejemplos etiquetados, sin que CLIP hubiese visto ninguno de ellos. Para la visión de conjunto, lo decisivo es que CLIP se convirtió en el fundamento de la oleada de generación de imágenes a partir de texto: DALL-E 2 se basa en sus incrustaciones y Stable Diffusion usa directamente su codificador de texto. Para contextualizar: los modelos contrastivos imagen-texto no eran nuevos (ConVIRT llegó meses antes); la aportación de CLIP fue la escala, la amplitud zero-shot y los pesos abiertos, que desencadenaron todo un ecosistema.

Entrenamiento contrastivo: dos codificadores (imagen + texto) aprenden a partir de unos 400 millones de pares web a situar imágenes y textos relacionados en el mismo espacio vectorial.

Zero-shot: las categorías se describen con palabras, sin entrenamiento específico en la tarea; 76,2 % en ImageNet, a la par de una ResNet-50 que necesitó 1,28 millones de imágenes etiquetadas.

Fundamento de la oleada de generación de imágenes a partir de texto: DALL-E 2 usa las incrustaciones de CLIP y Stable Diffusion emplea directamente su codificador de texto.

Anti-hype: los modelos contrastivos imagen-texto ya existían (ConVIRT, oct. 2020). La aportación de CLIP fue la escala, la amplitud zero-shot y los pesos abiertos, aunque también heredó los sesgos de los datos web.

Personas:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organizaciones:OpenAI

2021Productos

DALL-E crea imágenes a partir de texto

Un avance pionero en la generación de imágenes a partir de texto y un importante progreso en la creatividad de la IA. El 5 de enero de 2021, OpenAI presentó DALL-E — un sistema que genera imágenes coherentes y, a menudo, sorprendentemente creativas a partir de descripciones textuales. Ya existían modelos de texto a imagen con anterioridad (como alignDRAW en 2015 o enfoques GAN como StackGAN y AttnGAN), pero DALL-E elevó la coherencia y la versatilidad a un nuevo nivel. Basado en una versión de GPT-3 con 12.000 millones de parámetros, DALL-E demostró que la frontera entre la comprensión del lenguaje y la de las imágenes puede superarse. El sistema se entrenó con 250 millones de pares imagen-texto procedentes de internet y desarrolló capacidades notables: puede antropomorfizar animales, combinar de forma plausible conceptos no relacionados e incluso renderizar texto en imágenes. Mark Riedl, del Georgia Tech, comentó que los resultados eran 'considerablemente más coherentes' que todos los sistemas de texto a imagen anteriores. DALL-E amplió con éxito la comprensión lingüística de GPT al ámbito visual y abrió una dimensión completamente nueva en la creatividad de la IA.

Elevó la generación de imágenes a partir de texto a un nuevo nivel — imágenes coherentes y creativas a partir de descripciones en lenguaje natural (ya existían precursores como alignDRAW o StackGAN)

Desarrolló capacidades creativas notables: antropomorfización, combinación de conceptos, reproducción de texto en imágenes

Versión de GPT-3 con 12.000 millones de parámetros, entrenada con 250 millones de pares imagen-texto procedentes de internet

Abrió una nueva dimensión en la creatividad de la IA e inspiró el movimiento de IA generativa

Personas:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organizaciones:OpenAI, DALL-E Team

2021Hitos

Fundación de Anthropic

Cuando exdirectivos de OpenAI quisieron hacer realidad su propia visión de una IA segura. En enero de 2021, Dario y Daniela Amodei, junto con otros cinco exinvestigadores de OpenAI, entre ellos Tom Brown, Jared Kaplan y Chris Olah, fundaron Anthropic; en total, siete cofundadoras y cofundadores. Los hermanos habían ocupado anteriormente puestos clave en OpenAI: Dario como VP of Research. Su nueva empresa debía centrarse en la seguridad de la IA y en el desarrollo de sistemas fiables e interpretables. Con la Constitutional AI, Anthropic desarrolló un enfoque innovador para entrenar sistemas de IA mediante principios en lugar de solo mediante retroalimentación humana. Claude, su asistente de IA, se convirtió en uno de los principales competidores de ChatGPT.

Fundada en enero de 2021 en San Francisco, con el propósito de desarrollar IA más segura e interpretable

Cofundada por Dario Amodei (CEO, exvicepresidente de investigación en OpenAI) y Daniela Amodei (Presidenta), junto a otros cinco exinvestigadores

Énfasis en seguridad de la IA, interpretabilidad y Constitutional AI

Desarrolló Claude, uno de los principales asistentes de IA del mercado

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organizaciones:Anthropic, OpenAI

2021Productos

GitHub Copilot: El programador par de IA

La democratización del desarrollo de software asistido por IA para millones de desarrolladores. El 29 de junio de 2021, GitHub anunció la vista previa técnica de Copilot - el primer programador par de IA, impulsado por OpenAI Codex. Basado en una variante de GPT-3 entrenada con miles de millones de líneas de código público de repositorios de GitHub, Copilot podía generar completaciones de código y funciones enteras a partir de comentarios. El modelo Codex subyacente logró una tasa de éxito del 28.8% en el primer intento en el benchmark HumanEval - significativamente mejor que el 0% de GPT-3. Particularmente impresionante: Con 100 intentos de muestreo, la tasa de éxito aumentó al 70.2%. Copilot funcionaba especialmente bien con Python, JavaScript, TypeScript, Ruby y Go. La vista previa técnica limitada generó un interés enorme y estableció la programación asistida por IA como una herramienta viable. Copilot cambió fundamentalmente la experiencia del desarrollador y allanó el camino para una nueva generación de herramientas de codificación impulsadas por IA.

Vista previa técnica el 29 de junio de 2021 con acceso limitado vía lista de espera para desarrolladores seleccionados

Impulsado por OpenAI Codex, entrenado con miles de millones de líneas de código de repositorios públicos de GitHub

28.8% de tasa de éxito en el primer intento (HumanEval), 70.2% con 100 intentos de muestreo

Estableció la programación asistida por IA como herramienta viable e inspiró nuevas herramientas de codificación

Personas:Nat Friedman, GitHub Team, OpenAI Team

Organizaciones:GitHub, OpenAI, Microsoft

2021Productos

OpenAI Codex: la IA programa para las personas

El 10 de agosto de 2021, OpenAI publicó Codex a través de una API y cambió considerablemente el desarrollo de software: una IA a gran escala para la generación de código. Basado en GPT-3, pero entrenado con 159 gigabytes de código Python procedentes de 54 millones de repositorios de GitHub, Codex transformaba el lenguaje natural en código funcional. 'Crea una función para números primos' se convertía en código Python real en cuestión de segundos. Ya antes, el 29 de junio de 2021, de la colaboración con GitHub había surgido la Technical Preview de Copilot, un asistente de programación con IA que ya funcionaba con una versión temprana de Codex. Codex dominaba más de una docena de lenguajes de programación: Python, JavaScript, Go, Ruby, Swift y más. En el benchmark HumanEval, el Codex-S ajustado para código resolvía alrededor del 37% de las tareas en el primer intento (pass@1); el modelo base llegaba a cerca del 29%: notable, pero no una medida para solicitudes arbitrarias. GitHub Copilot demostró ser un aumento de productividad notable para los desarrolladores. Codex probó que la IA puede apoyar trabajo cognitivo creativo y complejo. Desde la generación de código hasta la comprensión del código, Codex abrió la puerta al desarrollo de software asistido por IA.

Lenguaje natural a código: 'Escribe una función de ordenación' se convierte en Python o JavaScript funcional

GitHub Copilot (Technical Preview desde el 29 de junio de 2021): destacado asistente de programación con IA, entrenado en 54 millones de repositorios de código

Más de 12 lenguajes de programación: de Python a Swift, la IA comprende la intención del desarrollador en lenguaje natural

Aumento de productividad notable: Codex demostró el potencial de la IA para el trabajo cognitivo creativo

Personas:OpenAI Team, GitHub Development Team

Organizaciones:OpenAI, GitHub, Microsoft

2022Publicaciones

InstructGPT: el puente hacia ChatGPT

Entre el método y el éxito mundial hubo un paso intermedio decisivo: InstructGPT. A principios de 2022, OpenAI mostró en el artículo 'Training language models to follow instructions with human feedback' cómo hacer que GPT-3 hiciera realmente lo que los usuarios quieren: mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF). El resultado sorprendente: un InstructGPT con solo 1.300 millones de parámetros fue preferido por las personas a las respuestas del GPT-3 cien veces más grande (175.000 millones). No el tamaño bruto, sino la alineación con la intención marcó la diferencia. InstructGPT fue el puente técnico directo entre la idea del RLHF (2017) y ChatGPT, que a finales de 2022 popularizó el mismo método. Para ser honestos: InstructGPT no inventó el RLHF, eso lo hizo un artículo de 2017, pero demostró por primera vez a gran escala cuánto más útil vuelve la alineación a un modelo de lenguaje.

OpenAI aplicó RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) a GPT-3 para que siguiese instrucciones y se ajustase a la intención de los usuarios.

Sorprendente: un InstructGPT de 1.300 millones de parámetros fue preferido al GPT-3 cien veces más grande (175.000 millones); la alineación supera el tamaño bruto.

El puente técnico directo entre la idea del RLHF (2017) y ChatGPT (finales de 2022); explica por qué ChatGPT funcionó tan bien.

Anti-hype: InstructGPT no inventó el RLHF (lo hizo un artículo de 2017); demostró por primera vez a gran escala cuánto más útil vuelve la alineación a un modelo de lenguaje.

Personas:Long Ouyang

Organizaciones:OpenAI

2022Publicaciones

Chinchilla: repensar el escalado

En 2022, DeepMind planteó una pregunta incómoda: ¿estamos construyendo mal nuestros modelos de IA? En el artículo Training Compute-Optimal Large Language Models, el equipo liderado por Jordan Hoffmann demostró que los modelos de lenguaje más grandes de la época, GPT-3 y Gopher, tenían muchos parámetros pero muy pocos datos de entrenamiento. Su corrección, conocida hoy como las leyes de escala de Chinchilla, establece que para un presupuesto de cómputo dado, el tamaño del modelo y la cantidad de datos deben crecer aproximadamente al mismo ritmo. Para demostrarlo, entrenaron Chinchilla con 70.000 millones de parámetros sobre 1,4 billones de tokens y superaron así a Gopher (280.000 millones), cuatro veces más grande. Esto transformó el modo en que prácticamente todos los modelos punteros posteriores se entrenan. Para ser honestos: Chinchilla no inventó las leyes de escala, sino que corrigió las anteriores de Kaplan (2020); modelos posteriores como Llama sobreentrenan deliberadamente para ser más eficientes en la inferencia.

Las leyes de escala de Chinchilla: para un presupuesto de cómputo fijo, el tamaño del modelo y los datos de entrenamiento deben crecer aproximadamente al mismo ritmo.

Los modelos más grandes (GPT-3, Gopher) estaban sobredimensionados y subentrenados. Chinchilla (70.000 millones de parámetros, 1,4 billones de tokens) superó a Gopher, cuatro veces mayor (280.000 millones).

Transformó el modo de entrenar prácticamente todos los modelos punteros posteriores (proporción datos/parámetros); influyó en Llama, entre otros.

Anti-hype: Chinchilla no inventó las leyes de escala, sino que corrigió las de Kaplan (2020); modelos posteriores sobreentrenan deliberadamente para mayor eficiencia en la inferencia.

Personas:Jordan Hoffmann

Organizaciones:Google DeepMind

2022Productos

PaLM: el gigante de Google con 540.000 millones de parámetros

En 2022, Google mostró hasta dónde podían escalarse los modelos de lenguaje: PaLM, el Pathways Language Model, contaba con 540.000 millones de parámetros y fue entrenado con el sistema Pathways de Google a través de miles de chips TPU. Lo impresionante no era tanto el tamaño en sí como lo que PaLM lograba con él. Con los llamados prompts de cadena de pensamiento (chain-of-thought), en los que el modelo escribe paso a paso su proceso de resolución, resolvía tareas textuales de varios pasos e incluso explicaba el remate de chistes. PaLM se convirtió así en el emblema de la idea de las capacidades emergentes, habilidades que aparecen de forma repentina a partir de un determinado tamaño de modelo. Fue el punto culminante de la era de escalado de Google y un precursor de PaLM 2 y Gemini. Para ser precisos: 540.000 millones de parámetros resultaban enormemente costosos, y PaLM nunca se publicó como modelo abierto. Además, la tesis de las capacidades emergentes es controvertida: algunos de esos saltos son en parte un artefacto del método de medición elegido.

En 2022, Google presentó PaLM, un modelo de lenguaje con 540.000 millones de parámetros entrenado en miles de chips TPU.

PaLM destacó en el razonamiento de múltiples pasos: con prompts de cadena de pensamiento resolvía tareas textuales e incluso explicaba chistes.

Alimentó la idea de las capacidades emergentes: habilidades que aparecen de forma repentina a partir de un determinado tamaño de modelo.

Sin exagerar: 540.000 millones de parámetros resultaban enormemente costosos, y PaLM nunca se publicó de forma abierta. Además, la tesis de las capacidades emergentes es controvertida: algunos saltos son en parte un artefacto del método de medición (Schaeffer et al. 2023).

Organizaciones:Google

2022Productos

Stable Diffusion: generación de imágenes de código abierto

La democratización de la generación de imágenes con IA a través del primer modelo potente de código abierto. El 22 de agosto de 2022, Stability AI lanzó Stable Diffusion y transformó significativamente el acceso a la tecnología avanzada de texto a imagen. Como primer modelo de código abierto de su clase, Stable Diffusion podía generar imágenes fotorrealistas de 512x512 píxeles en GPUs de consumo, un avance importante en velocidad y accesibilidad. Basado en Modelos de Difusión Latente (LDMs), el sistema itera a través del 'des-ruido' en espacios latentes en lugar de manipulación directa de píxeles. Con 860 millones de parámetros en la U-Net y 123 millones en el codificador de texto, permaneció relativamente ligero a pesar del alto rendimiento. El código fuente disponible en GitHub permitió a una comunidad explosivamente creciente desarrollar innumerables variantes y herramientas. Stable Diffusion rompió el monopolio de los sistemas propietarios e hizo accesible a todos la generación de imágenes con IA de alta calidad.

Primer modelo potente de texto a imagen de código abierto con código fuente disponible en GitHub

Modelos de difusión latente con des-ruido iterativo en espacios latentes en lugar de manipulación directa de píxeles

Crecimiento explosivo de la comunidad con innumerables variantes, herramientas y aplicaciones

Rompió el monopolio de sistemas propietarios y democratizó la generación de imágenes con IA de alta calidad

Personas:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organizaciones:Stability AI, CompVis, Runway

2022Avances

OpenAI publica Whisper

Cuando el reconocimiento de voz se volvió verdaderamente fiable y accesible para todos. El 21 de septiembre de 2022, OpenAI publicó Whisper, un sistema de reconocimiento de voz entrenado para funcionar de forma robusta en distintos idiomas, acentos y ruidos ambientales. A diferencia de sistemas anteriores entrenados con datos de audio limpios, Whisper utilizó 680.000 horas de datos multilingües procedentes de internet. El resultado: un sistema capaz de transcribir en 99 idiomas que compite con soluciones comerciales. OpenAI puso Whisper a disposición como código abierto, un regalo para desarrolladores de todo el mundo que hizo posibles innumerables aplicaciones.

Publicado el 21 de septiembre de 2022 como código abierto

Cubre 99 idiomas y transcribe de forma robusta incluso con acentos y ruido de fondo; su punto fuerte es el inglés, ya que la mayor parte de los datos de entrenamiento están en ese idioma

Entrenado con 680.000 horas de datos de audio multilingüe procedentes de internet

Democratizó el reconocimiento de voz de alta calidad mediante su disponibilidad como código abierto

Personas:Alec Radford, Jong Wook Kim, Tao Xu

Organizaciones:OpenAI

2022Productos

ChatGPT marca un punto de inflexión en el uso de la IA

El momento en que la IA se volvió accesible para todos y comenzó una nueva era. El 30 de noviembre de 2022, OpenAI publicó ChatGPT como un Research Preview gratuito — sin grandes campañas de marketing y con pocas expectativas. Lo que siguió superó todas las previsiones: en 5 días, ChatGPT alcanzó un millón de usuarios; en dos meses, 100 millones — el crecimiento de usuarios más rápido que una aplicación de consumo había registrado hasta entonces (superado en julio de 2023 por Threads de Meta). Basado en GPT-3.5, ChatGPT ofreció por primera vez a un público amplio acceso directo a una IA potente sin barreras técnicas. Kevin Roose, del New York Times, lo calificó de 'el mejor chatbot de IA jamás puesto a disposición del público'. ChatGPT democratizó la inteligencia artificial y convirtió un campo de investigación en una herramienta cotidiana. Esta publicación marcó el inicio de la actual ola de IA generativa.

Publicado el 30 de noviembre de 2022 como Research Preview gratuito y accesible para el público general

Alcanzó 1 millón de usuarios en 5 días y 100 millones en 2 meses — el crecimiento más rápido de una aplicación de consumo hasta entonces (superado después por Threads)

Primera IA potente sin barreras técnicas — acceso directo por web para cualquier usuario de internet

Democratizó la IA y desencadenó la actual ola de IA generativa en la sociedad y la economía

Personas:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organizaciones:OpenAI, Microsoft, ChatGPT

2022Publicaciones

Constitutional AI - Seguridad de la IA mediante una constitución

En diciembre de 2022, Anthropic presenta Constitutional AI (CAI), un nuevo método para desarrollar sistemas de IA inofensivos, útiles y honestos. Una 'constitución' de principios éticos permite a la IA autocriticarse y mejorar ante contenidos dañinos — sin necesitar etiquetas humanas para evaluar específicamente ese daño. (El anclaje explícito de estos principios en la Declaración Universal de Derechos Humanos de la ONU y otros documentos de derechos fundamentales lo describió Anthropic por primera vez en mayo de 2023 en 'Claude's Constitution'; el artículo original empleaba un conjunto de principios reunidos de forma pragmática.) El innovador método RLAIF (Reinforcement Learning from AI Feedback) sustituye el feedback humano, aunque únicamente para la inofensividad mediante la autocrítica de la IA — la utilidad siguió entrenándose con datos de preferencias humanas (RLHF). Así, CAI establece un enfoque de seguridad prioritaria (safety-first) como alternativa al enfoque centrado puramente en el rendimiento de ChatGPT y allana el camino hacia el desarrollo responsable de la IA.

La IA se autocritica y mejora ante contenidos dañinos — sin necesitar etiquetas humanas de daño para esa evaluación

Enfoque alternativo que prioriza la seguridad frente a métodos centrados únicamente en el rendimiento, como ChatGPT

Triple objetivo: útil, honesta e inofensiva mediante principios éticos

RLAIF: Reinforcement Learning from AI Feedback sustituye las evaluaciones humanas en cuanto a la inofensividad (la utilidad sigue entrenándose vía RLHF)

Personas:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organizaciones:Anthropic

2023Regulación

NIST AI Framework: EE. UU. define la IA confiable

El 26 de enero de 2023, el Instituto Nacional de Estándares y Tecnología de EE. UU. publicó el primer marco integral de gestión de riesgos de IA (AI RMF 1.0), la respuesta de América a la regulación global de la IA. Tras 18 meses de desarrollo con más de 240 organizaciones de la industria, la academia y la sociedad civil, NIST definió por primera vez estándares federales para una IA confiable. El marco establece cuatro funciones clave: Govern, Map, Measure, Manage, y siete características de la IA confiable: segura, resiliente, explicable, respetuosa de la privacidad, justa, transparente y fiable. Como estándar voluntario, tiene como objetivo minimizar los riesgos de la IA para individuos, organizaciones y la sociedad. La publicación siguió a la AI Bill of Rights de Biden (2022) y fue complementada posteriormente por su Orden Ejecutiva sobre IA (octubre de 2023). El AI RMF surgió por mandato legal de la National AI Initiative Act de 2020, donde NIST continuó su papel consolidado como organismo federal de estándares. El marco se convirtió en la base para estándares industriales y coordinación internacional, un contrapeso al control estatal chino sobre la IA y al enfoque regulador de Europa.

Cuatro funciones clave: Govern, Map, Measure, Manage para una gestión sistemática de riesgos de IA

Siete características de la IA confiable: segura, resiliente, explicable, respetuosa de la privacidad, justa, transparente y fiable

Enfoque voluntario con múltiples partes interesadas: más de 240 organizaciones desarrollaron estándares de forma conjunta

Organismo federal de estándares: NIST desarrolló el AI RMF por mandato de la National AI Initiative Act de 2020

Personas:NIST AI Team, 240+ Contributing Organizations

Organizaciones:NIST, US Department of Commerce, Biden Administration

2023Productos

LLaMA: modelo base de código abierto

La democratización de los modelos de lenguaje grandes mediante modelos de investigación abiertos. El 24 de febrero de 2023, Meta AI publicó LLaMA (Large Language Model Meta AI), una colección de modelos base con entre 7B y 65B parámetros, entrenados exclusivamente con datos de acceso público. El influyente artículo 'LLaMA: Open and Efficient Foundation Language Models' demostró que es posible alcanzar un rendimiento de última generación sin recurrir a conjuntos de datos propietarios. LLaMA permitió a investigadores sin acceso a grandes infraestructuras estudiar modelos de lenguaje avanzados. El código de inferencia se publicó bajo licencia GPLv3, mientras que el acceso a los modelos se concedió caso por caso para la investigación académica. Al estar entrenado con billones de tokens y disponible en distintos tamaños, LLaMA se adaptaba a diferentes requisitos de hardware. Este trabajo catalizó una oleada de investigación abierta sobre LLM e inspiró numerosos modelos derivados en la comunidad de código abierto.

Código de inferencia bajo licencia GPLv3; los pesos del modelo se publicaron caso por caso y exclusivamente para la investigación no comercial

Modelos de entre 7B y 65B parámetros entrenados exclusivamente con conjuntos de datos de acceso público

Permitió a investigadores sin grandes infraestructuras estudiar modelos de lenguaje avanzados

Distintos tamaños de modelo para diferentes requisitos de hardware y propósitos de investigación

Personas:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organizaciones:Meta AI, FAIR

2023Productos

Claude y Constitutional AI

La introducción de una IA con sistema de valores incorporado y principios éticos. En marzo de 2023, Anthropic presentó Claude - un asistente de IA basado en Constitutional AI que estableció un enfoque novedoso para la seguridad de IA. A diferencia de sistemas convencionales, Claude aprende mediante un método de dos fases: primero el modelo critica y mejora sus propias respuestas basándose en una constitución de principios éticos, luego se refina mediante retroalimentación generada por IA - sin evaluaciones humanas para prevención de daños. El resultado es un sistema que actúa de manera útil e inofensiva. Anthropic lanzó Claude y Claude Instant simultáneamente, siendo este último una variante más rápida y rentable. Este método de Constitutional AI demostró ser una mejora de Pareto sobre la retroalimentación humana y abrió nuevos caminos para la supervisión escalable de IA.

Marco de Constitutional AI con entrenamiento de dos fases: autocrítica basada en principios éticos, luego refinamiento basado en retroalimentación de IA

Enfoque de seguridad novedoso sin evaluaciones humanas de daños - puramente a través de supervisión de IA

Lanzamiento simultáneo de Claude y Claude Instant para diferentes requisitos de aplicación

Estableció 'útil, inofensivo, honesto' como valores centrales para desarrollo responsable de IA

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organizaciones:Anthropic, Constitutional AI, AI Safety

2023Productos

GPT-4: modelo de IA multimodal

El gran avance hacia el rendimiento humano en benchmarks profesionales y académicos. El 14 de marzo de 2023, OpenAI presentó GPT-4 — un Large Multimodal Model que procesa entradas de texto e imagen y alcanza el nivel humano en diversas disciplinas. Las mejoras fueron considerables: mientras GPT-3.5 superó el examen de baremo (bar exam) en el 10% inferior, GPT-4 alcanzó el 10% superior. En la prueba de matemáticas del SAT, el rendimiento mejoró del percentil 70 al 89. Tras seis meses de alineamiento iterativo con los resultados del programa de pruebas adversariales y el feedback de ChatGPT, se reconstruyó íntegramente la pila de Deep Learning. Las capacidades multimodales permiten procesar documentos, diagramas y capturas de pantalla con la misma calidad que las entradas de texto puro. GPT-4 estableció nuevos estándares de seguridad y rendimiento para la IA.

Large Multimodal Model con entradas de texto e imagen, capacidades de visión para documentos y diagramas

Bar exam en el 10% superior frente al 10% inferior de GPT-3.5; mejora en matemáticas SAT del percentil 70 al 89

Alineamiento iterativo durante 6 meses: pruebas adversariales y retroalimentación de ChatGPT mejoraron la seguridad

La integración en ChatGPT Plus hizo accesible la IA multimodal avanzada a los consumidores

Personas:Sam Altman, OpenAI Team

Organizaciones:OpenAI

2023Productos

Midjourney V5: arte con IA fotorrealista

La generación de imágenes fotorrealistas con IA alcanza un nuevo nivel de calidad y transforma considerablemente la industria creativa. El 15 de marzo de 2023, Midjourney publicó la versión 5 y logró un salto de calidad que los usuarios describieron como 'inquietante' y 'demasiado perfecto'. La versión alpha fue capaz por primera vez de generar imágenes fotorrealistas prácticamente indistinguibles de fotografías reales. Especialmente destacable: el crónico problema de las manos defectuosas mejoró de forma notable; V5 era capaz de representar correctamente cinco dedos en la mayoría de los casos. Julie Wieland, diseñadora gráfica, comparó la experiencia con 'ponerse por fin unas gafas después de ignorar demasiado tiempo una mala visión': de repente todo se ve en calidad 4K [Fuente: Ars Technica, marzo de 2023]. La mayor sensibilidad a los prompts permitió un control creativo más preciso, mientras que el escalado automático ampliaba las imágenes base de 1024x1024 píxeles sin costes adicionales de GPU. V5 desencadenó intensos debates sobre el futuro de la creatividad humana.

Calidad de imagen fotorrealista prácticamente indistinguible de fotografías reales

Desencadenó reacciones intensas en la comunidad creativa, desde entusiasmo hasta preocupaciones existenciales

Mejoró considerablemente el arte con IA mediante una representación precisa de las manos y una mayor sensibilidad a los prompts

Estableció nuevos estándares para la generación comercial de imágenes con IA con un impacto considerable en la industria creativa

Personas:David Holz, Midjourney Team

Organizaciones:Midjourney Inc

2023Regulación

Decreto de IA de Biden - Primera regulación integral de IA en EE. UU.

El presidente Biden firmó el 30 de octubre de 2023 la Orden Ejecutiva 14110 sobre el 'desarrollo y uso seguros, protegidos y fiables de la inteligencia artificial' — la primera regulación integral de IA de los EE. UU. y, con 110 páginas, la Orden Ejecutiva más extensa de la historia. El amplio decreto obliga a los desarrolladores de sistemas de IA de gran potencia a divulgar los resultados de sus pruebas de seguridad y establece estrictos estándares de red team a través del NIST. Protege frente al fraude basado en IA mediante la autenticación de contenidos y el marcado de agua (watermarking), aborda los riesgos en infraestructuras críticas y las amenazas biológicas. En el momento de su firma, esta Orden fijó estándares globales para el desarrollo responsable de la IA y posicionó a los EE. UU. como pioneros en la gobernanza de la IA. Sin embargo, su vigencia fue limitada: el 20 de enero de 2025, el presidente Trump revocó la EO 14110 mediante la Orden Ejecutiva 14148 — el documento refleja, por tanto, el estado regulatorio de 2023.

Gobernanza de IA más completa hasta la fecha — 110 páginas, la Orden Ejecutiva más extensa de la historia

Pruebas de seguridad obligatorias y resultados de red team para sistemas de IA de gran potencia — estándares establecidos por el NIST

Ley de Producción de Defensa: obligación de notificación para sistemas de IA con riesgos para la seguridad nacional

Posicionó a los EE. UU. en 2023 como pioneros en gobernanza responsable de la IA — aunque fue revocada en 2025

Personas:Joe Biden, Kamala Harris

Organizaciones:White House, NIST, Department of Homeland Security

2023Regulación

Carta de pausa y Bletchley: la seguridad de la IA se convierte en asunto global

En 2023, tras el primer impacto de ChatGPT, el mundo debatía cómo regular una tecnología de repente muy poderosa. En marzo, miles de firmantes, entre ellos Yoshua Bengio y Elon Musk, pedían en una carta abierta del Future of Life Institute una pausa de seis meses en el entrenamiento de sistemas de IA más potentes que GPT-4. No hubo pausa, pero la carta puso el tema en la agenda mundial. En noviembre tuvo lugar la primera cumbre mundial de seguridad en IA en Bletchley Park, en el Reino Unido, escogido conscientemente por ser el lugar donde Turing descifró códigos en su día. 28 países y la UE, incluidos EE. UU. y China, firmaron la Declaración de Bletchley sobre los riesgos de la IA avanzada. Fue la primera vez que potencias rivales hablaron juntas sobre seguridad en IA, dando inicio a una serie de cumbres (Seúl 2024, París 2025). Para ser honestos: la pausa nunca llegó y la Declaración de Bletchley no era vinculante; ambas pusieron temas en la agenda pero no crearon normas exigibles.

Marzo de 2023: una carta abierta del Future of Life Institute (miles de firmantes, entre ellos Bengio y Musk) pedía una pausa de 6 meses en el entrenamiento de IA más potente que GPT-4.

Noviembre de 2023: primera cumbre mundial de seguridad en IA en Bletchley Park (Reino Unido), donde Turing descifró códigos durante la guerra.

28 países y la UE, incluidos EE. UU. y China, firmaron la Declaración de Bletchley sobre los riesgos de la IA avanzada; inicio de la serie de cumbres (Seúl 2024, París 2025).

Anti-hype: la pausa nunca llegó; la declaración no era vinculante. Ambas pusieron temas en la agenda, pero no crearon normas exigibles.

Organizaciones:Future of Life Institute, UK Government

2023Productos

Mistral y Mixtral: los modelos abiertos de Europa

Mientras que en 2023 los grandes titulares los acaparaban sobre todo las empresas estadounidenses, desde París surgió un competidor: Mistral AI, fundada en la primavera de 2023 por Arthur Mensch (antes en Google DeepMind) junto con Guillaume Lample y Timothée Lacroix (antes en Meta). Ya en septiembre, el pequeño modelo Mistral 7B sorprendió al mundo académico: disponible libremente bajo licencia Apache 2.0 y más potente que el mucho más grande Llama 2 13B. En diciembre llegó Mixtral 8x7B: un modelo abierto de mezcla de expertos (Mixture of Experts) que en muchas tareas alcanzaba el nivel de GPT-3.5, pero solo activaba una fracción de sus parámetros por solicitud (unos 13 de 47.000 millones). Mistral se convirtió en el emblema europeo de los modelos abiertos y recaudó miles de millones. Para ser precisos: los pesos abiertos no son lo mismo que el código abierto (open source): los datos y el código de entrenamiento permanecen cerrados. Y Mixtral alcanzó GPT-3.5, no el modelo puntero de entonces, GPT-4; además, la propia arquitectura Mixture of Experts es considerablemente más antigua.

Primavera de 2023: en París, Arthur Mensch (ex-Google-DeepMind) y Guillaume Lample y Timothée Lacroix (ex-Meta) fundaron Mistral AI, la respuesta europea a los laboratorios estadounidenses.

Septiembre de 2023: Mistral 7B, un modelo pequeño con pesos abiertos (Apache 2.0) que superó al mayor Llama 2 13B.

Diciembre de 2023: Mixtral 8x7B, un modelo abierto de mezcla de expertos; en muchos benchmarks al nivel de GPT-3.5, pero eficiente (solo ~13.000 millones de parámetros activos de ~47.000 millones).

Sin exagerar: los pesos abiertos no equivalen a código abierto (datos y código de entrenamiento permanecen cerrados); Mixtral alcanzó GPT-3.5, no GPT-4. Además, Mixture of Experts es más antigua (entre otros, Shazeer 2017).

Personas:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organizaciones:Mistral AI

2023Productos

Google Gemini: familia de IA multimodal

La respuesta de Google a ChatGPT y el gran avance hacia la multimodalidad nativa. El 6 de diciembre de 2023, Google anunció Gemini 1.0 — una familia de IA desarrollada desde cero para la multimodalidad. La colaboración entre DeepMind y Google Brain dio como resultado tres tamaños de modelo: Gemini Ultra para tareas de alta complejidad, Gemini Pro como solución equilibrada y Gemini Nano para aplicaciones en dispositivos. A diferencia de los sistemas ampliados a posteriori, Gemini fue concebido de forma nativa con comprensión de lenguaje, audio, código y vídeo. En seis de ocho benchmarks, Gemini Pro superó el estándar de GPT-3.5, incluidas las pruebas MMLU. El día del anuncio, el Bard habitual recibió nuevas capacidades con Gemini Pro; Google anunció el más potente Bard Advanced con Gemini Ultra para principios de 2024. Gemini marcó la respuesta estratégica de Google a la dominancia de OpenAI y estableció la IA multimodal como nuevo estándar para los modelos de lenguaje grandes.

Desarrollado desde cero para la multimodalidad: comprensión de lenguaje, audio, código y vídeo integrados de forma nativa

Superó a GPT-3.5 en 6 de 8 benchmarks estándar y estableció a Google como alternativa seria a ChatGPT

Tres tamaños de modelo: Ultra (complejo), Pro (equilibrado), Nano (en dispositivo) para diversas aplicaciones

El Bard habitual recibió Gemini Pro el día del anuncio; Bard Advanced con Gemini Ultra fue anunciado para principios de 2024

Personas:Sundar Pichai, Demis Hassabis, Gemini Team

Organizaciones:Google, DeepMind, Google AI

2024Productos

IA incorporada: los modelos adquieren un cuerpo

Durante años, los grandes modelos de IA vivieron solo en las pantallas: escribían textos, generaban imágenes, mantenían conversaciones. En 2024 eso comenzó a cambiar: fue el año de la IA incorporada. La idea consiste en instalar los mismos modelos de base que comprenden lenguaje e imágenes en cuerpos reales, sobre todo en robots humanoides. La empresa Figure se asoció con OpenAI y mostró un robot que habla, ve y manipula objetos. NVIDIA presentó con Project GR00T un modelo de base específico para humanoides, y empresas emergentes como Physical Intelligence fueron valoradas en miles de millones. Muchos ya hablaban del ChatGPT moment de la robótica. Para ser honestos: la mayor parte de lo visto hasta ahora han sido demostraciones y anuncios, no máquinas que trabajen de forma fiable en el día a día. El mundo físico es enormemente más difícil de dominar para un robot que una pantalla; la destreza, la seguridad y la fiabilidad siguen siendo problemas sin resolver.

2024 fue el año de la IA incorporada: los modelos de lenguaje que antes solo existían en el chat empezaron a habitar robots, especialmente humanoides.

Figure se asoció con OpenAI y mostró un humanoide que habla y actúa; NVIDIA presentó Project GR00T como modelo de base para humanoides; empresas emergentes como Physical Intelligence fueron valoradas en miles de millones.

La esperanza: un robot que integre lenguaje, visión y acción en un único modelo de base podría aprender tareas generales en el mundo real, un ChatGPT moment para la robótica.

Anti-hype: en su mayor parte han sido demostraciones y anuncios, no productos fiables. El mundo real es para los robots enormemente más difícil que una pantalla; la destreza, la seguridad y la fiabilidad siguen sin resolverse.

Organizaciones:Figure AI, NVIDIA, Physical Intelligence

2024Productos

Waymo: el taxi sin conductor se convierte en cotidiano

Durante más de una década, la conducción autónoma fue el ejemplo por excelencia de las promesas de la IA que no dejaban de retrasarse. En 2024 se hizo tangible: Waymo, la filial de coches robot de Google, puso por primera vez taxis sin conductor a disposición del público en gran escala, en San Francisco, Los Ángeles y Phoenix. En el verano de 2024, la empresa informó de más de 100.000 viajes pagados por semana, completamente sin conductor de seguridad al volante. Tras años de anuncios, fue la primera prueba concreta de que la conducción autónoma puede funcionar como un servicio real y cotidiano. Para ser precisos: Waymo solo circula en zonas urbanas muy delimitadas y minuciosamente cartografiadas, no en cualquier lugar ni con cualquier tiempo. Siguen produciéndose averías y vehículos parados, y la explotación es costosa. La conducción autónoma completa en cualquier entorno sigue sin resolverse; la retirada del competidor Cruise tras un grave accidente en 2023 mostró lo frágil que sigue siendo la tecnología.

En 2024, Waymo, la filial de coches robot de Google, se convirtió en el primer proveedor de taxis sin conductor a gran escala, abierto al público en varias ciudades de EE. UU.

En el verano de 2024, Waymo registró más de 100.000 viajes pagados por semana, completamente sin conductor de seguridad al volante.

Tras más de una década de promesas, fue la primera prueba concreta de que la conducción autónoma puede funcionar como un servicio real.

Sin exagerar: Waymo solo circula en zonas urbanas delimitadas y cartografiadas, no en cualquier lugar. Siguen produciéndose averías y el servicio es costoso. La conducción autónoma completa sigue sin resolverse (la retirada de Cruise mostró la fragilidad).

Organizaciones:Waymo, Alphabet

2024Productos

Sora: vídeos generados por IA a partir de texto

El avance hacia vídeos fotorrealistas generados por IA y sus repercusiones en la industria cinematográfica. El 15 de febrero de 2024, OpenAI presentó Sora, un modelo de texto a vídeo capaz de generar vídeos HD detallados de hasta un minuto de duración a partir de breves descripciones. Nombrado a partir de la palabra japonesa que significa 'cielo', Sora simboliza un 'potencial creativo ilimitado'. Como Diffusion Transformer, Sora adapta la tecnología de DALL-E 3 para la consistencia temporal y simula a menudo, aunque no de forma fiable, movimientos físicamente plausibles. Los vídeos de demostración superaron a todos los sistemas existentes de texto a vídeo y establecieron nuevos estándares para la creatividad de la IA. El director Tyler Perry detuvo una expansión de estudios valorada en 800 millones de dólares ante la preocupación por el impacto de Sora en el sector. OpenAI adoptó un enfoque cauteloso con pruebas de Red Team para detectar desinformación y sesgos antes de proceder a una publicación más amplia.

Generación fotorrealista de texto a vídeo con vídeos HD de varios minutos de duración, superando a los sistemas existentes

Diffusion Transformer basado en la tecnología de DALL-E 3 para la consistencia temporal

Simula a menudo movimientos físicamente plausibles y mantiene la consistencia a lo largo de todo el vídeo

Posible disrupción de la industria cinematográfica: Tyler Perry detuvo una expansión de estudios de 800 millones de dólares

Personas:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organizaciones:OpenAI

2024Productos

Familia Claude 3 con capacidades multimodales

La introducción de una familia de IA con visión y tres modelos especializados. El 4 de marzo de 2024, Anthropic presentó la familia Claude 3: Opus, Sonnet y Haiku – tres modelos con diferentes fortalezas para varios casos de uso. La característica central fue el sofisticado procesamiento de visión que puede analizar fotos, gráficos, diagramas y dibujos técnicos. Claude 3 Opus logró nuevos mejores resultados en tareas cognitivas y superó a los competidores en benchmarks como MMLU y GPQA. Sonnet ofreció el equilibrio ideal entre inteligencia y velocidad para empresas, mientras que Haiku impresionó con tiempos de respuesta casi instantáneos. Con una ventana de contexto de 200,000 tokens (expandible a 1 millón) y disponibilidad en 159 países, Claude 3 estableció nuevos estándares de referencia para sistemas de IA multimodal.

Sofisticado procesamiento de visión para fotos, gráficos, diagramas y dibujos técnicos

Opus (mayor inteligencia), Sonnet (equilibrio), Haiku (velocidad) para diferentes casos de uso

Capacidades multimodales permiten procesar formatos visuales junto con procesamiento de texto

Claude 3 Opus logró nuevos mejores resultados en MMLU, GPQA y otros benchmarks cognitivos

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organizaciones:Anthropic, Claude API, Amazon Bedrock

2024Productos

Devin: el primer ingeniero de software autónomo con IA

El nacimiento del desarrollo de software completamente autónomo mediante inteligencia artificial. El 12 de marzo de 2024, Cognition Labs presentó Devin — comercializado por la empresa como el primer ingeniero de software con IA completamente autónomo del mundo. El sistema puede planificar de forma independiente, clonar repositorios, escribir código, depurar, probar e incluso desplegar aplicaciones. En el exigente SWE-Bench, Devin alcanzó una tasa de éxito del 13,86% en problemas reales de GitHub — un salto enorme frente al anterior mejor resultado del 1,96%. La startup fue valorada en una ronda de financiación temprana en torno a 350 millones de dólares; poco después del lanzamiento circularon informes de una valoración de alrededor de 2.000 millones de dólares. A pesar de los impresionantes resultados, las pruebas también mostraron limitaciones: solo 3 de 20 tareas se resolvieron con éxito, a menudo con fallos impredecibles.

Desarrollo de software completamente autónomo: planificación, codificación, depuración, pruebas y despliegue sin intervención humana

Gestiona tareas complejas de ingeniería, desde la migración de código hasta el desarrollo completo de aplicaciones

Tasa de éxito del 13,86% en SWE-Bench — 7 veces mejor que el estado del arte anterior del 1,96%

Desencadenó el debate sobre el futuro del desarrollo de software e inspiró alternativas de código abierto como OpenHands

Personas:Scott Wu, Steven Hao, Walden Yan

Organizaciones:Cognition Labs, SWE-Bench

2024Avances

AlphaFold 3: la IA predice la interacción entre moléculas

Cuatro años después del avance de AlphaFold 2, Google DeepMind presentó en mayo de 2024 una nueva versión, junto con su empresa hermana Isomorphic Labs. AlphaFold 2 había predicho cómo una proteína individual se pliega en su forma tridimensional. AlphaFold 3 va un paso decisivo más allá: modela cómo las proteínas interactúan con otras moléculas, incluidas el ADN, el ARN, los iones y las pequeñas moléculas de fármacos. Precisamente esta interacción resulta crucial para la investigación farmacéutica, ya que permite estimar en el ordenador cómo un fármaco se une a su proteína objetivo. Para ser honestos: las predicciones son notables, pero no están exentas de errores; su precisión varía según el tipo de molécula y siguen siendo necesarias comprobaciones en el laboratorio. Además, AlphaFold 3 apareció inicialmente sin código abierto, solo como servicio web limitado, lo que generó críticas en el ámbito investigador por falta de transparencia.

En mayo de 2024, Google DeepMind e Isomorphic Labs presentaron AlphaFold 3, una ampliación significativa de su predecesor.

Mientras AlphaFold 2 predecía el plegamiento de proteínas individuales, AlphaFold 3 modela su interacción con otras moléculas: ADN, ARN, fármacos e iones.

Especialmente valioso para la investigación farmacéutica: permite estimar en el ordenador cómo un fármaco se une a su proteína objetivo.

Anti-hype: las predicciones no son infalibles y deben verificarse en el laboratorio. Además, AlphaFold 3 apareció sin código abierto, solo como servicio web limitado, lo que suscitó críticas sobre su transparencia.

Organizaciones:Google DeepMind, Isomorphic Labs

2024Competiciones

AlphaProof: la IA gana la medalla de plata en la Olimpiada de Matemáticas

Durante mucho tiempo, las matemáticas se consideraron la disciplina regia en la que la IA fracasaba: demasiado creativa, demasiado dependiente de una comprensión real. En julio de 2024, Google DeepMind marcó un hito: el sistema AlphaProof, junto con AlphaGeometry 2, resolvió cuatro de las seis tareas de la Olimpiada Internacional de Matemáticas. Eso equivalió al nivel de una medalla de plata, a un solo punto del oro. Lo especial es su método de trabajo: AlphaProof formula sus demostraciones en el lenguaje formal Lean, que permite verificar cada paso de forma automática, de modo que la IA no puede hacer trampa. Lo aprendió mediante aprendizaje por refuerzo. Por primera vez, una IA alcanzó el nivel de medalla en esta prestigiosa competición. Para ser honestos: no fueron condiciones de competición reales. Mientras los humanos disponen de cuatro horas y media, la IA necesitó en algunos casos varios días, y los especialistas debieron traducir previamente los problemas al lenguaje formal. Las dos tareas de combinatoria quedaron sin resolver.

En julio de 2024, AlphaProof de Google DeepMind, junto con AlphaGeometry 2, resolvió cuatro de las seis tareas de la Olimpiada Internacional de Matemáticas: nivel de medalla de plata.

AlphaProof formula demostraciones en el lenguaje formal Lean y las verifica automáticamente; lo aprendió mediante aprendizaje por refuerzo. AlphaGeometry 2 resolvió la tarea de geometría.

Por primera vez, una IA alcanzó el nivel de medalla en esta prestigiosa competición: un hito para el razonamiento automático con demostraciones verificables.

Anti-hype: sin condiciones de competición reales; la IA necesitó días en lugar de las 4,5 horas disponibles, y los humanos tradujeron previamente los problemas al lenguaje formal. Las dos tareas de combinatoria quedaron sin resolver.

Organizaciones:Google DeepMind

2024Regulación

Reglamento europeo de IA: la primera ley integral sobre IA

La primera regulación integral de la inteligencia artificial del mundo entra en vigor. El 1 de agosto de 2024, el Reglamento europeo de IA adquirió fuerza legal — un marco normativo basado en el riesgo con 180 considerandos y 113 artículos que abarca todo el ciclo de vida de la IA. La ley clasifica los sistemas de IA en cuatro niveles de riesgo: las aplicaciones inaceptables quedan prohibidas, los sistemas de alto riesgo en educación, empleo y justicia están sujetos a detalladas obligaciones de cumplimiento, los sistemas con riesgo limitado deben cumplir obligaciones de transparencia, y el resto con riesgo mínimo queda en gran medida sin restricciones. Al mismo tiempo, se aplican normas propias para los modelos de base GPAI como GPT, que impulsan aplicaciones como ChatGPT. El efecto extraterritorial alcanza también a los proveedores fuera de la UE con usuarios europeos. Las infracciones pueden acarrear multas de hasta 35 millones de euros o el 7% de la facturación anual mundial. Al igual que el RGPD en 2018, el Reglamento de IA podría establecer estándares globales y determinar cómo la IA influye en nuestras vidas. La aplicación escalonada comienza en 2025 y será plenamente efectiva en 2027.

Primera ley integral de IA del mundo con 180 considerandos y 113 artículos para todo el ciclo de vida de la IA

Cuatro niveles de riesgo: usos prohibidos, alto riesgo, riesgo limitado y riesgo mínimo — más normas propias para los modelos de base GPAI

El efecto extraterritorial, al igual que el RGPD, podría establecer estándares globales de IA e influir en el cumplimiento normativo mundial

Multas de hasta 35 millones de euros o el 7% de la facturación anual, aplicación escalonada de 2025 a 2027

Personas:Ursula von der Leyen, Thierry Breton

Organizaciones:European Union, European Parliament, European Commission

2024Productos

OpenAI O1: avance en el razonamiento

OpenAI publica el 12 de septiembre de 2024 primero o1-preview (y o1-mini) y amplía considerablemente el razonamiento de la IA mediante Chain-of-Thought, cuya cadena de pensamiento se entrena con aprendizaje por refuerzo. O1 es el primer modelo de lenguaje ampliamente disponible que 'piensa' de forma sistemática antes de responder: con una cadena de pensamiento privada analiza los problemas paso a paso. Este nuevo enfoque abre una nueva dimensión de escalado: el Test-Time-Scaling, donde pensar más tiempo conduce a mejores resultados. El modelo o1 completo alcanza en pruebas de benchmark un rendimiento de nivel doctoral en física, química y biología, y resuelve el 83% de las tareas de la American Invitational Mathematics Examination (GPT-4o: 13%). La tecnología demuestra que la IA puede desarrollar capacidades de resolución de problemas significativamente mejoradas mediante el razonamiento estructurado.

Primer modelo cuya cadena de pensamiento (Chain-of-Thought) se entrena y escala mediante aprendizaje por refuerzo, para un razonamiento más estructurado

Nueva dimensión de escalado: cuanto más tiempo piensa, mejores son los resultados

Nuevo enfoque: de la reproducción de patrones a la resolución de problemas mejorada

Avance importante en el razonamiento complejo: capacidades de resolución de problemas significativamente mejoradas

Personas:Sam Altman, Noam Brown, OpenAI Team

Organizaciones:OpenAI

2024Hitos

Los premios Nobel de IA de 2024

En octubre de 2024 ocurrió algo sin precedentes: dos premios Nobel de ciencias naturales reconocieron los fundamentos de la IA moderna. El 8 de octubre, el Premio Nobel de Física recayó en John Hopfield y Geoffrey Hinton por los descubrimientos fundamentales que permiten el aprendizaje automático con redes neuronales artificiales. Que precisamente la física premiara las redes neuronales generó debate, aunque las redes de Hopfield inspiradas en la física (1982) y los métodos de aprendizaje de Hinton sentaron en realidad los cimientos. Un día después, el Premio Nobel de Química fue compartido por David Baker (por el diseño de proteínas asistido por ordenador) y Demis Hassabis y John Jumper de DeepMind, por AlphaFold, que resolvió el problema de plegamiento de proteínas pendiente desde hace 50 años. Por primera vez, la investigación fundamental en IA fue reconocida al más alto nivel de la ciencia. Lo notable: Hinton, recién galardonado, aprovechó el escenario para advertir a la vez sobre los riesgos de la tecnología que él mismo había contribuido a fundar.

8 de octubre de 2024: Premio Nobel de Física para John Hopfield y Geoffrey Hinton por los fundamentos del aprendizaje automático con redes neuronales, un premio de física para la IA.

9 de octubre de 2024: Premio Nobel de Química para David Baker (diseño de proteínas) y Demis Hassabis y John Jumper de DeepMind (AlphaFold, plegamiento de proteínas).

Por primera vez, dos Premios Nobel de ciencias naturales reconocieron en el mismo año los fundamentos de la IA, un punto de inflexión en el estatus del campo.

Debatido: ¿son las redes neuronales realmente física? Los premios reconocen fundamentos de décadas (redes de Hopfield 1982, máquina de Boltzmann de Hinton). Hinton advirtió al mismo tiempo sobre los riesgos de la IA.

Personas:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organizaciones:Royal Swedish Academy of Sciences

2024Avances

OpenAI o3: un salto en ARC-AGI

Poco antes de fin de año, el 20 de diciembre de 2024, OpenAI anunció o3, el sucesor de o1 y la prueba de que el razonamiento en tiempo de inferencia (test-time scaling) puede seguir escalando. Lo que más llamó la atención fue un resultado concreto: o3 alcanzó el 87,5 % en ARC-AGI, una prueba diseñada deliberadamente para no poder superarse memorizando; los modelos anteriores se habían quedado cerca de cero. Con ello, o3 se acercó por primera vez a regiones de rendimiento humano en ese benchmark y destacó también en matemáticas y programación. Junto con o1 y el R1 de DeepSeek, o3 marcó la era de los modelos de razonamiento (o3-mini llegó a finales de enero de 2025, y el o3 completo en abril). Para ser precisos: el 87,5 % se obtuvo en modo de máximo rendimiento con un coste computacional enorme y muy elevado por tarea; los organizadores del ARC Prize subrayaron expresamente que o3 no es una AGI y que su rendimiento cae de forma notable en el test sucesor más difícil, ARC-AGI-2.

o3 (anunciado el 20/12/2024) lleva más lejos el test-time scaling de o1: más razonamiento en tiempo de inferencia equivale a mejores resultados y marcas máximas en matemáticas y código.

87,5 % en ARC-AGI, una prueba diseñada para resistir la memorización, en la que los modelos anteriores estaban cerca de cero: un salto muy comentado hacia la adaptabilidad próxima a la humana.

Junto con o1 y DeepSeek-R1, señalaron la era de los modelos de razonamiento; o3-mini llegó a finales de enero de 2025 y el o3 completo en abril de 2025.

Sin exagerar: el 87,5 % se obtuvo en el costoso modo de máximo rendimiento de la preview de diciembre (el o3 publicado posteriormente quedó más bajo); los organizadores del ARC subrayan que o3 NO es una AGI y que cae hasta ~3 % en el más difícil ARC-AGI-2.

Organizaciones:OpenAI

2025Productos

La IA agéntica se convierte en tendencia dominante

En 2024 y 2025 se produjo un cambio en lo que la IA hace: pasó de responder a actuar. El pistoletazo de salida lo dio Anthropic en octubre de 2024 con Computer Use; fue el primero de los grandes laboratorios de IA en ofrecer un modelo que maneja un ordenador por sí solo: ver la pantalla, mover el ratón, hacer clic, escribir. En enero de 2025 llegó Operator de OpenAI, un agente que navega de forma autónoma por la web y completa tareas; poco después llegó Deep Research, que investiga en varios pasos y redacta informes documentados. Del chatbot que genera texto se pasó a un sistema que actúa en nombre del usuario, el giro cualitativo que ya había apuntado Devin (2024). Para ser honestos: las primeras versiones eran lentas, propensas a errores y a menudo limitadas a tareas muy definidas; los sistemas comercializados como agentes recibieron en 2025 una gran promoción, pero su fiabilidad todavía no estaba a la altura del marketing.

Anthropic, Computer Use (oct. 2024): primer modelo de frontera con uso de ordenador en beta pública: pantalla, ratón, teclado.

OpenAI: Operator (ene. 2025) navega autónomamente por la web; Deep Research (feb. 2025) investiga en múltiples pasos y redacta informes documentados.

La transición del chatbot (generar texto) al agente (actuar) — ya anticipada por Devin (2024) — se convirtió en tendencia mayoritaria en 2025.

Anti-hype: las primeras versiones eran lentas, propensas a errores y de alcance limitado; los sistemas se promocionaron más de lo que su fiabilidad justificaba en 2025.

Organizaciones:Anthropic, OpenAI

2025Productos

DeepSeek-R1: el shock de la IA china

A finales de enero de 2025, un modelo de IA movió por primera vez de manera visible las bolsas mundiales. El laboratorio chino DeepSeek publicó el 20 de enero de 2025 R1, un modelo de razonamiento a la altura de o1 de OpenAI, pero con pesos abiertos (licencia MIT) y entrenado a una fracción del coste esperado. Lo hizo posible el aprendizaje por refuerzo a gran escala sobre el modelo base DeepSeek-V3. Cuando una semana después la aplicación de DeepSeek encabezó las listas de EE. UU., el ambiente cambió: el 27 de enero, Nvidia perdió alrededor del 17 % de su valor, unos 600.000 millones de dólares en un solo día, la mayor pérdida individual de la historia bursátil estadounidense, porque los inversores temían que la IA punta quizás no necesitase chips infinitamente caros. R1 sacudió varias certezas a la vez: que solo los grandes centros de datos de EE. UU. compiten en la cima, que los modelos de razonamiento permanecen cerrados y que más potencia de cómputo es el único camino hacia adelante. Para ser honestos: la cifra de unos pocos millones de dólares que circuló se refiere solo al ciclo de entrenamiento final del modelo base V3, no a R1 en sí ni a la investigación y el hardware en su conjunto, y R1 no fue mejor que o1 en todas las disciplinas.

R1 (20 ene. 2025): modelo de razonamiento de código abierto (licencia MIT) al nivel de o1, entrenado con aprendizaje por refuerzo a gran escala; una opción más económica que las alternativas cerradas.

Entrenado a una fracción del coste esperado, lo que cuestionó la suposición de que la IA punta requiere necesariamente presupuestos de cómputo enormes.

27 ene. 2025: Nvidia perdió alrededor del 17 % (unos 600.000 millones de dólares en un día, récord en EE. UU.); China en la cima de la IA: la IA se convirtió visiblemente en cuestión de mercados y geopolítica.

Anti-hype: los pocos millones de dólares mencionados se refieren solo al ciclo de entrenamiento final del modelo base V3, no a R1 ni a la investigación y el hardware en conjunto; R1 no superó a o1 en todas las disciplinas.

Personas:Liang Wenfeng

Organizaciones:DeepSeek

2025Hitos

Stargate: la IA como infraestructura a escala nacional

El 21 de enero de 2025, la inteligencia artificial ocupó el escenario de la Casa Blanca como un proyecto de infraestructura a escala nacional. OpenAI, SoftBank, Oracle y el inversor MGX anunciaron el proyecto Stargate: hasta 500.000 millones de dólares a lo largo de cuatro años para centros de datos de IA en EE. UU., de los cuales la inversión de 100.000 millones debía comenzar de inmediato. Con ello quedó patente que la próxima fase de la IA es menos una cuestión de algoritmos y más una cuestión de energía y construcción: potencia de cómputo a la escala de plantas eléctricas y parques industriales. Para un campo cuyo hilo conductor desde AlexNet ha sido la capacidad de cómputo (véase CUDA 2007), eso representaba el siguiente paso lógico, aunque colosal, y una señal de que la IA se ha convertido en una prioridad nacional y geopolítica. Para ser precisos: un anuncio no es un centro de datos terminado. Desde el principio fue objeto de debate si los 500.000 millones llegarían a reunirse por completo; incluso personas involucradas y observadores manifestaron públicamente sus dudas sobre la financiación.

Hasta 500.000 millones de dólares a lo largo de cuatro años para centros de datos de IA en EE. UU. (OpenAI, SoftBank, Oracle, MGX); la inversión de 100.000 millones debía comenzar de inmediato.

Presentado en la Casa Blanca: la IA se convirtió de forma visible en una cuestión de infraestructura nacional y geopolítica.

La próxima fase de la IA es una cuestión de energía y construcción: potencia de cómputo a la escala de plantas eléctricas (hilo conductor desde CUDA/AlexNet).

Sin exagerar: un anuncio no es un centro de datos terminado; desde el principio fue controvertido si los 500.000 millones llegarían a reunirse por completo.

Personas:Sam Altman, Masayoshi Son, Larry Ellison

Organizaciones:OpenAI, SoftBank, Oracle

2025Regulación

Cumbre de Acción de IA de París

Los días 10 y 11 de febrero de 2025, jefes de Estado y de Gobierno, grandes empresas tecnológicas e investigadores se reunieron en el Grand Palais de París para la Cumbre de Acción de IA, la tercera gran cumbre sobre IA tras Bletchley (2023) y Seúl (2024), codirigida por el presidente francés Macron y el primer ministro indio Modi. Lo más destacado fue el cambio de tono: si la primera cumbre había centrado la atención en la seguridad de la IA, en París el protagonismo lo tuvieron las oportunidades, las inversiones y la competitividad; el vicepresidente de EE. UU. abogó abiertamente contra una regulación excesiva. Al final, 58 Estados, la UE y la Unión Africana firmaron una declaración a favor de una IA inclusiva y sostenible, pero EE. UU. y el Reino Unido se negaron a firmarla. Con ello, la cumbre puso de manifiesto la fractura transatlántica en la gobernanza de la IA. Para ser precisos: la declaración no era vinculante y los críticos calificaron la cumbre de ocasión perdida en materia de seguridad.

Tercera cumbre global de IA (tras Bletchley 2023, Seúl 2024): 10-11 de febrero de 2025, Grand Palais, codirigida por Macron y Modi.

Cambio de tono: de la seguridad a las oportunidades y la competitividad; París puso el énfasis en las inversiones en lugar de los riesgos; el vicepresidente de EE. UU. abogó contra una regulación excesiva.

58 países más la UE y la Unión Africana firmaron la declaración final; EE. UU. y el Reino Unido se negaron a firmarla (fractura transatlántica abierta).

Sin exagerar: la declaración no era vinculante; los críticos calificaron la cumbre de ocasión perdida para la seguridad de la IA.

Personas:Emmanuel Macron, Narendra Modi

2025Productos

Los modelos de frontera en 2025

En 2025, la capacidad de razonamiento que o1 y R1 habían impulsado se convirtió en el estándar de los modelos punteros, a un ritmo difícil de seguir. En marzo Google presentó Gemini 2.5 Pro; en mayo le siguió Anthropic con Claude 4 (Opus 4 y Sonnet 4); en agosto, OpenAI con GPT-5; entremedias llegaron Claude 3.7 (el primer modelo híbrido que responde rápido o se toma su tiempo para pensar), GPT-4.5, Llama 4 de Meta y Grok de xAI. La nueva generación fusionó dos líneas: el razonamiento paso a paso de los modelos de razonamiento y la capacidad de actuar de forma autónoma (agentik). El protagonismo lo ganó especialmente la programación autónoma de larga duración. Para ser honestos: los laboratorios se superaban semana a semana con récords en benchmarks y cada uno reclamaba la cima para sí; avances reales, pero la tan invocada palabra AGI siguió siendo más marketing que realidad.

En 2025, el razonamiento (pensar paso a paso) y la agentividad (actuar de forma autónoma) se convirtieron en el estándar de los modelos punteros; Claude 3.7 introdujo el modelo híbrido que puede responder rápido o dedicar más tiempo a pensar.

Una carrera muy reñida: Gemini 2.5 Pro (marzo), Claude 4 / Opus 4 (mayo), GPT-5 (agosto) — más Llama 4, Grok, DeepSeek. Varios laboratorios compitiendo en la cima.

En el centro: la programación autónoma de larga duración (por ejemplo, Claude Code), modelos que resuelven tareas enteras de forma independiente.

Anti-hype: récords en benchmarks semana a semana, cada laboratorio reclama la cima; avances reales, pero AGI siguió siendo más marketing que realidad.

Organizaciones:Anthropic, OpenAI, Google DeepMind

1837Hitos

La Analytical Engine de Babbage: la idea del ordenador

En la década de 1830, el matemático británico Charles Babbage diseñó la Analytical Engine, que describió por primera vez en 1837: el primer diseño de un ordenador universal y programable.

Su diseño ya incluía los bloques constructivos de los ordenadores actuales: una unidad aritmética (mill), una memoria (store), programación con tarjetas perforadas e incluso saltos condicionales.

La máquina de Babbage es la antepasada lejana de cualquier ordenador y, por tanto, del hardware sobre el que puede funcionar la IA.

Anti-hype: la Analytical Engine nunca se terminó de construir en vida de Babbage; quedó como un diseño en papel. Y era un calculador, no una IA: el fundamento, no el pensamiento en sí.

Personas:Charles Babbage

1843Publicaciones

Ada Lovelace: el primer programa y una visión audaz

En 1843, Ada Lovelace tradujo un artículo sobre la Analytical Engine de Babbage y lo amplió con extensas notas propias que superaron ampliamente el texto original.

Su nota G contiene un procedimiento para calcular los números de Bernoulli, considerado a menudo el primer programa informático publicado.

Con visión de futuro, comprendió que la máquina podría hacer más que calcular: podría procesar símbolos e incluso componer música, anticipando la idea del procesamiento universal de datos.

Personas:Ada Lovelace

1936Publicaciones

La máquina de Turing: qué significa calcular

En 1936, Alan Turing publicó el artículo 'On Computable Numbers' y describió en él un sencillo modelo conceptual de cómputo, la que más tarde se llamaría máquina de Turing.

Con ella, Turing estableció qué es computable en absoluto. Una máquina de Turing universal puede imitar a cualquier otra: el plano teórico del ordenador universal.

Con ello, Turing se convirtió en el fundador de la informática. Que una sola máquina pueda calcular todo lo computable es el fundamento de que las máquinas pudieran aprender a pensar.

Personas:Alan Turing

1943Publicaciones

McCulloch y Pitts: la primera neurona artificial

El primer modelo matemático de la neurona como unidad de cómputo lógico: McCulloch y Pitts tradujeron el funcionamiento del sistema nervioso a lógica proposicional formal.

Todo o nada: una neurona se activa cuando la suma de sus entradas supera un umbral. Redes de esas unidades calculan cualquier función lógica; los bucles de retroalimentación generan memoria.

El límite decisivo: sin aprendizaje. Los pesos y los umbrales eran fijos; la red debía diseñarse a mano. Solo Hebb (1949) y el perceptrón de Rosenblatt (1957) introdujeron reglas de aprendizaje.

Personas:Warren S. McCulloch, Walter Pitts

Organizaciones:University of Illinois, College of Medicine, University of Chicago

1948Publicaciones

La teoría de la información de Shannon: nace el bit

En 1948, Claude Shannon publicó en Bell Labs 'A Mathematical Theory of Communication' y fundó la teoría de la información.

Introdujo el bit como unidad de medida de la información y definió la entropía: cuánta incertidumbre resuelve de media un mensaje.

Fundamental para la IA: la entropía cruzada y la divergencia KL, directamente procedentes de la teoría de Shannon, son hoy objetivos de entrenamiento estándar en el aprendizaje automático.

Personas:Claude Shannon

Organizaciones:Bell Labs

1949Publicaciones

La regla de Hebb: cómo surge el aprendizaje en el cerebro

En 1949, el psicólogo Donald Hebb publicó The Organization of Behavior y formuló cómo podría funcionar el aprendizaje en el cerebro a nivel de las sinapsis.

Regla de Hebb: cuando dos neuronas conectadas se activan juntas repetidamente, su conexión se refuerza.

La idea, aprender significa ajustar la fuerza de las conexiones, se convirtió en el principio fundamental de las redes neuronales que aprenden (por ejemplo, las redes de Hopfield).

Personas:Donald Hebb

1950Publicaciones

Test de Turing: el juego de la imitación

Test de indistinguibilidad: el evaluador intenta distinguir a la máquina de un ser humano mediante conversación de texto

Desplazó el foco de las definiciones filosóficas a las demostraciones conductuales de la inteligencia

Planteó la pregunta fundamental '¿Pueden pensar las máquinas?' y propuso un enfoque operacional

Estableció el primer benchmark de IA e influyó en todos los desarrollos posteriores de IA conversacional

Personas:Alan Turing

Organizaciones:University of Manchester, Mind Journal

1956Avances

Logic Theorist: el primer programa que razona

Demostró 38 de los primeros 52 teoremas del capítulo 2 de 'Principia Mathematica'; para uno de ellos encontró una prueba más corta que la original.

Escrito en el lenguaje de listas IPL (cuya parte esencial la realizó Shaw), que influyó en el LISP de McCarthy; el enfoque heurístico llevó directamente al General Problem Solver (1957).

Personas:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organizaciones:RAND Corporation, Carnegie Institute of Technology

1956Conferencias

Conferencia de Dartmouth: el nacimiento de la IA

Nacimiento de la IA como disciplina de investigación independiente mediante un taller de 8 semanas con los principales pensadores

John McCarthy acuñó el término 'Artificial Intelligence' y definió así un nuevo campo de investigación

Estableció el programa de investigación: lenguaje máquina, abstracción, resolución de problemas y automejora

Reunió a los padres fundadores de la IA: McCarthy, Minsky, Shannon, Rochester y el futuro premio Nobel Herbert Simon

Personas:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organizaciones:Dartmouth College, IBM, Bell Labs

1957Publicaciones

Perceptrón: la primera red neuronal que aprende

Primera neurona artificial entrenable con entradas ponderadas y función escalón de Heaviside

Clasificación binaria mediante decisión por umbral, eficaz para patrones linealmente separables

La regla de aprendizaje del perceptrón de Frank Rosenblatt corregía los pesos en cada clasificación errónea y permitía así el aprendizaje automático

La limitación a problemas linealmente separables llevó posteriormente a la crítica del XOR de Minsky y Papert

Personas:Frank Rosenblatt

Organizaciones:Cornell Aeronautical Laboratory, US Navy

1958Avances

LISP: el lenguaje de la IA

Introdujo ideas hoy estándar: recursión, recolección automática de basura (garbage collection), funciones como datos y evaluación interactiva (REPL).

Enlazó con el procesamiento de listas de IPL; Steve Russell implementó el eval de McCarthy como primer intérprete y con ello hizo que LISP fuera ejecutable.

Anti-hype: no fue el primer lenguaje de alto nivel (Fortran, de 1957, llegó antes), pero es el segundo más antiguo todavía en uso y el más influyente para la IA.

Personas:John McCarthy, Steve Russell

Organizaciones:MIT

1959Avances

Arthur Samuel: IA que aprende sola y el término 'machine learning'

En el título de su artículo de 1959, Samuel empleó el término 'machine learning', el primer uso documentado con el significado actual; se le considera su creador.

El primer programa de autoaprendizaje demostrado públicamente: ajustaba por sí mismo los pesos de su función de evaluación y memorizaba posiciones.

Con decenas de miles de partidas contra sí mismo anticipó el juego autónomo que más tarde perfeccionó AlphaZero; para Sutton, fue la primera aplicación del aprendizaje por diferencia temporal.

Sin exagerar: la victoria celebrada de 1962 fue contra un rival sobrevalorado; contra los mejores del mundo el programa perdía. Las damas no se resolvieron completamente hasta 2007 (Chinook).

Personas:Arthur Lee Samuel

Organizaciones:IBM

1965Hitos

DENDRAL: pionero de los sistemas expertos

DENDRAL deducía la estructura de moléculas orgánicas a partir de datos de espectrometría de masas, empleando el conocimiento de químicos humanos en lugar de búsqueda general.

La lección: el conocimiento es poder. En lugar de sistemas de resolución general, la IA apostó por dominios acotados y ricos en conocimiento, dando inicio a los sistemas expertos.

Personas:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organizaciones:Stanford University

1965Publicaciones

Fuzzy Logic: la lógica de la imprecisión

El artículo 'Fuzzy Sets' de Lotfi Zadeh de 1965, con más de 100.000 citas, cambió significativamente el tratamiento de la incertidumbre

Permitió la modelización matemática de la vaguedad, la incompletitud y la información contradictoria

Encontró aplicación en sistemas expertos, sistemas de control y procesos de decisión aproximados

Sentó las bases del Soft Computing y de los enfoques modernos de IA para el tratamiento de información imperfecta

Personas:Lotfi Zadeh

Organizaciones:UC Berkeley, Information and Control

1966Avances

ELIZA: el primer chatbot

Primer programa informático desarrollado explícitamente para la conversación entre humanos y máquinas, finalizado en 1966

Utilizaba una sencilla metodología de reconocimiento de patrones y sustitución — el programa se las arreglaba con una cantidad asombrosamente reducida de código

Generaba la ilusión de comprensión e inteligencia emocional sin entender el lenguaje de verdad

Hizo visible el denominado 'efecto ELIZA' y advirtió contra la proyección de cualidades humanas en programas rudimentarios

Personas:Joseph Weizenbaum

Organizaciones:MIT, MIT AI Laboratory

1969Publicaciones

Perceptrons: el libro que contribuyó al invierno de la IA

En 1969, Marvin Minsky y Seymour Papert publicaron Perceptrons y analizaron matemáticamente qué pueden hacer los perceptrones de una sola capa y qué no.

Su resultado célebre: un perceptrón de una sola capa no puede aprender la función XOR porque no es linealmente separable.

El libro se considera uno de los desencadenantes del primer invierno de la IA: la financiación de las redes neuronales se agotó durante más de una década.

Personas:Marvin Minsky, Seymour Papert

Organizaciones:MIT

1969Avances

Shakey: el primer robot móvil inteligente

Primer robot móvil capaz de reflexionar sobre sus propias acciones y planificar tareas complejas de forma autónoma

Combinaba cámara de televisión, sonar, procesadores y sensores en un sistema móvil autónomo

Desarrolló el sistema de planificación STRIPS para la descomposición automática de tareas y la búsqueda de rutas

Unificó visión por ordenador, navegación y razonamiento lógico en un sistema físico

Personas:Charles Rosen, Nils Nilsson, Bertram Raphael

Organizaciones:SRI International, DARPA

1970Hitos

SHRDLU: comprender el lenguaje en el mundo de los bloques

Hacia 1970, Terry Winograd construyó en el MIT SHRDLU, un programa que comprendía órdenes en inglés sencillo y manipulaba un mundo virtual de bloques.

SHRDLU podía resolver ambigüedades, recordar lo dicho, responder preguntas e incluso explicar por qué había realizado una acción.

Se consideró el punto culminante más impresionante de la IA simbólica: la prueba de que las máquinas podían comprender el lenguaje de forma notable en un mundo acotado.

Sin exagerar: la comprensión de SHRDLU solo funcionaba en su pequeño mundo de bloques. No podía trasladarse al mundo real, una lección sobre los límites de esos micromundos.

Personas:Terry Winograd

Organizaciones:MIT

1970Publicaciones

Modelos ocultos de Markov establecidos

Algoritmo de Baum-Welch como caso especial del Expectation-Maximization para la estimación de parámetros de HMM

Primera aplicación práctica en reconocimiento del habla desde mediados de los años setenta en Carnegie Mellon e IBM

Transformó la modelización de secuencias, pasando de la comparación de plantillas a enfoques estadísticos probabilísticos

Sentó las bases matemáticas para los modernos métodos probabilísticos de aprendizaje automático

Personas:Leonard Baum, Lloyd Welch, Ted Petrie

Organizaciones:Institute for Defense Analyses

1972Hitos

Prolog: programar con lógica

En 1972, Alain Colmerauer y Philippe Roussel desarrollaron en la Universidad de Marsella el lenguaje Prolog, abreviatura de Programmation en Logique. La teoría lógica se apoyó en Robert Kowalski.

Prolog es declarativo: se describen hechos y reglas, y el sistema deduce por sí mismo las conclusiones lógicas, sin indicar paso a paso cómo hacerlo.

Prolog se convirtió en el lenguaje más importante de la IA lógica y simbólica: en los sistemas expertos, el procesamiento del lenguaje y el proyecto japonés de la quinta generación.

Personas:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organizaciones:University of Aix-Marseille

1974Hitos

El primer invierno de la IA

La DARPA en los Estados Unidos y el britáico Science Research Council redujeron drásticamente a mediados de los años setenta la financiación de la investigación en IA no dirigida

El profesor James Lighthill criticó duramente en 1973 la investigación en IA por no alcanzar sus objetivos y señaló el problema de la explosión combinatoria

La DARPA canceló el contrato de 3 millones de dólares con Carnegie Mellon para sistemas de comprensión del habla tras resultados decepcionantes

Los programas de IA de principios de los años setenta estaban limitados a versiones triviales de problemas reales y parecían 'juguetes' inteligentes

Personas:James Lighthill, J.C.R. Licklider, Hans Moravec

Organizaciones:DARPA, British Science Research Council, Carnegie Mellon University

1980Publicaciones

Neocognitron: el antecesor de las CNN

En 1980, Kunihiko Fukushima presentó el Neocognitron, una red neuronal de múltiples capas para el reconocimiento de patrones.

La inspiración fue la corteza visual (Hubel y Wiesel): células simples y complejas que reconocen características de forma escalonada e independientemente de su posición.

Personas:Kunihiko Fukushima

Organizaciones:NHK Broadcasting Science Research Laboratories

1980Hitos

La era de los sistemas expertos de los años 80

La industria de la IA crece de unos pocos millones de dólares (1980) a miles de millones (1988)

Dos tercios de las empresas de la lista Fortune 500 adoptaron sistemas expertos en su gestión operativa diária

Las recomendaciones terapéuticas de MYCIN alcanzan una aceptación de alrededor del 65% — comparable a la de expertos de facultad

Patrón clásico de una burbuja económica: auge seguido de un colapso masivo

Personas:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organizaciones:Stanford University, Fortune 500 Companies

1982Publicaciones

Redes de Hopfield: Memoria Asociativa

Memoria direccionable por contenido que reconstruye patrones completos a partir de entradas incompletas o ruidosas

Arquitectura recurrente con conexiones bidireccionales simetricas y propiedades colectivas emergentes

La funcion de energia de Lyapunov guia al sistema a atractores de punto fijo al 'rodar cuesta abajo' hacia la memoria almacenada

Reavivoó el interes en las redes neuronales y establecio la base para el desarrollo moderno de RNN

Personas:John Hopfield

Organizaciones:California Institute of Technology, Bell Laboratories

1986Publicaciones

Algoritmo de retropropagación

Publicado en la revista Nature el 9 de octubre de 1986 bajo el título 'Learning representations by back-propagating errors'

Hizo práctico y ampliamente conocido el entrenamiento eficiente de redes neuronales de múltiples capas mediante el cálculo del gradiente

Las capas ocultas aprendieron a reconocer automáticamente características importantes: un avance significativo respecto al perceptrón

Sentó los fundamentos matemáticos de todas las aplicaciones modernas de aprendizaje profundo y las arquitecturas Transformer

Personas:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organizaciones:University of California San Diego, Carnegie Mellon University, Nature

1987Hitos

El segundo invierno de la IA

El mercado de las máquinas Lisp especializadas se hundió en 1987, ya que los ordenadores de Apple e IBM se volvieron más económicos y potentes

Los sistemas expertos como XCON resultaron ser demasiado costosos de mantener, rígidos e incapaces de manejar datos nuevos

Jack Schwartz recortó la financiación de la IA en la DARPA 'de forma profunda y brutal' y calificó los sistemas expertos de 'programación ingeniosa'

Los costes del hardware específico para IA superaban con creces los rendimientos empresariales prometidos

Personas:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organizaciones:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Conjuntos de datos

UCI ML Repository: la biblioteca de conjuntos de datos

Fundado en 1987 como archivo FTP por David Aha y estudiantes de la UCI para el análisis empírico de algoritmos de aprendizaje automático

Se convirtió en la fuente principal de conjuntos de datos de aprendizaje automático para estudiantes, docentes e investigadores de todo el mundo

Citado decenas de miles de veces: uno de los recursos de conjuntos de datos más utilizados de toda la informática

Democratizó la investigación en aprendizaje automático mediante el acceso a conjuntos de datos de referencia estandarizados y de alta calidad

Personas:David Aha, Patrick Murphy

Organizaciones:University of California Irvine, UCI

1988Publicaciones

Redes bayesianas: razonamiento bajo incertidumbre

Judea Pearl (UCLA) estableció el razonamiento bajo incertidumbre como un tercer pilar de la IA, junto a los sistemas simbólicos y las redes neuronales.

Redes bayesianas: grafos de variables (nodos) y dependencias probabilísticas (aristas) que reemplazaron los factores de certeza ad hoc por un razonamiento riguroso y eficiente.

Influyó en el aprendizaje automático de los años 1990 y 2000; Pearl recibió el Premio Turing en 2011 y fundó después la inferencia causal moderna.

Anti-hype: el teorema de Bayes es del siglo XVIII; el mérito de Pearl fue hacer que el razonamiento probabilístico fuese estructurado y computable para la IA, no inventar la probabilidad.

Personas:Judea Pearl

Organizaciones:UCLA

1989Publicaciones

Teorema de aproximación universal

Demostración matemática rigurosa de las capacidades de aproximación universal de las redes neuronales

Una capa oculta con suficientes neuronas puede aproximar con precisión arbitraria cualquier función medible según Borel (el trabajo paralelo de Cybenko demostró esto para funciones continuas)

Prueba que las redes son capaces también de modelar vínculos no lineales y complejos en datos del mundo real

Proporcionó la justificación matemática para el uso de redes neuronales y una base de confianza teórica

Personas:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organizaciones:University of California San Diego

1989Avances

World Wide Web: la invención de la WWW

Propuesta de gestión de la información del 12 de marzo de 1989 en el CERN para el intercambio automatizado de conocimiento científico

HTML, HTTP y URI/URL desarrollados como tecnologías web fundamentales hasta finales de 1990

Creó la infraestructura de datos para las colecciones posteriores de Common Crawl y el entrenamiento de modelos de lenguaje grandes

Personas:Tim Berners-Lee

Organizaciones:CERN

1989Publicaciones

LeNet y el nacimiento de las CNN

Primera combinación exitosa de redes neuronales convolucionales con entrenamiento por retropropagación

El trabajo pionero de Yann LeCun en Bell Labs estableció las CNN como una solución viable de visión artificial

Sentó las bases de todas las arquitecturas CNN modernas, desde AlexNet hasta los sistemas de visión actuales

Personas:Yann LeCun, Bernhard Boser, John Denker

Organizaciones:AT&T Bell Labs, NIPS

1992Avances

TD-Gammon: aprender jugando contra sí mismo

En 1992, Gerald Tesauro presentó en IBM TD-Gammon, una red neuronal que aprendió a jugar al backgammon.

Aprendió casi exclusivamente a través de partidas contra sí mismo, con el método de aprendizaje por refuerzo de diferencia temporal, sin necesitar partidas humanas como referencia.

TD-Gammon alcanzó un nivel casi de clase mundial y descubrió nuevas aperturas que los profesionales adoptaron; un precursor de AlphaGo, casi 25 años antes.

Personas:Gerald Tesauro

Organizaciones:IBM

1992Publicaciones

Q-Learning: fundamento del aprendizaje por refuerzo

Demostración matemática de convergencia de 1992: el Q-Learning encuentra garantizadamente estrategias óptimas con exploración infinita

Innovador enfoque sin modelo: aprendizaje de acciones óptimas sin modelo del entorno ni probabilidades de transición

Solución elegante para los problemas de decisión de Markov mediante la optimización gradual de la función Q

Piedra angular del aprendizaje por refuerzo moderno: núcleo de Deep Q-Networks e innumerables sistemas de IA hasta hoy

Personas:Chris Watkins, Peter Dayan

Organizaciones:King's College Cambridge, University College London

1993Conjuntos de datos

Penn Treebank: la anotación sintáctica transforma el PLN

Más de 4,5 millones de palabras con etiquetado de categorías gramaticales, alrededor de 3 millones con anotación sintáctica detallada, mediante un procedimiento semiautomático en dos fases

Consolidó los métodos empíricos en lingüística computacional y se convirtió en el benchmark estándar para la investigación en análisis sintáctico

Transformó considerablemente los algoritmos de análisis sintáctico, de los enfoques basados en reglas a los estadísticos

Sentó las bases del análisis sintáctico estadístico y sirve a los sistemas modernos de PLN como referencia de evaluación

Personas:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organizaciones:University of Pennsylvania, Linguistic Data Consortium

1995Publicaciones

AdaBoost: los aprendices débiles se vuelven fuertes

Ponderación adaptativa: los casos difíciles reciben mayor peso para un aprendizaje enfocado en los puntos problemáticos

Principio de los aprendices débiles: cientos de clasificadores simples producen juntos predicciones de alta precisión

Premio Gödel 2003: uno de los reconocimientos más prestigiosos de la informática teórica por la fundamentación de la teoría del boosting

Fundamento de los métodos de conjunto modernos: inspiró a XGBoost y a toda una generación de algoritmos de boosting

Personas:Yoav Freund, Robert Schapire

Organizaciones:AT&T Bell Laboratories

1995Publicaciones

Máquinas de vectores soporte: clasificación por margen máximo

El enfoque de margen máximo de Vapnik y Chervonenkis de 1964 se amplía a una solución práctica para datos no separables

El truco del kernel permite la clasificación no lineal mediante transformaciones implícitas de alta dimensión

El principio de margen máximo maximiza la distancia entre clases para una generalización óptima

Estableció una alternativa teóricamente fundada a las redes neuronales con garantías de generalización

Personas:Vladimir Vapnik, Corinna Cortes

Organizaciones:AT&T Bell Labs

1995Conjuntos de datos

WordNet: la red semántica del lenguaje

Primer diccionario léxico estructurado como red semántica de synsets y relaciones de significado con acceso programático

Los synsets vinculados por relaciones semánticas y léxicas forman una red de significados navegable

Refleja la memoria semántica humana y conecta la ciencia cognitiva con la lingüística computacional

Sentó las bases de las jerarquías de ImageNet, los grafos de conocimiento y los sistemas semánticos modernos de procesamiento del lenguaje natural

Personas:George Miller, Christiane Fellbaum

Organizaciones:Princeton University, Cognitive Science Laboratory

1996Publicaciones

PageRank: el algoritmo que vale miles de millones

El proyecto 'BackRub' de Stanford analizaba datos de backlinks para medir la importancia en la web: base y génesis de Google

Innovador análisis de enlaces: importancia de las páginas web a través de referencias, no solo por la frecuencia de palabras clave

Modelo del navegante aleatorio: una página es tanto más importante cuanto más frecuentemente la visita el navegante aleatorio a través de la estructura de enlaces

De la investigación en Stanford surgió Google Inc., con PageRank como fundamento del motor de búsqueda más valioso

Personas:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organizaciones:Stanford University, Google Inc.

1997Competiciones

Deep Blue vence a Kasparov

Primera victoria de un ordenador sobre un campeón mundial de ajedrez en activo en un match en condiciones estándar de torneo (Deep Blue ya había ganado una partida individual en 1996)

Capacidad de análisis de 200 millones de posiciones por segundo, mejores bases de datos de finales y asesoramiento de grandes maestros

El triunfo técnico de IBM tras años de desarrollo desde ChipTest en 1985, pasando por Deep Thought hasta Deep Blue

Punto de inflexión en la percepción pública de la IA y prueba de la superioridad de las máquinas en el pensamiento estratégico complejo

Personas:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organizaciones:IBM, World Chess Championship

1997Publicaciones

LSTM: Memoria de Largo Plazo a Corto Plazo

Resolvio el problema del gradiente que desaparece a traves de flujo de error constante sobre miles de pasos de tiempo

Celulas de memoria especiales con carruseles de error constante para almacenamiento de informacion a largo plazo

Unidades de compuerta multiplicativas aprenden a abrir y cerrar el acceso al flujo de error constante

Permitio el modelado efectivo de secuencias a largo plazo para reconocimiento de voz y analisis de series temporales

Personas:Sepp Hochreiter, Jürgen Schmidhuber

Organizaciones:Technical University of Munich, IDSIA

1998Conjuntos de datos

MNIST: el estándar del aprendizaje automático

70.000 dígitos escritos a mano como imágenes normalizadas de 28x28 píxeles en escala de grises

Colección creada por Yann LeCun, Corinna Cortes y Christopher Burges a partir de las bases de datos del NIST

Se convirtió en el 'Hello World' del aprendizaje automático y en el punto de referencia estándar para algoritmos de ML

Democratizó la educación en ML mediante un acceso sencillo sin necesidad de una costosa preparación de datos

Personas:Yann LeCun, Corinna Cortes, Christopher Burges

Organizaciones:AT&T Labs, Courant Institute

2001Publicaciones

Random Forest: avance en los métodos de conjunto

Avance en conjuntos: cientos de árboles de decisión aleatorios votan conjuntamente para obtener mejores predicciones

Bagging más aleatorización de características: cada árbol ve datos y características distintos para garantizar diversidad

Fundamentación teórica: límites del error de generalización basados en la fortaleza y la correlación de los árboles

Algoritmo de aprendizaje automático tipo plug-and-play: ajuste mínimo con rendimiento excepcional en todos los ámbitos

Personas:Leo Breiman, Adele Cutler

Organizaciones:UC Berkeley Statistics Department, Machine Learning Journal

2005Organizaciones

Fundación del Future of Humanity Institute

Fundado en 2005 en la Universidad de Oxford, creció de 3 a unos 40 investigadores hasta su cierre en 2024

Trabajo pionero en riesgos existenciales, Longtermism y AI Governance como nuevos campos de investigación

Estableció el AI Alignment y la AI Safety como disciplinas académicas legítimas con impacto global

Otorgó a la investigación en seguridad de la IA credibilidad científica y respeto gracias a su afiliación con Oxford

Personas:Nick Bostrom, Anders Sandberg

Organizaciones:Oxford University, Future of Humanity Institute

2005Competiciones

DARPA Grand Challenge: el nacimiento del vehículo autónomo

El 'Stanley' de Stanford ganó como primer vehículo autónomo un recorrido desértico de 212 km en menos de 7 horas

Salto de cero vehículos exitosos (2004) a cinco llegadas a meta (2005), cuatro dentro del límite de tiempo, gracias a una IA mejorada

Reconocido como carrera de software: LiDAR, aprendizaje automático y datos de conducción humana como claves del éxito

Momento fundacional de la tecnología de conducción autónoma moderna — inspiró a Tesla, Google y a toda una industria

Personas:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organizaciones:DARPA, Stanford University, Stanford AI Lab

2006Publicaciones

Redes de creencia profunda: el renacimiento del aprendizaje profundo

El algoritmo de aprendizaje voraz capa a capa permitió por primera vez el entrenamiento eficiente de redes neuronales profundas

Apilamiento de máquinas de Boltzmann restringidas (RBM) como bloques constructivos para representaciones complejas

El preentrenamiento no supervisado resolvió el problema de inicialización de pesos en redes profundas

Puso fin al período de oscuridad de las redes neuronales y fundó la moderna revolución del aprendizaje profundo a partir de 2006

Personas:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organizaciones:University of Toronto, Neural Computation

2006Competiciones

Netflix Prize: el algoritmo del millón de dólares

1 millón de dólares de premio por mejorar en un 10% el algoritmo Cinematch a lo largo de 3 años de competición

Más de 100 millones de valoraciones de 480.000 usuarios para 17.770 películas como conjunto de datos público de ML

Transformó considerablemente el filtrado colaborativo mediante factorización matricial y máquinas de Boltzmann restringidas

Más de 40.000 equipos de 186 países; más de 5.000 en el marcador de clasificación con unas 44.000 propuestas: el poder del crowdsourcing para el ML

Personas:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organizaciones:Netflix, BellKor, AT&T Research

2007Conjuntos de datos

Fundación de Common Crawl

Fundada en 2007 con la misión de archivar la totalidad de la web pública y ponerla a disposición de forma gratuita

Crece mensualmente con miles de millones de páginas desde el inicio del rastreo en 2008 — a fecha de 2024, más de 100.000 millones de páginas web y varios petabytes de datos

Se convirtió en la fuente de entrenamiento más importante para GPT-3, ChatGPT, LLaMA y otros grandes modelos de lenguaje modernos

El enfoque sin ánimo de lucro democratizó el acceso a datos lingüísticos exhaustivos para la investigación en IA a escala mundial

Personas:Gil Elbaz, Common Crawl Team

Organizaciones:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Hitos

CUDA: la tarjeta gráfica se convierte en el motor de la IA

Las GPU calculan miles de operaciones en paralelo. Esto encaja exactamente con las redes neuronales, cuyo núcleo son las multiplicaciones de matrices.

Personas:Ian Buck, John Nickolls

Organizaciones:NVIDIA

2008Publicaciones

Zero-Shot Learning: aprender sin datos

Clasificación de clases sin datos de entrenamiento, solo con descripciones semánticas de las clases objetivo

Reutilización de modelos entrenados para tareas completamente nuevas mediante embeddings semánticos

Las representaciones semánticas permiten la generalización a conceptos no vistos

Sentó las bases de las capacidades Few-Shot y Zero-Shot de los modelos de lenguaje grandes modernos

Personas:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organizaciones:University of Montreal

2009Conjuntos de datos

Se establecen los datasets CIFAR

CIFAR-10 con 60,000 imágenes en 10 categorías, CIFAR-100 con 100 clases más detalladas como benchmarks de visión por computadora

Se convirtió en uno de los benchmarks estandarizados más importantes para algoritmos de visión por computadora mundialmente

Permitió evaluación sistemática y comparación de diferentes enfoques de machine learning

Krizhevsky usó CIFAR-10 antes de 2011 para entrenamiento de CNN - precursor de su éxito con AlexNet en 2012

Personas:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organizaciones:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Conjuntos de datos

ImageNet: el conjunto de datos que lo cambió todo

Basado en las jerarquías de WordNet para una categorización estructurada de objetos visuales

Proporcionó los datos de entrenamiento críticos para el avance de AlexNet en 2012 y el desarrollo del aprendizaje profundo

Transformó la investigación en visión por ordenador y posibilitó los vehículos autónomos, el reconocimiento facial y el diagnóstico médico por imagen

Personas:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organizaciones:Stanford University, Princeton University

2010Hitos

DeepMind es fundada

Fundada en septiembre de 2010 en Londres como DeepMind Technologies

Demis Hassabis (neurocientífico, desarrollador de juegos), Shane Legg y Mustafa Suleyman

Adquirida por Google en 2014 por un estimado de $500 millones

Posteriormente responsable de AlphaGo, AlphaFold y otros sistemas de IA revolucionarios

Personas:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organizaciones:DeepMind, Google

2010Competiciones

ImageNet Challenge: empieza la competición

Primera ILSVRC 2010 con 1.000 categorías y 1,2 millones de imágenes de entrenamiento, muy por encima de PASCAL VOC

Estableció las tasas de error Top-1 y Top-5 como métricas estándar para la evaluación en visión por ordenador

La competición anual celebrada desde 2010 atrajo a más de 50 instituciones de todo el mundo y impulsó los avances en investigación

Creó la estructura competitiva que en 2012 hizo posible el avance de AlexNet: una tasa de error Top-5 de solo el 15,3% (una precisión de aproximadamente el 84,7%)

Personas:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organizaciones:Stanford University, ImageNet Team

2011Competiciones

Watson vence a los campeones de Jeopardy

Venció a las leyendas de Jeopardy Ken Jennings y Brad Rutter en un desafío televisado

Primera demostración televisada de capacidades avanzadas de procesamiento del lenguaje natural ante millones de espectadores

El sistema DeepQA combinó la recuperación de conocimiento con un razonamiento complejo sin conexión a internet

El comentario 'computer overlords' de Ken Jennings subrayó la importancia cultural del avance de la IA

Personas:David Ferrucci, Ken Jennings, Brad Rutter

Organizaciones:IBM Research, Jeopardy!, Sony Pictures Television

2011Productos

Lanzamiento de Siri: el asistente de voz llega al gran público

Primera asistente de voz de masas integrada en un smartphone, que acercó la IA a millones de usuarios de todo el mundo

El procesamiento avanzado del lenguaje natural posibilitó una comunicación intuitiva entre personas y ordenadores

Uno de los últimos grandes productos de Steve Jobs antes de su muerte el 5 de octubre de 2011

Inauguró la era moderna de los asistentes de voz e inspiró a todos los competidores

Personas:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organizaciones:Apple, SRI International, DARPA

2012Publicaciones

Regularización Dropout

Resuelve el problema central del sobreajuste en las redes neuronales profundas, mejorando la generalización

Desactivación aleatoria de la mitad de todas las neuronas durante el entrenamiento

Uno de los componentes clave del avance de AlexNet en ImageNet — junto al entrenamiento en GPU, ReLU y la profundidad de la red

Se establece como estándar en la mayoría de las arquitecturas modernas de aprendizaje profundo

Personas:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organizaciones:University of Toronto

2012Avances

El éxito de AlexNet

AlexNet ganó el ImageNet Challenge 2012 con una tasa de error del 15,3%: 10,9 puntos porcentuales mejor que el segundo participante (26,2%)

60 millones de parámetros, activaciones ReLU, capas de dropout y entrenamiento en GPU establecieron nuevos estándares técnicos

Demostró de forma convincente la superioridad práctica del aprendizaje profundo y acabó con el escepticismo hacia las redes neuronales

Impulsó el desarrollo moderno de la IA y convirtió las arquitecturas CNN en el estándar en visión por ordenador

Personas:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organizaciones:University of Toronto, ImageNet Challenge, NIPS

2012Avances

La revolución del aprendizaje profundo

El aprendizaje profundo se estableció como la tecnología de IA dominante y puso fin al predominio de los enfoques tradicionales de aprendizaje automático

La victoria de AlexNet en ImageNet demostró por primera vez la superioridad práctica de las redes neuronales profundas

La computación con GPU posibilitó el entrenamiento de grandes redes neuronales y transformó radicalmente los métodos de investigación en IA

Desencadenó masivas inversiones en investigación de aprendizaje profundo y la adopción industrial de arquitecturas neuronales

Personas:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organizaciones:University of Toronto, NYU, University of Montreal

2013Publicaciones

Word2Vec: palabras como vectores

Primeras representaciones vectoriales densas y de baja dimensionalidad de palabras con relaciones semánticas

Patrones semánticos y sintácticos mediante aritmética vectorial: rey - hombre + mujer = reina

Permitió el razonamiento analógico en espacios vectoriales mediante similitud coseno y métricas de distancia

Sentó las bases de las técnicas modernas de embeddings y los modelos de lenguaje grandes basados en Transformer

Personas:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organizaciones:Google, Google Research

2013Publicaciones

VAE: Autoencoders variacionales

Inferencia variacional para la aproximación eficiente de distribuciones posteriores intratables en variables latentes continuas

El espacio latente probabilístico permite la interpolación continua y la generación de nuevos puntos de datos

Conexion pionera entre la arquitectura de autoencoder y la modelización generativa probabilística escalable mediante inferencia variacional amortizada

Arquitectura codificador-decodificador con truco de reparametrización para aleatoriedad diferenciable

Personas:Diederik P. Kingma, Max Welling

Organizaciones:University of Amsterdam

2014Publicaciones

Adam: el optimizador estándar del aprendizaje profundo

En 2014, Diederik Kingma y Jimmy Ba presentaron el optimizador Adam, cuyo nombre deriva de Adaptive Moment Estimation (no es un acrónimo).

Adam ajusta la tasa de aprendizaje para cada parámetro automáticamente y combina dos ideas: momentum y pasos adaptativos (como en RMSProp).

Personas:Diederik Kingma, Jimmy Ba

2014Conjuntos de datos

MS COCO: el estándar de oro en visión por ordenador

Objetos en contexto natural en lugar de aislados: transformó considerablemente la visión por ordenador, de escenas artificiales a escenas reales

2,5 millones de anotaciones con precisión de píxel en 328.000 imágenes: calidad y profundidad de anotación sin precedentes

Estándar de oro con métricas mAP para comparaciones objetivas entre modelos, que definió la evaluación en visión por ordenador

Base para YOLO, Mask R-CNN y todos los sistemas modernos de visión por ordenador, desde coches autónomos hasta realidad aumentada

Personas:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organizaciones:Microsoft Research, Cornell University, UC Berkeley

2014Publicaciones

GANs - Redes Generativas Adversariales

Dos redes neuronales en un juego de minimax: generación artificial frente a discriminación

Inventado en una noche de 2014 en Montreal tras visitar un bar — funcionó de inmediato

Framework matemáticamente elegante para la optimización adversarial

Transforma fundamentalmente la IA generativa — allana el camino hacia la generación de imágenes fotorrealistas posterior

Personas:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organizaciones:University of Montreal, NIPS Conference

2014Publicaciones

Mecanismo de atención: la clave para los LLM modernos

Resolvió el cuello de botella del codificador-decodificador: longitudes de oración variables en lugar de compresión en un vector fijo

Atención dinámica en lugar de codificación estática: enfoque adaptativo en las partes relevantes de la entrada

Aprende la alineación entre idiomas: ¿qué palabras se corresponden al traducir?

Precursor conceptual del Transformer: la idea de atención de Bahdanau allanó el camino hacia GPT, BERT y ChatGPT

Personas:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organizaciones:University of Montreal, Jacobs University Bremen

2014Productos

Lanzamiento de Amazon Alexa y Echo

Fundó la categoría de masas de los altavoces inteligentes con disponibilidad de voz permanente

Hizo accesible la IA de voz para millones de consumidores a través de las ventas al público general a partir de 2015, no solo para entusiastas tecnológicos

Transformó los salones en centrales de hogar inteligente controladas por voz

Marcó el inicio de un amplio desarrollo de mercado: Google, Apple y otros siguieron su ejemplo

Personas:Jeff Bezos, Amazon Alexa Team

Organizaciones:Amazon, Ivona (acquired 2013)

2015Avances

Deep Q-Networks: la IA aprende Atari a partir de píxeles

Aprendizaje a partir de píxeles en bruto: el sistema solo veía la pantalla y la puntuación; sin características construidas a mano ni conocimiento específico por juego.

Red convolucional + Q-learning + almacén de experiencias (experience replay, de Lin, principios de los 1990) + una red objetivo añadida en 2015 que estabilizó el entrenamiento.

Anti-hype: nivel humano en aproximadamente la mitad de los 49 juegos (43/49 mejor que métodos anteriores); prácticamente nulo en juegos de recompensa escasa (Montezuma's Revenge).

Pistoletazo de salida del aprendizaje por refuerzo profundo; dio notoriedad a DeepMind antes de AlphaGo: el puente que unió el Q-learning de los años 1990 con AlphaGo y AlphaZero.

Personas:Volodymyr Mnih, David Silver, Demis Hassabis

Organizaciones:Google DeepMind

2015Publicaciones

Batch Normalization: un avance importante en el entrenamiento de redes neuronales

Resolvió el problema del Internal Covariate Shift mediante la normalización de las activaciones en cada mini-batch

Alrededor de 14 veces menos pasos de entrenamiento para alcanzar la misma precisión — permitió tasas de aprendizaje más altas e inicialización robusta

Doble ventaja: aceleración Y regularización — sustituto habitual del Dropout en arquitecturas modernas

4,8% de error Top-5 en ImageNet con ensemble — superó a los evaluadores humanos (aprox. 5,1%) y estableció un nuevo estándar

Personas:Sergey Ioffe, Christian Szegedy

Organizaciones:Google Inc., ICML Conference

2015Publicaciones

YOLO: Solo Miras Una Vez

Rendimiento base de 45 fps, Fast YOLO 155 fps – cientos a miles de veces más rápido que detectores existentes

Arquitectura de una sola pasada formula detección de objetos como problema de regresión en lugar de paradigma de dos etapas

División de celdas basada en cuadrícula con predicción directa de caja delimitadora y probabilidad de clase

Permitió visión por computadora en tiempo real para vehículos autónomos, vigilancia y aplicaciones móviles

Personas:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organizaciones:University of Washington, Allen Institute, Facebook AI Research

2015Avances

Desarrollo de DeepMind AlphaGo

Primera victoria de un ordenador frente a un jugador profesional de Go en tablero completo sin hándicap (Fan Hui 5:0)

Enfoque novedoso con redes neuronales profundas en lugar de algoritmos con lógica codificada de forma fija

Superación de 10^170 posibles configuraciones del tablero, más que átomos en el universo

El avance llegó una década antes de lo que los expertos en IA habían pronosticado

Personas:Demis Hassabis, David Silver, DeepMind Team

Organizaciones:DeepMind, Google

2015Productos

Tesla Autopilot: sistemas de asistencia a la conducción para el gran público

La actualización de software del 14 de octubre de 2015 activó el hardware preinstalado: un nuevo concepto para la industria automovilística

Sensórica basada en Mobileye: cámara frontal, radar y 12 sensores ultrasónicos para la asistencia a la conducción de nivel 2

Control de crucero adaptativo, asistente de mantenimiento de carril y aparcamiento automático: funciones antes reservadas a la gama alta

Cientos de millones de kilómetros ya en el primer año: demostró la disposición del mercado masivo para los sistemas de asistencia a la conducción

Personas:Elon Musk, Tesla Engineering Team

Organizaciones:Tesla Inc., Mobileye

2015Productos

TensorFlow: el framework de ML de Google se hace código abierto

La licencia Apache 2.0 hizo el poderoso sistema interno de ML de Google disponible gratuitamente para todos

Reemplazó DistBelief con el doble de velocidad y escalabilidad mejorada

La interfaz flexible de Python y auto-diferenciación mejoraron significativamente el desarrollo de ML

Permitió a millones de desarrolladores acceso a tecnología avanzada de IA

Personas:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organizaciones:Google, Google Brain

2015Publicaciones

ResNet: las redes residuales transforman el aprendizaje profundo

Las conexiones de salto transmiten las entradas directamente a capas posteriores y permiten así el entrenamiento de redes ultraprofundas

152 capas: 8 veces más profundo que VGG, pero menos complejo gracias al marco de aprendizaje residual

Tasa de error Top-5 del 3,57% (conjunto) en ImageNet; ganó todas las categorías de ILSVRC y COCO 2015

Estableció las conexiones residuales como estándar para las arquitecturas modernas de aprendizaje profundo

Personas:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organizaciones:Microsoft Research

2015Hitos

Fundación de OpenAI

Fundada el 11 de diciembre de 2015 en San Francisco; misión benéfica desde el principio

Misión: desarrollar una IA general segura que beneficie a toda la humanidad

Comprometido: 1.000 millones de dólares de Elon Musk, Peter Thiel, Reid Hoffman y otros, un compromiso de financiación a lo largo de varios años, no disponible de inmediato

GPT-1 (2018) y GPT-2 (2019) surgieron aún en la fase puramente sin ánimo de lucro; en 2019 llegó la estructura capped-profit, en la que se enmarcan GPT-3 (2020) y ChatGPT (2022)

Personas:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organizaciones:OpenAI, Y Combinator

2016Competiciones

AlphaGo derrota a Lee Sedol

AlphaGo derrotó a Lee Sedol 4:1 y demostró la superioridad de IA en el juego de mesa más complejo por primera vez

El famoso 'Movimiento 37' con probabilidad 1:10,000 mostró creatividad de máquina y desafió tradiciones del Go

Combinación de deep learning y búsqueda de árbol Monte Carlo permitió dominar la complejidad del Go

Más de 200 millones de personas siguieron las partidas - un punto de inflexión para la percepción pública de IA

Personas:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organizaciones:DeepMind, Google, Korean Baduk Association

2016Publicaciones

XGBoost: El gradient boosting extremo domina ML

Optimización extrema de gradient boosting con regularización L1/L2 y gradientes de segundo orden

Dominó competencias de ML de los 2010s y se convirtió en opción estándar para equipos ganadores de Kaggle

Construcción de árboles paralelizada y arquitectura escalable de extremo a extremo para grandes conjuntos de datos

Algoritmo predeterminado para datos estructurados en paralelo a la revolución del deep learning

Personas:Tianqi Chen, Carlos Guestrin

Organizaciones:University of Washington

2016Productos

Google Assistant: la estrategia IA-First se hace realidad

Conversación natural en lugar de comandos — 'diálogo continuo' como objetivo para la IA de voz

Pilar de la estrategia IA-First de Pichai — 'Google individual' para cada usuario

Visión de computación ambiental — interacción fluida con la IA en todos los dispositivos y plataformas

La persecución de Google a Siri y Alexa — de rezagado a aspirante a liderar la IA de voz

Personas:Sundar Pichai, Google Assistant Team

Organizaciones:Google Inc., Google I/O Conference

2016Organizaciones

Partnership on AI: los gigantes tecnológicos se unen

Alianza importante de Amazon, Facebook, Google, DeepMind, IBM y Microsoft para la ética de la IA

Misión: IA al servicio de las personas y la sociedad mediante ética, equidad y transparencia

Consejo paritario planificado: inicialmente de composición corporativa, ampliado posteriormente con el mismo número de miembros no corporativos

Enfoque en la cooperación en investigación y las mejores prácticas sin actividades de lobby

Personas:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organizaciones:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Avances

El reconocimiento de voz alcanza el nivel humano

Una tasa de error de palabra del 5,9% equipara el rendimiento al nivel humano en Switchboard, igualando a los transcriptores más precisos

Hito histórico: la tasa de error más baja jamás medida en el estándar Switchboard

CNN + LSTM + modelos de lenguaje neuronal: combinación sistemática de la tecnología de aprendizaje profundo más avanzada

Objetivo de investigación de 25 años logrado: paridad con el ser humano en una tarea de transcripción bien definida

Personas:Xuedong Huang, Microsoft AI Research Team

Organizaciones:Microsoft AI and Research, Switchboard Corpus

2017Regulación

Principios de Asilomar: la comunidad científica establece sus propias directrices

Enero de 2017: el Future of Life Institute reunió a los principales investigadores en IA en Asilomar (California), el lugar de la histórica conferencia sobre ingeniería genética de 1975.

Resultado: los 23 Principios de IA de Asilomar sobre investigación, valores (seguridad, transparencia) y riesgos a largo plazo; uno de los primeros compromisos amplios de la comunidad científica.

Más de mil investigadores en IA y otros firmantes (entre ellos Stephen Hawking y Elon Musk): consenso temprano de que la IA debe servir al bien común.

Anti-hype: los principios eran voluntarios y no vinculantes; orientadores como marco de debate, pero sin mecanismo de aplicación.

Personas:Stephen Hawking, Elon Musk

Organizaciones:Future of Life Institute

2017Publicaciones

MobileNet: IA para smartphones

Uno de los primeros modelos de aprendizaje profundo diseñado específicamente para smartphones y dispositivos IoT

Convoluciones separables en profundidad: alrededor de nueve veces menos operaciones de cómputo, con idéntica eficacia

Posibilita el procesamiento con IA directamente en los dispositivos en lugar de en la nube: así nace el edge computing

Reduce el coste computacional a aproximadamente un octavo respecto a las convoluciones convencionales con una precisión comparable

Personas:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organizaciones:Google, Google Research

2017Publicaciones

Se publica el artículo de investigación RLHF

Artículo 'Deep Reinforcement Learning from Human Preferences' publicado en junio de 2017

Idea central: La IA aprende de preferencias humanas en lugar de recompensas predefinidas

Investigación conjunta de OpenAI y DeepMind, incluyendo Paul Christiano y Dario Amodei

RLHF se convirtió en la tecnología clave para ChatGPT y asistentes de IA modernos

Personas:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organizaciones:OpenAI, DeepMind

2017Publicaciones

Transformer: 'Attention Is All You Need'

El mecanismo de autoatención captura las dependencias entre todas las posiciones de una secuencia de forma simultánea

La eliminación de la recurrencia permite el procesamiento en paralelo, mucho más rápido que los modelos secuenciales

28,4 BLEU WMT inglés-alemán, 41,8 BLEU inglés-francés: nuevos estándares de traducción automática

Se convirtió en la base de todos los LLM modernos: GPT, BERT y ChatGPT se basan en la arquitectura Transformer

Personas:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organizaciones:Google Brain, Google Research

2017Regulación

El plan maestro de IA de China: la lucha por el liderazgo mundial

Primera estrategia nacional de IA a esta escala: planificación gubernamental coordinada para el liderazgo tecnológico global

Hoja de ruta en tres etapas: competitiva en 2020, líder mundial en áreas parciales en 2025, superpotencia de IA dominante en 2030

Inversión de billones de yuanes: financiación estatal masiva en investigación, infraestructura y talento en IA

Ambición de liderazgo mundial: pistoletazo de salida para la carrera global de IA entre China, EE. UU. y Europa

Personas:State Council of China, Chinese AI Research Community

Organizaciones:State Council of China, Chinese Academy of Sciences

2017Regulación

Declaración de Montreal para una IA responsable

10 principios éticos y 59 recomendaciones para el desarrollo responsable de la IA con legitimidad democrática

Enfocada en el bienestar, la autonomía, la justicia, la privacidad, la democracia y la sostenibilidad ecológica

Impulsada por la Université de Montréal con más de 400 participantes de distintos sectores

Más de 500 firmantes; influyó en la gobernanza internacional de la IA y en iniciativas regulatorias posteriores

Personas:Yoshua Bengio, Montreal AI Ethics Team

Organizaciones:Université de Montréal, Montreal Institute for Learning Algorithms

2017Avances

AlphaZero domina tres juegos

Aprendió tres juegos complejos completamente desde cero: solo con las reglas del juego, sin conocimiento humano previo ni bases de datos

Alcanzó un rendimiento sobrehumano en ajedrez (4h), shogi (2h) y go (~8h) mediante el puro autojuego

Aprendió mediante millones de partidas de autojuego y aprendizaje por refuerzo sin entradas externas

Evaluó solo 60.000 posiciones por segundo frente a los 60 millones de Stockfish, pero de forma mucho más selectiva

Personas:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organizaciones:DeepMind, Google, Science Magazine, ArXiv

2018Hitos

Premio Turing para el aprendizaje profundo

Yoshua Bengio, Geoffrey Hinton y Yann LeCun, los tres padrinos del aprendizaje profundo; reconocidos por los avances conceptuales y técnicos que sustentan las redes neuronales modernas.

El Premio A.M. Turing (anunciado en marzo de 2019) es el máximo galardón de la informática; reconoció las redes neuronales profundas como componente central del cómputo.

El reconocimiento oficial de la revolución del aprendizaje profundo de 2012, y precursor del Premio Nobel de Física 2024 para la misma línea de investigación.

Sin exagerar: el aprendizaje profundo tiene muchas contribuciones (entre otros, Schmidhuber, que criticó públicamente); el premio honra el papel central del trío, no una autoría exclusiva.

Personas:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organizaciones:ACM

2018Publicaciones

GPT-1: el nacimiento del preentrenamiento generativo

Estableció el preentrenamiento no supervisado en grandes corpus de texto como base para los modelos de lenguaje

Demostró la aplicación exitosa del Transfer Learning para diversas tareas de PLN

La arquitectura Transformer de solo decodificador con doce capas se convirtió en la plantilla de toda la serie GPT

Fundó la era de los modelos de lenguaje grandes y el paradigma de preentrenamiento y ajuste fino

Personas:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organizaciones:OpenAI

2018Publicaciones

BERT mejora considerablemente la comprensión del lenguaje

Primer modelo de lenguaje bidireccional profundo que tiene en cuenta el contexto izquierdo y derecho de forma simultánea en todas las capas

Alcanzó nuevas marcas en 11 tareas de NLP y mejoró la puntuación GLUE en 7,7 puntos porcentuales, hasta 80,5%

La publicación en código abierto permitió el fine-tuning del modelo preentrenado para tareas propias en unos 30 minutos sobre una única TPU en la nube

Estableció el paradigma de preentrenamiento y fine-tuning para todos los modelos de lenguaje modernos

Personas:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organizaciones:Google Research, Google AI Language

2019Publicaciones

GPT-2 - "Demasiado Peligroso para Publicar"

Decision sin precedentes: OpenAI retiene el modelo completo de 1.5B parametros

Temores de noticias falsas, suplantacion de identidad y spam automatizado en redes sociales

Comunidad de IA dividida: progreso etico vs. acusacion de cierre de investigacion

Publicacion completa despues de 9 meses debido a falta de evidencia de mal uso

Personas:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organizaciones:OpenAI

2019Competiciones

AlphaStar alcanza el nivel Grandmaster

AlphaStar alcanzó el nivel Grandmaster en las tres razas de StarCraft II y superó al 99,8% de todos los jugadores de Battle.net

Derrotó a los jugadores profesionales MaNa y TLO con un marcador de 5:0 en cada caso, antes del éxito público

Aprendizaje por refuerzo multiagente con entrenamiento basado en liga de diversas estrategias y contraestrategias: un método más eficaz

Primera IA que dominó un popular juego de esports sin restricciones al más alto nivel

Personas:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organizaciones:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publicaciones

T5 - Text-to-Text Transfer Transformer

Enfoque unificado innovador: Todas las tareas de NLP como problemas de texto a texto

"Todo es Texto" - paradigma que unifica traducción, resumen, preguntas y respuestas

Establece el paradigma de modelo base para los modelos de lenguaje grande modernos

Introduce el completo conjunto de datos C4 - Colossal Clean Crawled Corpus

Personas:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organizaciones:Google AI, Google Research

2020Publicaciones

RAG: los modelos de lenguaje buscan antes de responder

En 2020, Patrick Lewis y sus colegas de Facebook AI presentaron el método de generación aumentada por recuperación (RAG).

En lugar de responder solo desde la memoria, el modelo busca primero documentos relevantes (por ejemplo, en Wikipedia) y basa en ellos su respuesta: así la información puede verificarse.

Personas:Patrick Lewis

Organizaciones:Facebook AI Research, University College London, New York University

2020Publicaciones

Leyes de escala neuronal

Descubrimiento de leyes de potencia fundamentales a lo largo de siete órdenes de magnitud

Elegantes ecuaciones que permiten predicciones sistemáticas de la asignación de recursos; precisadas en 2022 por Chinchilla

Establece el paradigma 'cuanto más grande, mejor' para el desarrollo sistemático de LLM

Transforma el desarrollo de la IA del ensayo y error a una metodología científica

Personas:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organizaciones:OpenAI, Johns Hopkins University

2020Publicaciones

GPT-3: el modelo de 175.000 millones de parámetros

175.000 millones de parámetros — más de 100 veces mayor que GPT-2, con notables efectos de escalado

Capacidades emergentes: el modelo resuelve tareas nuevas a partir de muy pocos ejemplos, sin reentrenamiento específico

Mostró capacidades emergentes: traducción, aritmética y generación de texto a nivel humano

Sentó las bases de ChatGPT y comercializó los modelos de lenguaje grandes mediante acceso por API

Personas:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organizaciones:OpenAI

2020Publicaciones

DDPM: Modelos de difusión establecidos

Nueva clase de modelos generativos basados en termodinámica de no equilibrio y procesos de eliminación de ruido

Enfoque de descompresión progresiva con pérdida como generalización de la decodificación autorregresiva

Sentó las bases matemáticas para Stable Diffusion y la generación moderna de texto a imagen

Puntuación FID 3.17 en CIFAR-10 demostró calidad de imagen rivalizando con GANs y estableció la difusión como estándar

Personas:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organizaciones:UC Berkeley

2020Publicaciones

Vision Transformer: 'An Image is Worth 16x16 Words'

Primera aplicación escalable y basada en parches de la arquitectura Transformer pura a la visión por ordenador sin componentes CNN

Los parches de imagen (típicamente 16x16 píxeles) tratados como secuencias de tokens transformaron la conversión de imagen a secuencia

La autoatención para el procesamiento de imágenes demostró la universalidad de la arquitectura Transformer

Alcanzó el nivel de las CNN de última generación tras un preentrenamiento a gran escala e inspiró modelos de visión basados en atención

Personas:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organizaciones:Google Research, Google Brain

2020Avances

Logro de AlphaFold

AlphaFold 2 dominó CASP14 con puntuación GDT de 92.4, superando claramente a 145 otros equipos

Resolvió el problema de plegamiento de proteínas de 50 años y cambió fundamentalmente la biología estructural

Arquitectura basada en atención logró precisión experimental en predicción de estructuras de proteínas

Demis Hassabis y John Jumper recibieron el Premio Nobel de Química 2024 por este logro

Personas:Demis Hassabis, John Jumper

Organizaciones:DeepMind, Google, CASP, University of Washington

2021Avances

CLIP: el puente entre imagen y lenguaje

Entrenamiento contrastivo: dos codificadores (imagen + texto) aprenden a partir de unos 400 millones de pares web a situar imágenes y textos relacionados en el mismo espacio vectorial.

Zero-shot: las categorías se describen con palabras, sin entrenamiento específico en la tarea; 76,2 % en ImageNet, a la par de una ResNet-50 que necesitó 1,28 millones de imágenes etiquetadas.

Fundamento de la oleada de generación de imágenes a partir de texto: DALL-E 2 usa las incrustaciones de CLIP y Stable Diffusion emplea directamente su codificador de texto.

Personas:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organizaciones:OpenAI

2021Productos

DALL-E crea imágenes a partir de texto

Desarrolló capacidades creativas notables: antropomorfización, combinación de conceptos, reproducción de texto en imágenes

Versión de GPT-3 con 12.000 millones de parámetros, entrenada con 250 millones de pares imagen-texto procedentes de internet

Abrió una nueva dimensión en la creatividad de la IA e inspiró el movimiento de IA generativa

Personas:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organizaciones:OpenAI, DALL-E Team

2021Hitos

Fundación de Anthropic

Fundada en enero de 2021 en San Francisco, con el propósito de desarrollar IA más segura e interpretable

Cofundada por Dario Amodei (CEO, exvicepresidente de investigación en OpenAI) y Daniela Amodei (Presidenta), junto a otros cinco exinvestigadores

Énfasis en seguridad de la IA, interpretabilidad y Constitutional AI

Desarrolló Claude, uno de los principales asistentes de IA del mercado

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organizaciones:Anthropic, OpenAI

2021Productos

GitHub Copilot: El programador par de IA

Vista previa técnica el 29 de junio de 2021 con acceso limitado vía lista de espera para desarrolladores seleccionados

Impulsado por OpenAI Codex, entrenado con miles de millones de líneas de código de repositorios públicos de GitHub

28.8% de tasa de éxito en el primer intento (HumanEval), 70.2% con 100 intentos de muestreo

Estableció la programación asistida por IA como herramienta viable e inspiró nuevas herramientas de codificación

Personas:Nat Friedman, GitHub Team, OpenAI Team

Organizaciones:GitHub, OpenAI, Microsoft

2021Productos

OpenAI Codex: la IA programa para las personas

Lenguaje natural a código: 'Escribe una función de ordenación' se convierte en Python o JavaScript funcional

GitHub Copilot (Technical Preview desde el 29 de junio de 2021): destacado asistente de programación con IA, entrenado en 54 millones de repositorios de código

Más de 12 lenguajes de programación: de Python a Swift, la IA comprende la intención del desarrollador en lenguaje natural

Aumento de productividad notable: Codex demostró el potencial de la IA para el trabajo cognitivo creativo

Personas:OpenAI Team, GitHub Development Team

Organizaciones:OpenAI, GitHub, Microsoft

2022Publicaciones

InstructGPT: el puente hacia ChatGPT

OpenAI aplicó RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) a GPT-3 para que siguiese instrucciones y se ajustase a la intención de los usuarios.

Sorprendente: un InstructGPT de 1.300 millones de parámetros fue preferido al GPT-3 cien veces más grande (175.000 millones); la alineación supera el tamaño bruto.

El puente técnico directo entre la idea del RLHF (2017) y ChatGPT (finales de 2022); explica por qué ChatGPT funcionó tan bien.

Anti-hype: InstructGPT no inventó el RLHF (lo hizo un artículo de 2017); demostró por primera vez a gran escala cuánto más útil vuelve la alineación a un modelo de lenguaje.

Personas:Long Ouyang

Organizaciones:OpenAI

2022Publicaciones

Chinchilla: repensar el escalado

Las leyes de escala de Chinchilla: para un presupuesto de cómputo fijo, el tamaño del modelo y los datos de entrenamiento deben crecer aproximadamente al mismo ritmo.

Transformó el modo de entrenar prácticamente todos los modelos punteros posteriores (proporción datos/parámetros); influyó en Llama, entre otros.

Anti-hype: Chinchilla no inventó las leyes de escala, sino que corrigió las de Kaplan (2020); modelos posteriores sobreentrenan deliberadamente para mayor eficiencia en la inferencia.

Personas:Jordan Hoffmann

Organizaciones:Google DeepMind

2022Productos

PaLM: el gigante de Google con 540.000 millones de parámetros

En 2022, Google presentó PaLM, un modelo de lenguaje con 540.000 millones de parámetros entrenado en miles de chips TPU.

PaLM destacó en el razonamiento de múltiples pasos: con prompts de cadena de pensamiento resolvía tareas textuales e incluso explicaba chistes.

Alimentó la idea de las capacidades emergentes: habilidades que aparecen de forma repentina a partir de un determinado tamaño de modelo.

Organizaciones:Google

2022Productos

Stable Diffusion: generación de imágenes de código abierto

Primer modelo potente de texto a imagen de código abierto con código fuente disponible en GitHub

Modelos de difusión latente con des-ruido iterativo en espacios latentes en lugar de manipulación directa de píxeles

Crecimiento explosivo de la comunidad con innumerables variantes, herramientas y aplicaciones

Rompió el monopolio de sistemas propietarios y democratizó la generación de imágenes con IA de alta calidad

Personas:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organizaciones:Stability AI, CompVis, Runway

2022Avances

OpenAI publica Whisper

Publicado el 21 de septiembre de 2022 como código abierto

Cubre 99 idiomas y transcribe de forma robusta incluso con acentos y ruido de fondo; su punto fuerte es el inglés, ya que la mayor parte de los datos de entrenamiento están en ese idioma

Entrenado con 680.000 horas de datos de audio multilingüe procedentes de internet

Democratizó el reconocimiento de voz de alta calidad mediante su disponibilidad como código abierto

Personas:Alec Radford, Jong Wook Kim, Tao Xu

Organizaciones:OpenAI

2022Productos

ChatGPT marca un punto de inflexión en el uso de la IA

Publicado el 30 de noviembre de 2022 como Research Preview gratuito y accesible para el público general

Alcanzó 1 millón de usuarios en 5 días y 100 millones en 2 meses — el crecimiento más rápido de una aplicación de consumo hasta entonces (superado después por Threads)

Primera IA potente sin barreras técnicas — acceso directo por web para cualquier usuario de internet

Democratizó la IA y desencadenó la actual ola de IA generativa en la sociedad y la economía

Personas:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organizaciones:OpenAI, Microsoft, ChatGPT

2022Publicaciones

Constitutional AI - Seguridad de la IA mediante una constitución

La IA se autocritica y mejora ante contenidos dañinos — sin necesitar etiquetas humanas de daño para esa evaluación

Enfoque alternativo que prioriza la seguridad frente a métodos centrados únicamente en el rendimiento, como ChatGPT

Triple objetivo: útil, honesta e inofensiva mediante principios éticos

RLAIF: Reinforcement Learning from AI Feedback sustituye las evaluaciones humanas en cuanto a la inofensividad (la utilidad sigue entrenándose vía RLHF)

Personas:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organizaciones:Anthropic

2023Regulación

NIST AI Framework: EE. UU. define la IA confiable

Cuatro funciones clave: Govern, Map, Measure, Manage para una gestión sistemática de riesgos de IA

Siete características de la IA confiable: segura, resiliente, explicable, respetuosa de la privacidad, justa, transparente y fiable

Enfoque voluntario con múltiples partes interesadas: más de 240 organizaciones desarrollaron estándares de forma conjunta

Organismo federal de estándares: NIST desarrolló el AI RMF por mandato de la National AI Initiative Act de 2020

Personas:NIST AI Team, 240+ Contributing Organizations

Organizaciones:NIST, US Department of Commerce, Biden Administration

2023Productos

LLaMA: modelo base de código abierto

Código de inferencia bajo licencia GPLv3; los pesos del modelo se publicaron caso por caso y exclusivamente para la investigación no comercial

Modelos de entre 7B y 65B parámetros entrenados exclusivamente con conjuntos de datos de acceso público

Permitió a investigadores sin grandes infraestructuras estudiar modelos de lenguaje avanzados

Distintos tamaños de modelo para diferentes requisitos de hardware y propósitos de investigación

Personas:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organizaciones:Meta AI, FAIR

2023Productos

Claude y Constitutional AI

Marco de Constitutional AI con entrenamiento de dos fases: autocrítica basada en principios éticos, luego refinamiento basado en retroalimentación de IA

Enfoque de seguridad novedoso sin evaluaciones humanas de daños - puramente a través de supervisión de IA

Lanzamiento simultáneo de Claude y Claude Instant para diferentes requisitos de aplicación

Estableció 'útil, inofensivo, honesto' como valores centrales para desarrollo responsable de IA

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organizaciones:Anthropic, Constitutional AI, AI Safety

2023Productos

GPT-4: modelo de IA multimodal

Large Multimodal Model con entradas de texto e imagen, capacidades de visión para documentos y diagramas

Bar exam en el 10% superior frente al 10% inferior de GPT-3.5; mejora en matemáticas SAT del percentil 70 al 89

Alineamiento iterativo durante 6 meses: pruebas adversariales y retroalimentación de ChatGPT mejoraron la seguridad

La integración en ChatGPT Plus hizo accesible la IA multimodal avanzada a los consumidores

Personas:Sam Altman, OpenAI Team

Organizaciones:OpenAI

2023Productos

Midjourney V5: arte con IA fotorrealista

Calidad de imagen fotorrealista prácticamente indistinguible de fotografías reales

Desencadenó reacciones intensas en la comunidad creativa, desde entusiasmo hasta preocupaciones existenciales

Mejoró considerablemente el arte con IA mediante una representación precisa de las manos y una mayor sensibilidad a los prompts

Estableció nuevos estándares para la generación comercial de imágenes con IA con un impacto considerable en la industria creativa

Personas:David Holz, Midjourney Team

Organizaciones:Midjourney Inc

2023Regulación

Decreto de IA de Biden - Primera regulación integral de IA en EE. UU.

Gobernanza de IA más completa hasta la fecha — 110 páginas, la Orden Ejecutiva más extensa de la historia

Pruebas de seguridad obligatorias y resultados de red team para sistemas de IA de gran potencia — estándares establecidos por el NIST

Ley de Producción de Defensa: obligación de notificación para sistemas de IA con riesgos para la seguridad nacional

Posicionó a los EE. UU. en 2023 como pioneros en gobernanza responsable de la IA — aunque fue revocada en 2025

Personas:Joe Biden, Kamala Harris

Organizaciones:White House, NIST, Department of Homeland Security

2023Regulación

Carta de pausa y Bletchley: la seguridad de la IA se convierte en asunto global

Marzo de 2023: una carta abierta del Future of Life Institute (miles de firmantes, entre ellos Bengio y Musk) pedía una pausa de 6 meses en el entrenamiento de IA más potente que GPT-4.

Noviembre de 2023: primera cumbre mundial de seguridad en IA en Bletchley Park (Reino Unido), donde Turing descifró códigos durante la guerra.

28 países y la UE, incluidos EE. UU. y China, firmaron la Declaración de Bletchley sobre los riesgos de la IA avanzada; inicio de la serie de cumbres (Seúl 2024, París 2025).

Anti-hype: la pausa nunca llegó; la declaración no era vinculante. Ambas pusieron temas en la agenda, pero no crearon normas exigibles.

Organizaciones:Future of Life Institute, UK Government

2023Productos

Mistral y Mixtral: los modelos abiertos de Europa

Primavera de 2023: en París, Arthur Mensch (ex-Google-DeepMind) y Guillaume Lample y Timothée Lacroix (ex-Meta) fundaron Mistral AI, la respuesta europea a los laboratorios estadounidenses.

Septiembre de 2023: Mistral 7B, un modelo pequeño con pesos abiertos (Apache 2.0) que superó al mayor Llama 2 13B.

Diciembre de 2023: Mixtral 8x7B, un modelo abierto de mezcla de expertos; en muchos benchmarks al nivel de GPT-3.5, pero eficiente (solo ~13.000 millones de parámetros activos de ~47.000 millones).

Personas:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organizaciones:Mistral AI

2023Productos

Google Gemini: familia de IA multimodal

Desarrollado desde cero para la multimodalidad: comprensión de lenguaje, audio, código y vídeo integrados de forma nativa

Superó a GPT-3.5 en 6 de 8 benchmarks estándar y estableció a Google como alternativa seria a ChatGPT

Tres tamaños de modelo: Ultra (complejo), Pro (equilibrado), Nano (en dispositivo) para diversas aplicaciones

El Bard habitual recibió Gemini Pro el día del anuncio; Bard Advanced con Gemini Ultra fue anunciado para principios de 2024

Personas:Sundar Pichai, Demis Hassabis, Gemini Team

Organizaciones:Google, DeepMind, Google AI

2024Productos

IA incorporada: los modelos adquieren un cuerpo

2024 fue el año de la IA incorporada: los modelos de lenguaje que antes solo existían en el chat empezaron a habitar robots, especialmente humanoides.

La esperanza: un robot que integre lenguaje, visión y acción en un único modelo de base podría aprender tareas generales en el mundo real, un ChatGPT moment para la robótica.

Organizaciones:Figure AI, NVIDIA, Physical Intelligence

2024Productos

Waymo: el taxi sin conductor se convierte en cotidiano

En 2024, Waymo, la filial de coches robot de Google, se convirtió en el primer proveedor de taxis sin conductor a gran escala, abierto al público en varias ciudades de EE. UU.

En el verano de 2024, Waymo registró más de 100.000 viajes pagados por semana, completamente sin conductor de seguridad al volante.

Tras más de una década de promesas, fue la primera prueba concreta de que la conducción autónoma puede funcionar como un servicio real.

Organizaciones:Waymo, Alphabet

2024Productos

Sora: vídeos generados por IA a partir de texto

Generación fotorrealista de texto a vídeo con vídeos HD de varios minutos de duración, superando a los sistemas existentes

Diffusion Transformer basado en la tecnología de DALL-E 3 para la consistencia temporal

Simula a menudo movimientos físicamente plausibles y mantiene la consistencia a lo largo de todo el vídeo

Posible disrupción de la industria cinematográfica: Tyler Perry detuvo una expansión de estudios de 800 millones de dólares

Personas:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organizaciones:OpenAI

2024Productos

Familia Claude 3 con capacidades multimodales

Sofisticado procesamiento de visión para fotos, gráficos, diagramas y dibujos técnicos

Opus (mayor inteligencia), Sonnet (equilibrio), Haiku (velocidad) para diferentes casos de uso

Capacidades multimodales permiten procesar formatos visuales junto con procesamiento de texto

Claude 3 Opus logró nuevos mejores resultados en MMLU, GPQA y otros benchmarks cognitivos

Personas:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organizaciones:Anthropic, Claude API, Amazon Bedrock

2024Productos

Devin: el primer ingeniero de software autónomo con IA

Desarrollo de software completamente autónomo: planificación, codificación, depuración, pruebas y despliegue sin intervención humana

Gestiona tareas complejas de ingeniería, desde la migración de código hasta el desarrollo completo de aplicaciones

Tasa de éxito del 13,86% en SWE-Bench — 7 veces mejor que el estado del arte anterior del 1,96%

Desencadenó el debate sobre el futuro del desarrollo de software e inspiró alternativas de código abierto como OpenHands

Personas:Scott Wu, Steven Hao, Walden Yan

Organizaciones:Cognition Labs, SWE-Bench

2024Avances

AlphaFold 3: la IA predice la interacción entre moléculas

En mayo de 2024, Google DeepMind e Isomorphic Labs presentaron AlphaFold 3, una ampliación significativa de su predecesor.

Mientras AlphaFold 2 predecía el plegamiento de proteínas individuales, AlphaFold 3 modela su interacción con otras moléculas: ADN, ARN, fármacos e iones.

Especialmente valioso para la investigación farmacéutica: permite estimar en el ordenador cómo un fármaco se une a su proteína objetivo.

Organizaciones:Google DeepMind, Isomorphic Labs

2024Competiciones

AlphaProof: la IA gana la medalla de plata en la Olimpiada de Matemáticas

En julio de 2024, AlphaProof de Google DeepMind, junto con AlphaGeometry 2, resolvió cuatro de las seis tareas de la Olimpiada Internacional de Matemáticas: nivel de medalla de plata.

AlphaProof formula demostraciones en el lenguaje formal Lean y las verifica automáticamente; lo aprendió mediante aprendizaje por refuerzo. AlphaGeometry 2 resolvió la tarea de geometría.

Por primera vez, una IA alcanzó el nivel de medalla en esta prestigiosa competición: un hito para el razonamiento automático con demostraciones verificables.

Organizaciones:Google DeepMind

2024Regulación

Reglamento europeo de IA: la primera ley integral sobre IA

Primera ley integral de IA del mundo con 180 considerandos y 113 artículos para todo el ciclo de vida de la IA

Cuatro niveles de riesgo: usos prohibidos, alto riesgo, riesgo limitado y riesgo mínimo — más normas propias para los modelos de base GPAI

El efecto extraterritorial, al igual que el RGPD, podría establecer estándares globales de IA e influir en el cumplimiento normativo mundial

Multas de hasta 35 millones de euros o el 7% de la facturación anual, aplicación escalonada de 2025 a 2027

Personas:Ursula von der Leyen, Thierry Breton

Organizaciones:European Union, European Parliament, European Commission

2024Productos

OpenAI O1: avance en el razonamiento

Primer modelo cuya cadena de pensamiento (Chain-of-Thought) se entrena y escala mediante aprendizaje por refuerzo, para un razonamiento más estructurado

Nueva dimensión de escalado: cuanto más tiempo piensa, mejores son los resultados

Nuevo enfoque: de la reproducción de patrones a la resolución de problemas mejorada

Avance importante en el razonamiento complejo: capacidades de resolución de problemas significativamente mejoradas

Personas:Sam Altman, Noam Brown, OpenAI Team

Organizaciones:OpenAI

2024Hitos

Los premios Nobel de IA de 2024

8 de octubre de 2024: Premio Nobel de Física para John Hopfield y Geoffrey Hinton por los fundamentos del aprendizaje automático con redes neuronales, un premio de física para la IA.

9 de octubre de 2024: Premio Nobel de Química para David Baker (diseño de proteínas) y Demis Hassabis y John Jumper de DeepMind (AlphaFold, plegamiento de proteínas).

Por primera vez, dos Premios Nobel de ciencias naturales reconocieron en el mismo año los fundamentos de la IA, un punto de inflexión en el estatus del campo.

Personas:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organizaciones:Royal Swedish Academy of Sciences

2024Avances

OpenAI o3: un salto en ARC-AGI

o3 (anunciado el 20/12/2024) lleva más lejos el test-time scaling de o1: más razonamiento en tiempo de inferencia equivale a mejores resultados y marcas máximas en matemáticas y código.

87,5 % en ARC-AGI, una prueba diseñada para resistir la memorización, en la que los modelos anteriores estaban cerca de cero: un salto muy comentado hacia la adaptabilidad próxima a la humana.

Junto con o1 y DeepSeek-R1, señalaron la era de los modelos de razonamiento; o3-mini llegó a finales de enero de 2025 y el o3 completo en abril de 2025.

Organizaciones:OpenAI

2025Productos

La IA agéntica se convierte en tendencia dominante

Anthropic, Computer Use (oct. 2024): primer modelo de frontera con uso de ordenador en beta pública: pantalla, ratón, teclado.

OpenAI: Operator (ene. 2025) navega autónomamente por la web; Deep Research (feb. 2025) investiga en múltiples pasos y redacta informes documentados.

La transición del chatbot (generar texto) al agente (actuar) — ya anticipada por Devin (2024) — se convirtió en tendencia mayoritaria en 2025.

Anti-hype: las primeras versiones eran lentas, propensas a errores y de alcance limitado; los sistemas se promocionaron más de lo que su fiabilidad justificaba en 2025.

Organizaciones:Anthropic, OpenAI

2025Productos

DeepSeek-R1: el shock de la IA china

Entrenado a una fracción del coste esperado, lo que cuestionó la suposición de que la IA punta requiere necesariamente presupuestos de cómputo enormes.

Personas:Liang Wenfeng

Organizaciones:DeepSeek

2025Hitos

Stargate: la IA como infraestructura a escala nacional

Hasta 500.000 millones de dólares a lo largo de cuatro años para centros de datos de IA en EE. UU. (OpenAI, SoftBank, Oracle, MGX); la inversión de 100.000 millones debía comenzar de inmediato.

Presentado en la Casa Blanca: la IA se convirtió de forma visible en una cuestión de infraestructura nacional y geopolítica.

La próxima fase de la IA es una cuestión de energía y construcción: potencia de cómputo a la escala de plantas eléctricas (hilo conductor desde CUDA/AlexNet).

Sin exagerar: un anuncio no es un centro de datos terminado; desde el principio fue controvertido si los 500.000 millones llegarían a reunirse por completo.

Personas:Sam Altman, Masayoshi Son, Larry Ellison

Organizaciones:OpenAI, SoftBank, Oracle

2025Regulación

Cumbre de Acción de IA de París

Tercera cumbre global de IA (tras Bletchley 2023, Seúl 2024): 10-11 de febrero de 2025, Grand Palais, codirigida por Macron y Modi.

58 países más la UE y la Unión Africana firmaron la declaración final; EE. UU. y el Reino Unido se negaron a firmarla (fractura transatlántica abierta).

Sin exagerar: la declaración no era vinculante; los críticos calificaron la cumbre de ocasión perdida para la seguridad de la IA.

Personas:Emmanuel Macron, Narendra Modi

2025Productos

Los modelos de frontera en 2025

Una carrera muy reñida: Gemini 2.5 Pro (marzo), Claude 4 / Opus 4 (mayo), GPT-5 (agosto) — más Llama 4, Grok, DeepSeek. Varios laboratorios compitiendo en la cima.

En el centro: la programación autónoma de larga duración (por ejemplo, Claude Code), modelos que resuelven tareas enteras de forma independiente.

Anti-hype: récords en benchmarks semana a semana, cada laboratorio reclama la cima; avances reales, pero AGI siguió siendo más marketing que realidad.

Organizaciones:Anthropic, OpenAI, Google DeepMind

Buscar

Categoría

Rango de fechas

La Analytical Engine de Babbage: la idea del ordenador

Contenido Relacionado

Ada Lovelace: el primer programa y una visión audaz

Contenido Relacionado

La máquina de Turing: qué significa calcular

Contenido Relacionado

McCulloch y Pitts: la primera neurona artificial

Contenido Relacionado

La teoría de la información de Shannon: nace el bit

Contenido Relacionado

La regla de Hebb: cómo surge el aprendizaje en el cerebro

Contenido Relacionado

Test de Turing: el juego de la imitación

Contenido Relacionado

Logic Theorist: el primer programa que razona

Contenido Relacionado

Conferencia de Dartmouth: el nacimiento de la IA

Contenido Relacionado

Perceptrón: la primera red neuronal que aprende

Contenido Relacionado

LISP: el lenguaje de la IA

Contenido Relacionado

Arthur Samuel: IA que aprende sola y el término 'machine learning'

Contenido Relacionado

DENDRAL: pionero de los sistemas expertos

Contenido Relacionado

Fuzzy Logic: la lógica de la imprecisión

Contenido Relacionado

ELIZA: el primer chatbot

Contenido Relacionado

Perceptrons: el libro que contribuyó al invierno de la IA

Contenido Relacionado

Shakey: el primer robot móvil inteligente

Contenido Relacionado

SHRDLU: comprender el lenguaje en el mundo de los bloques

Contenido Relacionado

Modelos ocultos de Markov establecidos

Contenido Relacionado

Prolog: programar con lógica

Contenido Relacionado

El primer invierno de la IA

Contenido Relacionado

Neocognitron: el antecesor de las CNN

Contenido Relacionado

La era de los sistemas expertos de los años 80

Contenido Relacionado

Redes de Hopfield: Memoria Asociativa

Contenido Relacionado

Algoritmo de retropropagación

Contenido Relacionado

El segundo invierno de la IA

Contenido Relacionado

UCI ML Repository: la biblioteca de conjuntos de datos

Contenido Relacionado

Redes bayesianas: razonamiento bajo incertidumbre

Contenido Relacionado

Teorema de aproximación universal

Contenido Relacionado

World Wide Web: la invención de la WWW

Contenido Relacionado

LeNet y el nacimiento de las CNN

Contenido Relacionado

TD-Gammon: aprender jugando contra sí mismo

Contenido Relacionado

Q-Learning: fundamento del aprendizaje por refuerzo

Contenido Relacionado

Penn Treebank: la anotación sintáctica transforma el PLN

Contenido Relacionado

AdaBoost: los aprendices débiles se vuelven fuertes

Contenido Relacionado

Máquinas de vectores soporte: clasificación por margen máximo

Contenido Relacionado

WordNet: la red semántica del lenguaje

Contenido Relacionado

PageRank: el algoritmo que vale miles de millones

Contenido Relacionado

Deep Blue vence a Kasparov