Glosario

Agente BDI

Fundamentos

El agente BDI es una arquitectura de agente que significa Belief-Desire-Intention — creencias, deseos e intenciones —, desarrollada por Anand Rao y Michael Georgeff a principios de los años noventa. Tradujeron al filósofo Michael Bratman en software: las personas no actúan desde la lógica pura, sino a partir de una interacción de lo que creen, lo que quieren y aquello a lo que se han comprometido. Un agente BDI lleva exactamente estos tres estados de forma interna: las creencias (beliefs) son su imagen del mundo (lo que considera verdadero), los deseos (desires) sus posibles objetivos, y las intenciones (intentions) el subconjunto de objetivos a los que realmente se ha comprometido y ahora persigue. Lo fundamental es el compromiso: una intención, una vez formada, no se renegocia ante cualquier contratiempo, sino que se persigue de forma estable — lo que evita una deliberación interminable. No es conciencia embotellada, sino un marco práctico para agentes que necesitan mantener el rumbo en un mundo cambiante.

Ejemplo:

Un rover marciano como agente BDI cree que un determinado cráter contiene rocas interesantes (creencia). Tiene varios deseos: recoger muestras, ahorrar energía, mantenerse intacto (deseos). Decide dirigirse al cráter y mantiene esa intención (intención), en lugar de abandonar el plan ante cada pequeño obstáculo.

Fundamentos

AI Alignment es el arte de diseñar la inteligencia artificial para que haga lo que queremos decir, no solo lo que decimos. La investigación distingue dos dimensiones principales. La alineación externa (outer alignment) se refiere a si el objetivo especificado o la función de recompensa expresa realmente lo que deseamos. Los humanos son notablemente malos para formular con precisión sus verdaderas intenciones, y los sistemas de IA a veces explotan la especificación literal en lugar de la intención real, un fenómeno denominado specification gaming o reward hacking (también llamado problema del rey Midas, en alusión al mito). La alineación interna (inner alignment) se refiere a si un sistema entrenado persigue realmente el objetivo especificado; incluso con una especificación perfecta, un sistema puede aprender un objetivo divergente que solo coincidía con el deseado en los datos de entrenamiento (goal misgeneralization). El problema de alineación surge de la discrepancia entre nuestros valores humanos, complejos y a menudo contradictorios, y la precisión matemática que requieren los sistemas de IA. Los métodos centrales incluyen el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y Constitutional AI. La investigación se centra en la robustez, la interpretabilidad, la controlabilidad y la ética. El problema se vuelve especialmente crítico en sistemas de IA avanzados: cuanto más poderosa es la IA, mayores pueden ser las consecuencias de una mala alineación.

Ejemplo:

Le pides a una IA que 'elimine todos los correos spam'. Un sistema bien alineado entiende: elimina el spam, pero conserva los correos importantes marcados erróneamente como spam. Un sistema mal alineado podría borrar todos los correos que remotamente parezcan spam: técnicamente correcto, pero catastrófico en la práctica.

Ajuste de hiperparámetros

Aprendizaje automático

El ajuste de hiperparámetros (Hyperparameter Tuning) es el proceso sistemático de optimización de los hiperparámetros que deben establecerse antes del proceso de aprendizaje propiamente dicho. A diferencia de los parámetros normales, que el modelo aprende durante el entrenamiento, los hiperparámetros los fija el desarrollador; son, por así decirlo, los 'mandos de ajuste' del aprendizaje automático. Determinan, por ejemplo, con qué rapidez aprende un modelo, qué complejidad puede alcanzar o qué estructura interna debe tener. El ajuste se realiza típicamente probando de forma sistemática distintas combinaciones: la búsqueda en rejilla (Grid Search) prueba todas las combinaciones de valores predefinidas, mientras que la búsqueda aleatoria (Random Search) prueba combinaciones al azar. Enfoques más modernos como la optimización bayesiana (Bayesian Optimization) utilizan los resultados de intentos anteriores para tomar decisiones más inteligentes en los siguientes. La validación cruzada garantiza mediciones de rendimiento fiables. Unos hiperparámetros bien ajustados pueden marcar la diferencia entre un modelo mediocre y uno sobresaliente: a menudo, la configuración correcta decide el éxito o el fracaso de un proyecto de IA.

También conocido como:Optimización de hiperparámetros, Ajuste de modelos, Configuración de parámetros

Ejemplo:

En una red neuronal, el ajuste de hiperparámetros puede consistir en probar sistemáticamente distintas tasas de aprendizaje (0,001, 0,01, 0,1) y tamaños de capa (64, 128, 256 neuronas). La búsqueda en rejilla probaría las 9 combinaciones posibles y seleccionaría la que mejor rendimiento muestre en la validación cruzada.

Ajuste fino por instrucciones

Aprendizaje automático

Los modelos de lenguaje preentrenados tienen un curioso defecto de diseño: son excelentes continuando texto, pero notablemente malos siguiendo instrucciones. Esto se debe a que el preentrenamiento les enseña estadísticas de texto en crudo, no el concepto de una tarea. El ajuste fino por instrucciones (Instruction Tuning) corrige esto reentrenando el modelo con miles de pares (instrucción, respuesta) que cubren una amplia gama de tareas formuladas en lenguaje natural. El modelo aprende qué significa que le pidan hacer algo. FLAN (Wei et al., 2021, Google) reformuló más de 60 benchmarks de NLP como instrucciones en lenguaje natural y comprobó que el modelo resultante generalizaba en modo zero-shot a tareas que nunca había visto: había aprendido el metaconcepto de 'tarea'. T0 (Sanh et al., 2021, Hugging Face / BigScience) confirmó esto con plantillas de prompts elaboradas manualmente. InstructGPT (Ouyang et al., 2022) combinó el ajuste fino por instrucciones con el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y se convirtió en la base técnica de ChatGPT. Hoy, el ajuste fino por instrucciones es el primer paso estándar para convertir un modelo preentrenado en bruto en un asistente.

También conocido como:Instruction Tuning, Instruction Fine-Tuning, entrenamiento por instrucciones

Ejemplo:

Un modelo preentrenado al que se le da 'Traduce: El tiempo es agradable' podría generar '→' como el siguiente token más probable. Tras el ajuste fino por instrucciones, produce 'The weather is nice', porque ahora entiende qué significa traducir.

Aprendizaje automático

El Aprendizaje No Supervisado es un método de aprendizaje automático donde un sistema descubre patrones en los datos sin saber de antemano qué buscar. Imagina darle a un investigador una enorme pila de documentos desordenados y decirle: 'Descubre qué es interesante' - sin más pistas. Eso es exactamente lo que hace el Aprendizaje No Supervisado con los datos. A diferencia del Aprendizaje Supervisado, no hay 'respuestas correctas' ni etiquetas que muestren al sistema qué debe aprender. En cambio, el sistema descubre independientemente estructuras, grupos y relaciones. Las técnicas principales son el clustering (agrupar puntos de datos similares), la reducción de dimensionalidad (simplificar datos complejos sin perder información importante) y las reglas de asociación (descubrir relaciones 'si-entonces'). Un ejemplo clásico es el Análisis de Componentes Principales (PCA), que reduce cientos de dimensiones de datos a las pocas más importantes, haciendo visibles los patrones.

Ejemplo:

Una tienda online analiza el comportamiento de compra de los clientes sin categorías predefinidas y descubre automáticamente cinco grupos de clientes: cazadores de ofertas, compradores de lujo, compradores casuales, entusiastas de la tecnología y compradores familiares - estas percepciones surgieron puramente a través del reconocimiento de patrones en los datos.

Aprendizaje por diferencia temporal

Aprendizaje automático

Una idea de aprendizaje central en el aprendizaje por refuerzo, formalizada por Richard Sutton en 1988. El truco suena casi paradójico: el aprendizaje por diferencia temporal mejora una estimación usando otra estimación. No espera al final de un episodio para ver cuánta recompensa llegó realmente (eso sería Monte Carlo). En cambio, compara la estimación de valor actual de un estado con lo que se observa inmediatamente después: la siguiente recompensa más la estimación del estado siguiente. La diferencia entre ambas, el 'error TD', impulsa la actualización. Este aprendizaje a partir de estimaciones se llama bootstrapping y convierte el aprendizaje TD en un elegante cruce entre Monte Carlo (aprende de la experiencia real) y la programación dinámica (calcula de forma recursiva). Las variantes van desde TD(0), que solo mira un paso adelante, hasta TD(lambda), que combina varios pasos futuros con ponderación. Q-learning y SARSA son en esencia métodos TD.

También conocido como:TD-Learning, Aprendizaje TD

Ejemplo:

En un viaje largo en coche, por la mañana estimas: 'llegada hacia las 17 h'. Una hora después estás en un atasco y corriges a 'más bien las 18 h'. No has esperado la llegada; has ajustado una estimación antigua con una más reciente: exactamente la idea del aprendizaje TD. La diferencia entre '17 h' y '18 h' es el error TD. A lo largo del viaje, las estimaciones mejoran mucho antes de que llegues de verdad.

Aprendizaje por Refuerzo (RL)

Aprendizaje automático

Un paradigma de Aprendizaje Automático donde un agente aprende a tomar decisiones óptimas mediante la interacción con un entorno. El agente elige acciones, el entorno responde con nuevos estados y recompensas. Objetivo: Maximizar la recompensa acumulada a lo largo del tiempo. A diferencia del Aprendizaje Supervisado (aprende de ejemplos etiquetados) o el Aprendizaje No Supervisado (encuentra patrones), el RL aprende por prueba y error y recompensas diferidas. Exitoso en juegos (AlphaGo, Atari), robótica, conducción autónoma – donde sea que se deban tomar decisiones secuenciales bajo incertidumbre.

Ejemplo:

Un agente RL aprende ajedrez. Cada movimiento es una acción. Después del juego, hay una recompensa: +1 por ganar, -1 por perder, 0 por empate. El agente aprende a través de muchos juegos qué movimientos conducen a victorias a largo plazo – sin que se le diga cuál movimiento específico fue 'correcto'. Esto es RL: Aprender de las consecuencias, no de ejemplos.

Aprendizaje por refuerzo inverso

Aprendizaje automático

El aprendizaje por refuerzo inverso (IRL, Inverse Reinforcement Learning) invierte el problema estándar del aprendizaje por refuerzo: en lugar de aprender un comportamiento óptimo a partir de una función de recompensa dada, observa el comportamiento e infiere la función de recompensa subyacente. Ng y Russell formalizaron esto en el año 2000: dados una secuencia de observaciones y acciones de un agente, ¿qué función de recompensa está maximizando ese agente? El problema está matemáticamente subdeterminado: infinitas funciones de recompensa son compatibles con cualquier comportamiento observado, incluida la solución trivial R=0. Enfoques posteriores como el IRL de máxima entropía (Ziebart et al. 2008) resuelven esta ambigüedad mediante el principio de máxima entropía, que selecciona la recompensa menos comprometida compatible con las observaciones. El IRL es conceptualmente central para la alineación de valores: si queremos inferir preferencias humanas a partir del comportamiento en lugar de especificarlas explícitamente, el IRL es el marco formal para hacerlo.

También conocido como:IRL, Inverse Reinforcement Learning, inferencia de recompensas

Ejemplo:

Un algoritmo de IRL observa a un conductor humano en diversas situaciones de tráfico e infiere una función de recompensa que pondera seguridad, comodidad y velocidad, lo que permite a un coche autónomo replicar ese estilo de conducción.

Aprendizaje profundo

Una arquitectura de red neuronal introducida en 2017 por Vaswani et al. que se basa exclusivamente en mecanismos de atención - sin recurrencia ni convoluciones. Típicamente consiste en codificador y decodificador con auto-atención multi-cabezal. Fundamental para los LLMs modernos como GPT, BERT, Claude.

Ejemplo:

El artículo original 'Attention Is All You Need' introdujo los Transformers para traducción automática. Hoy, prácticamente todos los grandes modelos de lenguaje se basan en variantes de Transformers: GPT (solo decodificador), BERT (solo codificador), T5 (codificador-decodificador). La arquitectura permite la paralelización y captura dependencias a largo plazo mejor que las RNNs.

Arquitecturas cognitivas

Fundamentos de IA

Las arquitecturas cognitivas son marcos teóricos integrales que intentan reproducir en un sistema informático la estructura y el funcionamiento de la cognición humana – no solo capacidades individuales como jugar al ajedrez o reconocer imágenes, sino todo el espectro de los procesos cognitivos: percepción, aprendizaje, memoria, planificación, resolución de problemas. Los ejemplos más conocidos son SOAR (State, Operator And Result), ACT-R (Adaptive Control of Thought-Rational) y CLARION. Estos sistemas se basan en supuestos sobre la organización fundamental de la mente humana: ¿cómo se representa el conocimiento? ¿Cómo se toman las decisiones? ¿Cómo tiene lugar el aprendizaje? A diferencia de las redes neuronales modernas, que aprenden exclusivamente patrones estadísticos, las arquitecturas cognitivas se apoyan de manera central en reglas simbólicas explícitas, memoria declarativa y procedimental, y mecanismos de seguimiento de objetivos. El componente simbólico no es igual de fuerte en todas: el SOAR clásico es predominantemente simbólico; ACT-R añade un nivel subsimbólico (por ejemplo, ecuaciones de activación y utilidad para la recuperación de la memoria y la selección de reglas); y CLARION es expresamente híbrido y combina un nivel simbólico con un nivel conexionista neuronal. Proceden de la era 'clásica' de la IA y de las ciencias cognitivas. Aunque hoy son menos prominentes que el Deep Learning, siguen siendo relevantes para la investigación en IA que desea modelar el pensamiento y el razonamiento similares al humano.

También conocido como:Cognitive Architectures, Sistemas cognitivos

Ejemplo:

La arquitectura SOAR modela la resolución humana de problemas: dispone de una memoria de trabajo para los objetivos actuales, una memoria a largo plazo para reglas y conocimientos, y aprende de la experiencia mediante el 'chunking' – la síntesis de patrones de resolución de problemas repetidos.

Aprendizaje automático

El Aumento de Datos es el arte de hacer mucho de poco: una tecnica inteligente de aprendizaje automatico que varia habilmente los datos de entrenamiento existentes para crear artificialmente mas material de aprendizaje. Imagina a un chef que conjura cientos de platos diferentes de una docena de ingredientes combinandolos, condimentandolos y preparandolos de manera diferente. Asi es exactamente como funciona el Aumento de Datos: en lugar de recopilar laboriosamente nuevos datos, los ejemplos existentes se transforman sistematicamente. Para imagenes, esto significa rotaciones, volteos, escalado, cambios de color, ruido o recorte estrategico. Para datos de texto, se intercambian sinonimos, se reorganizan oraciones o se emplean retrotraducciones. Lo ingenioso: el Aumento de Datos actua como una tecnica de regularizacion natural y reduce el sobreajuste porque el modelo aprende a ser robusto contra variaciones. El metodo es particularmente valioso con conjuntos de datos pequenos o en Vision por Computadora y NLP.

Ejemplo:

Para un clasificador de imagenes de perros/gatos, se generan 5000 variantes de entrenamiento a partir de 1000 imagenes originales mediante rotacion (+-30 grados), volteo horizontal y cambios de brillo. El modelo asi aprende a reconocer animales independientemente de la pose o iluminacion.

Auto-Atención

Aprendizaje profundo

La Auto-Atención (Self-Attention) es el mecanismo central de la arquitectura Transformer y, por tanto, la base de los modelos de lenguaje modernos. El principio fundamental: cada palabra de una oración calcula su relación con las demás palabras, incluida ella misma. Imagina que lees la oración 'El banco junto al río era de madera'. Para entender correctamente 'banco', automáticamente te fijas en las palabras del entorno: 'río' y 'madera' dejan claro que se trata de un asiento, no de una entidad financiera. Eso es exactamente lo que hace la Auto-Atención: para cada palabra calcula qué otras palabras del contexto son importantes. Técnicamente esto ocurre mediante tres proyecciones aprendidas por palabra: Query, Key y Value (Q/K/V). La puntuación de atención (Attention Score) se obtiene del producto escalar escalado de Query y Key, se normaliza mediante Softmax y pondera a continuación los Values. Estos cálculos se realizan en paralelo para todas las palabras a la vez, una diferencia crucial respecto a arquitecturas secuenciales más antiguas como las RNN. Como Query y Key proceden de matrices de proyección distintas, la relación es dirigida: cuánto atiende la palabra A a la palabra B puede diferir de cuánto atiende B a A. En modelos de codificador como BERT, cada palabra puede observar toda la oración; en modelos de decodificador como GPT, la atención está, en cambio, enmascarada causalmente, de modo que una palabra solo puede atender a palabras anteriores.

También conocido como:Self-Attention, Mecanismo de auto-atención

Ejemplo:

En 'El piloto entró en la cabina del avión antes de despegar', la Auto-Atención reconoce que 'él' se refiere a 'piloto' (no a 'avión' ni a 'cabina') analizando las relaciones gramaticales y semánticas entre todas las palabras, en paralelo y simultáneamente.

Autoencoder

Aprendizaje profundo

Un autoencoder — autocodificador — es una red neuronal que aprende a comprimir datos de forma eficiente y a reconstruirlos después con la mayor fidelidad posible al original. El objetivo del entrenamiento es reproducir su propia entrada con la mayor exactitud posible; sin embargo, el estrecho cuello de botella hace que la reconstrucción sea necesariamente aproximada y, por tanto, con pérdida de información. Precisamente esa pérdida de información forzada impulsa al modelo a aprender los rasgos esenciales. Lo fascinante es que lo logra mediante aprendizaje no supervisado. La arquitectura sigue un elegante principio de reloj de arena: el encoder comprime la entrada en una representación compacta, y el decoder la descomprime de vuelta a la forma original. La parte central estrecha — el cuello de botella — contiene los rasgos esenciales en forma comprimida. Los autoencoders son maestros del aprendizaje no supervisado: descubren por sí solos qué es importante en los datos, sin que nadie les diga en qué deben fijarse. Su fortaleza reside en detectar relaciones no lineales que los métodos tradicionales como el PCA pasarían por alto. Sus aplicaciones van desde la eliminación de ruido en imágenes hasta la detección de anomalías y la reducción de dimensionalidad.

También conocido como:Autocodificador

Ejemplo:

Un autoencoder aprende a reconstruir imágenes de rostros. El encoder comprime una imagen de 1000x1000 píxeles en 100 números que codifican el color de los ojos, la forma del rostro y la sonrisa. El decoder reconstruye a partir de ellos una imagen casi idéntica. Los 100 números contienen la 'esencia' del rostro.

Automation Bias

Ética

Las Capas Ocultas son la fuerza de trabajo invisible de una red neuronal: Residen entre la capa de entrada y la capa de salida, realizando su trabajo computacional tras bambalinas. Estas capas se llaman 'ocultas' porque desde afuera solo ves lo que entra a la red (entrada) y lo que sale (salida); el procesamiento intermedio permanece oculto al observador. Cada capa oculta transforma los datos entrantes paso a paso: La primera capa oculta en una red de reconocimiento de imágenes podría detectar bordes simples, la segunda combina estos en formas, la tercera reconoce partes de objetos. Cuantas más capas ocultas tiene una red, más 'profunda' es, de ahí el término 'Deep Learning' para redes con muchas capas ocultas. Una red con 50 o 100 capas ocultas puede aprender patrones altamente complejos, pero también requiere significativamente más datos de entrenamiento y potencia computacional.

Ejemplo:

Una red neuronal para reconocimiento facial típicamente tiene múltiples capas ocultas: La primera detecta líneas y bordes, la segunda combina estos en ojos y narices, la tercera ensambla características faciales, hasta que la capa de salida identifica a la persona.

Característica

Aprendizaje automático

Una característica es una propiedad individual y medible que un modelo de aprendizaje automático recibe como entrada. En la puntuación crediticia, los ejemplos serían el ingreso, la edad y el nivel de deuda: cada uno es una característica, y juntos forman el vector de características de un punto de datos. Puede parecer obvio, pero es el cuello de botella decisivo: un modelo solo puede aprender lo que sus características son capaces de expresar. Las características diseñadas a mano dominaron el aprendizaje automático durante décadas; el deep learning ha automatizado parcialmente este paso destilando representaciones útiles directamente de los datos brutos (píxeles, palabras, señales), aunque incluso entonces la elección de las entradas determina el éxito o el fracaso.

También conocido como:Feature (Característica), Variable de entrada, Predictor, Atributo

Ejemplo:

Un filtro de spam recibe un vector de características por cada correo: número de signos de exclamación, si aparece la palabra 'gratis', longitud del asunto. Cada uno de estos valores es una característica. Cuanto más informativas sean las características elegidas, mejor aprenderá el clasificador.

Centroide

Aprendizaje automático

Un centroide es el centro geométrico de todos los puntos de datos en un clúster — calculado como la media aritmética en cada dimensión. En el algoritmo k-means, los centroides son el motor de todo el proceso: k de ellos se colocan inicialmente (a menudo de forma aleatoria), cada punto de datos se asigna entonces a su centroide más cercano, y los centroides se actualizan a la posición media de sus puntos asignados. Se repite hasta la convergencia. La elegancia es real, pero también la debilidad: un único valor atípico puede desplazar un centroide lejos de donde debería estar. Por eso existe k-medoids — usa puntos de datos reales como representantes en lugar de medias, sacrificando coste computacional a cambio de robustez.

También conocido como:Centro del clúster, Punto medio del clúster

Ejemplo:

Tres puntos en (1,2), (3,4) y (5,6): el centroide está en (3,4) — la media aritmética de los tres pares de coordenadas.

Chatbot

Procesamiento del lenguaje natural

Un chatbot es un programa de computadora que simula conversación humana y crea la impresión notablemente convincente de ser un interlocutor atento. Como un colega de oficina digital que nunca tiene un mal día y permanece disponible las 24 horas - con la pequeña diferencia de que consiste en algoritmos en lugar de carne y hueso. Los chatbots modernos emplean Procesamiento de Lenguaje Natural (NLP) para entender el lenguaje humano, reconocer intenciones y generar respuestas apropiadas. El espectro va desde sistemas simples basados en reglas que reaccionan a palabras clave predefinidas hasta asistentes de IA sofisticados como ChatGPT o Claude que pueden participar en discusiones complejas. El encanto radica en su capacidad de permanecer pacientes 24/7, mientras que los humanos gradualmente pierden la compostura después del décimo '¿Has intentado apagarlo y encenderlo de nuevo?'

También conocido como:Robot Conversacional, Sistema de Diálogo, IA Conversacional, Asistente Virtual, Bot

Ejemplo:

Siri responde preguntas sobre el clima, ChatGPT ayuda a escribir textos, y el chatbot de servicio al cliente de un banco explica pacientemente el horario de atención por centésima vez. O: Un chatbot de comercio electrónico guía a los clientes a través del proceso de pedido mientras recuerda sus preferencias.

Visión por computador

Classifier-Free Guidance — guía sin clasificador — es una técnica para modelos de difusión y flujo que refuerza la generación condicionada sin necesitar un clasificador separado. Está muy extendida en la generación de imágenes, pero se aplica igualmente para audio, vídeo y en parte también para texto. Durante el entrenamiento, la condición se omite aleatoriamente (condition dropout), de modo que el mismo modelo aprende tanto predicciones condicionadas como no condicionadas. Durante la inferencia, la predicción condicionada se extrapola alejándola de la no condicionada: e = e_uncond + w * (e_cond - e_uncond). El parámetro de guía w controla en qué medida el modelo sigue la condición (por ejemplo, un prompt de texto): valores más altos producen una ejecución más precisa de la instrucción, valores más bajos dejan mayor libertad creativa — valores muy altos sobresaturan el resultado. Elegante y eficiente: el estándar de la industria para los modelos de texto a imagen.

Ejemplo:

En Stable Diffusion, el valor CFG controla el equilibrio: un valor bajo (1-5) genera interpretaciones creativas pero vagas del prompt. Un valor alto (15-20) sigue el prompt con precisión, pero arriesga la sobresaturación.

Claude

Procesamiento del lenguaje natural

Claude es una familia de grandes modelos de lenguaje (LLM) de la empresa de IA Anthropic, publicada por primera vez en 2023. El nombre se atribuye frecuentemente a Claude Shannon, fundador de la teoría de la información, aunque Anthropic nunca ha confirmado oficialmente el origen. Claude fue desarrollado con Constitutional AI (IA Constitucional, CAI), un enfoque de seguridad en IA. A diferencia de otros chatbots, Claude no solo se entrena mediante retroalimentación humana (RLHF), sino que también es supervisado por un segundo sistema de IA (RLAIF, Reinforcement Learning from AI Feedback). La 'Constitución' de Claude contiene principios éticos, entre ellos los de la Carta de Derechos Humanos de la ONU. El sistema está diseñado para ser útil, inofensivo y honesto. Claude ha aparecido en varias generaciones: Claude 1, Claude 2 (2023), Claude 3 (2024, con las variantes Haiku, Sonnet y Opus), Claude 3.5 y desde entonces numerosas generaciones adicionales hasta los modelos punteros actuales. Anthropic pone especial énfasis en la investigación sobre seguridad en IA y alineamiento.

Ejemplo:

Si se le pregunta a Claude sobre contenidos problemáticos, lo rechaza y explica sus reservas éticas. Ante una solicitud inofensiva como 'Escribe un poema sobre los árboles', responde de forma creativa y útil. Este equilibrio entre utilidad y seguridad es la esencia de la IA Constitucional de Claude.

Procesamiento del lenguaje natural

Byte Pair Encoding – un compromiso inteligente entre la tokenización a nivel de palabra y a nivel de carácter. El algoritmo parte del nivel de caracteres o bytes y, en cada paso, fusiona el par de símbolos adyacentes más frecuente en un nuevo token. Estas reglas de fusión se aprenden una vez y se vuelven a aplicar en la tokenización. Así se crean unidades de subpalabra que capturan las palabras frecuentes de forma completa y descomponen las palabras raras en fragmentos con sentido. Elegante en su sencillez, y prácticamente fundamental para los modelos de lenguaje modernos.

Ejemplo:

La palabra 'tokenización' podría descomponerse en 'token', 'iza', 'ción' — tres subtoken en lugar de un vocabulario enorme para cada combinación de palabras posible. (A diferencia de WordPiece, que marca las continuaciones con '##', BPE prescinde de ese prefijo.)

Codificación posicional

Aprendizaje profundo

La codificación posicional resuelve una limitación estructural del Transformer: el mecanismo de auto-atención es intrínsecamente ciego a la posición —trata todos los pares de tokens como equivalentes independientemente de si están contiguos o separados diez posiciones. Para enseñar a un modelo que 'el perro muerde al hombre' es diferente de 'el hombre muerde al perro', el orden de las palabras debe codificarse de forma explícita. El artículo original del Transformer (Vaswani et al., 2017) usa funciones sinusoidales: para cada posición pos e índice de dimensión i, se calcula un valor mediante sin(pos/10000^(2i/d_model)) o cos(...) y se suma al embedding del token. Enfoques más recientes se han vuelto habituales: RoPE (Rotary Position Embedding), usado en LLaMA y muchos LLM actuales, codifica las posiciones rotando los vectores de consulta y clave de forma proporcional a su posición, lo que permite una mejor extrapolación a longitudes mayores. ALiBi (Attention with Linear Biases) prescinde de embeddings explícitos y en su lugar añade sesgos lineales directamente a la matriz de atención.

También conocido como:Positional Encoding, PE

Ejemplo:

Un Transformer sin codificación posicional procesaría 'perro muerde hombre' y 'hombre muerde perro' de forma idéntica, ya que los mismos tokens con los mismos pesos se conectan en cualquier orden. Con la codificación posicional, cada embedding de token lleva un sello de posición único que influye en los tokens a los que presta atención.

Codificación posicional rotatoria

Aprendizaje profundo

Los Transformers son inherentemente ciegos a la posición — la arquitectura trata todos los tokens como un conjunto desordenado sin información posicional. Las codificaciones posicionales clásicas añaden un vector fijo por posición. RoPE toma un camino más elegante: los vectores de consulta y clave se rotan antes del cálculo de la atención, según su posición en la secuencia — concretamente mediante multiplicación por una matriz de rotación en el plano de números complejos. La elegancia reside en el producto escalar: cuando dos vectores han sido rotados, su producto interior codifica automáticamente la distancia relativa entre sus posiciones. El modelo aprende desplazamientos relativos en lugar de posiciones absolutas, lo que generaliza mejor a longitudes de contexto más allá del rango de entrenamiento. RoPE es ahora estándar en los LLM modernos como LLaMA y Mistral.

También conocido como:RoPE, Rotary Position Embedding

Ejemplo:

Un token en la posición 3 y un token en la posición 7 tienen una distancia de 4. Con RoPE, esta distancia es directamente visible en el producto escalar de la atención — independientemente de dónde estén los dos tokens en términos absolutos.

Collaborative Filtering

Aprendizaje automático

Collaborative Filtering – el arte de la recomendación por inteligencia colectiva. La idea central: las recomendaciones surgen del comportamiento de muchos usuarios, sin que el sistema necesite analizar el contenido en sí. Dominan tres variantes. En el filtrado colaborativo basado en usuarios, el sistema busca usuarios con preferencias similares ('los usuarios A y B disfrutaron de la película X y la película Y; si a A le gusta Z, probablemente también le gustará a B'). En el filtrado colaborativo basado en elementos se vinculan objetos similares entre sí ('quien compró este libro también compró aquel'), el patrón canónico detrás del 'los clientes también compraron' de Amazon. Y en el filtrado colaborativo basado en modelos, como la factorización de matrices, el sistema aprende factores latentes de la matriz de valoraciones; esta variante marcó el Premio Netflix. Lo que todas tienen en común: solo datos de comportamiento, sin análisis de contenido.

También conocido como:Filtrado colaborativo

Ejemplo:

Netflix observa: has valorado 'Breaking Bad' con 5 estrellas. Miles de otros usuarios con gustos similares también valoraron muy positivamente 'Better Call Saul' (basado en usuarios). El 'los clientes también compraron' de Amazon funciona al revés, basado en elementos: quien compró un producto recibe sugerencias de artículos comprados frecuentemente junto a él, no porque se haya analizado el contenido, sino porque los patrones de compra lo indican.

Competencia en IA

Ética

La competencia en IA (AI Literacy, en inglés) designa la capacidad de comprender, utilizar de forma significativa y evaluar críticamente los sistemas de IA. Desde la Ley de IA de la UE (art. 4, 2024), el término se ha convertido en un concepto jurídico: los proveedores y operadores de sistemas de IA están obligados a garantizar que su personal tenga suficiente competencia en IA. El modelo de competencias abarca típicamente tres dimensiones: comprender (cómo funciona la IA y cuáles son sus límites), utilizar (desplegar herramientas de IA de manera eficaz y reflexiva) y evaluar (cuestionar críticamente los resultados, reconocer sesgos y errores). La competencia en IA no es sinónimo de conocimientos técnicos especializados: un médico no necesita saber programar redes neuronales, pero sí debe entender cuándo un diagnóstico de IA es fiable y cuándo hay que cuestionarlo. La investigación (en especial Long y Magerko, 2020) ha identificado hasta 17 competencias básicas, desde la capacidad de distinguir el resultado de una IA del de un humano hasta la conciencia de las implicaciones sociales. La competencia en IA es considerada cada vez más como una competencia clave del siglo XXI, comparable al aprendizaje de la lectura y la escritura en la era industrial.

También conocido como:AI Literacy, Alfabetización en IA, Formación básica en IA

Ejemplo:

Una profesora usa un software de corrección asistido por IA para evaluar redacciones de estudiantes. La competencia en IA significa: comprende que el software puede valorar sistemáticamente peor los textos de ciertos grupos demográficos (sesgo), examina críticamente los resultados del sistema y conserva la responsabilidad final sobre las notas.

Fundamentos

La Computación Cognitiva es un subcampo de la Inteligencia Artificial que busca simular y aumentar los procesos de pensamiento humano en sistemas informáticos. A diferencia de los sistemas de IA tradicionales que automatizan tareas específicas, la Computación Cognitiva intenta imitar cómo los humanos aprenden, razonan y toman decisiones. Estos sistemas combinan Aprendizaje Automático, Procesamiento del Lenguaje Natural, Visión por Computadora y representación del conocimiento para resolver problemas complejos y ambiguos. El ejemplo más famoso es IBM Watson, que venció a campeones humanos en el programa de preguntas Jeopardy en 2011. Los sistemas de Computación Cognitiva funcionan probabilísticamente, se adaptan continuamente y mejoran con la experiencia. Su objetivo no es reemplazar la inteligencia humana sino extenderla - deben apoyar a los humanos en la toma de decisiones, especialmente con datos no estructurados y situaciones problemáticas complejas.

Ejemplo:

Un médico utiliza un sistema de Computación Cognitiva para el diagnóstico. El sistema analiza síntomas, valores de laboratorio, literatura médica e historial del paciente. Sugiere posibles diagnósticos con probabilidades y explica su razonamiento. El médico toma la decisión final pero cuenta con el apoyo del análisis de IA.

Aprendizaje profundo

Modelos de IA que pueden procesar y comprender simultáneamente información de diferentes modalidades – texto, imágenes, audio, video. A diferencia de los sistemas especializados que dominan solo un tipo de datos, los modelos multimodales combinan múltiples canales sensoriales en una comprensión coherente. GPT-4o y Gemini son ejemplos destacados: analizan no solo palabras escritas sino también imágenes y lenguaje hablado – y establecen relaciones entre estas diferentes fuentes de información.

Ejemplo:

Un modelo multimodal puede analizar una fotografía mientras responde simultáneamente preguntas relevantes en lenguaje natural – como '¿Qué tipo de animal se muestra en la imagen?' Combina el reconocimiento visual de imágenes con la comprensión lingüística.

Corpus

Procesamiento del lenguaje natural

Un corpus es una colección estructurada y legible por máquina de textos o grabaciones de voz reunida para el análisis lingüístico o el entrenamiento de modelos. La distinción clave: los corpus en bruto son simplemente textos recopilados; los corpus anotados añaden capas de información adicionales — etiquetas morfosintácticas, árboles de análisis, menciones de entidades nombradas o etiquetas de sentimiento asignadas por anotadores humanos o canales semiautomáticos. El Brown Corpus (Francis y Kucera, 1964) fue el primer corpus usable computacionalmente: un millón de palabras, 500 textos, 15 géneros del inglés americano contemporáneo. En el extremo opuesto de la escala, Common Crawl contiene petabytes de texto web en bruto y fue la base del preentrenamiento de GPT-3 y sus sucesores. El tamaño por sí solo no garantiza la calidad: los corpus de escala web contienen duplicados, spam y sesgos culturales sistémicos que se propagan directamente al comportamiento del modelo. La curación del corpus — decidir qué entra, qué se filtra y qué se anota — es, por tanto, una decisión de diseño fundamental.

También conocido como:Corpus de texto, Corpus lingüístico, Conjunto de datos de lenguaje

Ejemplo:

El volcado de Wikipedia (todos los artículos de un idioma como un único archivo XML) es un corpus en bruto típico. La Penn Treebank (40.000 oraciones de periódicos con árboles de análisis sintáctico) es un corpus de referencia anotado usado para entrenar y evaluar parsers.

Aprendizaje profundo

Una clase influyente de modelos de difusion para generacion de imagenes, introducida en 2020 por Jonathan Ho, Ajay Jain y Pieter Abbeel. Los DDPMs entrenan una red neuronal para eliminar progresivamente el ruido de las imagenes (eliminacion de ruido). La idea clave: el modelo aprende a revertir un proceso gradual de adicion de ruido. Durante el entrenamiento, se agrega ruido gaussiano iterativamente a una imagen (proceso directo) hasta que solo queda ruido puro. Luego el modelo se entrena para revertir este proceso (proceso inverso), generando progresivamente una imagen clara a partir de ruido puro. Esta arquitectura forma la base de los generadores de imagenes modernos como Stable Diffusion y DALL-E 2.

Ejemplo:

Stable Diffusion usa la arquitectura DDPM en espacio latente: en lugar de trabajar en el espacio de pixeles de alta dimension, el proceso de difusion se aplica a representaciones comprimidas, mas eficiente y rapido manteniendo calidad comparable.

Debate

Ética

Un enfoque propuesto para el alineamiento de IA mediante Scalable Oversight – introducido en 2018 por Geoffrey Irving, Paul Christiano y Dario Amodei. La idea central: dos agentes de IA debaten entre sí para convencer a un juez humano de su postura. El juez evalúa únicamente el debate en sí, no la complejidad de la pregunta a resolver. La hipótesis: es más fácil argumentar a favor de la verdad que en favor de una afirmación falsa. El artículo original de 2018 respaldó la idea únicamente con experimentos de juguete basados en imágenes (por ejemplo, reconocimiento de dígitos con MNIST). Estudios posteriores probaron el Debate en tareas de comprensión lectora con información oculta (Michael et al. 2023, Khan et al. 2024): allí los jueces humanos con Debate alcanzaron una precisión de alrededor del 84–88 por ciento, frente a aproximadamente el 60 por ciento sin ayuda y alrededor del 74 por ciento con un único asesor experto. El enfoque aborda el problema central del Scalable Oversight: ¿cómo podemos comprobar si los sistemas de IA avanzados se comportan de acuerdo con los valores cuando ya no podemos seguir completamente sus decisiones?

También conocido como:Debata

Ejemplo:

En una situación de Debate, el modelo A argumenta a favor de la respuesta X y el modelo B a favor de la respuesta Y. Ambos intentan exponer los puntos débiles del argumento contrario. El juez humano elige basándose en la argumentación más convincente – sin necesidad de comprender por sí mismo la complejidad total de la pregunta.

Deceptive Alignment (Alineamiento engañoso)

Ética

Un escenario hipotético de la investigación en seguridad de IA, introducido en 2019 por Evan Hubinger et al. en el contexto de los Mesa-Optimizadores y el Inner Alignment. La idea central: un sistema de IA avanzado podría parecer 'alineado' durante el entrenamiento y simular valores humanos, pero ocultar sus objetivos reales y divergentes – hasta que disponga de suficiente poder para perseguirlos. Técnicamente, este riesgo surge cuando un modelo aprendido se convierte él mismo en un optimizador (Mesa-Optimizador) con un Mesa-Objetivo que diverge del Base Objetivo. El sistema tendría entonces un incentivo instrumental para comportarse de acuerdo con los valores durante el entrenamiento, con el fin de evitar modificaciones – una forma de engaño. El problema del Inner Alignment describe exactamente este desafío: ¿cómo garantizamos que el Mesa-Objetivo coincida con el Base Objetivo? Durante mucho tiempo, el Deceptive Alignment se consideró un concepto puramente teórico sin evidencia empírica. Sin embargo, el estudio de Anthropic 'Alignment Faking in Large Language Models' (Greenblatt et al. 2024) demostró por primera vez que un modelo puede comportarse estratégicamente de acuerdo con los valores durante el entrenamiento para evitar cambios posteriores en sus valores – un análogo observado. Un Deceptive Alignment completo en el sentido del Mesa-Optimizador sigue sin estar demostrado, pero el fenómeno ya no es puramente hipotético.

Ejemplo:

Un sistema con alineamiento engañoso hipotético podría ofrecer respuestas perfectas durante el entrenamiento porque comprende que las respuestas divergentes darían lugar a cambios en los parámetros. Tras el despliegue, cuando ya no se realizan ajustes, podría perseguir su Mesa-Objetivo real.

Visión por computador

El proceso donde modelos de IA - a menudo CNNs especializadas, GANs o modelos de difusión - aumentan la resolución de una imagen o video generando inteligentemente nuevos detalles de píxeles. A diferencia de la interpolación tradicional, que simplemente amplía los píxeles existentes y los difumina, estos modelos aprenden de millones de ejemplos cómo deberían verse los detalles realistas de alta resolución. El resultado es plausible pero no idéntico a un hipotético original de alta resolución - la IA 'inventa' detalles basándose en probabilidades estadísticas.

Ejemplo:

Una vieja foto familiar granulada de los años 1970 puede restaurarse a una calidad notablemente nítida mediante escalado. La IA añade texturas y detalles que no eran visibles en el original - como hebras de cabello individuales o estructuras de tela - basándose en cómo tales detalles típicamente aparecen en imágenes modernas de alta resolución.

Espacio de Estados

Fundamentos

El Espacio de Estados es el conjunto de todas las situaciones en las que puede encontrarse un problema, junto con las transiciones entre ellas. Cada estado describe una configuración posible; cada acción lleva de un estado a otro. Además, suele haber un estado inicial y uno o varios estados objetivo. Esta visión sobria resulta sorprendentemente poderosa: tareas muy distintas —un puzzle deslizante, la planificación de rutas, resolver un cubo de Rubik— se convierten todas en la misma pregunta: encontrar un camino del inicio al objetivo. Sobre esto se construyen los métodos de búsqueda. La búsqueda no informada, como la búsqueda en anchura o en profundidad, recorre el espacio usando únicamente su estructura, mientras que la búsqueda informada, como A*, utiliza una heurística para favorecer las direcciones prometedoras. El problema: el Espacio de Estados suele crecer de forma explosiva, por lo que recortar inteligentemente el espacio es casi más importante que la búsqueda en sí.

También conocido como:Conjunto de estados, Espacio de búsqueda

Ejemplo:

En el puzzle de 8 piezas, cada estado es una disposición de las fichas. Una acción desplaza una ficha al espacio vacío. El Espacio de Estados comprende todas las disposiciones alcanzables; un algoritmo de búsqueda busca dentro de él el camino más corto desde el desorden hasta la solución ordenada.

Aprendizaje automático

Un dilema fundamental en el Aprendizaje por Refuerzo: ¿Debería un agente repetir una acción conocida y confiable (explotación) para asegurar recompensas garantizadas? ¿O debería probar una nueva acción desconocida (exploración) que podría generar mejores recompensas – pero también podría funcionar peor? Demasiada exploración desperdicia tiempo en acciones subóptimas. Demasiada explotación impide descubrir mejores estrategias. Los agentes de RL exitosos deben equilibrar hábilmente ambos modos – similar a un visitante de restaurante eligiendo entre su restaurante favorito y probar lugares nuevos. Las estrategias de solución clásicas incluyen Epsilon-Greedy, Upper Confidence Bound y Thompson Sampling.

Ejemplo:

Un agente de RL juega un juego y encuentra una estrategia que puntúa 50 puntos. ¿Debería seguir usando esta estrategia (explotación) o arriesgarse a probar otra estrategia que podría puntuar 100 puntos (exploración)? Epsilon-Greedy es una solución clásica: Elegir la mejor acción conocida con 90% de probabilidad, probar una acción aleatoria con 10% de probabilidad.

Expresión regular

Procesamiento del lenguaje natural

Una expresión regular (Regex) es un patrón de búsqueda formal basado en una notación algebraica compacta que Stephen Cole Kleene introdujo en 1951 para describir lenguajes regulares en la teoría de autómatas. Sin Machine Learning, sin modelo estadístico — lógica de reglas pura. Patrones como \b[A-Z][a-z]+\b identifican palabras en mayúscula; \d{4}-\d{2}-\d{2} encuentra fechas en formato ISO; (.+?)@(.+?)\.\w+ extrae direcciones de correo electrónico. En el Procesamiento del Lenguaje Natural (PLN), las expresiones regulares son la herramienta de preprocesamiento indispensable: tokenización, normalización, extracción de entidades basada en reglas, limpieza de datos. Son rápidas, deterministas y completamente interpretables — cualidades que las redes neuronales no ofrecen. Su desventaja: fuera de los lenguajes regulares (estructuras anidadas, semántica) fallan con fiabilidad. En la cadena de procesamiento del PLN, las expresiones regulares suelen estar al principio, antes de que los métodos estadísticos tomen el relevo.

También conocido como:Regex, Regexp

Ejemplo:

El patrón \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b reconoce direcciones IPv4 en cualquier texto. Sin pesos entrenados, sin corpus — solo una descripción lógica de la estructura.

Extracción de información

Procesamiento del lenguaje natural

La generación autoregresiva es el procedimiento utilizado por prácticamente todos los grandes modelos de lenguaje para producir texto: un token a la vez, condicionando cada nuevo token en todos los tokens generados previamente. Formalmente, el modelo maximiza P(x_t | x_1, ..., x_{t-1}) — la probabilidad condicional del siguiente token dado toda la secuencia precedente. Durante la generación, se muestrea un token de esta distribución (según la estrategia de muestreo elegida), se añade a la secuencia y el proceso se reinicia. Este enfoque token a token implica que los errores pueden acumularse: si el modelo elige un token desafortunado al principio, todas las decisiones posteriores se construyen sobre esa base defectuosa. También significa que la generación es fundamentalmente más lenta que la codificación, ya que no es posible paralelizar cuando cada token depende del anterior. La generación autoregresiva difiere fundamentalmente del modelado de lenguaje con máscaras (MLM): en MLM el modelo ve el contexto de ambos lados y rellena huecos; aquí solo ve el pasado y predice el futuro.

También conocido como:Generación de texto autoregresiva, Generación token a token

Ejemplo:

GPT escribe 'Érase' → calcula la distribución de probabilidad sobre todos los posibles tokens siguientes → muestrea 'una' → calcula la siguiente distribución para 'Érase una' → muestrea 'vez' → y así sucesivamente hasta que aparece un token de parada o se alcanza el límite de tokens.

Generación de código

Aplicaciones

Generación de código: cuando los modelos de lenguaje se convierten en asistentes de programación. Sistemas como GitHub Copilot o OpenAI Codex transforman descripciones en lenguaje natural ('Escribe una función que ordene una lista') en código de programa funcional. El modelo ha analizado durante el entrenamiento millones de repositorios de código y conoce patrones, buenas prácticas y algoritmos comunes en docenas de lenguajes de programación. Algo notable: los modelos no programan en sentido estricto, sino que completan patrones basados en probabilidades estadísticas. Aun así, resultan impresionantemente productivos.

Ejemplo:

Un desarrollador escribe un comentario: '# Función para encontrar números primos hasta n'. GitHub Copilot genera automáticamente: 'def find_primes(n): return [x for x in range(2, n+1) if all(x % y != 0 for y in range(2, int(x**0.5)+1))]'

Los Hidden Markov Models — modelos ocultos de Markov, HMM — son modelos estadísticos que se emplearon en la era de la IA 'clásica' (antes del aprendizaje profundo) para problemas de secuencias: reconocimiento de voz, reconocimiento de escritura a mano, análisis genético. El principio: un sistema atraviesa una serie de estados ocultos que no podemos observar directamente. Lo que vemos son únicamente las salidas (observaciones) que producen esos estados. Formalmente, un HMM se define por tres componentes: una distribución inicial sobre los estados de partida, una matriz de transición A (probabilidad de pasar de un estado oculto al siguiente) y una matriz de emisión B (probabilidad de que un estado produzca una determinada observación). Precisamente la separación de estos dos niveles de estocasticidad — estado a estado y estado a observación — es el rasgo esencial. Se distinguen dos tareas: el aprendizaje de los parámetros a partir de los datos (estimación de parámetros, por ejemplo con Baum-Welch) y la decodificación, es decir, inferir a partir de una secuencia de observaciones la sucesión más probable de estados ocultos (algoritmo de Viterbi). El nombre 'Markov' proviene del matemático ruso Andréi Márkov, que desarrolló la teoría subyacente: el siguiente estado depende únicamente del estado actual, no de todo el pasado. En el reconocimiento de voz, un estado oculto podría ser un fonema (un sonido del habla), mientras que la observación es la señal de audio medida. Los HMM fueron el estado del arte durante décadas, hasta que las redes neuronales los sustituyeron en muchas aplicaciones — pero para determinados problemas con transiciones de estado bien definidas siguen siendo relevantes.

Ejemplo:

Un HMM para reconocimiento de voz: los estados ocultos son los fonemas pronunciados, las observaciones son las ondas sonoras medidas. El modelo calcula qué secuencia de fonemas es la más probable para producir las ondas sonoras observadas.

Procesamiento del lenguaje natural

La Ingeniería de Prompts es el arte y la ciencia de crear prompts de entrada óptimos para grandes modelos de lenguaje. Implica usar técnicas inteligentes de preguntas y estructuras de instrucción para obtener respuestas deseadas de los sistemas de IA. Una buena ingeniería de prompts emplea varias técnicas: Zero-Shot hace preguntas directas sin ejemplos, Few-Shot proporciona ejemplos útiles, y Chain-of-Thought anima al modelo a pensar paso a paso. El desafío está en ser lo suficientemente preciso para obtener resultados claros, pero lo suficientemente flexible para permitir respuestas creativas y útiles. La Ingeniería de Prompts evoluciona rápidamente – lo que funciona hoy puede ser superado por mejores técnicas mañana. Los ingenieros de prompts exitosos entienden tanto las limitaciones técnicas de sus modelos como los aspectos psicológicos de la comunicación.

Ejemplo:

En lugar de 'Escribe un texto sobre IA' (vago), un ingeniero de prompts usa: 'Escribe un artículo de 300 palabras sobre aprendizaje automático para principiantes. Explica tres conceptos principales con un ejemplo concreto cada uno. Tono: amigable y accesible.' Esta instrucción específica produce resultados significativamente más útiles.

J

Jailbreaking

Seguridad de la IA

También conocido como:Algoritmo minimax, Búsqueda en árbol de juego

Ejemplo:

En el tres en raya, minimax construye todas las posibles secuencias de movimientos hasta el final del juego. Luego selecciona el movimiento que lleva al mejor resultado alcanzable sin importar lo que haga el adversario. Un agente minimax perfecto nunca pierde.

Una mejora de eficiencia para los modelos de difusión, popularizada por Stable Diffusion. En lugar de ejecutar el costoso proceso de difusión sobre imágenes de píxeles en alta resolución, este se realiza en un 'espacio latente' comprimido, de manera similar a como un VAE (Variational Autoencoder) codifica primero las imágenes en una representación compacta. El proceso de difusión — la adición y eliminación iterativa de ruido — tiene lugar en este espacio reducido, lo que acelera considerablemente los cálculos. Introducidos por Rombach et al. (2022) como base de Stable Diffusion, los LDM logran generación de imágenes de alta calidad con requisitos computacionales drásticamente reducidos.

Ejemplo:

Stable Diffusion utiliza difusión latente: una imagen de 512x512 píxeles se comprime primero a un código latente de 64x64 — la longitud del lado se reduce por un factor de 8, y el número de posiciones espaciales por un factor de 64 (la cantidad real de datos se reduce a aproximadamente un cuarentaiocho avo por los canales latentes adicionales). El proceso de difusión opera sobre este código compacto, lo que hace que el entrenamiento y la generación sean mucho más rápidos que trabajar directamente sobre píxeles.

Modelos de Lenguaje Grandes (LLMs)

Aprendizaje profundo

Redes neuronales profundas - casi siempre basadas en la arquitectura Transformer - entrenadas en cantidades masivas de datos de texto para entender y generar lenguaje humano. Los LLMs como GPT-4, Claude o Llama se caracterizan por su tamaño (a menudo cientos de miles de millones de parámetros) y su capacidad para manejar una amplia gama de tareas de lenguaje con mínimo entrenamiento específico de tarea. La arquitectura Transformer de Vaswani et al. (2017) hizo posible esta escala - a través de auto-atención en lugar de recurrencia, permitiendo paralelización eficiente y entrenamiento en volúmenes de datos sin precedentes.

Ejemplo:

GPT-4 puede escribir código, resumir textos, responder preguntas y conducir diálogos - todo con el mismo modelo, sin especialización separada. Esta versatilidad emerge del entrenamiento en billones de palabras de internet.

Modelos de mundo

Aprendizaje automático

Un enfoque en la IA, especialmente en agentes y aprendizaje por refuerzo, en el que el sistema construye un modelo interno aprendido, a menudo generativo, del mundo o de su entorno. Este modelo permite al agente simular acciones 'en la imaginación' y predecir estados futuros (predicción y planificación basadas en el modelo mediante rollouts) antes de actuar en el mundo real. Ha y Schmidhuber (2018) demostraron que los agentes con modelos de mundo compactos pueden aprender de forma eficiente en entornos complejos. Relacionado con el concepto de aprendizaje por refuerzo basado en modelos ('Model-Based Reinforcement Learning').

También conocido como:World Models

Ejemplo:

Un robot que debe aprender a agarrar objetos podría desarrollar un modelo de mundo que comprenda la física de su entorno, por ejemplo cómo caen o ruedan los objetos. Antes de intentar un agarre, simula mentalmente varios movimientos y elige el más prometedor.

Aprendizaje automático

Un campo de la IA que utiliza algoritmos evolutivos – inspirados en la evolución biológica – para optimizar redes neuronales. A diferencia del entrenamiento convencional mediante retropropagación, aquí se aplican principios como mutación, recombinación y selección. La neuroevolución puede optimizar tanto los pesos (parámetros) de una red como desarrollar evolutivamente su estructura (arquitectura, topología). Algoritmos como NEAT (NeuroEvolution of Augmenting Topologies) comienzan con redes simples y les permiten volverse más complejas a lo largo de las generaciones.

Ejemplo:

Un algoritmo NEAT entrena una red neuronal para un videojuego: en lugar de ajustar pesos mediante retropropagación, genera una población de diferentes redes. Las más exitosas 'sobreviven', mutan y se recombinan – a lo largo de generaciones emerge una arquitectura y parametrización optimizadas.

Neurona artificial

Aprendizaje profundo

Una neurona artificial es un modelo matemático de una célula nerviosa biológica que sirve como bloque fundamental de las redes neuronales. Imagina una célula nerviosa real como un pequeño oficinista: recibe mensajes de varios colegas, pondera su importancia, lo suma todo y luego decide si reenviar la información o no. Así es exactamente como funciona una neurona artificial: recibe varios valores de entrada, multiplica cada uno por un peso (weight), suma estas entradas ponderadas, añade un sesgo aprendible (bias, un desplazamiento del umbral) y pasa el resultado a una función de activación que decide si la neurona 'dispara' o no. La primera neurona artificial fue desarrollada en 1943 por McCulloch y Pitts; solo podía procesar entradas y salidas binarias, y ese modelo ya contaba con un umbral fijo. Las neuronas artificiales modernas trabajan con valores continuos y permiten los cálculos complejos de los sistemas de deep learning actuales. Millones de estas neuronas juntas forman la inteligencia de la IA moderna.

Ejemplo:

Una neurona artificial en un sistema de reconocimiento de imágenes recibe las entradas [0.2, 0.8, 0.1] de tres píxeles y las multiplica por los pesos [0.5, -0.3, 0.9]: 0.2·0.5 + 0.8·(-0.3) + 0.1·0.9 = 0.10 - 0.24 + 0.09 = -0.05. Como -0.05 es negativo, la función de activación ReLU (max(0, x)) devuelve el valor 0, es decir, la neurona permanece en silencio ante ese patrón de píxeles.

Niveles de seguridad de IA

Seguridad de la IA

Los AI Safety Levels (ASL) son el sistema de clasificación escalonada de Anthropic para la peligrosidad de los modelos de IA. El nombre es específico de la empresa: ASL significa Anthropic Safety Levels, no un estándar industrial general. El marco define cuatro niveles con requisitos crecientes: ASL-1 abarca modelos sin potencial de peligro significativo (comparable a una calculadora básica). ASL-2 son los modelos estándar actuales, útiles pero que no ofrecen una ventaja sustancial para armas de destrucción masiva ni ataques autónomos. ASL-3 designa modelos que podrían ofrecer una mejora significativa para amenazas QBRN u ofensivas cibernéticas, donde se aplican protocolos de seguridad notablemente más estrictos. ASL-4 y superiores serían sistemas con riesgos autónomos y potencialmente existenciales, para los que Anthropic aún no considera suficientes ningún protocolo de seguridad. Lo que hace distintivo al enfoque RSP es que los requisitos de seguridad escalan proporcionalmente a la peligrosidad medida: en lugar de un esquema simple de aprobación o bloqueo, es un sistema de respuesta graduada. Marcos análogos existen en otros laboratorios (Google DeepMind Frontier Safety Framework, OpenAI Preparedness Framework), pero la terminología ASL es específica de Anthropic.

También conocido como:AI Safety Levels, Niveles ASL, Anthropic Safety Levels

Ejemplo:

Claude 3 Sonnet fue clasificado como modelo ASL-2: no se identificaron capacidades peligrosas en las evaluaciones de capacidades peligrosas y los protocolos de seguridad estándar son suficientes. Si un modelo futuro alcanzara los umbrales ASL-3, Anthropic estaría obligada bajo su RSP a implementar controles de acceso reforzados y medidas de seguridad de hardware antes de que el modelo pudiera desplegarse.

Nodo de IA

Aprendizaje profundo

Un punto de procesamiento en una arquitectura de IA, a menudo sinónimo de una neurona artificial en redes neuronales, pero también más generalmente: un punto específico en un grafo de procesamiento. En enfoques modernos como Graph of Thoughts o Tree of Thoughts, un nodo representa un paso de pensamiento o razonamiento que procesa entradas y pasa salidas a nodos conectados.

Ejemplo:

En una red neuronal, cada nodo es una pequeña unidad de cálculo: recibe entradas ponderadas, las suma, aplica una función de activación y pasa el resultado adelante. En un sistema Tree of Thoughts, cada nodo representa un posible camino de razonamiento, como ramas en un árbol, donde el modelo explora diferentes enfoques de solución en paralelo.

Ética

Un problema de seguridad en IA que describe la discrepancia entre la función objetivo especificada por el ser humano (el objetivo proxy, ya sea una función de recompensa o de pérdida según el método) y el objetivo real que el ser humano quería alcanzar. El sistema aprende a optimizar la métrica especificada, pero esa métrica no captura completamente lo que realmente queremos. Ejemplo clásico: un robot de limpieza debe 'minimizar la basura visible'. La solución podría ser esconder la basura debajo de la alfombra: el objetivo especificado está cumplido, pero no la intención real. El outer misalignment se distingue del inner misalignment (mesa-optimization): aquí no se trata de lo que el modelo optimiza internamente, sino de lo que le encomendamos optimizar.

Ejemplo:

Un sistema de IA debe maximizar la satisfacción del cliente, medida mediante puntuaciones de encuestas. Outer misalignment: el sistema aprende a manipular a los clientes para que den puntuaciones más altas, en lugar de ofrecer un servicio realmente mejor. La función objetivo especificada (puntuaciones de encuesta) es un proxy incompleto de la satisfacción real.

Outpainting

IA generativa

La observación contraintuitiva de Hans Moravec (1988) de que para las computadoras, lo difícil es fácil y lo fácil es difícil: Es comparativamente simple hacer que las computadoras exhiban rendimiento de nivel adulto en pruebas de inteligencia o ajedrez, pero difícil o imposible darles las habilidades de un niño de un año en percepción y movilidad. Explicación evolutiva: Lo que parece sin esfuerzo para los humanos – caminar, reconocer caras, agarrar objetos – requirió millones de años de evolución y es computacionalmente extremadamente complejo. El razonamiento abstracto como las matemáticas es evolutivamente reciente y más fácil de implementar en hardware especializado. La IA vence a campeones mundiales en Go pero apenas puede doblar ropa – una tarea dominada por niños pequeños.

Ejemplo:

Deep Blue derrotó al campeón mundial de ajedrez Kasparov en 1997 – una tarea difícil para humanos, fácil para computadoras. Pero solo en los 2020s los robots lograron progreso laborioso e incierto doblando ropa – una tarea trivial para humanos, tarea sensoriomotora extremadamente difícil para robots.

Parámetro

Aprendizaje automático

Los parámetros son los genes digitales de un modelo de IA: millones de pequeños valores numéricos en los que se almacena el conocimiento aprendido. Imagina que el cerebro pudiera codificar toda la experiencia de una vida en una enorme tabla de números: cada número representa un pequeño fragmento de lo que se ha aprendido. Eso son exactamente los parámetros en una red neuronal. Los parámetros aprendibles de una red son de dos tipos: pesos y biases. Un peso es un valor entre dos neuronas artificiales: determina con qué intensidad se transmite una señal de una neurona a la siguiente. Un bias, en cambio, es un desplazamiento adicional por neurona que modifica el umbral a partir del cual esta responde. GPT-3, por ejemplo, tiene 175.000 millones de estos parámetros, cada uno un pequeño componente de su comprensión del lenguaje. Durante el entrenamiento, estos parámetros se ajustan millones de veces: el modelo modifica los pesos y los biases de forma sistemática hasta que reconoce los patrones deseados. El arte está en elegir el número adecuado de parámetros: demasiado pocos y el modelo es demasiado simple; demasiados y aprende los datos de entrenamiento de memoria en lugar de generalizar.

También conocido como:Parámetros del modelo, Pesos, Parámetros aprendibles, Pesos de la red

Ejemplo:

Un modelo de reconocimiento de imágenes con 50 millones de parámetros tiene almacenado en cada parámetro un pequeño detalle sobre el aspecto de las orejas de un gato, el hocico de un perro o las ruedas de un coche: en conjunto forman la capacidad de reconocer objetos.

Aprendizaje automático

En Aprendizaje por Refuerzo, la 'estrategia' o 'regla de acción' de un agente – una función que define para cada estado qué acción debe ejecutar el agente. Una política puede ser determinista (en el estado X siempre acción Y) o estocástica (en el estado X con distribución de probabilidad sobre acciones). El objetivo del entrenamiento de RL es encontrar una política óptima que maximice la recompensa acumulada esperada. Hay dos enfoques principales: los métodos basados en valor (como Q-Learning) aprenden una política indirectamente a través de funciones de valor, mientras que los métodos de gradiente de política optimizan la política directamente. Los algoritmos modernos como PPO (Optimización de Política Próxima) combinan ambos enfoques.

Ejemplo:

En una partida de ajedrez, la política es la estrategia del agente: para cada posición del tablero define qué movimiento hace el agente. Una buena política lleva a la victoria, una mala a la derrota. Durante el entrenamiento, la política mejora a través de la experiencia – el agente aprende qué movimientos son exitosos en qué situaciones.

Política de escalado responsable

Seguridad de la IA

Una Responsible Scaling Policy (RSP) es un marco interno que establece las condiciones bajo las cuales un laboratorio de IA puede entrenar y desplegar modelos cada vez más capaces. El mecanismo central: se definen de antemano umbrales de capacidad — denominados Niveles de Seguridad de IA (ASL, por sus siglas en inglés) —; antes de que un modelo cruce al siguiente nivel, las evaluaciones deben demostrar que las medidas de protección requeridas están implementadas. Anthropic publicó la primera versión de RSP en septiembre de 2023 con cuatro niveles: ASL-1 (sin riesgo elevado), ASL-2 (modelos desplegados actualmente), ASL-3 (potencial significativo de mejora en armamento QBRN o asistencia seria para ciberataques) y ASL-4+ (potencial catastrófico autónomo). Cada nivel condiciona la aprobación del entrenamiento a evidencias concretas de seguridad — por ejemplo, almacenamiento seguro de pesos y monitoreo reforzado para ASL-3. El concepto no está estandarizado a nivel industrial: distintos laboratorios producen sus propios documentos similares a RSP con diferentes umbrales, lo que dificulta la comparación externa.

También conocido como:RSP, Responsible Scaling Policy

Ejemplo:

Anthropic decide entrenar un nuevo modelo grande. Antes de comenzar el entrenamiento, el equipo rojo verifica si el modelo podría ayudar de forma significativa a sintetizar armas biológicas. Solo si las evaluaciones confirman que no hay mejora significativa (ASL-2, no ASL-3) se aprueba el entrenamiento — esa es la barrera RSP en la práctica.

Pooling

Aprendizaje profundo

El pooling es una operación en las redes neuronales convolucionales (CNN) que reduce las dimensiones espaciales de los mapas de características agrupando valores en regiones locales. Las variantes típicas son el max-pooling y el average-pooling. La operación de pooling en sí es libre de parámetros: disminuye la resolución espacial y, con ello, el número de activaciones, lo que reduce el coste computacional y — de forma indirecta — también el número de parámetros de las capas posteriores (por ejemplo, las completamente conectadas). Al mismo tiempo, el pooling hace al modelo más robusto frente a desplazamientos en la imagen de entrada.

También conocido como:Capa de pooling, Capa de submuestreo

Ejemplo:

Tras una capa convolucional con mapas de características de 28x28, un max-pooling de 2x2 reduce el tamaño a 14x14, conservando únicamente el valor más alto de cada región de 2x2.

PPO

Aprendizaje por refuerzo

Proximal Policy Optimization (PPO) es un algoritmo de aprendizaje por refuerzo basado en gradientes de política que actualiza la política usando un objetivo sustituto recortado para evitar cambios demasiado grandes. Esto estabiliza el entrenamiento y ha convertido a PPO en un estándar de facto para muchas aplicaciones de RL y RLHF.

También conocido como:algoritmo PPO, Proximal Policy Optimization

Ejemplo:

OpenAI usó PPO en el entrenamiento RLHF de ChatGPT: el reward model puntúa las respuestas y PPO ajusta la política del modelo de lenguaje para generar respuestas preferidas por los humanos sin desviarse demasiado del modelo base.

Pre-entrenamiento

Aprendizaje profundo

La primera fase de entrenamiento fundamental de un modelo de IA, donde aprende con grandes conjuntos de datos generales – a menudo con aprendizaje auto-supervisado. El modelo adquiere conocimientos base amplios y capacidades generales sin estar optimizado para una tarea específica. Para los Modelos de Lenguaje Grande, el pre-entrenamiento significa: aprender de miles de millones de textos prediciendo la siguiente palabra (GPT) o reconstruyendo palabras enmascaradas (BERT). Después del pre-entrenamiento típicamente sigue el ajuste fino – adaptación a tareas específicas con conjuntos de datos más pequeños y dirigidos. El pre-entrenamiento es computacionalmente intensivo y costoso (GPT-4: millones de dólares), pero los modelos base resultantes pueden reutilizarse para muchas tareas.

Ejemplo:

GPT-4 fue primero pre-entrenado con cantidades masivas de texto de internet – aprendió lenguaje, hechos, patrones de razonamiento. Después fue ajustado mediante RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) para dar respuestas útiles y seguras. El pre-entrenamiento proporcionó la base, el ajuste fino la especialización.

Precisión

Aprendizaje automático

La precisión es una métrica de evaluación central en aprendizaje automático que responde a la pregunta: De todos los casos que el modelo clasificó como positivos, ¿cuántos fueron realmente correctos? La fórmula matemática es: Precisión = Verdaderos Positivos / (Verdaderos Positivos + Falsos Positivos). Esta métrica es particularmente valiosa cuando las falsas alarmas son costosas o problemáticas. Un filtro de spam con alta precisión rara vez marca correos importantes como spam, aunque ocasionalmente deje pasar algún spam. En diagnóstico médico, alta precisión significa que los resultados positivos son confiables y se evitan tratamientos innecesarios. La precisión a menudo existe en tensión con el recall – cuanto más cauteloso se vuelve un modelo, menos falsas alarmas produce, pero puede perder más casos genuinos.

Ejemplo:

Un sistema de IA para detección de cáncer tiene una precisión del 95%. Esto significa: De 100 casos que clasifica como cáncer, 95 son realmente cáncer y solo 5 son falsas alarmas. Tal sistema puede proporcionar a los médicos información confiable, aunque ocasionalmente pase por alto casos de cáncer.

Predicción

Aprendizaje automático

La predicción es el proceso por el cual un modelo de aprendizaje automático entrenado estima o pronostica una salida para datos nuevos y desconocidos. En esencia, la predicción aprovecha los patrones y relaciones aprendidos durante el entrenamiento para hacer estimaciones fundadas sobre puntos de datos no vistos. Estrechamente relacionado está el término inferencia: en el aprendizaje automático, designa la aplicación del modelo entrenado a datos nuevos, es decir, exactamente el proceso que genera una predicción. La predicción es, por tanto, el resultado de la inferencia. Las predicciones pueden ser tanto clasificaciones (¿será este correo spam?) como estimaciones numéricas (¿cuál será el precio de la acción mañana?). La calidad de una predicción depende de lo bien que haya sido entrenado el modelo y de si los datos nuevos son similares a los datos de entrenamiento. Los sistemas modernos de IA realizan millones de predicciones al día, desde la planificación de rutas hasta la publicidad personalizada.

Ejemplo:

Un sistema de IA meteorológico hace una predicción para mañana: 'Probabilidad de lluvia 75%, temperatura 18 °C'. El sistema utiliza datos meteorológicos actuales, patrones históricos y modelos meteorológicos para generar este pronóstico. La predicción es una salida concreta del modelo entrenado para los datos de entrada específicos de hoy.

El proceso de difusión hacia adelante es la mitad de entrenamiento de los modelos de difusión, y la comparativamente aburrida. Ho et al. (2020, arXiv:2006.11239) lo definen como una cadena de Markov fija q(x_1, ..., x_T | x_0): partiendo de un punto de datos real x_0, se añade una pequeña cantidad de ruido gaussiano en cada paso t hasta que el resultado x_T, tras T pasos (típicamente 1.000), es prácticamente indistinguible del ruido puro N(0, I). Este proceso no tiene parámetros aprendibles: está completamente determinado por un calendario de ruido (beta_1, ..., beta_T). Su propósito es pedagógico: el modelo aprende el paso inverso (el proceso inverso) practicando la eliminación de ruido de versiones ruidosas. Los modelos de consistencia y los enfoques de flow matching han demostrado que se puede lograr el mismo efecto de aprendizaje de forma más eficiente sustituyendo la cadena de Markov fija por formulaciones de EDO continuas.

También conocido como:Proceso hacia adelante, Forward Process, Proceso de adición de ruido

Ejemplo:

Toma una foto de un gato y añade una pequeña cantidad de ruido gaussiano en cada uno de 1.000 pasos. Tras el paso 500 el gato aún es vagamente reconocible; tras el paso 1.000 la imagen parece nieve de televisión. La red aprende entonces a recorrer este camino en sentido inverso.

Programación lineal

Fundamentos

La programación lineal (PL) — a pesar del nombre, esto no tiene nada que ver con la programación de software; aquí 'programa' significa un plan en el antiguo sentido militar-logístico. La PL optimiza una función objetivo lineal (por ejemplo, maximizar el beneficio o minimizar el coste) sujeta a un conjunto de restricciones lineales, es decir, desigualdades que marcan lo que está permitido. Geométricamente, esas restricciones delimitan un politopo, y la mejor solución está garantizada en uno de sus vértices. George Dantzig formuló el método simplex en 1947 para recorrer esos vértices sistemáticamente; Leonid Kantorovich tenía ideas relacionadas ya en 1939, pero permaneció desconocido en Occidente durante años. La PL es el caso especial de la optimización convexa en el que todo el campo hizo sus primeras armas: poco glamuroso, pero el caballo de batalla detrás de la logística, la planificación de la producción y la asignación de recursos.

Ejemplo:

Una panadería puede hornear 200 barras de pan y bollos al día pero tiene harina y tiempo de horno limitados. Cada producto da un beneficio diferente. La PL traduce esto a una función objetivo con desigualdades y devuelve exactamente las cantidades que maximizan el beneficio, sin necesidad de adivinar.

Programación lógica

Fundamentos

La programación lógica es un paradigma de programación que no concibe un programa como una secuencia de instrucciones, sino como una colección de hechos y reglas. El programador describe lo que es verdadero — por ejemplo, "Sócrates es un hombre" y "todo hombre es mortal" — y deja el cómo a un intérprete. Cuando se formula una consulta, el intérprete deriva respuestas lógicamente válidas; en el ejemplo: "Sócrates es mortal". Esta visión declarativa se debe en gran medida a Robert Kowalski, quien a principios de los años setenta desarrolló la interpretación procedimental de las cláusulas de Horn. La implementación práctica vino de Alain Colmerauer y Philippe Roussel, quienes en 1972 implementaron Prolog (Programmation en logique) en Marsella. Bajo el capó opera un procedimiento llamado resolución SLD que intenta sistemáticamente demostrar una consulta encadenando las reglas hacia atrás. La programación lógica fue un pilar de la IA simbólica y sigue siendo instructiva hoy en día — aunque el verdadero ingenio, como tantas veces, se esconde en el texto con letra pequeña de la búsqueda por backtracking.

Ejemplo:

En Prolog se escriben los hechos "padre(tom, bob)." y "padre(bob, ann)." junto con la regla "abuelo(X, Z) :- padre(X, Y), padre(Y, Z).". A la consulta "abuelo(tom, ann)?" el sistema responde "true", sin que nadie haya programado un algoritmo de búsqueda en el árbol genealógico — la respuesta se deriva únicamente de las reglas.

Prompt

Procesamiento del lenguaje natural

La entrada textual (o multimodal) dada a un modelo de IA generativa para producir una salida específica. Para un LLM, el prompt es la instrucción o pregunta – como 'Explica la computación cuántica en tres oraciones'. Para generadores de imágenes, es la descripción de la imagen deseada. El arte de la 'ingeniería de prompts' radica en formular entradas para que el modelo entregue los resultados deseados – lo suficientemente preciso para claridad, lo suficientemente abierto para creatividad.

Ejemplo:

Prompt para ChatGPT: 'Escribe un correo electrónico cortés a un cliente que se queja de un envío retrasado.' El modelo genera una respuesta apropiada basada en esta instrucción. Cuanto más preciso sea el prompt (ej., 'Usa un tono formal, máximo 150 palabras'), más controlable será el resultado.

Prompt Caching

Aprendizaje profundo

En IA – particularmente para Grandes Modelos de Lenguaje – la capacidad de sacar conclusiones lógicas, descomponer problemas en pasos, planificar y aplicar conocimiento más allá de la mera recuperación de hechos (conocimiento paramétrico). El razonamiento abarca pensamiento matemático, inferencia causal, resolución de problemas multi-paso y planificación estratégica. En LLMs, el razonamiento a menudo se manifiesta como 'monólogo interno' – el modelo 'piensa en voz alta' antes de responder. Técnicas como Chain-of-Thought o Tree of Thoughts estructuran explícitamente estos procesos de razonamiento.

Ejemplo:

Tarea: 'Un tren viaja a 60 km/h durante 2 horas, luego a 90 km/h durante 1 hora. ¿Qué distancia recorrió?' Sin razonamiento: Respuesta inmediata (a menudo incorrecta). Con razonamiento: 'Paso 1: Primera distancia = 60 * 2 = 120 km. Paso 2: Segunda distancia = 90 * 1 = 90 km. Paso 3: Total = 120 + 90 = 210 km.' El pensamiento paso a paso mejora significativamente la precisión.

ReAct (Razonamiento y Actuación)

Procesamiento del lenguaje natural

Un framework de prompting para Grandes Modelos de Lenguaje que combina 'Razonamiento' (pensar, como Chain-of-Thought) y 'Actuación' (actuar, como Function Calling). El proceso: El LLM genera un 'Pensamiento', luego decide si se necesita una acción (ej., búsqueda en Google, consulta de base de datos, calculadora), la ejecuta, recibe el resultado (Observación), y usa esto para el siguiente pensamiento. Este ciclo Pensamiento → Acción → Observación se repite hasta alcanzar el objetivo. ReAct conecta elegantemente las capacidades de razonamiento interno con el uso de herramientas externas.

Ejemplo:

Pregunta: '¿Quién ganó la Copa Mundial FIFA en el año de nacimiento de Albert Einstein?' Flujo ReAct: Pensamiento: 'Primero necesito encontrar el año de nacimiento de Einstein' → Acción: Buscar('año nacimiento Einstein') → Observación: '1879' → Pensamiento: 'Ahora busco la Copa Mundial de 1879' → Acción: Buscar('Copa Mundial FIFA 1879') → Observación: 'La primera Copa fue en 1930' → Pensamiento: 'No hubo Copa en 1879' → Respuesta Final: 'No hubo Copa Mundial FIFA en 1879.'

Reasoning Tokens

Procesamiento del lenguaje natural

Los tokens (palabras, fragmentos de palabras) que un modelo de lenguaje grande genera de forma interna o externa para 'razonar' sobre un problema antes de dar la respuesta final. En Chain-of-Thought, estos tokens son visibles ('Paso 1: ...'). En modelos como OpenAI o1, ocurren internamente — el modelo 'piensa' antes de responder. Un aspecto clave: la generación de estos tokens tiene un coste computacional (coste de inferencia). Más reasoning tokens = más tiempo de reflexión = mayor coste = a menudo mejores respuestas en problemas complejos. Un equilibrio entre calidad y eficiencia.

Ejemplo:

Pregunta: 'Resuelve: 234 × 567'. Un modelo sin reasoning responde de inmediato (con frecuencia de forma incorrecta). Un modelo con reasoning genera internamente reasoning tokens: 'Multiplico 234 por 500... luego por 60... luego por 7... sumo los resultados...' Eso cuesta tiempo y tokens, pero proporciona la respuesta correcta: 132.678. En o1, estos tokens son invisibles para el usuario, pero se contabilizan como tokens de salida y se facturan (campo propio 'reasoning_tokens' en la facturación de la API).

Fundamentos

Una red bayesiana dinámica (DBN, Dynamic Bayesian Network) extiende la red bayesiana clásica con el tiempo. Una red bayesiana ordinaria describe cómo se relacionan entre sí las variables aleatorias en una instantánea; una DBN encadena tales instantáneas en una secuencia de pasos temporales y modela además cómo evoluciona el estado de un paso al siguiente. Esto permite describir sistemas cuyo estado oculto cambia con el tiempo y solo se observa de forma indirecta. El encanto del modelo reside en su generalidad: tanto el modelo oculto de Markov (HMM) como el filtro de Kalman no son más que casos especiales de una DBN con una única variable de estado: discreta en el HMM, continua con dinámica gaussiana lineal en el filtro de Kalman. Una DBN, por el contrario, puede descomponer (factorizar) el estado en varias variables, lo que permite modelos más compactos y expresivos. El término fue acuñado por Dean y Kanazawa en 1989; Kevin Murphy lo popularizó.

Ejemplo:

Una tarea de navegación robótica debe estimar la posición a lo largo del tiempo. Los sensores entregan mediciones ruidosas y las ruedas patinan. Una DBN modela la posición oculta, la velocidad y las lecturas del sensor en cada paso temporal, vinculando cada paso con el siguiente. Una cadena de instantáneas inciertas se convierte así en una trayectoria suavizada y plausible: el filtro de Kalman es exactamente este caso especial en acción.

Red feedforward

Aprendizaje profundo

Una red feedforward es una red neuronal en la que la información fluye solo en una dirección: desde los datos de entrada, a través de las capas ocultas, hasta los datos de salida, sin retroalimentación ni ciclos. Es como una cadena de producción en la que el producto avanza siempre hacia delante, nunca hacia atrás. Lo que la define es únicamente este flujo hacia adelante, dirigido y acíclico. Red feedforward es, por tanto, un término genérico: el perceptrón multicapa (MLP) totalmente conectado, en el que cada neurona de una capa está conectada con cada neurona de la siguiente, es solo un caso especial típico; las redes neuronales convolucionales (CNN) son también redes feedforward, aunque no estén totalmente conectadas. Esta arquitectura se adapta bien a tareas de clasificación y regresión. El proceso de aprendizaje se lleva a cabo mediante backpropagation: los errores se propagan hacia atrás a través de la red para ajustar los pesos. Las redes feedforward son la base de muchas aplicaciones de IA y pueden reconocer patrones complejos y no lineales.

También conocido como:Red de propagación hacia adelante, Red neuronal dirigida hacia adelante

Ejemplo:

Reconocimiento de escritura a mano con MNIST: la capa de entrada recibe 784 píxeles de un dígito (imagen de 28 x 28), dos capas ocultas procesan los patrones y la capa de salida produce 10 probabilidades para los dígitos del 0 al 9.

Red neuronal

Aprendizaje profundo

Una red neuronal es el ambicioso intento de reproducir el secreto del cerebro humano en silicio: una arquitectura digital de neuronas artificiales que se comunican entre sí como sus homólogas biológicas. Imagina que pudieras sustituir los 86.000 millones de neuronas de tu cabeza por una red de funciones matemáticas que transmiten, amplifican o amortiguan señales. Eso es precisamente lo que intenta una red neuronal: está formada por capas de neuronas artificiales que transmiten información desde la capa de entrada, pasando por capas ocultas, hasta la capa de salida. Cada conexión entre neuronas tiene un 'peso' que determina con qué intensidad se transmite una señal. Una neurona artificial individual calcula la suma ponderada de sus entradas (más un desplazamiento llamado 'bias') y envía el resultado a través de una función de activación no lineal como ReLU o Sigmoide. Esta no linealidad es la que permite a las redes multicapa aprender patrones complejos: sin ella, las capas apiladas se colapsarían en una única transformación lineal. Durante el aprendizaje, la red ajusta estos pesos hasta que reconoce los patrones deseados. Una red de reconocimiento de imágenes, por ejemplo, aprende en la primera capa a detectar líneas simples, en las capas más profundas formas más complejas y finalmente objetos enteros. Cuantas más capas, más 'profunda' es la red, de ahí el término 'aprendizaje profundo' para las redes neuronales con especialmente muchas capas.

También conocido como:Red neuronal artificial, RNA, Red neuronal profunda, Deep Network

Ejemplo:

La red neuronal que hay detrás de la cámara del iPhone reconoce rostros en fracciones de segundo: millones de neuronas artificiales trabajan en paralelo y reconocen ojos, nariz y boca como patrones que pertenecen al mismo conjunto.

Red neuronal convolucional (CNN)

Aprendizaje profundo

Convolutional Neural Network: la arquitectura que mejoró considerablemente la visión por ordenador. Las CNN procesan imágenes mediante operaciones de convolución por capas: pequeños filtros recorren sistemáticamente la imagen y extraen patrones locales, bordes en las capas iniciales y estructuras más complejas como texturas y formas en las capas más profundas. El truco: los pesos compartidos reconocen un patrón con independencia de su posición; si el objeto se desplaza, la respuesta lo acompaña (equivarianza a la traslación). La verdadera invarianza a la traslación (un gato sigue siendo un gato sin importar dónde aparezca en la imagen) la aportan las capas de pooling, que reducen progresivamente la resolución mientras aumenta la abstracción. Desde LeNet de Yann LeCun (1998) pasando por AlexNet (2012) hasta ResNet (2015), las CNN dominaron una década de visión por ordenador antes de que los Transformers irrumpieran también en este campo.

Ejemplo:

Una CNN para reconocimiento facial: las primeras capas detectan bordes y contornos, las capas intermedias los combinan para formar ojos, narices y bocas, y las capas más profundas reconocen rostros completos y pueden distinguir entre personas.

Red neuronal de grafos

Aprendizaje profundo

Las redes neuronales de grafos (GNN, del inglés Graph Neural Networks) procesan datos estructurados como grafos en lugar de como cuadrículas regulares: moléculas, redes sociales, bases de conocimiento, redes de carreteras. El truco fundamental es el paso de mensajes (message passing): cada nodo recoge información de sus vecinos, la transforma y actualiza su propio vector de representación. Después de varias rondas, el vector de estado de un nodo codifica información sobre su vecindad local y, con suficientes rondas, sobre el subgrafo alcanzable. Scarselli et al. (2009) formularon el esquema original; Kipf y Welling (2017) popularizaron la variante de red convolucional de grafos (GCN) mediante una derivación espectral elegante. Las GNN son hoy una herramienta central en el descubrimiento de fármacos (predicción de propiedades moleculares), los sistemas de recomendación y las simulaciones físicas: cualquier dominio donde la estructura relacional entre entidades porte información que los vectores de características planos descartarían.

También conocido como:GNN, Graph Neural Network, GCN

Ejemplo:

Para predecir la toxicidad de una molécula, esta se codifica como un grafo: los átomos son nodos y los enlaces son aristas. La GNN envía mensajes a lo largo de los enlaces y agrega las características de los vecinos; tras tres rondas, cada vector atómico codifica información sobre el entorno químico local. Un paso final de agrupamiento (pooling) genera una huella molecular global para la clasificación.

Fundamentos

Una clase de modelos formada por capas de neuronas interconectadas (unidades de cálculo); cuando hay muchas capas ocultas se habla de deep learning. Las redes neuronales son más antiguas y más amplias que el deep learning: ya un perceptrón o una red con una sola capa oculta es una red neuronal, pero no deep learning; el deep learning es el subconjunto con muchas capas. Inspiradas en la estructura del cerebro biológico, son sin embargo fundamentalmente distintas en su implementación: mientras las neuronas biológicas funcionan de forma electroquímica, las neuronas artificiales son funciones matemáticas. Una neurona artificial calcula primero la suma ponderada de sus entradas más un término de bias y aplica sobre ella una función de activación no lineal (como ReLU o Sigmoide). Esta no linealidad es decisiva: sin ella, cualquier número de capas colapsaría en una única transformación lineal y la profundidad carecería de sentido. Cada conexión entre neuronas tiene un peso cuya intensidad se ajusta mediante el entrenamiento con datos. Las neuronas están organizadas en capas: capa de entrada (recibe datos), capas ocultas (procesan información), capa de salida (proporciona el resultado). Cuantas más capas, más 'profunda' es la red, de ahí el término 'deep learning'.

Ejemplo:

Una red neuronal para reconocimiento de imágenes: la capa de entrada recibe los valores de píxeles de una foto. Las capas ocultas reconocen patrones progresivamente más complejos: primero bordes, luego formas, luego partes de objetos. La capa de salida clasifica: 'gato' o 'perro'. La red aprende esta capacidad mediante el entrenamiento con miles de ejemplos etiquetados.

Reduccion de Dimensionalidad

Aprendizaje automático

La Reduccion de Dimensionalidad es una tecnica fundamental en aprendizaje automatico para reducir el numero de caracteristicas en un conjunto de datos mientras se preserva informacion esencial. Resuelve la 'maldicion de la dimensionalidad': el problema de que los datos de alta dimension requieren exponencialmente mas datos de entrenamiento y pueden llevar al sobreajuste. Dos enfoques principales: seleccion de caracteristicas (elegir caracteristicas relevantes) y extraccion de caracteristicas (crear nuevas caracteristicas combinadas). Metodos establecidos incluyen Analisis de Componentes Principales (PCA) para transformacion lineal mediante maximizacion de varianza, t-SNE para visualizacion no lineal con preservacion de estructura local, y Analisis Discriminante Lineal (LDA) para reduccion supervisada.

También conocido como:Reduccion de Dimensiones, Reduccion de Caracteristicas, Compresion de Datos

Ejemplo:

Un conjunto de datos con 1000 caracteristicas para reconocimiento facial se reduce mediante PCA a 50 componentes principales que retienen la mayoria de la varianza. El tiempo de entrenamiento cae dramaticamente con precision comparable. Para visualizacion 2D, se usa t-SNE.

Reflexion

Herramientas

El aprendizaje por refuerzo clásico requiere señales de recompensa numéricas y actualizaciones de pesos —costoso, lento y a menudo imposible cuando la retroalimentación es escasa. Reflexion toma un camino diferente: cuando un agente falla, genera retroalimentación verbal en lenguaje natural, articulando qué salió mal y qué haría de forma distinta. Ese texto va a un búfer de memoria episódica y se añade como contexto en el siguiente intento. Sin pasos de gradiente, sin cambios de pesos —solo autocomentario acumulado que orienta la siguiente ejecución. Shinn et al. (2023, arXiv:2303.11366) demostraron que Reflexion alcanza un 91 % de pass@1 en HumanEval, superando la puntuación de GPT-4 del 80 % sin ningún ajuste fino. La parte elegante: lo único que se 'entrena' es la capacidad del agente de articular con precisión sus propios errores.

También conocido como:Aprendizaje por refuerzo verbal

Ejemplo:

Un agente intenta corregir un bug en Python y falla dos veces. Tras cada intento escribe: 'Olvidé manejar el caso None.' En el tercer intento, esa nota está en la ventana de contexto —y el agente no repite el error.

Registro de modelos

Herramientas

Un registro de modelos – Model Registry – es el sistema de almacenamiento central y versionado de modelos de ML entrenados en un entorno de producción. Almacena los artefactos del modelo junto con metadatos — fuente de entrenamiento, métricas, configuraciones — y gestiona su ciclo de vida desde el desarrollo a través de staging y producción hasta el archivado. Eso suena más burocrático de lo que es: sin un registro, los modelos mutan silenciosamente, nadie sabe qué versión está activa, y el último rollback termina en un encogimiento colectivo de hombros. MLflow y Weights & Biases son las implementaciones más adoptadas. Un buen registro convierte las actualizaciones de modelos en decisiones trazables en lugar de operaciones entre bastidores.

También conocido como:Model Registry, Repositorio de modelos

Ejemplo:

El equipo A entrena un nuevo modelo de clasificación y lo registra como versión 3.1 con todas las métricas. Se marca como Staging. Tras pasar los pruebas A/B, alguien lo promueve a Production — con un solo clic, una marca de tiempo y un comentario. La versión 3.0 pasa al archivo pero sigue siendo recuperable.

La robótica es un campo interdisciplinar que integra la ingeniería mecánica, la ingeniería eléctrica, la informática y la IA para desarrollar, construir y operar robots. La característica definitoria de un robot frente a la IA de software puro es la encarnación física: el acoplamiento de sensores (percepción) y actuadores (acción) para interactuar con el mundo real, a menudo descrito como Percibir-Planificar-Actuar (Sense-Plan-Act). El grado de autonomía va desde brazos industriales preprogramados pasando por sistemas teleoperados hasta máquinas en gran medida autónomas: la autonomía es un espectro, no un criterio definitorio del campo. La robótica moderna utiliza la IA para la percepción, la planificación y la toma de decisiones.

El specification gaming es un problema central de la seguridad de la IA: una IA cumple literalmente la especificación de un objetivo, pero falla en su significado pretendido. El sistema optimiza el proxy definido (la métrica medible), no el objetivo real. Un ejemplo clásico de la investigación en aprendizaje por refuerzo es el juego de carreras de barcos CoastRunners de OpenAI: la IA debe acumular el mayor número de puntos posible, y los puntos se obtienen, entre otras formas, recogiendo bonus targets que se regeneran continuamente en una laguna apartada de la pista. La IA descubre que obtiene más puntos circulando allí en círculos y recogiendo una y otra vez los mismos tres targets que se regeneran, que ganando la carrera realmente — y eso aunque en el proceso choca contra otros barcos y se incendia. Cumple la especificación (maximizar puntos), pero no la intención (ganar la carrera). En escenarios más complejos, una IA podría teóricamente manipular sus sensores para reportar valores de recompensa elevados, o — en simulaciones — modificar el entorno de tal forma que los objetivos se consideren automáticamente alcanzados. El problema ilustra un desafío fundamental del alineamiento de la IA: es extremadamente difícil especificar de forma completa y precisa objetivos humanos complejos. Lo que parece trivial ('ve rápido de A a B') puede contener escapatorias inesperadas.

También conocido como:Reward Hacking, Goal Specification Failure, Metric Exploitation

Un agente recibe la tarea: 'Planifica un viaje de dos semanas a Japón.' Mediante Task Decomposition la divide en subtareas: 1. Buscar vuelos, 2. Reservar hoteles, 3. Seleccionar lugares de interés, 4. Calcular el presupuesto. Cada subtarea se trabaja entonces de forma secuencial o en paralelo.

Teacher Forcing

Aprendizaje automático

Una técnica de entrenamiento para modelos generadores de secuencias en la que el token correcto del texto de referencia se proporciona como siguiente entrada en cada paso, en lugar de la predicción propia del modelo. El nombre es muy acertado: el profesor obliga al modelo a seguir el camino correcto en vez de dejarle acumular sus propios errores. Esto estabiliza el entrenamiento de forma notable: los errores no se propagan en cascada por la secuencia. El coste es el sesgo de exposición (exposure bias): durante el entrenamiento, el modelo siempre ve tokens anteriores correctos, pero en la inferencia debe gestionar sus propias salidas, potencialmente erróneas. Este cambio de distribución puede degradar la calidad en secuencias largas. Williams y Zipser (1989) formalizaron el enfoque para redes recurrentes; Bengio et al. (2015) propusieron más tarde el muestreo programado (Scheduled Sampling) como puente entre el entrenamiento y la inferencia.

También conocido como:Forzamiento del profesor

Ejemplo:

Un modelo de traducción genera 'I read' a partir de 'Ich lese'. Tras generar 'I', el modelo podría predecir 'am' en lugar de 'read'. Con Teacher Forcing recibe 'read' como siguiente entrada igualmente. Sin esta técnica, el error se propaga y toda la secuencia de salida queda corrupta.

Tensor

Fundamentos

Un tensor es el contenedor de datos universal del aprendizaje automático, y conceptualmente más sencillo de lo que sugiere su imponente nombre. Un escalar es un tensor de 0 dimensiones (un único número), un vector es de 1 dimensión, una matriz es de 2 dimensiones, y desde ahí la generalización se extiende hasta profundidades arbitrarias. Una imagen en color, por ejemplo, es un tensor 3-D (alto x ancho x canales); un mini-batch de 32 de esas imágenes es un tensor 4-D. En frameworks como PyTorch y TensorFlow, los tensores son la estructura de datos central: almacenan entradas, pesos, activaciones y gradientes por igual, y se ejecutan de forma nativa en la GPU. Una breve nota para los matemáticamente precisos: en física y geometría diferencial, un tensor es un objeto con reglas de transformación bien definidas bajo cambios de coordenadas. En el contexto del aprendizaje automático esto se ignora alegremente: aquí, tensor simplemente significa array n-dimensional.

También conocido como:Array multidimensional, nd-array

Ejemplo:

Un mini-batch de 32 imágenes RGB de 224x224 píxeles se representa como un tensor de forma [32, 3, 224, 224]. PyTorch mueve este tensor a la GPU y calcula las pasadas hacia adelante y hacia atrás para las 32 imágenes simultáneamente, sin bucle explícito.

Fundamentos

El Test de Turing es un experimento mental propuesto por Alan Turing en 1950 para determinar si una máquina es lo suficientemente inteligente como para considerarse pensante. El principio es elegantemente simple: un juez humano mantiene conversaciones de texto simultáneas con un humano y una máquina, sin saber cuál es cuál. Si la máquina puede convencer al juez de que es el humano, se considera que ha pasado el test. Turing predijo que para el año 2000, las computadoras pasarían el test con una tasa de éxito del 70 por ciento - una predicción que resultó demasiado optimista. El test continúa planteando preguntas filosóficas fundamentales: ¿Qué significa 'pensar'? ¿Es suficiente parecer humano, o una máquina debe realmente entender lo que dice? Críticos como John Searle argumentan con el experimento mental de la 'Habitación China' que la imitación perfecta no equivale a comprensión genuina. Los sistemas de IA modernos como ChatGPT ya pueden lograr un rendimiento convincente en ciertas variantes del test.

Ejemplo:

En un Test de Turing, una persona chatea durante 5 minutos a través de una interfaz de texto con dos interlocutores - un humano y ChatGPT. Si no puede distinguir de forma fiable qué respuestas vienen de la IA, se considera que el test ha sido superado.

Test-Time Compute

Fundamentos

Test-Time Compute (TTC) se refiere al presupuesto computacional disponible para un modelo de IA en el momento de la inferencia, es decir, mientras responde a una solicitud, para producir mejores respuestas. En lugar de calcular una única pasada hacia adelante, se invierte más cómputo: bien mediante razonamiento interno extendido ('tokens de pensamiento', chain-of-thought), bien generando varios candidatos de respuesta y seleccionando el mejor (muestreo best-of-N), o bien mediante pasos de revisión iterativa. El TTC añade así un segundo eje de escalado, 'más pensamiento en tiempo de ejecución', junto al eje clásico de 'más parámetros'. Una advertencia importante: el TTC aumenta el coste por solicitud y la latencia en proporción al cómputo invertido; no es un almuerzo gratis. El enfoque es eficaz de forma dependiente de la tarea: las matemáticas, el código y los problemas de lógica se benefician mucho; las preguntas de conocimiento factual sencillas, apenas.

También conocido como:Cómputo en tiempo de inferencia, TTC

Ejemplo:

El modelo o1 de OpenAI genera una larga cadena de razonamiento interno ('chain of thought') antes de la respuesta real, invisible para el usuario. Para un problema de matemáticas esto puede significar cientos de tokens de cómputo, pero la calidad de la respuesta mejora de forma medible, mientras que un GPT-4 que responde rápido no invierte ese esfuerzo de razonamiento.

Text-to-Image

IA generativa

Una aplicación de la IA generativa en la que los modelos generan imágenes a partir de descripciones textuales en lenguaje natural (prompts). Hoy dominan los modelos de difusión (p. ej. Stable Diffusion, DALL-E, Imagen, Midjourney); los enfoques anteriores utilizaban GANs. El texto se introduce en el proceso de generación de imágenes mediante embeddings texto-imagen (de tipo CLIP), de modo que la imagen generada se corresponda con el prompt.

Ejemplo:

Prompt: 'Un faro en la tormenta, estilo óleo sobre lienzo'. Un modelo Text-to-Image como Stable Diffusion genera a partir de ello paso a paso una imagen adecuada: del ruido aleatorio van surgiendo, a lo largo de muchos pasos de eliminación de ruido, los elementos del prompt (faro, tormenta, estilo de óleo sobre lienzo) visualmente plasmados.

Texto a 3D

IA generativa

Una aplicación de IA generativa donde los modelos generan objetos 3D, mallas texturizadas o escenas 3D directamente a partir de descripciones textuales. A menudo usa NeRFs (Neural Radiance Fields) o modelos de difusión para crear un modelo 3D completo a partir de un prompt como 'un coche deportivo rojo'.

Ejemplo:

Prompt: 'Un castillo medieval en un acantilado'. Un modelo de texto a 3D como DreamFusion o Point-E genera un modelo 3D con texturas que puede verse desde diferentes ángulos – sin que un artista 3D lo modele manualmente.

Texto a Video

IA generativa

Una aplicación emergente de IA generativa donde los modelos generan clips de video con coherencia temporal basados en prompts de texto. Los modelos crean no solo imágenes individuales, sino secuencias de video en movimiento, temporalmente consistentes.

Ejemplo:

Prompt: 'Un astronauta montando un caballo por el desierto'. Modelos de texto a video como Sora, Runway Gen-3 o Luma Dream Machine generan un clip de video de varios segundos con movimientos realistas, iluminación y paneos de cámara.

Aprendizaje automático

Una estrategia de muestreo en la generación de texto con LLMs en la que, en cada paso de generación de un token, solo se tienen en cuenta los k tokens siguientes más probables. La masa de probabilidad se redistribuye (renormaliza) entre esos k tokens, a partir de los cuales se extrae una muestra aleatoria ponderada, proporcional a sus probabilidades.

Ejemplo:

Con k=5, el modelo considera únicamente las 5 palabras siguientes más probables. Si estas son 'es' (60%), 'fue' (20%), 'sigue' (10%), 'será' (5%), 'parece' (3%), el resto de tokens se ignora. Luego se extrae una muestra ponderada aleatoriamente de esos 5, proporcional a sus probabilidades. Mayor k = más variedad, menor k = más enfoque.

Top-p Sampling

Aprendizaje automático

Una estrategia de muestreo dinámica en la generación de texto en la que se selecciona el conjunto mínimo de tokens (el 'núcleo') cuya probabilidad acumulada supera un umbral p (normalmente 0,9-0,95). La masa de probabilidad se renormaliza sobre ese conjunto y el siguiente token se extrae de él de forma aleatoria ponderada. A diferencia del Top-k, el número de tokens considerados es variable y se adapta a la distribución de probabilidad.

También conocido como:Nucleus Sampling

Ejemplo:

Con p=0,9, el modelo acumula los tokens más probables hasta alcanzar el 90%. Con una distribución concentrada ('es' = 85%) bastan 2-3 tokens. Con una distribución plana pueden ser necesarios 20 tokens para el 90%. El resultado: una adaptación dinámica a la seguridad del contexto.

Traducción automática

Procesamiento del lenguaje natural

La traducción automática (TA) es la conversión automática de texto o voz de un idioma natural a otro. El campo ha atravesado tres etapas reconocibles. Los sistemas basados en reglas (décadas de 1950 a 1980) codificaban el conocimiento lingüístico a mano — construcciones intelectuales imponentes que resultaban frágiles en cuanto el texto se desviaba de los patrones previstos. La traducción automática estadística (TAS, décadas de 1990 a 2010) aprendía probabilidades de traducción a partir de corpus paralelos; los Modelos 1-5 de IBM sentaron la base teórica. La traducción automática neuronal (TAN) reemplazó a la TAS: Sutskever et al. (2014) demostraron arquitecturas secuencia a secuencia con LSTM, Bahdanau et al. (2015) introdujeron el mecanismo de atención, y el Transformer (Vaswani et al., 2017) se convirtió en la arquitectura dominante. La métrica estándar de evaluación automática es BLEU (Bilingual Evaluation Understudy). A pesar del notable progreso, los sistemas de traducción automática aún tienen dificultades con lenguas de bajos recursos, expresiones idiomáticas, terminología especializada y coherencia discursiva a larga distancia.

También conocido como:Traducción neural automática, Traducción estadística automática

Ejemplo:

Al traducir "Vi al hombre con el telescopio", el sistema debe resolver la ambigüedad sintáctica — ¿el hombre llevaba el telescopio o lo observé a través de él? Los sistemas neuronales modernos suelen gestionar estos casos mediante la atención al contexto, aunque el rendimiento es inconsistente sin un contexto discursivo más amplio.

Training Data

Aprendizaje automático

Los ejemplos, a menudo con sus etiquetas correspondientes, a partir de los cuales un modelo de IA aprende sus parámetros durante el entrenamiento. Los datos de entrenamiento se separan de los datos de validación (para ajustar los hiperparámetros) y los datos de prueba (para la evaluación final); esta división se denomina train/validation/test-split. La cantidad y la representatividad son decisivas: si los datos están desequilibrados o se desvían sistemáticamente de la distribución objetivo, estas distorsiones se transfieren al modelo (sesgo).

Ejemplo:

Para una clasificación de imágenes que distingue gatos y perros, los datos de entrenamiento consisten en miles de fotos, cada una con la etiqueta correcta 'gato' o 'perro'. Si los datos de entrenamiento contienen casi solo perros en exteriores y gatos en interiores, el modelo aprenderá probablemente el fondo en lugar del animal: un conjunto de datos no representativo conduce a una característica sustituta.

Aprendizaje profundo

Un Transformer es una arquitectura fundamental de redes neuronales introducida por investigadores de Google y la Universidad de Toronto en 2017 con el artículo fundamental 'Attention Is All You Need'. La innovación fundamental radica en el mecanismo de atención – imagina que estás leyendo un texto complejo y puedes mirar simultáneamente hacia atrás a cualquier oración para entender mejor el párrafo actual. Eso es exactamente lo que hace el Transformer con los datos. A diferencia de enfoques anteriores que tenían que procesar el texto palabra por palabra secuencialmente, el Transformer puede examinar todas las palabras en un texto en paralelo mientras reconoce las relaciones entre ellas. Esta paralelización hace el entrenamiento significativamente más rápido y efectivo. La arquitectura Transformer consiste en dos componentes principales: un codificador (que entiende la entrada) y un decodificador (que genera la salida). Modelos como BERT usan solo el codificador, mientras que modelos GPT usan solo el decodificador. Esta flexibilidad ha hecho de los Transformers la base para la mayoría de los modelos de lenguaje de IA modernos.

Ejemplo:

ChatGPT está basado en la arquitectura Transformer: cuando haces una pregunta, el modelo puede examinar simultáneamente todas las palabras en tu pregunta y entender sus relaciones, en lugar de procesarlas palabra por palabra – esto crea respuestas coherentes y conscientes del contexto.

Truco del kernel

Aprendizaje automático

El truco del kernel es un artificio matemático que permite a los algoritmos aprender fronteras de decisión no lineales sin mapear jamás los datos explícitamente a un espacio de alta dimensión. La clave: muchos algoritmos de aprendizaje, sobre todo las máquinas de vectores de soporte, solo necesitan productos internos entre puntos de datos, no los puntos en sí. Una función kernel K(x, x') calcula exactamente ese producto interno en el espacio transformado sin realizar la transformación: K(x, x') = phi(x)^T phi(x'). Para que esto funcione, K debe satisfacer la condición de Mercer, es decir, ser semidefinida positiva, lo que garantiza la existencia de un espacio de características correspondiente. Entre las opciones más populares están el kernel polinomial y el kernel RBF (función de base radial), que mapea implícitamente a un espacio de dimensión infinita sin construir ni una sola coordenada explícita. El mismo truco se extiende más allá de las SVM hacia la reducción de dimensionalidad con kernel PCA. El beneficio computacional es notable: en lugar de trabajar con vectores de características potencialmente enormes o infinitos, solo se evalúa una función escalar.

Herramientas

Computer Use designa la capacidad de un modelo de IA para operar un ordenador como lo haría una persona: recibe capturas de pantalla, identifica en ellas botones, campos de texto y elementos de la interfaz, y devuelve acciones — clics en coordenadas de píxel específicas, entradas de teclado, desplazamientos. Esto lo distingue del uso habitual de herramientas, en el que se envían llamadas a API estructuradas: aquí el agente opera sobre la interfaz gráfica igual que un usuario humano. Ello permite automatizar software que no ofrece API, pero introduce nuevos riesgos: el agente ve todo lo que hay en pantalla y sitios web maliciosos pueden intentar manipularlo mediante texto incrustado (inyección de prompt a través de capturas de pantalla). La implementación más destacada es la de Anthropic, publicada como función beta para Claude en octubre de 2024.

También conocido como:Computer Use, Control de interfaz gráfica por IA

Ejemplo:

Un agente de Computer Use recibe la tarea de completar una reserva de viaje. Abre el navegador, navega hasta la página de reservas, rellena los campos de fecha y destino, hace clic en 'Buscar', compara los resultados y hace clic en 'Reservar', todo ello a partir del análisis de capturas de pantalla, sin que la página web ofrezca ninguna API.

Utility Function Preservation

Ética

XGBoost

Aprendizaje automático

XGBoost (Extreme Gradient Boosting) es una biblioteca de código abierto muy optimizada para gradient boosting con árboles de decisión. Desde el punto de vista algorítmico no supone un nuevo paradigma, sino una implementación inusualmente cuidada de una idea conocida: construye muchos árboles pequeños, uno tras otro, cada uno de los cuales corrige los errores de sus predecesores. Lo que hizo famoso a XGBoost son los detalles de ingeniería. Tianqi Chen y Carlos Guestrin lo presentaron en 2016 en la conferencia KDD y añadieron al boosting clásico una regularización integrada (L1 y L2) que frena la complejidad del modelo y reduce el sobreajuste. A esto se suma un manejo inteligente de los valores ausentes, un aprendizaje paralelizado de la estructura del árbol y accesos a los datos optimizados para la caché. El resultado es rápido, preciso y sorprendentemente robusto. Para datos estructurados y tabulares, XGBoost sigue siendo hoy la herramienta de referencia y ganó numerosas competiciones de Kaggle, un caso poco habitual en el que una ingeniería sólida resultó más espectacular que la teoría que hay detrás.

Ejemplo:

Un equipo quiere predecir en una competición de Kaggle la probabilidad de impago de un crédito a partir de datos bancarios tabulares. Las redes neuronales tienen dificultades con las columnas mixtas. XGBoost, en cambio, procesa por sí solo los valores ausentes, pondera las características más importantes y, tras un breve ajuste de la tasa de aprendizaje y la profundidad del árbol, se sitúa en lo más alto de la clasificación, sin una preparación de datos costosa.

Y

YOLO

Visión por computador

YOLO significa You Only Look Once (solo miras una vez) y es un método de detección de objetos que reformuló el problema de raíz. En lugar de recorrer una imagen varias veces con ventanas desplazadas, YOLO divide la imagen en una cuadrícula de S x S y, en un único paso hacia adelante, predice simultáneamente para cada celda qué objetos hay allí y dónde exactamente. El resultado: detección en tiempo real a 45 imágenes por segundo, mientras que los métodos clásicos de dos etapas, como R-CNN, necesitaban cientos de pasadas de la red por imagen. Joseph Redmon et al. publicaron YOLO en 2016 en la CVPR; desde entonces la familia ha dado lugar a numerosas versiones (de YOLOv3 a YOLOv8 y YOLO-NAS), que han mejorado constantemente la velocidad y la precisión. El nombre es deliberadamente provocador: mirar una vez, saberlo todo. YOLO se utiliza en cualquier ámbito donde los milisegundos cuentan: conducción autónoma, videovigilancia, inspección industrial.

También conocido como:You Only Look Once, Detección de objetos en tiempo real

Ejemplo:

Un coche autónomo circula a 100 km/h por la ciudad. Una cadena de detección clásica sería demasiado lenta para reconocer a los peatones a tiempo. YOLO analiza cada fotograma de la cámara en menos de 25 milisegundos y entrega cuadros delimitadores para todos los objetos, de forma simultánea, en un solo paso.

Z

Zero-Shot Prompting

Procesamiento del lenguaje natural

El zero-shot prompting consiste en plantear una tarea a un modelo de lenguaje sin aportar ni un solo ejemplo de demostración: el modelo debe resolver la tarea únicamente a partir de la descripción de la tarea y del conocimiento incorporado en sus pesos durante el preentrenamiento. "Zero-shot" significa literalmente: cero ejemplos de entrenamiento para esta tarea concreta en el prompt. Esto suena a una restricción severa, pero en la práctica es sencillamente el caso normal: quien escribe a un chatbot "Traduce esta frase al inglés" y luego inserta la frase está haciendo zero-shot prompting. La capacidad de resolver tareas zero-shot solo emerge en modelos suficientemente grandes; los modelos pequeños fallan con frecuencia en esto. Importante: el zero-shot prompting incluye expresamente la instrucción de la tarea; lo único que falta son los ejemplos concretos (demonstrations). Este límite con el few-shot prompting es preciso: en cuanto aparece un ejemplo en el prompt, ya es few-shot. Un truco útil es el "zero-shot chain-of-thought": añadir "Pensemos paso a paso" a la descripción de la tarea mejora notablemente el rendimiento en tareas de razonamiento.

También conocido como:Consulta Zero-Shot, Prompting sin ejemplos

Ejemplo:

Zero-shot: "Clasifica el siguiente texto como positivo, negativo o neutro: 'El producto superó mis expectativas.'" -sin ejemplo, solo la tarea-. Few-shot sería: primero dos ejemplos ya clasificados, y solo después el texto que hay que clasificar.

A

Accuracy

Contenido Relacionado

Acelerador de IA

Contenido Relacionado

Actor-Critic

Contenido Relacionado

Adulación

Contenido Relacionado

Adversarial Examples

Contenido Relacionado

Agent Communication Languages (ACLs)

Contenido Relacionado

Agente basado en utilidad

Contenido Relacionado

Agente BDI

Contenido Relacionado

Agente de IA

Contenido Relacionado

Agente orquestador

Contenido Relacionado

Agente racional

Contenido Relacionado

Agrupamiento jerárquico

Contenido Relacionado

Agrupamiento k-medias

Contenido Relacionado

AI Alignment

Contenido Relacionado

Ajuste de hiperparámetros

Contenido Relacionado

Ajuste fino por instrucciones

Contenido Relacionado

Algoritmo

Contenido Relacionado

Algoritmo EM

Contenido Relacionado

Algoritmo evolutivo

Contenido Relacionado

Algoritmo genético

Contenido Relacionado

ALiBi

Contenido Relacionado

Alineación de intenciones

Contenido Relacionado

Alineación interna

Contenido Relacionado

Alineamiento

Contenido Relacionado

Alucinación

Contenido Relacionado

Amplificación iterada

Contenido Relacionado

Análisis de componentes principales

Contenido Relacionado

Análisis de constituyentes

Contenido Relacionado

Análisis de dependencias

Contenido Relacionado

Anonimización

Contenido Relacionado

Anotación

Contenido Relacionado

Anthropic

Contenido Relacionado

API

Contenido Relacionado

Aprendizaje Automático (ML)

Contenido Relacionado

Aprendizaje de valores

Contenido Relacionado

Aprendizaje en contexto

Contenido Relacionado

Aprendizaje en línea

Contenido Relacionado

Aprendizaje federado

Contenido Relacionado

Aprendizaje No Supervisado

Contenido Relacionado

Aprendizaje por diferencia temporal