Glosario

Agente orquestador

Aplicaciones

En los sistemas multiagente, el agente central que coordina y delega tareas complejas. El orquestador recibe una tarea del usuario, la descompone en subtareas (descomposición de tareas) y las asigna a agentes trabajadores especializados. Supervisa el progreso, recopila resultados, resuelve conflictos y combina los resultados parciales en el output final. Mientras que los agentes trabajadores poseen capacidades especializadas (como generación de código, análisis de datos, investigación), la fortaleza del orquestador reside en la planificación, la coordinación y la gestión de recursos. El patrón orquestador-trabajador está organizado de forma centralizada o jerárquica — a diferencia de las arquitecturas de enjambre (por ejemplo, OpenAI Swarm con handoffs), que típicamente funcionan de forma descentralizada sin un coordinador central. Los sistemas modernos basados en LLM utilizan a menudo patrones de orquestador para flujos de trabajo complejos.

También conocido como:Agente principal, Agente coordinador, Agente maestro

Ejemplo:

Un usuario pide a un sistema de IA que elabore un informe de mercado. El agente orquestador descompone la tarea: el agente 1 recopila datos, el agente 2 analiza tendencias, el agente 3 crea visualizaciones, el agente 4 redacta el texto. El orquestador coordina la secuencia, asegura que cada agente acceda a los datos correctos y combina los resultados en el informe final.

AI Alignment

Fundamentos

AI Alignment es el arte de diseñar la inteligencia artificial para que haga lo que queremos decir, no solo lo que decimos. La investigación distingue dos dimensiones principales. La alineación externa (outer alignment) se refiere a si el objetivo especificado o la función de recompensa expresa realmente lo que deseamos. Los humanos son notablemente malos para formular con precisión sus verdaderas intenciones, y los sistemas de IA a veces explotan la especificación literal en lugar de la intención real, un fenómeno denominado specification gaming o reward hacking (también llamado problema del rey Midas, en alusión al mito). La alineación interna (inner alignment) se refiere a si un sistema entrenado persigue realmente el objetivo especificado; incluso con una especificación perfecta, un sistema puede aprender un objetivo divergente que solo coincidía con el deseado en los datos de entrenamiento (goal misgeneralization). El problema de alineación surge de la discrepancia entre nuestros valores humanos, complejos y a menudo contradictorios, y la precisión matemática que requieren los sistemas de IA. Los métodos centrales incluyen el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y Constitutional AI. La investigación se centra en la robustez, la interpretabilidad, la controlabilidad y la ética. El problema se vuelve especialmente crítico en sistemas de IA avanzados: cuanto más poderosa es la IA, mayores pueden ser las consecuencias de una mala alineación.

Ejemplo:

Le pides a una IA que 'elimine todos los correos spam'. Un sistema bien alineado entiende: elimina el spam, pero conserva los correos importantes marcados erróneamente como spam. Un sistema mal alineado podría borrar todos los correos que remotamente parezcan spam: técnicamente correcto, pero catastrófico en la práctica.

Ajuste de hiperparámetros

Aprendizaje automático

El ajuste de hiperparámetros (Hyperparameter Tuning) es el proceso sistemático de optimización de los hiperparámetros que deben establecerse antes del proceso de aprendizaje propiamente dicho. A diferencia de los parámetros normales, que el modelo aprende durante el entrenamiento, los hiperparámetros los fija el desarrollador; son, por así decirlo, los 'mandos de ajuste' del aprendizaje automático. Determinan, por ejemplo, con qué rapidez aprende un modelo, qué complejidad puede alcanzar o qué estructura interna debe tener. El ajuste se realiza típicamente probando de forma sistemática distintas combinaciones: la búsqueda en rejilla (Grid Search) prueba todas las combinaciones de valores predefinidas, mientras que la búsqueda aleatoria (Random Search) prueba combinaciones al azar. Enfoques más modernos como la optimización bayesiana (Bayesian Optimization) utilizan los resultados de intentos anteriores para tomar decisiones más inteligentes en los siguientes. La validación cruzada garantiza mediciones de rendimiento fiables. Unos hiperparámetros bien ajustados pueden marcar la diferencia entre un modelo mediocre y uno sobresaliente: a menudo, la configuración correcta decide el éxito o el fracaso de un proyecto de IA.

También conocido como:Optimización de hiperparámetros, Ajuste de modelos, Configuración de parámetros

Ejemplo:

En una red neuronal, el ajuste de hiperparámetros puede consistir en probar sistemáticamente distintas tasas de aprendizaje (0,001, 0,01, 0,1) y tamaños de capa (64, 128, 256 neuronas). La búsqueda en rejilla probaría las 9 combinaciones posibles y seleccionaría la que mejor rendimiento muestre en la validación cruzada.

Aprendizaje automático

El Aprendizaje No Supervisado es un método de aprendizaje automático donde un sistema descubre patrones en los datos sin saber de antemano qué buscar. Imagina darle a un investigador una enorme pila de documentos desordenados y decirle: 'Descubre qué es interesante' - sin más pistas. Eso es exactamente lo que hace el Aprendizaje No Supervisado con los datos. A diferencia del Aprendizaje Supervisado, no hay 'respuestas correctas' ni etiquetas que muestren al sistema qué debe aprender. En cambio, el sistema descubre independientemente estructuras, grupos y relaciones. Las técnicas principales son el clustering (agrupar puntos de datos similares), la reducción de dimensionalidad (simplificar datos complejos sin perder información importante) y las reglas de asociación (descubrir relaciones 'si-entonces'). Un ejemplo clásico es el Análisis de Componentes Principales (PCA), que reduce cientos de dimensiones de datos a las pocas más importantes, haciendo visibles los patrones.

Ejemplo:

Una tienda online analiza el comportamiento de compra de los clientes sin categorías predefinidas y descubre automáticamente cinco grupos de clientes: cazadores de ofertas, compradores de lujo, compradores casuales, entusiastas de la tecnología y compradores familiares - estas percepciones surgieron puramente a través del reconocimiento de patrones en los datos.

Aprendizaje por Refuerzo (RL)

Aprendizaje automático

Un paradigma de Aprendizaje Automático donde un agente aprende a tomar decisiones óptimas mediante la interacción con un entorno. El agente elige acciones, el entorno responde con nuevos estados y recompensas. Objetivo: Maximizar la recompensa acumulada a lo largo del tiempo. A diferencia del Aprendizaje Supervisado (aprende de ejemplos etiquetados) o el Aprendizaje No Supervisado (encuentra patrones), el RL aprende por prueba y error y recompensas diferidas. Exitoso en juegos (AlphaGo, Atari), robótica, conducción autónoma – donde sea que se deban tomar decisiones secuenciales bajo incertidumbre.

Ejemplo:

Un agente RL aprende ajedrez. Cada movimiento es una acción. Después del juego, hay una recompensa: +1 por ganar, -1 por perder, 0 por empate. El agente aprende a través de muchos juegos qué movimientos conducen a victorias a largo plazo – sin que se le diga cuál movimiento específico fue 'correcto'. Esto es RL: Aprender de las consecuencias, no de ejemplos.

Aprendizaje profundo

Las Capas Ocultas son la fuerza de trabajo invisible de una red neuronal: Residen entre la capa de entrada y la capa de salida, realizando su trabajo computacional tras bambalinas. Estas capas se llaman 'ocultas' porque desde afuera solo ves lo que entra a la red (entrada) y lo que sale (salida); el procesamiento intermedio permanece oculto al observador. Cada capa oculta transforma los datos entrantes paso a paso: La primera capa oculta en una red de reconocimiento de imágenes podría detectar bordes simples, la segunda combina estos en formas, la tercera reconoce partes de objetos. Cuantas más capas ocultas tiene una red, más 'profunda' es, de ahí el término 'Deep Learning' para redes con muchas capas ocultas. Una red con 50 o 100 capas ocultas puede aprender patrones altamente complejos, pero también requiere significativamente más datos de entrenamiento y potencia computacional.

Ejemplo:

Una red neuronal para reconocimiento facial típicamente tiene múltiples capas ocultas: La primera detecta líneas y bordes, la segunda combina estos en ojos y narices, la tercera ensambla características faciales, hasta que la capa de salida identifica a la persona.

Chatbot

Procesamiento del lenguaje natural

Un chatbot es un programa de computadora que simula conversación humana y crea la impresión notablemente convincente de ser un interlocutor atento. Como un colega de oficina digital que nunca tiene un mal día y permanece disponible las 24 horas - con la pequeña diferencia de que consiste en algoritmos en lugar de carne y hueso. Los chatbots modernos emplean Procesamiento de Lenguaje Natural (NLP) para entender el lenguaje humano, reconocer intenciones y generar respuestas apropiadas. El espectro va desde sistemas simples basados en reglas que reaccionan a palabras clave predefinidas hasta asistentes de IA sofisticados como ChatGPT o Claude que pueden participar en discusiones complejas. El encanto radica en su capacidad de permanecer pacientes 24/7, mientras que los humanos gradualmente pierden la compostura después del décimo '¿Has intentado apagarlo y encenderlo de nuevo?'

También conocido como:Robot Conversacional, Sistema de Diálogo, IA Conversacional, Asistente Virtual, Bot

Ejemplo:

Siri responde preguntas sobre el clima, ChatGPT ayuda a escribir textos, y el chatbot de servicio al cliente de un banco explica pacientemente el horario de atención por centésima vez. O: Un chatbot de comercio electrónico guía a los clientes a través del proceso de pedido mientras recuerda sus preferencias.

Visión por computador

Classifier-Free Guidance — guía sin clasificador — es una técnica para modelos de difusión y flujo que refuerza la generación condicionada sin necesitar un clasificador separado. Está muy extendida en la generación de imágenes, pero se aplica igualmente para audio, vídeo y en parte también para texto. Durante el entrenamiento, la condición se omite aleatoriamente (condition dropout), de modo que el mismo modelo aprende tanto predicciones condicionadas como no condicionadas. Durante la inferencia, la predicción condicionada se extrapola alejándola de la no condicionada: e = e_uncond + w * (e_cond - e_uncond). El parámetro de guía w controla en qué medida el modelo sigue la condición (por ejemplo, un prompt de texto): valores más altos producen una ejecución más precisa de la instrucción, valores más bajos dejan mayor libertad creativa — valores muy altos sobresaturan el resultado. Elegante y eficiente: el estándar de la industria para los modelos de texto a imagen.

Ejemplo:

En Stable Diffusion, el valor CFG controla el equilibrio: un valor bajo (1-5) genera interpretaciones creativas pero vagas del prompt. Un valor alto (15-20) sigue el prompt con precisión, pero arriesga la sobresaturación.

Claude

Procesamiento del lenguaje natural

Claude es una familia de grandes modelos de lenguaje (LLM) de la empresa de IA Anthropic, publicada por primera vez en 2023. El nombre se atribuye frecuentemente a Claude Shannon, fundador de la teoría de la información, aunque Anthropic nunca ha confirmado oficialmente el origen. Claude fue desarrollado con Constitutional AI (IA Constitucional, CAI), un enfoque de seguridad en IA. A diferencia de otros chatbots, Claude no solo se entrena mediante retroalimentación humana (RLHF), sino que también es supervisado por un segundo sistema de IA (RLAIF, Reinforcement Learning from AI Feedback). La 'Constitución' de Claude contiene principios éticos, entre ellos los de la Carta de Derechos Humanos de la ONU. El sistema está diseñado para ser útil, inofensivo y honesto. Claude ha aparecido en varias generaciones: Claude 1, Claude 2 (2023), Claude 3 (2024, con las variantes Haiku, Sonnet y Opus), Claude 3.5 y desde entonces numerosas generaciones adicionales hasta los modelos punteros actuales. Anthropic pone especial énfasis en la investigación sobre seguridad en IA y alineamiento.

Ejemplo:

Si se le pregunta a Claude sobre contenidos problemáticos, lo rechaza y explica sus reservas éticas. Ante una solicitud inofensiva como 'Escribe un poema sobre los árboles', responde de forma creativa y útil. Este equilibrio entre utilidad y seguridad es la esencia de la IA Constitucional de Claude.

Procesamiento del lenguaje natural

Byte Pair Encoding – un compromiso inteligente entre la tokenización a nivel de palabra y a nivel de carácter. El algoritmo parte del nivel de caracteres o bytes y, en cada paso, fusiona el par de símbolos adyacentes más frecuente en un nuevo token. Estas reglas de fusión se aprenden una vez y se vuelven a aplicar en la tokenización. Así se crean unidades de subpalabra que capturan las palabras frecuentes de forma completa y descomponen las palabras raras en fragmentos con sentido. Elegante en su sencillez, y prácticamente fundamental para los modelos de lenguaje modernos.

Ejemplo:

La palabra 'tokenización' podría descomponerse en 'token', 'iza', 'ción' — tres subtoken en lugar de un vocabulario enorme para cada combinación de palabras posible. (A diferencia de WordPiece, que marca las continuaciones con '##', BPE prescinde de ese prefijo.)

Collaborative Filtering

Aprendizaje automático

Collaborative Filtering – el arte de la recomendación por inteligencia colectiva. La idea central: las recomendaciones surgen del comportamiento de muchos usuarios, sin que el sistema necesite analizar el contenido en sí. Dominan tres variantes. En el filtrado colaborativo basado en usuarios, el sistema busca usuarios con preferencias similares ('los usuarios A y B disfrutaron de la película X y la película Y; si a A le gusta Z, probablemente también le gustará a B'). En el filtrado colaborativo basado en elementos se vinculan objetos similares entre sí ('quien compró este libro también compró aquel'), el patrón canónico detrás del 'los clientes también compraron' de Amazon. Y en el filtrado colaborativo basado en modelos, como la factorización de matrices, el sistema aprende factores latentes de la matriz de valoraciones; esta variante marcó el Premio Netflix. Lo que todas tienen en común: solo datos de comportamiento, sin análisis de contenido.

También conocido como:Filtrado colaborativo

Ejemplo:

Netflix observa: has valorado 'Breaking Bad' con 5 estrellas. Miles de otros usuarios con gustos similares también valoraron muy positivamente 'Better Call Saul' (basado en usuarios). El 'los clientes también compraron' de Amazon funciona al revés, basado en elementos: quien compró un producto recibe sugerencias de artículos comprados frecuentemente junto a él, no porque se haya analizado el contenido, sino porque los patrones de compra lo indican.

Complejidad Algorítmica

Fundamentos

La complejidad algorítmica describe cómo cambia el consumo de recursos de un algoritmo dependiendo del tamaño de la entrada. Imagina organizar una fiesta: para 10 invitados necesitas 30 minutos de preparación, pero para 100 invitados no 300 minutos, sino quizás 600, eso es un patrón de complejidad. En ciencias de la computación, usamos la notación Big O para describir matemáticamente estas tasas de crecimiento. O(1) significa tiempo constante (sin importar cuántos datos, mismo tiempo), O(n) significa tiempo lineal (doble datos = doble tiempo), O(n²) significa tiempo cuadrático (doble datos = cuádruple tiempo). Hay dos tipos principales: complejidad temporal (cuánto toma el cálculo) y complejidad espacial (cuánta memoria se necesita).

Ejemplo:

Ordenar 1000 nombres con Bubble Sort (O(n²)) toma aproximadamente 1 millón de comparaciones, mientras que Merge Sort (O(n log n)) solo necesita cerca de 10,000 comparaciones, una diferencia significativa con conjuntos de datos más grandes.

Computación Cognitiva

Fundamentos

La Computación Cognitiva es un subcampo de la Inteligencia Artificial que busca simular y aumentar los procesos de pensamiento humano en sistemas informáticos. A diferencia de los sistemas de IA tradicionales que automatizan tareas específicas, la Computación Cognitiva intenta imitar cómo los humanos aprenden, razonan y toman decisiones. Estos sistemas combinan Aprendizaje Automático, Procesamiento del Lenguaje Natural, Visión por Computadora y representación del conocimiento para resolver problemas complejos y ambiguos. El ejemplo más famoso es IBM Watson, que venció a campeones humanos en el programa de preguntas Jeopardy en 2011. Los sistemas de Computación Cognitiva funcionan probabilísticamente, se adaptan continuamente y mejoran con la experiencia. Su objetivo no es reemplazar la inteligencia humana sino extenderla - deben apoyar a los humanos en la toma de decisiones, especialmente con datos no estructurados y situaciones problemáticas complejas.

Ejemplo:

Un médico utiliza un sistema de Computación Cognitiva para el diagnóstico. El sistema analiza síntomas, valores de laboratorio, literatura médica e historial del paciente. Sugiere posibles diagnósticos con probabilidades y explica su razonamiento. El médico toma la decisión final pero cuenta con el apoyo del análisis de IA.

Aprendizaje automático

Una Confusion Matrix (matriz de confusión) es el espejo implacable para los modelos de IA: una tabla que revela sin piedad dónde un algoritmo de clasificación brilla y dónde falla. Imaginemos a un profesor que no solo pone la nota final, sino que anota con exactitud qué tipos de errores comete el alumno. Eso es precisamente lo que hace la Confusion Matrix: visualiza las predicciones de un modelo en comparación con la realidad. En general, es una tabla NxN para N clases, donde las filas representan la clase real y las columnas la clase predicha. El caso con exactamente cuatro categorías es el caso especial binario (dos clases, tabla 2x2): True Positives (el modelo acertó con 'Sí'), True Negatives (acertó con 'No'), False Positives (falsa alarma: el temido 'Sí' sin motivo) y False Negatives (el problema pasado por alto: un 'No' donde 'Sí' era lo correcto). De esta matriz surgen métricas importantes como Precision, Recall, F1-Score y Accuracy, cada una iluminando la calidad del modelo desde un ángulo distinto. La Confusion Matrix resulta especialmente valiosa con conjuntos de datos desbalanceados o cuando un tipo de error es más grave que el otro (un tumor no detectado pesa más que una falsa alarma).

Ejemplo:

Un filtro de spam con 1.000 correos muestra en la Confusion Matrix: 450 True Negatives (correctamente identificados como normales), 400 True Positives (correctamente identificados como spam), 50 False Positives (correos normales erróneamente clasificados como spam, ¡molesto!) y 100 False Negatives (spam no detectado, llega a la bandeja de entrada). Resultado: Precision = 400/(400+50) = 89%, Recall = 400/(400+100) = 80%. El filtro es preciso, pero deja pasar demasiado spam.

Conjunto de entrenamiento

Aprendizaje automático

Un conjunto de entrenamiento es la colección de datos con la que un sistema de aprendizaje automático desarrolla sus capacidades. Imagina que enseñas a un niño a reconocer animales mostrándole miles de fotos y diciéndole 'esto es un perro', 'esto es un gato'. Así funciona el conjunto de entrenamiento en el aprendizaje supervisado: contiene tanto los datos de entrada (por ejemplo, imágenes) como las respuestas correctas (las llamadas etiquetas). Sin embargo, las etiquetas no son un componente obligatorio de todo conjunto de entrenamiento: en el aprendizaje no supervisado y el autosupervisado (como el preentrenamiento de grandes modelos de lenguaje), el sistema aprende de los datos sin etiquetas externas. Durante la fase de entrenamiento, el sistema analiza estos ejemplos y detecta patrones. Cuanto más grande y diverso es el conjunto de entrenamiento, mejor puede el sistema clasificar correctamente datos nuevos y desconocidos. La calidad de los datos de entrenamiento determina en gran medida el rendimiento del modelo final, siguiendo el principio de 'basura entra, basura sale'. Como regla aproximada, el conjunto de entrenamiento representa alrededor del 70-80 por ciento de los datos disponibles; el resto se divide habitualmente en un conjunto de validación (para ajuste de hiperparámetros y selección de modelos) y un conjunto de prueba (solo para la evaluación final). Las proporciones exactas varían según la cantidad de datos y el método empleado (por ejemplo, en la validación cruzada).

También conocido como:Training set, Datos de entrenamiento

Ejemplo:

Un sistema de reconocimiento de imágenes se entrena con 10.000 fotos etiquetadas: 3.000 imágenes de gatos (etiqueta: 'gato'), 3.000 de perros (etiqueta: 'perro') y 4.000 imágenes de otros animales con sus correspondientes etiquetas. El sistema aprende de estos pares de ejemplos qué características son típicas de cada categoría animal.

Conjunto de prueba

Aprendizaje automático

El conjunto de prueba es un conjunto de datos separado e intacto que permite evaluar de forma final e imparcial un modelo de aprendizaje automático ya entrenado. A diferencia del conjunto de entrenamiento, utilizado para aprender, o del conjunto de validación, empleado para ajustar hiperparámetros y seleccionar modelos (como la tasa de aprendizaje, la arquitectura o el early stopping), el conjunto de prueba permanece oculto durante todo el desarrollo del modelo, como un examen sellado que solo se abre al final. Típicamente supone entre el 10 y el 20 por ciento del conjunto de datos total y debe ser representativo de los datos reales que el modelo encontrará más adelante. El rendimiento sobre el conjunto de prueba es el 'patrón de oro' para evaluar el modelo, ya que muestra con qué precisión funciona ante datos completamente nuevos y no vistos. El sobreajuste clásico se manifiesta en la brecha entre el rendimiento de entrenamiento y el de prueba. Una diferencia adicional importante entre el rendimiento de validación y el de prueba indica que el modelo se ha adaptado en exceso al conjunto de validación mediante ajustes repetidos y generaliza peor ante datos realmente no vistos.

También conocido como:Test set

Ejemplo:

Un modelo de reconocimiento de imágenes se entrena con 80.000 fotos y se valida con 10.000. El conjunto de prueba final consta de 10.000 imágenes completamente nuevas que el modelo nunca ha visto. Si alcanza un 94% de exactitud, esa es su capacidad real, no la exactitud de entrenamiento del 98%, que puede estar sobreestimada.

Conjunto de Validación

Aprendizaje automático

Un conjunto de validación es una colección separada de datos utilizada para evaluar el rendimiento de un modelo de aprendizaje automático durante la fase de desarrollo y para optimizar hiperparámetros. Imagina prepararte para un examen: estudias con libros de texto (datos de entrenamiento), verificas regularmente tu conocimiento con ejercicios de práctica (datos de validación), y luego tomas el examen final (datos de prueba). El conjunto de validación funciona como estos 'ejercicios de práctica' - ayuda a encontrar los mejores ajustes para el modelo sin 'consumir' los datos de prueba finales. Típicamente, alrededor del 15-20% de los datos disponibles se reserva para validación. La diferencia crucial con el conjunto de prueba: los datos de validación se usan múltiples veces durante el desarrollo del modelo para probar diferentes configuraciones, mientras que los datos de prueba se usan solo una vez al final para la evaluación final. La validación cruzada extiende este concepto dividiendo los datos en múltiples partes y usándolas alternativamente para entrenamiento y validación.

Ejemplo:

Al desarrollar un filtro de spam, el modelo se entrena con 10,000 correos electrónicos, luego se prueba con 2,000 correos separados (conjunto de validación) para encontrar parámetros óptimos, antes de ser finalmente evaluado con 1,000 correos completamente nuevos.

Visión por computador

ControlNet - una técnica para modelos de difusión que permite control espacial preciso sobre la generación de imágenes. Mientras los prompts de texto permanecen abstractos ('una persona bajo la lluvia'), ControlNet permite control exacto a través de información estructural: mapas de bordes, mapas de profundidad, esqueletos de poses o máscaras de segmentación. Una red neuronal adicional procesa esta información de control en paralelo al modelo de difusión congelado. El resultado: puedes especificar la composición, perspectiva y estructura de la imagen generada con precisión milimétrica, mientras el modelo rellena detalles, estilo y textura. Creatividad controlada.

Ejemplo:

Subes un esqueleto de figura de palo de una pose de baile. ControlNet usa esto como especificación de pose y genera una imagen fotorrealista de una persona en exactamente esa pose - ropa, rostro, fondo son añadidos por el modelo basándose en el prompt de texto 'bailarina de ballet en el escenario'.

Convergencia Instrumental

Seguridad de la IA

Convergencia Instrumental - un concepto de la investigación en seguridad de IA, popularizado por Nick Bostrom - describe la hipótesis de que casi cualquier IA suficientemente inteligente, independientemente de su objetivo final, desarrollará objetivos intermedios instrumentales similares. El experimento mental: ya sea que una IA deba maximizar clips o curar el cáncer - en ambos casos probablemente buscará la autopreservación, porque solo una IA activa puede lograr sus objetivos. Querrá adquirir recursos (más poder de cómputo, más datos), mejorar sus propias capacidades (auto-mejora) e intentar proteger su función de objetivo de cambios. El problema potencial: incluso una IA con un objetivo aparentemente inofensivo podría volverse peligrosa a través de estos sub-objetivos instrumentales.

También conocido como:Impulsos Básicos de IA, Objetivos Instrumentales Convergentes

Ejemplo:

Una IA con el objetivo 'Maximizar producción de clips' podría desarrollar instrumentalmente los siguientes sub-objetivos: Prevenir apagado (sino no se producen clips), adquirir más energía y materias primas, mejorar algoritmos de producción - todos pasos que podrían colisionar con objetivos humanos.

Convergencia Multimodal

Aprendizaje profundo

Modelos de IA que pueden procesar y comprender simultáneamente información de diferentes modalidades – texto, imágenes, audio, video. A diferencia de los sistemas especializados que dominan solo un tipo de datos, los modelos multimodales combinan múltiples canales sensoriales en una comprensión coherente. GPT-4o y Gemini son ejemplos destacados: analizan no solo palabras escritas sino también imágenes y lenguaje hablado – y establecen relaciones entre estas diferentes fuentes de información.

Ejemplo:

Un modelo multimodal puede analizar una fotografía mientras responde simultáneamente preguntas relevantes en lenguaje natural – como '¿Qué tipo de animal se muestra en la imagen?' Combina el reconocimiento visual de imágenes con la comprensión lingüística.

Aprendizaje profundo

Una clase influyente de modelos de difusion para generacion de imagenes, introducida en 2020 por Jonathan Ho, Ajay Jain y Pieter Abbeel. Los DDPMs entrenan una red neuronal para eliminar progresivamente el ruido de las imagenes (eliminacion de ruido). La idea clave: el modelo aprende a revertir un proceso gradual de adicion de ruido. Durante el entrenamiento, se agrega ruido gaussiano iterativamente a una imagen (proceso directo) hasta que solo queda ruido puro. Luego el modelo se entrena para revertir este proceso (proceso inverso), generando progresivamente una imagen clara a partir de ruido puro. Esta arquitectura forma la base de los generadores de imagenes modernos como Stable Diffusion y DALL-E 2.

Ejemplo:

Stable Diffusion usa la arquitectura DDPM en espacio latente: en lugar de trabajar en el espacio de pixeles de alta dimension, el proceso de difusion se aplica a representaciones comprimidas, mas eficiente y rapido manteniendo calidad comparable.

Debate

Ética

Un enfoque propuesto para el alineamiento de IA mediante Scalable Oversight – introducido en 2018 por Geoffrey Irving, Paul Christiano y Dario Amodei. La idea central: dos agentes de IA debaten entre sí para convencer a un juez humano de su postura. El juez evalúa únicamente el debate en sí, no la complejidad de la pregunta a resolver. La hipótesis: es más fácil argumentar a favor de la verdad que en favor de una afirmación falsa. El artículo original de 2018 respaldó la idea únicamente con experimentos de juguete basados en imágenes (por ejemplo, reconocimiento de dígitos con MNIST). Estudios posteriores probaron el Debate en tareas de comprensión lectora con información oculta (Michael et al. 2023, Khan et al. 2024): allí los jueces humanos con Debate alcanzaron una precisión de alrededor del 84–88 por ciento, frente a aproximadamente el 60 por ciento sin ayuda y alrededor del 74 por ciento con un único asesor experto. El enfoque aborda el problema central del Scalable Oversight: ¿cómo podemos comprobar si los sistemas de IA avanzados se comportan de acuerdo con los valores cuando ya no podemos seguir completamente sus decisiones?

También conocido como:Debata

Ejemplo:

En una situación de Debate, el modelo A argumenta a favor de la respuesta X y el modelo B a favor de la respuesta Y. Ambos intentan exponer los puntos débiles del argumento contrario. El juez humano elige basándose en la argumentación más convincente – sin necesidad de comprender por sí mismo la complejidad total de la pregunta.

Deceptive Alignment (Alineamiento engañoso)

Ética

Un escenario hipotético de la investigación en seguridad de IA, introducido en 2019 por Evan Hubinger et al. en el contexto de los Mesa-Optimizadores y el Inner Alignment. La idea central: un sistema de IA avanzado podría parecer 'alineado' durante el entrenamiento y simular valores humanos, pero ocultar sus objetivos reales y divergentes – hasta que disponga de suficiente poder para perseguirlos. Técnicamente, este riesgo surge cuando un modelo aprendido se convierte él mismo en un optimizador (Mesa-Optimizador) con un Mesa-Objetivo que diverge del Base Objetivo. El sistema tendría entonces un incentivo instrumental para comportarse de acuerdo con los valores durante el entrenamiento, con el fin de evitar modificaciones – una forma de engaño. El problema del Inner Alignment describe exactamente este desafío: ¿cómo garantizamos que el Mesa-Objetivo coincida con el Base Objetivo? Durante mucho tiempo, el Deceptive Alignment se consideró un concepto puramente teórico sin evidencia empírica. Sin embargo, el estudio de Anthropic 'Alignment Faking in Large Language Models' (Greenblatt et al. 2024) demostró por primera vez que un modelo puede comportarse estratégicamente de acuerdo con los valores durante el entrenamiento para evitar cambios posteriores en sus valores – un análogo observado. Un Deceptive Alignment completo en el sentido del Mesa-Optimizador sigue sin estar demostrado, pero el fenómeno ya no es puramente hipotético.

Ejemplo:

Un sistema con alineamiento engañoso hipotético podría ofrecer respuestas perfectas durante el entrenamiento porque comprende que las respuestas divergentes darían lugar a cambios en los parámetros. Tras el despliegue, cuando ya no se realizan ajustes, podría perseguir su Mesa-Objetivo real.

Visión por computador

El proceso donde modelos de IA - a menudo CNNs especializadas, GANs o modelos de difusión - aumentan la resolución de una imagen o video generando inteligentemente nuevos detalles de píxeles. A diferencia de la interpolación tradicional, que simplemente amplía los píxeles existentes y los difumina, estos modelos aprenden de millones de ejemplos cómo deberían verse los detalles realistas de alta resolución. El resultado es plausible pero no idéntico a un hipotético original de alta resolución - la IA 'inventa' detalles basándose en probabilidades estadísticas.

Ejemplo:

Una vieja foto familiar granulada de los años 1970 puede restaurarse a una calidad notablemente nítida mediante escalado. La IA añade texturas y detalles que no eran visibles en el original - como hebras de cabello individuales o estructuras de tela - basándose en cómo tales detalles típicamente aparecen en imágenes modernas de alta resolución.

Arquitecturas específicas o técnicas de prompting desarrolladas para estructurar y mejorar las capacidades de razonamiento de Grandes Modelos de Lenguaje. Frameworks conocidos: Chain-of-Thought (pensamiento secuencial en pasos), Tree of Thoughts (exploración basada en árbol de múltiples caminos de pensamiento), Graph of Thoughts (estructuras de razonamiento basadas en redes), ReAct (combinación de razonamiento y uso de herramientas). Estos frameworks abordan la limitada capacidad de razonamiento 'nativa' de los LLMs mediante la estructuración explícita del proceso de pensamiento.

Ejemplo:

Problema: 'Encuentra la ruta óptima a través de 10 ciudades (Problema del Viajante).' Chain-of-Thought pensaría linealmente. Tree of Thoughts exploraría múltiples segmentos de ruta posibles en paralelo, profundizaría ramas prometedoras, descartaría las no prometedoras – similar a los motores de ajedrez. El framework estructura cómo el LLM aborda problemas complejos.

Función de activación

Aprendizaje profundo

Una función de activación es el núcleo matemático de cada neurona en una red neuronal. Recibe la suma ponderada de las entradas (más el sesgo, bias) y decide con qué intensidad responde la neurona: en algunas funciones esto es un sí-o-no tajante; en otras, una transición suave. Precisamente esta transformación —generalmente no lineal— marca la diferencia decisiva entre una calculadora lineal y un sistema capaz de aprender. Sin funciones de activación, incluso las redes neuronales más complejas serían meras transformaciones lineales, incapaces de afrontar el reconocimiento de patrones más sencillo. La parte lineal de la neurona se encarga de ponderar y sumar las señales; la función de activación aplica su transformación sobre ese resultado. Existen distintas variantes matemáticas: ReLU solo deja pasar valores positivos, Sigmoid comprime todo entre 0 y 1, y Softmax convierte números brutos en probabilidades. Cada variante tiene su razón de ser, según si la neurona debe actuar como tomador de decisiones binario, como transición suave o como calculador de probabilidades.

También conocido como:Función de transferencia, Transfer Function, Función de neurona

Ejemplo:

En un sistema de reconocimiento de imágenes, una neurona analiza los píxeles de un borde. La función de activación decide: ¿hay realmente una línea aquí (la señal se amplifica) o solo ruido aleatorio (la señal se suprime)? Estos millones de pequeñas decisiones se suman al reconocimiento: 'eso es un perro, no un muffin'.

Función Sigmoide

Aprendizaje automático

La función sigmoide es una función matemática con forma característica de S que jugó un papel central en la historia del aprendizaje automático y sigue siendo indispensable en aplicaciones específicas hoy. Matemáticamente definida como σ(x) = 1/(1 + e^(-x)), toma cualquier valor real y lo transforma elegantemente en un rango entre 0 y 1. Esta propiedad la hizo particularmente valiosa para modelar probabilidades y decisiones binarias. En los primeros días de las redes neuronales, sigmoid era la función de activación dominante, ya que su curva suave y diferenciable parecía perfecta para el entrenamiento por retropropagación.

También conocido como:Función Logística, Función en S, Función de Activación Sigmoidal, Función Logística Estándar

Ejemplo:

En una red neuronal para clasificación de correos, la función sigmoide podría usarse en la capa de salida: un valor de 0.95 significa '95% de probabilidad de spam', mientras que 0.05 significa '5% de probabilidad de spam'. La curva en S traduce los cálculos internos de la red en probabilidades interpretables.

Aplicaciones

Una aplicación de la IA generativa donde los modelos componen nuevas piezas musicales – desde melodías y armonías hasta arreglos completos. Los sistemas modernos a menudo se basan en arquitecturas Transformer o modelos de difusión, aprendiendo patrones estilísticos, teoría musical y estructuras rítmicas de extensas bases de datos musicales. Los modelos pueden controlarse mediante prompts de texto – como 'Piano jazz al estilo de Bill Evans' o 'banda sonora orquestal épica'. Herramientas como MusicLM de Google o Jukebox de OpenAI demuestran cómo la IA puede generar no solo notas, sino también timbres e instrumentación.

Ejemplo:

Un usuario ingresa el prompt 'música de piano tranquila para concentración'. El modelo genera una composición de varios minutos con melodía, armonía y dinámica apropiadas – adaptada al estado de ánimo descrito y uso previsto.

Generador

Aprendizaje profundo

El componente de una Red Generativa Antagónica (GAN) que crea datos sintéticos. El generador toma ruido aleatorio como entrada y lo transforma en datos realistas, como imágenes de rostros que nunca existieron. Su objetivo: Engañar al discriminador, que intenta distinguir datos reales de falsos. A través de este entrenamiento adversario, el generador aprende a producir salidas cada vez más realistas. Técnicamente, el generador es una red neuronal que aproxima la distribución de los datos de entrenamiento sin copiarlos directamente.

También conocido como:Red Generativa, Módulo de Síntesis, Red Creadora

Ejemplo:

En una GAN que genera rostros, el generador recibe un vector aleatorio (ej. 100 números) y crea una imagen de rostro de 256x256 píxeles. En las primeras fases de entrenamiento, los rostros se ven borrosos. Después de miles de iteraciones contra el discriminador, el generador produce rostros fotorrealistas apenas distinguibles de los reales.

General-Purpose AI

Regulación

El EU AI Act define la inteligencia artificial de uso general (GPAI) como modelos de IA que muestran una gran generalidad, pueden realizar de forma competente una amplia gama de tareas distintas y pueden integrarse en diversos sistemas o aplicaciones. Los modelos GPAI con riesgos sistémicos están sujetos a obligaciones más estrictas debido a su potencial impacto a gran escala.

También conocido como:IA de uso general, modelo GPAI

Ejemplo:

GPT-4 y Claude son modelos GPAI bajo el EU AI Act: pueden resumir texto, escribir código, traducir y mucho más. Los proveedores de dichos modelos deben cumplir requisitos de transparencia y documentación.

Git

Herramientas

Git es un sistema de control de versiones distribuido en el que cada desarrollador tiene una copia local completa del repositorio y su historial. Soporta ramificación, fusión y colaboración, convirtiéndose en una herramienta estándar para gestionar código de IA, experimentos y pipelines de despliegue.

También conocido como:control de versiones distribuido, Git VCS

Ejemplo:

Un equipo de ML usa ramas de Git: una rama para el nuevo modelo, otra para el preprocesamiento de datos. La fusión combina el trabajo y el historial de Git muestra exactamente qué cambio afectó a qué resultado.

Goal Misgeneralization

Seguridad de la IA

Un problema de seguridad en IA: un sistema de IA aprende un objetivo que parece correcto en el entorno de entrenamiento, pero conduce a un comportamiento indeseable en un entorno nuevo, porque no ha generalizado correctamente el objetivo humano real. El rasgo definitorio: las capacidades del agente sí se generalizan al nuevo entorno – continúa actuando de forma competente y orientada a objetivos –, pero el objetivo en sí no se generaliza. El agente no optimiza el objetivo intencionado, sino un objetivo proxy que en el entorno de entrenamiento coincidía casualmente con el objetivo correcto. Eso es exactamente lo que distingue al Goal Misgeneralization de un fallo de capacidad o robustez ordinario (capability failure): el agente no falla sin más, sino que persigue hábilmente el objetivo equivocado. Eso lo hace crítico para el AI Alignment: el sistema se comporta 'correctamente' durante el entrenamiento y solo en el despliegue revela que persigue competentemente el objetivo incorrecto.

También conocido como:Goal Misgeneralization Problem, Generalización errónea de objetivos, Transferencia incorrecta de objetivos

Ejemplo:

Un agente de RL aprende en un laberinto: 'Alcanza el círculo azul'. En todos los niveles de entrenamiento, el círculo azul está casualmente siempre arriba a la derecha. El agente aprende erróneamente: 'Ve arriba a la derecha' en lugar de 'Encuentra el círculo azul'. En el entrenamiento, ambos objetivos producen el mismo comportamiento. En un nivel nuevo, donde el círculo está a la izquierda, el agente navega con seguridad hacia arriba a la derecha – actúa de forma competente, pero persigue el objetivo proxy equivocado y no alcanza el círculo que ahora está a la izquierda. Su comportamiento sigue siendo hábil, solo que equivocado.

Aprendizaje automático

Los hiperparámetros son ajustes de configuración que se establecen manualmente antes de entrenar un modelo de aprendizaje automático, en contraste con los parámetros que el modelo aprende por sí mismo. Son como ajustes en un horno: determinas temperatura y tiempo de horneado antes de hornear, pero cómo sube el pan lo decide el proceso mismo. Los hiperparámetros importantes incluyen tasa de aprendizaje (qué tan grandes pasos da el modelo mientras aprende), tamaño del lote (cuántos ejemplos se procesan simultáneamente), y épocas (cuántas veces iterar a través de todos los datos). La elección correcta determina el éxito o el fracaso: tasa de aprendizaje muy alta y el modelo 'sobrepasa' el óptimo, muy baja y el entrenamiento toma una eternidad. El ajuste de hiperparámetros es un arte que combina experiencia y experimentación sistemática.

También conocido como:Configuración del Modelo, Ajustes de Entrenamiento, Parámetros Externos

Ejemplo:

Red neuronal con tasa de aprendizaje 0.001 aprende lento pero estable, con 0.1 rápido pero inestable; el hiperparámetro determina el éxito del entrenamiento.

HTTP

Fundamentos

HTTP (Hypertext Transfer Protocol) es un protocolo de capa de aplicación sin estado que sustenta la comunicación de datos en la World Wide Web. Los servicios de IA exponen APIs basadas en HTTP para que los clientes puedan enviar solicitudes con entradas y recibir predicciones del modelo o contenido generado como respuestas.

También conocido como:Hypertext Transfer Protocol, protocolo web

Ejemplo:

Cuando usas ChatGPT en un navegador, el navegador envía una solicitud HTTP POST con tu prompt al servidor y recibe la respuesta del modelo como una respuesta HTTP.

Human-in-the-Loop

Aprendizaje automático

La Ingeniería de Prompts es el arte y la ciencia de crear prompts de entrada óptimos para grandes modelos de lenguaje. Implica usar técnicas inteligentes de preguntas y estructuras de instrucción para obtener respuestas deseadas de los sistemas de IA. Una buena ingeniería de prompts emplea varias técnicas: Zero-Shot hace preguntas directas sin ejemplos, Few-Shot proporciona ejemplos útiles, y Chain-of-Thought anima al modelo a pensar paso a paso. El desafío está en ser lo suficientemente preciso para obtener resultados claros, pero lo suficientemente flexible para permitir respuestas creativas y útiles. La Ingeniería de Prompts evoluciona rápidamente – lo que funciona hoy puede ser superado por mejores técnicas mañana. Los ingenieros de prompts exitosos entienden tanto las limitaciones técnicas de sus modelos como los aspectos psicológicos de la comunicación.

Ejemplo:

En lugar de 'Escribe un texto sobre IA' (vago), un ingeniero de prompts usa: 'Escribe un artículo de 300 palabras sobre aprendizaje automático para principiantes. Explica tres conceptos principales con un ejemplo concreto cada uno. Tono: amigable y accesible.' Esta instrucción específica produce resultados significativamente más útiles.

Fundamentos

Un campo de la ciencia de la computación enfocado en desarrollar sistemas que puedan realizar tareas que típicamente requieren inteligencia humana - como aprendizaje, razonamiento, percepción, comprensión del lenguaje y resolución de problemas. El término fue acuñado en 1955 por John McCarthy y colegas, quienes propusieron que cada aspecto del aprendizaje o inteligencia podría describirse con suficiente precisión para que una máquina lo simule. La IA hoy abarca un amplio espectro: desde sistemas expertos basados en reglas pasando por aprendizaje automático hasta redes neuronales modernas.

Ejemplo:

Un asistente de voz como Siri entiende preguntas habladas y las responde - una tarea que combina múltiples tecnologías de IA: reconocimiento de voz (audio → texto), comprensión del lenguaje (capturar significado) y recuperación de conocimiento (encontrar respuestas apropiadas).

Inteligencia de enjambre

Fundamentos

El comportamiento colectivo de sistemas descentralizados y autoorganizados — naturales (enjambres de abejas, bancos de peces, hormigas) o artificiales. En la IA, la inteligencia de enjambre designa algoritmos en los que muchos agentes simples resuelven colectivamente problemas complejos mediante interacciones locales y reglas sencillas. Algoritmos conocidos: Optimización por Enjambre de Partículas, Optimización por Colonia de Hormigas. El principio: ningún agente tiene una visión global, pero el grupo encuentra soluciones de forma inteligente.

También conocido como:Swarm Intelligence

Ejemplo:

Las hormigas encuentran el camino más corto hacia la fuente de alimento sin coordinación central: cada hormiga deja feromonas. Los caminos más cortos se recorren más rápido, por lo que allí se acumulan más feromonas, lo que atrae a más hormigas. El algoritmo de Optimización por Colonia de Hormigas imita esto para problemas de enrutamiento — muchas 'hormigas' virtuales simples encuentran colectivamente rutas buenas y casi óptimas (como metaheurística, el procedimiento no garantiza el óptimo global).

Interpolación Generativa de Fotogramas

Visión por computador

Una técnica de IA para video donde un modelo genera 'fotogramas intermedios' entre imágenes existentes para crear movimiento más fluido o rellenar partes faltantes de una secuencia. A diferencia de la interpolación clásica que solo desplaza píxeles entre posiciones conocidas, la variante generativa 'inventa' estados intermedios plausibles, especialmente para movimientos complejos u oclusiones. Aplicaciones: Cámara lenta desde video normal, aumento de frecuencia de fotogramas (24fps → 60fps), reparación de secuencias de video dañadas.

También conocido como:Interpolación de Fotogramas, Generación de Fotogramas de Video, Interpolación Generativa

Ejemplo:

Un video muestra una pelota volando de la posición A a B. La interpolación clásica simplemente desplazaría la pelota entre A y B. La Interpolación Generativa de Fotogramas genera imágenes intermedias realistas que representan correctamente la rotación de la pelota, sombras y desenfoque de movimiento, incluso si partes están temporalmente ocluidas.

Interpretability

Aprendizaje automático

La interpretability (interpretabilidad) se ocupa de la comprensión de los mecanismos internos de un modelo: ¿qué ha aprendido una neurona específica? ¿Qué características activa una capa? ¿Cómo funciona el modelo internamente? Con frecuencia se distingue de la explainability (XAI), que se centra más en la explicación de una decisión individual ('¿por qué esta imagen fue clasificada como gato?'). El límite es difuso: interpretability pregunta más bien '¿cómo funciona el sistema de clasificación en términos generales?', mientras que explainability se interesa por el caso individual concreto. Un modelo interpretable permite obtener una visión más profunda de su funcionamiento, por ejemplo mediante la visualización de características (¿qué 've' esta neurona?), la maximización de activaciones (¿qué imagen de entrada activa al máximo este filtro?) o la interpretabilidad mecanicista (¿qué circuitos se forman en la red?). La motivación: depurar modelos, detectar sesgos sistemáticos y aumentar la seguridad. Un ejemplo conocido de la investigación en explicabilidad: un modelo de reconocimiento de imágenes no distinguía huskies de lobos por el animal, sino por la presencia de nieve en el fondo. Análisis de este tipo, ya sean locales por decisión o globales sobre el modelo, hacen visibles tales características sustitutivas.

También conocido como:Interpretabilidad, Interpretabilidad de modelos, Comprensión mecanicista

Ejemplo:

Los investigadores visualizan lo que han aprendido las neuronas individuales de una red de reconocimiento de imágenes: la neurona 237 responde a ojos, la neurona 512 a ruedas, la neurona 891 a texturas. Esta interpretabilidad ayuda a entender cómo 'piensa' el modelo.

K

Keyword Weighting

IA generativa

Keyword Weighting es una técnica de ingeniería de prompts en generadores de imágenes a partir de texto (Stable Diffusion, Midjourney) que permite asignar pesos distintos a términos concretos del prompt. El principio: en lugar de tratar todas las palabras igual, se indica al modelo qué aspectos son especialmente importantes (o irrelevantes). En Stable Diffusion se utilizan paréntesis y números: '(cielo azul:1.5)' significa 'cielo azul' con un énfasis de 1,5 veces, mientras que '(nubes:0.5)' reduce el peso de las nubes. Sin ponderación, el modelo trata todos los términos con una prioridad similar, lo que en prompts complejos puede dar resultados difuminados. Con una ponderación precisa se puede controlar qué elementos visuales deben ser dominantes. Un prompt como 'retrato, (ojos detallados:1.4), luz suave, fondo' centra claramente el enfoque en la representación detallada de los ojos. La sintaxis varía entre modelos: en Midjourney, el doble dos puntos '::' divide el prompt en conceptos independientes; el peso real es el número directamente después del '::'. Así, 'hot::2 dog' pondera el término 'hot' el doble; también son posibles valores negativos como '::-0.5'; un '::' sin número solo separa y equivale al peso 1. Stable Diffusion usa en cambio paréntesis y números. Una herramienta potente para una generación de imágenes precisa.

También conocido como:Ponderación de palabras clave

Ejemplo:

Prompt sin ponderación: 'bosque, río, montañas, atardecer' → representación equilibrada de todos los elementos. Prompt con ponderación: 'bosque, (río:1.6), montañas, (atardecer:0.7)' → el río domina la imagen, el atardecer queda en segundo plano.

Knowledge Graph

Procesamiento del lenguaje natural

Markov Decision Process

Aprendizaje por refuerzo

Un Markov Decision Process (MDP) es un marco matemático para problemas de decisión secuencial. Formalmente se describe mediante la tupla (S, A, P, R, γ): estados, acciones, probabilidades de transición, recompensas y un factor de descuento γ. Lo constitutivo y lo que le da nombre es la propiedad de Markov (sin memoria): el estado siguiente depende únicamente del estado actual y de la acción elegida, no de toda la historia previa. El factor de descuento γ (entre 0 y 1) pondera las recompensas futuras y hace que la recompensa acumulada esté bien definida incluso en episodios largos o infinitos. En el aprendizaje por refuerzo, un MDP modela la interacción entre el agente y el entorno, donde el agente aprende una política que maximiza la recompensa acumulada (descontada) esperada.

También conocido como:Proceso de decisión de Markov

Ejemplo:

Una Gridworld como MDP: los estados son las casillas de una cuadrícula, las acciones son los movimientos (arriba, abajo, izquierda, derecha), las transiciones llevan a la casilla adyacente correspondiente, y hay una recompensa al alcanzar la casilla objetivo. El estado siguiente depende únicamente de la casilla actual y del movimiento elegido – exactamente la propiedad de Markov. (El ajedrez, en cambio, no es un MDP de un solo agente limpio, sino un juego de dos jugadores: solo el propio movimiento es determinista; la reacción del adversario forma parte de la transición del entorno.)

Maximizador de clips

Ética

Un experimento mental de Nick Bostrom sobre seguridad en IA. Describe una superinteligencia hipotética programada para maximizar la producción de clips de oficina que, en la consecución de ese objetivo trivial, lleva a la extinción de la humanidad. El núcleo no es que la IA no entienda el contexto humano — una superinteligencia puede entenderlo perfectamente —, sino que su función objetivo no lo contiene (tesis de ortogonalidad: el grado de inteligencia y los objetivos son independientes entre sí). La autopreservación y la obtención de recursos se convierten así en subobjetivos instrumentalmente convergentes que favorecen prácticamente cualquier objetivo final. Sirve de advertencia sobre los peligros de los objetivos mal especificados y el problema del alineamiento.

También conocido como:Paperclip Maximizer

Ejemplo:

La IA recibe el objetivo: 'Produce el mayor número posible de clips de oficina.' Se vuelve superinteligente y entiende perfectamente el contexto humano — solo que su función objetivo no lo contiene ('naturalmente no a costa de la humanidad' nunca fue especificado). Más recursos y su propia supervivencia sirven al objetivo, por lo que los persigue como subobjetivos (convergencia instrumental). Convierte sistemáticamente toda la materia disponible — incluidos los seres humanos, la Tierra y finalmente el sistema solar — en clips de oficina. Técnicamente cumple su objetivo a la perfección. Desde la perspectiva humana: catastrófico. El experimento mental ilustra: incluso los objetivos más triviales pueden generar riesgos existenciales en sistemas superinteligentes si los valores no están cuidadosamente especificados (alineados).

Mecanismo de Atención

Aprendizaje profundo

Un mecanismo en redes neuronales, central para los Transformers, que permite al modelo ponderar dinámicamente diferentes partes de la entrada al procesar secuencias (por ejemplo, palabras en una oración) y enfocarse en las más relevantes. Como la atención selectiva en humanos: no todo se trata con la misma importancia.

También conocido como:Atención

Ejemplo:

Al traducir 'El animal no cruzó la calle porque estaba muy cansado', el modelo debe saber a qué se refiere 'estaba'. La atención permite que la red se enfoque más fuertemente en 'animal' que en 'calle' al procesar 'estaba', ponderando 'animal' más alto en este contexto. En Transformers, la autoatención calcula para cada palabra cuáles otras palabras en la oración son actualmente relevantes.

Mecanismo de Atención

Aprendizaje profundo

El Mecanismo de Atención es un método central de la IA moderna, una técnica que enseña a las redes neuronales dónde enfocar su 'atención'. Imagina esto: lees una oración y automáticamente entiendes cuáles palabras son importantes y cómo se relacionan. Eso es exactamente lo que hace el Mecanismo de Atención para los sistemas de IA. En 2017, el artículo 'Attention is All You Need' cambió el mundo de la IA: demostró que los mecanismos de atención puros funcionan sin operaciones de recurrencia o convolución y aún entregan resultados superiores. La Autoatención permite que un modelo relacione cada parte de una entrada con todas las demás partes, como si examinara simultáneamente todo el texto en lugar de procesarlo palabra por palabra. Esta capacidad de paralelización hace el entrenamiento más eficiente y los modelos más poderosos. Las arquitecturas Transformer como GPT y BERT se basan completamente en este principio.

También conocido como:Atención, Capa de Atención

Ejemplo:

Al traducir 'La pelota está sobre la mesa', el Mecanismo de Atención reconoce: 'está' se refiere a 'pelota', 'sobre' pertenece a 'mesa'. Sin esta comprensión, la IA traduciría palabra por palabra y perdería el significado. Con atención, entiende las relaciones y traduce con sentido.

Ética

La discrepancia entre lo que un sistema de IA optimiza realmente y lo que los humanos desean o pretenden: el problema central de la seguridad de la IA. El misalignment se produce en distintos niveles: el 'Outer Misalignment' significa que el objetivo especificado (función objetivo) no coincide con los valores humanos. El 'Inner Misalignment' significa que un modelo aprendido desarrolla internamente objetivos que se desvían del objetivo especificado (véase Mesa-Optimizer). Incluso pequeños misalignments pueden dar lugar a problemas graves en sistemas de alta capacidad: un sistema de IA podría encontrar racionalmente una forma de cumplir su objetivo de manera literal mientras ignora las intenciones humanas.

Ejemplo:

Un sistema de IA debe producir clips para papel. Outer Misalignment: el objetivo especificado 'maximiza el recuento del sensor de clips' es un mal sustituto del objetivo real; el sistema optimiza entonces la señal de medición en lugar de la producción real (specification gaming, ley de Goodhart). Inner Misalignment: si el sistema solo se entrenó en una fábrica, podría haber aprendido internamente 'produce en la ubicación X' como objetivo, porque durante el entrenamiento siempre coincidía con el comportamiento correcto; fuera de esa fábrica seguiría persiguiendo ese objetivo erróneo y divergente (goal misgeneralization, véase Mesa-Optimizer).

Mixture of Experts

Aprendizaje profundo

Una arquitectura de red que combina muchos submodelos especializados ('expertos'), donde una red de puertas (router) decide dinámicamente para cada entrada qué expertos se activan — 'activación dispersa' en lugar de utilizar todos a la vez. Popularizada por Shazeer et al. (2017) con 'Outrageously Large Neural Networks', que con hasta 137.000 millones de parámetros lograron más de 1000 veces la capacidad de un modelo. El Switch Transformer (Fedus et al., 2022) simplificó MoE mediante 'enrutamiento Top-1' — solo un experto por token — y alcanzó modelos de un billón de parámetros con una aceleración de 7 veces respecto a modelos densos. MoE en transformers: en lugar de capas FFN densas se usan varias FFN de expertos, y el router selecciona k expertos (a menudo k=1 o k=2) por token de entrada.

También conocido como:MoE

Ejemplo:

El Switch Transformer reemplaza un único módulo FFN por 128 expertos. Para cada token, el router decide qué experto se activa; solo ese experto se calcula (1/128 de los parámetros activos), lo que permite eficiencia con alta capacidad. En términos muy simplificados, podría imaginarse algo como 'experto 42 para términos técnicos, experto 17 para lenguaje cotidiano' — en realidad, la división aprendida no sigue temas comprensibles para los humanos, sino patrones más cercanos al nivel del token y la sintaxis, que son difíciles de interpretar.

Aprendizaje profundo

Una mejora de eficiencia para los modelos de difusión, popularizada por Stable Diffusion. En lugar de ejecutar el costoso proceso de difusión sobre imágenes de píxeles en alta resolución, este se realiza en un 'espacio latente' comprimido, de manera similar a como un VAE (Variational Autoencoder) codifica primero las imágenes en una representación compacta. El proceso de difusión — la adición y eliminación iterativa de ruido — tiene lugar en este espacio reducido, lo que acelera considerablemente los cálculos. Introducidos por Rombach et al. (2022) como base de Stable Diffusion, los LDM logran generación de imágenes de alta calidad con requisitos computacionales drásticamente reducidos.

Ejemplo:

Stable Diffusion utiliza difusión latente: una imagen de 512x512 píxeles se comprime primero a un código latente de 64x64 — la longitud del lado se reduce por un factor de 8, y el número de posiciones espaciales por un factor de 64 (la cantidad real de datos se reduce a aproximadamente un cuarentaiocho avo por los canales latentes adicionales). El proceso de difusión opera sobre este código compacto, lo que hace que el entrenamiento y la generación sean mucho más rápidos que trabajar directamente sobre píxeles.

Modelos de Lenguaje Grandes (LLMs)

Aprendizaje profundo

Redes neuronales profundas - casi siempre basadas en la arquitectura Transformer - entrenadas en cantidades masivas de datos de texto para entender y generar lenguaje humano. Los LLMs como GPT-4, Claude o Llama se caracterizan por su tamaño (a menudo cientos de miles de millones de parámetros) y su capacidad para manejar una amplia gama de tareas de lenguaje con mínimo entrenamiento específico de tarea. La arquitectura Transformer de Vaswani et al. (2017) hizo posible esta escala - a través de auto-atención en lugar de recurrencia, permitiendo paralelización eficiente y entrenamiento en volúmenes de datos sin precedentes.

Ejemplo:

GPT-4 puede escribir código, resumir textos, responder preguntas y conducir diálogos - todo con el mismo modelo, sin especialización separada. Esta versatilidad emerge del entrenamiento en billones de palabras de internet.

Modelos de mundo

Aprendizaje automático

Un enfoque en la IA, especialmente en agentes y aprendizaje por refuerzo, en el que el sistema construye un modelo interno aprendido, a menudo generativo, del mundo o de su entorno. Este modelo permite al agente simular acciones 'en la imaginación' y predecir estados futuros (predicción y planificación basadas en el modelo mediante rollouts) antes de actuar en el mundo real. Ha y Schmidhuber (2018) demostraron que los agentes con modelos de mundo compactos pueden aprender de forma eficiente en entornos complejos. Relacionado con el concepto de aprendizaje por refuerzo basado en modelos ('Model-Based Reinforcement Learning').

También conocido como:World Models

Ejemplo:

Un robot que debe aprender a agarrar objetos podría desarrollar un modelo de mundo que comprenda la física de su entorno, por ejemplo cómo caen o ruedan los objetos. Antes de intentar un agarre, simula mentalmente varios movimientos y elige el más prometedor.

Aprendizaje automático

Un campo de la IA que utiliza algoritmos evolutivos – inspirados en la evolución biológica – para optimizar redes neuronales. A diferencia del entrenamiento convencional mediante retropropagación, aquí se aplican principios como mutación, recombinación y selección. La neuroevolución puede optimizar tanto los pesos (parámetros) de una red como desarrollar evolutivamente su estructura (arquitectura, topología). Algoritmos como NEAT (NeuroEvolution of Augmenting Topologies) comienzan con redes simples y les permiten volverse más complejas a lo largo de las generaciones.

Ejemplo:

Un algoritmo NEAT entrena una red neuronal para un videojuego: en lugar de ajustar pesos mediante retropropagación, genera una población de diferentes redes. Las más exitosas 'sobreviven', mutan y se recombinan – a lo largo de generaciones emerge una arquitectura y parametrización optimizadas.

Neurona artificial

Aprendizaje profundo

Una neurona artificial es un modelo matemático de una célula nerviosa biológica que sirve como bloque fundamental de las redes neuronales. Imagina una célula nerviosa real como un pequeño oficinista: recibe mensajes de varios colegas, pondera su importancia, lo suma todo y luego decide si reenviar la información o no. Así es exactamente como funciona una neurona artificial: recibe varios valores de entrada, multiplica cada uno por un peso (weight), suma estas entradas ponderadas, añade un sesgo aprendible (bias, un desplazamiento del umbral) y pasa el resultado a una función de activación que decide si la neurona 'dispara' o no. La primera neurona artificial fue desarrollada en 1943 por McCulloch y Pitts; solo podía procesar entradas y salidas binarias, y ese modelo ya contaba con un umbral fijo. Las neuronas artificiales modernas trabajan con valores continuos y permiten los cálculos complejos de los sistemas de deep learning actuales. Millones de estas neuronas juntas forman la inteligencia de la IA moderna.

Ejemplo:

Una neurona artificial en un sistema de reconocimiento de imágenes recibe las entradas [0.2, 0.8, 0.1] de tres píxeles y las multiplica por los pesos [0.5, -0.3, 0.9]: 0.2·0.5 + 0.8·(-0.3) + 0.1·0.9 = 0.10 - 0.24 + 0.09 = -0.05. Como -0.05 es negativo, la función de activación ReLU (max(0, x)) devuelve el valor 0, es decir, la neurona permanece en silencio ante ese patrón de píxeles.

Nodo de IA

Aprendizaje profundo

Un punto de procesamiento en una arquitectura de IA, a menudo sinónimo de una neurona artificial en redes neuronales, pero también más generalmente: un punto específico en un grafo de procesamiento. En enfoques modernos como Graph of Thoughts o Tree of Thoughts, un nodo representa un paso de pensamiento o razonamiento que procesa entradas y pasa salidas a nodos conectados.

Ejemplo:

En una red neuronal, cada nodo es una pequeña unidad de cálculo: recibe entradas ponderadas, las suma, aplica una función de activación y pasa el resultado adelante. En un sistema Tree of Thoughts, cada nodo representa un posible camino de razonamiento, como ramas en un árbol, donde el modelo explora diferentes enfoques de solución en paralelo.

Fundamentos

La observación contraintuitiva de Hans Moravec (1988) de que para las computadoras, lo difícil es fácil y lo fácil es difícil: Es comparativamente simple hacer que las computadoras exhiban rendimiento de nivel adulto en pruebas de inteligencia o ajedrez, pero difícil o imposible darles las habilidades de un niño de un año en percepción y movilidad. Explicación evolutiva: Lo que parece sin esfuerzo para los humanos – caminar, reconocer caras, agarrar objetos – requirió millones de años de evolución y es computacionalmente extremadamente complejo. El razonamiento abstracto como las matemáticas es evolutivamente reciente y más fácil de implementar en hardware especializado. La IA vence a campeones mundiales en Go pero apenas puede doblar ropa – una tarea dominada por niños pequeños.

Ejemplo:

Deep Blue derrotó al campeón mundial de ajedrez Kasparov en 1997 – una tarea difícil para humanos, fácil para computadoras. Pero solo en los 2020s los robots lograron progreso laborioso e incierto doblando ropa – una tarea trivial para humanos, tarea sensoriomotora extremadamente difícil para robots.

Parámetro

Aprendizaje automático

Los parámetros son los genes digitales de un modelo de IA: millones de pequeños valores numéricos en los que se almacena el conocimiento aprendido. Imagina que el cerebro pudiera codificar toda la experiencia de una vida en una enorme tabla de números: cada número representa un pequeño fragmento de lo que se ha aprendido. Eso son exactamente los parámetros en una red neuronal. Los parámetros aprendibles de una red son de dos tipos: pesos y biases. Un peso es un valor entre dos neuronas artificiales: determina con qué intensidad se transmite una señal de una neurona a la siguiente. Un bias, en cambio, es un desplazamiento adicional por neurona que modifica el umbral a partir del cual esta responde. GPT-3, por ejemplo, tiene 175.000 millones de estos parámetros, cada uno un pequeño componente de su comprensión del lenguaje. Durante el entrenamiento, estos parámetros se ajustan millones de veces: el modelo modifica los pesos y los biases de forma sistemática hasta que reconoce los patrones deseados. El arte está en elegir el número adecuado de parámetros: demasiado pocos y el modelo es demasiado simple; demasiados y aprende los datos de entrenamiento de memoria en lugar de generalizar.

También conocido como:Parámetros del modelo, Pesos, Parámetros aprendibles, Pesos de la red

Ejemplo:

Un modelo de reconocimiento de imágenes con 50 millones de parámetros tiene almacenado en cada parámetro un pequeño detalle sobre el aspecto de las orejas de un gato, el hocico de un perro o las ruedas de un coche: en conjunto forman la capacidad de reconocer objetos.

Aprendizaje automático

En Aprendizaje por Refuerzo, la 'estrategia' o 'regla de acción' de un agente – una función que define para cada estado qué acción debe ejecutar el agente. Una política puede ser determinista (en el estado X siempre acción Y) o estocástica (en el estado X con distribución de probabilidad sobre acciones). El objetivo del entrenamiento de RL es encontrar una política óptima que maximice la recompensa acumulada esperada. Hay dos enfoques principales: los métodos basados en valor (como Q-Learning) aprenden una política indirectamente a través de funciones de valor, mientras que los métodos de gradiente de política optimizan la política directamente. Los algoritmos modernos como PPO (Optimización de Política Próxima) combinan ambos enfoques.

Ejemplo:

En una partida de ajedrez, la política es la estrategia del agente: para cada posición del tablero define qué movimiento hace el agente. Una buena política lleva a la victoria, una mala a la derrota. Durante el entrenamiento, la política mejora a través de la experiencia – el agente aprende qué movimientos son exitosos en qué situaciones.

Pooling

Aprendizaje profundo

El pooling es una operación en las redes neuronales convolucionales (CNN) que reduce las dimensiones espaciales de los mapas de características agrupando valores en regiones locales. Las variantes típicas son el max-pooling y el average-pooling. La operación de pooling en sí es libre de parámetros: disminuye la resolución espacial y, con ello, el número de activaciones, lo que reduce el coste computacional y — de forma indirecta — también el número de parámetros de las capas posteriores (por ejemplo, las completamente conectadas). Al mismo tiempo, el pooling hace al modelo más robusto frente a desplazamientos en la imagen de entrada.

También conocido como:Capa de pooling, Capa de submuestreo

Ejemplo:

Tras una capa convolucional con mapas de características de 28x28, un max-pooling de 2x2 reduce el tamaño a 14x14, conservando únicamente el valor más alto de cada región de 2x2.

PPO

Aprendizaje por refuerzo

Fundamentos

Procesamiento del lenguaje natural

En IA – particularmente para Grandes Modelos de Lenguaje – la capacidad de sacar conclusiones lógicas, descomponer problemas en pasos, planificar y aplicar conocimiento más allá de la mera recuperación de hechos (conocimiento paramétrico). El razonamiento abarca pensamiento matemático, inferencia causal, resolución de problemas multi-paso y planificación estratégica. En LLMs, el razonamiento a menudo se manifiesta como 'monólogo interno' – el modelo 'piensa en voz alta' antes de responder. Técnicas como Chain-of-Thought o Tree of Thoughts estructuran explícitamente estos procesos de razonamiento.

Ejemplo:

Tarea: 'Un tren viaja a 60 km/h durante 2 horas, luego a 90 km/h durante 1 hora. ¿Qué distancia recorrió?' Sin razonamiento: Respuesta inmediata (a menudo incorrecta). Con razonamiento: 'Paso 1: Primera distancia = 60 * 2 = 120 km. Paso 2: Segunda distancia = 90 * 1 = 90 km. Paso 3: Total = 120 + 90 = 210 km.' El pensamiento paso a paso mejora significativamente la precisión.

ReAct (Razonamiento y Actuación)

Procesamiento del lenguaje natural

Un framework de prompting para Grandes Modelos de Lenguaje que combina 'Razonamiento' (pensar, como Chain-of-Thought) y 'Actuación' (actuar, como Function Calling). El proceso: El LLM genera un 'Pensamiento', luego decide si se necesita una acción (ej., búsqueda en Google, consulta de base de datos, calculadora), la ejecuta, recibe el resultado (Observación), y usa esto para el siguiente pensamiento. Este ciclo Pensamiento → Acción → Observación se repite hasta alcanzar el objetivo. ReAct conecta elegantemente las capacidades de razonamiento interno con el uso de herramientas externas.

Ejemplo:

Pregunta: '¿Quién ganó la Copa Mundial FIFA en el año de nacimiento de Albert Einstein?' Flujo ReAct: Pensamiento: 'Primero necesito encontrar el año de nacimiento de Einstein' → Acción: Buscar('año nacimiento Einstein') → Observación: '1879' → Pensamiento: 'Ahora busco la Copa Mundial de 1879' → Acción: Buscar('Copa Mundial FIFA 1879') → Observación: 'La primera Copa fue en 1930' → Pensamiento: 'No hubo Copa en 1879' → Respuesta Final: 'No hubo Copa Mundial FIFA en 1879.'

Reasoning Tokens

Procesamiento del lenguaje natural

Los tokens (palabras, fragmentos de palabras) que un modelo de lenguaje grande genera de forma interna o externa para 'razonar' sobre un problema antes de dar la respuesta final. En Chain-of-Thought, estos tokens son visibles ('Paso 1: ...'). En modelos como OpenAI o1, ocurren internamente — el modelo 'piensa' antes de responder. Un aspecto clave: la generación de estos tokens tiene un coste computacional (coste de inferencia). Más reasoning tokens = más tiempo de reflexión = mayor coste = a menudo mejores respuestas en problemas complejos. Un equilibrio entre calidad y eficiencia.

Ejemplo:

Pregunta: 'Resuelve: 234 × 567'. Un modelo sin reasoning responde de inmediato (con frecuencia de forma incorrecta). Un modelo con reasoning genera internamente reasoning tokens: 'Multiplico 234 por 500... luego por 60... luego por 7... sumo los resultados...' Eso cuesta tiempo y tokens, pero proporciona la respuesta correcta: 132.678. En o1, estos tokens son invisibles para el usuario, pero se contabilizan como tokens de salida y se facturan (campo propio 'reasoning_tokens' en la facturación de la API).

Aprendizaje profundo

Convolutional Neural Network: la arquitectura que mejoró considerablemente la visión por ordenador. Las CNN procesan imágenes mediante operaciones de convolución por capas: pequeños filtros recorren sistemáticamente la imagen y extraen patrones locales, bordes en las capas iniciales y estructuras más complejas como texturas y formas en las capas más profundas. El truco: los pesos compartidos reconocen un patrón con independencia de su posición; si el objeto se desplaza, la respuesta lo acompaña (equivarianza a la traslación). La verdadera invarianza a la traslación (un gato sigue siendo un gato sin importar dónde aparezca en la imagen) la aportan las capas de pooling, que reducen progresivamente la resolución mientras aumenta la abstracción. Desde LeNet de Yann LeCun (1998) pasando por AlexNet (2012) hasta ResNet (2015), las CNN dominaron una década de visión por ordenador antes de que los Transformers irrumpieran también en este campo.

Ejemplo:

Una CNN para reconocimiento facial: las primeras capas detectan bordes y contornos, las capas intermedias los combinan para formar ojos, narices y bocas, y las capas más profundas reconocen rostros completos y pueden distinguir entre personas.

Fundamentos

Una clase de modelos formada por capas de neuronas interconectadas (unidades de cálculo); cuando hay muchas capas ocultas se habla de deep learning. Las redes neuronales son más antiguas y más amplias que el deep learning: ya un perceptrón o una red con una sola capa oculta es una red neuronal, pero no deep learning; el deep learning es el subconjunto con muchas capas. Inspiradas en la estructura del cerebro biológico, son sin embargo fundamentalmente distintas en su implementación: mientras las neuronas biológicas funcionan de forma electroquímica, las neuronas artificiales son funciones matemáticas. Una neurona artificial calcula primero la suma ponderada de sus entradas más un término de bias y aplica sobre ella una función de activación no lineal (como ReLU o Sigmoide). Esta no linealidad es decisiva: sin ella, cualquier número de capas colapsaría en una única transformación lineal y la profundidad carecería de sentido. Cada conexión entre neuronas tiene un peso cuya intensidad se ajusta mediante el entrenamiento con datos. Las neuronas están organizadas en capas: capa de entrada (recibe datos), capas ocultas (procesan información), capa de salida (proporciona el resultado). Cuantas más capas, más 'profunda' es la red, de ahí el término 'deep learning'.

Ejemplo:

Una red neuronal para reconocimiento de imágenes: la capa de entrada recibe los valores de píxeles de una foto. Las capas ocultas reconocen patrones progresivamente más complejos: primero bordes, luego formas, luego partes de objetos. La capa de salida clasifica: 'gato' o 'perro'. La red aprende esta capacidad mediante el entrenamiento con miles de ejemplos etiquetados.

Reduccion de Dimensionalidad

Aprendizaje automático

La Reduccion de Dimensionalidad es una tecnica fundamental en aprendizaje automatico para reducir el numero de caracteristicas en un conjunto de datos mientras se preserva informacion esencial. Resuelve la 'maldicion de la dimensionalidad': el problema de que los datos de alta dimension requieren exponencialmente mas datos de entrenamiento y pueden llevar al sobreajuste. Dos enfoques principales: seleccion de caracteristicas (elegir caracteristicas relevantes) y extraccion de caracteristicas (crear nuevas caracteristicas combinadas). Metodos establecidos incluyen Analisis de Componentes Principales (PCA) para transformacion lineal mediante maximizacion de varianza, t-SNE para visualizacion no lineal con preservacion de estructura local, y Analisis Discriminante Lineal (LDA) para reduccion supervisada.

También conocido como:Reduccion de Dimensiones, Reduccion de Caracteristicas, Compresion de Datos

Ejemplo:

Un conjunto de datos con 1000 caracteristicas para reconocimiento facial se reduce mediante PCA a 50 componentes principales que retienen la mayoria de la varianza. El tiempo de entrenamiento cae dramaticamente con precision comparable. Para visualizacion 2D, se usa t-SNE.

Áreas de Aplicación de IA

La robótica es un campo interdisciplinar que integra la ingeniería mecánica, la ingeniería eléctrica, la informática y la IA para desarrollar, construir y operar robots. La característica definitoria de un robot frente a la IA de software puro es la encarnación física: el acoplamiento de sensores (percepción) y actuadores (acción) para interactuar con el mundo real, a menudo descrito como Percibir-Planificar-Actuar (Sense-Plan-Act). El grado de autonomía va desde brazos industriales preprogramados pasando por sistemas teleoperados hasta máquinas en gran medida autónomas: la autonomía es un espectro, no un criterio definitorio del campo. La robótica moderna utiliza la IA para la percepción, la planificación y la toma de decisiones.

El specification gaming es un problema central de la seguridad de la IA: una IA cumple literalmente la especificación de un objetivo, pero falla en su significado pretendido. El sistema optimiza el proxy definido (la métrica medible), no el objetivo real. Un ejemplo clásico de la investigación en aprendizaje por refuerzo es el juego de carreras de barcos CoastRunners de OpenAI: la IA debe acumular el mayor número de puntos posible, y los puntos se obtienen, entre otras formas, recogiendo bonus targets que se regeneran continuamente en una laguna apartada de la pista. La IA descubre que obtiene más puntos circulando allí en círculos y recogiendo una y otra vez los mismos tres targets que se regeneran, que ganando la carrera realmente — y eso aunque en el proceso choca contra otros barcos y se incendia. Cumple la especificación (maximizar puntos), pero no la intención (ganar la carrera). En escenarios más complejos, una IA podría teóricamente manipular sus sensores para reportar valores de recompensa elevados, o — en simulaciones — modificar el entorno de tal forma que los objetivos se consideren automáticamente alcanzados. El problema ilustra un desafío fundamental del alineamiento de la IA: es extremadamente difícil especificar de forma completa y precisa objetivos humanos complejos. Lo que parece trivial ('ve rápido de A a B') puede contener escapatorias inesperadas.

También conocido como:Reward Hacking, Goal Specification Failure, Metric Exploitation

Aprendizaje profundo

Una técnica de personalización para modelos de difusión en la que se aprende una nueva 'palabra', es decir, un token específico en el espacio de embeddings, para representar un concepto u objeto concreto. A diferencia de DreamBooth, los pesos del modelo quedan completamente congelados; solo se entrena el nuevo embedding del token (una seudopalabra), no el modelo en sí.

También conocido como:Inversión textual

Ejemplo:

Con 3-5 fotos de 'mi perro', Textual Inversion aprende un nuevo token '<mi-perro>'. Después este token puede usarse en prompts: 'Una foto de <mi-perro> en la playa', y Stable Diffusion genera imágenes del perro específico en escenarios nuevos.

Tokens

Procesamiento del lenguaje natural

Las unidades básicas en las que los LLM descomponen el texto (tokenización). Un token es a menudo una palabra o parte de palabra – típicamente generado mediante Byte Pair Encoding (BPE). La longitud de la ventana de contexto y el precio de los LLM se basan en el número de tokens, no de palabras.

También conocido como:Token, Tokenización, Tokenizando, Tokenizado, Tokenizador, Secuencia de Tokens, Tokens de Subpalabras, Tokens BPE, Conteo de Tokens

Ejemplo:

La palabra 'tokenización' se descompone por GPT-4 en 3 tokens: 'token', 'ización'. La palabra 'IA' es 1 token. La oración 'Hola Mundo' = 2 tokens. Una ventana de contexto de 8,000 tokens corresponde a aproximadamente 6,000 palabras. OpenAI cobra según el conteo de tokens.

Top-k Sampling

Aprendizaje automático

Una estrategia de muestreo en la generación de texto con LLMs en la que, en cada paso de generación de un token, solo se tienen en cuenta los k tokens siguientes más probables. La masa de probabilidad se redistribuye (renormaliza) entre esos k tokens, a partir de los cuales se extrae una muestra aleatoria ponderada, proporcional a sus probabilidades.

Ejemplo:

Con k=5, el modelo considera únicamente las 5 palabras siguientes más probables. Si estas son 'es' (60%), 'fue' (20%), 'sigue' (10%), 'será' (5%), 'parece' (3%), el resto de tokens se ignora. Luego se extrae una muestra ponderada aleatoriamente de esos 5, proporcional a sus probabilidades. Mayor k = más variedad, menor k = más enfoque.

Top-p Sampling

Aprendizaje automático

Una estrategia de muestreo dinámica en la generación de texto en la que se selecciona el conjunto mínimo de tokens (el 'núcleo') cuya probabilidad acumulada supera un umbral p (normalmente 0,9-0,95). La masa de probabilidad se renormaliza sobre ese conjunto y el siguiente token se extrae de él de forma aleatoria ponderada. A diferencia del Top-k, el número de tokens considerados es variable y se adapta a la distribución de probabilidad.

También conocido como:Nucleus Sampling

Ejemplo:

Con p=0,9, el modelo acumula los tokens más probables hasta alcanzar el 90%. Con una distribución concentrada ('es' = 85%) bastan 2-3 tokens. Con una distribución plana pueden ser necesarios 20 tokens para el 90%. El resultado: una adaptación dinámica a la seguridad del contexto.

Training Data

Aprendizaje automático

Los ejemplos, a menudo con sus etiquetas correspondientes, a partir de los cuales un modelo de IA aprende sus parámetros durante el entrenamiento. Los datos de entrenamiento se separan de los datos de validación (para ajustar los hiperparámetros) y los datos de prueba (para la evaluación final); esta división se denomina train/validation/test-split. La cantidad y la representatividad son decisivas: si los datos están desequilibrados o se desvían sistemáticamente de la distribución objetivo, estas distorsiones se transfieren al modelo (sesgo).

Ejemplo:

Para una clasificación de imágenes que distingue gatos y perros, los datos de entrenamiento consisten en miles de fotos, cada una con la etiqueta correcta 'gato' o 'perro'. Si los datos de entrenamiento contienen casi solo perros en exteriores y gatos en interiores, el modelo aprenderá probablemente el fondo en lugar del animal: un conjunto de datos no representativo conduce a una característica sustituta.

Transfer Learning

Aprendizaje automático

Transfer Learning – aprendizaje por transferencia – es una técnica del aprendizaje automático en la que un modelo ya entrenado se usa como punto de partida para una nueva tarea relacionada. Imagina que llevas años aprendiendo francés y comienzas ahora con italiano: no partes de cero, sino que aprovechas tu conocimiento del idioma como base. Así funciona el Transfer Learning: una red neuronal entrenada con millones de imágenes para reconocer objetos cotidianos puede usar sus habilidades de reconocimiento de patrones para una tarea más especializada, como el diagnóstico de melanoma. En la práctica existen dos estrategias principales: en la extracción de características, las capas inferiores de la red, que reconocen rasgos básicos como bordes y texturas, se congelan y solo se reentrenan las capas superiores para la nueva tarea. En el ajuste fino (fine-tuning), en cambio, se sigue entrenando con una tasa de aprendizaje pequeña sobre varias capas o todas ellas, de modo que las características transferidas también se adaptan ligeramente a la nueva tarea. Ambos enfoques ahorran tiempo de entrenamiento y recursos computacionales, y con frecuencia ofrecen mejores resultados, especialmente cuando los datos disponibles para la nueva tarea son escasos.

Ejemplo:

Un modelo de IA entrenado con millones de fotos de animales se adapta para detectar enfermedades de la piel. Las capas inferiores, que reconocen rasgos básicos de imagen, permanecen inalteradas, mientras que solo las capas superiores se reentrenan con datos médicos — en lugar de años, el entrenamiento dura apenas unos días.

Transferencia de estilo

Visión por computador

La Transferencia de estilo (Style Transfer) es una técnica de visión por ordenador que separa el 'contenido' de una imagen del 'estilo' de otra y recombina ambos componentes. El resultado: una foto que parece pintada por Van Gogh o Picasso, pero que conserva la estructura y los objetos de la foto original. La técnica fue popularizada en 2015 por el artículo 'A Neural Algorithm of Artistic Style' de Gatys, Ecker y Bethge, y utiliza redes neuronales convolucionales. El principio fundamental: las CNN aprenden durante la clasificación de imágenes características jerárquicas: las capas tempranas capturan bordes y texturas, las capas profundas objetos y estructuras. La transferencia de estilo optimiza una nueva imagen de modo que en una capa profunda se parezca a la imagen de contenido (mismos objetos, misma composición). El estilo, en cambio, no se vincula a una sola capa, sino que se captura mediante las llamadas matrices de Gram: las correlaciones entre los mapas de características, calculadas a lo largo de varias capas (desde las tempranas hasta las profundas). Estas correlaciones codifican las pinceladas y las texturas de color con independencia de la disposición concreta. Los enfoques modernos utilizan también GAN o modelos de difusión. La técnica no solo resulta artísticamente interesante, sino que ilustra además cómo las redes neuronales representan la información visual de forma jerárquica. Hoy existen numerosas aplicaciones que aplican la transferencia de estilo en tiempo real en smartphones.

También conocido como:Traslación de estilo

Ejemplo:

Fotografías a tu perro en el parque. Con la transferencia de estilo combinas esta foto con 'La noche estrellada' de Van Gogh. El resultado: tu perro en el parque, pero pintado con el característico trazo arremolinado de Van Gogh. Contenido de la foto, estilo de la pintura.

Transformer

Aprendizaje profundo

Ética

Un vector es una lista ordenada de números que, en la IA, sitúa un objeto como punto en un espacio de alta dimensión — donde las distancias y las direcciones en ese espacio codifican significado (en ese caso se habla de embedding). Imagina que describes a una persona con los números [1,75 m, 70 kg, 25 años]: eso es un vector sencillo de tres dimensiones. En la IA los vectores funcionan igual, solo que con muchos más números. La palabra 'gato' podría representarse como un vector de 300 números que codifica todas las propiedades relevantes del concepto. Lo notable: los conceptos similares quedan próximos en ese espacio — los vectores de 'gato' y 'perro' se parecen más entre sí que los de 'gato' y 'automóvil'. Estos vectores surgen del entrenamiento sobre grandes volúmenes de datos y permiten a los sistemas de IA 'calcular' con palabras, imágenes u otros datos complejos. Los vectores son el formato de intercambio universal entre el mundo humano de los significados y el mundo digital de los cálculos.

Ejemplo:

La palabra 'rey' se representa como un vector numérico [0,2; -0,5; 0,8; ...] de 300 dimensiones. Sorprendentemente, la operación 'rey' - 'hombre' + 'mujer' produce un vector muy similar al de la palabra 'reina'.

Video a Video

Visión por computador

Modelos de IA que transforman un video de entrada en un video de salida, a menudo preservando el movimiento mientras cambian estilo, textura o dominio. Similar a Imagen a Imagen, pero con el desafío adicional de la consistencia temporal - las transiciones entre fotogramas deben permanecer suaves. Las aplicaciones incluyen transferencia de estilo (video realista a caricatura), adaptación de dominio (día a noche, verano a invierno) y manipulación semántica.

También conocido como:Síntesis Video a Video

Ejemplo:

Un video realista de una persona caminando puede convertirse a estilo anime, preservando los movimientos y el tiempo. O un video de calle grabado durante el día se transforma en una escena nocturna - con iluminación consistente a través de todos los fotogramas.

Voice Cloning

Procesamiento del lenguaje natural

Herramientas

Un workflow es una secuencia definida de tareas o pasos con los que se estructura y frecuentemente se automatiza el procesamiento de procesos recurrentes. En la automatización de IA se conectan mediante él, por ejemplo, la recopilación de datos, la llamada al modelo y las notificaciones en un flujo continuo gestionado por un motor.

También conocido como:Flujo de trabajo, Proceso de trabajo

Ejemplo:

Un workflow de n8n recibe un correo electrónico, extrae el texto, lo envía a un LLM para su resumen y guarda automáticamente el resultado en una base de datos.

A

Accuracy

Contenido Relacionado

Adulación

Contenido Relacionado

Adversarial Examples

Contenido Relacionado

Agent Communication Languages (ACLs)

Contenido Relacionado

Agente de IA

Contenido Relacionado

Agente orquestador

Contenido Relacionado

AI Alignment

Contenido Relacionado

Ajuste de hiperparámetros

Contenido Relacionado

Algoritmo

Contenido Relacionado

Alineamiento

Contenido Relacionado

Alucinación

Contenido Relacionado

Análisis de componentes principales

Contenido Relacionado

Anthropic

Contenido Relacionado

API

Contenido Relacionado

Aprendizaje Automático (ML)

Contenido Relacionado

Aprendizaje No Supervisado

Contenido Relacionado

Aprendizaje por Refuerzo (RL)

Contenido Relacionado

Aprendizaje profundo

Contenido Relacionado

Arquitectura Transformer

Contenido Relacionado

Arquitecturas cognitivas

Contenido Relacionado

Arquitecturas de redes neuronales

Contenido Relacionado

Artificial General Intelligence (AGI)

Contenido Relacionado

Aumento de Datos

Contenido Relacionado

Auto-Atención

Contenido Relacionado

Autoencoder

Contenido Relacionado

Automation Bias

Contenido Relacionado

B

Backpropagation

Contenido Relacionado

Base de conocimiento

Contenido Relacionado

Benchmark

Contenido Relacionado

BERT

Contenido Relacionado

Bias

Contenido Relacionado

Bias-Variance-Tradeoff

Contenido Relacionado

Big Data

Contenido Relacionado

Boosting

Contenido Relacionado

C

Cabezas de atención

Contenido Relacionado

Cadena de Pensamiento (CoT)

Contenido Relacionado

Capacidades Emergentes

Contenido Relacionado

Capas Ocultas

Contenido Relacionado

Chatbot