Artificial Intelligence (AI)
Disciplina que busca que las máquinas realicen tareas que normalmente requieren inteligencia humana.
196 términos · 15 categorías
Todos los términos de IA en inglés (el uso estándar) con definiciones simples.
Disciplina que busca que las máquinas realicen tareas que normalmente requieren inteligencia humana.
Subcampo de la IA donde un sistema aprende a partir de datos en lugar de ser programado explícitamente.
ML basado en redes neuronales con múltiples capas.
IA especializada en una sola tarea (ej. jugar ajedrez).
IA hipotética capaz de realizar cualquier tarea intelectual humana.
Usado en: ch.16
IA que superaría ampliamente la inteligencia humana en todos los ámbitos.
Enfoque clásico basado en reglas y lógica formal.
Representación matemática aprendida a partir de datos.
Fase en la que un modelo entrenado realiza predicciones.
Fase en la que el modelo aprende a partir de los datos.
Aprendizaje a partir de datos etiquetados (entrada → salida conocida).
Aprendizaje sin etiquetas; el modelo descubre estructuras ocultas.
El modelo genera sus propias etiquetas a partir de los datos.
Usado en: ch.06
Aprendizaje por ensayo y error mediante recompensas.
Usado en: ch.08
Reutilizar un modelo entrenado en una tarea para otra similar.
Aprender a partir de muy pocos ejemplos.
Resolver una tarea sin haber visto ningún ejemplo durante el entrenamiento.
«Aprender a aprender» — entrenar un modelo para adaptarse rápidamente a nuevas tareas.
Entrenamiento distribuido sin centralizar los datos.
El modelo aprende nuevas tareas sin olvidar las anteriores.
Unidad de cálculo de una red, inspirada en la neurona biológica.
Conjunto de neuronas procesadas en paralelo.
Parámetros que ponderan las conexiones entre neuronas.
Término constante que se añade a la suma ponderada.
Función no lineal aplicada a la salida de una neurona.
Función de activación muy común: max(0, x).
Convierte un vector en una distribución de probabilidad.
Cálculo de la salida a partir de una entrada.
Cálculo de los gradientes para actualizar los pesos.
Usado en: ch.06
Algoritmo que ajusta los pesos para minimizar el error.
Usado en: ch.01, ch.03, ch.04, ch.05, ch.06, ch.08, ch.14, ch.21
Medida del error entre la predicción y el valor real.
Función de pérdida estándar para clasificación.
Algoritmo que dirige la actualización de los pesos (Adam, SGD, etc.).
Tamaño de los pasos durante el descenso de gradiente.
Usado en: ch.06
Un recorrido completo sobre el conjunto de entrenamiento.
Subconjunto de datos procesado a la vez.
Red donde la información circula en un solo sentido.
Red feedforward clásica con capas densas.
Especializada en imágenes mediante filtros convolucionales.
Procesa secuencias manteniendo un estado interno.
Usado en: ch.04
RNN mejorado para memorizar dependencias a largo plazo.
Usado en: ch.04
Arquitectura basada en atención, dominante en IA desde 2017.
Usado en: ch.01, ch.02, ch.04, ch.05, ch.07, ch.08, ch.10, ch.15, ch.17, ch.18, ch.20, ch.21
Cada posición de una secuencia atiende a las demás posiciones.
Usado en: ch.01, ch.03, ch.04, ch.05, ch.07, ch.08, ch.09, ch.15, ch.17, ch.18, ch.21
Varios mecanismos de atención en paralelo.
Arquitectura clásica para traducción y generación.
Usado en: ch.15
Inyecta el orden de las palabras en un Transformer.
Usado en: ch.05
Codificación de posición rotativa moderna, frecuente en LLMs.
Usado en: ch.05
Conexión que salta capas para estabilizar el entrenamiento.
Normalización para estabilizar el entrenamiento.
Varios sub-modelos especializados activados de forma selectiva.
Usado en: ch.05
Modelo generativo que aprende a eliminar ruido de una imagen paso a paso.
Dos redes en competencia (generador vs. discriminador).
Transformer aplicado a imágenes.
Arquitectura alternativa al Transformer para secuencias largas.
Disciplina del procesamiento del lenguaje natural por máquinas.
Usado en: ch.15
División de un texto en unidades llamadas tokens.
Unidad básica procesada por un modelo (palabra, sub-palabra o carácter).
Usado en: ch.01, ch.02, ch.03, ch.04, ch.05, ch.06, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.13, ch.14, ch.15, ch.17, ch.18, ch.19, ch.20, ch.21
Algoritmo de tokenización muy utilizado.
Usado en: ch.02
Otros algoritmos de tokenización.
Usado en: ch.02
Conjunto de tokens conocidos por el modelo.
Representación vectorial densa de una palabra o token.
Usado en: ch.01, ch.03, ch.04, ch.05, ch.10, ch.11, ch.15, ch.21
Técnica clásica de embeddings de palabras.
Embedding que depende del contexto de la oración.
Identificación de entidades (personas, lugares…).
Detección del tono o sentimiento de un texto.
Reconocimiento de voz (audio → texto).
Síntesis de voz (texto → audio).
Usado en: ch.15
Modelo que predice la probabilidad de una secuencia de palabras.
Modelo de lenguaje enorme entrenado con miles de millones de palabras.
Usado en: ch.01, ch.02, ch.03, ch.04, ch.05, ch.06, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.13, ch.15, ch.16, ch.17, ch.18, ch.20
Modelo generalista reutilizable para muchas tareas.
IA capaz de producir contenido (texto, imagen, audio…).
Entrenamiento inicial sobre grandes cantidades de datos brutos.
Ajuste de un modelo pre-entrenado para una tarea específica.
Usado en: ch.01, ch.08, ch.09, ch.11, ch.13, ch.14, ch.17, ch.19, ch.20
Fine-tuning para seguir instrucciones humanas.
Ajuste del modelo usando retroalimentación humana.
Alternativa simplificada al RLHF.
Método de alineación basado en un conjunto de principios.
Usado en: ch.08
Texto de entrada que se proporciona al modelo.
Usado en: ch.01, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.17, ch.18, ch.21
Instrucciones generales dadas al modelo antes de la conversación.
Arte de formular prompts eficaces.
Usado en: ch.12
Incitar al modelo a razonar paso a paso.
Proporcionar algunos ejemplos dentro del prompt.
Capacidad del modelo de aprender a partir de ejemplos incluidos en el prompt.
Cantidad de texto que el modelo puede procesar a la vez.
Controla la aleatoriedad de las respuestas (baja = determinista, alta = creativa).
Muestreo entre los k tokens más probables.
Muestreo entre un subconjunto que acumula el p% de probabilidad.
Elegir siempre el token más probable.
Usado en: ch.07
Explora varias secuencias candidatas en paralelo.
Usado en: ch.07
El modelo inventa información falsa pero plausible.
El modelo recupera documentos externos antes de responder.
Base de datos que almacena y busca embeddings.
Búsqueda por similitud de significado, no solo de palabras.
LLM optimizado para razonar en profundidad antes de responder.
Modelo que maneja varios tipos de entrada (texto, imagen, audio…).
Modelo que comprende texto e imagen.
Generación de imágenes a partir de texto.
Técnica de fine-tuning ligero basada en matrices de bajo rango.
Usado en: ch.14
LoRA combinado con cuantización para ahorrar memoria.
Familia de métodos de fine-tuning eficientes en parámetros.
Usado en: ch.14
Sistema de IA que persigue un objetivo mediante múltiples pasos y herramientas.
Capacidad del modelo para llamar a funciones externas.
Usado en: ch.11
Patrón que alterna razonamiento y acción.
Usado en: ch.11
Capacidad de un agente para descomponer un objetivo en sub-tareas.
Varios agentes que colaboran o se coordinan.
Protocolo estándar para conectar herramientas a un LLM.
Usado en: ch.11
Capacidad de un agente para usar un ordenador.
Usado en: ch.11
IA que actúa de forma autónoma en un entorno.
Conjunto de datos utilizado para entrenar o evaluar un modelo.
Datos para entrenar, ajustar y evaluar.
Respuesta correcta asociada a un ejemplo.
Acción de asociar etiquetas a los datos.
Generar artificialmente más datos.
Datos generados artificialmente, por ejemplo mediante IA.
Variable de entrada del modelo.
Usado en: ch.20
Creación manual de variables relevantes.
Codificar una categoría como vector binario.
Cambio progresivo de los datos respecto al entrenamiento.
Filtración de información del conjunto de prueba al de entrenamiento (resultados engañosamente buenos).
Parámetro fijado antes del entrenamiento (tasa de aprendizaje, tamaño de batch…).
Evaluación mediante múltiples divisiones de los datos.
El modelo memoriza los datos de entrenamiento y generaliza mal.
Usado en: ch.06
El modelo es demasiado simple para captar la señal.
Técnicas que previenen el sobreajuste.
Usado en: ch.06
Desactiva aleatoriamente neuronas durante el entrenamiento.
Detener el entrenamiento cuando el error de validación vuelve a subir.
Los gradientes se vuelven demasiado pequeños para entrenar.
El modelo olvida tareas antiguas al aprender nuevas.
Transferir el conocimiento de un modelo grande a uno pequeño.
Usado en: ch.21
Eliminar pesos innecesarios para aligerar el modelo.
Reducir la precisión numérica de los pesos.
Relaciones entre tamaño del modelo, datos, cómputo y rendimiento.
Porcentaje de predicciones correctas.
De las predicciones positivas, cuántas son correctas.
De los positivos reales, cuántos son recuperados.
Media armónica de la precisión y el recall.
Tabla cruzada de predicciones frente a valores reales.
Curva y área bajo la curva para evaluar un clasificador.
Medida de incertidumbre de un modelo de lenguaje (menor es mejor).
Métricas para traducción y resumen automáticos.
Medida de calidad de las imágenes generadas.
Prueba estandarizada para comparar modelos (MMLU, HumanEval…).
Usado en: ch.16
Pruebas adversariales para encontrar fallos en un modelo.
Entidad que toma decisiones en un entorno.
Mundo en el que el agente actúa.
Estrategia del agente (estado → acción).
Señal numérica que indica la calidad de una acción.
Algoritmo de RL basado en la estimación de Q.
Algoritmo de RL muy utilizado, especialmente en RLHF.
Dilema entre explorar lo nuevo y aprovechar lo conocido.
El agente explota la función de recompensa de formas no deseadas.
Usado en: ch.11
Área de la IA que procesa imágenes y vídeos.
Asignar una categoría a una imagen.
Localizar y clasificar objetos en una imagen.
Etiquetar cada píxel con una clase.
Reconocimiento de texto en una imagen.
Modelos clásicos de detección de objetos.
Modelo universal de segmentación.
Representación 3D de una escena aprendida a partir de imágenes.
Lograr que la IA persiga objetivos alineados con los valores humanos.
Campo de estudio para que la IA sea fiable y segura.
Entrada diseñada para engañar a un modelo.
Eludir las medidas de seguridad de un LLM.
Usado en: ch.08
Inyección maliciosa de instrucciones en un prompt.
Usado en: ch.12
Sesgo en los datos o en las predicciones del modelo.
Equidad en las decisiones algorítmicas.
Capacidad de entender por qué un modelo toma una decisión.
Estudio del funcionamiento interno de las redes neuronales.
Método formal de protección de la privacidad.
Contenido falsificado mediante IA.
Desajuste entre los objetivos reales y los aparentes del modelo.
Modelo que predice la calidad de una respuesta según criterios humanos.
Gobernanza y regulación de la IA.
Procesador gráfico, muy utilizado para IA.
Chip especializado en IA diseñado por Google.
Plataforma de cómputo GPU de Nvidia.
Operaciones de punto flotante por segundo.
Entrenamiento repartido entre varias máquinas.
Mismos pesos, datos diferentes en cada GPU.
El modelo se divide entre varias GPUs.
Principales frameworks de deep learning.
Plataforma de modelos, datasets y herramientas de ML.
Formato estándar para intercambiar modelos entre frameworks.
IA ejecutada en dispositivos embebidos.
Tiempo de respuesta del modelo.
Usado en: ch.18
Número de inferencias por segundo.
Prácticas DevOps aplicadas al ML.
Capacidades que aparecen de forma repentina a partir de cierto tamaño de modelo.
Usado en: ch.19
Aumentar tamaño, datos o cómputo para mejorar el rendimiento.
Modelo cuyos pesos están disponibles públicamente.
Modelo en la vanguardia del estado del arte.
Modelo de lenguaje compacto, optimizado para la eficiencia.
Inclusión del ser humano en el bucle de aprendizaje o de decisión.
Modelo interno de un agente que predice la evolución del entorno.
IA encarnada en un cuerpo físico (robot).
Ficha descriptiva de un modelo (capacidades, limitaciones, sesgos).