Cómo los agentes artificiales transformarán la vida, el trabajo y el conocimiento

Autor/a
Afiliación

Miguel Moreno

Universidad de Granada

Fecha de publicación

7 enero 2026


Prefacio

Este texto responde a la convicción de que estamos atravesando un momento de transformación tecnológica comparable a la invención de la imprenta o la revolución industrial, aunque con una velocidad de despliegue sin precedentes. Su contenido puede interesar a quienes comparten la inquietud por el abismo entre la sofisticación técnica de los sistemas de inteligencia artificial generativa y la tosquedad de buena parte del discurso público sobre sus implicaciones.

Entre el entusiasmo acrítico de los evangelistas tecnológicos y el encuadre catastrofista de quienes ven en cada avance una amenaza existencial existe un territorio escasamente explorado: el de la evaluación informada y contextualizada de lo que estas tecnologías pueden y no pueden hacer, de los problemas que resuelven y los que crean, de las oportunidades que abren y los riesgos que entrañan.

Esta monografía propone algunos elementos para orientarse en tan amplio espacio intermedio. Se dirige a lectores que no se conforman con titulares ni con jerga técnica impenetrable, sino que buscan comprender las bases conceptuales, los desarrollos recientes y las implicaciones de la inteligencia artificial generativa y agencial desde una perspectiva informada y crítica.

El enfoque adoptado incorpora aportaciones clave de la filosofía de la ciencia y la tecnología, una disciplina que lleva décadas estudiando cómo las innovaciones técnicas se entrelazan con valores sociales, estructuras económicas y configuraciones de poder. Esta perspectiva resulta especialmente valiosa cuando las promesas comerciales y las especulaciones sobre riesgos difusos oscurecen la comprensión de lo que realmente está en juego.

Los capítulos que siguen cubren desde los fundamentos técnicos de los grandes modelos de lenguaje hasta sus aplicaciones en medicina, ciencia, educación y producción creativa; desde los riesgos de ciberseguridad y desinformación hasta los desafíos para el empleo y la regulación. El tratamiento no es exhaustivo —la velocidad del campo lo haría imposible—, pero sí pretende ser riguroso en sus fuentes y equilibrado en sus valoraciones.

Una nota sobre la metodología: las referencias bibliográficas priorizan literatura académica revisada por pares, complementada con informes técnicos de organizaciones reconocidas y, cuando es pertinente, documentación primaria de los desarrolladores de estos sistemas. Los datos estadísticos provienen de fuentes verificables y se presentan con las cautelas apropiadas cuando su fiabilidad es limitada.

El texto incluye fragmentos de código R que permiten reproducir visualizaciones y análisis. Esta decisión responde a la convicción de que la transparencia metodológica es un valor irrenunciable en la producción de conocimiento, especialmente cuando se analizan tecnologías que plantean serios desafíos en cuanto a verificabilidad y rendición de cuentas.

Como criterio general, conviene tener presente que cualquier texto sobre aplicaciones en curso de la inteligencia artificial queda parcialmente obsoleto en el momento de su publicación. Los desarrollos entre el cierre de esta monografía y su lectura habrán añadido capacidades, revelado vulnerabilidades y alterado el panorama competitivo. Lo que permanece, sin embargo, son las preguntas fundamentales sobre qué tipo de tecnología queremos, quiénes deben decidirlo y cómo podemos asegurar que sus beneficios se distribuyan de manera justa mientras se mitigan sus riesgos. Esas preguntas, y las herramientas conceptuales para abordarlas, son el verdadero objeto de este trabajo.


1 Introducción: La inteligencia como artefacto

1.1 El momento presente

En noviembre de 2022, la empresa OpenAI lanzó al público ChatGPT, una interfaz conversacional construida sobre un modelo de lenguaje de gran escala. En apenas cinco días, el servicio alcanzó un millón de usuarios; en dos meses, superó los cien millones (Briggs et al., 2023). Ninguna tecnología de consumo había logrado una adopción tan veloz: ni Facebook (diez meses para alcanzar el millón), ni Instagram (dos meses y medio), ni TikTok (nueve meses). En retrospectiva, ese lanzamiento marcó un punto de inflexión: la IA dejó de ser un tema de laboratorio y conferencias especializadas para convertirse en objeto de conversación cotidiana, preocupación política y estrategia empresarial.

Tres años después, a finales de 2025, el panorama se ha transformado radicalmente. Según datos de la Real-Time Population Survey de la Reserva Federal de St. Louis, el 23% de los trabajadores estadounidenses utiliza herramientas de IA generativa al menos una vez por semana en su actividad laboral, una tasa de adopción extraordinaria para una tecnología con apenas tres años de despliegue masivo (Ozkan & Sullivan, 2025). Los modelos de lenguaje han crecido en capacidad y se han diversificado en aplicaciones: sistemas como GPT-4 (OpenAI, 2023), Claude (Anthropic, 2024), Gemini y LLaMA compiten en un mercado cuya inversión privada superó los 94.000 millones de dólares anuales a nivel global en 2021 y continúa creciendo exponencialmente (Briggs et al., 2023).

Código
# ==============================================================================
# DATOS DE INVERSIÓN GLOBAL EN IA (2014-2025)
# Fuentes: Stanford HAI AI Index Report 2025, Goldman Sachs Global Investment 
#          Research, Crunchbase 2025, KPMG Venture Pulse Q3 2025
# ==============================================================================

# Inversión corporativa total en IA (incluye private equity, M&A, minority stakes)
inversion_global <- tibble(
  año = 2014:2025,
  # Datos: Stanford AI Index 2025 reporta crecimiento 13x desde 2014
  # 2021: $94bn (Goldman Sachs 2023), 2024: $252.3bn (Stanford HAI 2025)
  inversion_total = c(19.4, 26.2, 36.0, 50.1, 65.3, 75.0, 80.1, 94.0, 
                      91.3, 143.2, 252.3, 320.0),
  # IA Generativa: despegue post-ChatGPT (nov 2022)
  # Datos: Crunchbase, EY Ireland GenAI Report 2025
  ia_generativa = c(0.3, 0.4, 0.5, 0.8, 1.2, 1.8, 2.5, 3.2, 
                    4.0, 24.0, 33.9, 80.0),
  tipo = "Observado"
)

# Marcar 2025 como proyección/parcial
inversion_global$tipo[12] <- "Proyección 2025"

# Gráfico principal: evolución temporal
p1 <- ggplot(inversion_global, aes(x = año)) +
  # Área sombreada para IA generativa
  geom_area(aes(y = ia_generativa), 
            fill = "#e74c3c", alpha = 0.3) +
  # Línea de inversión total
  geom_line(aes(y = inversion_total, color = "Inversión total en IA"), 
            linewidth = 1.2) +
  geom_point(aes(y = inversion_total, shape = tipo), 
             size = 3, color = "#2c3e50") +
  # Línea de IA generativa
  geom_line(aes(y = ia_generativa, color = "IA Generativa"), 
            linewidth = 1.2) +
  geom_point(aes(y = ia_generativa, shape = tipo), 
             size = 3, color = "#e74c3c") +
  # Anotación ChatGPT
  annotate("segment", x = 2022.9, xend = 2022.9, y = 0, yend = 150,
           linetype = "dashed", color = "gray50", linewidth = 0.5) +
  annotate("text", x = 2022.9, y = 160, 
           label = "ChatGPT\n(nov 2022)", 
           size = 3, color = "gray40", hjust = 0.5) +
  # Anotación del crecimiento
  annotate("text", x = 2019, y = 220, 
           label = "Crecimiento 13x\ndesde 2014",
           size = 3.5, fontface = "italic", color = "gray50") +
  annotate("curve", x = 2019, y = 200, xend = 2024, yend = 252,
           arrow = arrow(length = unit(0.2, "cm")),
           curvature = 0.3, color = "gray50") +
  # Escalas y etiquetas
  scale_y_continuous(
    labels = scales::label_dollar(suffix = "B", scale = 1),
    breaks = seq(0, 350, 50),
    expand = expansion(mult = c(0, 0.1))
  ) +
  scale_x_continuous(breaks = 2014:2025) +
  scale_color_manual(
    values = c("Inversión total en IA" = "#2c3e50", 
               "IA Generativa" = "#e74c3c"),
    name = NULL
  ) +
  scale_shape_manual(
    values = c("Observado" = 16, "Proyección 2025" = 17),
    name = NULL
  ) +
  labs(
    title = "La explosión de la inversión en IA: de $19B a $320B en una década",
    subtitle = "Inversión corporativa global (private equity, fusiones, adquisiciones)",
    x = NULL,
    y = "Miles de millones USD",
    caption = "Fuentes: Stanford HAI AI Index 2025; Goldman Sachs (2023); Crunchbase (2025); KPMG Venture Pulse Q3'25"
  ) +
  theme_monografia() +
  theme(
    legend.position = c(0.15, 0.85),
    legend.background = element_rect(fill = "white", color = NA),
    panel.grid.major.x = element_blank()
  )

print(p1)
Figura 1: Evolución de la inversión global en IA (2014-2025). La línea superior muestra la inversión corporativa total en IA; la línea inferior representa la inversión específica en IA generativa, que despegó tras el lanzamiento de ChatGPT en noviembre de 2022.
Código
# ==============================================================================
# INVERSIÓN POR PAÍS (2024)
# Fuente: Stanford HAI AI Index Report 2025, Economy Chapter
# ==============================================================================

inversion_paises <- tibble(
  pais = c("Estados Unidos", "China", "Reino Unido", "Francia", 
           "Alemania", "Canadá", "Israel", "India", "Japón", "Resto del mundo"),
  inversion_2024 = c(109.1, 9.3, 4.5, 2.8, 2.1, 1.8, 1.6, 1.2, 0.9, 10.0),
  region = c("América", "Asia", "Europa", "Europa", "Europa", 
             "América", "Oriente Medio", "Asia", "Asia", "Otros")
)

# Calcular porcentajes
total_2024 <- sum(inversion_paises$inversion_2024)
inversion_paises <- inversion_paises %>%
  mutate(
    porcentaje = inversion_2024 / total_2024 * 100,
    etiqueta = paste0("$", round(inversion_2024, 1), "B\n(", round(porcentaje, 1), "%)")
  )

# Ordenar por inversión
inversion_paises <- inversion_paises %>%
  mutate(pais = fct_reorder(pais, inversion_2024))

# Colores por región
colores_region <- c(
  "América" = "#3498db",
  "Asia" = "#e74c3c", 
  "Europa" = "#2ecc71",
  "Oriente Medio" = "#f39c12",
  "Otros" = "#95a5a6"
)

p2 <- ggplot(inversion_paises, aes(x = pais, y = inversion_2024, fill = region)) +
  geom_col(width = 0.7, alpha = 0.85) +
  geom_text(aes(label = paste0("$", round(inversion_2024, 1), "B")),
            hjust = -0.1, size = 3.5, fontface = "bold") +
  coord_flip(clip = "off") +
  scale_y_continuous(
    labels = scales::label_dollar(suffix = "B"),
    expand = expansion(mult = c(0, 0.15))
  ) +
  scale_fill_manual(values = colores_region, name = "Región") +
  labs(
    title = "Hegemonía estadounidense en la inversión en IA (2024)",
    subtitle = "EE.UU. invierte casi 12 veces más que China y 24 veces más que Reino Unido",
    x = NULL,
    y = "Inversión privada en IA (miles de millones USD)",
    caption = "Fuente: Stanford HAI AI Index Report 2025, Economy Chapter"
  ) +
  theme_monografia() +
  theme(
    legend.position = c(0.85, 0.25),
    legend.background = element_rect(fill = "white", color = "gray90"),
    panel.grid.major.y = element_blank()
  )

print(p2)
Figura 2: Distribución geográfica de la inversión privada en IA (2024). Estados Unidos concentra el 76% de la inversión global, superando en casi 12 veces a China y en 24 veces al Reino Unido.
Código
# ==============================================================================
# PROYECCIÓN DE GASTO EN IA (2024-2028)
# Fuente: Gartner (septiembre 2025)
# ==============================================================================

proyeccion_gasto <- tibble(
  año = 2024:2028,
  # Gartner: $1.5T en 2025, >$2T en 2026
  gasto_total = c(1040, 1500, 2100, 2750, 3400),
  # Desglose aproximado por categoría
  infraestructura = c(380, 550, 750, 950, 1150),
  software_ia = c(280, 420, 600, 800, 1000),
  servicios = c(220, 330, 480, 650, 820),
  ia_embebida = c(160, 200, 270, 350, 430)
)

# Transformar a formato largo para visualización apilada
proyeccion_largo <- proyeccion_gasto %>%
  pivot_longer(
    cols = c(infraestructura, software_ia, servicios, ia_embebida),
    names_to = "categoria",
    values_to = "valor"
  ) %>%
  mutate(
    categoria = case_when(
      categoria == "infraestructura" ~ "Infraestructura (GPUs, data centers)",
      categoria == "software_ia" ~ "Software y plataformas IA",
      categoria == "servicios" ~ "Servicios profesionales",
      categoria == "ia_embebida" ~ "IA embebida en productos"
    ),
    categoria = factor(categoria, levels = c(
      "IA embebida en productos",
      "Servicios profesionales", 
      "Software y plataformas IA",
      "Infraestructura (GPUs, data centers)"
    ))
  )

# Gráfico de áreas apiladas
p3 <- ggplot(proyeccion_largo, aes(x = año, y = valor, fill = categoria)) +
  geom_area(alpha = 0.85, color = "white", linewidth = 0.3) +
  # Línea de total
  geom_line(data = proyeccion_gasto, aes(x = año, y = gasto_total, fill = NULL),
            linewidth = 1.2, color = "#2c3e50", linetype = "dashed") +
  geom_point(data = proyeccion_gasto, aes(x = año, y = gasto_total, fill = NULL),
             size = 3, color = "#2c3e50") +
  # Etiquetas de total
  geom_text(data = proyeccion_gasto, 
            aes(x = año, y = gasto_total + 150, label = paste0("$", gasto_total/1000, "T"), fill = NULL),
            size = 3.5, fontface = "bold") +
  scale_y_continuous(
    labels = scales::label_dollar(suffix = "B", scale = 1),
    breaks = seq(0, 3500, 500),
    expand = expansion(mult = c(0, 0.1))
  ) +
  scale_x_continuous(breaks = 2024:2028) +
  scale_fill_viridis_d(option = "plasma", begin = 0.1, end = 0.9, direction = -1) +
  labs(
    title = "El gasto mundial en IA superará los $3 billones en 2028",
    subtitle = "Proyección del mercado de IA por categoría de gasto",
    x = NULL,
    y = "Miles de millones USD",
    fill = "Categoría",
    caption = "Fuente: Gartner (septiembre 2025). Proyecciones basadas en tendencias de adopción empresarial."
  ) +
  theme_monografia() +
  theme(
    legend.position = "bottom",
    legend.box = "horizontal",
    panel.grid.major.x = element_blank()
  ) +
  guides(fill = guide_legend(nrow = 2))

print(p3)
Figura 3: Proyección del gasto mundial en IA según Gartner (2024-2028). Se espera que el gasto total supere los $1.5 billones en 2025, impulsado por infraestructura y servicios de IA generativa.
NotaNota metodológica sobre las fuentes de datos

Los datos de inversión en IA provienen de múltiples fuentes complementarias:

Las cifras de 2025 incluyen datos parciales (primer semestre) y proyecciones basadas en tendencias observadas. Los datos de IA generativa específicamente comenzaron a rastrearse de forma sistemática a partir de 2022.

La IA generativa se ha infiltrado en prácticamente todos los sectores: redacta documentos legales, genera código informático con ganancias de productividad del 55% en tareas específicas (Peng et al., 2023), asiste en diagnósticos médicos con rendimiento comparable al de especialistas en determinados benchmarks (Singhal, Azizi, et al., 2023), produce imágenes y vídeos sintéticos de realismo inquietante, y —lo más significativo para esta monografía— potencia agentes autónomos capaces de ejecutar flujos de trabajo complejos con mínima supervisión humana. Proyectos como Agent Laboratory demuestran que sistemas basados en LLMs pueden ya conducir el ciclo completo de investigación científica: revisión de literatura, diseño experimental, ejecución de código, análisis de resultados y redacción de informes (Schmidgall et al., 2025).

Esta velocidad de despliegue contrasta con la lentitud de la reflexión sistemática. Las instituciones educativas, los marcos regulatorios y los dispositivos conceptuales arbitrados para entender o interpretar la tecnología se han visto desbordados. No es solo que la IA avance más rápido que la legislación —algo habitual con las innovaciones disruptivas—, sino que plantea desafíos categoriales inéditos:

  • ¿Cómo regular un sistema cuyo comportamiento exhibe capacidades emergentes que sus propios creadores no anticiparon ni pueden predecir con precisión? (Wei et al., 2022)
  • ¿Cómo atribuir responsabilidad cuando las decisiones emergen de redes neuronales con cientos de miles de millones de parámetros, operando como “loros estocásticos” que ensamblan patrones sin referencia a significado? (Bender et al., 2021)
  • ¿Cómo preservar la integridad del conocimiento cuando entre el 6,5% y el 16,9% de las revisiones por pares en conferencias de machine learning muestran indicios de contenido generado o modificado sustancialmente por IA? (Liang et al., 2024)
  • ¿Cómo preparar un mercado laboral donde aproximadamente el 80% de los trabajadores están en ocupaciones con al menos el 10% de sus tareas expuestas a automatización por LLMs, y donde los profesionales cognitivos de alta cualificación —paradójicamente— enfrentan mayor exposición que los trabajadores manuales? (Eloundou et al., 2024)

1.2 La inteligencia distribuida: de herramientas a agentes

El título de esta monografía incluye la noción de inteligencia distribuida para capturar un fenómeno que trasciende la idea tradicional de “herramientas de IA”. No se alude simplemente a software que ejecuta instrucciones, sino a sistemas capaces de planificar, ejecutar acciones en el mundo, aprender de la retroalimentación y coordinarse con otros agentes —humanos o artificiales— para alcanzar objetivos complejos.

Esta transición de modelos a agentes representa un cambio cualitativo. Como señala Luciano Floridi (Floridi, 2023a), estamos ante un divorcio sin precedentes entre agencia e inteligencia: los modelos de lenguaje exhiben capacidades de acción y producción consideradas exclusivas de entidades inteligentes, mientras carecen de comprensión, intencionalidad o consciencia en cualquier sentido filosóficamente robusto. Son agentes sin ser inteligentes; operan sin comprender.

Esta distinción tiene consecuencias prácticas inmediatas. Un agente artificial puede:

  • Navegar por internet, extraer información y sintetizarla
  • Escribir y ejecutar código para resolver problemas
  • Interactuar con APIs y servicios externos
  • Colaborar con otros agentes especializados en flujos de trabajo multi-agente
  • Tomar decisiones autónomas dentro de parámetros definidos

La arquitectura de sistemas multi-agente, donde diversos LLMs especializados colaboran distribuidos en roles diferenciados (investigador, programador, revisor, coordinador), anticipa un futuro donde la “inteligencia” no residirá en entidades discretas sino en redes de agentes interconectados (Schmidgall et al., 2025; Tran et al., 2025). Esta distribución de la cognición artificial por las infraestructuras digitales de la sociedad es lo que justifica hablar de una inteligencia distribuida emergente.

1.3 Dimensiones del impacto: vida, trabajo, conocimiento

Las proyecciones económicas sugieren impactos sustanciales. Goldman Sachs estima que la IA generativa podría incrementar el PIB global en un 7% —aproximadamente 7 billones de dólares— en un horizonte de diez años, y elevar el crecimiento de la productividad laboral en 1,5 puntos porcentuales anuales en Estados Unidos (Briggs et al., 2023). Sin embargo, estas cifras agregadas ocultan distribuciones desiguales: el estudio de Eloundou et al. publicado en Science muestra que las ocupaciones con mayor exposición a LLMs son precisamente las de mayor cualificación y salario —abogados, analistas financieros, programadores, científicos de datos— mientras que trabajos manuales y de servicios presenciales permanecen relativamente protegidos (Eloundou et al., 2024).

Evidencia reciente de la Reserva Federal de St. Louis correlaciona la exposición teórica a IA con incrementos reales en tasas de desempleo ocupacional (correlación de 0,47), particularmente en el sector tecnológico (Ozkan & Sullivan, 2025). Aunque esta correlación no implica causalidad directa, señala que podríamos estar presenciando las primeras fases de un desplazamiento laboral impulsado por IA que, a diferencia de revoluciones tecnológicas previas, afecta directamente a trabajadores del conocimiento.

En el ámbito del conocimiento, la infiltración de contenido sintético plantea preguntas sobre la epistemología misma de la producción científica. Cuando muchos revisores por pares utilizan LLMs para generar evaluaciones —y el 82,8% de estas revisiones sintéticas son clasificadas como “escritas por humanos” por los detectores automáticos (Zhu et al., 2025)—, cuando miles de artículos incorporan texto sintético sin declaración, cuando múltiples conjuntos de datos de entrenamiento se contaminan con outputs de modelos previos, los cimientos de la confianza epistémica se erosionan de formas difíciles de detectar y remediar.

1.4 Objetivos y alcance

Esta monografía tiene un cuádruple propósito, ajustado al marco de la inteligencia distribuida:

  1. Proporcionar contexto técnico y perspectiva histórica sobre los desarrollos en IA generativa y sistemas agenciales posteriores a 2022, explicando las tecnologías subyacentes —arquitecturas Transformer (Vaswani et al., 2017), aprendizaje por refuerzo con retroalimentación humana, sistemas multi-agente— con rigor pero sin exigir conocimientos técnicos previos altamente especializados.

  2. Documentar aplicaciones y casos de uso en sectores clave —investigación científica, medicina, educación, desarrollo de software— distinguiendo entre capacidades demostradas empíricamente, promesas plausibles y exageraciones comerciales. Se presta particular atención a los sistemas agenciales emergentes.

  3. Analizar riesgos y desafíos desde perspectivas éticas, epistémicas, legales, económicas y de seguridad, aportando elementos para una evaluación crítica que trascienda tanto el utopismo tecnológico como el catastrofismo especulativo.

  4. Examinar respuestas institucionales y regulatorias, desde el AI Act europeo (European Parliament and Council, 2024; Novelli et al., 2025) hasta el marco de gestión de riesgos del NIST (National Institute of Standards and Technology, 2023) y las órdenes ejecutivas estadounidenses (The White House, 2023), evaluando su adecuación a la velocidad y naturaleza de los desarrollos.

El público objetivo incluye investigadores predoctorales y postdoctorales, estudiantes de posgrado y profesionales de diversas disciplinas —humanidades, filosofía, informática, ciencias de la vida, derecho— que busquen una visión panorámica, actualizada y rigurosamente documentada del estado actual del campo.

NotaSobre las fuentes

Esta monografía prioriza literatura científica con revisión por pares, informes técnicos de organizaciones reconocidas (Stanford HAI, NIST, Goldman Sachs Research) y documentación regulatoria oficial. Cuando se recurre a fuentes periodísticas o comerciales, se indica explícitamente y se contrasta con evidencia académica cuando está disponible.

Finalmente, una advertencia: cualquier texto sobre IA generativa queda parcialmente obsoleto en el momento de su publicación. Los desarrollos entre el cierre de esta monografía y su lectura habrán añadido capacidades, revelado vulnerabilidades y alterado el panorama competitivo. Lo que permanece, sin embargo, son las preguntas fundamentales sobre qué tipo de tecnología queremos, quién debe decidirlo y cómo podemos asegurar que sus beneficios se distribuyan de manera justa mientras se mitigan sus riesgos. Esas preguntas, y las herramientas conceptuales para abordarlas, son el verdadero objeto de este trabajo.

1.5 Marco conceptual: De los estudios CTS clásicos al análisis crítico de la IA generativa

El análisis que sigue se inscribe en la tradición de los Estudios de Ciencia, Tecnología y Sociedad (CTS), pero reconoce desde el inicio una tensión fundamental: los marcos conceptuales desarrollados para comprender tecnologías industriales, nucleares o biotecnológicas del siglo XX resultan insuficientes para captar la especificidad de los sistemas de IA generativa. Los conceptos clásicos de Jasanoff, Collingridge y Winner siguen siendo útiles como punto de partida, pero requieren una actualización sustancial a la luz de la investigación contemporánea que ha emergido específicamente para abordar los desafíos epistémicos, políticos y materiales de la IA.

1.5.1 Los clásicos CTS: utilidad y limitaciones

Tres conceptos fundacionales de la tradición CTS proporcionan intuiciones valiosas, aunque incompletas:

La coproducción de ciencia y orden social (Jasanoff, 2004) señala que los sistemas técnicos no son herramientas neutrales aplicadas a problemas preexistentes, sino que reconfiguran las prácticas, categorías y relaciones de poder en los dominios donde operan. Esta intuición se amplifica en el contexto de la IA generativa: un modelo de lenguaje no solo “asiste” en la escritura; transforma las prácticas de producción textual, redistribuye la autoridad epistémica y altera los patrones de responsabilidad profesional en dominios tan diversos como el periodismo, la educación o la práctica clínica.

El dilema de Collingridge (Collingridge, 1980) advierte que las tecnologías son más fáciles de modificar cuando están poco desarrolladas, pero en ese momento es difícil prever sus impactos; cuando los impactos se hacen evidentes, la tecnología está ya consolidada y es difícil de cambiar. Sin embargo, este dilema adquiere una complejidad sin precedentes con la IA generativa: no se trata simplemente de una tecnología difícil de modificar una vez consolidada, sino de sistemas cuyas propiedades emergen de manera impredecible con la escala, cuyo comportamiento no puede anticiparse completamente ni siquiera por sus desarrolladores (Wei et al., 2022).

Los artefactos tienen política (Winner, 1980) subraya que las opciones técnicas de diseño encarnan valores y distribuyen poder. Un modelo de lenguaje entrenado mayoritariamente con textos en inglés privilegia ciertas perspectivas culturales; un sistema de recomendación optimizado para el engagement puede amplificar la polarización. Pero Winner analizaba artefactos discretos (puentes, reactores nucleares); los modelos fundacionales son infraestructuras que subyacen a miles de aplicaciones diferentes, multiplicando exponencialmente su capacidad de inscribir valores específicos en contextos heterogéneos.

NotaNota metodológica

Los conceptos clásicos CTS fueron desarrollados para tecnologías con ciclos de desarrollo y despliegue medibles en décadas. La IA generativa opera en ciclos de meses, con capacidades que emergen de manera impredecible y despliegues masivos que preceden a cualquier evaluación sistemática de impacto.

1.5.2 Marcos contemporáneos para la IA generativa

La última década ha visto emerger un cuerpo de investigación interdisciplinar que aborda específicamente los desafíos conceptuales de la IA. Seis marcos resultan particularmente pertinentes para este análisis:

1. Modelos fundacionales y homogeneización sociotécnica

El informe del Stanford HAI sobre foundation models (Bommasani et al., 2021) introduce dos conceptos clave: emergencia y homogeneización. La emergencia refiere a capacidades que surgen de manera no programada explícitamente y a menudo inesperada cuando los modelos alcanzan cierta escala. La homogeneización señala la consolidación metodológica por la cual un número reducido de modelos base sustenta miles de aplicaciones diversas.

Esta homogeneización tiene consecuencias profundas: los defectos de un modelo fundacional se heredan aguas abajo por todas las aplicaciones que lo adaptan, creando lo que Bommasani y colaboradores denominan “monocultivos algorítmicos” susceptibles a fallos correlacionados y sistémicos (Bommasani et al., 2022). La naturaleza “fundamentalmente sociotécnica” de estos sistemas exige, según los autores, una colaboración interdisciplinar sin precedentes para comprender cómo funcionan, cuándo fallan y qué son realmente capaces de hacer.

2. IA como tecnología de extracción

Kate Crawford reconceptualizar la IA no como una tecnología inmaterial o abstracta, sino como una tecnología de extracción: extracción de minerales de la tierra, de trabajo de comunidades marginalizadas, de datos de cada acción y expresión humana (en una sección de Atlas of AI titulada: “What Is AI? Neither Artificial nor Intelligent”). Esta perspectiva materialista revela las redes planetarias de infraestructura, logística y poder que hacen posible la IA y que permanecen invisibles en los discursos técnicos convencionales (Crawford, 2021, pp. 7-8).

Crawford argumenta que la IA es “material y encarnada, hecha de recursos naturales, combustible, trabajo humano, infraestructuras, logísticas, historias y clasificaciones”. Los sistemas de IA no son autónomos ni racionales; dependen enteramente de estructuras políticas y sociales más amplias. Debido al capital requerido para construir IA a escala y a los modos de ver que optimiza, los sistemas de IA están “diseñados en última instancia para servir a intereses dominantes preexistentes”. En este sentido, la IA constituye un “registro de poder” (p. 8), versionado como “a tool of state power” (p. 17), “structure of power that combines infrastructure, capital, and labor” (p. 18), “geopolitical military power” (pp. 19, 32), “technocratic power” o “market power” (p. 20).

3. Loros estocásticos, escala y debate sobre la naturaleza de la IA

El artículo seminal de Bender, Gebru, McMillan-Major y Shmitchell (Bender et al., 2021) introdujo la metáfora del “loro estocástico” (stochastic parrot) para describir modelos de lenguaje que ensamblan secuencias de formas lingüísticas observadas en sus datos de entrenamiento según información probabilística sobre cómo se combinan, pero “sin ninguna referencia al significado”.

Más allá de la metáfora, el artículo identifica riesgos estructurales específicos: costos ambientales y financieros desproporcionados, inescrutabilidad que podría reforzar sesgos peligrosos desconocidos, potencial para el engaño, y la reproducción y amplificación de asociaciones problemáticas presentes en los datos de entrenamiento. Los autores enfatizan la importancia de invertir recursos en “curar y documentar cuidadosamente los conjuntos de datos en lugar de ingerir todo lo que hay en la web”, una recomendación que adquiere urgencia renovada con cada nuevo modelo entrenado en corpus de escala cada vez mayor.

La irrupción de los grandes modelos de lenguaje ha reavivado debates filosóficos latentes sobre la naturaleza de la inteligencia. Blaise Agüera-Arcas identifica dos respuestas arquetípicas ante las capacidades exhibidas por estos sistemas: negación —la IA no es realmente inteligente, solo simula serlo— y aceptación —estos sistemas exhiben una forma genuina de inteligencia, aunque diferente de la humana

Agüera adopta una posición funcionalista: lo que importa es la capacidad de modelar el entorno y actuar útilmente sobre él, no los detalles del sustrato (Agüera y Arcas et al., 2024, ch. 9). Su definición operativa de inteligencia como “la capacidad de comprender y actuar en un mundo complejo” enfatiza los resultados sobre los procesos:

“La inteligencia no se define por la cosa más tonta que haces, sino por la más inteligente. Si eres capaz de resolver problemas bastante sofisticados, incluso la mitad de las veces, entonces algo interesante está sucediendo.”

Agüera y Arcas (2025)

Esta posición se opone frontalmente a la metáfora del “loro estocástico” de Bender et al. (Bender et al., 2021). Agüera argumenta que si los modelos solo memorizaran, no podrían generalizar a problemas fuera de su entrenamiento: “ni siquiera multiplicar números de tres dígitos, porque si miras todas las combinaciones posibles ya es demasiado para memorizar”. El modelo tiene que haber descubierto cómo hacerlo.

La analogía que propone es reveladora: los aviones no baten las alas como los pájaros, pero vuelan aprovechando la misma física (ecuación de Bernoulli). Del mismo modo, la IA artificial podría implementar inteligencia por medios diferentes al cerebro biológico pero funcionalmente equivalentes. Esta perspectiva desafía tanto a quienes minimizan las capacidades actuales de los LLMs como a quienes atribuyen a estos sistemas propiedades mentales robustas.

4. Agencia sin inteligencia

Luciano Floridi (Floridi, 2023b, 2023a) propone una reconceptualización fundamental: la IA representa un divorcio sin precedentes entre agencia e inteligencia. Los modelos de lenguaje pueden procesar textos con éxito extraordinario, a menudo de manera indistinguible del editado por humanos, mientras carecen de cualquier inteligencia, comprensión o capacidad cognitiva genuina.

Esta perspectiva tiene implicaciones éticas profundas. Si la IA es mejor comprendida como una nueva forma de agencia (no de inteligencia), las preguntas relevantes no son sobre consciencia o comprensión, sino sobre responsabilidad, rendición de cuentas y las estructuras de poder que estos nuevos agentes artificiales encarnan y refuerzan. Floridi articula un marco de cinco principios éticos (beneficencia, no maleficencia, autonomía, justicia, explicabilidad) y enfatiza la importancia de la “ética blanda” (soft ethics) y la gobernanza anticipatoria.

El análisis de la agencia artificial adquiere dimensiones políticas explícitas en el trabajo de Mark Coeckelbergh (Coeckelbergh, 2020, 2024), quien advierte sobre la “erosión democrática” que se produce cuando sistemas automatizados toman decisiones que afectan a ciudadanos sin los mecanismos de rendición de cuentas propios de actores humanos e instituciones representativas. Para Coeckelbergh, la cuestión no es si los sistemas de IA “piensan” o “comprenden”, sino cómo su despliegue reconfigura las relaciones de poder y los espacios de deliberación colectiva. La “agencia distribuida” —la dispersión de capacidades de acción entre humanos, algoritmos e instituciones— no es solo un problema filosófico abstracto sino un desafío concreto para la gobernanza democrática: ¿quién decide, quién es responsable, quién puede contestar las decisiones automatizadas?

Esta perspectiva conecta con el problema del control articulado por Stuart Russell (Russell, 2019): incluso sistemas aparentemente bien intencionados pueden producir resultados indeseables si sus funciones objetivo no capturan adecuadamente la complejidad de los valores humanos. Russell denomina a esto el “problema del alineamiento” (alignment problem): la dificultad fundamental de especificar exactamente lo que queremos que un sistema optimice, especialmente cuando ese sistema es suficientemente capaz para encontrar soluciones que satisfacen la letra pero no el espíritu de nuestras instrucciones. Este problema, originalmente formulado en el contexto de sistemas de IA avanzados hipotéticos, adquiere relevancia práctica inmediata con agentes de IA que ejecutan tareas complejas con autonomía creciente.

5. Injusticia epistémica algorítmica

Trabajos recientes (Kay et al., 2024; Symons & Alvarado, 2022) han extendido el concepto de injusticia epistémica de Miranda Fricker (Fricker, 2007) al contexto de la IA generativa. Kay, Kasirzadeh y Mohamed identifican cuatro dimensiones de lo que denominan “injusticia epistémica algorítmica generativa”:

  • Injusticia testimonial amplificada: cuando los sistemas reproducen y amplifican prejuicios sobre la credibilidad de ciertos grupos sociales.
  • Injusticia testimonial manipulativa: cuando las capacidades persuasivas de la IA se emplean para distorsionar percepciones.
  • Ignorancia hermenéutica: cuando los sistemas carecen de los recursos conceptuales para interpretar adecuadamente las experiencias de comunidades marginalizadas.
  • Injusticia de acceso: cuando las asimetrías en el acceso a sistemas de IA crean disparidades epistémicas, particularmente pronunciadas en contextos multilingües.

Esta perspectiva revela cómo la IA generativa puede socavar la integridad del conocimiento colectivo y los procesos mediante los cuales adquirimos, evaluamos y confiamos en la información, constituyendo una amenaza significativa para el ecosistema epistémico y el discurso democrático.

6. Regímenes algorítmicos y gobernanza

El concepto de regímenes algorítmicos (Jarke et al., 2024; Katzenbach & Ulbricht, 2021) dirige la atención más allá de la naturaleza técnica de los algoritmos hacia los complejos y parcialmente ambiguos entrelazamientos de los sistemas algorítmicos —como aparatos material-semióticos— con elementos sociales, políticos, culturales y económicos de la sociedad.

Este enfoque, enraizado en estudios de gobernanza y STS, entiende los algoritmos predictivos como herramientas de producción de conocimiento equipadas con “campos de visión” que simultáneamente hacen visibles ciertos fenómenos mientras dejan otros en la oscuridad. La selección inherente a estos campos de visión responde a decisiones conscientes e inconscientes que hacen de los algoritmos artefactos inevitablemente políticos.

1.5.3 Síntesis: Un marco integrado para el análisis CTS de la IA generativa

La convergencia de estos marcos contemporáneos sugiere varios principios organizadores para el análisis que sigue:

  1. Materialidad y extracción: La IA generativa no es inmaterial ni abstracta; es una tecnología intensiva en recursos materiales, laborales y epistémicos, cuyos costos se distribuyen de manera desigual globalmente.

  2. Emergencia e impredecibilidad: Las capacidades de los sistemas de IA generativa emergen de maneras que no pueden anticiparse completamente, lo que exacerba el dilema de Collingridge y demanda nuevos enfoques de gobernanza anticipatoria.

  3. Homogeneización y concentración de poder: La dependencia de un número reducido de modelos fundacionales concentra poder en pocas organizaciones y crea vulnerabilidades sistémicas por fallos correlacionados.

  4. Agencia distribuida y responsabilidad difusa: Los sistemas de IA generativa son agentes en sentido funcional, pero carecen de las propiedades que tradicionalmente fundamentan la atribución de responsabilidad moral.

  5. Dimensión epistémica: La IA generativa no solo procesa información; transforma los procesos de producción, validación y circulación del conocimiento, con potencial tanto para la injusticia epistémica como para nuevas formas de resistencia.

  6. Velocidad y asincronía: El ritmo de desarrollo y despliegue de la IA generativa supera sistemáticamente la capacidad de las instituciones sociales para comprender, evaluar y regular estos sistemas.

Crítica a los límites del escalado: La posición crítica más articulada sobre las limitaciones fundamentales de los LLMs proviene de Gary Marcus (G. F. Marcus, 2024; G. Marcus & Davis, 2019), quien argumenta que el escalado —más parámetros, más datos, más cómputo— no resolverá las deficiencias de razonamiento, robustez y fiabilidad porque estas surgen de limitaciones arquitectónicas profundas. Los LLMs carecen de capacidades de razonamiento compositivo, inferencia causal y anclaje a la realidad (grounding) que caracterizarían una inteligencia genuina. La propuesta de sistemas híbridos neuro-simbólicos ofrece una alternativa teórica que combinaría la flexibilidad del aprendizaje profundo con la precisión del razonamiento simbólico, aunque su viabilidad práctica a escala permanece por demostrar. Esta crítica complementa la metáfora del “loro estocástico” de Bender et al.: los LLMs ensamblan formas lingüísticas según patrones estadísticos, exhibiendo competencia sin comprensión.

ImportanteCriterio analítico

El análisis CTS de la IA generativa debe resistir tanto el determinismo tecnológico (que atribuye a la tecnología poderes causales autónomos) como el instrumentalismo ingenuo (que reduce la tecnología a una herramienta neutral). Los sistemas de IA generativa son configuraciones sociotécnicas que encarnan valores, distribuyen poder y reconfiguran posibilidades —pero de maneras que permanecen abiertas a la contestación y la transformación.

Este marco conceptual orienta el análisis de los capítulos siguientes, donde se examina cómo estas dinámicas se manifiestan en dominios específicos: la investigación científica, la práctica médica, la educación, el desarrollo de software, la ciberseguridad, los sistemas militares, el mercado laboral y los marcos regulatorios emergentes.

1.6 Estructura del documento

La monografía se organiza en cuatro partes:

Parte I: Fundamentos (Capítulos 2-3) presenta las bases técnicas de la IA generativa, desde las arquitecturas de transformers hasta los procesos de entrenamiento y alineación, explicadas de modo accesible para lectores sin formación técnica especializada.

Parte II: Aplicaciones (Capítulos 4-7) examina los usos en sectores clave: investigación científica, medicina y salud, educación, producción creativa y programación asistida.

Parte III: Riesgos y desafíos (Capítulos 8-11) aborda los problemas de ciberseguridad, desinformación, impacto laboral y uso militar, así como los marcos regulatorios emergentes.

Parte IV: Perspectivas (Capítulos 12-14) incluye estudios de caso emblemáticos, escenarios prospectivos y consideraciones finales.

El documento concluye con un glosario de términos técnicos y la bibliografía completa.


PARTE I: FUNDAMENTOS

2 Arquitecturas y principios de la IA generativa

2.1 De las reglas a las representaciones: una perspectiva histórica

La historia de la inteligencia artificial puede narrarse como una sucesión de paradigmas sobre cómo representar y manipular el conocimiento. En sus primeras décadas (1950-1980), dominó la IA simbólica: sistemas basados en reglas explícitas, ontologías formales y mecanismos de inferencia lógica. Proyectos emblemáticos como DENDRAL (1965), MYCIN (1976) o los sistemas expertos de los años ochenta encarnaban esta visión. Estos sistemas funcionaban bien en dominios acotados —diagnóstico médico estructurado, configuración de ordenadores, resolución de puzzles—, pero resultaban frágiles ante la ambigüedad del lenguaje natural y la complejidad del mundo real.

La revolución conexionista de los años ochenta y noventa propuso una alternativa radical: en lugar de programar reglas, entrenar redes neuronales que aprendieran patrones a partir de ejemplos. Las neuronas artificiales, organizadas en capas, ajustaban sus conexiones mediante algoritmos de retropropagación del error. El enfoque era prometedor —el Perceptrón multicapa podía aprender funciones no lineales, las redes de Hopfield capturaban memorias asociativas—, pero las limitaciones computacionales y la escasez de datos etiquetados impidieron un despliegue a gran escala. El llamado “invierno de la IA” de los noventa reflejó el agotamiento de estas aproximaciones ante problemas de dimensionalidad alta.

El panorama cambió radicalmente en la década de 2010 con la convergencia de tres factores (Briggs et al., 2023):

  1. Potencia de cómputo masiva: La adopción de GPUs (Graphics Processing Units) para entrenamiento de redes neuronales, seguida de TPUs (Tensor Processing Units) y clusters de cómputo en la nube, multiplicó por órdenes de magnitud la capacidad de procesamiento disponible.

  2. Disponibilidad de datos: La expansión de Internet generó conjuntos de datos de escala sin precedentes —billones de tokens de texto, miles de millones de imágenes etiquetadas—, el combustible necesario para entrenar modelos con cientos de millones de parámetros.

  3. Avances arquitectónicos: Innovaciones como las redes convolucionales profundas (AlexNet, 2012), las redes recurrentes con memoria (LSTM), y finalmente la arquitectura Transformer (2017) proporcionaron las estructuras capaces de aprovechar ese cómputo y esos datos.

El deep learning pasó de curiosidad académica a tecnología omnipresente. La investigación de Sevilla et al. (Sevilla et al., 2022) documenta rigurosamente esta transición, identificando tres eras distintas en la demanda de cómputo para entrenar sistemas de machine learning:

Código
library(ggplot2)
library(dplyr)
library(scales)

# Datos de las tres eras según Sevilla et al. (2022)
eras_data <- tibble(
  era = factor(
    c("Pre-Deep Learning\n(1952-2010)", 
      "Deep Learning\n(2010-2022)", 
      "Gran Escala\n(2015-2022)"),
    levels = c("Pre-Deep Learning\n(1952-2010)", 
               "Deep Learning\n(2010-2022)", 
               "Gran Escala\n(2015-2022)")
  ),
  tiempo_duplicacion_meses = c(21.3, 5.7, 9.9),
  flops_inicio = c(3e4, 7e14, 4e21),
  flops_fin = c(2e14, 2e18, 8e23),
  n_modelos = c(19, 80, 19),
  color = c("#2E86AB", "#A23B72", "#F18F01")
)

# Gráfico de tiempo de duplicación
p_duplicacion <- ggplot(eras_data, aes(x = era, y = tiempo_duplicacion_meses, fill = era)) +
  geom_col(width = 0.7, show.legend = FALSE) +
  geom_text(aes(label = paste0(tiempo_duplicacion_meses, " meses")), 
            vjust = -0.5, fontface = "bold", size = 4) +
  geom_hline(yintercept = 24, linetype = "dashed", color = "gray50", linewidth = 0.8) +
  annotate("text", x = 3, y = 25.5, label = "Ley de Moore (~24 meses)", 
           size = 3.5, color = "gray40", hjust = 1) +
  scale_fill_manual(values = c("#2E86AB", "#A23B72", "#F18F01")) +
  labs(
    title = "Tiempo de duplicación del cómputo de entrenamiento",
    subtitle = "La era Deep Learning duplica cómputo 4x más rápido que la Ley de Moore",
    x = NULL,
    y = "Meses para duplicar cómputo"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold"),
    axis.text.x = element_text(size = 10)
  ) +
  ylim(0, 28)

p_duplicacion
Figura 4: Tendencias de cómputo en tres eras del machine learning. Datos basados en Sevilla et al. (2022), con 123 modelos analizados entre 1952-2022.
NotaLas tres eras del machine learning

Según el análisis de Epoch AI sobre 123 sistemas hito (Sevilla et al., 2022):

  • Era Pre-Deep Learning (1952-2010): El cómputo de entrenamiento se duplicaba cada ~21 meses, aproximadamente en línea con la Ley de Moore. Escala: de 10⁴ a 10¹⁴ FLOPs.

  • Era Deep Learning (2010-2022): Tras la revolución de AlexNet (2012), el cómputo se duplica cada ~6 meses, 4× más rápido que Moore. Escala: de 10¹⁴ a 10¹⁸ FLOPs.

  • Era de Gran Escala (2015-2022): Modelos como AlphaGo, GPT-3 y PaLM inauguran una tendencia paralela con cómputo 2-3 órdenes de magnitud superior, duplicándose cada ~10 meses. Escala: de 10²¹ a 10²⁴ FLOPs.

2.2 La arquitectura Transformer

El hito arquitectónico decisivo llegó en 2017 con el artículo “Attention is All You Need” de Vaswani et al. (Vaswani et al., 2017), que introdujo la arquitectura Transformer. El título del artículo, traducible como “La atención es todo lo que necesitas”, capturaba una innovación radical: prescindir por completo de las redes recurrentes (RNN, LSTM) que habían dominado el procesamiento de secuencias durante una década.

2.2.1 El problema de las redes recurrentes

Las arquitecturas recurrentes previas procesaban secuencias de forma inherentemente secuencial: para procesar la palabra en posición t, debían haber procesado todas las palabras anteriores (1, 2, …, t-1). Esta dependencia secuencial imponía dos limitaciones severas:

  1. Cuello de botella de paralelización: El procesamiento secuencial impedía aprovechar plenamente las GPUs, diseñadas para cálculos masivamente paralelos.

  2. Degradación de gradientes: En secuencias largas, la información de tokens distantes se “difuminaba” a través de múltiples pasos de retropropagación, dificultando capturar dependencias de largo alcance.

2.2.2 El mecanismo de autoatención

Los Transformers resuelven ambos problemas mediante un mecanismo denominado autoatención (self-attention). En lugar de procesar secuencias token por token, la autoatención permite que cada posición “atienda” simultáneamente a todas las demás posiciones de la secuencia, en una única operación matricial paralelizable.

El mecanismo funciona mediante tres transformaciones lineales de cada token de entrada:

  • Consultas (Queries, Q): Representan “qué información busca” cada token
  • Claves (Keys, K): Representan “qué información ofrece” cada token
  • Valores (Values, V): Representan “qué información transmite” cada token

El peso con que un token i atiende a otro token j se calcula como el producto escalar de sus consultas y claves, normalizado mediante softmax y escalado por \(\sqrt{d_k}\) para estabilidad numérica:

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

Código
library(ggplot2)

# Datos para ilustrar flujo de atención
set.seed(42)
n_tokens <- 6
tokens <- c("El", "modelo", "Transformer", "revolucionó", "el", "NLP")

# Matriz de atención simulada (realista)
attention_matrix <- matrix(
  c(0.50, 0.20, 0.15, 0.05, 0.05, 0.05,  # El -> atiende más a sí mismo y "modelo"
    0.10, 0.40, 0.30, 0.10, 0.05, 0.05,  # modelo -> atiende a "Transformer"
    0.05, 0.25, 0.45, 0.15, 0.05, 0.05,  # Transformer -> fuerte auto-atención
    0.05, 0.15, 0.30, 0.35, 0.05, 0.10,  # revolucionó -> atiende a "Transformer"
    0.15, 0.10, 0.10, 0.10, 0.40, 0.15,  # el -> atiende a "NLP" 
    0.05, 0.10, 0.20, 0.20, 0.10, 0.35), # NLP -> distribuido
  nrow = 6, byrow = TRUE
)

# Convertir a formato largo para ggplot
attention_df <- expand.grid(
  origen = 1:n_tokens,
  destino = 1:n_tokens
) %>%
  mutate(
    peso = as.vector(attention_matrix),
    token_origen = factor(tokens[origen], levels = tokens),
    token_destino = factor(tokens[destino], levels = tokens)
  )

# Crear el heatmap
p_attention <- ggplot(attention_df, aes(x = destino, y = origen, fill = peso)) +
  geom_tile(color = "white", linewidth = 0.5) +
  geom_text(aes(label = sprintf("%.2f", peso)), 
            color = ifelse(attention_df$peso > 0.3, "white", "black"), size = 3.2) +
  scale_fill_viridis_c(option = "plasma", name = "Peso de\natención") +
  scale_x_continuous(
    breaks = 1:n_tokens,
    labels = tokens,
    position = "top"
  ) +
  scale_y_reverse(
    breaks = 1:n_tokens,
    labels = tokens
  ) +
  labs(
    title = "Matriz de autoatención (ejemplo ilustrativo)",
    subtitle = "Filas: token origen | Columnas: token destino",
    x = "Token destino (a qué atiende)",
    y = "Token origen (quién atiende)"
  ) +
  theme_minimal(base_size = 11) +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 0, vjust = 0, face = "bold"),
    axis.text.y = element_text(face = "bold"),
    legend.position = "right",
    plot.title = element_text(face = "bold"),
    panel.grid = element_blank()
  ) +
  coord_fixed()

p_attention
Figura 5: Matriz de autoatención ilustrativa. Cada celda muestra el peso con que un token (fila) atiende a otro (columna). La diagonal indica auto-referencia; valores altos fuera de diagonal capturan dependencias contextuales.

2.2.3 Atención multi-cabeza y escalabilidad

El Transformer original empleaba atención multi-cabeza (multi-head attention): en lugar de un único cálculo de atención, ejecutaba h = 8 cálculos paralelos con distintas proyecciones, permitiendo al modelo atender simultáneamente a diferentes aspectos de la representación (sintaxis, semántica, co-referencia, etc.). Esta arquitectura resultó extraordinariamente escalable.

La eficiencia computacional de los transformers —que pueden paralelizarse extensivamente en hardware moderno— permitió escalar a modelos de tamaños sin precedentes. GPT-2 (2019) tenía 1.500 millones de parámetros; GPT-3 (2020) alcanzó 175.000 millones (Brown et al., 2020); los modelos actuales como PaLM (540B) y GPT-4 superan ampliamente esas cifras, aunque las empresas ya no publican detalles precisos de arquitectura.

2.3 Leyes de escalado: más grande es diferente

El escalado de los modelos de lenguaje no es simplemente “más de lo mismo”. La investigación empírica ha revelado leyes de escalado (scaling laws) que gobiernan la relación entre tamaño del modelo, cantidad de datos y rendimiento final.

2.3.1 La ley Chinchilla: el equilibrio óptimo

Hoffmann et al. (Hoffmann et al., 2022) de DeepMind realizaron un estudio sistemático entrenando más de 400 modelos de lenguaje, desde 70 millones hasta 16.000 millones de parámetros, sobre cantidades variables de tokens (de 5.000 millones a 400.000 millones). Su conclusión fue contundente: los modelos de lenguaje de gran escala estaban significativamente subentrenados.

La práctica dominante hasta entonces —ejemplificada por GPT-3 (175B parámetros, 300B tokens) y Gopher (280B parámetros, 300B tokens)— priorizaba aumentar el tamaño del modelo manteniendo constante la cantidad de datos de entrenamiento. Hoffmann et al. demostraron que esta estrategia era subóptima: para un presupuesto de cómputo fijo, el tamaño del modelo y la cantidad de tokens de entrenamiento deberían escalarse en proporciones iguales.

Código
library(ggplot2)
library(dplyr)
library(scales)
library(ggrepel)  # Añadir esta librería

# Datos de modelos representativos
modelos_data <- tibble(
  modelo = c("GPT-3", "Gopher", "MT-NLG", "Chinchilla", "LLaMA 65B"),
  parametros_B = c(175, 280, 530, 70, 65),
  tokens_B = c(300, 300, 270, 1400, 1400),
  ratio = tokens_B / parametros_B,
  optimo = c(FALSE, FALSE, FALSE, TRUE, TRUE),
  año = c(2020, 2021, 2022, 2022, 2023)
)

# Línea de tendencia óptima según Chinchilla (20 tokens por parámetro aprox)
optimal_line <- tibble(
  parametros_B = seq(10, 600, by = 10),
  tokens_B = parametros_B * 20
)

p_chinchilla <- ggplot() +
  # Línea óptima
  geom_line(data = optimal_line, aes(x = parametros_B, y = tokens_B),
            color = "darkgreen", linewidth = 1, linetype = "dashed", alpha = 0.7) +
  # Puntos de modelos
  geom_point(data = modelos_data, 
             aes(x = parametros_B, y = tokens_B, color = optimo, size = optimo)) +
  # Etiquetas con ggrepel para evitar superposición
  geom_text_repel(data = modelos_data,
                  aes(x = parametros_B, y = tokens_B, label = modelo),
                  size = 3.5, fontface = "bold",
                  box.padding = 0.6,
                  point.padding = 0.4,
                  segment.color = "gray50",
                  segment.size = 0.4,
                  segment.linetype = "dotted",
                  min.segment.length = 0,
                  max.overlaps = Inf,
                  seed = 42,  # Reproducibilidad
                  direction = "both") +
  # Zona de modelos "subentrenados"
  annotate("rect", xmin = 150, xmax = 600, ymin = 200, ymax = 400,
           alpha = 0.1, fill = "red") +
  annotate("text", x = 400, y = 350, 
           label = "Zona subentrenada\n(muchos parámetros,\npocos datos)", 
           color = "darkred", size = 3, fontface = "italic") +
  scale_x_continuous(labels = label_comma(suffix = "B"), 
                     breaks = seq(0, 600, by = 100)) +
  scale_y_continuous(labels = label_comma(suffix = "B"),
                     breaks = seq(0, 1500, by = 300)) +
  scale_color_manual(values = c("FALSE" = "#E63946", "TRUE" = "#2A9D8F"),
                     labels = c("Subóptimo", "Compute-óptimo")) +
  scale_size_manual(values = c("FALSE" = 4, "TRUE" = 6), guide = "none") +
  labs(
    title = "Ley de escalado Chinchilla: equilibrio parámetros-datos",
    subtitle = "Modelos anteriores a 2022 subentrenados; Chinchilla demuestra el óptimo",
    x = "Parámetros (miles de millones)",
    y = "Tokens de entrenamiento (miles de millones)",
    color = "Eficiencia",
    caption = "Datos basados en Hoffmann et al. (2022)"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold"),
    legend.position = "bottom"
  )

p_chinchilla

El modelo Chinchilla (70B parámetros, 1.4T tokens) validó esta hipótesis: utilizando el mismo presupuesto de cómputo que Gopher (280B parámetros), pero con un cuarto de los parámetros y 4× más datos, superó consistentemente a Gopher y a modelos aún mayores como MT-NLG (530B) en prácticamente todas las tareas evaluadas.

ImportanteImplicaciones de la ley Chinchilla

La ley Chinchilla tiene consecuencias profundas para la industria:

  1. Eficiencia en inferencia: Modelos más pequeños pero mejor entrenados son más baratos de desplegar.
  2. Cuello de botella de datos: El factor limitante pasa a ser la disponibilidad de datos de calidad, no el tamaño del modelo.
  3. Sostenibilidad: Entrenar modelos compute-óptimos reduce el consumo energético sin sacrificar rendimiento.

Modelos posteriores como LLaMA (Meta, 2023) y Mistral (2023) adoptaron explícitamente esta filosofía.

2.3.2 Capacidades emergentes

Uno de los fenómenos más intrigantes del escalado es la aparición de capacidades emergentes: habilidades que están ausentes en modelos pequeños, permanecen en rendimiento aleatorio durante varios órdenes de magnitud de escala, y “emergen” abruptamente al superar cierto umbral (Wei et al., 2022).

Wei et al. documentan múltiples ejemplos de emergencia en el benchmark BIG-Bench: aritmética de tres dígitos, transliteración fonética, desciframiento de palabras, y resolución de problemas matemáticos verbales aparecen súbitamente en modelos que superan aproximadamente 10²² FLOPs de entrenamiento o 10-100 mil millones de parámetros, dependiendo de la tarea.

Código
library(ggplot2)
library(dplyr)

# Simular datos de capacidad emergente
set.seed(123)
scale_points <- 10^seq(7, 12, by = 0.5)
n_points <- length(scale_points)

emergent_data <- tibble(
  scale = rep(scale_points, 3),
  task = rep(c("Aritmética 3 dígitos", "Transliteración IPA", "Word unscramble"), 
             each = n_points),
  accuracy = c(
    # Aritmética: emerge ~10^10
    ifelse(scale_points < 1e10, runif(n_points, 0, 10), 
           pmin(100, 20 + 70 * log10(scale_points/1e10) + rnorm(n_points, 0, 3))),
    # Transliteración: emerge ~10^11
    ifelse(scale_points < 5e10, runif(n_points, 0, 8), 
           pmin(100, 15 + 60 * log10(scale_points/5e10) + rnorm(n_points, 0, 4))),
    # Word unscramble: emerge ~10^10.5
    ifelse(scale_points < 3e10, runif(n_points, 0, 12), 
           pmin(100, 10 + 65 * log10(scale_points/3e10) + rnorm(n_points, 0, 3)))
  )
) %>%
  mutate(accuracy = pmax(0, pmin(100, accuracy)))

p_emergent <- ggplot(emergent_data, aes(x = scale, y = accuracy, color = task)) +
  geom_line(linewidth = 1.2) +
  geom_point(size = 2) +
  geom_hline(yintercept = 25, linetype = "dashed", color = "gray50", alpha = 0.7) +
  annotate("text", x = 1e8, y = 28, label = "Rendimiento aleatorio", 
           size = 3, color = "gray40") +
  scale_x_log10(
    breaks = 10^(7:12),
    labels = c("10⁷", "10⁸", "10⁹", "10¹⁰", "10¹¹", "10¹²")
  ) +
  scale_color_viridis_d(option = "turbo", begin = 0.1, end = 0.8) +
  labs(
    title = "Capacidades emergentes: aparición abrupta con la escala",
    subtitle = "Rendimiento aleatorio hasta umbral crítico, luego mejora rápida",
    x = "Cómputo de entrenamiento (FLOPs)",
    y = "Precisión (%)",
    color = "Tarea"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold"),
    legend.position = "bottom"
  )

p_emergent