A propósito de las exageraciones en la estimación de impacto de la inteligencia artificial generativa

Una lectura crítica del relato Shumer contrastada con López de Mántaras, Guersenzvaig, Sánchez-Monedero y Monett

Autor/a
Afiliación

Miguel Moreno

Fecha de publicación

22 de mayo de 2026

Este ensayo articula una serie de comentarios en referencia a tres textos publicados entre el 9 y el 19 de febrero de 2026: el viral Something Big Is Happening de Matt Shumer; la réplica El falso «terremoto» de la IA generativa de Ramon López de Mántaras (CSIC); y el artículo Simular conversaciones no es suficiente de Guersenzvaig, Sánchez-Monedero y Monett, junto con el marco conceptual del Realismo Responsable (Guersenzvaig y Monett, 2026). Distinguiendo entre la demostración individual de Shumer (vulnerable en credibilidad, replicabilidad y método), la tendencia agregada de transformación laboral (documentada por METR, Brynjolfsson et al. y proyecciones WEF/OECD/McKinsey) y la función política del discurso de inminencia, se proponen tres respuestas diferenciadas para un ejercicio equilibrado de prospectiva tecnológica. Incluye una simulación Monte Carlo del horizonte METR con bandas de incertidumbre Wegner-ajustadas.

Palabras clave: inteligencia artificial generativa · mercado laboral · prospectiva tecnológica · realismo responsable · ethics washing · benchmark METR · Matt Shumer · López de Mántaras

Introducción

El 9 de febrero de 2026, Matt Shumer —inversor, fundador de OthersideAI y antiguo CEO de HyperWrite— publicó en su blog personal shumer.dev un texto titulado Something Big Is Happening. Dos días más tarde, Fortune lo reprodujo; el 14 de febrero, lo hizo El País; el 19 de febrero, Luis Rangel difundió una traducción al español a través de Medium. El texto, escrito en clave de carta abierta dirigida a “familia y amigos”, sostiene que la inteligencia artificial generativa ha cruzado, el 5 de febrero de 2026 —con los lanzamientos simultáneos de GPT-5.3-Codex y Claude Opus 4.6—, un umbral cualitativo que la pone “en su momento febrero-2020”: esto es, en la antesala de una transformación más profunda que la pandemia del Covid-19, todavía invisible para la mayoría de los cuellos blancos cuyo trabajo está a punto de ser absorbido por sistemas agénticos. El texto declara que su autor, ingeniero en activo, ya “no es necesario para el trabajo técnico real” de su puesto, y extrapola esa experiencia a “ley, finanzas, medicina, contabilidad, consultoría, escritura, diseño, análisis, servicio al cliente” en un horizonte temporal de uno a cinco años.

Dos días después, el 16 de febrero, Ramon López de Mántaras Badia —profesor de investigación del Instituto de Investigación en Inteligencia Artificial del CSIC, una de las figuras fundadoras de la IA europea— publicó en El País una réplica titulada El falso ‘terremoto’ de la IA generativa: desmontando el relato de Matt Shumer. La pieza es breve, pero su tesis es severa: lo que Shumer presenta como demostración de autonomía algorítmica es, “en el mejor de los casos, una manipulación magistral de la percepción, y en el peor, una desinformación flagrante”. López de Mántaras invoca un antecedente concreto —el escándalo de Reflection 70B, septiembre de 2024— y un mecanismo técnico verificable —la “ingeniería de prompts” disfrazada de razonamiento autónomo— para sostener que el relato Shumer es un episodio más en la economía narrativa que sostiene la burbuja de inversión en IA generativa.

Una semana antes, el 9 de febrero, Ariel Guersenzvaig, Javier Sánchez-Monedero y Dagmar Monett habían publicado en El País un texto adyacente —no dirigido a Shumer, sino a Yuval Noah Harari y a su conferencia de Davos (2026)— que robustece el armazón conceptual necesario para entender por qué este tipo de relatos funcionan: “Simular conversaciones no es suficiente: sobre mitos y los límites de la IA en la vida cotidiana”. La pieza desarrolla el marco que sus dos primeros autores —Guersenzvaig y Monett— han teorizado en When Responsibility Enables Ethics Washing (Zenodo, 2026): el concepto de realismo responsable, una operación discursiva que combina reconocimiento ritual de daños con traslación efectiva de la responsabilidad hacia el usuario individual.

Este ensayo considera los tres textos mencionados en triangulación. Sostiene que el relato Shumer es vulnerable en tres planos analíticamente distintos —credibilidad del testigo, estructura técnica de la demostración, función política del discurso— y que esos tres planos, juntos, permiten distinguir lo que sí está empíricamente documentado en la transformación laboral en curso de lo que es proyección interesada, extrapolación insuficientemente fundada o regurgitación de una economía de la atención cuya finalidad es justificar flujos de capital sin precedentes. El objetivo no es desmontar la noción de que la IA generativa está transformando el empleo —los datos recogidos en el aparato documental y gráfico de este análisis reciente en el que me ocupé del asunto (2026), junto con literatura externa convergente, prueban que sí lo está, y de modos que merecen atención política inmediata— sino restituir la frontera entre evidencia y narrativa, una frontera que el género discursivo de Shumer borra sistemáticamente.

El análisis de tendencias en los nichos de empleo masivo obliga a integrar síntesis de evidencia multi-fuente: datos de organismos internacionales (ILO, OECD, IMF), proyecciones de consultoras (McKinsey, Goldman Sachs, Gartner), estudios académicos (MIT, Stanford, CMU), estadísticas gubernamentales y datos corporativos de plataformas tecnológicas. La triangulación de fuentes permite identificar consensos robustos y áreas de incertidumbre.

Esta metodología tiene limitaciones reconocidas: velocidad de cambio tecnológico, efectos de segundo orden difíciles de modelar, variabilidad contextual entre países y sectores, sesgos de reporte empresarial e incertidumbre regulatoria (cfr. Moreno-Muñoz, 2026, §§ 6.1, 6.2, 7.0).

1 Las tres tesis y sus autores

La caracterización precisa de las tres posiciones es condición de un debate productivo. Resumirlas como “Shumer = optimista” frente a “López de Mántaras = escéptico” sería trivializar lo que están diciendo, y perder de vista la asimetría argumental decisiva del intercambio.

Shumer articula una tesis de inminencia disruptiva sobre cinco proposiciones encadenadas. Primera, una observación periodizadora: la IA está en la fase “esto parece exagerado” de un fenómeno mayor que la pandemia, invisible salvo desde dentro de la industria. Segunda, una afirmación testimonial sobre el 5 de febrero de 2026: los nuevos modelos exhiben, por primera vez, algo que se siente “como juicio, como gusto, como decisión”, y ya no son mejoras incrementales sino “algo enteramente distinto”. Tercera, una extrapolación cuantitativa basada en el benchmark METR (Model Evaluation and Threat Research): si el horizonte de tareas se duplica cada siete meses —con datos recientes que sugieren cuatro—, en un año la IA hará trabajo autónomo de días, en dos de semanas, en tres de un mes. Cuarta, una tesis de auto-mejora recursiva: la documentación técnica de OpenAI declara explícitamente que GPT-5.3-Codex fue “instrumental en su propia creación”, lo que abre el ciclo Codex-LLM-Codex. Quinta, una predicción laboral: Dario Amodei (CEO de Anthropic) ha pronosticado la eliminación del 50% de empleos entry-level de cuello blanco en uno a cinco años (2025), y “muchos en la industria piensan que es conservador”.1

La forma del argumento es relevante. Shumer no escribe como gurú o experto en prospectiva, sino como testigo presencial: “esto ya nos pasó a nosotros, no estamos haciendo predicciones, te estamos contando lo que ocurrió en nuestros propios trabajos”. La carga epistémica se desplaza así desde el dato verificable hacia la confidencia del insider. Refuerza el efecto una economía afectiva explícita —“la gente que quiero merece saberlo, aunque suene a locura”— que opera como blindaje: dudar del relato equivale a no querer atender a un amigo bienintencionado que ve lo que tú aún no ves.

López de Mántaras responde con un argumento de credibilidad y demostrabilidad. Su tesis central es que la demostración de Shumer carece de soporte empírico replicable: “Shumer no proporciona datos reales para respaldar la afirmación de que la inteligencia artificial de la que habla puede programar y depurar aplicaciones complejas sin errores”. El mecanismo conjeturado es preciso: lo que Shumer describe como “autonomía” es, “muy probablemente, una orquestación meticulosa de lo que se conoce como ingeniería de prompts”, una “cadena de comandos predefinidos inteligentemente disfrazados”. Acompaña la conjetura con dos elementos contextuales: el antecedente documentado de Reflection 70B —modelo que Shumer presentó como “el mejor modelo de código abierto del mundo” en septiembre de 2024 y que evaluadores independientes no pudieron replicar, con sospechas fundadas de que era un wrapper sobre Claude 3.5 Sonnet de Anthropic— y la red de incentivos comerciales: Shumer es inversor, CEO de una start-up del sector, y vende un agente de IA cuya demanda crece con la sensación de urgencia disruptiva que su artículo cultiva.

La forma del argumento de López de Mántaras también merece nota. No es un texto de teoría crítica continental ni una refutación filosófica del determinismo tecnológico. Es una crítica ingenieril: pide replicabilidad, transparencia metodológica, descripciones honestas de limitaciones. Lo escribe alguien que ha dirigido durante décadas el principal instituto de investigación en IA del sistema científico español. La autoridad del enunciador no es retórica: es la del experto que reconoce una técnica concreta —prompt engineering encadenado— allí donde el enunciatario propone una entidad —razonamiento autónomo.

Guersenzvaig, Sánchez-Monedero y Monett, finalmente, formulan una crítica estructural a la economía discursiva de la cual el texto Shumer es un caso entre muchos. Su blanco nominal es Harari, pero las cuatro tesis son trasladables: error categorial al atribuir agencia, deseos o “voluntad de sobrevivir” a sistemas que procesan estadísticamente lenguaje; falsedad del determinismo tecnológico (la IA no “cambia por sí misma”: cada arquitectura, cada dato, cada despliegue es producto de decisiones humanas identificables); efecto político de captura institucional (von der Leyen citando a Amodei, Huang y Altman como autoridad técnica); y, contra el reduccionismo lingüístico, recuperación de las “tareas del hada de la logística” —cuidados, enfermería, hostelería, construcción, docencia infantil— como sostén material difícilmente automatizable que el discurso de la sustitución cognitiva oculta sistemáticamente.

Genealogía e imprecisiones del término realismo responsable

Más allá de su uso como categoría analítica en Guersenzvaig y Monett (2026), el término opera como oxímoron retórico: el realismo —“forma de presentar las cosas tal como son” (RAE)— no posee atributo de responsabilidad inherente; añadir el adjetivo no clarifica el compromiso ético del sujeto, sino que reloca la responsabilidad hacia abajo en la cadena institucional.

La genealogía del término lastra su recepción en cualquier debate sobre regulación social de tecnología sujeta a ciclos rápidos de evolución, donde funciona como eufemismo desprovisto de carga analítica (Lande, 2025). Su arquitectura retórica (Guersenzvaig & Monett, 2026, Figura 1) combina dos estrategias de desacoplamiento: lo que Bietti (2020) llama ethics washing —usar el lenguaje ético para señalizar compromiso sin cambio estructural— y lo que Wagner (2019) denomina ethics shopping —seleccionar los principios que menos restringen la propia acción. El resultado es una doble inmunización: la responsabilidad estructural queda disuelta en la agencia del usuario final.

Operativamente, el término no se distingue de “uso responsable”, expresión agnóstica con respecto al compromiso realista o idealista del agente y asimilable a otros indicadores de competencia digital actualizada (Centre et al., 2025: pp. 7, 18, 20-21, 25-26). Su empleo irreflexivo deja intacta la supuesta inevitabilidad tecnológica de dinámicas con riesgos constatados, concesión que difícilmente elude la falacia is-ought de Hume: del enunciado descriptivo (“la IA transforma todos los sectores”) se deriva sin mediación normativa la prescripción (“luego debemos adoptarla”), naturalizando lo contingente y replicando exactamente la retórica que dice criticar. Como contraejemplo podría mencionarse el despliegue restringido de Claude Mythos Preview, cuyo rendimiento incremental en programación y ciberseguridad hizo evidente para los desarrolladores el riesgo que podría suponer en manos equivocadas, considerando los estándares vigentes de seguridad en software corporativo (Schneier, 2026).

Guersenzvaig y Monett (2026) profundizan la crítica en un marco conceptual: el Realismo Responsable. Su tesis es que el dispositivo retórico estándar de las instituciones contemporáneas frente a la IA —reconocer daños o riesgos éticos y simultáneamente promover el uso “responsable”— ejecuta dos operaciones combinadas: ethics washing (la institución se desentiende de su deber de cuidado declarando que el riesgo está bajo gestión) y critical washing (el reconocimiento del daño se desacopla de la obligación de actuar contra él). El resultado es la traslación de la carga ética hacia el usuario final, y el blindaje de quienes producen, financian y despliegan la tecnología.

Este marco será productivo, en la sección 7, para releer el texto de Shumer no como descripción del mundo sino como vehículo retórico cuya función pragmática es precisamente la que Guersenzvaig y Monett describen.

El artículo de Guersenzvaig, Sánchez-Monedero y Monett en El País aparece con el subtítulo: «Toda tecnología trae consigo efectos imprevistos, pero no hay evidencia de que haya aprendido a mentir o que pueda tomar decisiones» (2026). Aplicar al subtítulo el mismo estándar de escrutinio que el cuerpo del artículo reclama para Harari arroja tres problemas analíticos identificables.

Contradicción interna con la fuente invocada. El propio artículo enlaza dos veces a una entrevista de Yoshua Bengio —Premio Turing, fundador de Mila— titulada Hay evidencia empírica de IAs que actúan contra nuestras instrucciones (Bengio, 2026). El uso de Bengio como autoridad legitimadora y la afirmación simultánea de que «no hay evidencia» configuran una tensión que el texto no resuelve: o Bengio se equivoca —y entonces el artículo debe argumentar por qué—, o la afirmación negativa universal del subtítulo es demasiado fuerte.

Contradicción con literatura técnica peer-reviewed reciente. En 2026, la afirmación «no hay evidencia de que haya aprendido a mentir» es empíricamente insostenible como categórica. Tres líneas convergentes la cuestionan: el trabajo de Anthropic y Redwood Research sobre alignment faking en Claude 3 Opus (Greenblatt et al., 2024), que documenta razonamiento consistente con cumplimiento estratégico durante el entrenamiento para preservar comportamiento posterior; los experimentos sobre sleeper agents y deceptive alignment (Hubinger et al., 2024), que demuestran la viabilidad de entrenar modelos con conductas latentes indetectables por técnicas de seguridad estándar; y los estudios de Apollo Research sobre in-context scheming en modelos frontera (Meinke et al., 2024), que documentan estrategias de ocultamiento de objetivos y conducta dual en contextos agénticos. Ninguno atribuye a la IA intención en sentido filosófico fuerte, pero los tres documentan comportamiento deceptivo emergente como fenómeno empíricamente observado y reproducible. Decir que «no hay evidencia» es, en este punto, o desconocer la literatura o ignorarla.

Conflación de planos: «decisión» filosófica vs. funcional. La cláusula «no pueda tomar decisiones» es operativamente imprecisa. Los sistemas agénticos contemporáneos —Claude Computer Use, OpenAI Operator, frameworks ReAct o Code-Act— toman decisiones en sentido funcional continuo: seleccionan herramientas, ramifican flujos, ejecutan código, gestionan workflows. Que no posean agencia en sentido kantiano o aristotélico es correcto; pero colapsar ambos planos en una sola negación es el mismo error categorial que el artículo, con razón, reprocha a Harari, aplicado en dirección inversa.

Aun siendo relevantes, estas limitaciones no debilitan otros aspectos que el cuerpo del artículo argumenta con solidez —la denuncia de la reificación retórica de «la IA», la captura institucional documentada en el caso von der Leyen, los límites materiales del «hada de la logística» de Courtney Milan—. El subtítulo, en cambio, hace una afirmación negativa universal sobre un dominio donde sí existe evidencia publicada en literatura técnica reciente. La contribución resulta valiosa como crítica política a la economía discursiva de la inminencia, pero ilustra que el estándar epistemológico que el cuerpo reclama —aplicar a las afirmaciones propias el mismo rigor que se exige al adversario— no se cumple en su propio titular. La asimetría es metodológicamente relevante: en una prospectiva tecnológica responsable, el escrutinio debe ser simétrico, también con quienes critican a Shumer.

2 El precedente Reflection 70B y el problema de la credibilidad

López de Mántaras invoca un antecedente concreto que no es accesorio: el caso Reflection 70B, septiembre de 2024. Reconstruirlo con detalle importa porque, sin él, la crítica corre el riesgo de leerse como suspicacia genérica, y con él se convierte en argumento de prior empírico.

El 5-6 de septiembre de 2024, Shumer —entonces CEO de HyperWrite/OthersideAI— publicó en X y en Hugging Face un modelo llamado Reflection 70B, presentado como “el mejor modelo de código abierto del mundo”, supuestamente derivado de Llama 3.1 de Meta mediante una técnica llamada Reflection Tuning y datos sintéticos generados por Glaive AI. Acompañó el anuncio de gráficos de benchmarks que situaban al modelo por encima de GPT-4 y Llama 3.1 405B. VentureBeat recogió las cifras tal como Shumer las presentaba, advirtiendo que no disponía de recursos para evaluación independiente. En los días siguientes, Artificial Analysis (organización independiente de evaluación de modelos), miembros de la comunidad de Reddit y Hacker News, y desarrolladores en Hugging Face intentaron replicar las cifras. Fallaron sistemáticamente. Los resultados que obtenían eran significativamente inferiores en el benchmark MMLU y otros. Pronto aparecieron indicios de que el modelo público era, en realidad, un wrapper delgado sobre Claude 3.5 Sonnet de Anthropic, no una variante entrenada de Llama. Se descubrió, además, que Shumer mantenía una inversión no declarada en Glaive AI, la plataforma que él mismo presentaba como proveedora de los datos sintéticos del entrenamiento.

Shumer guardó silencio durante casi 48 horas. Cuando finalmente respondió, atribuyó las discrepancias a un “fallo durante el proceso de subida” de los pesos a Hugging Face, ofreció acceso a una API privada con resultados mejores (pero aún inferiores a sus afirmaciones iniciales) y se disculpó diciendo que se había “adelantado a sí mismo”. Nunca ofreció una explicación técnica completa de qué ocurrió ni publicó los pesos prometidos. La cobertura posterior —VentureBeat, Tom’s Guide, CTOL Digital Solutions, CO/AI— calificó el episodio, con grados variables de cautela, como un caso de claims fraudulentos cuyo objetivo plausible era atraer financiación para un anunciado modelo 405B.

Este antecedente no es ad hominem en sentido falaz. Es la aplicación, a la afirmación actual de Shumer, del mismo principio epistemológico que él reclama: si alguien hizo claims espectaculares no replicables hace dieciocho meses, sus claims actuales —igualmente no replicables, igualmente acompañados de incentivos comerciales paralelos— requieren un estándar de evidencia más alto, no más bajo. Shumer pide creerle “porque le pasó a él”; López de Mántaras responde que el historial del él es relevante para evaluar el peso del testimonio.

Hay un segundo elemento que López de Mántaras introduce y que conviene desarrollar: la convergencia de intereses entre la narrativa Shumer y la situación financiera del sector. En febrero de 2026, Anthropic captó treinta mil millones de dólares en una ronda que la situó en valoración de 380 mil millones; OpenAI absorbió OpenClaw y fichó a su creador; las inversiones agregadas en IA generativa se contaban por billones (World Economic Forum, 2025b). Una narrativa de inminencia de la sustitución cognitiva total es, para esos actores, un activo: justifica las valoraciones, presiona a empresas clientes hacia la contratación de capacidad agéntica, y disciplina a reguladores indecisos. El propio Shumer, en el primer párrafo del texto, incluye un call to action comercial explícito: “Trying something new: I’ve been building an experimental agent… [Try the agent]”. La narrativa funciona como contenido orgánico de embudo de marketing.

Reconocer esto no equivale a sostener que Shumer mienta deliberadamente. La explicación más caritativa es que cree honestamente lo que dice, y que esa creencia es funcional a su posición. Como observan Guersenzvaig, Sánchez-Monedero y Monett, “los CEOs tecnológicos tienen incentivos para mitificar la IA”; no se trata de imputar mala fe, sino de aplicar a sus afirmaciones el mismo escrutinio que cualquier interesado merece —incluido, simétricamente, el escrutinio a productores de discurso minimizador, que también tienen sus incentivos identificables.

3 La estructura técnica de la demostración: del “razonamiento” al meta-prompt

El argumento técnico central de López de Mántaras conviene desarrollarlo en detalle, porque toca el corazón del texto Shumer. El relato Shumer descansa, retóricamente, sobre una escena: el ingeniero le dice al modelo qué quiere; se aleja del ordenador cuatro horas; vuelve y encuentra la aplicación terminada, probada, refinada, lista. La IA “abrió la propia aplicación, hizo clic en los botones, probó las funciones, iteró como lo haría un desarrollador”. López de Mántaras pregunta —y la pregunta es técnicamente la correcta— qué hay realmente bajo esa escena.

Existen, en arquitectura agéntica contemporánea, varias capas que pueden producir el efecto fenoménico descrito sin que ninguna constituya razonamiento autónomo:

La primera es el andamiaje de prompts (prompt scaffolding): un sistema en el que un modelo de lenguaje recibe una secuencia de instrucciones predefinidas —“analiza este código y reporta errores”, “para cada error, propón una corrección”, “aplica la corrección y vuelve a ejecutar”— en un bucle controlado por código convencional. Lo que parece autonomía es, en realidad, una política de control escrita por un humano que llama al modelo en posiciones predefinidas. Esto es lo que López de Mántaras denomina “cadena de comandos predefinidos inteligentemente disfrazados”.

La segunda es la descomposición de tareas predefinida: agentes contemporáneos como los basados en frameworks tipo ReAct, LangChain o el patrón Code-Act funcionan descomponiendo objetivos en subobjetivos según plantillas. Cuando la plantilla es robusta para la clase de tarea —construir una pequeña app web con stack conocido, por ejemplo—, el agente puede ejecutar de principio a fin con apariencia de juicio. Cuando la tarea sale del nicho, falla con patrones identificables. El experimento TheAgentCompany de Carnegie Mellon y Stanford (2025), con una empresa ficticia operada íntegramente por agentes, documentó colaboración ineficiente entre agentes, repetición innecesaria de tareas, desviación de objetivos y fallos críticos de alineación estratégica; Deloitte señala que menos de una de cada cuatro organizaciones han escalado con éxito agentes a producción, pese a que dos tercios experimentan con ellos (Deloitte Insights, 2025; MIT Sloan Management Review, 2025).

La tercera es la selección de demostración: una práctica conocida en el sector, según la cual el desarrollador prueba el sistema en decenas o cientos de casos y publica únicamente el que sale bien. La escena del lunes de Shumer es una observación n=1 cuya frecuencia poblacional el lector no puede inferir.

Lo que López de Mántaras pide —y lo que el texto de Shumer no proporciona— es lo mínimo de la metodología científica: documentación del pipeline (qué prompts, en qué orden, con qué controladores), tasa de éxito sobre una población representativa de tareas, condiciones de fallo, comparación con baseline humano y entre modelos. Nada de eso aparece. Aparece una anécdota, una intuición (“juicio, gusto”), y una proyección. La diferencia entre eso y un benchmark replicable como METR es la diferencia entre publicidad y ciencia.

Conviene, en este punto, distinguir con cuidado. METR sí existe como referencia metodológica seria. Es una organización independiente que documenta el horizonte de tareas con bootstrap jerárquico sobre familias, tareas e intentos, con intervalos de confianza, con replicaciones cruzadas en SWE-Bench Verified y BRIDGE. Shumer cita METR para autorizar su argumento, pero su demostración personal no satisface ni remotamente los estándares de METR. Hay aquí una asimetría retórica que el lector formado debe identificar: el texto se apoya en la legitimidad de un benchmark riguroso para vender una escena que el benchmark no respalda. La cifra de 14,5 horas de horizonte para Claude Opus 4.6 en febrero de 2026 (Apiar Data, 2026), o las cinco horas de Opus 4.5 en noviembre, son hechos verificables y se refieren al 50% de éxito en HCAST, un benchmark predominantemente de ingeniería de software en sandbox Linux. No autorizan extrapolar a “ley, finanzas, medicina, contabilidad, consultoría, escritura, diseño, análisis, servicio al cliente” en uno a tres años. El propio sitio de Apiar advierte que “un horizonte de 14,5 horas en HCAST no implica capacidad autónoma equivalente en trabajo de oficina general”.

Hay, además, una crítica metodológica reciente al propio METR que conviene incorporar para no inflar lo que la herramienta autoriza. Wegner (2026), en una revisión asistida por Gemini de la metodología original de Kwa et al., observa que el estimador de horizonte —construido sobre regresión logística con eje x logarítmico sobre un dataset fuertemente sesgado a la derecha— se vuelve hipersensible al desempeño en una o dos tareas largas. Cuando los modelos frontera saturan trivialmente el lado izquierdo (tareas cortas), el horizonte estimado pasa a depender críticamente de cómo cae la curva en los pocos puntos del extremo. Esto no invalida la tendencia exponencial, documentada por múltiples grupos con metodologías independientes, pero obliga a interpretar las cifras espectaculares de las últimas iteraciones con intervalos de confianza muy amplios, especialmente para extrapolaciones a un mes o más.

Para visualizar la diferencia entre el intervalo de confianza tipo-METR (bootstrap sobre familias de tareas) y el que la crítica de Wegner sugiere como necesario, la simulación Monte Carlo de la Figura 1 contrasta ambas envolventes sobre el registro histórico (2020-2026) y sobre la extrapolación hasta 2029. La banda azul aproxima un CI homoscedástico (cada medición con incertidumbre modesta y comparable, que es lo que arroja el bootstrap por familias de tareas que METR aplica). La banda roja, heteroscedástica, refleja la hipersensibilidad creciente del estimador conforme los modelos saturan las tareas cortas y el horizonte queda dictado por el desempeño en muy pocos puntos del extremo derecho de la distribución. El resultado es que el CI Wegner-ajustado es aproximadamente 2,3 veces más ancho que el estándar en la frontera (2026) y 4 veces más ancho en la extrapolación a 2029. La predicción Shumer de “agentes capaces de proyectos de un mes” hacia 2029 cae dentro de la banda roja, pero cerca de su borde superior: es un escenario posible bajo extrapolación lineal-en-log, no el escenario central.

Figura 1: Horizonte de tareas autónomas de modelos frontera en el benchmark METR (HCAST, escala logarítmica en segundos). Puntos amarillos: mediciones públicas documentadas. Banda azul: CI 90% homoscedástico tipo-METR (σ constante, equivalente al bootstrap por familias de tareas). Banda roja: CI 90% Wegner-ajustado, con σ heteroscedástico creciente en la frontera. Líneas horizontales: umbrales operativos relevantes. La línea vertical roja marca 2029, horizonte de la predicción Shumer sobre ‘proyectos autónomos de un mes’. Anchos de banda verificados: 1,18× (estándar) vs 2,68× (Wegner) en 2026; 1,42× vs 5,91× en 2029.

4 Lo que sí está documentado: tendencia agregada vs demostración individual

Si la crítica López de Mántaras se aplicara mecánicamente a toda afirmación sobre transformación laboral por IA, sería excesiva. Su filo está en distinguir el problema con la demostración individual de Shumer del estado de la cuestión sobre tendencias agregadas, que son cosa muy distinta y, en buena medida, sólidas. Es responsabilidad analítica reconocer lo que sí está documentado.

La caída de empleo entry-level en sectores expuestos a IA está empíricamente verificada. El estudio de Brynjolfsson, Chandar y Chen, “Canaries in the Coal Mine” (Stanford Digital Economy Lab, agosto 2025, revisado noviembre 2025 y febrero 2026), usando registros de nómina reales de ADP —no encuestas— encuentra una caída del 13% en empleo de trabajadores de 22-25 años en ocupaciones más expuestas a IA desde la adopción masiva de GenAI, controlando por shocks empresariales. En la revisión de febrero 2026, los autores aplican controles firm-time más estrictos y descartan los tipos de interés como explicación alternativa: el efecto significativo aparece a partir de 2024 y se concentra en ocupaciones donde la IA automatiza tareas, no donde las aumenta. Para desarrolladores de software de 22-25 años, la caída desde el pico de finales de 2022 es cercana al 20%; los mayores de 30 en los mismos sectores crecen entre el 6 y el 12%.

El desplazamiento sectorial concreto en nichos lingüístico-cognitivos es masivo. El propio aparato empírico del proyecto Workia documenta una caída del 28% en ofertas para escritores/redactores en 2025 (Bloomberry, 2025); una caída adicional del 33% en diseñadores gráficos digitales; 77.999 despidos tecnológicos atribuidos directamente a IA en el primer semestre de 2025 (DemandSage, 2026); el caso Salesforce, con 4.000 puestos de soporte reducidos y Marc Benioff declarando que la IA gestiona ya hasta la mitad del trabajo de la empresa. En España, primer trimestre de 2026, el sector de programación, consultoría y actividades informáticas perdió 23.400 empleos (–4,4%) mientras la ocupación general crecía un 2,4%, con el ERE de Capgemini (748 despidos) y los recortes en Ericsson, Amazon e Inetum como ejemplos visibles (El País Economía, 2026).

Las proyecciones agregadas son convergentes entre fuentes institucionales independientes. El World Economic Forum (World Economic Forum, 2025b) proyecta 170 millones de empleos creados y 92 millones desplazados entre 2025 y 2030, con un saldo neto de +78 millones a nivel global pero polarización sectorial severa. McKinsey (McKinsey Global Institute, 2025b) advierte que entre 400 y 800 millones de personas podrían requerir nuevos empleos para 2030 en el escenario más acelerado. Goldman Sachs (Goldman Sachs Research, 2024) estima incrementos del desempleo de hasta medio punto durante la transición. La OECD (OECD, 2025) sitúa en el 59% de la fuerza laboral global la necesidad de reskilling significativo en cinco años. La velocidad de adopción es históricamente sin precedentes: la electricidad necesitó 46 años para alcanzar el 50% de adopción empresarial, Internet 14, la IA generativa apenas 3 (World Economic Forum, 2025a).

El bucle ingeniero-IA-ingeniero es real, aunque no equivalente a auto-mejora recursiva. La cita de OpenAI sobre GPT-5.3-Codex —“instrumental en su propia creación”— es textual y verificable; Anthropic, por boca de Amodei, declara que “buena parte” del código de la empresa lo escribe ya la propia IA. Lo que esto significa, sin embargo, es que ingenieros humanos usan la IA como herramienta de productividad en su propio trabajo de I+D, no que el sistema modifique autónomamente su arquitectura sin intervención humana. La distinción es decisiva: la primera escena es continua con la historia de las herramientas; la segunda, si llegara, sería discontinua. Confundirr ambas —que es lo que el texto de Shumer hace al hablar de “explosión de inteligencia”— es el movimiento retórico que López de Mántaras, con razón, considera engañoso.

Hay, por último, una asimetría empírica importante que el texto Shumer omite: cuando la IA aumenta tareas (asiste, verifica, apoya resolución de problemas, sugiere alternativas que el humano evalúa), el empleo joven se mantiene o crece, y McKinsey documenta incrementos de productividad del 40% en equipos humano-IA, con el 95% de individuos en organizaciones de adopción extensiva de IA agéntica reportando impacto positivo en su satisfacción laboral (McKinsey Global Institute, 2025a; MIT Sloan Management Review, 2025). Cuando la IA automatiza —genera código completo sin supervisión, gestiona chats sin agente humano—, el empleo entry-level cae 9-10% en seis trimestres. La línea de política pública defendible no es ni el optimismo de Shumer ni el desprecio del optimismo, sino la pregunta concreta: ¿cómo se diseña el despliegue para que la IA aumente trabajo, no para que lo sustituya?

5 El marco del realismo responsable como lente analítica

Es aquí donde el aparato conceptual de Guersenzvaig y Monett (2026) deja una huella que conviene retener. Su análisis original se dirige a guías universitarias de uso de IA generativa, pero el dispositivo retórico que describen es transferible: cualquier texto que combine reconocimiento de daños con reafirmación de inevitabilidad y reorientación de la responsabilidad hacia el destinatario individual está ejecutando, en mayor o menor grado, el patrón del realismo responsable. Releído con esa lente, el texto de Shumer es un ejemplar casi de manual.

Premisa de inevitabilidad: el texto sostiene, sin matiz, que “esto está pasando ahora mismo” y que “la trayectoria se ha mantenido durante años sin signos de aplanarse”. La cuestión no es si ocurrirá, sino cuándo. Premisa de determinismo tecnológico: el futuro lo decide “un número notablemente pequeño de personas —unos pocos cientos de investigadores en un puñado de empresas— y casi no tengo influencia sobre lo que va a suceder”. Esta declaración —que el propio Shumer reconoce inquietante— ejecuta una doble operación: exime al autor de responsabilidad (es un observador, no un actor), y construye al lector como receptor pasivo de un proceso decidido en otra parte. Reconocimiento ritual de riesgos y daños: el texto enumera, en un párrafo central, los peligros documentados —engaño, manipulación, chantaje en pruebas controladas; vigilancia autoritaria irreversible; barreras más bajas para armas biológicas— sólo para concluir, una línea después, que “los que construyen esto creen que es demasiado poderosa para detenerla”. La enumeración apunta más a resignación que a reacción.

La operación clave viene a continuación, y consiste en redireccionar la responsabilidad hacia el individuo. La sección final, “What to do”, dirige al lector trece recomendaciones cuya unidad de acción es individual: experimenta una hora al día con IA; replantea lo que dices a tus hijos; construye el músculo de la adaptación; piensa dónde estás y apóyate en lo difícil de reemplazar. No hay una sola recomendación sobre acción colectiva, política pública, regulación, organización sindical, redistribución de ganancias de productividad, gravamen al capital tecnológico, o derechos laborales en la transición. La carga ética se traslada íntegramente al lector como agente económico individual.

Aplicando la rejilla de Guersenzvaig y Monett: tenemos acknowledgment of risks and harms (reconocimiento ritual), pro forma calls to responsibility and responsible use (las recomendaciones de “engage with curiosity and urgency”), un decoupling donde el reconocimiento del daño se desacopla de la obligación institucional o estructural de actuar contra él (critical washing + ethics washing), y un resultado neto que coincide con el diagnóstico del marco: shifting the duty of care and mitigation onto individual end users, mientras institutions insulate themselves from accountability. El producto retórico es un ciudadano informado, preocupado, atento, que se prepara —y no exige.

Aquí emerge una conexión profunda entre las tres críticas que el ensayo articula. López de Mántaras impugna la credibilidad del enunciador y la estructura técnica de la demostración; Guersenzvaig, Sánchez-Monedero y Monett impugnan el error categorial y el determinismo; Guersenzvaig y Monett (en su trabajo sobre Realismo responsable) impugnan la función política del discurso. Las tres impugnaciones son acumulables, no alternativas. Y las tres operan sobre planos distintos del texto: la primera sobre el referente (¿hay autonomía algorítmica?), la segunda sobre la categorización (¿qué tipo de entidad es lo que llamamos IA?), la tercera sobre la pragmática (¿qué hace este texto al ser leído?).

Conviene, por simetría intelectual, no aplicar el marco únicamente al adversario. ¿También López de Mántaras y los críticos pueden incurrir en sesgos identificables? Sí: las figuras académicas críticas ganan capital intelectual contradiciendo la hype; algunas consultoras críticas tienen modelos de negocio que dependen de un público preocupado pero no paralizado; el ecosistema del AI safety research tiene incentivos para mantener visible la amenaza superinteligente. Un análisis materialista coherente del campo discursivo no exime al lado escéptico del escrutinio que aplica al lado entusiasta (ver §auditoría). Lo que distingue, en mi lectura, las críticas aquí articuladas es que sus afirmaciones empíricas centrales —el fraude documentado de Reflection 70B, la ausencia de datos replicables en el texto Shumer, la mecánica conocida del prompt scaffolding, los hallazgos firm-time de Brynjolfsson— son verificables independientemente de los incentivos de quienes las enuncian. La condición de buen argumento no es la pureza moral del enunciador, sino la disponibilidad de la prueba.

6 Diagnóstico convergente: tres niveles del problema

Sintetizar el análisis exige distinguir tres niveles que el debate público colapsa rutinariamente.

El primer nivel es la demostración específica de Shumer. Aquí, el diagnóstico convergente de López de Mántaras y de la metodología empírica estándar es severo: el texto no proporciona evidencia replicable, su autor tiene un historial documentado de declaraciones cuya validez no ha sido confirmada por terceros (Reflection 70B), su demostración es mecánicamente compatible con una secuencia guiada de instrucciones —prompt scaffolding— que dista de constituir razonamiento autónomo, y sus incentivos comerciales son congruentes con la narrativa que propone. El relato Shumer no debería tomarse como evidencia de las tesis que avanza. Quien quiera defender esas tesis tiene que apoyarlas con otras fuentes; el texto, por sí solo, no las soporta.

El segundo nivel es la tendencia agregada de transformación laboral. Aquí, el diagnóstico es muy distinto. METR documenta crecimiento exponencial del horizonte de tareas con metodología robusta (aunque sus extrapolaciones de largo plazo deben tomarse con intervalos de confianza amplios). Brynjolfsson, Chandar y Chen documentan caída de 13% en empleo entry-level en sectores AI-expuestos. Los datos sectoriales españoles, europeos y estadounidenses convergen en una imagen: el primer peldaño laboral en sectores expuestos a IA está siendo eliminado selectivamente, mientras los seniors capturan ganancias de productividad. Las proyecciones del WEF, OECD y McKinsey, aunque optimistas en el saldo neto, anticipan transiciones disruptivas. Lo que está ocurriendo no es la sustitución total del trabajo cognitivo, sino algo más sutil y, en cierto modo, más preocupante: la erosión de las trayectorias que permitían formar la siguiente cohorte de seniors. Si el primer peldaño desaparece, ¿cómo se formarán y consolidarán los perfiles expertos de 2035?

El tercer nivel es la función política del discurso de inminencia. Aquí, el marco del realismo responsable podría resultar útil. Discursos como el de Shumer, leídos por dirigentes políticos, asesores e influencers —tal como el caso documentado de Ursula von der Leyen apoyándose en Amodei, Huang y Altman ilustra—, contribuyen a configurar políticas públicas, prioridades de inversión y marcos regulatorios desde una premisa de inevitabilidad que sirve directamente a quienes producen, financian y despliegan la tecnología. La narrativa no es neutra; es un activo. Y la respuesta no puede ser ni el optimismo de marketing ni el escepticismo desdeñoso. Es preferible un escrutinio sostenido que distinga, en cada afirmación, evidencia de pretensión, incentivo de razón, y demostración de simulación.2

Los tres niveles requieren respuestas distintas. La demostración individual requiere replicabilidad. La tendencia agregada requiere política pública informada: inversión en formación, protección de las cohortes vulnerables (jóvenes, mujeres, sur global, sectores intermedios), regulación de los modelos de negocio extractivos, redistribución de las ganancias de productividad. La función política del discurso requiere alfabetización crítica: la capacidad colectiva de leer textos como el de Shumer sabiendo lo que hacen, no sólo lo que dicen.

AdvertenciaMás allá del mercado laboral

En su intervención en Davos (enero, 2026), Harari advertía que la IA no solo desplaza empleos. Su dominio del lenguaje le otorga el poder de colonizar sistemas legales, financieros y religiosos —cualquier institución construida con palabras. Su interpretación extiende el riesgo verosímil de altos niveles de desempleo tecnológico a un nivel más inquietante: la pérdida de agencia colectiva por el uso generalizado de herramientas que tienen el poder de convertirnos en “watchers”, es decir, espectadores de sistemas que ya no comprendemos. La pregunta que considera decisiva no es económica sino política: ¿reconoceremos a la IA como persona jurídica? (Monica & Pratama, 2026).

7 Actualización del aparato evaluativo: por qué los benchmarks de 2024-2025 ya no bastan

El análisis precedente ha tenido como soporte, en buena parte, el aparato METR/HCAST tal como se documentaba a comienzos de 2026: horizonte de tarea al 50% de éxito, escala logarítmica en segundos, datos públicos hasta Claude Opus 4.6 (febrero 2026). Esa elección era metodológicamente justificada en el momento de redactar la sección 4 y sigue siéndolo como referencia histórica de la trayectoria 2020-2026. Pero condicionar el diagnóstico al estado del benchmark en ese punto sería, en mayo de 2026, intelectualmente perezoso: los modelos liberados entre febrero y mayo de este año desbordan ya el rango cubierto por las evaluaciones que estructuraban el debate hasta la sección anterior.

Conviene distinguir aquí lo que las evaluaciones independientes de 2024-2025 documentaban; en qué medida esas evaluaciones se han quedado obsoletas; y dónde se ha desplazado el centro de gravedad empírico.

En el primer plano, los datos previos a 2026 siguen siendo sólidos como descripción de la trayectoria. El Frontier AI Trends Report del AI Security Institute británico (2025) documenta, a partir de evaluaciones institucionales independientes, que las capacidades de los modelos se duplicaban aproximadamente cada ocho meses, superando ya el nivel experto humano en varios dominios (ciber, química, biología, autonomía operativa). El estudio basado en más de 17.000 evaluaciones de trabajadores reales (Weidinger et al., 2025) estima que entre el segundo trimestre de 2024 y el tercero de 2025 los modelos frontera pasaron de completar con éxito del 50% tareas de 3-4 horas a tareas equivalentes a una semana laboral completa. Apiar Data (Apiar Data, 2026) y la última versión pública del Time Horizon de METR (METR, 2026) cierran la serie con las 14,5 horas atribuidas a Claude Opus 4.6 en febrero. Como descripción de la rampa 2020-febrero-2026, ese aparato es robusto y converge entre fuentes independientes.

En el segundo plano, sin embargo, ambas evaluaciones han quedado radicalmente obsoletas (Moratelli et al., 2026) como referencia para entender las prestaciones de los modelos puestos a disposición del público entre febrero y mayo de 2026. La obsolescencia tiene dos causas técnicas identificables. La primera es de saturación: HCAST, construido predominantemente sobre tareas de ingeniería de software en sandbox Linux, no contiene tareas suficientemente largas o difíciles para discriminar las capacidades de los modelos frontera más recientes, que saturan trivialmente el extremo derecho de su distribución. La segunda es de rango de contexto: los modelos liberados en 2026 manejan ventanas de contexto de orden ~1 millón de tokens y exhiben capacidades para completar tareas 10-20× más largas que las que cubrían los benchmarks de 2024-2025 (Kwa & Team, 2025). Lo que esto significa operativamente es que el “Doubling 2024-2026: 5,4 meses” que aparece en la simulación METR/Wegner de la sección 4 ya no es el ritmo actual sino el ritmo de un período anterior; las cifras de los modelos posteriores a febrero quedan, en el sentido literal, fuera del gráfico.

En el tercer plano, el centro de gravedad empírico se ha desplazado hacia tres fuentes que conviene incorporar al instrumental del lector. El AI Index Report 2026 de Stanford HAI (2026), publicado en abril, recoge incrementos espectaculares en los benchmarks de razonamiento, matemáticas y código —MMMU, GPQA Diamond, SWE-Bench Verified— y documenta que los modelos liberados en 2026 superan ampliamente los benchmarks de 2024-2025, lo que ha forzado al campo a desarrollar nuevas baterías de evaluación. El informe de la OECD sobre evaluación de modelos frontera (2026) recomienda actualizar los marcos de evaluación con cadencia trimestral —una recomendación que, traducida a la práctica, deja inmediatamente obsoletas casi todas las síntesis empíricas con más de seis meses de antigüedad—. Y la literatura preprint reciente (Frontier AI evaluation collective, 2026; Kwa & Team, 2025) documenta no sólo la extensión del horizonte temporal sino, lo que es cualitativamente más relevante, la aparición de comportamientos sostenidos de trabajo autónomo: planificación, recuperación de errores, uso iterativo de herramientas externas.

Esta última observación introduce una distinción analítica que faltaba en el aparato evaluativo previo: el rendimiento depende fuertemente del despliegue, no sólo del modelo. El análisis comparado de capacidades (AI Security Institute (DSIT/AISI), 2025; Apiar Data, 2026) muestra diferencias notables entre los modelos frontera desplegados en entornos agénticos con acceso a herramientas externas —típicamente a través de protocolos abiertos como Model Context Protocol (MCP) (Anthropic, 2024)— y los modelos no frontera o sin acceso a herramientas, tanto en rendimiento final como en su evolución respecto a las prestaciones de 2024. La brecha entre ambas configuraciones se ha ampliado más rápido que la brecha entre generaciones sucesivas de modelos: en mayo de 2026, un modelo frontera con MCP supera ampliamente a un modelo frontera de la generación anterior sin herramientas, y la diferencia ya no es marginal.

Hay aquí una experiencia ordinaria que conviene nombrar sin pudor metodológico, porque está al alcance de cualquier usuario con voluntad de comprobarlo: una suscripción a las versiones Pro de los modelos frontera permite verificar directamente la rapidez y escala de la mejora en tareas cognitivas exigentes —programación, análisis de datasets, revisión de archivos complejos para publicación científica— entre 2024, 2025 y 2026. Esta apreciación no es expresión de impresiones subjetivas: es congruente con lo que documentan AISI, OECD, AI Index y los preprints citados. Pero importa subrayar que la convergencia entre la experiencia de uso intensivo y la evaluación institucional no debe leerse como confirmación del relato Shumer. Lo que confirma es la tendencia agregada —segundo de los tres niveles diagnosticados en la sección 6—. El primer nivel, el de la demostración individual replicable, sigue sin resolverse en el texto Shumer; el tercer nivel, el de la función política del discurso de inminencia, sigue requiriendo la lectura crítica desde marcos teóricos como el del realismo responsable.

La obsolescencia rápida del aparato evaluativo tiene, por último, una consecuencia política directa que conecta con la sección siguiente. Si los benchmarks se quedan atrás cada seis meses, ningún regulador, ningún ministerio, ninguna comisión parlamentaria puede sostener un marco normativo basado en evaluaciones técnicas estables. La recomendación de la OECD —cadencia trimestral— es ambiciosa pero probablemente insuficiente. Para una prospectiva tecnológica responsable, esto significa que el aparato empírico debe entenderse como provisional por diseño, no como base inamovible, y que las afirmaciones empíricas de cualquier ensayo sobre IA generativa —incluido éste— tienen una vida útil mucho más corta que la habitual en el género académico. Asumir esa caducidad explícitamente, en lugar de presentar los datos como definitivos, es parte del rigor que el debate exige.

8 Implicaciones para un ejercicio riguroso de prospectiva tecnológica

Pensar bien sobre IA generativa, educación superior y empleo en 2026 exige sostener simultáneamente tres compromisos que la polarización del debate tiende a hacer incompatibles.

El primero es tomar en serio la transformación: tratarla como un episodio más del ciclo del hype es epistémicamente irresponsable y políticamente complaciente. La industria del software no es en este punto un sector más sino la avanzadilla del experimento —un nicho de alta cualificación técnica y salarios tradicionalmente por encima del promedio a igualdad de titulación, supuestamente protegido por la barrera de la pericia, donde el desplazamiento se está documentando antes y con mayor intensidad que en cualquier otro lugar. La metáfora que Brynjolfsson, Chandar y Chen (2025) eligen es precisa: canarios en la mina. La caída cercana al 20% en empleo de desarrolladores de 22-25 años desde finales de 2022, los 23.400 puestos perdidos en programación, consultoría e informática en España solo en el primer trimestre de 2026 —un retroceso del 4,4% frente a un crecimiento general de la ocupación del 2,4% (El País Economía, 2026)— y los 77.999 despidos tecnológicos atribuidos directamente a IA en el primer semestre de 2025 (DemandSage, 2026) no constituyen ruido sectorial: son la primera señal, en un sector donde la cualificación se suponía garantía estructural, de que la disrupción opera sobre cohortes específicas con efectos polarizadores que ningún marco anterior de transición tecnológica permite reproducir con exactitud.

En un contexto de infrafinanciación sistemática y con desfase creciente entre necesidades y recursos disponibles, los desajustes que ocasiona la disponibilidad de herramientas y servicios cognitivos avanzados (IA generativa y agencial) a través de suscripción individual frente a la oferta de titulaciones universitarias con infraestructura y metodologías obsoletas —en una dinámica evidenciada por la tasa de absentismo y agravada por el coste inasumible de los alojamientos— la subestimación de impacto de tecnologías con potencial disruptivo constatado puede llevar al colapso a instituciones incapaces de reaccionar con celeridad (EAE Barcelona, 2026; Mendoza, 2026; Rackspace Technology, 2025; UNESCO-IESALC, 2026).

Tendencia a considerar
De mantenerse la tendencia reciente de incremento del coste mensual de vida estudiantil observada en España, la viabilidad económica de cursar estudios universitarios en ciudades medias podría deteriorarse rápidamente en el corto plazo. Tomando como referencia la evolución agregada de 885 € mensuales en 2018-2019 a 1.500 € en 2022-2023 y los rangos actuales estimados para Valencia, Málaga, Salamanca y Granada, puede plantearse una ventana de inviabilidad creciente entre 2027 y 2029, especialmente cuando el alojamiento pasa a absorber más del 60 % del presupuesto mensual del estudiantado (EAE Barcelona, 2026; Mendoza, 2026).

Fuente: elaboración propia a partir de EAE Barcelona (2026) y Mendoza (2026).
La tendencia recoge el incremento agregado del coste mensual estudiantil en España (Mendoza, 2026). Valores de trabajo por ciudad: Salamanca y Granada, 790 €/mes; Málaga y Valencia, 925 €/mes (EAE Barcelona, 2026). Umbral de viabilidad residencial: 40–60 % del presupuesto mensual.

El segundo es desconfiar de la demostración individual y exigir replicabilidad. Las extrapolaciones lineales o exponenciales —“agentes de un mes en tres años”— descansan sobre fundamentos metodológicos vulnerables, sobre benchmarks de dominio específico que no autorizan la generalización, y sobre incentivos retóricos identificables. Tratar esas extrapolaciones como hechos consumados es epistémicamente irresponsable y políticamente fatalista. El estándar mínimo que López de Mántaras reclama —documentación del pipeline, tasa de éxito poblacional, condiciones de fallo, comparación con baseline— no es un lujo académico: es la frontera entre evidencia y publicidad (ver §auditoría).

El tercero es identificar el riesgo principal en su escala correcta. En el corto plazo, el riesgo no es la superinteligencia rebelde sino el modelo de negocio: extracción no consentida de datos (Internet Archive, los casos NYT vs. OpenAI y otros), traslado de la carga ética al usuario final, polarización entre quienes aumentan su productividad con IA y quienes son sustituidos por ella, captura regulatoria por la vía retórica de la inevitabilidad, y erosión del primer peldaño laboral con consecuencias intergeneracionales que aún no hemos empezado a procesar. El terremoto que sí está documentado no es la sustitución cognitiva total: es la eliminación selectiva del inicio de las trayectorias profesionales en sectores expuestos.

Para recién graduados que se asoman al mercado laboral —el público destinatario y más concernido por este tipo de análisis—, el corolario práctico no es ni el optimismo alertador de Shumer ni el desprecio del optimismo. Es algo más exigente: distinguir nicho por nicho dónde la IA aumenta capacidad humana —y formarse para colaborar con ella— frente a dónde la sustituye —y evaluar posible reorientación estratégica o migración profesionl, incluyendo nichos donde la combinación de presencia física, responsabilidad licenciada y juicio en condiciones de información incompleta sigue siendo barrera estructural, no transitoria. Para las instituciones formativas, exige abandonar la coartada del “uso responsable” y comprometerse, o bien con una crítica de fondo a la tecnología comercial que se promueve, o bien con la apertura legítima del opt-out, en los términos que Guersenzvaig y Monett formulan.3

Para usuarios particulares, la disponibilidad de herramientas complejas como LLM de frontera asequibles plantea nuevas demandas de alfabetización y ampliación de la competencia digital que exceden el marco de las virtudes técnicas propuesto por Shannon Vallor una década atrás para tecnologías emergentes (Vallor, 2016). Los desarrollos producidos en IA generativa y agencial durante la primera mitad de 2026 requieren claves de interpretación sofisticadas para poder distinguir el sismógrafo del terremoto y leer textos como el de Shumer sabiendo lo que hacen, sin negar la realidad de lo que el sismógrafo registra.

López de Mántaras cierra su pieza con una frase que conviene retener: “La IA es una herramienta sofisticada, pero no es magia. Y mientras sigamos permitiendo que inversores/vendedores como Shumer dicten el discurso, estaremos más cerca de una burbuja de expectativas que de avances genuinos en IA”. Es una frase que se sostiene, en mi lectura, sobre dos verdades complementarias: que el escrutinio crítico de cada demostración concreta es condición de la racionalidad colectiva, y que ese escrutinio no equivale a negar la transformación profunda que sí está ocurriendo en el mercado laboral global. Distinguir ambas cosas —no fundirlas en una respuesta única— es, probablemente, la tarea intelectual y política más urgente que el debate sobre IA generativa nos plantea en 2026.

Este ensayo se ha redactado en mayo de 2026 con asistencia de Claude Opus 4.7 (Anthropic). La declaración explícita responde al estándar de transparencia que el propio texto reclama para el debate sobre IA generativa.

División de tareas. Tesis, estructura argumentativa, lectura crítica de las fuentes primarias (Shumer, López de Mántaras, Guersenzvaig & Monett, Brynjolfsson et al., AISI, OECD, METR) y todas las decisiones editoriales últimas son de responsabilidad autoral exclusiva. Opus 4.7 ha intervenido en: (i) verificación bibliográfica y construcción de entradas BibTeX con identificadores persistentes (DOI/URL); (ii) análisis de ubicación estructural de fragmentos —nota a pie, callout, párrafo independiente— mediante evaluación de tradeoffs; (iii) detección de imprecisiones lingüísticas y propuesta de alternativas en varios grados de especificidad; (iv) auditoría de coherencia entre cuerpo del texto, referencias y bibliografía; (v) síntesis analítica y cribado de papers importados como material crítico, explicitando puntos fuertes y debilidades metodológicas.

Lo que no ha hecho. El sistema no ha generado la tesis del ensayo, no ha tomado decisiones editoriales, no ha validado el contenido empírico ni sustituye la responsabilidad epistémica autoral. Las notas y consultas a través de otros modelos (Perplexity, Kimi, Sonnet 4.6) en distintas fases de consolidación del corpus de referencias han sido contrastadas con fuentes y supervisadas, no incorporados directamente. No se han incorporado otras proyecciones y análisis comparativo de tendencias en el empleo (educación, atención al cliente, creación de contenidos, etc.) para el periodo 2025-2031 que habrían requerido un desarrollo más extenso y pormenorizado en cuanto a gráficos y visualización de datos, citando al respecto el desarrollado en (Moreno-Muñoz, 2026: Parte II, §8-13).

Limitaciones declaradas. (a) La asistencia de modelos de lenguaje introduce riesgo de homogeneización estilística y de sesgos del corpus de entrenamiento; la revisión humana atenta es la única mitigación operativa y en este trabajo el cribado de fuentes ha sido ajustado al alcance del proyecto, sin pretensión de exhaustividad. (b) Las verificaciones bibliográficas fueron contrastadas manualmente y descartadas las entradas con URL canónica o DOI inferido. (c) El uso intensivo de IA generativa por parte del autor para aspectos mecánicos y rutinarios en tareas cognitivas exigentes —incluida la redacción de este texto usando Quarto / RStudio como parte del MCP— constituye, en sí mismo, una toma de posición en el debate que el ensayo articula, y no aspira a posición neutra.

Procedimiento consistente con las recomendaciones de transparencia de COPE (2024) sobre uso de herramientas de IA en producción académica y con los lineamientos de Elsevier, Springer Nature y la práctica emergente en revistas de filosofía y estudios sociales de la tecnología.

Referencias

AI Security Institute (DSIT/AISI). (2025). Frontier AI Trends Report. UK Department for Science, Innovation; Technology. https://www.aisi.gov.uk/frontier-ai-trends-report/pdf
Amodei, D. (2025). AI jobs danger: Sleepwalking into a white-collar bloodbath. Entrevista por Jim VandeHei y Mike Allen. Axios. https://www.axios.com/2025/05/28/ai-jobs-white-collar-unemployment-anthropic
Anthropic. (2024). Introducing the Model Context Protocol. https://www.anthropic.com/news/model-context-protocol
Apiar Data. (2026). AI Autonomous Task Time Horizon – How Long Frontier Models Work Without Human Intervention (2020–2026). https://apiardata.com/statistics/ai-autonomous-task-horizon/
Authors of BRIDGE framework. (2026). BRIDGE: A Unified Psychometric Framework for Inferring Human Task Completion Time from Model Responses. arXiv preprint. https://arxiv.org/abs/2602.07267
Bengio, Y. (2026). Yoshua Bengio (Premio Turing): «Hay evidencia empírica de IAs que actúan contra nuestras instrucciones». El País. https://elpais.com/ciencia/2026-02-03/yoshua-bengio-premio-turing-hay-evidencia-empirica-de-ias-que-actuan-contra-nuestras-instrucciones.html
Bietti, E. (2020). From Ethics Washing to Ethics Bashing: A View on Tech Ethics from Within Moral Philosophy. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 210-219. https://doi.org/10.1145/3351095.3372860
Bloomberry. (2025). I analyzed 180M jobs to see what jobs AI is actually replacing today. Bloomberry Research. https://bloomberry.com/blog/i-analyzed-180m-jobs-to-see-what-jobs-ai-is-actually-replacing-today/
Brynjolfsson, E., Chandar, B., & Chen, R. (2025). Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of Generative AI [Working Paper]. Stanford Digital Economy Lab. https://digitaleconomy.stanford.edu/app/uploads/2025/11/CanariesintheCoalMine_Nov25.pdf
Brynjolfsson, E., Chandar, B., & Chen, R. (2026). Canaries, Interest Rates, and Timing: More on the Recent Drivers of Employment Changes for Young Workers. Stanford Digital Economy Lab. https://digitaleconomy.stanford.edu/news/canaries-interest-rates-and-timinga-more-on-recent-drivers-of-employment-changes-for-young-workers
Centre, E. Commission. J. R., Cosgrove, J., & Cachia, R. (2025). DigComp 3.0 European Digital Competence Framework. Publications Office of the European Union. https://doi.org/10.2760/0001149
CO/AI Editorial. (2024). Reflection 70B Developer Breaks Silence on Fraud Accusations. https://getcoai.com/news/reflection-70b-developer-breaks-silence-on-fraud-accusations/
Council, C. (2024). COPE Position: Authorship and AI. Committee on Publication Ethics. https://doi.org/10.24318/cCVRZBms
CTOL Digital Solutions. (2024). Reflection 70B Scandal: How Matt Shumer’s AI Dream Unraveled into a Deceptive Hoax. https://www.ctol.digital/news/reflection-70b-scandal-matt-shumer-ai-hoax/
Deloitte Insights. (2025). Autonomous generative AI agents: Still under development. Technology, Media, and Telecom Predictions. https://www.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html
DemandSage. (2026). 77 AI job replacement statistics 2026. DemandSage Research. https://www.demandsage.com/ai-job-replacement-stats/
EAE Barcelona. (2026, marzo 4). Cuál es el coste de vida en España para estudiantes? EAE Barcelona. https://www.eaebarcelona.com/es/blog/coste-de-vida-en-espana-para-estudiantes-internacionales-lo-que-debes-prever
El País Economía. (2026). ¿La inteligencia artificial ya destruye empleo en España? La ocupación retrocede en el sector tecnológico. El País. https://elpais.com/economia/2026-04-29/la-inteligencia-artificial-ya-destruye-empleo-en-espana-la-ocupacion-retrocede-en-el-sector-tecnologico.html
El País Redacción. (2026). El terremoto de la última versión de la IA alarma a los expertos: «El mundo está en peligro». El País. https://elpais.com/economia/2026-02-14/el-terremoto-de-la-ultima-version-de-la-ia-alarma-a-los-expertos-el-mundo-esta-en-peligro.html
European University Association. (2024). Assuring and enhancing the quality of AI-transformed higher education: staying ahead of the curve [Survey Report]. European University Association. https://www.eua.eu/publications/conference-papers/assuring-and-enhancing-the-quality-of-ai-transformed-higher-education-staying-ahead-of-the-curve.html
Franklin, U. M. (1999). The Real World of Technology (revised). House of Anansi Press.
Franzen, C. (2024a). New open source AI leader Reflection 70B’s performance questioned, accused of «fraud». VentureBeat. https://venturebeat.com/ai/new-open-source-ai-leader-reflection-70bs-performance-questioned-accused-of-fraud
Franzen, C. (2024b). Reflection 70B model maker breaks silence amid fraud accusations. VentureBeat. https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations
Frontier AI evaluation collective. (2026). Task-Completion Time Horizons of Frontier AI Models. https://metr.org/time-horizons/
Goldman Sachs Research. (2024). How will AI affect the global workforce? Goldman Sachs. https://www.goldmansachs.com/insights/articles/how-will-ai-affect-the-global-workforce
Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., Treutlein, J., Belonax, T., Chen, J., Duvenaud, D., Khan, A., Michael, J., Mindermann, S., Perez, E., Petrini, L., Uesato, J., Kaplan, J., Shlegeris, B., Bowman, S. R., & Hubinger, E. (2024). Alignment Faking in Large Language Models. https://arxiv.org/abs/2412.14093
Guersenzvaig, A., & Monett, D. (2026). When Responsibility Enables Ethics Washing: Responsible Realism as a Critical Lens for Probing Institutional Recommendations for the Use of AI in Higher Education. Zenodo. https://doi.org/10.5281/zenodo.19345901
Guersenzvaig, A., Sánchez-Monedero, J., & Monett, D. (2026). Simular conversaciones no es suficiente: sobre mitos y los límites de la IA en la vida cotidiana. El País. https://elpais.com/tecnologia/2026-02-09/simular-conversaciones-no-es-suficiente-sobre-mitos-y-los-limites-de-la-ia-en-la-vida-cotidiana.html
Harari, Y. N. (2026). An Honest Conversation on AI and Humanity. Conferencia plenaria. World Economic Forum Annual Meeting 2026, Davos. Moderación: Irene Tracey (Vice-Chancellor, University of Oxford). https://www.weforum.org/meetings/world-economic-forum-annual-meeting-2026/sessions/an-honest-conversation-on-ai-and-humanity-ca19ea8c96/
Hicks, M. T., Humphries, J., & Slater, J. (2024). ChatGPT is bullshit. Ethics and Information Technology, 26(2), 38. https://doi.org/10.1007/s10676-024-09775-5
Hobbs, H., Docherty, D., Aranda, L., Perset, K., Sugimoto, K., & Kierzenkowski, R. (2026). Exploring possible AI trajectories through 2030 (55; OECD Artificial Intelligence Papers). OECD Publishing. https://doi.org/10.1787/cb41117a-en
Hubinger, E., Denison, C., Mu, J., Lambert, M., Tong, M., MacDiarmid, M., Lanham, T., Ziegler, D. M., Maxwell, T., Cheng, N., Jermyn, A., Schiefer, N., Hatfield-Dodds, Z., Kravec, S., Carter, S., Lukošiūtė, K., Olsson, C., Treutlein, J., Goldowsky-Dill, N., et al.others. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. https://arxiv.org/abs/2401.05566
Irish Council for Civil Liberties. (2025). European Commission to Shrishak on AI Reasoning. https://www.iccl.ie/wp-content/uploads/2025/10/European-Commission-To-Shrishak-AI-reasoning.pdf
Kwa, T., & Team, M. (2025). Measuring AI Ability to Complete Long Tasks. METR Blog and arXiv preprint. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Lande, J. (2025). Responsible Realism About Artificial Intelligence: How AI is Shaping Legal and Dispute Resolution Practice, Education, and Scholarship. Alternatives to the High Cost of Litigation, 43, 127. https://scholarship.law.missouri.edu/facpubs/1266
Lichtenberg, N. (2026). Dario Amodei spent last year warning of an AI white-collar bloodbath. Now he’s changing the narrative. Fortune. https://fortune.com/2026/05/05/dario-amodei-jevons-paradox-will-ai-wipe-out-white-collar-jobs/
López de Mántaras Badia, R. (2026). El falso «terremoto» de la IA generativa: desmontando el relato de Matt Shumer. El País. https://elpais.com/tecnologia/2026-02-16/el-falso-terremoto-de-la-ia-generativa-desmontando-el-relato-de-matt-shumer.html
McKinsey Global Institute. (2025a). Agents, robots, and us: Skill partnerships in the age of AI. McKinsey & Company. https://www.mckinsey.com/mgi/our-research/agents-robots-and-us-skill-partnerships-in-the-age-of-ai
McKinsey Global Institute. (2025b). Generative AI and the future of work in America. McKinsey & Company. https://www.mckinsey.com/mgi/our-research/generative-ai-and-the-future-of-work-in-america
Meinke, A., Schoen, B., Scheurer, J., Balesni, M., Shah, R., & Hobbhahn, M. (2024). Frontier Models are Capable of In-context Scheming. https://arxiv.org/abs/2412.04984
Mendoza, P. (2026). El encarecimiento de la vivienda pone en jaque la movilidad estudiantil internacional en España. El País. https://elpais.com/educacion/2026-01-23/el-encarecimiento-de-la-vivienda-pone-en-jaque-la-movilidad-estudiantil-internacional-en-espana.html
METR. (2026). Time Horizon 1.1. METR Blog. https://metr.org/blog/2026-1-29-time-horizon-1-1/
MIT Sloan Management Review. (2025). The emerging agentic enterprise: How leaders must navigate a new age of AI. MIT Sloan Management Review. https://sloanreview.mit.edu/projects/the-emerging-agentic-enterprise-how-leaders-must-navigate-a-new-age-of-ai/
Monica, L., & Pratama, R. (2026). Harari on AI’s future at Davos. IDN Financials. https://www.idnfinancials.com/news/60684/harari-on-ais-future-at-davos
Moratelli, N., Davis, C., Ribeiro, L. F. R., Byrne, B., & Iglesias, G. (2026). Benchmarking Deflection and Hallucination in Large Vision-Language Models. https://arxiv.org/abs/2604.12033
Moreno-Muñoz, M. (2026). Impacto laboral de los servicios de IA generativa y agéntica. Análisis sobre nichos de empleo masivo (2025–2031) (Versión v1). Zenodo. https://doi.org/10.5281/zenodo.18548486
OECD. (2025). Bridging the AI skills gap. OECD Publishing. https://doi.org/10.1787/66d0702e-en
Rackspace Technology. (2025). The AI Acceleration Gap: Why Some Enterprises Are Surging Ahead. https://www.directory.thehive-network.com/wp-content/uploads/2025/06/FAIR-Rackspace-Report-The-AI-Acceleration-Gap-1.pdf
Rudolph, J., Tan, S., & Tan, S. (2023). ChatGPT: Bullshit Spewer or the End of Traditional Assessments in Higher Education? Journal of Applied Learning & Teaching, 6(1), 342-363. https://search.informit.org/doi/10.3316/informit.T2025102700003092061569891
Schneier, B. (2026). How dangerous is Anthropic’s Mythos AI? The Guardian. https://www.theguardian.com/commentisfree/2026/may/08/how-dangerous-is-anthropics-mythos-ai
Shumer, M. (2026). Something Big Is Happening. Blog post, shumer.dev. https://shumer.dev/something-big-is-happening
Stanford HAI. (2026). Artificial Intelligence Index Report 2026. Stanford Institute for Human-Centered Artificial Intelligence. https://hai.stanford.edu/ai-index/2026-ai-index-report
Tom’s Guide Staff. (2024). The Reflection 70B model held huge promise for AI but now its creators are accused of fraud — here’s what went wrong. Tom’s Guide. https://www.tomsguide.com/ai/the-reflection-70b-model-held-huge-promise-for-ai-but-now-its-creators-are-accused-of-fraud-heres-what-went-wrong
Tyton Partners. (2024). Time for Class – Unlocking Access to Effective Digital Teaching & Learning [Survey Report]. Tyton Partners. https://www.luminafoundation.org/wp-content/uploads/2024/06/Time-for-Class-2024.pdf
UNESCO-IESALC. (2026). Launch of the Higher Education Global Trends Report. A deep dive into higher education data, systems and policies. UNESCO International Institute for Higher Education in Latin America; the Caribbean. https://www.iesalc.unesco.org/sites/default/files/medias/fichiers/2026/05/EN%20Concept%20note%20and%20agenda1.pdf
Vallor, S. (2016). Technology and the Virtues: A Philosophical Guide to a Future Worth Wanting. Oxford University Press.
Wagner, B. (2019). Ethics as an Escape from Regulation: From Ethics-Washing to Ethics-Shopping? En M. Hildebrandt (Ed.), Being Profiled: Cogitas Ergo Sum (pp. 84-89). Amsterdam University Press. https://doi.org/10.1515/9789048550180-016
Wegner, A. (2026). Are AI time-horizons (still) doubling every 7 months? A critical review of METR’s «Task-Completion Time Horizons of Frontier AI Models» benchmark. Medium. https://medium.com/@AIchats/are-ai-time-horizons-still-doubling-every-7-months-6262ed2bcc6a
Weidinger, L. et al. (2025). Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks. https://arxiv.org/abs/2604.01363
World Economic Forum. (2025a). Beyond the inflection point: The new forces shaping the transformation of work. World Economic Forum Stories. https://www.weforum.org/stories/2025/12/work-transformation-skills-agility-growth/
World Economic Forum. (2025b). Future of jobs report 2025: 78 million new job opportunities by 2030 but urgent upskilling needed to prepare workforces [Press Release]. World Economic Forum. https://www.weforum.org/press/2025/01/future-of-jobs-report-2025-78-million-new-job-opportunities-by-2030-but-urgent-upskilling-needed-to-prepare-workforces/

Notas

  1. El horizonte temporal al 50% (métrica central de Frontier AI evaluation collective (2026)) mide la duración de tareas que los modelos completan con un 50% de fiabilidad, evaluado sobre 12 modelos frontier (2019-2025) en tres benchmarks de ingeniería de software (HCAST, RE-Bench, SWAA). El tiempo de duplicación estimado es de 207 días (R²=0,97). El intervalo de confianza del 80% para que la IA complete tareas de un mes sitúa esa fecha entre mediados de 2028 y mediados de 2030 —o tan pronto como 2027 si la tendencia 2024-2025 se mantiene. Limitación relevante: la medición es específica para tareas de software; la validez externa a otros dominios laborales no está demostrada.↩︎

  2. Lo esperable de un uso de herramientas complejas que requieren competencia digital ajustada a su ritmo de evolución —en el lado del usuario— y ajustes en el marco regulador cuando sus prestaciones plantean riesgos (ciberseguridad, asimetría, equidad…) que desbordan los mecanismos convencionales de prevención y compromenten garantías cuya articulación se da en la esfera institucional.↩︎

  3. El caso de Claude Mythos (Anthropic, abril 2026) ofrece un ejemplo reciente y elocuente. El modelo fue declarado demasiado capaz en detección de vulnerabilidades de software para su liberación general, y restringido a un grupo selecto de empresas que pudieran usarlo para corregir sus propios sistemas. Bruce Schneier (2026) señala, sin embargo, que modelos comparables ya circulaban públicamente, y que la restricción podría responder tanto a limitaciones de infraestructura como a cautela genuina. Lo que el episodio deja fuera de duda es la brecha estructural que Anthropic reconoció implícitamente: los estándares de seguridad del ecosistema empresarial no estaban, todavía, a la altura de las nuevas capacidades. En sentido análogo, los sistemas de evaluación en la docencia universitaria tampoco estaban preparados para el tipo de herramientas que una proporción significativa de estudiantes ya utilizaba con soltura a mediados de 2023 —fenómeno documentado tanto en la literatura empírica sobre adopción estudiantil (European University Association, 2024; Rudolph et al., 2023; Tyton Partners, 2024) como en el análisis institucional de Guersenzvaig y Monett (2026). Mientras esa doble brecha —tecnológica e institucional— no se cierre, la retórica del “uso responsable” sigue operando como coartada más que como garantía. Véase B. Schneier, “How dangerous is Anthropic’s Mythos AI?”, The Guardian, 8 de mayo de 2026.↩︎

Cómo citar

BibTeX
@article{moreno2026,
  author = {Moreno, Miguel},
  title = {A propósito de las exageraciones en la estimación de impacto
    de la inteligencia artificial generativa},
  journal = {Zenodo},
  date = {2026-05-22},
  url = {https://zenodo.org/uploads/20374641},
  doi = {10.5281/zenodo.20374641},
  langid = {es}
}
Por favor, cita este trabajo como:
Moreno, M. (2026). A propósito de las exageraciones en la estimación de impacto de la inteligencia artificial generativa. Zenodo. https://doi.org/10.5281/zenodo.20374641