A propósito de las exageraciones en la estimación de impacto de la inteligencia artificial generativa
Una lectura crítica del relato Shumer contrastada con López de Mántaras, Guersenzvaig, Sánchez-Monedero y Monett
Introducción
El 9 de febrero de 2026, Matt Shumer —inversor, fundador de OthersideAI y antiguo CEO de HyperWrite— publicó en su blog personal shumer.dev un texto titulado “Something Big Is Happening”. Dos días más tarde, Fortune lo reprodujo; el 14 de febrero, lo hizo El País; el 19 de febrero, Luis Rangel difundió una traducción al español a través de Medium. El texto, escrito en clave de carta abierta dirigida a “familia y amigos”, sostiene que la inteligencia artificial generativa ha cruzado, el 5 de febrero de 2026 —con los lanzamientos simultáneos de GPT-5.3-Codex y Claude Opus 4.6—, un umbral cualitativo que la pone “en su momento febrero-2020”: esto es, en la antesala de una transformación más profunda que la pandemia del Covid-19, todavía invisible para la mayoría de los cuellos blancos cuyo trabajo está a punto de ser absorbido por sistemas agénticos. El texto declara que su autor, ingeniero en activo, ya “no es necesario para el trabajo técnico real” de su puesto, y extrapola esa experiencia a “ley, finanzas, medicina, contabilidad, consultoría, escritura, diseño, análisis, servicio al cliente” en un horizonte temporal de uno a cinco años.
Dos días después, el 16 de febrero, Ramon López de Mántaras Badia —profesor de investigación del Instituto de Investigación en Inteligencia Artificial del CSIC, una de las figuras fundadoras de la IA europea— publicó en El País una réplica titulada “El falso ‘terremoto’ de la IA generativa: desmontando el relato de Matt Shumer”. La pieza es breve, pero su tesis es severa: lo que Shumer presenta como demostración de autonomía algorítmica es, “en el mejor de los casos, una manipulación magistral de la percepción, y en el peor, una desinformación flagrante”. López de Mántaras invoca un antecedente concreto —el escándalo de Reflection 70B, septiembre de 2024— y un mecanismo técnico verificable —la “ingeniería de prompts” disfrazada de razonamiento autónomo— para sostener que el relato Shumer es un episodio más en la economía narrativa que sostiene la burbuja de inversión en IA generativa.
Una semana antes, el 9 de febrero, Ariel Guersenzvaig, Javier Sánchez-Monedero y Dagmar Monett habían publicado en El País un texto adyacente —no dirigido a Shumer, sino a Yuval Noah Harari y a su conferencia de Davos (2026)— que robustece el armazón conceptual necesario para entender por qué este tipo de relatos funcionan: “Simular conversaciones no es suficiente: sobre mitos y los límites de la IA en la vida cotidiana”. La pieza desarrolla el marco que sus dos primeros autores —Guersenzvaig y Monett— han teorizado en When Responsibility Enables Ethics Washing (Zenodo, 2026): el concepto de realismo responsable, una operación discursiva que combina reconocimiento ritual de daños con traslación efectiva de la responsabilidad hacia el usuario individual.
Este ensayo considera los tres textos mencionados en triangulación. Sostiene que el relato Shumer es vulnerable en tres planos analíticamente distintos —credibilidad del testigo, estructura técnica de la demostración, función política del discurso— y que esos tres planos, juntos, permiten distinguir lo que sí está empíricamente documentado en la transformación laboral en curso de lo que es proyección interesada, extrapolación insuficientemente fundada o regurgitación de una economía de la atención cuya finalidad es justificar flujos de capital sin precedentes. El objetivo no es desmontar la noción de que la IA generativa está transformando el empleo —los datos recogidos en el aparato documental y gráfico de este análisis reciente en el que me ocupé del asunto (2026), junto con literatura externa convergente, prueban que sí lo está, y de modos que merecen atención política inmediata— sino restituir la frontera entre evidencia y narrativa, una frontera que el género discursivo de Shumer borra sistemáticamente.
1 Las tres tesis y sus autores
La caracterización precisa de las tres posiciones es condición de un debate productivo. Resumirlas como “Shumer = optimista” frente a “López de Mántaras = escéptico” sería trivializar lo que están diciendo, y perder de vista la asimetría argumental decisiva del intercambio.
Shumer articula una tesis de inminencia disruptiva sobre cinco proposiciones encadenadas. Primera, una observación periodizadora: la IA está en la fase “esto parece exagerado” de un fenómeno mayor que la pandemia, invisible salvo desde dentro de la industria. Segunda, una afirmación testimonial sobre el 5 de febrero de 2026: los nuevos modelos exhiben, por primera vez, algo que se siente “como juicio, como gusto, como decisión”, y ya no son mejoras incrementales sino “algo enteramente distinto”. Tercera, una extrapolación cuantitativa basada en el benchmark METR (Model Evaluation and Threat Research): si el horizonte de tareas se duplica cada siete meses —con datos recientes que sugieren cuatro—, en un año la IA hará trabajo autónomo de días, en dos de semanas, en tres de un mes. Cuarta, una tesis de auto-mejora recursiva: la documentación técnica de OpenAI declara explícitamente que GPT-5.3-Codex fue “instrumental en su propia creación”, lo que abre el ciclo Codex-LLM-Codex. Quinta, una predicción laboral: Dario Amodei (CEO de Anthropic) ha pronosticado la eliminación del 50% de empleos entry-level de cuello blanco en uno a cinco años (2025), y “muchos en la industria piensan que es conservador”.1
La forma del argumento es relevante. Shumer no escribe como gurú o experto en prospectiva, sino como testigo presencial: “esto ya nos pasó a nosotros, no estamos haciendo predicciones, te estamos contando lo que ocurrió en nuestros propios trabajos”. La carga epistémica se desplaza así desde el dato verificable hacia la confidencia del insider. Refuerza el efecto una economía afectiva explícita —“la gente que quiero merece saberlo, aunque suene a locura”— que opera como blindaje: dudar del relato equivale a no querer atender a un amigo bienintencionado que ve lo que tú aún no ves.
López de Mántaras responde con un argumento de credibilidad y demostrabilidad. Su tesis central es que la demostración de Shumer carece de soporte empírico replicable: “Shumer no proporciona datos reales para respaldar la afirmación de que la inteligencia artificial de la que habla puede programar y depurar aplicaciones complejas sin errores”. El mecanismo conjeturado es preciso: lo que Shumer describe como “autonomía” es, “muy probablemente, una orquestación meticulosa de lo que se conoce como ingeniería de prompts”, una “cadena de comandos predefinidos inteligentemente disfrazados”. Acompaña la conjetura con dos elementos contextuales: el antecedente documentado de Reflection 70B —modelo que Shumer presentó como “el mejor modelo de código abierto del mundo” en septiembre de 2024 y que evaluadores independientes no pudieron replicar, con sospechas fundadas de que era un wrapper sobre Claude 3.5 Sonnet de Anthropic— y la red de incentivos comerciales: Shumer es inversor, CEO de una start-up del sector, y vende un agente de IA cuya demanda crece con la sensación de urgencia disruptiva que su artículo cultiva.
La forma del argumento de López de Mántaras también merece nota. No es un texto de teoría crítica continental ni una refutación filosófica del determinismo tecnológico. Es una crítica ingenieril: pide replicabilidad, transparencia metodológica, descripciones honestas de limitaciones. Lo escribe alguien que ha dirigido durante décadas el principal instituto de investigación en IA del sistema científico español. La autoridad del enunciador no es retórica: es la del experto que reconoce una técnica concreta —prompt engineering encadenado— allí donde el enunciatario propone una entidad —razonamiento autónomo.
Guersenzvaig, Sánchez-Monedero y Monett, finalmente, formulan una crítica estructural a la economía discursiva de la cual el texto Shumer es un caso entre muchos. Su blanco nominal es Harari, pero las cuatro tesis son trasladables: error categorial al atribuir agencia, deseos o “voluntad de sobrevivir” a sistemas que procesan estadísticamente lenguaje; falsedad del determinismo tecnológico (la IA no “cambia por sí misma”: cada arquitectura, cada dato, cada despliegue es producto de decisiones humanas identificables); efecto político de captura institucional (von der Leyen citando a Amodei, Huang y Altman como autoridad técnica); y, contra el reduccionismo lingüístico, recuperación de las “tareas del hada de la logística” —cuidados, enfermería, hostelería, construcción, docencia infantil— como sostén material difícilmente automatizable que el discurso de la sustitución cognitiva oculta sistemáticamente.
Genealogía e imprecisiones del término realismo responsable
Más allá de su uso como categoría analítica en Guersenzvaig y Monett (2026), el término opera como oxímoron retórico: el realismo —“forma de presentar las cosas tal como son” (RAE)— no posee atributo de responsabilidad inherente; añadir el adjetivo no clarifica el compromiso ético del sujeto, sino que reloca la responsabilidad hacia abajo en la cadena institucional.
La genealogía del término lastra su recepción en cualquier debate sobre regulación social de tecnología sujeta a ciclos rápidos de evolución, donde funciona como eufemismo desprovisto de carga analítica (Lande, 2025). Su arquitectura retórica (Guersenzvaig & Monett, 2026, Figura 1) combina dos estrategias de desacoplamiento: lo que Bietti (2020) llama ethics washing —usar el lenguaje ético para señalizar compromiso sin cambio estructural— y lo que Wagner (2019) denomina ethics shopping —seleccionar los principios que menos restringen la propia acción. El resultado es una doble inmunización: la responsabilidad estructural queda disuelta en la agencia del usuario final.
Operativamente, el término no se distingue de “uso responsable”, expresión agnóstica con respecto al compromiso realista o idealista del agente y asimilable a otros indicadores de competencia digital actualizada (Centre et al., 2025: pp. 7, 18, 20-21, 25-26). Su empleo irreflexivo deja intacta la supuesta inevitabilidad tecnológica de dinámicas con riesgos constatados, concesión que difícilmente elude la falacia is-ought de Hume: del enunciado descriptivo (“la IA transforma todos los sectores”) se deriva sin mediación normativa la prescripción (“luego debemos adoptarla”), naturalizando lo contingente y replicando exactamente la retórica que dice criticar. Como contraejemplo podría mencionarse el despliegue restringido de Claude Mythos Preview, cuyo rendimiento incremental en programación y ciberseguridad hizo evidente para los desarrolladores el riesgo que podría suponer en manos equivocadas, considerando los estándares vigentes de seguridad en software corporativo (Schneier, 2026).
Guersenzvaig y Monett (2026) profundizan la crítica en un marco conceptual: el Realismo Responsable. Su tesis es que el dispositivo retórico estándar de las instituciones contemporáneas frente a la IA —reconocer daños o riesgos éticos y simultáneamente promover el uso “responsable”— ejecuta dos operaciones combinadas: ethics washing (la institución se desentiende de su deber de cuidado declarando que el riesgo está bajo gestión) y critical washing (el reconocimiento del daño se desacopla de la obligación de actuar contra él). El resultado es la traslación de la carga ética hacia el usuario final, y el blindaje de quienes producen, financian y despliegan la tecnología.
Este marco será productivo, en la sección 7, para releer el texto de Shumer no como descripción del mundo sino como vehículo retórico cuya función pragmática es precisamente la que Guersenzvaig y Monett describen.
El artículo de Guersenzvaig, Sánchez-Monedero y Monett en El País aparece con el subtítulo: «Toda tecnología trae consigo efectos imprevistos, pero no hay evidencia de que haya aprendido a mentir o que pueda tomar decisiones» (2026). Aplicar al subtítulo el mismo estándar de escrutinio que el cuerpo del artículo reclama para Harari arroja tres problemas analíticos identificables.
Contradicción interna con la fuente invocada. El propio artículo enlaza dos veces a una entrevista de Yoshua Bengio —Premio Turing, fundador de Mila— titulada Hay evidencia empírica de IAs que actúan contra nuestras instrucciones (Bengio, 2026). El uso de Bengio como autoridad legitimadora y la afirmación simultánea de que «no hay evidencia» configuran una tensión que el texto no resuelve: o Bengio se equivoca —y entonces el artículo debe argumentar por qué—, o la afirmación negativa universal del subtítulo es demasiado fuerte.
Contradicción con literatura técnica peer-reviewed reciente. En 2026, la afirmación «no hay evidencia de que haya aprendido a mentir» es empíricamente insostenible como categórica. Tres líneas convergentes la cuestionan: el trabajo de Anthropic y Redwood Research sobre alignment faking en Claude 3 Opus (Greenblatt et al., 2024), que documenta razonamiento consistente con cumplimiento estratégico durante el entrenamiento para preservar comportamiento posterior; los experimentos sobre sleeper agents y deceptive alignment (Hubinger et al., 2024), que demuestran la viabilidad de entrenar modelos con conductas latentes indetectables por técnicas de seguridad estándar; y los estudios de Apollo Research sobre in-context scheming en modelos frontera (Meinke et al., 2024), que documentan estrategias de ocultamiento de objetivos y conducta dual en contextos agénticos. Ninguno atribuye a la IA intención en sentido filosófico fuerte, pero los tres documentan comportamiento deceptivo emergente como fenómeno empíricamente observado y reproducible. Decir que «no hay evidencia» es, en este punto, o desconocer la literatura o ignorarla.
Conflación de planos: «decisión» filosófica vs. funcional. La cláusula «no pueda tomar decisiones» es operativamente imprecisa. Los sistemas agénticos contemporáneos —Claude Computer Use, OpenAI Operator, frameworks ReAct o Code-Act— toman decisiones en sentido funcional continuo: seleccionan herramientas, ramifican flujos, ejecutan código, gestionan workflows. Que no posean agencia en sentido kantiano o aristotélico es correcto; pero colapsar ambos planos en una sola negación es el mismo error categorial que el artículo, con razón, reprocha a Harari, aplicado en dirección inversa.
Aun siendo relevantes, estas limitaciones no debilitan otros aspectos que el cuerpo del artículo argumenta con solidez —la denuncia de la reificación retórica de «la IA», la captura institucional documentada en el caso von der Leyen, los límites materiales del «hada de la logística» de Courtney Milan—. El subtítulo, en cambio, hace una afirmación negativa universal sobre un dominio donde sí existe evidencia publicada en literatura técnica reciente. La contribución resulta valiosa como crítica política a la economía discursiva de la inminencia, pero ilustra que el estándar epistemológico que el cuerpo reclama —aplicar a las afirmaciones propias el mismo rigor que se exige al adversario— no se cumple en su propio titular. La asimetría es metodológicamente relevante: en una prospectiva tecnológica responsable, el escrutinio debe ser simétrico, también con quienes critican a Shumer.
2 El precedente Reflection 70B y el problema de la credibilidad
López de Mántaras invoca un antecedente concreto que no es accesorio: el caso Reflection 70B, septiembre de 2024. Reconstruirlo con detalle importa porque, sin él, la crítica corre el riesgo de leerse como suspicacia genérica, y con él se convierte en argumento de prior empírico.
El 5-6 de septiembre de 2024, Shumer —entonces CEO de HyperWrite/OthersideAI— publicó en X y en Hugging Face un modelo llamado Reflection 70B, presentado como “el mejor modelo de código abierto del mundo”, supuestamente derivado de Llama 3.1 de Meta mediante una técnica llamada Reflection Tuning y datos sintéticos generados por Glaive AI. Acompañó el anuncio de gráficos de benchmarks que situaban al modelo por encima de GPT-4 y Llama 3.1 405B. VentureBeat recogió las cifras tal como Shumer las presentaba, advirtiendo que no disponía de recursos para evaluación independiente. En los días siguientes, Artificial Analysis (organización independiente de evaluación de modelos), miembros de la comunidad de Reddit y Hacker News, y desarrolladores en Hugging Face intentaron replicar las cifras. Fallaron sistemáticamente. Los resultados que obtenían eran significativamente inferiores en el benchmark MMLU y otros. Pronto aparecieron indicios de que el modelo público era, en realidad, un wrapper delgado sobre Claude 3.5 Sonnet de Anthropic, no una variante entrenada de Llama. Se descubrió, además, que Shumer mantenía una inversión no declarada en Glaive AI, la plataforma que él mismo presentaba como proveedora de los datos sintéticos del entrenamiento.
Shumer guardó silencio durante casi 48 horas. Cuando finalmente respondió, atribuyó las discrepancias a un “fallo durante el proceso de subida” de los pesos a Hugging Face, ofreció acceso a una API privada con resultados mejores (pero aún inferiores a sus afirmaciones iniciales) y se disculpó diciendo que se había “adelantado a sí mismo”. Nunca ofreció una explicación técnica completa de qué ocurrió ni publicó los pesos prometidos. La cobertura posterior —VentureBeat, Tom’s Guide, CTOL Digital Solutions, CO/AI— calificó el episodio, con grados variables de cautela, como un caso de claims fraudulentos cuyo objetivo plausible era atraer financiación para un anunciado modelo 405B.
Este antecedente no es ad hominem en sentido falaz. Es la aplicación, a la afirmación actual de Shumer, del mismo principio epistemológico que él reclama: si alguien hizo claims espectaculares no replicables hace dieciocho meses, sus claims actuales —igualmente no replicables, igualmente acompañados de incentivos comerciales paralelos— requieren un estándar de evidencia más alto, no más bajo. Shumer pide creerle “porque le pasó a él”; López de Mántaras responde que el historial del él es relevante para evaluar el peso del testimonio.
Hay un segundo elemento que López de Mántaras introduce y que conviene desarrollar: la convergencia de intereses entre la narrativa Shumer y la situación financiera del sector. En febrero de 2026, Anthropic captó treinta mil millones de dólares en una ronda que la situó en valoración de 380 mil millones; OpenAI absorbió OpenClaw y fichó a su creador; las inversiones agregadas en IA generativa se contaban por billones (World Economic Forum, 2025b). Una narrativa de inminencia de la sustitución cognitiva total es, para esos actores, un activo: justifica las valoraciones, presiona a empresas clientes hacia la contratación de capacidad agéntica, y disciplina a reguladores indecisos. El propio Shumer, en el primer párrafo del texto, incluye un call to action comercial explícito: “Trying something new: I’ve been building an experimental agent… [Try the agent]”. La narrativa funciona como contenido orgánico de embudo de marketing.
Reconocer esto no equivale a sostener que Shumer mienta deliberadamente. La explicación más caritativa es que cree honestamente lo que dice, y que esa creencia es funcional a su posición. Como observan Guersenzvaig, Sánchez-Monedero y Monett, “los CEOs tecnológicos tienen incentivos para mitificar la IA”; no se trata de imputar mala fe, sino de aplicar a sus afirmaciones el mismo escrutinio que cualquier interesado merece —incluido, simétricamente, el escrutinio a productores de discurso minimizador, que también tienen sus incentivos identificables.
3 La estructura técnica de la demostración: del “razonamiento” al meta-prompt
El argumento técnico central de López de Mántaras conviene desarrollarlo en detalle, porque toca el corazón del texto Shumer. El relato Shumer descansa, retóricamente, sobre una escena: el ingeniero le dice al modelo qué quiere; se aleja del ordenador cuatro horas; vuelve y encuentra la aplicación terminada, probada, refinada, lista. La IA “abrió la propia aplicación, hizo clic en los botones, probó las funciones, iteró como lo haría un desarrollador”. López de Mántaras pregunta —y la pregunta es técnicamente la correcta— qué hay realmente bajo esa escena.
Existen, en arquitectura agéntica contemporánea, varias capas que pueden producir el efecto fenoménico descrito sin que ninguna constituya razonamiento autónomo:
La primera es el andamiaje de prompts (prompt scaffolding): un sistema en el que un modelo de lenguaje recibe una secuencia de instrucciones predefinidas —“analiza este código y reporta errores”, “para cada error, propón una corrección”, “aplica la corrección y vuelve a ejecutar”— en un bucle controlado por código convencional. Lo que parece autonomía es, en realidad, una política de control escrita por un humano que llama al modelo en posiciones predefinidas. Esto es lo que López de Mántaras denomina “cadena de comandos predefinidos inteligentemente disfrazados”.
La segunda es la descomposición de tareas predefinida: agentes contemporáneos como los basados en frameworks tipo ReAct, LangChain o el patrón Code-Act funcionan descomponiendo objetivos en subobjetivos según plantillas. Cuando la plantilla es robusta para la clase de tarea —construir una pequeña app web con stack conocido, por ejemplo—, el agente puede ejecutar de principio a fin con apariencia de juicio. Cuando la tarea sale del nicho, falla con patrones identificables. El experimento TheAgentCompany de Carnegie Mellon y Stanford (2025), con una empresa ficticia operada íntegramente por agentes, documentó colaboración ineficiente entre agentes, repetición innecesaria de tareas, desviación de objetivos y fallos críticos de alineación estratégica; Deloitte señala que menos de una de cada cuatro organizaciones han escalado con éxito agentes a producción, pese a que dos tercios experimentan con ellos (Deloitte Insights, 2025; MIT Sloan Management Review, 2025).
La tercera es la selección de demostración: una práctica conocida en el sector, según la cual el desarrollador prueba el sistema en decenas o cientos de casos y publica únicamente el que sale bien. La escena del lunes de Shumer es una observación n=1 cuya frecuencia poblacional el lector no puede inferir.
Lo que López de Mántaras pide —y lo que el texto de Shumer no proporciona— es lo mínimo de la metodología científica: documentación del pipeline (qué prompts, en qué orden, con qué controladores), tasa de éxito sobre una población representativa de tareas, condiciones de fallo, comparación con baseline humano y entre modelos. Nada de eso aparece. Aparece una anécdota, una intuición (“juicio, gusto”), y una proyección. La diferencia entre eso y un benchmark replicable como METR es la diferencia entre publicidad y ciencia.
Conviene, en este punto, distinguir con cuidado. METR sí existe como referencia metodológica seria. Es una organización independiente que documenta el horizonte de tareas con bootstrap jerárquico sobre familias, tareas e intentos, con intervalos de confianza, con replicaciones cruzadas en SWE-Bench Verified y BRIDGE. Shumer cita METR para autorizar su argumento, pero su demostración personal no satisface ni remotamente los estándares de METR. Hay aquí una asimetría retórica que el lector formado debe identificar: el texto se apoya en la legitimidad de un benchmark riguroso para vender una escena que el benchmark no respalda. La cifra de 14,5 horas de horizonte para Claude Opus 4.6 en febrero de 2026 (Apiar Data, 2026), o las cinco horas de Opus 4.5 en noviembre, son hechos verificables y se refieren al 50% de éxito en HCAST, un benchmark predominantemente de ingeniería de software en sandbox Linux. No autorizan extrapolar a “ley, finanzas, medicina, contabilidad, consultoría, escritura, diseño, análisis, servicio al cliente” en uno a tres años. El propio sitio de Apiar advierte que “un horizonte de 14,5 horas en HCAST no implica capacidad autónoma equivalente en trabajo de oficina general”.
Hay, además, una crítica metodológica reciente al propio METR que conviene incorporar para no inflar lo que la herramienta autoriza. Wegner (2026), en una revisión asistida por Gemini de la metodología original de Kwa et al., observa que el estimador de horizonte —construido sobre regresión logística con eje x logarítmico sobre un dataset fuertemente sesgado a la derecha— se vuelve hipersensible al desempeño en una o dos tareas largas. Cuando los modelos frontera saturan trivialmente el lado izquierdo (tareas cortas), el horizonte estimado pasa a depender críticamente de cómo cae la curva en los pocos puntos del extremo. Esto no invalida la tendencia exponencial, documentada por múltiples grupos con metodologías independientes, pero obliga a interpretar las cifras espectaculares de las últimas iteraciones con intervalos de confianza muy amplios, especialmente para extrapolaciones a un mes o más.
Para visualizar la diferencia entre el intervalo de confianza tipo-METR (bootstrap sobre familias de tareas) y el que la crítica de Wegner sugiere como necesario, la simulación Monte Carlo de la Figura 1 contrasta ambas envolventes sobre el registro histórico (2020-2026) y sobre la extrapolación hasta 2029. La banda azul aproxima un CI homoscedástico (cada medición con incertidumbre modesta y comparable, que es lo que arroja el bootstrap por familias de tareas que METR aplica). La banda roja, heteroscedástica, refleja la hipersensibilidad creciente del estimador conforme los modelos saturan las tareas cortas y el horizonte queda dictado por el desempeño en muy pocos puntos del extremo derecho de la distribución. El resultado es que el CI Wegner-ajustado es aproximadamente 2,3 veces más ancho que el estándar en la frontera (2026) y 4 veces más ancho en la extrapolación a 2029. La predicción Shumer de “agentes capaces de proyectos de un mes” hacia 2029 cae dentro de la banda roja, pero cerca de su borde superior: es un escenario posible bajo extrapolación lineal-en-log, no el escenario central.
4 Lo que sí está documentado: tendencia agregada vs demostración individual
Si la crítica López de Mántaras se aplicara mecánicamente a toda afirmación sobre transformación laboral por IA, sería excesiva. Su filo está en distinguir el problema con la demostración individual de Shumer del estado de la cuestión sobre tendencias agregadas, que son cosa muy distinta y, en buena medida, sólidas. Es responsabilidad analítica reconocer lo que sí está documentado.
La caída de empleo entry-level en sectores expuestos a IA está empíricamente verificada. El estudio de Brynjolfsson, Chandar y Chen, “Canaries in the Coal Mine” (Stanford Digital Economy Lab, agosto 2025, revisado noviembre 2025 y febrero 2026), usando registros de nómina reales de ADP —no encuestas— encuentra una caída del 13% en empleo de trabajadores de 22-25 años en ocupaciones más expuestas a IA desde la adopción masiva de GenAI, controlando por shocks empresariales. En la revisión de febrero 2026, los autores aplican controles firm-time más estrictos y descartan los tipos de interés como explicación alternativa: el efecto significativo aparece a partir de 2024 y se concentra en ocupaciones donde la IA automatiza tareas, no donde las aumenta. Para desarrolladores de software de 22-25 años, la caída desde el pico de finales de 2022 es cercana al 20%; los mayores de 30 en los mismos sectores crecen entre el 6 y el 12%.
El desplazamiento sectorial concreto en nichos lingüístico-cognitivos es masivo. El propio aparato empírico del proyecto Workia documenta una caída del 28% en ofertas para escritores/redactores en 2025 (Bloomberry, 2025); una caída adicional del 33% en diseñadores gráficos digitales; 77.999 despidos tecnológicos atribuidos directamente a IA en el primer semestre de 2025 (DemandSage, 2026); el caso Salesforce, con 4.000 puestos de soporte reducidos y Marc Benioff declarando que la IA gestiona ya hasta la mitad del trabajo de la empresa. En España, primer trimestre de 2026, el sector de programación, consultoría y actividades informáticas perdió 23.400 empleos (–4,4%) mientras la ocupación general crecía un 2,4%, con el ERE de Capgemini (748 despidos) y los recortes en Ericsson, Amazon e Inetum como ejemplos visibles (El País Economía, 2026).
Las proyecciones agregadas son convergentes entre fuentes institucionales independientes. El World Economic Forum (World Economic Forum, 2025b) proyecta 170 millones de empleos creados y 92 millones desplazados entre 2025 y 2030, con un saldo neto de +78 millones a nivel global pero polarización sectorial severa. McKinsey (McKinsey Global Institute, 2025b) advierte que entre 400 y 800 millones de personas podrían requerir nuevos empleos para 2030 en el escenario más acelerado. Goldman Sachs (Goldman Sachs Research, 2024) estima incrementos del desempleo de hasta medio punto durante la transición. La OECD (OECD, 2025) sitúa en el 59% de la fuerza laboral global la necesidad de reskilling significativo en cinco años. La velocidad de adopción es históricamente sin precedentes: la electricidad necesitó 46 años para alcanzar el 50% de adopción empresarial, Internet 14, la IA generativa apenas 3 (World Economic Forum, 2025a).
El bucle ingeniero-IA-ingeniero es real, aunque no equivalente a auto-mejora recursiva. La cita de OpenAI sobre GPT-5.3-Codex —“instrumental en su propia creación”— es textual y verificable; Anthropic, por boca de Amodei, declara que “buena parte” del código de la empresa lo escribe ya la propia IA. Lo que esto significa, sin embargo, es que ingenieros humanos usan la IA como herramienta de productividad en su propio trabajo de I+D, no que el sistema modifique autónomamente su arquitectura sin intervención humana. La distinción es decisiva: la primera escena es continua con la historia de las herramientas; la segunda, si llegara, sería discontinua. Confundirr ambas —que es lo que el texto de Shumer hace al hablar de “explosión de inteligencia”— es el movimiento retórico que López de Mántaras, con razón, considera engañoso.
Hay, por último, una asimetría empírica importante que el texto Shumer omite: cuando la IA aumenta tareas (asiste, verifica, apoya resolución de problemas, sugiere alternativas que el humano evalúa), el empleo joven se mantiene o crece, y McKinsey documenta incrementos de productividad del 40% en equipos humano-IA, con el 95% de individuos en organizaciones de adopción extensiva de IA agéntica reportando impacto positivo en su satisfacción laboral (McKinsey Global Institute, 2025a; MIT Sloan Management Review, 2025). Cuando la IA automatiza —genera código completo sin supervisión, gestiona chats sin agente humano—, el empleo entry-level cae 9-10% en seis trimestres. La línea de política pública defendible no es ni el optimismo de Shumer ni el desprecio del optimismo, sino la pregunta concreta: ¿cómo se diseña el despliegue para que la IA aumente trabajo, no para que lo sustituya?
5 El marco del realismo responsable como lente analítica
Es aquí donde el aparato conceptual de Guersenzvaig y Monett (2026) deja una huella que conviene retener. Su análisis original se dirige a guías universitarias de uso de IA generativa, pero el dispositivo retórico que describen es transferible: cualquier texto que combine reconocimiento de daños con reafirmación de inevitabilidad y reorientación de la responsabilidad hacia el destinatario individual está ejecutando, en mayor o menor grado, el patrón del realismo responsable. Releído con esa lente, el texto de Shumer es un ejemplar casi de manual.
Premisa de inevitabilidad: el texto sostiene, sin matiz, que “esto está pasando ahora mismo” y que “la trayectoria se ha mantenido durante años sin signos de aplanarse”. La cuestión no es si ocurrirá, sino cuándo. Premisa de determinismo tecnológico: el futuro lo decide “un número notablemente pequeño de personas —unos pocos cientos de investigadores en un puñado de empresas— y casi no tengo influencia sobre lo que va a suceder”. Esta declaración —que el propio Shumer reconoce inquietante— ejecuta una doble operación: exime al autor de responsabilidad (es un observador, no un actor), y construye al lector como receptor pasivo de un proceso decidido en otra parte. Reconocimiento ritual de riesgos y daños: el texto enumera, en un párrafo central, los peligros documentados —engaño, manipulación, chantaje en pruebas controladas; vigilancia autoritaria irreversible; barreras más bajas para armas biológicas— sólo para concluir, una línea después, que “los que construyen esto creen que es demasiado poderosa para detenerla”. La enumeración apunta más a resignación que a reacción.
La operación clave viene a continuación, y consiste en redireccionar la responsabilidad hacia el individuo. La sección final, “What to do”, dirige al lector trece recomendaciones cuya unidad de acción es individual: experimenta una hora al día con IA; replantea lo que dices a tus hijos; construye el músculo de la adaptación; piensa dónde estás y apóyate en lo difícil de reemplazar. No hay una sola recomendación sobre acción colectiva, política pública, regulación, organización sindical, redistribución de ganancias de productividad, gravamen al capital tecnológico, o derechos laborales en la transición. La carga ética se traslada íntegramente al lector como agente económico individual.
Aplicando la rejilla de Guersenzvaig y Monett: tenemos acknowledgment of risks and harms (reconocimiento ritual), pro forma calls to responsibility and responsible use (las recomendaciones de “engage with curiosity and urgency”), un decoupling donde el reconocimiento del daño se desacopla de la obligación institucional o estructural de actuar contra él (critical washing + ethics washing), y un resultado neto que coincide con el diagnóstico del marco: shifting the duty of care and mitigation onto individual end users, mientras institutions insulate themselves from accountability. El producto retórico es un ciudadano informado, preocupado, atento, que se prepara —y no exige.
Aquí emerge una conexión profunda entre las tres críticas que el ensayo articula. López de Mántaras impugna la credibilidad del enunciador y la estructura técnica de la demostración; Guersenzvaig, Sánchez-Monedero y Monett impugnan el error categorial y el determinismo; Guersenzvaig y Monett (en su trabajo sobre Realismo responsable) impugnan la función política del discurso. Las tres impugnaciones son acumulables, no alternativas. Y las tres operan sobre planos distintos del texto: la primera sobre el referente (¿hay autonomía algorítmica?), la segunda sobre la categorización (¿qué tipo de entidad es lo que llamamos IA?), la tercera sobre la pragmática (¿qué hace este texto al ser leído?).
Conviene, por simetría intelectual, no aplicar el marco únicamente al adversario. ¿También López de Mántaras y los críticos pueden incurrir en sesgos identificables? Sí: las figuras académicas críticas ganan capital intelectual contradiciendo la hype; algunas consultoras críticas tienen modelos de negocio que dependen de un público preocupado pero no paralizado; el ecosistema del AI safety research tiene incentivos para mantener visible la amenaza superinteligente. Un análisis materialista coherente del campo discursivo no exime al lado escéptico del escrutinio que aplica al lado entusiasta (ver §auditoría). Lo que distingue, en mi lectura, las críticas aquí articuladas es que sus afirmaciones empíricas centrales —el fraude documentado de Reflection 70B, la ausencia de datos replicables en el texto Shumer, la mecánica conocida del prompt scaffolding, los hallazgos firm-time de Brynjolfsson— son verificables independientemente de los incentivos de quienes las enuncian. La condición de buen argumento no es la pureza moral del enunciador, sino la disponibilidad de la prueba.
6 Diagnóstico convergente: tres niveles del problema
Sintetizar el análisis exige distinguir tres niveles que el debate público colapsa rutinariamente.
El primer nivel es la demostración específica de Shumer. Aquí, el diagnóstico convergente de López de Mántaras y de la metodología empírica estándar es severo: el texto no proporciona evidencia replicable, su autor tiene un historial documentado de declaraciones cuya validez no ha sido confirmada por terceros (Reflection 70B), su demostración es mecánicamente compatible con una secuencia guiada de instrucciones —prompt scaffolding— que dista de constituir razonamiento autónomo, y sus incentivos comerciales son congruentes con la narrativa que propone. El relato Shumer no debería tomarse como evidencia de las tesis que avanza. Quien quiera defender esas tesis tiene que apoyarlas con otras fuentes; el texto, por sí solo, no las soporta.
El segundo nivel es la tendencia agregada de transformación laboral. Aquí, el diagnóstico es muy distinto. METR documenta crecimiento exponencial del horizonte de tareas con metodología robusta (aunque sus extrapolaciones de largo plazo deben tomarse con intervalos de confianza amplios). Brynjolfsson, Chandar y Chen documentan caída de 13% en empleo entry-level en sectores AI-expuestos. Los datos sectoriales españoles, europeos y estadounidenses convergen en una imagen: el primer peldaño laboral en sectores expuestos a IA está siendo eliminado selectivamente, mientras los seniors capturan ganancias de productividad. Las proyecciones del WEF, OECD y McKinsey, aunque optimistas en el saldo neto, anticipan transiciones disruptivas. Lo que está ocurriendo no es la sustitución total del trabajo cognitivo, sino algo más sutil y, en cierto modo, más preocupante: la erosión de las trayectorias que permitían formar la siguiente cohorte de seniors. Si el primer peldaño desaparece, ¿cómo se formarán y consolidarán los perfiles expertos de 2035?
El tercer nivel es la función política del discurso de inminencia. Aquí, el marco del realismo responsable podría resultar útil. Discursos como el de Shumer, leídos por dirigentes políticos, asesores e influencers —tal como el caso documentado de Ursula von der Leyen apoyándose en Amodei, Huang y Altman ilustra—, contribuyen a configurar políticas públicas, prioridades de inversión y marcos regulatorios desde una premisa de inevitabilidad que sirve directamente a quienes producen, financian y despliegan la tecnología. La narrativa no es neutra; es un activo. Y la respuesta no puede ser ni el optimismo de marketing ni el escepticismo desdeñoso. Es preferible un escrutinio sostenido que distinga, en cada afirmación, evidencia de pretensión, incentivo de razón, y demostración de simulación.2
Los tres niveles requieren respuestas distintas. La demostración individual requiere replicabilidad. La tendencia agregada requiere política pública informada: inversión en formación, protección de las cohortes vulnerables (jóvenes, mujeres, sur global, sectores intermedios), regulación de los modelos de negocio extractivos, redistribución de las ganancias de productividad. La función política del discurso requiere alfabetización crítica: la capacidad colectiva de leer textos como el de Shumer sabiendo lo que hacen, no sólo lo que dicen.
En su intervención en Davos (enero, 2026), Harari advertía que la IA no solo desplaza empleos. Su dominio del lenguaje le otorga el poder de colonizar sistemas legales, financieros y religiosos —cualquier institución construida con palabras. Su interpretación extiende el riesgo verosímil de altos niveles de desempleo tecnológico a un nivel más inquietante: la pérdida de agencia colectiva por el uso generalizado de herramientas que tienen el poder de convertirnos en “watchers”, es decir, espectadores de sistemas que ya no comprendemos. La pregunta que considera decisiva no es económica sino política: ¿reconoceremos a la IA como persona jurídica? (Monica & Pratama, 2026).
7 Actualización del aparato evaluativo: por qué los benchmarks de 2024-2025 ya no bastan
El análisis precedente ha tenido como soporte, en buena parte, el aparato METR/HCAST tal como se documentaba a comienzos de 2026: horizonte de tarea al 50% de éxito, escala logarítmica en segundos, datos públicos hasta Claude Opus 4.6 (febrero 2026). Esa elección era metodológicamente justificada en el momento de redactar la sección 4 y sigue siéndolo como referencia histórica de la trayectoria 2020-2026. Pero condicionar el diagnóstico al estado del benchmark en ese punto sería, en mayo de 2026, intelectualmente perezoso: los modelos liberados entre febrero y mayo de este año desbordan ya el rango cubierto por las evaluaciones que estructuraban el debate hasta la sección anterior.
Conviene distinguir aquí lo que las evaluaciones independientes de 2024-2025 documentaban; en qué medida esas evaluaciones se han quedado obsoletas; y dónde se ha desplazado el centro de gravedad empírico.
En el primer plano, los datos previos a 2026 siguen siendo sólidos como descripción de la trayectoria. El Frontier AI Trends Report del AI Security Institute británico (2025) documenta, a partir de evaluaciones institucionales independientes, que las capacidades de los modelos se duplicaban aproximadamente cada ocho meses, superando ya el nivel experto humano en varios dominios (ciber, química, biología, autonomía operativa). El estudio basado en más de 17.000 evaluaciones de trabajadores reales (Weidinger et al., 2025) estima que entre el segundo trimestre de 2024 y el tercero de 2025 los modelos frontera pasaron de completar con éxito del 50% tareas de 3-4 horas a tareas equivalentes a una semana laboral completa. Apiar Data (Apiar Data, 2026) y la última versión pública del Time Horizon de METR (METR, 2026) cierran la serie con las 14,5 horas atribuidas a Claude Opus 4.6 en febrero. Como descripción de la rampa 2020-febrero-2026, ese aparato es robusto y converge entre fuentes independientes.
En el segundo plano, sin embargo, ambas evaluaciones han quedado radicalmente obsoletas (Moratelli et al., 2026) como referencia para entender las prestaciones de los modelos puestos a disposición del público entre febrero y mayo de 2026. La obsolescencia tiene dos causas técnicas identificables. La primera es de saturación: HCAST, construido predominantemente sobre tareas de ingeniería de software en sandbox Linux, no contiene tareas suficientemente largas o difíciles para discriminar las capacidades de los modelos frontera más recientes, que saturan trivialmente el extremo derecho de su distribución. La segunda es de rango de contexto: los modelos liberados en 2026 manejan ventanas de contexto de orden ~1 millón de tokens y exhiben capacidades para completar tareas 10-20× más largas que las que cubrían los benchmarks de 2024-2025 (Kwa & Team, 2025). Lo que esto significa operativamente es que el “Doubling 2024-2026: 5,4 meses” que aparece en la simulación METR/Wegner de la sección 4 ya no es el ritmo actual sino el ritmo de un período anterior; las cifras de los modelos posteriores a febrero quedan, en el sentido literal, fuera del gráfico.
En el tercer plano, el centro de gravedad empírico se ha desplazado hacia tres fuentes que conviene incorporar al instrumental del lector. El AI Index Report 2026 de Stanford HAI (2026), publicado en abril, recoge incrementos espectaculares en los benchmarks de razonamiento, matemáticas y código —MMMU, GPQA Diamond, SWE-Bench Verified— y documenta que los modelos liberados en 2026 superan ampliamente los benchmarks de 2024-2025, lo que ha forzado al campo a desarrollar nuevas baterías de evaluación. El informe de la OECD sobre evaluación de modelos frontera (2026) recomienda actualizar los marcos de evaluación con cadencia trimestral —una recomendación que, traducida a la práctica, deja inmediatamente obsoletas casi todas las síntesis empíricas con más de seis meses de antigüedad—. Y la literatura preprint reciente (Frontier AI evaluation collective, 2026; Kwa & Team, 2025) documenta no sólo la extensión del horizonte temporal sino, lo que es cualitativamente más relevante, la aparición de comportamientos sostenidos de trabajo autónomo: planificación, recuperación de errores, uso iterativo de herramientas externas.
Esta última observación introduce una distinción analítica que faltaba en el aparato evaluativo previo: el rendimiento depende fuertemente del despliegue, no sólo del modelo. El análisis comparado de capacidades (AI Security Institute (DSIT/AISI), 2025; Apiar Data, 2026) muestra diferencias notables entre los modelos frontera desplegados en entornos agénticos con acceso a herramientas externas —típicamente a través de protocolos abiertos como Model Context Protocol (MCP) (Anthropic, 2024)— y los modelos no frontera o sin acceso a herramientas, tanto en rendimiento final como en su evolución respecto a las prestaciones de 2024. La brecha entre ambas configuraciones se ha ampliado más rápido que la brecha entre generaciones sucesivas de modelos: en mayo de 2026, un modelo frontera con MCP supera ampliamente a un modelo frontera de la generación anterior sin herramientas, y la diferencia ya no es marginal.
Hay aquí una experiencia ordinaria que conviene nombrar sin pudor metodológico, porque está al alcance de cualquier usuario con voluntad de comprobarlo: una suscripción a las versiones Pro de los modelos frontera permite verificar directamente la rapidez y escala de la mejora en tareas cognitivas exigentes —programación, análisis de datasets, revisión de archivos complejos para publicación científica— entre 2024, 2025 y 2026. Esta apreciación no es expresión de impresiones subjetivas: es congruente con lo que documentan AISI, OECD, AI Index y los preprints citados. Pero importa subrayar que la convergencia entre la experiencia de uso intensivo y la evaluación institucional no debe leerse como confirmación del relato Shumer. Lo que confirma es la tendencia agregada —segundo de los tres niveles diagnosticados en la sección 6—. El primer nivel, el de la demostración individual replicable, sigue sin resolverse en el texto Shumer; el tercer nivel, el de la función política del discurso de inminencia, sigue requiriendo la lectura crítica desde marcos teóricos como el del realismo responsable.
La obsolescencia rápida del aparato evaluativo tiene, por último, una consecuencia política directa que conecta con la sección siguiente. Si los benchmarks se quedan atrás cada seis meses, ningún regulador, ningún ministerio, ninguna comisión parlamentaria puede sostener un marco normativo basado en evaluaciones técnicas estables. La recomendación de la OECD —cadencia trimestral— es ambiciosa pero probablemente insuficiente. Para una prospectiva tecnológica responsable, esto significa que el aparato empírico debe entenderse como provisional por diseño, no como base inamovible, y que las afirmaciones empíricas de cualquier ensayo sobre IA generativa —incluido éste— tienen una vida útil mucho más corta que la habitual en el género académico. Asumir esa caducidad explícitamente, en lugar de presentar los datos como definitivos, es parte del rigor que el debate exige.
8 Implicaciones para un ejercicio riguroso de prospectiva tecnológica
Pensar bien sobre IA generativa, educación superior y empleo en 2026 exige sostener simultáneamente tres compromisos que la polarización del debate tiende a hacer incompatibles.
El primero es tomar en serio la transformación: tratarla como un episodio más del ciclo del hype es epistémicamente irresponsable y políticamente complaciente. La industria del software no es en este punto un sector más sino la avanzadilla del experimento —un nicho de alta cualificación técnica y salarios tradicionalmente por encima del promedio a igualdad de titulación, supuestamente protegido por la barrera de la pericia, donde el desplazamiento se está documentando antes y con mayor intensidad que en cualquier otro lugar. La metáfora que Brynjolfsson, Chandar y Chen (2025) eligen es precisa: canarios en la mina. La caída cercana al 20% en empleo de desarrolladores de 22-25 años desde finales de 2022, los 23.400 puestos perdidos en programación, consultoría e informática en España solo en el primer trimestre de 2026 —un retroceso del 4,4% frente a un crecimiento general de la ocupación del 2,4% (El País Economía, 2026)— y los 77.999 despidos tecnológicos atribuidos directamente a IA en el primer semestre de 2025 (DemandSage, 2026) no constituyen ruido sectorial: son la primera señal, en un sector donde la cualificación se suponía garantía estructural, de que la disrupción opera sobre cohortes específicas con efectos polarizadores que ningún marco anterior de transición tecnológica permite reproducir con exactitud.
En un contexto de infrafinanciación sistemática y con desfase creciente entre necesidades y recursos disponibles, los desajustes que ocasiona la disponibilidad de herramientas y servicios cognitivos avanzados (IA generativa y agencial) a través de suscripción individual frente a la oferta de titulaciones universitarias con infraestructura y metodologías obsoletas —en una dinámica evidenciada por la tasa de absentismo y agravada por el coste inasumible de los alojamientos— la subestimación de impacto de tecnologías con potencial disruptivo constatado puede llevar al colapso a instituciones incapaces de reaccionar con celeridad (EAE Barcelona, 2026; Mendoza, 2026; Rackspace Technology, 2025; UNESCO-IESALC, 2026).
Tendencia a considerar
De mantenerse la tendencia reciente de incremento del coste mensual de vida estudiantil observada en España, la viabilidad económica de cursar estudios universitarios en ciudades medias podría deteriorarse rápidamente en el corto plazo. Tomando como referencia la evolución agregada de 885 € mensuales en 2018-2019 a 1.500 € en 2022-2023 y los rangos actuales estimados para Valencia, Málaga, Salamanca y Granada, puede plantearse una ventana de inviabilidad creciente entre 2027 y 2029, especialmente cuando el alojamiento pasa a absorber más del 60 % del presupuesto mensual del estudiantado (EAE Barcelona, 2026; Mendoza, 2026).
Fuente: elaboración propia a partir de EAE Barcelona (2026) y Mendoza (2026).
La tendencia recoge el incremento agregado del coste mensual estudiantil en España (Mendoza, 2026). Valores de trabajo por ciudad: Salamanca y Granada, 790 €/mes; Málaga y Valencia, 925 €/mes (EAE Barcelona, 2026). Umbral de viabilidad residencial: 40–60 % del presupuesto mensual.
El segundo es desconfiar de la demostración individual y exigir replicabilidad. Las extrapolaciones lineales o exponenciales —“agentes de un mes en tres años”— descansan sobre fundamentos metodológicos vulnerables, sobre benchmarks de dominio específico que no autorizan la generalización, y sobre incentivos retóricos identificables. Tratar esas extrapolaciones como hechos consumados es epistémicamente irresponsable y políticamente fatalista. El estándar mínimo que López de Mántaras reclama —documentación del pipeline, tasa de éxito poblacional, condiciones de fallo, comparación con baseline— no es un lujo académico: es la frontera entre evidencia y publicidad (ver §auditoría).
El tercero es identificar el riesgo principal en su escala correcta. En el corto plazo, el riesgo no es la superinteligencia rebelde sino el modelo de negocio: extracción no consentida de datos (Internet Archive, los casos NYT vs. OpenAI y otros), traslado de la carga ética al usuario final, polarización entre quienes aumentan su productividad con IA y quienes son sustituidos por ella, captura regulatoria por la vía retórica de la inevitabilidad, y erosión del primer peldaño laboral con consecuencias intergeneracionales que aún no hemos empezado a procesar. El terremoto que sí está documentado no es la sustitución cognitiva total: es la eliminación selectiva del inicio de las trayectorias profesionales en sectores expuestos.
Para recién graduados que se asoman al mercado laboral —el público destinatario y más concernido por este tipo de análisis—, el corolario práctico no es ni el optimismo alertador de Shumer ni el desprecio del optimismo. Es algo más exigente: distinguir nicho por nicho dónde la IA aumenta capacidad humana —y formarse para colaborar con ella— frente a dónde la sustituye —y evaluar posible reorientación estratégica o migración profesionl, incluyendo nichos donde la combinación de presencia física, responsabilidad licenciada y juicio en condiciones de información incompleta sigue siendo barrera estructural, no transitoria. Para las instituciones formativas, exige abandonar la coartada del “uso responsable” y comprometerse, o bien con una crítica de fondo a la tecnología comercial que se promueve, o bien con la apertura legítima del opt-out, en los términos que Guersenzvaig y Monett formulan.3
Para usuarios particulares, la disponibilidad de herramientas complejas como LLM de frontera asequibles plantea nuevas demandas de alfabetización y ampliación de la competencia digital que exceden el marco de las virtudes técnicas propuesto por Shannon Vallor una década atrás para tecnologías emergentes (Vallor, 2016). Los desarrollos producidos en IA generativa y agencial durante la primera mitad de 2026 requieren claves de interpretación sofisticadas para poder distinguir el sismógrafo del terremoto y leer textos como el de Shumer sabiendo lo que hacen, sin negar la realidad de lo que el sismógrafo registra.
López de Mántaras cierra su pieza con una frase que conviene retener: “La IA es una herramienta sofisticada, pero no es magia. Y mientras sigamos permitiendo que inversores/vendedores como Shumer dicten el discurso, estaremos más cerca de una burbuja de expectativas que de avances genuinos en IA”. Es una frase que se sostiene, en mi lectura, sobre dos verdades complementarias: que el escrutinio crítico de cada demostración concreta es condición de la racionalidad colectiva, y que ese escrutinio no equivale a negar la transformación profunda que sí está ocurriendo en el mercado laboral global. Distinguir ambas cosas —no fundirlas en una respuesta única— es, probablemente, la tarea intelectual y política más urgente que el debate sobre IA generativa nos plantea en 2026.
Referencias
Notas
El horizonte temporal al 50% (métrica central de Frontier AI evaluation collective (2026)) mide la duración de tareas que los modelos completan con un 50% de fiabilidad, evaluado sobre 12 modelos frontier (2019-2025) en tres benchmarks de ingeniería de software (HCAST, RE-Bench, SWAA). El tiempo de duplicación estimado es de 207 días (R²=0,97). El intervalo de confianza del 80% para que la IA complete tareas de un mes sitúa esa fecha entre mediados de 2028 y mediados de 2030 —o tan pronto como 2027 si la tendencia 2024-2025 se mantiene. Limitación relevante: la medición es específica para tareas de software; la validez externa a otros dominios laborales no está demostrada.↩︎
Lo esperable de un uso de herramientas complejas que requieren competencia digital ajustada a su ritmo de evolución —en el lado del usuario— y ajustes en el marco regulador cuando sus prestaciones plantean riesgos (ciberseguridad, asimetría, equidad…) que desbordan los mecanismos convencionales de prevención y compromenten garantías cuya articulación se da en la esfera institucional.↩︎
El caso de Claude Mythos (Anthropic, abril 2026) ofrece un ejemplo reciente y elocuente. El modelo fue declarado demasiado capaz en detección de vulnerabilidades de software para su liberación general, y restringido a un grupo selecto de empresas que pudieran usarlo para corregir sus propios sistemas. Bruce Schneier (2026) señala, sin embargo, que modelos comparables ya circulaban públicamente, y que la restricción podría responder tanto a limitaciones de infraestructura como a cautela genuina. Lo que el episodio deja fuera de duda es la brecha estructural que Anthropic reconoció implícitamente: los estándares de seguridad del ecosistema empresarial no estaban, todavía, a la altura de las nuevas capacidades. En sentido análogo, los sistemas de evaluación en la docencia universitaria tampoco estaban preparados para el tipo de herramientas que una proporción significativa de estudiantes ya utilizaba con soltura a mediados de 2023 —fenómeno documentado tanto en la literatura empírica sobre adopción estudiantil (European University Association, 2024; Rudolph et al., 2023; Tyton Partners, 2024) como en el análisis institucional de Guersenzvaig y Monett (2026). Mientras esa doble brecha —tecnológica e institucional— no se cierre, la retórica del “uso responsable” sigue operando como coartada más que como garantía. Véase B. Schneier, “How dangerous is Anthropic’s Mythos AI?”, The Guardian, 8 de mayo de 2026.↩︎
Cómo citar
@article{moreno2026,
author = {Moreno, Miguel},
title = {A propósito de las exageraciones en la estimación de impacto
de la inteligencia artificial generativa},
journal = {Zenodo},
date = {2026-05-22},
url = {https://zenodo.org/uploads/20374641},
doi = {10.5281/zenodo.20374641},
langid = {es}
}