¿Sueñan los algoritmos con premios Nobel? Bienvenidos a la era de PaperBench

¿Puede una IA analizar papers sobre Machine Learning, replicar estudios y mejorarse a sí misma sin implosionar? Bienvenid@ a PaperBench, el gimnasio mental donde las inteligencias artificiales se enfrentan a sus límites... y sudan algoritmos digitales. Pero, cuando lo consigan... ¿qué?

TRANSFORMACIÓN DIGITALIA GENERATIVAINTELIGENCIA ARTIFICIALMACHINE LEARNING

J. Benavides

4/4/20253 min read

a robot sitting at a desk with a computer thinking on how to improve
a robot sitting at a desk with a computer thinking on how to improve

¿Sueñan los algoritmos con premios Nobel? Bienvenidos a la era de PaperBench

¿Qué pasa cuando las inteligencias artificiales intentan hacer ciencia de verdad? Pues que sudan más que un perro debajo de un plástico en pleno agosto. Al menos de momento. Imagínate que le das a una IA un artículo científico bien tocho sobre inteligencia artificial. Le dices: “Toma, maja, léelo, a ver si entiendes tú lo que dice, que a mí me da la risa; programa tú solita el código desde cero, ejecuta los experimentos y me das los mismos resultados que los autores originales de este paper”. Fácil, ¿verdad? Ja.

Para eso nace PaperBench, el “Gran Hermano” de las IAs versión doctorado. OpenAI ha decidido poner a prueba a sus criaturas (y las de otros) dándoles la misma tarea que a un grupo de investigadores con ojeras permanentes. ¿Objetivo? Ver si las IAs pueden currarse un artículo científico como dios manda. Y va a ser que aún están en primero de carrera…

¿Y qué tiene de especial este desafío sci-fi?

Pues que no se trata de responder a una pregunta de trivia o generar un poema más o menos al estilo de Pablo Neruda. Aquí las IAs reciben artículos científicos completos (de los que nos dan dolor de cabeza nada más verlos), con su metodología, fórmulas y resultados incluidos. Luego la IA debe:

  1. Entender lo que dice el artículo sin morirse del susto.

  2. Programar desde cero según la metodología propuesta, sin copy-paste.

  3. Ejecutarlo en un entorno real y cruzar sus dedos digitales para que no pete todo.

  4. Comparar sus resultados con los del paper original.

Y todo esto sin que se le escuche llorar, sin hacer trampas y, sobre todo, sin quejarse por las horas extra que esto le lleva a cualquiera.

¿Pero cómo se mide si lo hacen bien y no se les va la pinza?

Con rúbricas, como las que usamos los profes al corregir. Pero no unas cualquiera: más de 8.000 microtareas, desarrolladas en conjunto por autores de artículos originales presentados en la Conferencia Internacional sobre Aprendizaje Automático (ICML), para asegurar que cada paso del proceso tenga sentido. Y para corregir… sorpresa: más IA. Una “jueza automática” que puntúa si el trabajo está bien o si nos han intentado colar un churro disfrazado de Einstein. Si Barça o Madrid tienen acceso privilegiado a estos árbitros ya sería otro tema más espinoso...

¿Y, de momento, cómo lo hacen las IAs?

Pues mira, de momento, regular tirando a ‘necesita mejorar’. El modelo más apañado testado durante el desarrollo de esta iniciativa, Claude 3.5 Sonnet, apenas logró un 21% de éxito. Eso sí, con estilo. Mientras tanto, humanos con doctorados y bastante café en las venas, y trabajando durante dos días, llegaron al 41%. Peeero...

Las IAs son más rápidas, aunque aún no entiendan del todo qué cifostios están haciendo. Les falta ese je ne sais quoi que llamamos sentido común, intuición o simplemente haber perdido muchas noches sin dormir delante de una distribución estadística que no cuadra. Eso sí, muchos modelos han dado un paso de gigante desde Claude 3.5 y todo hace indicar lo que tod@s nos tememos... Cuestión de tiempo (y poco).

Muy bien, muy bien ¿Y? Si yo no sé ni programar el microondas...

Pues importa. Porque cuando en el campo del Machine Learning una IA sea capaz de entender un paper complejo, replicarlo, mejorarlo y—ojo—aplicarse esas mejoras a sí misma… entonces tendremos máquinas que se autoentrenan, autoaprenden y se autoactualizan.

Y ahí ya no hablamos de “ayudantes” digitales. Hablamos de compañeros de laboratorio que no duermen ni piden vacaciones. De sistemas que podrían revolucionar no solo la ciencia, sino también la forma en que tomamos decisiones, diseñamos productos o entendemos el conocimiento mismo.

¿Suena a ciencia ficción?

Sí, como lo de llamar al seguro y que te lo cojan a la primera. Pero es más real de lo que parece. Hace diez años nos reíamos de la idea de que una máquina pudiese escribir un texto decente ella solita. Alexa era una calamidad. Hoy ya ni sabes si lo que lees a diario lo ha escrito alguna... A fin de cuentas, ya ha habido IAs que se han autorreplicado ante los tejemanejes a los que estaban siendo sometidas por los del lab, por si las moscas...

La pregunta ya no es si las IAs lo conseguirán. La pregunta es cuándo, y si vamos a ser parte del cambio o meros espectadores que se despeinaron mirando cómo pasaba el tren a todo trapo.

Para más información: PaperBench by OpenAI