Benchmarks: La Batalla de los Titanes Artificiales

Descubre cómo se evalúan los modelos de lenguaje (LLM) más avanzados con benchmarks como AIME, GPQA, LiveCodeBench y MMMU. Explora las trampas, desafíos y la evolución constante de estas pruebas para amantes de la inteligencia artificial, desarrolladores y curiosos de la tecnología.

TRANSFORMACIÓN DIGITALINTELIGENCIA ARTIFICIALLLMS

J. Benavides

10/20/20245 min read

a group of robots are sitting at an exam
a group of robots are sitting at an exam
Benchmarks: La Batalla de los Titanes Artificiales

¡Ah, el fascinante mundo de los LLMs! Esos cerebrillos artificiales que parecen saberlo todo… o casi todo. Porque, seamos sinceros, si alguna vez has probado a preguntarles por qué el pan siempre cae del lado de la mantequilla, sabrás que ellos tampoco son capaces de entenderlo. Pero ahí están, la rebanada bocabajo, y ellos compitiendo por el trono de la inteligencia artificial... Y para ver cuál es el rey (o reina) de reyes, los humanos nos hemos inventado los dichosos ‘Benchmarks’.

¿Qué demonios es un Benchmark?

En el universo de los LLMs, un Benchmark es básicamente una especie de Olimpiada de preguntas y respuestas. Se trata de poner a prueba sus habilidades en tareas como programar, traducir idiomas o resolver esos problemas de matemáticas que nos amargaron la adolescencia.

Hay varios métodos para medir su desempeño, pero los más populares son:

  • Few-Shot Learning: Se les da un par de ejemplos antes de ponerlos a trabajar. Como cuando en el cole te ponían un ejercicio resuelto antes del examen (spoiler: no ayuda tanto como el profe se cree).

  • -Zero-Shot Learning: Aquí nos ponemos chulos. Se les pide hacer una tarea sin ninguna pista previa. Vamos, como cuando te piden configurar el Huawei del abuelo y el manual solo está en chino.

¿Por qué tanto ruido con los Benchmarks?

La idea es ver en qué es bueno un LLm concreto y para qué no tanto. Ayuda a los desarrolladores a saber si han creado a un genio, o a un loro muy bien entrenado. Además, estos Benchmarks permiten comparar modelos entre ellos y decidir cuál llevarse a casa, como en un showroom de coches, pero sin tubos de escape y con más matemáticas.

Pero, ojo, no todo es perfecto. Estos test no siempre predicen cómo se comportará el modelo en el mundo real. Es como esos coches que siempre gastan poco en el folleto publicitario, pero en la vida real, solo si conduces cuesta abajo y como Pedro Picapiedra consigues esas cifras.

LLM Leaderboards: El Ranking de los Listillos

Por si no fuera suficiente con los benchmarks, también tenemos los Leaderboards, rankings en los que se ve quién es el más listo de la clase. Como la tabla de clasificación de la liga, pero en lugar de goles, aquí cuentan las respuestas correctas. Y sí, hay polémica arbitral, rivalidades y seguro que alguna que otra zancadilla bajo la mesa.

Las Trampas del Juego

Todo esto suena muy bonito, pero no te dejes engañar. Hay trampas. Algunos modelos ‘entrenan’ con los mismos datos que luego se usan en los Benchmarks, como si te dieran las respuestas del examen el día antes. Y cuando eso pasa, los resultados parecen impresionantes, pero luego en el mundo real… ¡Zas! Se la pegan contra el muro de la complejidad humana.

Algunos Ejemplos

Algunos benchmarks se han ganado su lugar en el Olimpo de los tests para LLMs por su capacidad para poner a prueba incluso a los modelos más avanzados:

  • AIME (American Invitational Math Exam): Este benchmark desafía las capacidades matemáticas de los modelos enfrentándolos a problemas complejos que combinan múltiples campos de las matemáticas. Es como un torneo con números que podrían provocar migrañas hasta a Einstein. En realidad está basado en el torneo en el que estudiantes participan en algo así como las Olimpiadas Matemáticas.

  • GPQA (Graduate-Level Google-Proof Q&A Benchmark): Imagina un cuestionario tan difícil que ni con Google al lado puedes salvarte. Eso es GPQA. Contiene preguntas elaboradas por expertos en biología, física y química, y este benchmark pone a prueba el conocimiento profundo y el razonamiento científico de los modelos. Vamos, que aquí no basta con memorizar Wikipedia como El Cazador; necesitas un cerebro de premio Nobel… o uno de silicio extremadamente potente.

  • LiveCodeBench: No solo evalúa la capacidad de los LLMs para generar código, sino también para arreglar los f***-ups de tu compi del departamento informático y hacer que el código se ejecute como debería. Además, se actualiza continuamente con nuevos problemas, lo que lo convierte en un desafío interminable, como el intentar mantener tu Windows 11 actualizado sin que nada se te escogorcie. Si un modelo supera LiveCodeBench, probablemente podría programar hasta que el tostador de tu cocina te cante una de Bisbal.

  • MMMU (Massive Multi-discipline Multimodal Understanding): Este es el monstruo final de los benchmarks. Incluye preguntas multimodales extraídas de exámenes universitarios en disciplinas tan variadas como Arte, Medicina, Ingeniería o Ciencias Sociales. Y no solo texto: gráficos, diagramas, mapas, partituras musicales… Vamos, el tipo de cosas que te nos han hecho a todos en algún momento replantearnos para qué ostias me metí a estudiar esto... Definitivamente, este es uno de los benchmarks más jodidillos.

El Gato y el Ratón: Benchmarks en Constante Evolución

Los benchmarks no son estáticos; evolucionan junto con los LLMs. A medida que estos modelos se vuelven más potentes y empiezan a superar las pruebas con mayor facilidad, es necesario crear nuevos desafíos que realmente pongan a prueba sus límites. Como cuando ya le metes con facilidad 5-0 al Barça en el FIFA y ya no mola: hay que subir la dificultad al modo leyenda del multiverso futbolístico, darle poderes nuevos y, si es posible, hacer que el portero las pare con láser que dispare por los guantes.

Los investigadores tienen que inventar constantemente pruebas más difíciles y específicas para evitar que los LLMs se acomoden. Y ahí está la gracia: esta carrera del gato y el ratón garantiza que la inteligencia artificial no se estanque, sino que siga evolucionando (y, de paso, que me sigan asignando tareas para mejorar los modelos y poder pagar mis facturas🤖) Así que, si algún día los LLMs llegan a resolver el misterio del taladro dominical tempranero del vecino, ten por seguro que les propondrán un nuevo desafío… quizás uno que implique entender a los adolescentes en sus desplantes, o qué refostios significan sus abreviaturas en WhatsApp.

Conclusión: Mucho Humo, Algo de Fuego

En resumen, los Benchmarks están bien para comparar LLMs entre sí, como cuando buscas una aspiradora que no sea la Dyson y que haga lo mismo, pero sin que tengas que pedir una segunda hipoteca. Pero no te fíes ciegamente de ellos. Al final, la mejor IA no es la que saca mejores notas en estos tests, sino la que entiende cuándo necesitas respuestas profundas y cuándo solo quieres saber dónde venden pizza a las 3 de la mañana. Cada LLM tiene sus fortalezas y carencias, según la tarea que tengamos delante, y para eso los benchmarks nos pueden dar una idea. Pero nada como el que los trastees tú misma. Al fin y al cabo, el avance siempre ha llegado con el ensayo-error...

Y recuerda, no importa cuánto presuman de inteligencia, sobre todo Sam y todos los que te venden lo maravilloso que es su último modelo. El verdadero test es el que tú le plantees y para el que necesitas una solución a tu medida.