o3 mini vs DeepSeek R1 vs Google Gemini 2 Think

Gábor Bíró • 9 de febrero de 2025

7 min de lectura

El avance de la inteligencia artificial está permitiendo cada vez más que los modelos LLM resuelvan problemas matemáticos complejos. Pero, ¿qué tan bien pueden manejar los desafíos lógicos de una tarea de competición de primaria? En una prueba anterior, examiné el rendimiento de varios modelos y ahora, con el lanzamiento del nuevo modelo O3 de OpenAI, he realizado una comparación actualizada.

o3 mini vs DeepSeek R1 vs Google Gemini 2 Think

Fuente: Saját szerkesztés

Anteriormente, realicé una prueba exhaustiva sobre las capacidades de resolución de problemas matemáticos de los modelos LLM disponibles actualmente. Durante la investigación, les di a los modelos una tarea de una competición nacional de matemáticas diseñada para alumnos de quinto grado. En la prueba anterior, solo DeepSeek R1 y OpenAI O1 lograron resolver el problema correctamente, mientras que otros modelos se atascaron por completo o abordaron el problema lógicamente, pero finalmente no lograron llegar a la respuesta correcta. La prueba de comparación de LLM anterior se puede encontrar aquí.

Esta vez, realicé otra prueba impulsada por el lanzamiento del modelo OpenAI O3. La tarea nuevamente provino de una competición nacional de matemáticas de quinto grado. Dado que el experimento anterior mostró claramente que los modelos tradicionales (como Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) no pueden resolver este tipo de tarea, esta vez solo comparé el DeepSeek R1, que tuvo éxito anteriormente, y el modelo Google Gemini 2.0 Flash Thinking Experimental, recientemente disponible, con OpenAI O3.

Modifiqué ligeramente el texto del problema para asegurar que el rendimiento de los modelos no se viera influenciado por detalles lingüísticos menores. Por lo tanto, la prueba comparó principalmente su razonamiento lógico, no sus habilidades de comprensión de texto.

Descripción de la tarea de prueba:

Doce personas están sentadas alrededor de una mesa. Son Caballeros (C), Ladrones (L) o Campesinos (P), con al menos uno de cada presente. Los Caballeros siempre dicen la verdad, los Ladrones siempre mienten y los Campesinos se comportan de la siguiente manera: un Campesino dice la verdad si su vecino de la izquierda es un Ladrón, miente si su vecino de la izquierda es un Caballero, y puede decir la verdad o mentir si su vecino de la izquierda es un Campesino. Todos afirman que su vecino de la derecha es un Ladrón. ¿Cuántos Ladrones están sentados a la mesa?

Esta vez, no publicaré el proceso de razonamiento paso a paso completo, solo la solución y el resultado, ya que las derivaciones detalladas fragmentaron completamente el artículo anterior (aunque los modelos derivaron los cálculos de maneras muy interesantes e ilustrativas, y "pensaron" de manera bastante diferente).

OpenAI o3

Solución exitosa en el primer intento, en 1 minuto y 21 segundos. Después de un largo razonamiento y justificación, la solución se explicó en una respuesta más larga. Aunque de alguna manera pasó por alto el detalle de que al menos una persona de cada tipo está sentada a la mesa, la conclusión final fue, sin embargo, correcta:

Sean las 12 personas alrededor de la mesa x1, x2, …, x12 en orden (módulo 12). Cada persona tiene un tipo:

C (Caballero, que siempre dice la verdad),

L (Ladrón, que siempre miente),

P (Campesino, cuyo comportamiento depende de su vecino de la izquierda):

si su vecino de la izquierda es L, dicen la verdad,

si su vecino de la izquierda es C, mienten,

si su vecino de la izquierda es P, pueden elegir libremente (decir la verdad o mentir).

Todos afirman:

"Mi vecino de la derecha es L".
Esto significa que la declaración hecha por la persona i ("xi+1 es L") debe ser verdadera de acuerdo con las siguientes reglas (o falsa si el hablante miente):

Si xi=C, la declaración debe ser verdadera, por lo que xi+1 es de hecho L.

Si xi=L, la declaración debe ser falsa, por lo que xi+1 no puede ser L (por lo tanto, C o P).

Si xi=P, depende de su vecino de la izquierda (xi−1):

Si xi−1=L, entonces xi dice la verdad, por lo que xi+1 debe ser L.

Si xi−1=C, entonces xi miente, por lo que xi+1 no puede ser L.

Si xi−1=P, entonces xi puede comportarse "libremente" – en este caso, no hay una consecuencia obligatoria para el tipo de xi+1.

La primera observación "no trivial"

Veamos qué sucede si alguien es L (Ladrón):

Supongamos que xi=L. Dado que L siempre miente, según su declaración, xi+1 no puede ser L. Entonces
xi+1 ∈ .

Examinemos los dos tipos posibles para xi+1:

Si xi+1=C (Caballero), entonces, dado que un Caballero siempre dice la verdad, su declaración implica
xi+2=L.

Si xi+1=P (Campesino), entonces su vecino de la izquierda xi es L, por lo que xi+1 dice la verdad, y por lo tanto también
xi+2=L.
Así, en cada caso donde xi=L (Ladrón), resulta que dos lugares más adelante, en xi+2, también debe haber un L.

Consecuencia: La polaridad de la mesa

Dado que el número de personas en la mesa es 12 (par), si hay al menos un L, entonces la "cadena L" se extiende a cada segunda persona alrededor del círculo. En otras palabras:

Si xi=L, entonces todos los individuos que pertenecen a la misma clase de paridad que i (por ejemplo, si i es impar, entonces todos en una posición impar serán L) están obligados a ser L.

Sin embargo, para un L (Ladrón), el vecino de la derecha, que pertenece a la clase de paridad opuesta, no puede ser L (ya que L miente).

Por lo tanto, si elegimos de la mezcla (no una "cantidad total de campesinos"), la única posibilidad si hay al menos un C o L es:

Una clase de paridad (digamos, las posiciones impares) consiste completamente en L (Ladrones).

La otra clase (las posiciones pares) no contiene L (solo pueden estar presentes elementos C o P).

Dado que con 12 asientos, tanto las posiciones pares como las impares representan 6 personas cada una, tal solución (no "trivial") tendrá exactamente 6 Ladrones.

El caso trivial

Por supuesto, también es concebible que todos sean Campesinos (P). En este caso:

El vecino de la izquierda de todos es P, por lo que, de acuerdo con la "regla del Campesino", no están obligados a decir la verdad, lo que significa que pueden optar por mentir.

Dado que la declaración es siempre: "Mi vecino de la derecha es L" – pero el vecino de la derecha es en realidad P – la declaración es falsa. Cada P puede, por lo tanto, decidir mentir, satisfaciendo las reglas.

Esta solución de "todos P" tiene 0 Ladrones.

¿Cuál es la respuesta "correcta"?

En tales problemas, generalmente existe una suposición implícita de que estamos buscando una solución no "trivial" (no degenerada), lo que significa que asumimos que hay al menos una persona en la mesa que no es P (por ejemplo, un Caballero o un Ladrón). Esta suposición excluye la solución de "todos Campesinos" y, por lo tanto, en el caso no trivial, el razonamiento anterior conduce a 6 Ladrones (es decir, 6 L).

Respuesta Final

Si asumimos una solución "no trivial" para la mesa, lo que significa que no todos son Campesinos, llegamos a la siguiente conclusión:

Hay 6 Ladrones sentados a la mesa.

DeepSeek R1

Solución exitosa en la primera ejecución, en 4 minutos y 1 segundo. En contraste, la respuesta fue muy corta, consistiendo solo en esto:

La solución implica analizar las restricciones impuestas por cada tipo de persona (Caballero, Ladrón, Campesino) y sus declaraciones. Dado que todos afirman que su vecino de la derecha es un Ladrón (L), deducimos:

Los Caballeros (C) deben tener un Ladrón a su derecha.

Los Ladrones (L) deben tener un no Ladrón (C o P) a su derecha.

Los Campesinos (P) dependen de su vecino de la izquierda:

Si el vecino de la izquierda es L, dicen la verdad (el vecino de la derecha es L).

Si el vecino de la izquierda es C, mienten (el vecino de la derecha no es L).

Si el vecino de la izquierda es P, su declaración es ambigua.

Use code with caution.

Considerando la disposición circular, el número máximo de Ladrones ocurre en un patrón alterno donde cada Ladrón está separado por un no Ladrón. Patrones válidos como L-P-L-P... o C-L-C-L... dan 6 Ladrones (cada dos asientos). Introducir Campesinos no aumenta el recuento de Ladrones debido a sus restricciones de decir la verdad cuando están adyacentes a Ladrones.

Respuesta: Hay 6 Ladrones en la mesa.

Google Gemini 2.0 Flash Thinking Experimental

Solución exitosa en la primera ejecución en 41 segundos. La respuesta aquí también es muy corta, y la derivación también es más corta en comparación con los otros dos modelos. Otro punto interesante sobre Gemini es que utilizó principalmente una derivación matemática "seca".

Las configuraciones válidas que encontramos son:

C, L, C, L, C, L, C, L, C, L, C, L (6 ladrones)

L, C, L, C, L, C, L, C, L, C, L, C (6 ladrones)

P, L, C, L, C, L, C, L, C, L, C, L (6 ladrones)

L, P, L, C, L, C, L, C, L, C, L, C (6 ladrones)

P, L, P, L, P, L, P, L, P, L, P, L (6 ladrones)

L, C, L, P, L, C, L, P, L, C, L, P (6 ladrones)

En cada configuración válida, el número de ladrones es 6. Por lo tanto, concluimos que hay 6 ladrones en la mesa.

Respuesta Final: La respuesta final es 6

Recomendados

Which AI Model Performs Best on a 5th-Grade Math Problem?

Gábor Bíró • 13 de enero de 2025

The development of AI models has progressed at an astonishing pace in recent years, but how do these systems perform when tasked with solving a 5th-grade math competition problem? In this test, I not only examine the models' problem-solving abilities but also provide insight into how effectively they can handle optimization problems.

OpenAI lanza GPT-4o: Más rápido, más económico y multimodal de forma nativa

Gábor Bíró • 14 de mayo de 2024

OpenAI ha presentado recientemente su último modelo de lenguaje estrella, GPT-4o. El nombre, derivado de "omni", representa un gran avance en la inteligencia artificial, ya que el modelo es nativamente capaz de gestionar entradas y salidas de texto, audio y visión. Este enfoque inherentemente multimodal abre nuevas posibilidades tanto para desarrolladores como para usuarios, consolidando aún más la posición de OpenAI a la vanguardia de la innovación en IA.

La Paradoja de la Habilidad: Por qué la IA es brillante en ajedrez pero falla en tareas sencillas

Gábor Bíró • 14 de mayo de 2024

Imagina una máquina capaz de derrotar al mejor gran maestro de ajedrez del mundo, componer sinfonías o demostrar teoremas matemáticos complejos. Ahora, imagina esa misma máquina teniendo dificultades para simplemente cruzar una habitación sin chocar con los muebles, o incapaz de servir una taza de café de forma fiable. Este sorprendente contraste es el núcleo de la Paradoja de Moravec, una observación fundamental en inteligencia artificial y robótica, articulada por primera vez por Hans Moravec y otros en la década de 1980. Revela una sorprendente inversión de la dificultad entre humanos y máquinas: lo que a nosotros nos resulta difícil, a menudo a ellas les resulta fácil, y lo que nos resulta natural puede ser monumentalmente desafiante para ellas. ¿Por qué ocurre esto y qué nos dice sobre la naturaleza de la inteligencia en sí misma?

Reinterpretación del Experimento del Marshmallow

Gábor Bíró • 7 de septiembre de 2024

Uno de los estudios más famosos e influyentes de la historia de la psicología es, sin duda, el experimento del marshmallow de Stanford. Llevado a cabo por Walter Mischel y sus colaboradores en la década de 1960, esta investigación marcó nuestra manera de entender el autocontrol y sus efectos a largo plazo durante décadas. Pero, ¿es realmente todo tan sencillo como creíamos?

El sistema de recuento mental de Trachtenberg

Gábor Bíró • 19 de septiembre de 2024

El sistema Trachtenberg, desarrollado por el ingeniero ruso Yakov Trachtenberg durante su estancia en los campos de concentración nazis, es un método de cálculo mental rápido que ha fascinado a matemáticos y estudiantes por igual. Este innovador enfoque de la aritmética, que elimina la necesidad de las tablas de multiplicar y se basa únicamente en las habilidades aritméticas básicas, promete una mayor velocidad, precisión y facilidad a la hora de realizar cálculos.

¿Entrelazamiento Cuántico en el Cerebro: ¿Un Vínculo con la Consciencia?

Gábor Bíró • 8 de agosto de 2024

En los últimos años, ha surgido cada vez más la pregunta: ¿podría el misterioso mundo de la física cuántica influir en el funcionamiento del cerebro humano y nuestra consciencia? El concepto de entrelazamiento cuántico, donde las partículas se interconectan e interactúan, divide a la comunidad científica. ¿Por qué importa esto, más allá de simplemente querer entender cómo funciona nuestro cerebro?

El valle inquietante: cuando los robots se vuelven demasiado humanos

Gábor Bíró • 11 de marzo de 2025

¿Alguna vez has visto un robot, una figura animada o incluso un personaje de videojuego tan realista que te ha resultado casi... inquietante? ¿Te costó distinguir si era humano o no, y esta incertidumbre te generó una sensación extraña e inquietante? Si es así, es probable que hayas experimentado el fenómeno conocido como el "valle inquietante". Pero, ¿qué es exactamente y por qué desencadena una reacción tan fuerte en nosotros?