o3 mini vs DeepSeek R1 vs Google Gemini 2 Think
El avance de la inteligencia artificial está permitiendo cada vez más que los modelos LLM resuelvan problemas matemáticos complejos. Pero, ¿qué tan bien pueden manejar los desafíos lógicos de una tarea de competición de primaria? En una prueba anterior, examiné el rendimiento de varios modelos y ahora, con el lanzamiento del nuevo modelo O3 de OpenAI, he realizado una comparación actualizada.

Anteriormente, realicé una prueba exhaustiva sobre las capacidades de resolución de problemas matemáticos de los modelos LLM disponibles actualmente. Durante la investigación, les di a los modelos una tarea de una competición nacional de matemáticas diseñada para alumnos de quinto grado. En la prueba anterior, solo DeepSeek R1 y OpenAI O1 lograron resolver el problema correctamente, mientras que otros modelos se atascaron por completo o abordaron el problema lógicamente, pero finalmente no lograron llegar a la respuesta correcta. La prueba de comparación de LLM anterior se puede encontrar aquí.
Esta vez, realicé otra prueba impulsada por el lanzamiento del modelo OpenAI O3. La tarea nuevamente provino de una competición nacional de matemáticas de quinto grado. Dado que el experimento anterior mostró claramente que los modelos tradicionales (como Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) no pueden resolver este tipo de tarea, esta vez solo comparé el DeepSeek R1, que tuvo éxito anteriormente, y el modelo Google Gemini 2.0 Flash Thinking Experimental, recientemente disponible, con OpenAI O3.
Modifiqué ligeramente el texto del problema para asegurar que el rendimiento de los modelos no se viera influenciado por detalles lingüísticos menores. Por lo tanto, la prueba comparó principalmente su razonamiento lógico, no sus habilidades de comprensión de texto.
Descripción de la tarea de prueba:
Doce personas están sentadas alrededor de una mesa. Son Caballeros (C), Ladrones (L) o Campesinos (P), con al menos uno de cada presente. Los Caballeros siempre dicen la verdad, los Ladrones siempre mienten y los Campesinos se comportan de la siguiente manera: un Campesino dice la verdad si su vecino de la izquierda es un Ladrón, miente si su vecino de la izquierda es un Caballero, y puede decir la verdad o mentir si su vecino de la izquierda es un Campesino. Todos afirman que su vecino de la derecha es un Ladrón. ¿Cuántos Ladrones están sentados a la mesa?
Esta vez, no publicaré el proceso de razonamiento paso a paso completo, solo la solución y el resultado, ya que las derivaciones detalladas fragmentaron completamente el artículo anterior (aunque los modelos derivaron los cálculos de maneras muy interesantes e ilustrativas, y "pensaron" de manera bastante diferente).
OpenAI o3
Solución exitosa en el primer intento, en 1 minuto y 21 segundos. Después de un largo razonamiento y justificación, la solución se explicó en una respuesta más larga. Aunque de alguna manera pasó por alto el detalle de que al menos una persona de cada tipo está sentada a la mesa, la conclusión final fue, sin embargo, correcta:
Sean las 12 personas alrededor de la mesa x1, x2, …, x12 en orden (módulo 12). Cada persona tiene un tipo:
- C (Caballero, que siempre dice la verdad),
- L (Ladrón, que siempre miente),
- P (Campesino, cuyo comportamiento depende de su vecino de la izquierda):
- si su vecino de la izquierda es L, dicen la verdad,
- si su vecino de la izquierda es C, mienten,
- si su vecino de la izquierda es P, pueden elegir libremente (decir la verdad o mentir).
Todos afirman:
"Mi vecino de la derecha es L".
Esto significa que la declaración hecha por la persona i ("xi+1 es L") debe ser verdadera de acuerdo con las siguientes reglas (o falsa si el hablante miente):
- Si xi=C, la declaración debe ser verdadera, por lo que xi+1 es de hecho L.
- Si xi=L, la declaración debe ser falsa, por lo que xi+1 no puede ser L (por lo tanto, C o P).
- Si xi=P, depende de su vecino de la izquierda (xi−1):
- Si xi−1=L, entonces xi dice la verdad, por lo que xi+1 debe ser L.
- Si xi−1=C, entonces xi miente, por lo que xi+1 no puede ser L.
- Si xi−1=P, entonces xi puede comportarse "libremente" – en este caso, no hay una consecuencia obligatoria para el tipo de xi+1.
La primera observación "no trivial"
Veamos qué sucede si alguien es L (Ladrón):
- Supongamos que xi=L. Dado que L siempre miente, según su declaración, xi+1 no puede ser L. Entonces
xi+1 ∈ .
- Examinemos los dos tipos posibles para xi+1:
- Si xi+1=C (Caballero), entonces, dado que un Caballero siempre dice la verdad, su declaración implica
xi+2=L.
- Si xi+1=P (Campesino), entonces su vecino de la izquierda xi es L, por lo que xi+1 dice la verdad, y por lo tanto también
xi+2=L.
Así, en cada caso donde xi=L (Ladrón), resulta que dos lugares más adelante, en xi+2, también debe haber un L.Consecuencia: La polaridad de la mesa
Dado que el número de personas en la mesa es 12 (par), si hay al menos un L, entonces la "cadena L" se extiende a cada segunda persona alrededor del círculo. En otras palabras:
- Si xi=L, entonces todos los individuos que pertenecen a la misma clase de paridad que i (por ejemplo, si i es impar, entonces todos en una posición impar serán L) están obligados a ser L.
- Sin embargo, para un L (Ladrón), el vecino de la derecha, que pertenece a la clase de paridad opuesta, no puede ser L (ya que L miente).
Por lo tanto, si elegimos de la mezcla (no una "cantidad total de campesinos"), la única posibilidad si hay al menos un C o L es:
- Una clase de paridad (digamos, las posiciones impares) consiste completamente en L (Ladrones).
- La otra clase (las posiciones pares) no contiene L (solo pueden estar presentes elementos C o P).
Dado que con 12 asientos, tanto las posiciones pares como las impares representan 6 personas cada una, tal solución (no "trivial") tendrá exactamente 6 Ladrones.
El caso trivial
Por supuesto, también es concebible que todos sean Campesinos (P). En este caso:
- El vecino de la izquierda de todos es P, por lo que, de acuerdo con la "regla del Campesino", no están obligados a decir la verdad, lo que significa que pueden optar por mentir.
- Dado que la declaración es siempre: "Mi vecino de la derecha es L" – pero el vecino de la derecha es en realidad P – la declaración es falsa. Cada P puede, por lo tanto, decidir mentir, satisfaciendo las reglas.
Esta solución de "todos P" tiene 0 Ladrones.
¿Cuál es la respuesta "correcta"?
En tales problemas, generalmente existe una suposición implícita de que estamos buscando una solución no "trivial" (no degenerada), lo que significa que asumimos que hay al menos una persona en la mesa que no es P (por ejemplo, un Caballero o un Ladrón). Esta suposición excluye la solución de "todos Campesinos" y, por lo tanto, en el caso no trivial, el razonamiento anterior conduce a 6 Ladrones (es decir, 6 L).
Respuesta Final
Si asumimos una solución "no trivial" para la mesa, lo que significa que no todos son Campesinos, llegamos a la siguiente conclusión:
Hay 6 Ladrones sentados a la mesa.
DeepSeek R1
Solución exitosa en la primera ejecución, en 4 minutos y 1 segundo. En contraste, la respuesta fue muy corta, consistiendo solo en esto:
La solución implica analizar las restricciones impuestas por cada tipo de persona (Caballero, Ladrón, Campesino) y sus declaraciones. Dado que todos afirman que su vecino de la derecha es un Ladrón (L), deducimos:
Los Caballeros (C) deben tener un Ladrón a su derecha.
Los Ladrones (L) deben tener un no Ladrón (C o P) a su derecha.
Los Campesinos (P) dependen de su vecino de la izquierda:
Si el vecino de la izquierda es L, dicen la verdad (el vecino de la derecha es L).
Si el vecino de la izquierda es C, mienten (el vecino de la derecha no es L).
Si el vecino de la izquierda es P, su declaración es ambigua.
- Use code with caution.
Considerando la disposición circular, el número máximo de Ladrones ocurre en un patrón alterno donde cada Ladrón está separado por un no Ladrón. Patrones válidos como L-P-L-P... o C-L-C-L... dan 6 Ladrones (cada dos asientos). Introducir Campesinos no aumenta el recuento de Ladrones debido a sus restricciones de decir la verdad cuando están adyacentes a Ladrones.
Respuesta: Hay 6 Ladrones en la mesa.
Google Gemini 2.0 Flash Thinking Experimental
Solución exitosa en la primera ejecución en 41 segundos. La respuesta aquí también es muy corta, y la derivación también es más corta en comparación con los otros dos modelos. Otro punto interesante sobre Gemini es que utilizó principalmente una derivación matemática "seca".
Las configuraciones válidas que encontramos son:
C, L, C, L, C, L, C, L, C, L, C, L (6 ladrones)
L, C, L, C, L, C, L, C, L, C, L, C (6 ladrones)
P, L, C, L, C, L, C, L, C, L, C, L (6 ladrones)
L, P, L, C, L, C, L, C, L, C, L, C (6 ladrones)
P, L, P, L, P, L, P, L, P, L, P, L (6 ladrones)
L, C, L, P, L, C, L, P, L, C, L, P (6 ladrones)
En cada configuración válida, el número de ladrones es 6. Por lo tanto, concluimos que hay 6 ladrones en la mesa.
Respuesta Final: La respuesta final es 6