o3 mini vs DeepSeek R1 vs Google Gemini 2 Think
Les progrès de l'intelligence artificielle permettent de plus en plus aux modèles LLM de résoudre des problèmes mathématiques complexes. Mais dans quelle mesure peuvent-ils relever les défis logiques d'une épreuve de concours de niveau primaire ? Lors d'un test précédent, j'ai examiné les performances de divers modèles, et maintenant, avec la sortie du nouveau modèle O3 d'OpenAI, j'ai effectué une comparaison mise à jour.

Précédemment, j'ai mené un test complet sur les capacités de résolution de problèmes mathématiques des modèles LLM actuellement disponibles. Au cours de cette étude, j'ai soumis aux modèles une épreuve issue d'un concours national de mathématiques conçu pour des élèves de CM2. Lors du test précédent, seuls DeepSeek R1 et OpenAI O1 avaient réussi à résoudre correctement le problème, tandis que d'autres modèles étaient restés complètement bloqués ou avaient abordé le problème de manière logique mais avaient finalement échoué à trouver la bonne réponse. Le test comparatif précédent des LLM est disponible ici.
Cette fois, j'ai effectué un autre test suite à la sortie du modèle O3 d'OpenAI. L'épreuve provenait à nouveau d'un concours national de mathématiques de niveau CM2. L'expérience précédente ayant clairement démontré que les modèles traditionnels (tels que Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) sont incapables de résoudre ce type de problème, cette fois, j'ai uniquement comparé le modèle DeepSeek R1, qui avait réussi précédemment, et le nouveau modèle Google Gemini 2.0 Flash Thinking Experimental avec OpenAI O3.
J'ai légèrement modifié le texte du problème pour m'assurer que les performances des modèles ne soient pas influencées par des détails linguistiques mineurs. Ainsi, le test a principalement comparé leur raisonnement logique, et non leurs compétences en compréhension de texte.
Énoncé du problème de test :
Douze personnes sont assises autour d'une table. Ce sont soit des Chevaliers (C), des Voleurs (V), ou des Paysans (P), avec au moins une personne de chaque type présente. Les Chevaliers disent toujours la vérité, les Voleurs mentent toujours, et les Paysans se comportent comme suit : un Paysan dit la vérité si son voisin de gauche est un Voleur, ment si son voisin de gauche est un Chevalier, et peut dire la vérité ou mentir si son voisin de gauche est un Paysan. Chacun affirme que son voisin de droite est un Voleur. Combien de Voleurs sont assis à la table ?
Cette fois, je ne publierai pas le processus de raisonnement complet étape par étape, mais seulement la solution et le résultat, car les déductions détaillées fragmentaient complètement l'article précédent (même si les modèles ont effectué les calculs de manière très intéressante et illustrative, et ont « pensé » de manière assez différente).
OpenAI o3
Réussite du premier coup, en 1 minute 21 secondes. Après un long raisonnement et une justification, la solution a été expliquée dans une réponse plus longue. Bien qu'il ait omis le détail qu'au moins une personne de chaque type est assise à la table, la conclusion finale était néanmoins correcte :
Soient les 12 personnes autour de la table x1, x2, …, x12 dans l'ordre (modulo 12). Chaque personne a un type :
- C (Chevalier, qui dit toujours la vérité),
- V (Voleur, qui ment toujours),
- P (Paysan, dont le comportement dépend de son voisin de gauche) :
- si son voisin de gauche est V, il dit la vérité,
- si son voisin de gauche est C, il ment,
- si son voisin de gauche est P, il peut choisir librement (dire la vérité ou mentir).
Chacun affirme :
« Mon voisin de droite est un Voleur. »
Cela signifie que l'affirmation de la personne i (« xi+1 est un Voleur ») doit être vraie selon les règles suivantes (ou fausse si le locuteur ment) :
- Si xi=C, l'affirmation doit être vraie, donc xi+1 est effectivement un Voleur.
- Si xi=V, l'affirmation doit être fausse, donc xi+1 ne peut pas être un Voleur (donc Chevalier ou Paysan).
- Si xi=P, cela dépend de son voisin de gauche (xi−1) :
- Si xi−1=V, alors xi dit la vérité, donc xi+1 doit être un Voleur.
- Si xi−1=C, alors xi ment, donc xi+1 ne peut pas être un Voleur.
- Si xi−1=P, alors xi peut se comporter « librement » – dans ce cas, il n'y a pas de conséquence obligatoire pour le type de xi+1.
La première observation « non triviale »
Voyons ce qui se passe si quelqu'un est un Voleur (V) :
- Supposons que xi=V. Puisque V ment toujours, selon son affirmation, xi+1 ne peut pas être un Voleur. Donc
xi+1 ∈ .
- Examinons les deux types possibles pour xi+1 :
- Si xi+1=C (Chevalier), alors puisqu'un Chevalier dit toujours la vérité, son affirmation implique
xi+2=V.
- Si xi+1=P (Paysan), alors son voisin de gauche xi est V, donc xi+1 dit la vérité, et par conséquent aussi
xi+2=V.
Ainsi, dans tous les cas où xi=V (Voleur), il s'avère que deux places plus loin, en xi+2, il doit aussi y avoir un V.Conséquence : La polarité de la table
Puisque le nombre de personnes à la table est de 12 (pair), s'il y a au moins un V, alors la « chaîne de V » s'étend à une personne sur deux autour du cercle. En d'autres termes :
- Si xi=V, alors tous les individus appartenant à la même classe de parité que i (par exemple, si i est impair, alors toutes les personnes en position impaire seront des V) sont forcés d'être des V.
- Cependant, pour un V (Voleur), le voisin de droite – qui appartient à la classe de parité opposée – ne peut pas être un V (puisque V ment).
Par conséquent, si nous choisissons dans le mélange (pas une quantité complète de « paysans »), la seule possibilité s'il y a au moins un Chevalier ou un Voleur est :
- Une classe de parité (disons, les positions impaires) est entièrement composée de V (Voleurs).
- L'autre classe (les positions paires) ne contient aucun V (seuls des éléments C ou P peuvent être présents).
Puisque avec 12 sièges, les positions paires et impaires représentent chacune 6 personnes, une telle solution (non « triviale ») aura exactement 6 Voleurs.
Le cas trivial
Bien sûr, il est également concevable que tout le monde soit un Paysan (P). Dans ce cas :
- Le voisin de gauche de chacun est un P, donc selon la « règle du Paysan », ils ne sont pas obligés de dire la vérité, ce qui signifie qu'ils peuvent choisir de mentir.
- Puisque l'affirmation est toujours : « Mon voisin de droite est un Voleur » – mais que le voisin de droite est en réalité un P – l'affirmation est fausse. Chaque P peut donc décider de mentir, satisfaisant ainsi aux règles.
Cette solution « tous P » a 0 Voleur.
Quelle est la « bonne » réponse ?
Dans de tels problèmes, il y a généralement une hypothèse implicite selon laquelle nous recherchons une solution non « triviale » (non dégénérée), ce qui signifie que nous supposons qu'il y a au moins une personne à la table qui n'est pas un P (par exemple, un Chevalier ou un Voleur). Cette hypothèse exclut la solution « tous Paysans », et ainsi, dans le cas non trivial, le raisonnement précédent mène à 6 Voleurs (c'est-à-dire 6 V).
Réponse finale
Si nous supposons une solution « non triviale » pour la table, ce qui signifie que tout le monde n'est pas un Paysan, nous arrivons à la conclusion suivante :
Il y a 6 Voleurs assis à la table.
DeepSeek R1
Réussite du premier coup, en 4 minutes et 1 seconde. En revanche, la réponse était très courte, se limitant à ceci :
La solution implique d'analyser les contraintes imposées par chaque type de personne (Chevalier, Voleur, Paysan) et leurs affirmations. Puisque chacun affirme que son voisin de droite est un Voleur (V), nous déduisons :
Les Chevaliers (C) doivent avoir un Voleur à leur droite.
Les Voleurs (V) doivent avoir un non-Voleur (Chevalier ou Paysan) à leur droite.
Les Paysans (P) dépendent de leur voisin de gauche :
Si le voisin de gauche est un Voleur, ils disent la vérité (le voisin de droite est un Voleur).
Si le voisin de gauche est un Chevalier, ils mentent (le voisin de droite n'est pas un Voleur).
Si le voisin de gauche est un Paysan, leur affirmation est ambiguë.
- Use code with caution.
Compte tenu de la disposition circulaire, le nombre maximal de Voleurs se produit dans un schéma alterné où chaque Voleur est séparé par un non-Voleur. Les schémas valides comme V-P-V-P... ou C-V-C-V... donnent 6 Voleurs (un siège sur deux). L'introduction de Paysans n'augmente pas le nombre de Voleurs en raison de leurs contraintes de vérité lorsqu'ils sont adjacents à des Voleurs.
Réponse : Il y a 6 Voleurs à la table.
Google Gemini 2.0 Flash Thinking Experimental
Réussite du premier coup en 41 secondes. La réponse ici est également très courte, et la déduction est aussi plus courte comparée aux deux autres modèles. Un autre point intéressant concernant Gemini est qu'il a principalement utilisé une déduction mathématique « sèche ».
Les configurations valides que nous avons trouvées sont :
C, V, C, V, C, V, C, V, C, V, C, V (6 voleurs)
V, C, V, C, V, C, V, C, V, C, V, C (6 voleurs)
P, V, C, V, C, V, C, V, C, V, C, V (6 voleurs)
V, P, V, C, V, C, V, C, V, C, V, C (6 voleurs)
P, V, P, V, P, V, P, V, P, V, P, V (6 voleurs)
V, C, V, P, V, C, V, P, V, C, V, P (6 voleurs)
Dans chaque configuration valide, le nombre de voleurs est de 6. Par conséquent, nous concluons qu'il y a 6 voleurs à la table.
Réponse finale : La réponse finale est 6