o3 mini vs DeepSeek R1 vs Google Gemini 2 Think

Bíró Gábor 2025. február 09.
8 perc olvasási idő

A mesterséges intelligencia fejlődése egyre inkább lehetővé teszi, hogy az LLM modellek bonyolult matematikai problémákat is megoldjanak. De vajon mennyire képesek egy általános iskolai versenyfeladat logikai kihívásainak megfelelni? Egy korábbi tesztben már megvizsgáltam a különböző modellek teljesítményét, most pedig az OpenAI új O3 modellje kapcsán végeztem el egy friss összehasonlítást.

o3 mini vs DeepSeek R1 vs Google Gemini 2 Think
Forrás: Saját szerkesztés

Korábban készítettem egy átfogó tesztet a jelenleg elérhető LLM modellek matematikai feladatmegoldó képességéről. A vizsgálat során egy országos matematikaverseny ötödik osztályosok számára készült feladatát adtam a modelleknek. A korábbi tesztben egyedül a DeepSeek R1 és az OpenAI O1 tudta helyesen megoldani a feladatot, míg a többi modell vagy teljesen elakadt, vagy ugyan logikusan közelítette meg a problémát, de végül nem jutott el a helyes válaszig. Az előző LLM összehasonlító teszt itt található.

Ezúttal az OpenAI O3 modell megjelenése alkalmából végeztem el egy újabb tesztet. A feladat most is egy országos ötödik osztályos matematikaversenyből származott. Mivel az előző kísérletből egyértelműen kiderült, hogy a hagyományos modellek (például Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) nem képesek az ilyen típusú feladatok megoldására, ezúttal csak a korábban sikeresen teljesítő DeepSeek R1-et és az újonnan elérhető Google Gemini 2.0 Flash Thinking Experimental modellt mértem össze az OpenAI O3-mal.

A feladat szövegét kis mértékben módosítottam annak érdekében, hogy a modellek teljesítményét ne befolyásolják nyelvi apróságok. Így a teszt során elsősorban a logikai érvelésüket hasonlítottam össze, nem pedig a szövegértési képességeiket.

A teszt feladat leírása:

Twelve people are sitting around a table. They are either Knights (L), Thieves (T), or Peasants (P) , with at least one of each present. Knights always tell the truth, Thieves always lie, and Peasants behave as follows: a Peasant tells the truth if his left-hand neighbor is a Thief, lies if his left-hand neighbor is a Knight, and may either tell the truth or lie if his left-hand neighbor is a Peasant. Everyone claims that their right-hand neighbor is a Thief. How many Thieves are sitting at the table?

Ezúttal nem közlöm a teljes "gondolkozós" levezetést részt, csak a megoldást valamint az eredményt, mivel a levezetés előzőleg teljesen szétszabdalta a cikket (pedig igen érdekes és látványos módon vezették le a modellek a számításokat, és elég eltérő módon "gondolkoztak").

OpenAI o3

Sikeres megoldás első nekifutásra, 1 perc 21 másodperc alatt. Hosszú érvelés és indoklás után, egy hosszabb válaszban kifejtve a megoldást. Az ugyan valamiért elcsúszott, hogy minden típusból legalább egy személy ül az asztalnál, ettől függetlenül a végső következtetés az helyes:

Legyen az asztal körüli 12 személy sorrendben x1,x2,…,x12 (modulo 12). Minden személyhez tartozik egy típus:

  • L (lovag, aki mindig igazat mond),
  • T (tolvaj, aki mindig hazudik),
  • P (paraszt, aki viselkedése a baloldali szomszédjától függ):
    • ha a baloldali szomszédja T, akkor igazat mond,
    • ha a baloldali szomszédja L, akkor hazudik,
    • ha a baloldali szomszédja P, akkor szabadon választhat (mondhat igazat vagy hazudhat).

Mindenki azt állítja:

„A jobb oldali szomszédom T.”

Ez azt jelenti, hogy a személy i által mondott kijelentés („xi+1 T”) a következő szabály szerint kell, hogy igaz legyen (vagy hamis, ha a beszélő hazudik):

  • Ha xi=L, akkor az állításnak igaznak kell lennie, így xi+1 tényleg T.
  • Ha xi=T, akkor az állításnak hamisnak kell lennie, így xi+1 nem lehet T (tehát L vagy P).
  • Ha xi=P, akkor a baloldali szomszédjától (xi−1) függ:
    • Ha xi−1=T, akkor xi igazat mond, így xi+1 T kell, hogy legyen.
    • Ha xi−1=L, akkor xi hazudik, így xi+1 nem lehet T.
    • Ha xi−1=P, akkor xi „szabadon” viselkedhet – ebben az esetben nincs kötelező következmény xi+1 típusára.

Az első, „nem triviális” megfigyelés

Nézzük meg, mi történik, ha valaki T (tolvaj):

  • Tegyük fel, hogy xi=T. Mivel T mindig hazudik, a kijelentés szerint xi+1 nem lehet T. Tehát

    xi+1∈.

  • Vizsgáljuk most xi+1 két lehetséges típusát:
    • Ha xi+1=L (lovag), akkor mivel a lovag mindig igazat mond, az ő kijelentése miatt

      xi+2=T.

    • Ha xi+1=P (paraszt), akkor xi a baloldali szomszédja xi+1 esetén T, így xi+1 igazat mond, és ezért szintén

      xi+2=T.

      Tehát minden olyan esetben, amikor xi=T (tolvaj), kiderül, hogy két hellyel később, xi+2-nél ismét T-nek kell lennie.

Következmény: Az asztal polaritása

Mivel az asztalnál ülők száma 12 (páros), ha legalább egy személy T, akkor az „T lánc” a körben minden második személyre kiterjed. Más szóval:

  • Ha xi=T, akkor az összes olyan személy, amely az i–hez képest azonos páros osztályba tartozik (például ha i páratlan, akkor minden páratlan helyen T lesz), kényszerből T.
  • Viszont egy T (tolvaj) esetén a jobb oldali szomszéd – aki az ellenkező páros osztályba tartozik – nem lehet T (hiszen T-nek hazudik).

Ezért ha a keverékből (nem teljes „paraszt‐mennyiségből”) választunk, akkor az egyetlen lehetőség, ha legalább egy L vagy T van:

  • Az egyik páros osztály (mondjuk a páratlan helyek) teljes egészében T (tolvaj).
  • A másik osztály (a páros helyek) pedig nem tartalmaz T–t (csak L vagy P elemek lehetnek).

Mivel 12 ülés esetén a páros és páratlan helyek egyaránt 6–6 főt jelentenek, az ilyen (nem „triviális”) megoldásban pontosan 6 tolvaj lesz.

A triviális eset

Természetesen elképzelhető az is, hogy mindenki paraszt (P). Ebben az esetben:

  • Mindenkinek a baloldali szomszédja P, így a „paraszt szabálya” szerint nem kötelező, hogy igazat mondjon, tehát választhatja a hazugságot.
  • Mivel a kijelentés mindig: „A jobb oldali szomszédom T” – de a jobb oldali szomszéd valójában P –, a kijelentés hamis. Minden P tehát úgy dönthet, hogy hazudik, így a szabályoknak megfelel.

Ez az „összes P” megoldásban 0 tolvaj van.

Mi a „helyes” válasz?

A feladványoknál általában implicit feltételezés, hogy nem „triviális” (egyhíjános) megoldást keresünk, azaz feltételezzük, hogy az asztalnál valóban szerepel legalább egy olyan személy, aki nem P (például egy lovag vagy egy tolvaj). Ez a feltételezés kizárja az „összes paraszt” megoldást, és így a nemtriviális esetben az előző érvelésből 6 tolvaj (azaz 6 T) lesz.

Végső válasz

Ha feltételezzük, hogy az asztal „nem triviális” megoldása, azaz nem mindenki paraszt, akkor a következő következtetésre jutunk:

6 tolvaj ül az asztalnál.

DeepSeek R1

Sikeres megoldás első futásra, 4 perc 1 másodperc alatt. A válasz ettől eltérően nagyon rövidre sikerült, csupány ennyiből állt.

The solution involves analyzing the constraints imposed by each type of person (Knight, Thief, Peasant) and their statements. Since everyone claims their right neighbor is a Thief (T), we deduce:

  1. Knights (L) must have a Thief to their right.

  2. Thieves (T) must have a non-Thief (L or P) to their right.

  3. Peasants (P) depend on their left neighbor:

    • If left neighbor is T, they tell the truth (right neighbor is T).

    • If left neighbor is L, they lie (right neighbor isn't T).

    • If left neighbor is P, their statement is ambiguous.

Considering the circular arrangement, the maximum number of Thieves occurs in an alternating pattern where each Thief is separated by a non-Thief. Valid patterns like T-P-T-P... or L-T-L-T... yield 6 Thieves (every other seat). Introducing Peasants doesn't increase the Thief count due to their truth-telling constraints when adjacent to Thieves.

Answer: There ae 6​ Thieves at the table.

Google Gemini 2.0 Flash Thinking Experimental

Sikeres megoldás első futásra 41 másodperc alatt. A válasz itt is nagyon rövid, de a levezetés is rövidebb a másik két modellhez képest. Ami még érdekesség a Gemininél, hogy leginkább "száraz" matematikai levezetést alkalmazott.

The valid configurations we found are:

  1. L, T, L, T, L, T, L, T, L, T, L, T (6 thieves)

  2. T, L, T, L, T, L, T, L, T, L, T, L (6 thieves)

  3. P, T, L, T, L, T, L, T, L, T, L, T (6 thieves)

  4. T, P, T, L, T, L, T, L, T, L, T, L (6 thieves)

  5. P, T, P, T, P, T, P, T, P, T, P, T (6 thieves)

  6. T, L, T, P, T, L, T, P, T, L, T, P (6 thieves)

In each valid configuration, the number of thieves is 6. Therefore, we conclude that there are 6 thieves at the table.

Final Answer: The final answer is 6

Bíró Gábor 2025. február 09.
© 2025 Birow.com