o3 mini vs. DeepSeek R1 vs. Google Gemini 2 Think

Gábor Bíró 9. Februar 2025
7 Min. Lesezeit

Der Fortschritt der künstlichen Intelligenz ermöglicht es LLM-Modellen zunehmend, komplexe mathematische Probleme zu lösen. Aber wie gut bewältigen sie die logischen Herausforderungen einer Wettbewerbsaufgabe für die Grundschule? In einem früheren Test habe ich die Leistung verschiedener Modelle untersucht, und jetzt, mit der Veröffentlichung von OpenAIs neuem O3-Modell, habe ich einen aktualisierten Vergleich durchgeführt.

o3 mini vs. DeepSeek R1 vs. Google Gemini 2 Think
Quelle: Saját szerkesztés

Zuvor habe ich einen umfassenden Test zu den mathematischen Fähigkeiten der aktuell verfügbaren LLM-Modelle durchgeführt. Während der Untersuchung habe ich den Modellen eine Aufgabe aus einem nationalen Mathematikwettbewerb für Fünftklässler gestellt. Im früheren Test konnten nur DeepSeek R1 und OpenAI O1 das Problem korrekt lösen, während andere Modelle entweder komplett stecken blieben oder das Problem zwar logisch angingen, aber letztendlich keine korrekte Antwort erreichten. Den vorherigen LLM-Vergleichstest finden Sie hier.

Diesmal habe ich einen weiteren Test durchgeführt, der durch die Veröffentlichung des OpenAI O3-Modells veranlasst wurde. Die Aufgabe stammte wiederum aus einem nationalen Mathematikwettbewerb für die fünfte Klasse. Da der vorherige Versuch deutlich gezeigt hatte, dass traditionelle Modelle (wie Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) diese Art von Aufgabe nicht lösen können, habe ich diesmal nur den zuvor erfolgreichen DeepSeek R1 und das neu verfügbare Google Gemini 2.0 Flash Thinking Experimental Modell mit OpenAI O3 verglichen.

Ich habe den Aufgabentext leicht modifiziert, um sicherzustellen, dass die Leistung der Modelle nicht durch geringfügige sprachliche Details beeinflusst wurde. Der Test verglich also in erster Linie ihr logisches Denkvermögen und nicht ihre Textverständnisfähigkeiten.

Die Aufgabenbeschreibung des Tests:

Zwölf Personen sitzen um einen Tisch. Sie sind entweder Ritter (R), Schurken (S) oder Bauern (B), wobei von jeder Sorte mindestens einer vorhanden ist. Ritter sagen immer die Wahrheit, Schurken lügen immer, und Bauern verhalten sich wie folgt: Ein Bauer sagt die Wahrheit, wenn sein linker Nachbar ein Schurke ist, lügt, wenn sein linker Nachbar ein Ritter ist, und kann entweder die Wahrheit sagen oder lügen, wenn sein linker Nachbar ein Bauer ist. Jeder behauptet, sein rechter Nachbar sei ein Schurke. Wie viele Schurken sitzen am Tisch?

Diesmal werde ich den vollständigen, schrittweisen Denkprozess nicht veröffentlichen, sondern nur die Lösung und das Ergebnis, da die detaillierten Ableitungen den vorherigen Artikel völlig zerstückelt haben (obwohl die Modelle die Berechnungen auf sehr interessante und anschauliche Weise abgeleitet und ganz unterschiedlich "gedacht" haben).

OpenAI o3

Erfolgreiche Lösung beim ersten Versuch, in 1 Minute und 21 Sekunden. Nach langem Überlegen und Begründen wurde die Lösung in einer längeren Antwort erläutert. Obwohl es irgendwie das Detail verpasst hat, dass von jeder Sorte mindestens eine Person am Tisch sitzt, war die endgültige Schlussfolgerung dennoch korrekt:

Seien die 12 Personen um den Tisch x1, x2, …, x12 in Reihenfolge (modulo 12). Jede Person hat einen Typ:

  • R (Ritter, der immer die Wahrheit sagt),
  • S (Schurke, der immer lügt),
  • B (Bauer, dessen Verhalten von seinem linken Nachbarn abhängt):
    • wenn sein linker Nachbar S ist, sagt er die Wahrheit,
    • wenn sein linker Nachbar R ist, lügt er,
    • wenn sein linker Nachbar B ist, kann er frei wählen (die Wahrheit sagen oder lügen).

Jeder behauptet:

"Mein rechter Nachbar ist S."

Dies bedeutet, dass die Aussage von Person i ("xi+1 ist S") gemäß den folgenden Regeln wahr sein muss (oder falsch, wenn der Sprecher lügt):

  • Wenn xi=R, muss die Aussage wahr sein, also ist xi+1 tatsächlich S.
  • Wenn xi=S, muss die Aussage falsch sein, also kann xi+1 nicht S sein (also R oder B).
  • Wenn xi=B, hängt es von seinem linken Nachbarn ab (xi−1):
    • Wenn xi−1=S, dann sagt xi die Wahrheit, also muss xi+1 S sein.
    • Wenn xi−1=R, dann lügt xi, also kann xi+1 nicht S sein.
    • Wenn xi−1=B, dann kann sich xi "frei" verhalten – in diesem Fall gibt es keine zwingende Konsequenz für den Typ von xi+1.

Die erste, "nicht-triviale" Beobachtung

Sehen wir uns an, was passiert, wenn jemand S (Schurke) ist:

  • Angenommen, xi=S. Da S immer lügt, kann xi+1 gemäß seiner Aussage nicht S sein. Also

    xi+1 ∈ .

  • Untersuchen wir die zwei möglichen Typen für xi+1:
    • Wenn xi+1=R (Ritter), dann impliziert seine Aussage, da ein Ritter immer die Wahrheit sagt,

      xi+2=S.

    • Wenn xi+1=B (Bauer), dann ist sein linker Nachbar xi S, also sagt xi+1 die Wahrheit, und daher auch

      xi+2=S.

      In jedem Fall, in dem xi=S (Schurke) ist, stellt sich heraus, dass zwei Plätze weiter, bei xi+2, ebenfalls ein S sein muss.

Konsequenz: Die Polarität des Tisches

Da die Anzahl der Personen am Tisch 12 (gerade) ist, erstreckt sich die "S-Kette", wenn es mindestens einen S gibt, auf jede zweite Person im Kreis. Mit anderen Worten:

  • Wenn xi=S, dann sind alle Personen, die zur gleichen Paritätsklasse wie i gehören (z. B. wenn i ungerade ist, dann sind alle Personen an einer ungeraden Position S), gezwungen, S zu sein.
  • Für einen S (Schurken) kann der rechte Nachbar – der zur entgegengesetzten Paritätsklasse gehört – jedoch kein S sein (da S lügt).

Wenn wir also aus der Mischung (keine volle "Bauernmenge") wählen, ist die einzige Möglichkeit, wenn es mindestens einen R oder S gibt:

  • Eine Paritätsklasse (sagen wir, die ungeraden Positionen) besteht vollständig aus S (Schurken).
  • Die andere Klasse (die geraden Positionen) enthält keine S (es können nur R- oder B-Elemente vorhanden sein).

Da bei 12 Plätzen sowohl gerade als auch ungerade Positionen jeweils 6 Personen repräsentieren, wird eine solche (nicht-"triviale") Lösung genau 6 Schurken haben.

Der triviale Fall

Natürlich ist es auch denkbar, dass jeder ein Bauer (B) ist. In diesem Fall:

  • Jeder linke Nachbar ist ein B, daher sind sie gemäß der "Bauernregel" nicht verpflichtet, die Wahrheit zu sagen, was bedeutet, dass sie sich entscheiden können zu lügen.
  • Da die Aussage immer lautet: "Mein rechter Nachbar ist S" – der rechte Nachbar aber tatsächlich ein B ist – ist die Aussage falsch. Jeder B kann sich also entscheiden zu lügen und erfüllt damit die Regeln.

Diese "alle B"-Lösung hat 0 Schurken.

Was ist die "richtige" Antwort?

Bei solchen Problemen gibt es normalerweise eine implizite Annahme, dass wir nach einer nicht-"trivialen" (nicht-degenerierten) Lösung suchen, was bedeutet, dass wir annehmen, dass sich mindestens eine Person am Tisch befindet, die kein B ist (z. B. ein Ritter oder ein Schurke). Diese Annahme schließt die "alle Bauern"-Lösung aus, und somit führt die vorherige Argumentation im nicht-trivialen Fall zu 6 Schurken (d. h. 6 S).

Endgültige Antwort

Wenn wir eine "nicht-triviale" Lösung für den Tisch annehmen, d. h. dass nicht jeder ein Bauer ist, kommen wir zu folgendem Schluss:

Es sitzen 6 Schurken am Tisch.

DeepSeek R1

Erfolgreiche Lösung beim ersten Durchlauf, in 4 Minuten und 1 Sekunde. Im Gegensatz dazu war die Antwort sehr kurz und bestand nur daraus:

Die Lösung beinhaltet die Analyse der Einschränkungen, die durch jeden Personentyp (Ritter, Schurke, Bauer) und ihre Aussagen auferlegt werden. Da jeder behauptet, sein rechter Nachbar sei ein Schurke (S), schließen wir:

  1. Ritter (R) müssen einen Schurken zu ihrer Rechten haben.

  2. Schurken (S) müssen einen Nicht-Schurken (R oder B) zu ihrer Rechten haben.

  3. Bauern (B) hängen von ihrem linken Nachbarn ab:

    • Wenn der linke Nachbar S ist, sagen sie die Wahrheit (rechter Nachbar ist S).

    • Wenn der linke Nachbar R ist, lügen sie (rechter Nachbar ist nicht S).

    • Wenn der linke Nachbar B ist, ist ihre Aussage mehrdeutig.

  4. Use code with caution.

Unter Berücksichtigung der kreisförmigen Anordnung tritt die maximale Anzahl von Schurken in einem abwechselnden Muster auf, bei dem jeder Schurke durch einen Nicht-Schurken getrennt ist. Gültige Muster wie S-B-S-B... oder R-S-R-S... ergeben 6 Schurken (jeder zweite Platz). Das Hinzufügen von Bauern erhöht die Anzahl der Schurken aufgrund ihrer Wahrheitspflichten in der Nachbarschaft von Schurken nicht.

Antwort: Es sitzen 6 Schurken am Tisch.

Google Gemini 2.0 Flash Thinking Experimental

Erfolgreiche Lösung beim ersten Durchlauf in 41 Sekunden. Auch hier ist die Antwort sehr kurz und die Ableitung im Vergleich zu den anderen beiden Modellen ebenfalls kürzer. Ein weiterer interessanter Punkt bei Gemini ist, dass es hauptsächlich eine "trockene" mathematische Ableitung verwendet hat.

Die gültigen Konfigurationen, die wir gefunden haben, sind:

  1. R, S, R, S, R, S, R, S, R, S, R, S (6 Schurken)

  2. S, R, S, R, S, R, S, R, S, R, S, R (6 Schurken)

  3. B, S, R, S, R, S, R, S, R, S, R, S (6 Schurken)

  4. S, B, S, R, S, R, S, R, S, R, S, R (6 Schurken)

  5. B, S, B, S, B, S, B, S, B, S, B, S (6 Schurken)

  6. S, R, S, B, S, R, S, B, S, R, S, B (6 Schurken)

In jeder gültigen Konfiguration beträgt die Anzahl der Schurken 6. Daher schließen wir, dass 6 Schurken am Tisch sitzen.

Endgültige Antwort: Die endgültige Antwort ist 6

Gábor Bíró 9. Februar 2025