o3 mini vs. DeepSeek R1 vs. Google Gemini 2 Think

Gábor Bíró • 9. Februar 2025

7 Min. Lesezeit

Der Fortschritt der künstlichen Intelligenz ermöglicht es LLM-Modellen zunehmend, komplexe mathematische Probleme zu lösen. Aber wie gut bewältigen sie die logischen Herausforderungen einer Wettbewerbsaufgabe für die Grundschule? In einem früheren Test habe ich die Leistung verschiedener Modelle untersucht, und jetzt, mit der Veröffentlichung von OpenAIs neuem O3-Modell, habe ich einen aktualisierten Vergleich durchgeführt.

o3 mini vs. DeepSeek R1 vs. Google Gemini 2 Think

Quelle: Saját szerkesztés

Zuvor habe ich einen umfassenden Test zu den mathematischen Fähigkeiten der aktuell verfügbaren LLM-Modelle durchgeführt. Während der Untersuchung habe ich den Modellen eine Aufgabe aus einem nationalen Mathematikwettbewerb für Fünftklässler gestellt. Im früheren Test konnten nur DeepSeek R1 und OpenAI O1 das Problem korrekt lösen, während andere Modelle entweder komplett stecken blieben oder das Problem zwar logisch angingen, aber letztendlich keine korrekte Antwort erreichten. Den vorherigen LLM-Vergleichstest finden Sie hier.

Diesmal habe ich einen weiteren Test durchgeführt, der durch die Veröffentlichung des OpenAI O3-Modells veranlasst wurde. Die Aufgabe stammte wiederum aus einem nationalen Mathematikwettbewerb für die fünfte Klasse. Da der vorherige Versuch deutlich gezeigt hatte, dass traditionelle Modelle (wie Claude Sonnet 3.5, Qwen 2.5, Llama 3.3) diese Art von Aufgabe nicht lösen können, habe ich diesmal nur den zuvor erfolgreichen DeepSeek R1 und das neu verfügbare Google Gemini 2.0 Flash Thinking Experimental Modell mit OpenAI O3 verglichen.

Ich habe den Aufgabentext leicht modifiziert, um sicherzustellen, dass die Leistung der Modelle nicht durch geringfügige sprachliche Details beeinflusst wurde. Der Test verglich also in erster Linie ihr logisches Denkvermögen und nicht ihre Textverständnisfähigkeiten.

Die Aufgabenbeschreibung des Tests:

Zwölf Personen sitzen um einen Tisch. Sie sind entweder Ritter (R), Schurken (S) oder Bauern (B), wobei von jeder Sorte mindestens einer vorhanden ist. Ritter sagen immer die Wahrheit, Schurken lügen immer, und Bauern verhalten sich wie folgt: Ein Bauer sagt die Wahrheit, wenn sein linker Nachbar ein Schurke ist, lügt, wenn sein linker Nachbar ein Ritter ist, und kann entweder die Wahrheit sagen oder lügen, wenn sein linker Nachbar ein Bauer ist. Jeder behauptet, sein rechter Nachbar sei ein Schurke. Wie viele Schurken sitzen am Tisch?

Diesmal werde ich den vollständigen, schrittweisen Denkprozess nicht veröffentlichen, sondern nur die Lösung und das Ergebnis, da die detaillierten Ableitungen den vorherigen Artikel völlig zerstückelt haben (obwohl die Modelle die Berechnungen auf sehr interessante und anschauliche Weise abgeleitet und ganz unterschiedlich "gedacht" haben).

OpenAI o3

Erfolgreiche Lösung beim ersten Versuch, in 1 Minute und 21 Sekunden. Nach langem Überlegen und Begründen wurde die Lösung in einer längeren Antwort erläutert. Obwohl es irgendwie das Detail verpasst hat, dass von jeder Sorte mindestens eine Person am Tisch sitzt, war die endgültige Schlussfolgerung dennoch korrekt:

Seien die 12 Personen um den Tisch x1, x2, …, x12 in Reihenfolge (modulo 12). Jede Person hat einen Typ:

R (Ritter, der immer die Wahrheit sagt),

S (Schurke, der immer lügt),

B (Bauer, dessen Verhalten von seinem linken Nachbarn abhängt):

wenn sein linker Nachbar S ist, sagt er die Wahrheit,

wenn sein linker Nachbar R ist, lügt er,

wenn sein linker Nachbar B ist, kann er frei wählen (die Wahrheit sagen oder lügen).

Jeder behauptet:

"Mein rechter Nachbar ist S."
Dies bedeutet, dass die Aussage von Person i ("xi+1 ist S") gemäß den folgenden Regeln wahr sein muss (oder falsch, wenn der Sprecher lügt):

Wenn xi=R, muss die Aussage wahr sein, also ist xi+1 tatsächlich S.

Wenn xi=S, muss die Aussage falsch sein, also kann xi+1 nicht S sein (also R oder B).

Wenn xi=B, hängt es von seinem linken Nachbarn ab (xi−1):

Wenn xi−1=S, dann sagt xi die Wahrheit, also muss xi+1 S sein.

Wenn xi−1=R, dann lügt xi, also kann xi+1 nicht S sein.

Wenn xi−1=B, dann kann sich xi "frei" verhalten – in diesem Fall gibt es keine zwingende Konsequenz für den Typ von xi+1.

Die erste, "nicht-triviale" Beobachtung

Sehen wir uns an, was passiert, wenn jemand S (Schurke) ist:

Angenommen, xi=S. Da S immer lügt, kann xi+1 gemäß seiner Aussage nicht S sein. Also
xi+1 ∈ .

Untersuchen wir die zwei möglichen Typen für xi+1:

Wenn xi+1=R (Ritter), dann impliziert seine Aussage, da ein Ritter immer die Wahrheit sagt,
xi+2=S.

Wenn xi+1=B (Bauer), dann ist sein linker Nachbar xi S, also sagt xi+1 die Wahrheit, und daher auch
xi+2=S.
In jedem Fall, in dem xi=S (Schurke) ist, stellt sich heraus, dass zwei Plätze weiter, bei xi+2, ebenfalls ein S sein muss.

Konsequenz: Die Polarität des Tisches

Da die Anzahl der Personen am Tisch 12 (gerade) ist, erstreckt sich die "S-Kette", wenn es mindestens einen S gibt, auf jede zweite Person im Kreis. Mit anderen Worten:

Wenn xi=S, dann sind alle Personen, die zur gleichen Paritätsklasse wie i gehören (z. B. wenn i ungerade ist, dann sind alle Personen an einer ungeraden Position S), gezwungen, S zu sein.

Für einen S (Schurken) kann der rechte Nachbar – der zur entgegengesetzten Paritätsklasse gehört – jedoch kein S sein (da S lügt).

Wenn wir also aus der Mischung (keine volle "Bauernmenge") wählen, ist die einzige Möglichkeit, wenn es mindestens einen R oder S gibt:

Eine Paritätsklasse (sagen wir, die ungeraden Positionen) besteht vollständig aus S (Schurken).

Die andere Klasse (die geraden Positionen) enthält keine S (es können nur R- oder B-Elemente vorhanden sein).

Da bei 12 Plätzen sowohl gerade als auch ungerade Positionen jeweils 6 Personen repräsentieren, wird eine solche (nicht-"triviale") Lösung genau 6 Schurken haben.

Der triviale Fall

Natürlich ist es auch denkbar, dass jeder ein Bauer (B) ist. In diesem Fall:

Jeder linke Nachbar ist ein B, daher sind sie gemäß der "Bauernregel" nicht verpflichtet, die Wahrheit zu sagen, was bedeutet, dass sie sich entscheiden können zu lügen.

Da die Aussage immer lautet: "Mein rechter Nachbar ist S" – der rechte Nachbar aber tatsächlich ein B ist – ist die Aussage falsch. Jeder B kann sich also entscheiden zu lügen und erfüllt damit die Regeln.

Diese "alle B"-Lösung hat 0 Schurken.

Was ist die "richtige" Antwort?

Bei solchen Problemen gibt es normalerweise eine implizite Annahme, dass wir nach einer nicht-"trivialen" (nicht-degenerierten) Lösung suchen, was bedeutet, dass wir annehmen, dass sich mindestens eine Person am Tisch befindet, die kein B ist (z. B. ein Ritter oder ein Schurke). Diese Annahme schließt die "alle Bauern"-Lösung aus, und somit führt die vorherige Argumentation im nicht-trivialen Fall zu 6 Schurken (d. h. 6 S).

Endgültige Antwort

Wenn wir eine "nicht-triviale" Lösung für den Tisch annehmen, d. h. dass nicht jeder ein Bauer ist, kommen wir zu folgendem Schluss:

Es sitzen 6 Schurken am Tisch.

DeepSeek R1

Erfolgreiche Lösung beim ersten Durchlauf, in 4 Minuten und 1 Sekunde. Im Gegensatz dazu war die Antwort sehr kurz und bestand nur daraus:

Die Lösung beinhaltet die Analyse der Einschränkungen, die durch jeden Personentyp (Ritter, Schurke, Bauer) und ihre Aussagen auferlegt werden. Da jeder behauptet, sein rechter Nachbar sei ein Schurke (S), schließen wir:

Ritter (R) müssen einen Schurken zu ihrer Rechten haben.

Schurken (S) müssen einen Nicht-Schurken (R oder B) zu ihrer Rechten haben.

Bauern (B) hängen von ihrem linken Nachbarn ab:

Wenn der linke Nachbar S ist, sagen sie die Wahrheit (rechter Nachbar ist S).

Wenn der linke Nachbar R ist, lügen sie (rechter Nachbar ist nicht S).

Wenn der linke Nachbar B ist, ist ihre Aussage mehrdeutig.

Use code with caution.

Unter Berücksichtigung der kreisförmigen Anordnung tritt die maximale Anzahl von Schurken in einem abwechselnden Muster auf, bei dem jeder Schurke durch einen Nicht-Schurken getrennt ist. Gültige Muster wie S-B-S-B... oder R-S-R-S... ergeben 6 Schurken (jeder zweite Platz). Das Hinzufügen von Bauern erhöht die Anzahl der Schurken aufgrund ihrer Wahrheitspflichten in der Nachbarschaft von Schurken nicht.

Antwort: Es sitzen 6 Schurken am Tisch.

Google Gemini 2.0 Flash Thinking Experimental

Erfolgreiche Lösung beim ersten Durchlauf in 41 Sekunden. Auch hier ist die Antwort sehr kurz und die Ableitung im Vergleich zu den anderen beiden Modellen ebenfalls kürzer. Ein weiterer interessanter Punkt bei Gemini ist, dass es hauptsächlich eine "trockene" mathematische Ableitung verwendet hat.

Die gültigen Konfigurationen, die wir gefunden haben, sind:

R, S, R, S, R, S, R, S, R, S, R, S (6 Schurken)

S, R, S, R, S, R, S, R, S, R, S, R (6 Schurken)

B, S, R, S, R, S, R, S, R, S, R, S (6 Schurken)

S, B, S, R, S, R, S, R, S, R, S, R (6 Schurken)

B, S, B, S, B, S, B, S, B, S, B, S (6 Schurken)

S, R, S, B, S, R, S, B, S, R, S, B (6 Schurken)

In jeder gültigen Konfiguration beträgt die Anzahl der Schurken 6. Daher schließen wir, dass 6 Schurken am Tisch sitzen.

Endgültige Antwort: Die endgültige Antwort ist 6

Ray Kurzweil: Zeitplan der KI-Entwicklung und zukünftige Auswirkungen

Gábor Bíró • 31. Juli 2024

Ray Kurzweil, der renommierte Zukunftsforscher und Google-Ingenieur, hat kühne Vorhersagen über die Zukunft der künstlichen Intelligenz gemacht, darunter die Entstehung von Artificial General Intelligence (AGI) bis 2029 und die technologische Singularität bis 2045. Laut einem Bericht von The Independent aktualisiert Kurzweils kommendes Buch „The Singularity is Nearer“ seinen Zeitplan für die KI-Entwicklung und deren angenommenes Potenzial, die menschliche Biologie und Lebensspanne zu transformieren.

Bau von Solarparks mit KI-gestützten Robotern

Gábor Bíró • 7. Juli 2024

Maximo, die neueste Entwicklung der AES Corporation, ein Roboter mit Unterstützung durch künstliche Intelligenz, ist in der Lage, Solarmodule doppelt so schnell und zu halben Kosten im Vergleich zu traditionellen Methoden zu installieren. Amazon wird einer der ersten großen Nutznießer dieser Technologie sein und den Roboter einsetzen, um seinen Übergang zu erneuerbaren Energien zu beschleunigen.

Biolumineszente Petunie: Die leuchtende Blume

Gábor Bíró • 15. Februar 2024

Bekannt als die „Glühwürmchen-Petunie“, ist diese leuchtende Petunie eine gentechnisch veränderte Pflanze, die dank Genen aus einem Leuchtpilz kontinuierlich grünes Licht ausstrahlt.

Quantenverschränkung im Gehirn: Eine Verbindung zum Bewusstsein?

Gábor Bíró • 8. August 2024

In den letzten Jahren ist vermehrt die Frage aufgekommen: Könnte die geheimnisvolle Welt der Quantenphysik die Funktionsweise des menschlichen Gehirns und unseres Bewusstseins beeinflussen? Das Konzept der Quantenverschränkung, bei dem Teilchen auf unheimliche Weise miteinander verbunden sind und interagieren, spaltet die wissenschaftliche Gemeinschaft. Warum ist das von Bedeutung, und geht es um mehr als nur darum, verstehen zu wollen, wie unser Gehirn funktioniert?

Nvidia stellt Blackwell vor: Die KI-Superchip-Plattform der nächsten Generation

Gábor Bíró • 19. März 2024

Nvidia, ein führendes Unternehmen im Bereich Accelerated Computing und KI, hat seine mit Spannung erwartete Plattform der nächsten Generation vorgestellt, die auf der leistungsstarken Blackwell GPU basiert. Diese neue Architektur, die auf der GTC 2024 Konferenz des Unternehmens angekündigt und nach dem Mathematiker David Blackwell benannt wurde, folgt auf die einflussreiche Hopper-Generation (H100/H200). Bedeutenderweise stellt Blackwell Nvidias ersten Vorstoß in ein Chiplet-basiertes Design für seine Rechenzentrums-GPUs dar, bei dem zwei große GPU-Dies integriert werden, die mit einem kundenspezifischen TSMC 4NP Prozess Knoten gefertigt werden.

Deepseek V3: Nahezu State-of-the-Art-Qualität auf Ihrem eigenen Server

Gábor Bíró • 9. Januar 2025

Bis vor kurzem wurde die High-End-KI-Landschaft von Modellen mit geschlossenem Quellcode wie GPT-4 und Claude Sonnet dominiert. Der Zugriff auf diese Modelle ist oft mit erheblichen Kosten und Einschränkungen verbunden. Die Einführung von DeepSeek-V3 markiert jedoch einen potenziellen Wandel: Dieses Open-Source-Sprachmodell bietet nicht nur eine Leistung, die mit führenden proprietären Modellen konkurriert, sondern auch die Möglichkeit, es auf der eigenen Infrastruktur zu betreiben.

Wasserstoff-Brennstoffzellen zielen auf breitere Anwendungen ab

Gábor Bíró • 25. Januar 2024

General Motors und Honda haben bekannt gegeben, dass ihr Joint Venture, Fuel Cell System Manufacturing, mit der Produktion von Wasserstoff-Brennstoffzellen in Brownstown, Michigan, begonnen hat. Die beiden Automobilhersteller haben zuvor bereits bei batteriebetriebenen Elektrofahrzeugen zusammengearbeitet.