Apple hat die Blase der KI-Propheten in der vergangenen Woche mit Benzin übergossen und angezündet – mit einem Research Paper.
Es heißt „The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity“ und stammt von Parshin Shojaee, Iman Mirzadeh∗ Keivan AlizadehMaxwell, Horton Samy Bengio, Mehrdad Farajtabar.
Das Werk stellt zahlreiche Behauptungen der Produzenten großer Sprachmodelle (Large Language Models – LLM) in Frage – und demonstriert, dass wir immens weit entfernt sind von so was wie einer Artificial General Intelligence oder eine Superintelligenz.
Das Forscherteam hat analysiert, wie große Sprachmodelle mit echten Denkherausforderungen umgehen, zum Beispiel den Türmen von Hanoi oder jener Idee, in welcher Reihenfolge man Personen über einen Fluss bringt, ohne, dass das Boot kentert. Man kennt das in simpler Form von den Geschichten mit dem Fuchs und dem Hasen am Ufer
Ziel der Untersuchung war es zu beobachten, ob jene neue Generation von Spachmodellen, die angeblich ihr Nachdenken offenlegen (Large Reasoning Models – LRM), besser arbeitet, als ihr Vorgänger. Bewusst wurden dabei nicht jene Benchmark-Tests gewählt, die überall durch die Medien geistern. Sie werden von vielen KI-Forschern kritisiert, zum Beispiel auch von Aravind Narayanan, Informatik-Professor in Princeton, und seinem Doktoranden Sayash Kapoor in ihrem lesenswerten Buch „AI Snake Oil“:
„… benchmarking does allow rapid progress—but it is a one-dimensional kind of progress that may not represent what we want out of AI in the real world.“
Stattdessen also sozusagen Denksportaufgaben. Die stellen LLM vor eine besondere Herausforderung. Denn ihnen fehlt ja nicht nur das Wissen über das Konzept der Richtigkeit, sondern auch jedweder Bezug zur Realität.

Leider muss man immer wieder erklären: Sprachmodelle haben kein Wissen an sich, sie schlagen nirgends etwas nach. Sie brechen das Kommando, den Prompt, in Wortbestandteile herunter und arbeiten ihn dann in Form der wahrscheinlichsten Worbestandteile ab. Deshalb ist es eine falsche Vorstellung, dass sie mal ab und zu „halluzinieren“ – alles, was sie ausgeben ist eine Halluzination, denn sie wissen nicht, was eine Tür ist, eine Straße oder ein Schabrackentapier. Für sie sind alles Wortbestandteile, die mit statistischen Wahrscheinlichkeiten zusammenhängen.
Wie exakt ein Prompt abgearbeitet wird, ist nicht bekannt. Ja, das ist verrückt, aber tatsächlich so. Abhilfe sollten jene LRM schaffen, weil sie erklären, wie ihre Denkwege ablaufen.
Also, sie tun zumindest so.
Schaltet man aber mal den gesunden Menschenverstand ein, stellt sich eine Frage. Wenn Sprachmodelle Antworten auf Basis semantischer Wahrscheinlichkeiten geben, warum sollten LRM dann tatsächlich von ihrem Tun berichten?
Ja, warum eigentlich?
Schon im März weckte eine Arbeit des LLM Anthropic Zweifel daran. Deren Forscherteam fand deutlich Hinweise, dass ihr Reasoning Modell etwas anderes erzählte als das, was es tat.
Und nun eben Apple.
Das Forscherteam fand beim Vergleich von LLM und LRM heraus:
Reasoning-Modelle bei leichten Aufgaben unterlegen: Bei einfachen Aufgaben schlagen die Modelle ohne Reasoning ihre jüngeren Ableger
Leichte Vorteile bei mittelschweren Aufgaben: Im mittleren Bereich sind LRM leicht besser, aber keineswegs in überbordendem Ausmaß.
Komplettkollaps bei schweren Aufgaben: Beide Varianten erreichen einen Punkt, an dem sie kollabieren. Irgendwann also sind so viele Turm-Etagen oder Bootspassagiere zu jonglieren, dass die Sprachmodelle aufgaben.
Dabei beobachteten die Apple-Leute auch einige Merkwürdigkeiten.
Zum Beispiel fahren LRM bei komplexer werdenden Aufgaben ihre Rechenkapazität zurück, obwohl ihnen noch genügend davon zur Verfügung stehen würde. Menschlich gesehen könnte man sagen: Sie laufen einen Marathon, sind bei Kilometer 32 und haben noch genügend Powergels und Wasser – aber sie steigen trotzdem aus.
Bei einfacheren Aufgaben kommen LRM schnell zum richtigen Ergebnis – analysieren aber trotzdem weiter. Fachleute nennen dieses Phänomen „Overthinking“ und es hat erhebliche Folgen. Denn jeder Denkprozess braucht Rechenkapazität und Energie. Somit mach Overthinking Sprachmodelle unwirtschaftlicher und schädigt die Umwelt.
Oder: Selbst wenn man ihnen den Lösungsweg mit beigibt, sind sie nicht in der Lage, komplexere Aufgaben zu lösen.
Etliche der Erkenntnisse dürften nicht überraschen, wenn man sein Hirn bei der Beurteilung von Sprachmodellen einschaltet. Leider aber wird der gesunde Menschenverstand bei der Beurteilung von Technologien zu oft ignoriert, egal ob Flugtaxis oder NFT (darüber hatte ich hier mal was geschrieben).
Aber so schnell wie selten zuvor ist rund um das Thema KI, und dabei eben vor allem Generative KI, eine Industrie entstanden, die wolkige Visionen propagiert, um ihre Masterclasses, Beratungen, Bücher und Artikel zu verkaufen. Hinterfragt wird sie selten, auch viel zu selten von Medien, die von sich behaupten, fachkundige Journalisten zu beschäftigen.
Das heißt übrigens nicht, dass Generative KI verschwinden wird. Sie wird eine hilfreiche Steuerfunktion erfüllen und das ist tatsächlich eine spannende Evolution unseres Lebens. Alles, was wir steuern werden, werden wir künftig mit Unterstützung Generativer KI steuern. Das ist nicht nichts, sondern eine wirkliche Veränderung.
Doch ziehen die Ergebnisse des Apple-Teams jenen KI-Schlangenölverkäufern den Teppich unter den Füßen weg. Denn sie zeigen, was hochrangige Forscher wie Yann LeCun (Professor in New York und Chief Scientist bei Meta) auch sagen: Aus Large Language Models wird nicht in absehbarer Zeit keine Superintelligenz entstehen – sondern gar nicht.
Kommentare
Frank H. Witt 9. Juni 2025 um 17:25
Die (Selbst-?)Kritik an überzogenen Erwartungen an KI ist berechtigt – und wie in Ihren Beiträgen treffend dargestellt, sind Clickbaiting und Snake-Oil-Verkauf auf LinkedIn Teil des Problems. Chapeau für die Analyse – im Wissen um die Funktionalität und Ökonomie der Medien durchaus ein Genuss.
Aber: Die Geneposition stimmt nicht. Auch Menschen können nicht „denken“ im Sinne der traditionellen Philosophie, geschweige denn „authentisch“ sein – altgriechisch: „selbst wie Gott“. Im Gehirn ist eigentlich niemand zu Hause. Der Dualismus von Geist und Materie, wie er seit Descartes zum Bildungskanon gehört, ist spätestens seit 1905 (Stichwort Relativität und Quanten) empirisch überholt.
Gehirne und GPTs funktionieren – mit aller gebotenen Vorsicht gesagt – wie Boltzmann-Maschinen mit einem trainierten, veränderbaren assoziativen Gedächtnis. Und beide sind dabei erschreckend unzuverlässig.
Ich habe versucht, das in meinem beiden letzten Posts aufzudröseln – inklusive eines kleinen Gedanken/- Wahrnehmungsexperiments für die, die mitmachen wollen. https://www.linkedin.com/posts/frank-h-witt-147a3985_
Karl Marx 9. Juni 2025 um 20:48
Das wissen John Searle (Minds and Brains), P.M.S. Hacker (The Philosophical Foundations of Neuroscience) und Roger Penrose (The Emperor’s New Clothes) schon lange. Schabrackentapir übrigens ohne e. 😉