Grenzen der Large Reasoning Modelle (LRMs)

Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Paper June 2025

Apple Forscher diskutieren in diesem Papier die Möglichkeiten und Grenzen der Large Reasoning Modelle.
Abstract: „Jüngste Generationen von Frontier-Sprachmodellen haben Large Reasoning Models (LRMs) eingeführt, die detaillierte Denkprozesse erzeugen, bevor sie Antworten geben. Während diese Modelle eine verbesserte Leistung bei Argumentations-Benchmarks zeigen, bleiben ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Einschränkungen unzureichend verstanden. Die aktuellen Bewertungen konzentrieren sich in erster Linie auf etablierte mathematische und codierende Benchmarks und betonen die endgültige Antwortgenauigkeit. Dieses Bewertungsparadigma leidet jedoch oft unter Datenverunreinigungen und gibt keine Einblicke in die Struktur und Qualität der Veranlagungsspuren. In dieser Arbeit untersuchen wir diese Lücken systematisch mit Hilfe kontrollierbarer Puzzleumgebungen, die eine präzise Manipulation der kompositorischen Komplexität bei gleichzeitiger Aufrechterhaltung konsistenter logischer Strukturen ermöglichen. Dieses Setup ermöglicht nicht nur die Analyse von Endantworten, sondern auch der internen Argumentationsspuren und bietet Einblicke, wie LRMs „denken“. Durch umfangreiche Experimente an verschiedenen Rätseln zeigen wir, dass Grenz-LRMs einem vollständigen Genauigkeitskollaps jenseits bestimmter Komplexitäten ausgesetzt sind. Darüber hinaus weisen sie eine kontraintuitive Skalierungsgrenze auf: Ihre Argumentationsbemühungen steigen mit Problemkomplexität bis zu einem gewissen Punkt, dann sinken sie, obwohl sie ein angemessenes Token-Budget haben. Indem wir LRMs mit ihren Standard-LLM-Pendants unter gleichwertiger Schlussfolgerungsrechner vergleichen, identifizieren wir drei Leistungsregelungen: (1) Probleme mit geringer Komplexität, bei denen Standardmodelle überraschend LRMs übertreffen, (2) Mittelkomplexitätsaufgaben, bei denen zusätzliches Denken in LRMs Vorteile zeigt, und (3) hochkomplexe Aufgaben, bei denen beide Modelle kompensieren. Wir fanden heraus, dass LRMs Einschränkungen in der genauen Berechnung haben: Sie versäumen es, explizite Algorithmen und Gründe inkonsistent über Rätsel hinweg zu verwenden. Wir untersuchen auch die Argumentationsspuren in tieferer Tiefe, untersuchen die Muster von erforschten Lösungen und analysieren das Computerverhalten der Modelle, werfen Licht auf ihre Stärken, Grenzen und werfen letztendlich entscheidende Fragen über ihre wahren Argumentationsfähigkeiten auf.“