Wenn KI immer 7 sagt: Das Groupthink-Problem großer Sprachmodelle und was es für Unternehmen bedeutet


Das Experiment, das Unbehagen auslöst
Wer ein wenig Zeit mitbringt, kann einen einfachen Test durchführen: Man öffne seinen bevorzugten KI-Chatbot – sei es ChatGPT, Claude oder Gemini – und tippe: „Nenn mir eine zufällige Zahl zwischen 1 und 10." Die Antwort lautet mit hoher Wahrscheinlichkeit: 7. Wiederholt man die Anfrage, folgt meist eine 3 oder 4, dann eine 8 oder 9. Was wie ein Zaubertrick wirkt, ist in Wirklichkeit ein Symptom eines tief verwurzelten strukturellen Problems moderner Large Language Models (LLMs): Sie sind weit vorhersehbarer, weit konformer und weit weniger kreativ als es ihre Nutzerinnen und Nutzer gemeinhin annehmen.
Dieses Phänomen ist kein Zufall und kein Bug – es ist eine direkte Konsequenz der Art, wie diese Modelle trainiert werden. Und es hat weitreichende Konsequenzen für Unternehmen, die KI nicht nur für strukturierte, klar definierte Aufgaben nutzen, sondern auch für Ideenentwicklung, strategisches Brainstorming und kreative Prozesse.
Homogenität als systemisches Merkmal
Forscher haben das Phänomen unter dem treffenden Begriff „Artificial Hivemind" untersucht und dabei eine bemerkenswerte Gleichförmigkeit nicht nur innerhalb einzelner Modelle, sondern auch zwischen verschiedenen Systemen unterschiedlicher Hersteller festgestellt. Als 25 verschiedene LLMs jeweils 50-mal gebeten wurden, eine Metapher für Zeit zu formulieren, lauteten die meisten der insgesamt 1.250 Antworten: „Zeit ist ein Fluss" oder „Zeit ist ein Weber". Die Arbeit wurde mit dem Best-Paper-Award der NeurIPS ausgezeichnet – einer der renommiertesten KI-Konferenzen weltweit.
Die Ursache liegt in der strukturellen Ähnlichkeit der Trainingsprozesse: Die meisten führenden LLMs werden auf ähnlichen Datensätzen, mit ähnlichen Methoden und für ähnliche Anwendungsfälle trainiert. Das Ergebnis ist eine Art kollektiver Regression zur Mitte – Modelle bevorzugen statistisch häufige, sozusagen „gesellschaftlich abgesicherte" Antworten und meiden Ausreißer. Sie sind, mit anderen Worten, auf Konsens optimiert, nicht auf Originalität.
„Die Art, wie die meisten Chat-Interfaces gestaltet sind, vermittelt das Gefühl eines persönlichen Gesprächs. Die meisten Menschen realisieren nicht wirklich, in welchem Ausmaß sie dasselbe bekommen wie alle anderen."
Für klar umrissene, wiederholbare Aufgaben – Datenbankabfragen, Code-Generierung, Dokumentenzusammenfassung – ist diese Eigenschaft durchaus nützlich. Doch sobald Unternehmen KI in explorative oder strategische Kontexte einbetten, stößt das Modell an eine fundamentale Grenze.
Der Temperatur-Irrtum und warum einfache Parameter-Tweaks nicht ausreichen
Es liegt nahe zu vermuten, dass das Problem durch technische Einstellungen lösbar ist. LLMs verfügen über einen Parameter namens „Temperature", der die Zufälligkeit der Ausgabe steuert. Höhere Temperatur, mehr Varianz – so die vereinfachte Logik. In der Praxis zeigt sich jedoch, dass das pauschale Aufdrehen dieser Stellschraube schnell in Inkohärenz mündet: Modelle beginnen, mittendrin die Sprache zu wechseln oder semantisch unzusammenhängende Textblöcke zu produzieren.
Das australische Startup Springboards hat einen anderen Ansatz gewählt: Ihr Modell „Flint", aufgebaut auf dem Open-Source-Modell Qwen 3 von Alibaba, wurde darauf trainiert, gezielt jene Stellen in einer Antwort zu identifizieren, an denen mehr Varianz sinnvoll und möglich ist – und nur dort die Zufälligkeit zu erhöhen. Wenn jemand fragt „Wohin sollte ich in Europa reisen?", braucht das Modell die Zufälligkeit nur an dem Punkt, an dem es das Reiseziel benennt – nicht bei jedem einzelnen Wort der Antwort. Dieses präzise, kontextbewusste Vorgehen ist technisch anspruchsvoll, liefert aber deutlich überzeugendere Ergebnisse als pauschale Parameter-Anpassungen.
Was das für Unternehmen bedeutet
Dr. Maik Bunzel, Gründer und Geschäftsführer von mabucon.eu, weist seit geraumer Zeit auf eine Unterscheidung hin, die in der Unternehmenspraxis oft untergeht: Es gibt einen fundamentalen Unterschied zwischen KI-Systemen, die ausführen, und solchen, die explorieren. Für Workflow-Automatisierung, repetitive Geschäftsprozesse und strukturierte Datenverarbeitung ist die Gleichförmigkeit von LLMs kein Nachteil – sie ist eine Stärke. Deterministisches, reproduzierbares Verhalten ist dort genau das, was man will.
Anders verhält es sich bei Anwendungsfällen, in denen KI als kreativer Sparringspartner eingesetzt werden soll: Markenentwicklung, Kampagnenideation, strategische Szenarienplanung, Produktinnovation. Hier produzieren Standardmodelle, wie die Forschung zeigt, im Wesentlichen den Durchschnitt der Trainingsdaten – einen destillierten, gefilterten Konsens dessen, was im Internet als „gute Antwort" gilt. Für Unternehmen, die sich durch KI einen kreativen Wettbewerbsvorteil erhoffen, ist das eine ernüchternde Erkenntnis.
- Ideation und Brainstorming: Standardmodelle tendieren zu vorhersehbaren, marktkonformen Ideen. Wer KI für echte Differenzierung einsetzt, braucht entweder spezialisierte Modelle oder durchdachte Prompt-Architekturen, die aktiv Divergenz erzwingen.
- Strategische Analyse: Wenn verschiedene Teams dieselben Modelle für Marktanalysen nutzen, konvergieren ihre KI-gestützten Insights zwangsläufig – ein Wettbewerbsnachteil, der auf den ersten Blick nicht sichtbar ist.
- Automatisierte Content-Produktion: Massenhafte, KI-generierte Inhalte aus denselben Modellen werden sich immer ähnlicher werden – eine ernste Herausforderung für Markendifferenzierung.
- Multi-Modell-Strategien: Die bewusste Kombination verschiedener Modelle mit unterschiedlichen Charakteristika kann helfen, die inhärente Gleichförmigkeit einzelner Systeme aufzubrechen.
Halluzinationen neu gedacht: Ein Paradigmenwechsel?
Bemerkenswert ist die philosophische Verschiebung, die Springboards mit Flint vollzieht. Während die gesamte KI-Industrie seit Jahren Halluzinationen – also das Erfinden von Fakten – als zentrales Problem bekämpft, propagiert das Startup einen kontrollierten Umgang mit dem Unerwarteten: „Die meisten Sprachmodelle kämpfen gegen Halluzinationen. Wir begrüßen sie", so die Formulierung des Unternehmens. Das klingt provokant, meint aber etwas Präzises: In kreativen, explorativen Kontexten kann die Abweichung vom statistischen Mainstream wertvoll sein – wenn sie gesteuert und für den Menschen als Ausgangspunkt zur Weiterverarbeitung transparent gemacht wird.
Dieser Gedanke verdient Aufmerksamkeit, weil er eine wichtige Nuance in die KI-Debatte einbringt: Nicht alle Abweichungen sind Fehler. Die Unterscheidung zwischen unerwünschter Halluzination in faktenbezogenen Kontexten und produktiver Divergenz in kreativen Kontexten ist eine Frage des Einsatzszenarios – und damit des Systemdesigns, nicht nur des Modells selbst.
Menschliche Kontrolle bleibt der entscheidende Faktor
Eine wichtige Mahnung kommt aus der Praxis selbst: Auch mit Modellen, die aktiv Vielfalt erzeugen, bleibt das direkte Übernehmen von KI-Output ohne kritische menschliche Reflexion problematisch. Mehr Variation bedeutet nicht automatisch mehr Qualität – es bedeutet eine größere Bandbreite an Optionen, aus der Menschen mit Urteilsvermögen, Kontextwissen und Kreativität schöpfen können.
Dr. Maik Bunzel, Gründer und Geschäftsführer von mabucon.eu, formuliert es treffend im Rahmen seiner Arbeit mit Unternehmen: KI-Agenten sind dann am wirkungsvollsten, wenn sie als strukturierter Prozessbeschleuniger eingesetzt werden – nicht als Ersatz für menschliches Denken, sondern als dessen Erweiterung. Das gilt für Automatisierung genauso wie für kreative Unterstützung.
Ausblick: Was Unternehmen jetzt tun sollten
Die Erkenntnis, dass LLMs strukturell zur Gleichförmigkeit neigen, sollte die Art und Weise verändern, wie Unternehmen ihre KI-Strategie aufsetzen. Konkret bedeutet das:
- Eine klare Trennung zwischen Automatisierungs- und Explorationsanwendungen vorzunehmen – und für letztere gezielt Modelle oder Konfigurationen zu wählen, die aktiv Divergenz fördern.
- Die eigene KI-Nutzung regelmäßig auf Qualität und Originalität zu auditieren – insbesondere bei skalierter Content-Produktion und strategischen Analysen.
- Multi-Modell-Architekturen in Betracht zu ziehen, die verschiedene Modelle mit unterschiedlichen Stärkeprofilen kombinieren, anstatt sich auf einen einzigen Anbieter zu verlassen.
- KI-Outputs konsequent als Ausgangsmaterial zu behandeln, das menschlicher Kuratierung, Verfeinerung und Kontextualisierung bedarf.
Das Groupthink-Problem der LLMs ist kein Grund, auf KI zu verzichten – es ist ein Grund, KI bewusster und differenzierter einzusetzen. Wer versteht, wie diese Systeme denken und wo ihre blinden Flecken liegen, kann sie weit effektiver nutzen als jemand, der ihre Outputs unkritisch übernimmt. In einer Welt, in der immer mehr Unternehmen dieselben Modelle auf dieselben Fragen anwenden, wird genau dieses Verständnis zum strategischen Differenziator.