Künstliche Intelligenz erfordert kritische Hinterfragung, da blinder Vertrauen zu gravierenden Fehlern führen kann. Der Kluger-Hans-Effekt zeigt, dass KI oft falsche Zusammenhänge lernt. Es ist wichtig, Ergebnisse zu überprüfen, erklärbare KI zu nutzen und menschliches Urteilsvermögen einzubeziehen, um fehlerhafte Entscheidungen zu vermeiden.
Kluger Hans lässt grüßen:
Kürzlich erlebte ich zwei bemerkenswerte Situationen an einem Tag, die mich nachdenklich machten. Ein Freund diskutierte mit mir über die angeblich geplante Auflösung des US-Bildungsministeriums durch die Trump-Administration. Er ließ diese Annahme schnell von einer KI „überprüfen" – diese teilte ihm mit, dass die USA kein Bildungsministerium wie unseres hätten und es folglich nicht aufgelöst werden könne. Am selben Tag las ich in der FAZ einen faszinierenden Artikel darüber, wie KI zu solchen irreführenden Schlüssen kommen kann.
In diesem Blog habe ich bereits ähnliche Phänomene thematisiert. Das Projekt AI Snake Oil und das gleichnamige Buch von Arvind Narayanan, Sayash Kapoor und Rishi Bommasani analysieren die tatsächlichen Fähigkeiten von KI-Systemen kritisch. Die Autoren untersuchen systematisch und differenziert, welche KI-Anwendungen echten Nutzen bringen und welche nur Marketing-Hype sind. Falls du dich näher mit den kritischen Aspekten von KI auseinandersetzen möchtest, kann ich dir dieses aufschlussreiche Projekt sehr empfehlen.
Nachfolgend möchte ich ein weiteres wichtiges Beispiel beleuchten: den sogenannten Kluger-Hans-Effekt. In meiner täglichen Arbeit beobachte ich, wie begeistert meine Klienten auf KI-Systeme reagieren – ohne deren potenzielle Fallstricke zu erkennen. Ich möchte dir zeigen, warum du KI-generierte Ergebnisse stets kritisch hinterfragen solltest.
1. Einleitung
Künstliche Intelligenz begegnet dir heute fast überall – ob bei medizinischen Diagnosen oder in der Qualitätskontrolle von Produkten. Vielleicht hast du selbst schon erlebt, wie bequem es ist, sich auf KI-Ergebnisse zu verlassen. Genau das zeigt auch eine Microsoft-Studie und ich habe es auch in meinem Artikel Künstliche Intelligenz vs. kritische Intelligenz thematisiert: Viele Menschen neigen dazu, der KI blind zu vertrauen und dabei weniger selbst zu reflektieren oder eigene Denkleistung einzubringen (Microsoft, The Impact of Generative AI on Critical Thinking).
Auch David et al. (2021) beobachteten, dass Nutzer KI-Empfehlungen oft übernehmen, ohne sie zu hinterfragen – besonders, wenn sie mit scheinbar hoher Sicherheit präsentiert werden (David et al., 2021).
Mir persönlich macht das zu denken – denn wie Kumar und Bargavi (2024) betonen, kann diese Art der Nutzung dazu führen, dass sich Inhalte angleichen und wir unsere eigenen Denkprozesse verlernen (Kumar & Bargavi, 2024). Besonders tückisch: Die Ergebnisse der KI wirken oft überzeugend, auch wenn sie auf völlig falschen Grundlagen basieren. Der sogenannte Kluger-Hans-Effekt ist da kein seltenes Phänomen. Umso spannender finde ich die Erkenntnisse von Ma et al. (2023), die zeigen, dass Menschen mit Fachwissen viel bewusster mit KI umgehen – sie prüfen Ergebnisse kritischer und passen sie eher an (Ma et al., 2023). Vielleicht ist genau das ein wichtiger Impuls für uns beide: KI als Werkzeug zu nutzen – aber den eigenen Verstand nie aus der Hand zu geben.
2. Der Kluger-Hans-Effekt – Ursprung und Bedeutung
Ursprünglich stammt der Begriff „Kluger Hans“ von einem Pferd, das Anfang des 20. Jahrhunderts in Berlin für Aufsehen sorgte. Der Hengst Hans galt als Sensation, weil er scheinbar in der Lage war, Rechenaufgaben zu lösen, Kalenderdaten zu benennen oder sogar Buchstaben zu „buchstabieren“, indem er mit dem Huf klopfte. Sein Besitzer, der pensionierte Lehrer Wilhelm von Osten, war überzeugt, Hans habe diese Fähigkeiten durch reines Training erlernt – ganz ohne Tricks.
Erst eine wissenschaftliche Untersuchung unter der Leitung des Psychologen Oskar Pfungst brachte die Wahrheit ans Licht: Hans reagierte keineswegs auf mathematisches Verständnis, sondern auf unbewusste, minimale Körperreaktionen seines Gegenübers – wie Muskelanspannungen oder Bewegungen des Kopfes. Sobald diese Signale ausblieben, zum Beispiel wenn der Fragesteller selbst die Antwort nicht kannte, fiel Hans' Leistung deutlich ab.
Das Phänomen wurde später als „Kluger-Hans-Effekt“ bekannt und gilt bis heute als klassisches Beispiel für unbeabsichtigte Beeinflussung durch nonverbale Kommunikation – ein Prinzip, das auch im Umgang mit KI-Systemen zunehmend diskutiert wird.
Genau dieses Phänomen beobachte ich heute immer wieder bei KI-Systemen. Ein Modell liefert auf den ersten Blick beeindruckende Ergebnisse – hohe Genauigkeit, scheinbar treffsichere Vorhersagen. Doch wenn man genauer hinschaut, stellt sich manchmal heraus, dass die KI gar nicht das erkannt hat, was sie eigentlich sollte. Vielleicht kennst du das berühmte Beispiel aus der militärischen Frühphase der KI-Entwicklung: Ein System sollte deutsche und amerikanische Panzer auf Fotos unterscheiden. Anfangs lief alles hervorragend – bis man entdeckte, dass das Modell nicht die Panzer identifizierte, sondern einfach den Hintergrund. Deutsche Panzer standen meist im Wald, amerikanische in der Wüste. Was nach Intelligenz aussah, war in Wahrheit ein simpler, aber trügerischer Zusammenhang.
Solche Effekte zeigen mir, wie wichtig es ist, bei der Bewertung von KI nicht nur auf die äußere Leistung zu achten, sondern auch kritisch zu hinterfragen, warum ein System zu einer bestimmten Entscheidung kommt. Denn genau wie beim „Klugen Hans“ reicht es nicht, dass das Ergebnis stimmt – entscheidend ist, ob der Weg dorthin auch nachvollziehbar und sinnvoll war. Wenn du mit KI arbeitest oder sie nutzt, lohnt es sich, diese Perspektive im Hinterkopf zu behalten. Ein bisschen gesunde Skepsis hat noch nie geschadet.
3. Wie KI-Systeme falsch lernen
Was man als „Kluger-Hans-Effekt“ bezeichnet, begegnet uns in der Praxis besonders häufig bei zwei Arten von KI-Lernmethoden.
Beim überwachten Lernen bekommt die KI markierte Daten: zum Beispiel „Tumor“ oder „kein Tumor“. Eigentlich eine saubere Sache – wenn da nicht oft unbeabsichtigte Hinweise in den Trainingsbildern stecken würden. Eine bekannte Geschichte: Eine Hautkrebs-KI lernte Tumore nicht an der Struktur der Hautveränderung zu erkennen, sondern am Lineal, das Ärztinnen und Ärzte häufig neben auffällige Stellen legen. Das Lineal war in den Trainingsdaten eben besonders oft dort zu sehen, wo wirklich ein Tumor vorlag – also dachte die KI: „Lineal = Krebs“. Dass das Modell die falschen Merkmale gelernt hatte, fiel erst später auf.
Auch beim unüberwachten Lernen wird es heikel. Hier soll die KI selbst Muster erkennen – ohne vorher zu wissen, worauf sie achten soll. Das klingt clever, führt aber oft zu völlig schrägen Zusammenhängen. In einer Studie erkannte eine KI COVID-19 auf Röntgenbildern nicht etwa durch Hinweise in der Lunge, sondern an kleinen Schriftzeichen am Bildrand – etwa „COVID“ oder eine Seriennummer, die mit dem Fall verknüpft war. Du siehst schon: Statistische Korrelation statt medizinischer Bedeutung.
Wie ich in der Einleitung angemerkt habe, suchte ein Freund in einer deutschsprachigen KI-Anwendung nach Informationen über das US-Bildungsministerium. Die KI antwortete sinngemäß: „In den USA gibt es kein Bildungsministerium wie in den USA.“ Klingt absurd – ist aber erklärbar. Wahrscheinlich hat das Modell mehrere Dinge durcheinandergebracht: Zum einen ist in Deutschland das Bundesbildungsministerium eine zentrale Behörde – in den USA dagegen sind viele Bildungsfragen Sache der einzelnen Bundesstaaten. Zum anderen könnten frühere Trainingsdaten solche Vergleiche ungenau oder widersprüchlich formuliert haben. Und weil die KI Sprachmuster „nachahmt“, aber nicht wirklich versteht, was sie sagt, entsteht so ein Satz, der grammatikalisch korrekt wirkt – aber sachlich komplett danebenliegt.
4. Wenn wir der KI zu sehr vertrauen – was passieren kann
Ich erlebe es immer wieder: Viele verlassen sich auf KI-Ergebnisse, als wären sie objektiv, neutral und fehlerfrei. Aber gerade dieses blinde Vertrauen kann ernsthafte Folgen haben – vor allem, wenn man vergisst, dass auch KI nur so gut ist wie die Daten, aus denen sie gelernt hat.
Ein Beispiel, das mir besonders im Gedächtnis geblieben ist: In der Medizin kann ein KI-System Fehldiagnosen stellen – etwa wenn es gesunde Menschen fälschlich als infiziert einstuft, weil es in den Trainingsdaten auf irrelevante Muster geachtet hat. Stell dir vor, was das für Betroffene bedeutet – falsche Therapie, unnötige Sorgen oder sogar Behandlungsfehler. Oder nimm den tragischen Unfall mit einem autonomen Tesla: Das System erkannte einen weißen LKW vor hellem Himmel nicht – mit tödlichen Folgen. Für mich zeigt das, wie schnell Technik an ihre Grenzen stößt, wenn sie reale Situationen nicht vollständig „begreift“.
Auch gesellschaftlich wird’s heikel: Amazons Bewerbungs-KI bevorzugte über Jahre hinweg männliche Kandidaten – weil sie auf historischen Bewerbungsdaten trainiert war, in denen Männer überrepräsentiert waren. Das System hatte ungewollt bestehende Vorurteile übernommen – und dabei qualifizierte Frauen benachteiligt.
Solche Beispiele führen mir immer wieder vor Augen: KI kann gravierende Fehler machen, selbst wenn alles „logisch“ aussieht. Gerade deshalb ist es so wichtig, dass du – genau wie ich – nicht einfach hinnimmst, was ein KI-System ausspuckt, sondern kritisch bleibst und immer mal wieder hinterfragst, warum ein Ergebnis zustande kam.
5. Was du tun kannst, um KI-Fehler zu vermeiden
Vielleicht fragst du dich jetzt: Und was bedeutet das für mich im Alltag oder im Beruf? Genau das habe ich mich auch gefragt – und mir ein paar einfache, aber wirksame Strategien unter Self Verification zurechtgelegt, die ich dir gern mitgeben möchte:
- Schau genau hin, was die KI sagt. Verlass dich nicht einfach blind auf ein Ergebnis – auch wenn es auf den ersten Blick überzeugend wirkt. Ich prüfe kritische KI-Ausgaben grundsätzlich doppelt: durch eine Kollegin, einen Experten oder einfach durch Nachrechnen mit gesundem Menschenverstand. Oft fallen kleine Ungenauigkeiten erst dann auf, wenn man bewusst hinschaut und nicht alles für bare Münze nimmt.
- Setz auf erklärbare KI – also auf Systeme, die dir zeigen, wie sie zu ihrem Ergebnis gekommen sind. Es lohnt sich, Anwendungen zu wählen, die dir offenlegen, welche Merkmale oder Faktoren bei der Entscheidung besonders wichtig waren. Ganz praktisch kannst du auf Folgendes achten:
- Nutze Tools, die ihre Entscheidungen kommentieren oder begründen. Wenn ein System zum Beispiel sagt, eine Bewerbung sei „ungeeignet“, sollte es dir auch erklären, warum.
- Achte auf Zusatzinformationen wie Einschätzungen zur Verlässlichkeit („hohe Wahrscheinlichkeit“, „unsicheres Ergebnis“) oder Hinweise, welche Merkmale ausschlaggebend waren.
- Wenn du mit Chatbots oder Text-KI arbeitest: Frag einfach nach. Ich schreibe zum Beispiel oft zurück: „Warum hast du das so eingeschätzt?“ oder „Worauf basiert diese Antwort?“ – und bekomme oft eine nachvollziehbare Erklärung.
- Und wenn dir etwas merkwürdig vorkommt, hör auf dein Bauchgefühl. Gute KI kann ihre Entscheidungen zumindest grob erklären. Schlechte versteckt sich hinter Fachbegriffen oder bleibt vage.
- Achte auf gute Trainingsdaten. Wenn ich ein KI-System einsetze oder bewerte, frage ich mich immer: Ist das System mit vielfältigen, ausgewogenen Daten trainiert worden – oder spiegelt es eher einseitige Sichtweisen?Besonders bei sensiblen Themen wie Personalentscheidungen oder medizinischen Fragen ist das entscheidend. Nur wenn die Daten fair und breit aufgestellt sind, kann auch die KI faire Entscheidungen treffen.
- Lass den Menschen mitentscheiden. So hilfreich KI auch sein kann – ich nutze sie immer als Unterstützung, nie als alleinige Entscheidungsinstanz. Am besten funktioniert es, wenn KI Vorschläge macht und wir als Menschen dann nochmal prüfen: Passt das wirklich? Diese Kombination aus maschineller Effizienz und menschlichem Urteilsvermögen ist meiner Erfahrung nach unschlagbar.
Quellen:
Die im Artikel genannten Studien und Beispiele basieren auf aktuellen wissenschaftlichen Arbeiten zum sogenannten Kluger-Hans-Effekt im Kontext von Künstlicher Intelligenz, unter anderem aus psychologischer und technischer Perspektive. Weitere Beispiele stammen aus dokumentierten Fällen der Praxis: etwa der bekannt gewordene Fall der fehlerhaften Bewerbungs-KI bei Amazon (2018), bei der weibliche Bewerbungen systematisch benachteiligt wurden, oder ein Unfall mit einem Tesla-Fahrzeug im autonomen Modus, bei dem ein weißer LKW übersehen wurde. Auch Forschungsinstitute wie die Technische Universität Berlin beschäftigen sich intensiv mit erklärbarer KI und den Risiken intransparenten Maschinenlernens. Ergänzend wurden Einsichten aus aktuellen Studien zu Vertrauen, Fehlwahrnehmung und kritischem Denken bei KI-Systemen verwendet, etwa von Microsoft (The Impact of Generative AI on Critical Thinking, 2023).