Daten, Menschen und die Spannungsfelder dazwischen

Der Artikel gibt einen Überblick über die Entstehung von Sprachmodellen, beginnend mit der Datenbeschaffung bis zur Veröffentlichung. Es wird erläutert, wie Daten in ein großes Sprachmodell gelangen, die Rolle menschlicher Entscheidungen und die Spannungsfelder zwischen technischen und ethischen Aspekten. Zudem wird die Bedeutung des stochastischen Raums und der Einfluss von Datenqualität auf die Modellleistung thematisiert, einschließlich der Herausforderungen bei der Datenaufbereitung und der Notwendigkeit von Schutzmechanismen gegen problematische Inhalte.

Ich habe immer wieder festgestellt, dass viele Menschen zwar mit großen Sprachmodellen arbeiten, aber nur eine vage Vorstellung davon haben, wie diese Systeme eigentlich entstehen. In diesem Artikel möchte ich dir einen Überblick geben, der vom ersten Datensatz bis zur Veröffentlichung reicht. Wir sehen uns an, wie Daten in ein LLM gelangen, wer daran arbeitet, wie diese Daten verarbeitet und bewertet werden – und welche Spannungsfelder und Entscheidungen den Weg zur finalen Version prägen. Dabei geht es sowohl um die technische Seite als auch um die menschlichen Einflüsse, die bestimmen, was ein Modell später ausgibt – und was es nicht ausgibt. Immer wieder werden wir dabei auf den sogenannten stochastischen Raum stoßen: jene probabilistische Umgebung, in der Sprach- und Bildausgaben Schritt für Schritt entstehen, und in der sich technische Verfahren und menschliche Entscheidungen untrennbar miteinander verbinden.

Bevor wir uns mit den Mechanismen der Ausgabe beschäftigen, lohnt es sich, den Blick auf den Beginn dieses Prozesses zu richten: den Moment, in dem Daten überhaupt in ein Modell gelangen. Denn hier, in der Auswahl, Strukturierung und Gewichtung des Materials, wird bereits der Grundstein gelegt für alles, was später im stochastischen Raum entstehen kann.

Die Fütterung – Woher die Daten kommen

60% der Deutschen, möglicherweise mittlerweile sogar mehr, geben mindestens privat etwas in ein Large Language Model wie JetGBT ein. Manchmal sind sie zufrieden mit dem Ergebnis, oft jedoch nicht – und genau daraus ergeben sich Gespräche mit meinen Klienten. Es sich, die Funktionsweise und den Aufbau eines solchen Modells zu verstehen. Denn wenn wir uns Gedanken darüber machen, was ein LLM ausgibt, lohnt es sich ebenso, ein paar Dinge darüber zu wissen, was hineingegeben wird und wie diese Daten verarbeitet werden.

Mit diesem Artikel möchte ich dir zeigen, wie ein LLM strukturiert ist und arbeitet, und so einen Rahmen schaffen, in dem sich auch deine eigenen Erfahrungen damit einordnen lassen. Wer das wirklich wissen will, könnte dabei einige Überraschungen erleben – und möglicherweise auch die eine oder andere Enttäuschung darüber, was ein LLM im Kern eigentlich ist. Auffällig ist, dass ich in diesem Zusammenhang nur selten von „künstlicher Intelligenz“ spreche, weil wir an anderer Stelle erst einmal definieren müssen, was wir darunter verstehen. Interessant ist dabei auch, was Persönlichkeiten wie Sam Altman, Peter Thiel oder Elon Musk unter diesem Begriff verstehen – dazu findest du im Verlauf des Artikels, oder an anderer Stelle, weitere Hinweise.

Manche denken an etwas, das einer Datenbank ähnelt, oder an eine Software, die man schlicht mit Inhalten „füllt“. Vielleicht erinnerst du dich an das Prinzip in Microsoft Excel: In eine Zelle trägst du einen Wert ein, in eine andere den nächsten, und in einer dritten lässt du die Summe berechnen. Es ist ein klarer, linearer Ablauf. Ein LLM hingegen arbeitet anders. Es verarbeitet unzählige, vielfältige Beispiele und bildet daraus ein dichtes Netz statistischer Verbindungen – ein Fundament für neue, kontextgerechte Antworten.

Am ehesten lässt es sich mit dem Sprachenlernen vergleichen: Du hörst, liest, siehst Bilder und verknüpfst diese Eindrücke zu Bedeutungen. Ein LLM entwickelt innere Strukturen, die es ihm erlauben, aus gelernten Mustern neue Formulierungen zu bilden.

Für GPT‑3 griff OpenAI auf eine breite Mischung frei zugänglicher Quellen zurück – umfangreiche Textsammlungen, Webseiten, Foren, Bücher, Code-Repositories. Mit zunehmender Modellgröße und dem Anspruch auf mehr Vielfalt und Qualität zeigte sich jedoch: Vieles war ausgeschöpft, weiteres wertvolles Material nicht frei verfügbar. Fehlen frische, vielfältige Daten, stagniert das Modell – wie eine Lernende, die immer denselben Text liest. In diesem Moment mussten die Teams gezielt neue Quellen erschließen.

Sie intensivierten ihre Suche: Daten-Dumps – also vollständige Kopien großer Datenbestände aus einer Quelle – und gespiegelte Foren, bei denen komplette Inhalte von Diskussionsplattformen auf andere Server übertragen werden, um sie unabhängig vom Original zu nutzen, dazu Programmierhandbücher und Lehrmaterialien kamen hinzu. Für GPT‑4 wurde eine Quelle genutzt, die in ihrer Dimension und Brisanz hervorsticht – über eine Million Stunden YouTube-Videos, transkribiert mit Whisper. Ich vermute mal, dass die Entscheidungsverantwortlichen dieses Risiko einkalkulierten und zugleich annahmen, Google würde nicht eingreifen.

Ein besonderer Augenblick war Bill Gates’ Herausforderung an OpenAI im Sommer 2022, ein Modell zu entwickeln, das die komplexe AP‑Biology-Prüfung besteht (Forbes, 6. Februar 2023). Diese Begegnung war weit mehr als eine technische Demonstration: Sie fand in einer Phase statt, in der Microsoft – seit 2019 mit milliardenschweren Investitionen eng mit OpenAI verbunden – vor der Entscheidung stand, sein Engagement erheblich auszuweiten. Gates war als Mitbegründer von Microsoft präsent und zugleich die erste Person außerhalb von OpenAI, die das neue Modell in Aktion sah (Benzinga, 10. April 2023).

Gates hatte sich von früheren Modellversionen nie vollständig beeindrucken lassen und betont, dass für ihn der Nachweis wissenschaftlicher Leistungsfähigkeit entscheidend sei (Gates Notes, 21. März 2023). Die AP‑Biology-Prüfung umfasst Faktenwissen und fordert zusätzlich die Analyse biologischer Konzepte, deren Verknüpfung und Anwendung auf neue Problemstellungen. Für die Demonstration griff OpenAI auf umfangreiche Fragen- und Antwortkataloge der Khan Academy zurück (The 74 Million, 23. Februar 2024). Wenige Monate später trat GPT‑4 zu einer simulierten Prüfung an, beantwortete 59 von 60 Multiple-Choice-Fragen korrekt und formulierte sechs offene Antworten so überzeugend, dass ein unabhängiger Gutachter die Höchstnote „5“ vergab (Gates Notes, 21. März 2023).

Für Gates war dies ein beeindruckender Beleg, und genau hier knüpft mein nächster Gedanke an. Diese Erfahrung bildet für mich den Ausgangspunkt, den Begriff 'Stochastic Parrot' einzuführen – ein Konzept, das mir in vielen Gesprächen immer wieder begegnet ist, wenn es um die Frage geht, ob ein Modell tatsächlich wissenschaftlich arbeitet oder lediglich zuvor gelernte Muster präzise reproduziert. An diesem Punkt möchte ich dich als Lesende*r einladen, gemeinsam mit mir diesem Begriff nachzugehen und seine Bedeutung genauer zu betrachten.

Der Begriff wurde 2021 von Emily Bender, Timnit Gebru, Angelina McMillan-Major und Margaret Mitchell geprägt (Bender et al., 2021). Er bezeichnet ein System, das gewaltige Textmengen verarbeitet, statistische Muster erkennt und daraus sprachlich plausible Formulierungen generiert – ohne dass dabei ein eigenes Verständnis der Inhalte entsteht. An dieser Stelle möchte ich dir auch die Einführung in die KI von Melanie Mitchell ans Herz legen, die einen fundierten Überblick über diese Thematik bietet. In einem eigenen Blogartikel habe ich dieses Buch genauer vorgestellt. Dieser Zusammenhang verdeutlicht, dass hohe Leistungen in Prüfungen auf präziser Mustererkennung basieren und nicht auf echter Analyse.

Bei den Bildmodellen DALL‑E 1 bis 3 folgte der Weg einem ähnlichen Muster: Verwendet wurde lizenziertes Material aus Shutterstock, ergänzt um gescrapte Bilder aus Twitter. Der Name „DALL‑E“ selbst geht auf eine Wortschöpfung zurück, die den Künstler Salvador Dalí und den Roboter WALL‑E aus dem gleichnamigen Pixar‑Film kombiniert – eine Anspielung auf die kreative und zugleich technische Natur der Bildgenerierung.

Nach verschiedenen Berichten und Dokumentationen, etwa internen OpenAI-Memos und Medienberichten wie von MIT Technology Review oder The Verge, sowie anhand einzelner veröffentlichter Beispiele für problematische Inhalte, befanden sich in den gesammelten Daten auch problematische Kategorien – unter anderem sexualisierte oder gewalthaltige Inhalte. Ich habe selbst eine Weile gebraucht, bis mir klar wurde, wie ein LLM tatsächlich mit Daten gefüttert wird. In meiner anfänglichen Naivität ging ich davon aus, es handle sich dabei um einen sehr elaborierten, wissenschaftlichen und intellektuellen Prozess. Dass in der Praxis schlicht alles, was sich digital verarbeiten lässt, zusammengetragen und gescrapt wird – mit all den problematischen Inhalten, die sich darin finden –, war mir zu Beginn nicht bewusst. Eine vollständige Entfernung solcher Inhalte erfolgte nicht, da befürchtet wurde, ein zu starker Eingriff könne die Modellqualität beeinträchtigen. Gemeint ist damit, dass durch das Entfernen bestimmter Daten auch visuelle oder inhaltliche Muster verloren gehen könnten, die für die Vielseitigkeit und Genauigkeit der Modellergebnisse relevant sind. Ein reduzierter oder einseitiger Trainingsdatensatz kann dazu führen, dass das Modell bei der Erkennung oder Darstellung bestimmter Inhalte weniger präzise arbeitet oder ein unausgewogenes Verständnis von Bild- und Textkontexten entwickelt.

Als Reaktion darauf kommen nachgelagerte Schutzmechanismen zum Einsatz – Filter, Moderationssysteme und Nutzungsbeschränkungen –, um problematische Ausgaben zu verhindern. Aus verschiedenen Berichten geht hervor, dass es bei OpenAI, wie auch in anderen Unternehmen, offensichtlich zwei Fraktionen gibt: die sicherheitsorientierten und die anwendungsorientierten. Zwischen beiden scheint es immer wieder Spannungen zu geben, wenn es um die Frage geht, wer sich bei der Veröffentlichung einer KI durchsetzt.

Wenn ich diesen Gedanken weiterspinne, führt er mich direkt in den nächsten Abschnitt, in dem wir uns ansehen, wie solche Maßnahmen in den folgenden Entwicklungs- und Anwendungsphasen der Modelle umgesetzt und Schritt für Schritt verfeinert wurden.

Die Formung – Wie Rohdaten zu einem Modell werden

Das Pretraining – der erste große Lernschritt eines Sprach- oder Bildmodells – ist ein mehrstufiger statistischer Lernprozess. Milliarden von Text- und Bildbeispielen werden durch den sogenannten Transformer verarbeitet, ein spezielles neuronales Netzwerk, das 2017 von Google-Forschenden entwickelt wurde und heute als Standardarchitektur für LLMs gilt. Der Name hat nichts mit den Filmrobotern zu tun, sondern beschreibt die Fähigkeit, Eingabesequenzen durch Mechanismen der „Aufmerksamkeit“ (Attention) so zu transformieren, dass relevante Muster, Strukturen und Zusammenhänge sichtbar werden.

Ziel ist es, eine innere Repräsentation der Welt in Sprache, Bildern und deren Verknüpfungen zu entwickeln. Es ist damit vergleichbar mit dem Unterschied, ob man Schillers „Glocke“ nur auswendig lernt oder ob man versteht, wie ein Gedicht überhaupt geschrieben wird: Das eine ist reines Wiedergeben von Gelerntem, das andere ein tiefes Erfassen von Form, Struktur und Bedeutung, um daraus eigenständig Neues zu gestalten.

Um vom Schiller-Beispiel einen klaren Bogen zum Excel-Beispiel zu schlagen in Abschnitt 1 kann also eine Datenbank, eine Tabelle, Zeile für Zeile Schillers "Glocke" aufnehmen und du kannst sie auch nachlesen und gewisse Veränderungen vornehmen. Du kannst im Abschluss aber von dieser Tabelle nicht erwarten, dass sie in der Lage ist, selbstständig Neues zusammenzusetzen oder eigene kreative Ideen zu entwickeln für ein neues Gedicht. Eine eigene Idee entwickelt auch ein LLM nicht. Das ist zumindest das worüber wir diskutieren können. Was es aber kann ist: Es kann jeden einzelnen Baustein, jeden Token, also zum Beispiel Buchstaben oder Buchstabenketten, in einer neuen Aneinanderkettung zusammensetzen, die dann für uns Lesenden meistens einen Sinn ergeben. Aber, wie du möglicherweise schon öfter festgestellt hast, nicht immer.

An dieser Stelle knüpfe ich einen persönlichen Rückblick an, um den Gedankengang weiterzuführen: In meiner Ausbildung zum Sozialpädagogen in den späten Siebzigern beschäftigten wir uns intensiv mit der frühen Wahrnehmung von Kindern – und es war verblüffend zu sehen, wie lernfähig sie in diesem Punkt sind. Erkenntnisse von Robert Fantz aus den 1960er-Jahren, insbesondere zur Methode des „preferential looking“, belegen, dass Säuglinge längere Blickzeiten auf wechselnde Reize richten und damit Unterschiede wahrnehmen können. Dieser Gedanke führt direkt zur Frage, wie Lernprozesse – ob bei Menschen oder bei KI-Systemen – durch gezielte Reizauswahl beeinflusst werden.

Auf dieser Grundlage entwickelten sich in den folgenden Jahrzehnten differenziertere Untersuchungen, darunter die Studie von Quinn und Eimas (1996): Sie präsentierten dreieinhalb- bis viermonatigen Säuglingen gezielt Katzen- und Hundegesichter und fanden heraus, dass bereits eine Handvoll (etwa zwölf) unterschiedliche Katzengesichter genügt, damit die Kinder später unbekannte Katzen von Hunden unterscheiden konnten – selbst dann, wenn nur die Köpfe und nicht der gesamte Körper zu sehen waren.

Was ich noch nicht herausgefunden habe, ist, ob die Kinder, die in den 90er Jahren als Säuglinge mit Katzenfotos konfrontiert worden sind, später diejenigen waren, die auf Facebook damit begonnen haben, permanent Katzenfotos zu posten. Das soll ein Thema für einen anderen Artikel sein.

Für ein KI-System ist dieser Lernweg ungleich mühsamer. Während ein Kind nur wenige gezielt ausgewählte Beispiele braucht, um den Begriff „Katze“ zu bilden, muss ein Computerprogramm zunächst Millionen von Bildern durchsehen, um sich ähnliche Fähigkeiten anzueignen. Dafür werden sogenannte Bildmodelle entwickelt – mathematische Strukturen, die Muster in Bildpunkten erkennen und diese Muster mit einem Begriff verknüpfen. Eines der bekanntesten Trainingsprojekte dafür heißt „ImageNet“: ein riesiger Katalog mit über 1,2 Millionen Bildern, sortiert in tausend verschiedene Kategorien, darunter auch „Katze“. In klassischen Projekten bekam das Programm pro Kategorie rund tausend verschiedene Bilder zu sehen.

Ausgehend von diesen klassischen Projekten und den dort gewonnenen Erkenntnissen gehen Forschende und Entwicklerinnen bzw. Entwickler in den großen KI-Labors heute noch weiter: Moderne Systeme wie CLIP oder Vision-Transformer werden vorab mit Hunderten Millionen oder sogar Milliarden von Bild-Text-Paaren gefüttert – also Bildern, zu denen jeweils eine kurze Beschreibung gehört. Erst durch diese gewaltige Menge an Beispielen kann ein solches System auch unbekannte Katzenbilder zuverlässig einordnen. Die Frage, die am Ende bleibt – und die wir gerne diskutieren können – ist: Erkennt die KI dann wirklich eine Katze? Oder erkennt sie nur ein statistisches Muster, das ihr zufällig ziemlich katzenartig erscheint?

Diese Phase legt das Fundament für alles, was das Modell später kann. Jede Entscheidung bei der Datenaufbereitung wirkt sich direkt auf die Art aus, wie das Modell Sprache und Bilder interpretiert und erzeugt. Viele Menschen, mit denen ich zu Beginn – lange bevor sich die Systeme in diesem Punkt verbessert haben – der ersten Veröffentlichung von GPT-3.5 gearbeitet habe, waren sehr unglücklich darüber, dass erzeugte Grafiken fehlerhafte Schriftzüge enthielten – sei es in Rechtschreibung oder Grammatik. Ich habe dann immer wieder darauf hingewiesen, dass ein LLM dafür kein Erkennungsmerkmal besitzt: Es kann in diesem Sinne nicht lesen und deshalb auch nicht schreiben.

Wer vor kurzem erst angefangen hat, sich mit einem LLM zu beschäftigen, ist fein raus, weil es in den allermeisten Fällen Schrift jetzt richtig interpretiert, als Dateneinheit und auch korrekt in Grafiken einbringt. Aber eben auch nicht immer.

Die Kontrolle – Wie die Ausgabe gesteuert wird

Nach dem Pretraining ist das Modell zwar in der Lage, komplexe Sprache zu erzeugen, doch in den frühen Entwicklungsphasen großer LLMs zeigte sich, dass es ohne weitere Anpassung oft unvorhersehbar reagierte und Antworten generierte, die inhaltlich fehlerhaft, widersprüchlich oder unangemessen waren. Teilweise traten logische Brüche auf, es wurden erfundene Fakten erzeugt – ein Phänomen, das du vielleicht unter dem Begriff „Halluzinationen“ kennst – oder es kam zu unerwarteten thematischen Abschweifungen, die dir aus deiner eigenen Arbeit mit LLMs womöglich vertraut sind.

In einigen Fällen führten Fehler sogar zu gravierenden Ausgaben, etwa falschen mathematischen Vorzeichen oder Rechenoperationen, die das Ergebnis ins Gegenteil verkehrten. Solche Unstimmigkeiten reichten von irritierenden Formulierungen bis zu Ausgaben, die inhaltlich oder formal völlig aus dem Rahmen fielen. Um diese Probleme zu reduzieren und das Verhalten in den gewünschten Rahmen zu lenken, setzt an diesem Punkt das Reinforcement Learning from Human Feedback (RLHF) an.

KI-Modelle lernen ihr Antwortverhalten durch menschliche Rückmeldungen zu verfeinern. In dieser Phase – Reinforcement Learning from Human Feedback, kurz RLHF – beurteilen Menschen Antworten nach Kriterien wie Hilfreichkeit, Relevanz, Korrektheit und Angemessenheit. Das kann in sehr formalen Arbeitsumgebungen geschehen, etwa bei Crowdworkerinnen und Crowdworkern, die gezielt Modellantworten vergleichen. Aber es passiert auch in Alltagssituationen, in denen viele von uns unbemerkt mitwirken: wenn du in einem Captcha-Fenster alle Bilder mit Ampeln markieren sollst, wenn du nach einer Online-Konversation gefragt wirst, ob die Antwort hilfreich war, oder wenn eine Plattform dir zwei Textversionen zeigt und dich bittet, die bessere zu wählen. All diese Bewertungen erzeugen Belohnungssignale, die in einer zusätzlichen Trainingsphase genutzt werden, um das Modell gezielt zu justieren – damit es künftig bestimmte Anfragen besser beantworten oder auch bewusst verweigern kann.

Doch dieser Lernweg hat auch eine verborgene Seite, die selten im Rampenlicht steht. Ein erheblicher Teil dieser Bewertungsarbeit wird in Ländern geleistet, in denen die Löhne deutlich niedriger sind und soziale Absicherung oft fehlt. In Ghana und Venezuela bearbeiten Teams große Mengen englischsprachiger Texte, um Modellantworten zu bewerten oder problematische Inhalte zu kennzeichnen. In Indien wiederum wird ein erheblicher Teil der Bildannotation und des visuellen Reinforcement-Trainings durchgeführt – dort markieren Menschen stundenlang, was auf Fotos zu sehen ist, oder prüfen Pixel für Pixel, ob ein Objekt korrekt erkannt wurde. Diese Arbeit geschieht häufig unter großem Zeitdruck, mit wiederholter Konfrontation mit verstörenden Inhalten und ohne ausreichende psychologische Unterstützung. Der Lohn liegt oft nur bei wenigen US-Dollar pro Stunde, manchmal darunter, selbst bei komplexen Aufgaben, die hohe Konzentration und emotionale Belastbarkeit erfordern.

Und auch wenn diese Arbeit entscheidend ist, stößt sie irgendwann an Grenzen: An einem bestimmten Punkt braucht es Fachwissen, das nur ausgebildete Spezialistinnen und Spezialisten einbringen können. So haben Ärztinnen, Journalisten, Vertriebler oder Werbefachleute selbst Texte verfasst, die sie für gelungen hielten – und diese wurden als besonders wertvolle Beispiele ins System eingespeist, damit es ein noch präziseres Gespür dafür entwickelt, welche Formulierungen, Argumentationsweisen und inhaltlichen Strukturen später als hochwertig gelten sollen.

Es ist ein Teil der Realität moderner KI-Entwicklung, dass die scheinbare Leichtigkeit einer gut formulierten Antwort oder einer präzisen Bilderkennung auf einem hohen menschlichen Preis beruht – einem Preis, der von jenen getragen wird, deren Namen kaum jemand kennt.

Mich beschäftigt dabei ein Gedanke, der schon bei Robert Anton Wilson auftaucht: What the thinker thinks, the prover proves. Übertragen auf diesen Prozess heißt das, dass die Menschen, die Modellantworten bewerten, unweigerlich ihre eigenen Vorstellungen davon einbringen, was richtig, relevant oder hilfreich ist. Auch wenn sie Bewertungsleitfäden befolgen, fließen persönliche Maßstäbe, kulturelle Prägungen und situative Einschätzungen in jede Entscheidung ein. So entsteht ein Filter, in dem subjektive Urteile zu objektiven Trainingssignalen werden.

Am Ende lernt das Modell aus einer Vielzahl individueller Sichtweisen darauf, was als „gute“ oder „schlechte“ Information gilt – und damit eben auch aus den Überzeugungen derer, die diese Urteile fällen. Es gibt inzwischen eine Reihe umfangreicher Studien, die untersuchen, wie stark dieser Einfluss auf das Verhalten großer Sprachmodelle bereits ist. Das ist ein ernstzunehmendes Thema, mit dem ich mich an anderer Stelle intensiver beschäftigen möchte – auch, weil es hochpolitisch ist, zu verstehen, zu welchen Ausgaben und zu welchem Antwortverhalten ein Modell durch dieses Reinforcement tatsächlich gezwungen wird.

Für Produktteams ist RLHF ein Werkzeug zur Verbesserung der Nützlichkeit und Verständlichkeit. Für Sicherheitsteams ist es ein Mittel, Risiken zu reduzieren, etwa bei der Verhinderung von Hassrede, Desinformation oder illegalen Inhalten.

Ergänzt wird diese Formung des Modells durch technische Filter: automatische Erkennung problematischer Inhalte, Blockierung sensibler Schlüsselwörter, Bild- und Textfilter, sowie Sperrmechanismen bei wiederholten Verstößen. Bei den Bildmodellen wurden zunächst gezielt Funktionen unterbunden, beispielsweise das Erzeugen fotorealistischer Gesichter oder das Bearbeiten von Fotos mit erkennbaren Gesichtern, um Missbrauch zu verhindern.

Bevor ich zum nächsten Abschnitt überleite, möchte ich dir noch einen Gedanken mitgeben: Wenn wir über das sprechen, was ein LLM ausgibt, lohnt es sich ebenso, den sogenannten stochastischen Raum zu verstehen – die Umgebung, in der mithilfe eines Zufallsgenerators Text und Bild generiert werden. Dazu habe ich einen eigenen Blogartikel verfasst. Darin zeige ich, wie LLMs Wahrscheinlichkeiten nutzen, um Wort für Wort oder Pixel für Pixel Entscheidungen zu treffen, und wie sich diese Prozesse auf Plausibilität, Kreativität und Fehlerrisiken auswirken. Dieses Verständnis ist die Brücke zum nächsten Abschnitt, in dem wir uns genauer ansehen, wie technische und methodische Rahmenbedingungen das Verhalten eines Modells formen.

Spannungsfelder

Wenn ich heute auf die Prozesse blicke, die ein Sprachmodell mit Daten versorgen und seine Ausgaben steuern, erkenne ich, wie stark sie in Zielkonflikte eingebettet sind. OpenAI wurde ursprünglich als Non‑Profit‑Organisation gegründet, mit dem Anspruch, eine KI zu entwickeln und allen zugänglich zu machen – als Gemeingut.

Der Anspruch, schnell zu liefern, Marktanteile zu sichern und technologische Führungspositionen auszubauen, steht heute neben der Verpflichtung, Risiken zu erkennen, Missbrauch zu verhindern und den im Non‑Profit‑Charter verankerten Gemeinwohlauftrag einzuhalten. Diesen Zielkonflikt habe ich erst verstanden, als ich mir die strukturelle Entwicklung von OpenAI genauer angesehen habe. 2019 änderte sich die Struktur grundlegend: Mit der Einführung des „capped‑profit“-Modells entstand die Möglichkeit, Kapital in Milliardenhöhe – unter anderem von Microsoft – einzuwerben. Seither existieren der Non‑Profit‑Mutterverein und die gewinnbegrenzte Kapitalgesellschaft parallel, was die Spannungsfelder zwischen gemeinwohlorientierten Zielen und marktorientierten Erwartungen deutlich verschärft.

In der Arbeit mit DALL‑E 2 zeigte sich dieser Konflikt konkret. Sicherheitsorientierte Teams warnten vor möglichen Deepfakes, synthetischer CSAM und politischer Manipulation und drängten auf weitere Tests. Anwendungsorientierte Teams wollten reale Nutzerinnen und Nutzer früh einbeziehen, um Sicherheitssignale zu gewinnen. In solchen Situationen begegnet man den „Boomern“ und „Doomern“: Die einen drängen auf schnelle, sichtbare Markteinführung, oft mit wirtschaftlichem Ziel; die anderen plädieren für umfassende Prüfungen, inklusive unabhängiger Sicherheitschecks, bevor ein Release erfolgt.

Das Ergebnis war ein „low‑key research preview“ mit harten Blockern wie dem Verbot fotorealistischer Gesichter und Face‑Edits sowie ergänzenden Schutzmechanismen. Doch der Wettbewerb – etwa durch Midjourney und Stable Diffusion – erhöhte den Druck, Beschränkungen zügig zu lockern. Gleichzeitig wuchsen strategische Spannungen durch die Partnerschaft mit Microsoft und die Arbeit des Deployment Safety Board, das zwischen Führungsanspruch, Beschleunigungsrisiken und Wettbewerbsvorsprung abwägen musste.

Jede Entscheidung über die Datenauswahl und die Gestaltung der Ausgabekontrollen ist eine Gratwanderung. Sie reicht von der Lizenzierung und dem großflächigen Scrapen bis zur Frage, ob riskante Inhalte im Korpus verbleiben, um die Modellleistung zu erhalten. Bei den Bildmodellen wurden pornographische Inhalte zunächst reduziert, später teilweise wieder zugelassen, um Qualitätseinbußen bei der Abbildung von Gesichtern zu vermeiden. Das führte zu erhöhtem Moderationsaufwand, einer „Ban‑Infrastruktur“ und externer Prüfung.

Unter Markt- und Skalierungsdruck setzte das Management die vorgelagerte Entwicklerprüfung aus – vergleichbar damit, eine finale Qualitätskontrolle zu überspringen – und verlagerte sich stärker auf RLHF, also das Anpassen des Modells durch menschliches Feedback, sowie auf reaktive Durchsetzung. Weil aus Dritt‑Apps nur wenige Nutzungsdaten („Telemetrie“) vorlagen, fehlten wichtige Hinweise darauf, wie und wo das Modell problematische Inhalte erzeugen könnte. In der Praxis bedeutete das zum Beispiel, dass bei schwachen Schutzmechanismen („Guardrails“) vereinzelt Texte oder Bilder entstanden, die heikle politische Parolen enthielten oder gesellschaftlich sensible Themen in unpassender Weise darstellten. Solche Fälle zeigen, wie präzise das Zusammenspiel aus Ausrichtungsprinzipien (Alignment), Richtlinien, technischen Filtern, laufender Überwachung und manueller Moderation austariert werden muss.

Die Spannungen begleiten den gesamten Lebenszyklus eines Modells – von der Datensammlung über die technische Formung bis hin zur Interaktion mit Menschen. Sobald die leicht zugänglichen Textquellen weitgehend ausgeschöpft waren, rückten zusätzliche Datenarten in den Vordergrund, etwa Bilder, Videos und Audiodateien. Große Mengen an YouTube‑ und Podcast‑Material wurden transkribiert, um frischen Text zu gewinnen – ähnlich wie wenn man eine alte Bibliothek um neue Abteilungen für Filme und Tonaufnahmen erweitert. Diese Strategie brachte neues Wissen ins System, öffnete aber zugleich die Tür zu rechtlichen Streitfragen (Urheberrechte, Nutzungsbedingungen) und reputativen Risiken, wenn Inhalte ohne Zustimmung der Urheber genutzt wurden. Heute sehen wir, dass solche Entscheidungen immer auch von internen Faktoren abhängen: Wer entscheidet, welche Datenquellen verwendet werden, wie die Freigabeprozesse aussehen, und welche Prüfungen vor einer Veröffentlichung stattfinden.

Hinzu kommen unterschiedliche Forschungskulturen und Haltungen – von jenen, die vor existenziellen Risiken warnen und auf Sicherheit pochen, bis zu jenen, die auf Geschwindigkeit setzen, um Marktchancen zu nutzen. Diese Spannungen wirken direkt auf die Prioritäten und Zeitpunkte, zu denen ein Modell neue Fähigkeiten oder Versionen erhält.

Wer sich damit beschäftigt, erkennt: Die Antworten eines Sprachmodells entstehen nicht nur aus Algorithmen, sondern aus einem Geflecht bewusster Entscheidungen über Datenzugang, Schutzmaßnahmen, Veröffentlichungstakte und Verantwortlichkeiten – und damit aus einem Spannungsfeld von Wertungen, Ressourcen, Wettbewerb und politischer Deutung.

Wenn Du das nächste Mal ein LLM-Ergebnis liest – ob Text, Bild oder Antwort – spüre hinein, welchen unsichtbaren Faden es trägt: Was könnte dahinter an Daten, Abwägungen, Entscheidungen und Spannungsverhältnissen stecken? Und wenn Du Lust hast: Denk einen Schritt weiter. Erkunde, wie diese Technologie geprägt wird.