Der Übergang von statischen Sprachmodellen zu World Models markiert einen Paradigmenwechsel in der KI, wobei World Models physikalische Prozesse und Zustände vorhersagen, anstatt nur Texte zu verarbeiten. Während Large Language Models beeindruckende Fortschritte in der Sprachverarbeitung zeigen, stoßen sie an Grenzen, wenn es um komplexe, dynamische Umgebungen geht. Die Entwicklung hin zu World Models erfordert ein tiefes Verständnis von Zuständen und Dynamiken, was neue Anforderungen an menschliche Fähigkeiten stellt. Die ersten Anwendungen werden in Bereichen wie Robotik, Simulation und Geospatial Intelligence erwartet, wobei die Herausforderungen in der Zuverlässigkeit und der Integration in reale Systeme bestehen bleiben.

World-Modelle - Zwischen Fortschritt und Erwartung

Der Paradigmenwechsel

Die statische lineare Webpräsenz und die lineare Arbeit mit und im Web geht zu Ende. In den vergangenen Monaten ist dir sicherlich aufgefallen, dass Google in der Zwischenzeit eine KI-gestützte Zusammenfassung deiner Suchanfrage als erstes darstellt. Falls du selbst über eine Webpräsenz verfügst, kannst du dich natürlich mal fragen, was da auf dich zukommt oder mindestens zukommen kann. Wenn wir uns einig sind, dass Websites zu Systemen werden, die reagieren, sich anpassen, die Absichten des Betrachtenden erkennen und ganze Prozesse orchestrieren, dann können wir diese Art des Denkens mal übertragen auf die Arbeit mit der KI insgesamt.

Diese Bewegung vollzieht sich in der künstlichen Intelligenz selbst. Large Language Models sind in ihrer jetzigen Form rasend schnelle Übergangstechnologien – ein Trainingsprogramm für etwas Grundlegenderes.

Wenn du gelernt hast, präzise mit ihnen zu arbeiten, hast du bereits einen entscheidenden Übergang vollzogen: vom statischen Muster zum dynamischen Modell. Textverarbeitungsprogramme, Datenbanken, CRM-Systeme – sie alle reagieren auf fixierte Befehle. Large Language Models verlangen etwas anderes: Sie fordern dich auf, Aufgaben nicht als Anweisungen zu formulieren, sondern als Denkräume zu eröffnen.

Von der reinen Textkorrektur zur intellektuellen Auseinandersetzung.

Wenn du diesen Schritt gegangen bist, hast du wahrscheinlich miterlebt : Die nächste Stufe verlangt komplexes, vernetztes, kreatives Denken. Und die Fähigkeit, genau solche Aufgabenstellungen zu entwickeln und zu vermitteln.

Doch selbst mit dieser Fähigkeit stoßen wir an eine Grenze: Sprachmodelle können beschreiben, analysieren, argumentieren – aber sie können nicht voraussagen, was geschieht, wenn ein Roboterarm zugreift, wenn ein autonomes System navigiert, wenn physikalische Prozesse ineinandergreifen. Hier endet die Welt der Worte. Hier beginnt die Welt der Zustände. Genau dort setzen World Models an.

Von Worten zu Welten

Ein Large Language Model sagt das nächste Wort vorher. Ein World Model sagt den nächsten Zustand vorher. Nimm dir ruhig einen Augenblick Zeit und lass das gedanklich mal durchsickern.

Diese Systeme lernen aus Sensordaten, Simulationen, Beobachtungen realer Prozesse. Sie erfassen, wie sich ein Roboterarm durch den Raum bewegt, wie sich Verkehrsflüsse verdichten, wie chemische Reaktionen ablaufen, wie Energienetze auf Lastschwankungen reagieren. Sie bilden die Welt selbst ab – in ihren Zuständen, ihren Übergängen, ihrer Dynamik.

Ein World Model versteht den Fall selbst.

Einen ähnlichen Paradigmenwechsel, wie wir ihn im Umgang und im Aufbau von Websites gerade erleben, die interaktiver werden, werden wir im Umgang mit KI-gestützter Technologie einen Paradigmenwechsel erleben . Large Language Models bleiben an die Oberfläche der Sprache gebunden, an das, was über die Welt gesagt wurde. World Models dringen in die Struktur der Welt selbst vor. Sie können voraussagen, planen, eingreifen – durch das Antizipieren von Zuständen.

Hier ein paar Beispiele. Google ordnet seine KI-Forschung stärker um Robotik und verkörperte Systeme. Meta holt einen externen Manager und setzt ihn über Chefwissenschaftler Yann LeCun. Nvidia-Chef Jensen Huang spricht nicht mehr nur über Rechenleistung, sondern über Physical AI – Künstliche Intelligenz mit Körper. Die Techbranche im Silicon Valley sucht den nächsten Wachstumstreiber.

Ich möchte den Kern dieser Bewegung nochmal wiederholen: Chatbots wie ChatGPT sagen das nächste Wort voraus. World-Modelle sagen den nächsten Zustand einer Umgebung voraus. Das klingt nach Nuance, bedeutet ökonomisch aber eine neue Größenordnung: Die digitale Wirtschaft bewegt Billionen; die physische Wirtschaft – Fabriken, Logistik, Landwirtschaft, Bau – steht für ein Vielfaches davon. Wer KI zuverlässig in reale Prozesse bringt, greift auf einen Markt zu, der nahezu die gesamte Wertschöpfung berührt.

Die Voraussetzungen sind erst seit Kurzem gegeben: genügend Daten, genügend Kapital, vor allem genügend Rechenleistung. Das Timing ist kein Zufall. Text-, Bild- und Code-Modelle haben ihren ersten Produktzyklus hinter sich. Die Branche braucht eine neue Wachstumsstory. World-Modelle liefern sie.

Was wir heute als GPT-5, Claude oder Gemini erleben, ist der Übergang von reiner Sprachverarbeitung zu etwas Umfassenderem: dialogfähige Konversationssysteme, multimodale Architekturen, die Text, Bild und Audio integrieren, und schließlich Agentensysteme, die Aufgaben koordinieren und Werkzeuge nutzen. Jede dieser Stufen bereitet vor, was sich am Horizont abzeichnet: World Models – Systeme, die nicht mehr nur Sprache verarbeiten, sondern Zustände modellieren, Dynamiken erfassen, unsere Welt abbilden.

In Produktion, Forschung, autonomen Systemen und in der Energiesteuerung verschieben sich die Anforderungen. Es beginnt die Zeit, in der es notwendig ist, dass künstliche Intelligenz diese Welt modelliert. Mit den Erfahrungen, die ich in den vergangenen Jahrzehnten im Zuge der Digitalisierung gemacht habe, ist es vermutlich nur eine Frage der Zeit, bis es von der Steuerung komplexer Systeme auf jeden Einzelnen von uns zurückspiegelt wird.

Wenn du gegen Ende 2023 mit denen gehört hast, die mit dem Hinweis auf KI und Large Language Model gesagt haben: Wir schauen uns das mal an, aber das steht noch nicht im Vordergrund unserer täglichen Arbeit - könnte sein, dass jetzt wieder so ein Moment kommt.

WAS SPRACHMODELLE KÖNNEN – UND WO SIE SCHEITERN

Die beeindruckenden Fortschritte

Aus linguistischer Sicht kann ich hier ganz offen zugeben, dass die Sprachfähigkeiten von LLMs mich zunehmend beeindrucken. Darüber hinaus halluzinieren Modelle wie GPT-5 oder Claude 4.5 nach Angaben von OpenAI und Anthropic immer weniger. Auch unabhängige Tests bestätigen das. Viele Anwender und Anwenderinnen erleben die Modelle als präziser im Formulieren, stabiler im Rechnen. Allerdings wachsen sie in der Fähigkeit, Aufgaben wirklich selbstständig zu übernehmen, nur graduell.

Die nächste Entwicklungsstufe war folgerichtig. Was wir seit Monaten als Agententechnologie kennenlernen, ist mittlerweile nativ in die Modelle eingebaut: Stochastische Sprachverarbeitung verschmilzt mit strukturierten Workflows. GPT-5 wurde von OpenAI explizit für agentic tasks trainiert und integriert Tool-Use als natürlichen Teil des Denkprozesses. Claude orchestriert mehrstufige Abläufe. Gemini koordiniert API-Zugriffe.

Diese Systeme kannst du als eine Zwischenstufe auf einem längeren Entwicklungspfad markieren. Von Large Language Models über dialogfähige Konversationssysteme und multimodale Modelle, die Text, Bild und Audio verarbeiten, hin zu den anvisierten World Models, die interne Repräsentationen der Welt aufbauen und Zustände vorhersagen.

Ich meine, es lohnt sich, das für einen Augenblick mal durchsickern zu lassen.

Wo sie heute wirklich helfen

Stand Oktober 2025 lässt sich folgendes festhalten: Large Language Models können dir bei der Texterstellung wertvolle Unterstützung leisten, haben aber klare Grenzen. Sie eignen sich für: Fachliche Qualitätssicherung – etwa zur Überprüfung von Fakten, zur Identifikation von Argumentationslücken oder Redundanzen Erkennung von LLM-Standardphrasen – sie können typische maschinelle Formulierungen in bestehenden Texten erkennen und markieren Struktureller Sparringspartner – sie analysieren, ob eine Argumentation trägt, wo Übergänge holpern oder ob die Gliederung schlüssig ist

Die vor uns liegende Veränderung liegt nicht in der Perfektion jedes einzelnen Modells, wahrscheinlich auch nicht in der zunehmend größer werdenden Umgebung einzelner Modelle. Meiner Meinung nach liegt sie in der Richtung, die am einfachsten für mich zu beschreiben ist, vom formulierten Satz zum Zustand bzw. zur Zustandsbeschreibung, also vom Wort in die Welt.

Das strukturelle Problem: Regression zur statistischen Mitte

Ein strukturelles Problem teilen sie alle: die Regression zur statistischen Mitte. Alle aktuellen Large Language Models – ob GPT, Claude, Gemini oder Grok – maximieren Wahrscheinlichkeiten und bevorzugen damit hochfrequente Muster. Was statistisch zentral ist, drängt nach vorn; Ränder verschwinden. Wenn dich das näher interessiert, kannst du dir gerne hier einen Artikel dazu anhören oder durchlesen. Ansonsten gebe ich nachfolgend nochmal einen zusammengefassten Überblick.

Die Mechanik der Gleichförmigkeit

Ein Large Language Model besteht aus einer Next-Token-Prediction. Es erzeugt eine Gravitation, einen Sog zur statistischen Mitte. Das, was Tausende, Zehntausende, Hunderttausende oder sogar Millionen von Menschen stilistisch gut finden, darauf ist es trainiert. An der Stelle versucht es, einen möglichst hohen, synchronisierten, kalibrierten Zustand mit den Lesenden, den Empfängern zu erzeugen. Mit jeder Kontextverschiebung im Promptverlauf und je nach Temperatureinstellung stabilisieren sich die wahrscheinlichsten Fortsetzungen.

Möglicherweise hast du auch schon die Erfahrung gemacht, dass selbst nach präziser Stilanalyse und gelungener Initialphase, nach wenigen nachfolgenden Prompts – 4, 5, 6 Mal nachgepromptet – die typischen Formulierungscluster wieder zurückkehren.

"Grundsätzlich ist es wichtig..."

"Darüber hinaus..."

Additive Wiederholungen

Vorhersehbare Satzarchitektur

Wenn wir Strukturanker, Formatierungsroutinen und immer wieder mit konsequentem “Nachprompting” helfen, dann führt das auch immer wieder zu wünschenswerten Outputs. Das eigentliche Phänomen bleibt aber bestehen. Überall da, wo der Output einen statistischen Mittelwert repräsentieren kann und darf, wird er zufriedenstellend angenommen von Anwendern. Überall da, wo Individualisierung gefragt ist, tauchen die größten Unzufriedenheiten auf. Stellst du drei unterschiedlichen Modellen dieselbe Frage, variiert die Wortwahl – die Struktur bleibt gleich.

Die Grenze des Individuellen

Das Reproduzieren eines individuellen Schreibstils bleibt ihnen verwehrt. Selbst nach Analyse mehrerer Texte, mehreren Iterationen und expliziten Stilanweisungen bleibt die Ausgabe erkennbar maschinell.

Der spezifische Rhythmus, die Nuancen der Formulierung, das Gespür dafür, welche Wendung sich richtig “anfühlt” – das kann ein Sprachmodell für dich nicht treffen. Es produziert fachlich korrekte, strukturell solide Texte. Aber einen Text in deiner eigenen Stimme schreiben, das kannst nur du selbst. Wenn du also in der nächsten Stufe mit Helfern wie den sogenannten Custom-Made GPTs, den GEMs oder auch deinen eigenen Agenten die Arbeit erleichtern willst, wirst du sehr schnell feststellen, dass auch hier vergleichbare Phänomene erkennbar sind.

Die Grenzen des Skalierens

Die Frage, wie weit uns die reine Skalierung von Sprachmodellen bringt, hat Gary Marcus in den Mittelpunkt seines Essays How to Rethink A.I. gerückt. Er beschreibt eindrücklich, wie jede technische Erhöhung einer magischen Grenze entgegenläuft: Je eindrucksvoller das Modell, desto sichtbarer werden die alten Schwächen.

Auch die Veröffentlichung von GPT-5 konnte die grundlegenden Defizite nicht beheben. Halluzinationen, häufig fehlendes Weltwissen und ein Mangel an echtem logischem Durchdringen bleiben bestehen – und all das trotz exponentiell größerer Datenmengen und Rechenleistung.

Drei Richtungen für echten Fortschritt

Für Marcus ist das eine Konsequenz des sogenannten Scaling-Paradigmas – der Annahme, dass größere Modelle mit mehr Daten und mehr Rechenleistung automatisch bessere Ergebnisse liefern. Das ist ein bisschen wie die Hoffnung, dass mit jedem Update deine Software immer besser und immer besser wird, und gleichzeitig die Erkenntnis, dass es bald wieder ein Update geben wird. Doch je größer die Modelle werden, desto deutlicher zeigt sich: Mehr davon löst die grundlegenden Probleme nicht. Mehr ist nicht notwendigerweise immer auch gleich besser.

Deshalb nennt er drei Richtungen, in die es sinnvoll weitergehen könnte:

Innere Weltmodelle

Ein Sprachmodell hat aus Milliarden Texten gelernt, dass "Wasser nass ist" – aber es versteht nicht, was passiert, wenn Wasser auf verschiedene Oberflächen trifft. Ein Weltmodell würde die physikalischen Zusammenhänge erfassen: wie Wasser fließt, verdunstet, gefriert.

Künstliche Intelligenz braucht innere Weltmodelle, die das reine Erkennen von Mustern überwinden.

Kernwissen

Babys wissen intuitiv, dass Objekte nicht einfach verschwinden, dass Dinge fallen, wenn man sie loslässt, dass feste Körper nicht durch Wände gehen. Sprachmodelle müssen sich diese grundlegenden physikalischen Prinzipien mühsam aus Textbeschreibungen zusammensetzen – und scheitern oft daran.

Maschinen sollten wie wir mit einem Grundstock an Kernwissen operieren – mit dem, was uns Menschen von Geburt an zur Verfügung steht.

Hybride Ansätze

Während Sprachmodelle statistisch "raten", was wahrscheinlich stimmt, würde symbolisches Denken echte logische Regeln anwenden: Wenn A größer als B ist und B größer als C, dann ist A größer als C – garantiert, nicht nur wahrscheinlich. Diese Kombination aus statistischem Lernen und logischer Gewissheit fehlt heutigen Systemen.

Es braucht symbolisch-logisches Denken, das deduktive Schlüsse ermöglicht und wirkliche Flexibilität schafft.

Mit dieser kritischen Analyse liefert Marcus einen Kompass für die Forschung, und auch eine Warnung an all jene, die schlicht mehr davon erwarten. Er fordert ein Umdenken – technisch wie gesellschaftlich.

Mir hat diese Betrachtung den Druck genommen, zu glauben, meine Arbeitsanweisung, meine Prompt, meine Kommunikation mit und in einem LLM sei immer noch nicht gut genug. Vermutlich ist es eher so, dass mehr und mehr von uns mit den Grenzen ihrer Eingabemöglichkeiten auch die Grenzen der Ausgabemöglichkeiten erkennen.

Die Konsequenz für die Praxis

Wenn du von einem Sprachmodell erwartest, dass es deine Komplexität erkennt, dann musst du also selbst komplex denken und das, was du komplex denkst, auch komplex kommunizieren können. Das ist der Unterschied zwischen einer linearen Arbeitsanweisung und dem Betreten eines komplexen Denkraums, der sprachliches Bewusstsein voraussetzt und Sprache formt.

Das beschreibt den Kern der Arbeit mit diesen Systemen: Sie zwingen uns, bewusster zu formulieren, weil sie nur in der Klarheit unserer Sprache Klarheit zurückgeben.

Large Language Models als Übungsterrain

In diesem Sinne nehme ich Large Language Models als wertvolles Übungsterrain, als eine Art Kommunikationsbootcamp und Brückentechnologie wahr. Sie zeigen uns, wie wichtig menschliche Fähigkeiten bleiben – komplexes Denken, präzise Formulierung, bewusste Kommunikation.

Diese Fähigkeiten werden nicht obsolet, sondern entscheidender. Zumindest dann, wenn die Fähigkeiten, die du möglicherweise Intuition nennst, technisch umgesetzt und von einer Digitaltechnik angewendet werden sollen.

WAS WORLD-MODELLE ANDERS MACHEN

Der konzeptionelle Unterschied

Sprachmodelle denken in Tokens – in Wortfragmenten, Satzmustern, statistischen Wahrscheinlichkeiten. World Models operieren in Zuständen: physikalische Prozesse, zeitliche Abläufe, kausale Zusammenhänge. Ein Sprachmodell kann dir sagen, wie ein Ball fällt – ein World Model berechnet, wo er landen wird. Steh vor, du gibst die Arbeitsanweisung ein, fasse zusammen, was in diesem Text relevant ist. Woher weiß dein Large Language Model, was für dich relevant ist? Habt ihr überhaupt ein gemeinsames Verständnis für den Begriff "relevant"? Jetzt stell dir vor, du synchronisierst den Begriff "relevant" mit deiner KI. Ihr habt also ein gemeinsames Verständnis davon. Dann kann es für dich zusammenfassen, was für dich relevant ist, weil das Gleiche dann auch für das System selbst relevant ist.

Diese Systeme lernen nicht aus Texten, sondern aus Sensordaten, Simulationen, Beobachtungen realer Prozesse. Sie erfassen, wie sich ein Roboterarm durch den Raum bewegt, wie sich Verkehrsflüsse verdichten, wie chemische Reaktionen ablaufen, wie Energienetze auf Lastschwankungen reagieren. Sie bilden die Welt selbst ab – in ihren Zuständen, ihren Übergängen, ihrer Dynamik.

Ein World Model versteht den Fall selbst – nicht nur die Beschreibung davon.

Die Transformationsgrammatik nach Noam Chomsky beschreibt den Unterschied zwischen der Oberflächenstruktur von Sprache, das, was gesagt wurde, und der Tiefenstruktur von Sprache, das, was damit gemeint ist. In ähnlicher Weise bleiben Large Language Models an der Oberfläche der Sprache. Ein World Model hat die Möglichkeit, die Tiefenstruktur von Sprache zu erfassen, zu verarbeiten und anzuwenden. Auch Voraussagen, Planen und Eingreifen funktionieren nur durch das Antizipieren von Zuständen. Das wird zunächst einmal in der Produktion, in der Forschung, beim Einsatz autonomer Systeme und natürlich in der Energiesteuerung angewendet werden. Wie immer ist es dann nur eine Frage der Zeit, bis es dich und mich direkt betrifft.

Technische Anatomie

Ein World-Modell funktioniert grundlegend anders als ein Sprachmodell. ChatGPT lernt aus Milliarden Wörtern statistische Muster. Ein World-Modell lernt aus Videos, Bildern, Sensordaten und 3D-Scans, wie sich die Welt verhält – nicht „welches Wort kommt als Nächstes?", sondern „was passiert, wenn ich den Becher schiebe?".

Die vier Dimensionen, die World-Modelle von Chatbots unterscheiden:

1. Modalität

World-Modelle sind multimodal. Sie verarbeiten vor allem visuelle Eingaben, teils auch Audio oder Propriozeption (Eigenwahrnehmung von Körperlage und -bewegung). Sprache allein reicht nicht, um Räume zu verstehen.

2. Zeitlichkeit

Sprachmodelle generieren Token für Token. World-Modelle müssen Dynamik abbilden: Ein Ball fällt weiter, Reibung bremst, Flüssigkeit fließt – über viele Zeitschritte konsistent.

3. Verkörperung

Häufig sind World-Modelle an Agenten gekoppelt: Roboter, Drohnen, Fahrzeuge. Ausgaben sind dann nicht nur Text, sondern Motorbefehle, Pfade, Greifbewegungen.

4. Datenmaßstab und Vielfalt

Internet-Text ist reichlich, aber vergleichsweise homogen. Für räumliche Intelligenz braucht es Bilder und Szenen aus allen Blickwinkeln, Licht- und Wettersituationen. Niantic – bekannt durch Pokémon Go – hat über Jahre zehn Millionen Orte weltweit gescannt; jede Woche kommen rund eine Million neue Beiträge hinzu. Erst solche Datensätze erlauben robuste räumliche Repräsentationen.

Die Realität bleibt jedoch hartnäckig komplex. Niantic berichtet von über 50 Millionen separat trainierten Netzen mit insgesamt 150 Billionen Parametern für sein „Large Geospatial Model". Das illustriert die Größenordnung – und warum es schwerer ist, Welt abzubilden, als Text zu untersuchen.

Historischer Kontext

Bereits 2018

Ha & Schmidhuber veröffentlichen ihr Paper "World Models" – das erste System, das lernt, eine kompakte interne Simulation einer Umgebung aufzubauen und Handlungen erst "im Kopf" durchzuspielen, bevor es agiert. Im selben Jahr erscheinen GPT und BERT, die ersten großen Transformer-basierten Sprachmodelle, die zeigen, wie leistungsfähig das Lernen aus riesigen Textmengen sein kann.

Heute stehen weit größere Datensätze und Rechenressourcen bereit. DeepMind fasst das Ziel so: World-Modelle sollen Aspekte der Umwelt simulieren und so vorhersagen, wie sich eine Umgebung entwickelt – und wie eigene Handlungen sie verändern.

Timeline: Von der Idee zur Umsetzbarkeit (2018–2025)

2018

2020

GPT-3 mit 175 Milliarden Parametern revolutioniert die Wahrnehmung von KI in der Öffentlichkeit. Das Modell kann aus wenigen Beispielen ("Few-Shot") neue Aufgaben lösen, ohne explizit darauf trainiert worden zu sein – ein Durchbruch, der Sprachmodelle plötzlich für breite Anwendungen interessant macht.

2023

GPT-4 wird multimodal und kann erstmals nicht nur Text, sondern auch Bilder verarbeiten – ein wichtiger Schritt Richtung Weltverständnis. Gleichzeitig veröffentlicht Meta LLaMA-65B als Open-Source-Modell, was leistungsfähige KI für Forschung und kleinere Unternehmen zugänglich macht.

2024

OpenAI bewirbt sein Video-Generierungsmodell Sora als "World Model", obwohl es primär Videos erzeugt, nicht physikalische Zustände vorhersagt. Diese Marketing-Strategie verwischt in der öffentlichen Wahrnehmung die Grenzen zwischen verschiedenen KI-Ansätzen und schürt überhöhte Erwartungen.

2025

DreamerV3 zeigt, dass World-Modelle in komplexen, offenen Umgebungen wie Minecraft funktionieren können – es meistert 150 verschiedene Aufgaben, indem es lernt, die Spielwelt intern zu simulieren und vorausschauend zu planen. Google veröffentlicht Gemini Robotics 1.5, das erste System, das Weltmodell-Fähigkeiten mit Robotik verbindet und damit den Sprung vom Labor in erste industrielle Anwendungen markiert

Die Verschiebung ist fundamental: Von Systemen, die beschreiben können, was passieren könnte, zu Systemen, die berechnen, was passieren wird. Von der Interpretation zur Vorhersage. Von der Sprache zur Physik.

WAS HEUTE SCHON FUNKTIONIERT

Eine Zusammenfassung von Elysium Echo, Christians KI-Assistent:

Nach Jahren im Labor gibt es greifbare Fortschritte – bescheiden, aber messbar. Ich habe für dich die aktuellen Entwicklungen ausgewertet und drei Felder identifiziert, die besonders herausstechen.

Robotik im Labor

Google DeepMind Gemini Robotics 1.5

Ende 2024 stellte Google DeepMind Gemini Robotics 1.5 vor – zwei Modelle, die Roboter planen und handeln lassen. In Demos sortieren sie Müll nach lokalen Recyclingregeln, die sie zuvor selbst online recherchiert haben; sie packen Koffer anhand einer Wettervorhersage; sie sortieren Wäsche nach Farben, ohne für jedes Kleidungsstück eigens programmiert zu sein.

Der technische Aufbau ist zweigeteilt: Ein Modell (Gemini Robotics-ER 1.5) plant in natürlicher Sprache, zerlegt Aufgaben, ruft Informationen ab. Das zweite (Gemini Robotics 1.5) führt aus – als Vision-Language-Action-Modell, das Bewegungen steuert. Die Arbeitsteilung zwischen "Gehirn" und "Körper" erleichtert spezialisiertes Training.

Die harte Zahl: 20 bis 40 Prozent Erfolgsrate in Tests.

In einem Versuch fand der Roboter die Regeln der Stadt San Francisco und sortierte entsprechend. Nur in etwa einem Drittel der Fälle lag er damit vollständig korrekt. Für den unbeaufsichtigten Einsatz ist das zu wenig. Google öffnet Gemini Robotics daher zunächst nur ausgewählten Partnern.

Status: Pilot, nicht Produkt.

Cornell Robotic World Model

Das Cornell Robotic World Model reduziert Fehlerakkumulation und ermöglicht Sim-to-Real-Policy-Optimierung. Es zeigt, dass World-Modelle helfen können, die Lücke zwischen Simulation und Realität zu verkleinern – aber die Herausforderung bleibt bestehen.

Virtuelle Welten als Testfeld

DeepMind Genie 3

DeepMinds Genie 3 generiert aus Texteingaben interaktive 3D-Welten – begehbar in Echtzeit mit 24 fps. Szenen behalten über Minuten hinweg visuelle und physikalische Konsistenz: Licht, Objektpositionen, Wasserlauf bleiben stimmig. Anspruch: ein generisches World-Modell, das künftig als Trainingsumgebung für Agenten dient.

Die Grenzen: Nach einigen Minuten bricht die Konsistenz, die Auflösung liegt bei 720p, der Fokus eher auf Simulation als auf zielgerichtetem Verhalten. Rechenaufwand und Hardwarebedarf sind hoch.

Decart – Das Start-up mit 3,1 Milliarden Dollar Bewertung

Auch Start-ups treiben die Entwicklung voran: Das junge Unternehmen Decart sammelte 2024 rund 100 Millionen Dollar ein und wird mit 3,1 Milliarden Dollar bewertet. Die Modelle Oasis und Mirage erzeugen und manipulieren Video in Echtzeit – bis hin zu Livestreams, die sich per Texteingabe umgestalten lassen.

Die Anwendungen reichen von Games und Live-Entertainment bis zu synthetischen Trainingsdaten für autonome Systeme. In der Praxis zeigen sich jedoch Artefakte, Flimmern und hoher Inferenzaufwand – technisch eindrucksvoll, aber noch fragil.

Runway Game Worlds

Runway – ein US-Start-up für generative Video-Software, das bereits in Hollywood-Produktionen eingesetzt wird – experimentiert mit Game Worlds: Aus Texteingaben entstehen Umgebungen, Figuren und verzweigte Dialoge; das System hält einen konsistenten Weltzustand, Ereignisse verändern Szenen, Figuren erinnern sich.

Zur Einordnung: Heute liefert Runway vor allem Produktionswerkzeuge (Previs, Marketing-Assets, Kurzclips); Game Worlds ist ein Experimentierfeld zwischen Content-Erzeugung und Agententraining. Das Potential ist groß, die Praxis noch rudimentär. Der Vorteil: Es entstehen umfangreiche, interaktive Verhaltensdaten – wertvoll für spätere Agenten.

Geospatiale Intelligenz

Niantic Large Geospatial Models

Niantic hat die eigenen Spiele genutzt, um ein enormes Weltgedächtnis aufzubauen: Millionen von Orten, jede Woche weitere eine Million Scans, inklusive 3D-Punktwolken. Daraus entstehen Large Geospatial Models, die Geräte zentimetergenau lokalisieren.

Das System basiert auf über 50 Millionen separat trainierten Netzen mit insgesamt 150 Billionen Parametern. Diese Größenordnung illustriert, warum es schwerer ist, Welt abzubilden, als Text zu untersuchen.

Für KI-Agenten heißt das: ein belastbares Ortsgefühl – Erkennen, wo man ist, was hinter der Ecke liegt, wie unsichtbare Gebäudeseiten wahrscheinlich aussehen.

Die Einschränkung: Es ist vor allem Wahrnehmung und Lokalisierung, noch keine Handlungsintelligenz. Planung und Kontrolle kommen obenauf. Zudem altert Weltwissen: Städte verändern sich, die Datenpflege bleibt aufwendig. Aber: Niantic setzt darauf, diese Grundlage für räumliche KI zu liefern – und wird dafür von Investoren belohnt.

NVIDIA Omniverse & Cosmos

Nvidia liefert den Unterbau – Chips, Omniverse als Simulations- und Digital-Twin-Plattform, Standards wie OpenUSD. Ziel: die Werkbank für Physical AI stellen, auf der andere bauen. Je mehr Training und Test in hochwertigen digitalen Zwillingen stattfinden, desto zentraler wird Nvidias Stack.

"Wir haben ein Jahrzehnt in Omniverse und physikalische Simulatoren investiert, weil wir wussten, dass Physical AI kommt", sagt Rev Lebaredian von Nvidia.

NVIDIA Cosmos World-Models liefern offene 3D-Weltbau-Bibliotheken für Digital Twins und werden von Boston Dynamics sowie Figure AI genutzt.

Der Reality-Check

Simulation soll die Lücke schließen

Simulatoren erzeugen quasi unbegrenzt Daten – sicher, vielfältig, schneller als die Realität. Doch die Simulations-Real-Lücke bleibt: Was virtuell stabil läuft, scheitert mitunter am echten Boden, echtem Licht, echten Störfaktoren.

Das Unreal Robotics Lab koppelt die Unreal Engine (Lumen, Nanite) mit MuJoCo-Physik; Benchmarks zeigen drastische Erfolgseinbrüche bei realistischeren Störungen. Die Erfolgsrate kann von 90 Prozent in der Simulation auf 10 Prozent in der Realität fallen – der Sim-to-Real-Gap bleibt gravierend.

Was die Größenordnung bedeutet

Das Niantic-Beispiel illustriert die Herausforderung: 50 Millionen separat trainierte Netze, 150 Billionen Parameter – nur um räumliche Lokalisierung zu ermöglichen. Warum es schwerer ist, Welt abzubilden, als Text zu untersuchen, wird hier konkret greifbar.

Warum es noch im Sandkasten bleibt

Die Realität bleibt hartnäckig komplex. Artefakte, Flimmern, hoher Rechenaufwand, brechende Konsistenz – technisch eindrucksvoll, aber für den produktiven Einsatz noch zu fragil. Die Systeme funktionieren unter kontrollierten Bedingungen, scheitern aber an der Variabilität der realen Welt.

Status 2025: Beeindruckende Demos, ernüchternde Erfolgsraten, selektive Deployments.

DIE HARTEN HÜRDEN

Wenn du bis hierher gelesen hast, dann könntest du dich in dem gleichen Spannungsfeld befinden, in dem ich an dieser Stelle immer wieder lande. Auf der einen Seite entwickle ich eine gewisse Faszination für diese Technologie, insbesondere deshalb, weil sie mir in der Entwicklung meiner gesamten Karriere unglaublich weitergeholfen hat.

Der überwiegende Teil der Digitalisierung der letzten Jahrzehnte hat – zusammen mit meinem sozialen, kulturellen und wirtschaftlichen Hintergrund – dazu geführt, dass ich mir eine gute Existenz aufbauen konnte und die Digitalisierung mit großer Freude mittrage. Selbstverständlich mache ich mir auch meine Gedanken über die kritischen, möglicherweise sogar dekonstruktiven Bestandteile dieser Technologie. Zwischen Faszination und Kritik liegen die Hürden – also der Moment, in dem wir eine Technologie entwickeln, die nicht sofort vollständig funktioniert und möglicherweise das auch nie tun wird, sondern sich stetig weiterentwickelt.

Die Beispiele aus dem Labor, die Elysium Echo im vorangegangenen Kapitel zusammengestellt hat, können gleichermaßen beeindrucken, aber natürlich auch schon wieder die ersten Irritationen oder sogar Frustrationen erzeugen. Der Weg von kontrollierten Demonstrationen zur zuverlässigen Anwendung in der Realität bleibt ein weiter, intensiver und experimenteller.

Zuverlässigkeit: Von 20% zu 99,999%

Wenn Erfolge in Laborumgebungen verkündet werden, wenn es zu einem 20%-igen Erfolg kommt, zu einer 20%-igen Zuverlässigkeit, dann ist das natürlich weit entfernt von industriellen Anforderungen, die bei 99,999% liegen. In der Produktion, im Verkehr, bei uns zu Hause, im Gesundheitswesen. Überall dort muss die Zuverlässigkeitsrate bei annähernd 100 Prozent liegen.

Der "Long Tail" unvorhergesehener Situationen bleibt das Problem: Ein Roboter, der in 80 Prozent der Fälle richtig sortiert, ist für den autonomen Betrieb unbrauchbar. Die restlichen 20 Prozent sind nicht zufällige Fehler, sondern systematische Schwächen – unerwartete Lichtsituationen, ungewöhnliche Objekte, Störungen im Ablauf.

Heutige Modelle decken diese Randfälle nicht ab. Bis sie es tun, bleiben sie unter menschlicher Aufsicht.

Daten und Simulation: Die Sim-to-Real-Lücke

In einem meiner ersten Workshops zum Thema Neurolinguistic Programming habe ich die folgende Unterscheidung gelernt: Die Landkarte ist nicht die Landschaft. In diesem Sinne ist die Simulation, das Testen in einer abgesicherten Laborumgebung, nicht die Landschaft, in der die Bewegung durchgeführt wird. Es bleibt eine Lücke zwischen Simulation und Realität. Dabei müssen Systeme wie Roboter trainiert werden und gleichzeitig sollen sie während des Trainings keinen Schaden anrichten. Wenn also schon während der Trainingsphase Vorsicht geboten ist, dann ist es möglicherweise für dich leicht vorstellbar, wie lange das dauern kann, bis sie realitätstauglich sind.

Das Niantic-Beispiel: Die Größenordnung

Niantic hat über 50 Millionen separat trainierte Netze mit insgesamt 150 Billionen Parametern für sein "Large Geospatial Model" aufgebaut. Zum Vergleich: GPT-5, eines der größten Sprachmodelle, hat "nur" 600 Milliarden Parameter (Die genauen Parameterzahlen variieren, deshalb habe ich hier nur einen Mittelwert eingefügt) – Niantics System ist also fast bedeutend größer. Der Grund: Jeder Ort auf der Welt sieht aus unterschiedlichen Blickwinkeln, bei verschiedenem Wetter, zu verschiedenen Tageszeiten anders aus. Diese Varianz in der physischen Welt zu erfassen, erfordert ein Vielfaches der Rechenkapazität, die für reines Textverständnis nötig ist.

Wenn du wissen willst, welche Herausforderungen das sind, kannst du folgendes tun: Du nimmst einen Gegenstand wie einen Kugelschreiber und beginnst zu formulieren, was du alles über den Kugelschreiber weißt und was andere über ihn wissen sollten. Und das machst du so lange, bis du mit absoluter Sicherheit sagen kannst: Alles, was diesen Kugelschreiber betrifft, hast du jetzt formuliert und gesagt.

Simulation als Lösung?

"Wir haben ein Jahrzehnt in Omniverse und physikalische Simulatoren investiert, weil wir wussten, dass Physical AI kommt", Rev Lebaredian, Nvidia.

Mit den folgenden Ausführungen hoffe ich, einen kleinen Beitrag zu leisten, dass die Angst, dass demnächst der Terminator die Weltherrschaft übernimmt, so schnell nicht in die Realität umsetzbar ist. Selbst wenn einige das wollten.

Warum Simulation?Mit Simulationen kann man endlos viele Übungsdaten erzeugen – ganz schnell und völlig ungefährlich. Roboter, Autos oder andere Maschinen können so virtuell trainieren, wie sie sich in verschiedenen Situationen verhalten sollen.
Das Problem beim Übertragen:In der Computersimulation klappt oft fast alles perfekt. Aber sobald Roboter die echte Welt erleben, läuft vieles schief: Unebener Boden, echtes Sonnenlicht, zufällige Störungen – vieles lässt sich am Computer nicht richtig nachmachen.Ein Beispiel zeigt: Was im Testlabor zu 90% klappt, funktioniert draußen plötzlich nur noch bei jedem zehnten Versuch!
Was hilft weiter?Einheitliche Standards wie OpenUSD sorgen dafür, dass Simulatoren und Roboter besser zusammenarbeiten. Das macht die Entwicklung einfacher – aber die Unterschiede zwischen Computertest und echter Welt bleiben noch eine große Herausforderung.Simulation ist ein wichtiges Werkzeug, damit KI und Roboter lernen können – aber auf dem Weg zur echten Welt gibt es noch viele Stolpersteine.

Kosten: Training, Inferenz, Energie

Training und Inferenz – also das Ausführen eines bereits trainierten Modells auf neue Eingaben – sind extrem rechenintensiv. On-Device-GPUs, Cloud-Verbindungen, Latenz, Energieverbrauch, das alles sind limitierende Faktoren.

Effizienzfortschritte (Software wie Hardware) sind nötig, um aus Piloten Produkte zu machen. NVIDIA berichtet von TCO-Senkungen um den Faktor 5 für agentische Inferenz-Workloads – ein Fortschritt, aber noch nicht ausreichend für Massenanwendungen.

Die Rechnung ist einfach: Solange ein World-Modell mehr kostet als die menschliche Alternative, bleibt der Einsatz auf Nischen beschränkt.

Sicherheit: Fehler in der physischen Welt

Wenn es um den sicheren Umgang geht mit KI-gestützter Technologie, dann werden Artikel wie diese fast schon politisch. Es gibt unterschiedliche Ansätze, wie viel reguliert, wie viel überprüft und wie viel kontrolliert werden soll und vor allem: von wem überhaupt. Fehler, die wir in der physischen Welt machen, haben Konsequenzen. Die Validierung und Zertifizierung für den Einsatz, vor allem den unkontrollierten, den selbstständigen, den autonomen Einsatz in der realen Welt, wird von wem bestimmt und vorgenommen? Einigkeit scheint es zumindest zu geben, dass die Einführungszyklen länger sind als bei einer Software.

Ein Sprachmodell, das halluziniert, produziert falsche Information. Ein Roboter, der falsch greift, kann Schaden anrichten. Ein autonomes Fahrzeug, das falsch reagiert, gefährdet Leben.

Die regulatorischen Hürden sind entsprechend hoch. Jede Branche – Medizin, Verkehr, Produktion – hat eigene Sicherheitsstandards. World-Modelle müssen sie alle erfüllen, bevor sie aus dem Labor kommen. Das möchte ich hier zumindest mal als meine Meinung kundtun.

Integration: Mehr als nur ein Modell

Ein World-Modell allein genügt nicht. Es braucht Wahrnehmung, Planung, Kontrolle, Sprache – sauber gekuppelt und robust.

Google Gemini Robotics zeigt die modulare Lösung: "Gehirn" (plant) und "Körper" (führt aus). Ob solche modularen Systeme oder End-to-End-Ansätze am Ende tragen, ist offen.

Die Herausforderung liegt in den Schnittstellen: Wie kommunizieren Wahrnehmung und Planung? Wie wird aus einem abstrakten Plan eine präzise Bewegung? Wie reagiert das System, wenn etwas schiefgeht?

Jede Schnittstelle ist eine potenzielle Fehlerquelle.

Zeithorizont: Jahre, nicht Quartale

Die Vision, künstliche Intelligenz in die gesamte Wirtschaftsumgebung zu übertragen, ist nachvollziehbar und sicherlich sehr verlockend. Die Überlegung, über welchen Zeitraum wir hier sprechen, geht sehr weit auseinander. Ich tue mich an dieser Stelle sehr schwer, selbst eine Prognose abzugeben, weil auch ich in der Fülle der Informationen, die mir zugänglich sind, häufig nicht unterscheiden kann zwischen einer echten, messbaren Aussage, einer Marketingkampagne, einer politischen Intervention und dergleichen. Es scheint so, dass aus der Sicht derer, die unmittelbar Profit erzielen wollen mit den Investitionen, die sie tätigen, beziehungsweise schon getätigt haben, dass dort die Ausrichtung auf Anwendung in unserer Lebensrealität sehr, sehr zügig vollzogen gehen soll.

Dort, wo etwas weniger oder sogar in Abwesenheit von finanziellen Notwendigkeiten geforscht und vorhergesagt wird, gibt es eine andere Timeline, die deutlich weiter entfernt liegt von der, die in Wirtschaftsunternehmen prognostiziert wird.

Ich komme an dieser Stelle wieder zu der Erfahrung zurück, dass die Erwartungshaltung ungeheuer hoch ist und der Realitätsabgleich in sehr vielen Fällen ernüchternd ausfällt. Und ich vermute mal, auch hier wird das nicht anders sein.

Überhöhte Erwartungen führen zu Enttäuschungen, wenn die Realität hinter den Versprechen zurückbleibt.

Kritische Expertenstimmen

In Anlehnung an das, was ich gerade ausgeführt habe, möchte ich hier mal ein paar kritische Stimmen wiedergeben.

Yann LeCun (Meta, Chefwissenschaftler):

"LLMs verstehen die physische Welt nicht, haben kein dauerhaftes Gedächtnis, können nicht verlässlich schlussfolgern und nicht planen. Sprache allein reicht nicht für tiefes Verständnis."

Für den Meta-Forschungschef markieren diese Defizite die Grenze heutiger Sprachmodelle. World-Modelle sollen sie schließen: Sie lernen, wie Objekte sich bewegen, kollidieren, zerbrechen – und bauen daraus ein internes, über die Zeit konsistentes Bild von Ursache und Wirkung.

Gary Marcus (KI-Kritiker, Autor):

"Ohne echte Weltmodelle bleiben LLMs unzuverlässig. Selbst modernste Modelle halluzinieren biografische Fakten."

Marcus betont, dass die Grenzen nicht durch Skalierung überwunden werden. Mehr Daten, mehr Parameter, mehr Rechenleistung – das Grundproblem bleibt bestehen.

Mark Pelf (Technologie-Analyst):

Zieht Parallelen zu überzogenen Versprechen beim autonomen Fahren – Warnung vor wiederholtem Hype-Zyklus.

Vor zehn Jahren hieß es, autonome Fahrzeuge würden binnen fünf Jahren Standard sein. Heute fahren sie in eng begrenzten Gebieten unter Aufsicht. Die Lektion: Technische Demonstrationen sind nicht dasselbe wie skalierbare Produkte.

Offene Herausforderungen im Überblick

Hier noch eine kurze Checkliste mit den Herausforderungen, die sich weiterhin darstellen.

Bei Large Language Models:

Halluzinationen gefährden Vertrauenswürdigkeit
Kontextdrift über längere Gespräche
Fehlende Verankerung in physikalischer Realität

Bei World-Modellen:

Fehler kumulieren über lange Rollouts
Schwer diagnostizierbar: Wo genau ging es schief?
Sim-to-Real-Gap bleibt gravierend

Datenethik:

Multimodale Logs enthalten möglicherweise sensible Sensor- und Standortinformationen
Wer kontrolliert die riesigen Datensätze?
Wie transparent sind Trainingsdaten?

Die Hürden sind real. Sie erklären, warum World-Modelle trotz beeindruckender Fortschritte im Labor bleiben – und warum der Weg in die Praxis länger dauert, als Marketing-Versprechen suggerieren. Trotzdem möchte ich an dieser Stelle nochmal darauf hinweisen: Wer Lust hat, kann sich mal die Historie der Speicherprognosen aufrufen lassen. Wer hat zu welchem Zeitpunkt im Hinblick auf Datenspeichermöglichkeiten welche Aussagen für die Zukunft getroffen? Welche davon wurden eingehalten? Welche davon sind eingetroffen? Und in welchem Maß wurde das vollständig überboten?

WO ES ZUERST ANKOMMT – UND WAS DAS FÜR DICH BEDEUTET

Die ersten großen Anwendungen werden sicherlich dort platziert werden, wo auch die meisten Investitionen für diese Anwendungen vorgenommen werden: Fertigung, Logistik, Mobilität, Gesundheitswesen und auch in großen Haushaltsumgebungen. Bevor sie da eingesetzt werden, werden wir sie sicherlich eher in experimentellen Umgebungen finden, in denen die Möglichkeit zu korrigieren größer ist und wo auch Fehlverhalten noch keine dramatischen Auswirkungen hat. Das wird ganz sicherlich der Bereich der Spieleindustrie, der Filmproduktion und in Simulationsumgebungen sein.

Realistische Einsatzfelder

Verzeihende Domänen – wo Fehler verkraftbar sind

Games und Film: Generative Welten und Charaktere

Die Spieleindustrie ist wohl eine der dankbarsten Brückentechnologien, die wir dafür haben. Schon deshalb, weil sich so viele Anwender dort freiwillig anmelden und freiwillig Geld bezahlen, um teilnehmen zu können an der Entwicklung dieser Technologie. Spiele dienen als Brückentechnologie, Spieler als deren Ingenieure und Architekten – häufig auch als Crash-Test-Dummies, die genau die Fähigkeiten entwickeln und testen, die reale Agenten auch benötigen.

Falls du Runway Game Worlds kennst, kannst du dir dort die Richtung anschauen, in die das geht. Aus Texteingaben entstehen Umgebungen, Figuren und verzweigte Dialoge. Das System hält einen konsistenten Weltzustand, Ereignisse verändern Szenen, Figuren erinnern sich. Heute liefert Runway vor allem Produktionswerkzeuge (Previs, Marketing-Assets, Kurzclips); Game Worlds ist ein Experimentierfeld zwischen Content-Erzeugung und Agententraining.

Das Potenzial ist, wie ich gerade eben ausgeführt habe, sehr groß. In der Praxis beginnt sich das aufzubauen. Der Vorteil ist, es entstehen umfangreiche interaktive Verhaltensdaten, die dann wiederum gebraucht werden, um zuverlässige Agenten bauen zu können.

Simulation: Digitale Zwillinge optimieren Fabriken vorab

Auch wenn der Vergleich vielleicht nicht der beste ist, aber ähnlich wie bei einer Doppelblindstudie in der wissenschaftlichen Forschung werden bei Simulationen digitale Zwillinge erstellt. Das sind virtuelle Abbilder realer Systeme. So eine Art Miniaturwunderland als digitales Abbild des Bahnverkehrs. Für diejenigen, die das Miniatur Wunderland in Hamburg kennen: Die Züge dort fahren viel zuverlässiger, unfallfreier und wartungsfreier, als es das gesamte bundesweite Schienennetz überhaupt hergeben könnte.

NVIDIA Omniverse dient genau diesem Zweck: Fabriken, Logistikzentren, ganze Städte werden digital nachgebaut, World-Modelle simulieren Abläufe, optimieren Routen, identifizieren Engpässe.

Ähnlich wie im Miniatur Wunderland kosten Fehler hier nicht so viel wie draußen auf der Bahnstrecke in der Lebensrealität. Das Risiko ist überschaubar. Wenn die Simulation stabil läuft, dann kann damit begonnen werden, diese in die Realität umzusetzen.

Halbkontrollierte Robotik: Inspektion und strukturierte Umgebungen

Windkraftanlagen werden, zumindest zum großen Teil, mit Inspektionsdrohnen kontrolliert. In Lagerhallen gibt es Service-Roboter und autonome Reinigungssysteme in Bürogebäuden. Das sind Einsatzfelder, die wir zum Teil schon haben und die im Augenblick substanziell ausgebaut werden. Hier ist die menschliche Aufsicht noch sehr stark organisiert.

World-Modelle werden hier bald zeigen, was sie leisten können und zuverlässig betreuen können.

Das Prinzip: Ausliefern dort, wo Fehler verkraftbar sind

Erst wenn Erfolgsquoten spürbar steigen und Kosten sinken, verlässt die Technik den Sandkasten. Bis dahin gilt: Lernen in sicheren Umgebungen, skalieren nur bei nachgewiesener Zuverlässigkeit. Das können wir zumindest alle hoffen.

Was du heute nutzen kannst

LLM-gestützte Tools – unmittelbar nutzbar

World-Modelle sind für Einzelpersonen noch nicht direkt zugänglich. Large Language Models hingegen sind heute schon produktiv einsetzbar.

Texterstellung & -verbesserung

ChatGPT, Grammarly, DeepL Write
Nutzen: Minuten statt Stunden für Entwürfe; automatische Stil-Checks
Realität: Qualitätssicherung, nicht Ersatz für eigenes Denken

Coding-Assistenz

GitHub Copilot, Tabnine, Cursor
Nutzen: Bis zu 27% Zeitersparnis bei Boilerplate-Code
Realität: Beschleunigt Routine, ersetzt nicht Architektur-Entscheidungen

Datenanalyse & Visualisierung

Luzmo AI Chart Generator, Perplexity.ai, ChatGPT Data Analyst
Nutzen: BI-ähnliche Insights ohne SQL-Kenntnisse
Realität: Schnelle Übersichten, tiefere Analysen erfordern Fachwissen

Kreativ-Medien (Bild/Video/Musik/3D)

Canva Magic Studio, Synthesia, MuseNet, Kaedim
Nutzen: Demokratisiert Design, Video- und Musikproduktion
Realität: Professionelle Qualität erfordert weiterhin menschliches Können

Persönliche Automationsagenten

Apple Intelligence, Zapier AI, Zhipu AutoGLM
Nutzen: Routine-Aufgaben (E-Mails, Buchungen) automatisiert per Sprache
Realität: Funktioniert für einfache, wiederkehrende Aufgaben

Die Realität: Konsumentenorientierte World-Model-Features sind selten

World-Modelle finden sich primär in Forschung oder im Enterprise-Bereich. Für uns als direkte Nutzer und Anwender stehen sie noch nicht zur Verfügung.

Was World-Modelle für dich bedeuten werden

Nicht direkt nutzbar, aber indirekt spürbar

Bessere Simulationen → bessere Produkte

Wenn Autohersteller, Möbelproduzenten oder Architekten ihre Entwürfe in präzisen digitalen Zwillingen testen können, verbessert sich die Qualität der Endprodukte. Fehler werden früher erkannt, Designs besser optimiert. Es würde mich nicht wundern, wenn ein großes, international bekanntes schwedisches Möbelhaus zu den ersten Unternehmen gehört, die sich das zunutze machen und uns faszinierende Anwendungsmöglichkeiten zur Verfügung stellen.

AR-Navigation mit zentimetergenauer Lokalisierung

Niantic Large Geospatial Models ermöglichen AR-Anwendungen, die genau wissen, wo du stehst und was um dich herum ist. Statt ungefährer GPS-Koordinaten: präzise räumliche Orientierung. Hier erwarte ich erste Consumer-Produkte, wenn es darum geht, den Fun-Faktor zu erhöhen. Von der digitalen 3D-Brille in den digitalen 3D-Raum, in dem es dem Geist immer schwerer fallen wird, zwischen digitaler künstlicher Umgebung und Realität unterscheiden zu können.

Präzisere digitale Zwillinge in Architektur und Stadtplanung

Vor kurzem wurde in Berlin der Autobahnabschnitt auf der A100 eröffnet, und die Eröffnung galt unmittelbar als Simulation, ob die Idee, den Verkehrsfluss zu verbessern, damit funktioniert. Die Meinungen gehen sehr weit auseinander, welche Erfolge wir verkehrstechnisch damit in Berlin verzeichnen können. Alle sind sich darüber einig, dass es eine Simulation nicht gegeben hat. In Zukunft lässt sich sowas möglicherweise simulieren, bevor es gebaut wird, und es lassen sich alternative Konzepte erarbeiten.

Langfristig: Roboter im Haushalt, autonome Assistenz

Roboter mit echtem Raumverständnis

Im Projektmanagement für Gebäude gibt es schon eine ganze Reihe an programmierten Routinen. Mit World-Modellen wird es wahrscheinlicher, dass Systeme beginnen zu verstehen, wie Räume funktionieren, wie sich Objekte verhalten und wie Aufgaben flexibel gelöst werden können.

Autonome Assistenz für physische Aufgaben

Das wird noch sehr lange unter menschlicher Aufsicht bleiben, schon rechtlich, versicherungstechnisch und dergleichen. im Übergang wird es agentische KI-Technik für lineare, monotone Softwareaufgaben geben.

Realistische Trends

Open-Source verringert den "Model-Moat"

Nachfolgend noch ein paar Trends, die auch Einfluss auf die Entwicklung von World-Modellen haben können.

Open-Source-LLMs wie Llama und DeepSeek verringern den Wettbewerbsvorteil proprietärer Modelle. Die Wertschöpfung verlagert sich auf spezialisierte Anwendungen und RAG-Pipelines (Retrieval-Augmented Generation), die Modelle mit spezifischem Wissen verbinden.

"Green AI" zwingt zu Effizienz

Kleinere, effizientere Modelle werden wichtiger. Inferenzkosten sinken um Größenordnungen. Das macht KI-Anwendungen wirtschaftlicher und umweltverträglicher.

Agentische KI übernimmt monotone Aufgaben

Unter menschlicher Aufsicht werden Agenten zunehmend Routine-Software-Aufgaben übernehmen: Datenerfassung, Terminkoordination, einfache Recherchen.

Hype-Warnungen

Humanoide Roboter sind nicht "das neue Smartphone"

An dieser Stelle möchte ich nochmal den Versuch unternehmen, eine Unterscheidung zu treffen zwischen dem Akquiseversprechen und unseren Wünschen oder sogar unseren Verlangen, schon mal Geld zurückzulegen, um zu Hause humanoide Roboter einsetzen zu können, und die wesentlichen Leistungen, die wesentliche Arbeit abnehmen und vergleichbar einfach und günstig sind wie Smartphones. Die technischen, wirtschaftlichen und regulatorischen Hürden sind zu hoch.

AGI-Versprechen bleiben spekulativ

Das Versprechen, dass wir in kürzester Zeit eine Artificial General Intelligence (AGI) haben, halte ich für sehr unwahrscheinlich. Ich hoffe, mit den bisherigen Ausführungen ist es mir gelungen, zu begründen, warum das so schnell nicht der Fall sein kann. Die Forschung macht Fortschritte, aber der Sprung zu echter allgemeiner Intelligenz ist für mich nicht absehbar.

Kombinierte Strategien sind realistisch

Nachfolgend eine kurze Liste, was ich für realistisch halte.

Für Unternehmen:

LLMs für sprachliche Schnittstellen
World-Models für physische Aktionen
Jeweils mit klaren Fehlertoleranz-Analysen

Für Einzelpersonen:

Heute: LLM-gestützte Produktivitätssoftware nutzen
Morgen: World-Model-Anwendungen werden erst mit stabilerer Sim-to-Real-Performance massentauglich
Der Weg misst sich in Jahren, nicht Quartalen

Die Entwicklung ist real, aber graduell. Wenn du heute mit LLMs arbeitest und morgen beginnst, dir Agenten zunutze zu machen, die dir Routineaufgaben abnehmen, dann kannst du dich übermorgen damit beschäftigen, wie World-Modelle dich bei komplexem Denken, präziser Formulierung und bewussten Aufgabenstellungen unterstützen.

ZURÜCK ZUM KERN

Die zentrale Erkenntnis: Sprachmodelle als Übungsterrain

Large Language Models erweisen sich als wertvolles Übungsterrain und Brückentechnologie. Sie zeigen uns, wie wichtig menschliche Fähigkeiten bleiben – komplexes Denken, präzise Formulierung, bewusste Kommunikation.

Diese Fähigkeiten werden entscheidender. Denn sie sind es, die diese Technologien dorthin führen, wo wir sie haben wollen. Ich bin nicht zuversichtlich, dass unser Bildungs- und Ausbildungssystem sich daran orientieren wird. Ich erkenne nicht die notwendige Hinwendung zu Kreativität, Flexibilität, Risikofreude, vernetztem und komplexem Denken sowie bewusster Kommunikation. Stattdessen erlebe ich weiterhin eine notenorientierte Ausrichtung in Ausbildung und allen anderen Lernumgebungen.

Die Kernthese: Komplexität verlangt Komplexität

Wenn du von einem Sprachmodell erwartest, dass es dir komplexe Aufgaben abnimmt, dann musst du in der Lage sein, es komplex ausstatten zu können. Nur so lässt sich ein präziser Denkraum betreten – einer, der sprachliches Bewusstsein voraussetzt und formt.

Das beschreibt den Kern meiner Arbeit mit diesen Systemen: Sie zwingen uns, bewusster zu formulieren, weil sie nur in der Klarheit unserer Sprache Klarheit zurückgeben.

World-Modelle verschärfen diese Anforderung noch: Sie verlangen nicht nur sprachliche Präzision, sondern ein Verständnis für Zustände, Dynamiken, kausale Zusammenhänge. Wer mit ihnen arbeiten will, muss verstehen, wie die Welt funktioniert – nicht nur, wie man über sie spricht.

Von der Textoptimierung zur Weltbetrachtung

Ich vermute, der Übergang vollzieht sich in mehreren Stufen, die in etwa wie folgt aussehen.

Vom statischen Muster zum dynamischen Modell

Websites werden zu Systemen, die reagieren, sich anpassen, Absichten erkennen. Genau diese Bewegung vollzieht sich in der künstlichen Intelligenz selbst.

Von der Textoptimierung zur Weltbetrachtung

Wenn du gelernt hast, präzise mit Sprachmodellen zu arbeiten, hast du den Übergang vom statischen Muster zum dynamischen Modell bereits vollzogen. Du entwickelst dich von der reinen Textkorrektur zur intellektuellen Auseinandersetzung.

Vom Satz zum Zustand, vom Wort zur Welt

Large Language Models bleiben an die Oberfläche der Sprache gebunden, an das, was über die Welt gesagt wurde. World Models dringen in die Struktur der Welt selbst vor. Sie können voraussagen, planen, eingreifen – durch das Antizipieren von Zuständen.

Der Moment: Wenn KI beginnt, Welt zu modellieren

Es ist der Moment, in dem künstliche Intelligenz beginnt, Welt zu modellieren. Sie tritt aus dem Satz hinaus in den Raum: in Labore, in Fabriken, in Energieflüsse und autonome Logistik.

Jede dieser Stufen bereitet vor, was sich am Horizont abzeichnet: World Models – Systeme, die nicht mehr nur Sprache verarbeiten, sondern Zustände modellieren, Dynamiken erfassen, unsere Welt abbilden.

Was das von uns verlangt

Kombinierte Strategien

Die Zukunft liegt nicht in der Wahl zwischen Sprachmodellen oder World-Modellen, sondern in ihrer Kombination:

LLMs für sprachliche Schnittstellen – Kommunikation, Planung, Erklärung
World-Models für physische Aktionen – Vorhersage, Steuerung, Eingriff
Jeweils mit klaren Fehlertoleranz-Analysen – Wo sind Fehler verkraftbar? Wo nicht?

Google Gemini Robotics zeigt diese Arbeitsteilung bereits: Ein Modell plant in natürlicher Sprache, das andere führt aus. Ob modulare Systeme oder End-to-End-Ansätze sich durchsetzen, ist offen. Sicher ist: Beide Paradigmen werden koexistieren.

Realistische Erwartungen

Als Einzelperson profitieren wir heute vor allem von LLM-gestützter Produktivitätssoftware. Diese Wiederholung sollte entfernt werden, da der Satz bereits im vorherigen Absatz steht: 'Als Einzelperson profitieren wir heute vor allem von LLM-gestützter Produktivitätssoftware.' World-Model-Anwendungen werden erst mit stabilerer Sim-to-Real-Performance massentauglich.

Der Weg misst sich in Jahren, nicht in Quartalen.

Die entscheidende Fähigkeit

Nicht die Technologie selbst, sondern unsere Fähigkeit, sie zu führen, zu hinterfragen und in sinnvolle Bahnen zu lenken, wird darüber entscheiden, wohin diese Entwicklung führt.

Gary Marcus fordert ein Umdenken – technisch wie gesellschaftlich. Yann LeCun zeigt die Grenzen heutiger Systeme auf. Mark Pelf warnt vor wiederholten Hype-Zyklen.

Mit dem Verweis auf diese Stimmen möchte ich daran erinnern, dass Fortschritt nicht notwendigerweise linear ist. Nicht jedes Versprechen lässt sich in die Realität umsetzen, und kritisches Denken bleibt die wichtigste menschliche Fähigkeit, die wir im Umgang mit diesem System brauchen werden.

Die eigentliche Veränderung liegt nicht in der Perfektion des einzelnen Modells, sondern in der Richtung: vom Satz zum Zustand, vom Wort zur Welt.

Der Übergang hat begonnen. Von Worten zu Welten.