Sie haben wahrscheinlich schon hundert Mal gehört, dass wir im Zeitalter der künstlichen Intelligenz leben. Dass Maschinen nun „intelligent” geworden sind. Dass sie verstehen, denken, lernen.
Vergessen Sie das wieder.
Zumindest, wenn es um Large Language Models geht – um Systeme wie ChatGPT, Claude oder Gemini. Denn was hier passiert, hat mit Intelligenz im menschlichen Sinne nichts zu tun. Es ist keine Magie. Kein Bewusstsein. Keine Absicht. Was wir hier vor uns haben, ist Mathematik. Sehr viel Mathematik, trainiert auf sehr vielen Texten.
Der Begriff „künstliche Intelligenz” ist historisch gewachsen und täuscht. Er suggeriert, dass in diesen Systemen etwas denkt, plant, reflektiert. Das ist nicht der Fall. Ein LLM ist kein denkendes Wesen. Es ist ein statistisches Modell, das auf Milliarden von Textbeispielen trainiert wurde und daraus gelernt hat, wie Sprache funktioniert – nicht inhaltlich, sondern strukturell.
Angenommen, Sie hätten Ihr ganzes Leben lang nur Bücher gelesen. Millionen davon. Und Sie hätten dabei – ohne es bewusst zu merken – ein feines Gespür dafür entwickelt, welches Wort typischerweise auf welches folgt. Wenn jemand sagt „Der Himmel ist…“, dann wissen Sie intuitiv: Das nächste Wort ist wahrscheinlich „blau”. Vielleicht auch „grau” oder „bewölkt”. Aber sicher nicht „Kartoffel”.
Genau das macht ein LLM. Nur dass es nicht intuitiv arbeitet, sondern mathematisch präzise. Es berechnet Wahrscheinlichkeiten.
Ein Large Language Model ist ein trainiertes neuronales Netz, das gelernt hat, auf Grundlage einer Eingabe das statistisch wahrscheinlichste nächste Textelement vorherzusagen. Nicht das richtige. Nicht das wahre. Sondern das wahrscheinliche. Das ist ein fundamentaler Unterschied, den Sie als Entwickler verstehen müssen, wenn Sie mit diesen Systemen arbeiten wollen.
Das Training funktioniert so: Man nimmt riesige Textmengen – Wikipedia, Bücher, Webseiten, wissenschaftliche Artikel, Forenbeiträge. Alles, was digitalisiert ist. Dann zerlegt man diese Texte in kleine Einheiten, sogenannte Tokens. Ein Token kann ein ganzes Wort sein, manchmal ein Wortteil, manchmal nur ein Zeichen. Das Modell lernt dann über Monate hinweg, bei Millionen von Beispielen, welche Token-Kombinationen zusammenpassen. Welche Muster es gibt. Welche Strukturen.
Am Ende dieses Trainings steht kein Verständnis. Sondern ein gigantisches Netz aus Gewichtungen und Parametern – Zahlen, die kodieren, wie wahrscheinlich bestimmte Wortkombinationen sind.
Was passiert also, wenn Sie ein LLM fragen: „Wie hoch ist der Mount Everest?”
Das Modell „versteht” Ihre Frage nicht. Es liest sie nicht, wie Sie einen Brief lesen würden. Stattdessen wandelt es Ihre Eingabe in Tokens um. Dann beginnt es, Token für Token eine Antwort zu generieren. Es schaut: Gegeben die bisherige Sequenz – was ist das wahrscheinlichste nächste Token?
„Der” könnte passen. „Mount” auch. „Everest” definitiv. „ist” folgt logisch. „8.849” kommt in vielen Trainingsdaten vor, wenn es um diese Frage geht. „Meter” passt als Einheit.
So entsteht Satz für Satz eine Antwort, die plausibel klingt. Die gut formuliert ist. Die überzeugend wirkt.
Aber: Sie ist nicht notwendigerweise korrekt.
Denn das Modell hat keine interne Datenbank, in der es nachschlagen kann. Es hat kein Gedächtnis im klassischen Sinne. Es hat nur seine Gewichtungen – statistisches Wissen darüber, wie Sprache funktioniert und welche Informationen in den Trainingsdaten häufig vorkamen. Wenn in den Trainingsdaten oft stand, dass der Mount Everest 8.849 Meter hoch ist, dann wird das Modell diese Zahl wahrscheinlich reproduzieren. Nicht weil es das weiß. Sondern weil es statistisch das Wahrscheinlichste ist.
Hier liegt die größte Falle für alle, die mit LLMs arbeiten: Diese Systeme sind brilliant darin, plausible Texte zu erzeugen. Sie können grammatikalisch perfekte Sätze bilden, Fachtermini korrekt verwenden, Argumentationsstrukturen nachahmen. Sie klingen kompetent. Manchmal klingen sie überzeugender als ein echter Experte.
Aber Plausibilität ist nicht Wahrheit.
Ein LLM kann Ihnen mit absoluter Überzeugung eine Jahreszahl nennen, die falsch ist. Es kann ein Buch zitieren, das nie geschrieben wurde. Es kann eine Programmiersprache-API beschreiben, die nicht existiert – aber absolut plausibel klingen würde, wenn sie existierte.
Warum? Weil das Modell nicht „lügt”. Es kann gar nicht lügen, denn Lügen setzt Absicht voraus. Stattdessen halluziniert es – es generiert Ausgaben, die statistisch passen, aber faktisch falsch sind. Wenn Sie fragen: „Welches Buch hat Marie Curie über Quantencomputing geschrieben?“, dann könnte ein LLM Ihnen einen Titel nennen. Nicht aus böser Absicht. Sondern weil die Token-Kombination „Marie Curie” + „Buch” + „Quantencomputing” zu einer plausiblen Antwort führen könnte, auch wenn sie faktisch absurd ist.
Das System weiß nicht, dass Marie Curie nie über Quantencomputing geschrieben hat. Es weiß überhaupt nichts. Es berechnet nur Wahrscheinlichkeiten.
Wenn Sie produktionsnahe Anwendungen mit LLMs bauen wollen, müssen Sie dieses Grundprinzip verinnerlichen. Sie arbeiten nicht mit einer Wissensdatenbank. Sie arbeiten nicht mit einer Suchmaschine. Sie arbeiten mit einem statistischen Sprachmodell, das extrem gut darin ist, menschenähnliche Texte zu erzeugen – aber keine Garantie für deren Korrektheit geben kann.
Das heißt nicht, dass LLMs nutzlos sind. Im Gegenteil. Sie sind mächtige Werkzeuge. Aber Sie müssen verstehen, wie sie funktionieren, um sie richtig einzusetzen. Sie müssen Strategien entwickeln, um ihre Ausgaben zu validieren. Sie müssen wissen, wann Sie ihnen vertrauen können und wann nicht.
Ein LLM ist kein Partner, der mit Ihnen denkt. Es ist ein Werkzeug, das Muster in Sprache erkennt und reproduziert. Brillant in der Form. Unsicher im Inhalt.