KI-Glossar: 52 Schlüsselbegriffe erklärt, von Token bis Benchmarks

Q: Was ist der Unterschied zwischen LLMs und NLP?

NLP (Natural Language Processing) ist das breitere Feld, das Computer dazu befähigt, menschliche Sprache zu verstehen. LLMs (Large Language Models) sind die leistungsstärksten NLP-Tools, die je gebaut wurden -- Transformer-basierte Modelle, die auf riesigen Textmengen trainiert wurden. Alle LLMs sind NLP, aber NLP umfasst viele weitere Techniken jenseits von LLMs.

Q: Was sind Token in der KI?

Token sind die kleinsten Texteinheiten, die Sprachmodelle verarbeiten -- ungefähr vier Zeichen oder 0,75 Wörter pro Token. Jede KI-Interaktion wird in Token gemessen, und die API-Preise werden pro Million Token berechnet. Token zu verstehen hilft dir, Kosten zu steuern und zu wissen, warum manche Antworten abgeschnitten werden.

KI entwickelt sich schnell. Das Vokabular entwickelt sich noch schneller -- und die meisten Glossare liefern dir eine Definition, ohne zu erklären, warum der Begriff wichtig ist oder wie er mit allem anderen zusammenhängt. Dieses KI-Glossar funktioniert anders. Jeder Begriff baut auf dem vorherigen auf, sodass du am Ende nicht nur weißt, was ein Transformer ist, sondern auch verstehst, warum er alles verändert hat.

Wir haben dieses Glossar nach Konzept-Clustern organisiert, nicht alphabetisch. Jeder Abschnitt baut auf dem vorherigen auf, sodass du beim Lesen von vorne nach hinten ein mehrschichtiges Verständnis davon erhältst, wie KI-Systeme funktionieren. Jeder Begriff enthält eine Definition in einfacher Sprache, warum er in der Praxis wichtig ist und explizite Verbindungen zu verwandten Konzepten. Du kannst aber gerne zu einem beliebigen Abschnitt springen -- jeder Begriff steht für sich allein. Setze ein Lesezeichen für diese Seite und komm zurück, wenn dich ein Begriff verwirrt.

Kernkonzepte

Künstliche Intelligenz (KI)

KI ist jedes System, das Aufgaben ausführt, die normalerweise menschliche Intelligenz erfordern -- Bilder erkennen, Sprachen übersetzen, Entscheidungen treffen. Es gibt jedoch einen entscheidenden Unterschied in der Funktionsweise von KI-Systemen.

Traditionelle KI folgt vorprogrammierten Regeln. Ein Spamfilter, der nach verbotenen Schlüsselwörtern sucht, ist traditionelle KI: reaktiv, deterministisch, beschränkt auf das, was Ingenieure explizit programmiert haben. Generative KI lernt Muster aus riesigen Datensätzen und erstellt aus diesen Mustern neue Inhalte -- Text, Bilder, Code, Audio. Sie ist proaktiv statt reaktiv und produziert Ergebnisse, die ihre Schöpfer nie explizit programmiert haben.

Wenn Menschen im Jahr 2026 von "KI" sprechen, meinen sie fast immer generative KI. Der Rest dieses Glossars folgt diesem Ansatz.

Warum das wichtig ist

Es ist grundlegend wichtig, den Unterschied zwischen traditioneller KI und generativer KI zu verstehen. Wenn Menschen im Jahr 2026 von "KI" sprechen, meinen sie fast immer generative KI -- diese Unterscheidung zu kennen, verhindert Verwirrung in jeder Unterhaltung über diese Technologie.

Generative KI

Generative KI erstellt neue Inhalte, indem sie Muster aus Trainingsdaten lernt und diese Muster dann anwendet, um originelle Ergebnisse zu produzieren. Wenn du sie bittest, eine E-Mail zu schreiben, generiert sie Wort für Wort auf der Grundlage statistischer Muster, die sie während des Trainings gelernt hat.

Die Tools, die du wahrscheinlich schon kennst -- ChatGPT, Claude, Gemini, DALL-E -- sind alle generative KI. Jedes verwendet eine andere Modellarchitektur, aber sie teilen denselben grundlegenden Ansatz: Muster lernen, dann generieren.

Warum das wichtig ist

Generative KI ist die Kategorie hinter jedem wichtigen KI-Tool im Jahr 2026. Das Verständnis, dass sie durch die Vorhersage von Mustern erstellt -- und nicht durch Verstehen --, schafft realistische Erwartungen daran, was diese Tools leisten können und was nicht.

Maschinelles Lernen (ML)

Maschinelles Lernen ist der Teilbereich der KI, in dem Systeme aus Daten lernen, anstatt fest programmierten Regeln zu folgen. Es gibt drei Arten:

Überwachtes Lernen trainiert mit gekennzeichneten Daten. Zeige dem Modell Tausende von Fotos, die mit "Katze" und "Hund" getaggt sind, und es lernt, sie voneinander zu unterscheiden.
Unüberwachtes Lernen entdeckt Muster in unmarkierten Daten. Gib ihm Kaufhistorien von Kunden ohne Kategorien, und es findet selbstständig natürliche Gruppierungen.
Bestärkendes Lernen lernt durch Versuch und Irrtum, erhält Belohnungen für gute Ergebnisse und Strafen für schlechte -- derselbe Ansatz, der auch hinter spielender KI steckt.

Alle generativen KI basieren auf maschinellem Lernen. Der nächste Begriff grenzt den Fokus weiter ein.

Warum das wichtig ist

Maschinelles Lernen ist der Motor hinter jeder generativen KI. Wenn du die drei Arten -- überwachtes, unüberwachtes und bestärkendes Lernen -- kennst, verstehst du besser, warum sich Modelle so verhalten und welcher Ansatz für welches Problem geeignet ist.

Deep Learning

Deep Learning ist eine Untergruppe des maschinellen Lernens, die neuronale Netze mit vielen Schichten verwendet -- mindestens vier, oft Hunderte oder Tausende. Diese Schichten ermöglichen es dem Modell, zunehmend abstrakte Darstellungen von Daten zu lernen: Frühe Schichten erkennen möglicherweise Kanten in einem Bild, während tiefere Schichten Gesichter erkennen.

Deep Learning hat moderne generative KI möglich gemacht.

Warum das wichtig ist

Deep Learning ist der Durchbruch, der moderne generative KI möglich gemacht hat. Ohne tiefe mehrschichtige neuronale Netze gäbe es keine Transformer, LLMs oder andere Tools, die KI heute ausmachen.

Wie KI-Modelle aufgebaut sind

Neuronales Netz

Ein neuronales Netz stapelt einfache Verarbeitungseinheiten, sogenannte Neuronen, in Schichten. Jedes Neuron berechnet eine gewichtete Summe seiner Eingaben, fügt einen Bias-Term hinzu und leitet das Ergebnis dann durch eine nichtlineare Aktivierungsfunktion. Das Netzwerk lernt, indem es diese Gewichte und Bias-Terme so lange anpasst, bis seine Ausgaben mit den erwarteten Ergebnissen übereinstimmen. Eine ausführlichere technische Erklärung findest du im IBM-Leitfaden zu neuronalen Netzen.

Stell dir das wie eine Reihe von Filtern vor. Rohdaten gelangen in die erste Schicht. Jede nachfolgende Schicht verfeinert das Signal und extrahiert zunehmend nützlichere Muster. Die letzte Schicht erzeugt die Ausgabe -- eine Klassifizierung, eine Vorhersage oder ein generiertes Token.

Warum das wichtig ist

Neuronale Netze sind die grundlegende Architektur für alle modernen KI-Systeme. Das Verständnis, wie Schichten von Neuronen Daten verarbeiten und verfeinern, erklärt, warum KI-Systeme Muster lernen können, die für die traditionelle Programmierung zu komplex sind.

Transformer

Der Transformer ist die neuronale Netzwerkarchitektur, die hinter allen heutigen großen KI-Modellen steht. Er wurde 2017 in der Veröffentlichung Attention is All You Need (Vaswani et al., 2017) vorgestellt und löste ein grundlegendes Problem: Frühere Architekturen (RNNs) verarbeiteten Sequenzen Element für Element, was langsam war und es schwierig machte, Beziehungen zwischen weit voneinander entfernten Wörtern zu erfassen.

Transformer verwenden einen Mechanismus namens Selbstaufmerksamkeit (Self-Attention), der alle Teile einer Eingabe gleichzeitig auswertet und bestimmt, welche Elemente füreinander am relevantesten sind. Durch diese parallele Verarbeitung konnten Transformer schneller trainiert werden und langfristige Abhängigkeiten im Text besser erfassen.

Zwei wichtige Untertypen existieren. Encoder-only-Modelle (wie BERT) eignen sich hervorragend zum Verstehen von Text -- Klassifizierung, Suche, Sentimentanalyse. Decoder-only-Modelle (wie GPT) eignen sich hervorragend zum Generieren von Text -- Schreiben, Programmieren, Konversation. Die meisten modernen Chatbots verwenden Decoder-only-Transformer.

Warum das wichtig ist

Die Transformer-Architektur hat alles verändert. Ihr Selbstaufmerksamkeitsmechanismus ermöglichte eine parallele Verarbeitung, die das Training mit riesigen Datensätzen möglich machte -- was direkt zu den LLMs und KI-Tools führte, die wir heute verwenden.

Großes Sprachmodell (LLM)

Ein LLM ist ein Transformer-basiertes Modell, das mit riesigen Mengen an Textdaten vortrainiert wurde -- Quellen wie Common Crawl (über 50 Milliarden Webseiten) und Wikipedia (über 60 Millionen Seiten in allen Sprachen). LLMs enthalten Hunderte von Milliarden bis Billionen von Parametern und können Texte generieren, zusammenfassen, übersetzen und darüber reflektieren.

Das "Large" in LLM bezieht sich sowohl auf die Trainingsdaten als auch auf die Anzahl der Parameter.

Warum das wichtig ist

LLMs sind die Modelle hinter ChatGPT, Claude, Gemini und allen großen KI-Chatbots. Wenn du ihre Größe verstehst -- trainiert auf Milliarden von Webseiten mit Billionen von Parametern --, verstehst du sowohl ihre Fähigkeiten als auch ihre Grenzen.

Parameter

Parameter sind die internen Variablen -- Gewichte, Bias-Terme und Einbettungen --, die ein Modell während des Trainings anpasst, um seine Vorhersagen zu verbessern. Gewichte steuern, wie stark jede Eingabe die Entscheidungen des Modells beeinflusst. Bias-Terme verschieben Entscheidungsschwellen.

Größenvergleiche verdeutlichen die Zahlen: GPT-3 hat 175 Milliarden Parameter. GPT-4 wird auf 1,76 Billionen geschätzt. DeepSeek R1 hat 671 Milliarden.

Aber mehr Parameter bedeuten nicht automatisch ein besseres Modell. Architektur, Qualität der Trainingsdaten und Trainingstechniken sind ebenso wichtig oder sogar noch wichtiger. DeepSeek R1 mit 671 Milliarden Parametern übertrifft einige Modelle mit höherer Parameteranzahl in bestimmten Benchmarks.

Warum das wichtig ist

Die Parameteranzahl ist die am häufigsten zitierte Modellspezifikation, aber auch die am meisten missverstandene. Wenn du weißt, dass Architektur und Trainingsqualität genauso wichtig sind wie die reine Parameteranzahl, vermeidest du es, größer mit besser gleichzusetzen.

Einbettungen

Einbettungen sind numerische Darstellungen, die Bedeutungen erfassen. Sie wandeln Wörter, Sätze oder ganze Dokumente in mehrdimensionale Vektoren um -- Arrays von Zahlen, in denen semantisch ähnliche Elemente im Vektorraum nahe beieinander liegen.

Die Wörter "König" und "Königin" würden nahe beieinander liegen. Ebenso "Paris" und "Frankreich". Diese räumliche Beziehung ermöglicht es KI-Systemen, Ähnlichkeiten, Analogien und Zusammenhänge zu verstehen, ohne dass ihnen diese Verbindungen explizit beigebracht werden müssen.

Zu den wichtigsten Algorithmen gehören Word2Vec (erfasst Wortassoziationen) und BERT (erfasst kontextuelle Wortbedeutungen -- "Bank" in der Nähe von "Fluss" vs. "Bank" in der Nähe von "Geld"). Einbettungen sind die Grundlage für alles, von Such- bis hin zu Empfehlungssystemen.

Die Architektur-Pipeline ist nun klar: Neuronale Netze bilden den Rahmen für das Lernen, Transformer verarbeiten Sequenzen parallel, LLMs skalieren Transformer mit riesigen Datenmengen, Parameter definieren das gelernte Wissen des Modells und Einbettungen repräsentieren Bedeutungen als Vektoren.

Warum das wichtig ist

Einbettungen sind die Art und Weise, wie KI Sprache in Mathematik umwandelt. Sie sind die Grundlage für Such-, Empfehlungs- und RAG-Systeme -- wenn du sie verstehst, wird klar, warum KI auch dann verwandte Konzepte finden kann, wenn die genauen Schlüsselwörter nicht übereinstimmen.

Wie KI liest und reagiert

Token

Ein Token ist die kleinste Texteinheit, die Sprachmodelle verarbeiten. Ein Token entspricht etwa vier Zeichen oder 0,75 Wörtern. Der Satz "Wie geht es dir heute?" ergibt ungefähr sechs Token.

Jede Interaktion mit einem KI-Modell -- Eingabe und Ausgabe -- wird in Token gemessen. Das ist wichtig, denn Token sind das, wofür du bezahlst. API-Preise werden pro Million verarbeiteter Token berechnet.

Token sind nicht auf Text beschränkt. Bilder verwenden etwa 258 Token pro Kachel, Video 263 Token pro Sekunde und Audio 32 Token pro Sekunde. Das Verständnis von Token ist unerlässlich, um Kosten zu verwalten und zu wissen, warum manche Antworten abgeschnitten werden.

Warum das wichtig ist

Token sind das, wofür du bezahlst. Jede KI-API wird nach verarbeiteten Token berechnet, und jedes Kontextfenster wird in Token gemessen. Das Verständnis der Token-Ökonomie ist für die Kostenkontrolle und die Qualität der Ausgabe unerlässlich.

Kontextfenster

Das Kontextfenster ist der Arbeitsspeicher des Modells -- die Gesamtzahl der Token, die es gleichzeitig berücksichtigen kann. Stell dir Token als Einheit vor; das Kontextfenster ist die Kapazität.

Die aktuellen Größen variieren stark: Claude bietet ein Kontextfenster mit bis zu 1 Million Token (GA für Opus 4.6 und Sonnet 4.6), Gemini 2.0 Flash verarbeitet etwa 1 Million Token und GPT-5.2 bietet bis zu 400.000 Token. Ein größeres Kontextfenster bedeutet, dass das Modell längere Dokumente verarbeiten und die Kohärenz über längere Konversationen hinweg aufrechterhalten kann.

Der Kompromiss: Größere Fenster erhöhen die Genauigkeit und reduzieren Halluzinationen, erfordern jedoch quadratisch mehr Rechenleistung. Eine Verdopplung des Fensters verdoppelt nicht die Kosten -- sie vervierfacht sie in etwa.

Warum das wichtig ist

Das Kontextfenster bestimmt, mit wie vielen Informationen ein Modell gleichzeitig arbeiten kann. Es hat direkten Einfluss darauf, ob du lange Dokumente verarbeiten, die Kohärenz von Gesprächen aufrechterhalten und Halluzinationen reduzieren kannst -- und es hat erhebliche Auswirkungen auf die Kosten.

knowledge cutoff (Wissensstichtag)

Der Knowledge Cutoff ist das Datum, nach dem die Trainingsdaten eines Modells keine Informationen mehr enthalten. Ereignisse, Veröffentlichungen und Entwicklungen nach diesem Datum sind dem Modell unbekannt -- es sei denn, sie werden über Web Search Grounding, RAG oder explizite Kontext-Einspeisung bereitgestellt.

Aktuelle Stichtage (Februar 2026): GPT-5.2 hat einen Cutoff vom 31. August 2025. Claude Opus 4.6 hat einen Cutoff von Mai 2025. Gemini 3 Pro hat einen Cutoff von Januar 2025.

Entscheidend: Modelle kennen ihren eigenen Cutoff nicht genau und können auf Fragen zu Ereignissen nach dem Stichtag mit halluzinierten, plausibel klingenden Informationen antworten. Die Gegenmaßnahme ist Web Search Grounding: ChatGPT Search (Bing), Geminis Google-Integration und Copilots Bing-Zugang rufen Echtzeitinformationen ab, um das Trainingswissen zu ergänzen.

Warum das wichtig ist

Der Knowledge Cutoff erklärt, warum KI-Tools selbstbewusst falsche Antworten zu aktuellen Ereignissen geben -- sie füllen Lücken mit statistischer Wahrscheinlichkeit statt mit Fakten. Verwende immer Web Search Grounding für aktuelle Fragen und überprüfe zeitkritische Aussagen aus jeder KI-Antwort.

Prompt-Engineering

Prompt-Engineering ist die Praxis, deine Eingaben so zu strukturieren, dass das Modell bessere Ergebnisse liefert. Dieselbe Frage, anders formuliert, kann zu dramatisch unterschiedlichen Ergebnissen führen.

Wichtige Techniken:

Zero-Shot-Prompting: Frage direkt, ohne Beispiele. "Übersetze das ins Französische."
Few-Shot-Prompting: Gib Beispiele für das gewünschte Muster. Zeige drei Übersetzungen und frage dann nach einer vierten.
Chain-of-Thought-Prompting: Bitte das Modell, Schritt für Schritt zu argumentieren, was die Genauigkeit bei komplexen Problemen verbessert.
Role Prompting: Weise eine Rolle zu. "Du bist ein leitender Datenanalyst. Überprüfe diesen Datensatz."
Prompt Chaining: Verknüpfe mehrere Prompts für komplexe Aufgaben -- zuerst zusammenfassen, dann analysieren, dann empfehlen.

Diese Techniken zu beherrschen ist der schnellste Weg, um mehr Wert aus jedem KI-Tool zu ziehen. In unserer KI-Prompt-Sammlung findest du gebrauchsfertige Beispiele.

Warum das wichtig ist

Prompt-Engineering ist der schnellste Weg, um deine KI-Ergebnisse zu verbessern. Dasselbe Modell kann mittelmäßige oder hervorragende Ergebnisse liefern, je nachdem, wie du deine Eingaben strukturierst.

Chain-of-Thought-Prompting

Chain-of-Thought (CoT) Prompting weist das Modell an, ein Problem Schritt für Schritt durchzuarbeiten, bevor es seine endgültige Antwort gibt. Anstatt direkt zu einer Schlussfolgerung zu springen, zeigt das Modell seine Argumentation.

Die einfachste Umsetzung: Füge "Denke Schritt für Schritt" oder "Zeige deine Argumentation" an den Prompt an. Few-Shot CoT geht weiter: Zeige zwei oder drei ausgearbeitete Beispiele schrittweiser Argumentation und präsentiere dann das Zielproblem.

Warum es mechanisch funktioniert: Autoregressive Modelle generieren jedes Token basierend auf vorherigen Token. Wenn das Modell gezwungen wird, Zwischenschritte der Argumentation zu generieren, verbessert die Aufmerksamkeit des Modells auf diese sichtbaren Schritte die Qualität der endgültigen Antwort -- die geschriebene Argumentation dient als Gerüst, mit dem die Vervollständigung konsistent sein muss.

CoT fügt Token (und damit Kosten und Latenz) zu jeder Anfrage hinzu. Extended-Thinking-Modi in Claude, ChatGPT und Gemini automatisieren CoT intern, sodass manuelles CoT-Prompting vor allem bei der Verwendung von Basismodellen oder APIs ohne eingebaute Denk-Modi relevant ist.

Warum das wichtig ist

Chain-of-Thought-Prompting ist die wirkungsvollste Prompting-Technik für komplexe Probleme. Die sichtbare Argumentation verbessert die Genauigkeit -- nicht nur die Transparenz --, weshalb Extended-Thinking-Modi diese Technik im Wesentlichen auf Modellebene automatisieren.

System-Prompt

Ein System-Prompt ist eine Reihe von Anweisungen, die einem KI-Modell vor jeder Benutzerinteraktion gegeben werden. Er definiert die Persona, den Ton, den Aufgabenbereich, Einschränkungen und den dauerhaften Kontext des Modells -- ohne dass der Benutzer diese in jeder Nachricht wiederholen muss.

Beispiele für effektive System-Prompt-Inhalte:

Persona: "Du bist ein erfahrener Finanzanalyst. Zitiere immer Datenquellen."
Einschränkungen: "Diskutiere nur Themen, die sich auf unser Produkt beziehen. Leite themenfremde Fragen höflich um."
Format-Regeln: "Antworte immer in Aufzählungspunkten. Verwende britisches Englisch."
Kontext: "Das Unternehmen des Benutzers ist Acme Corp. Ihr Hauptmarkt ist Healthcare-IT."

System-Prompts sind der primäre Mechanismus zur Anpassung des KI-Verhaltens in Produktionsanwendungen. API-Nutzer setzen sie programmatisch pro Sitzung. Verbraucherprodukte wie ChatGPT und Claude bieten sie über die Einstellungen für benutzerdefinierte Anweisungen an.

Warum das wichtig ist

System-Prompts sind die Möglichkeit, Anforderungen einmalig in das KI-Verhalten zu kodieren, anstatt sie in jeder Konversation zu wiederholen. Für Entwickler, die KI-Produkte bauen, ist der System-Prompt die primäre Steuerungsfläche. Für Power-User erschließt die Beherrschung der benutzerdefinierten Anweisungen konsistentes, personalisiertes Verhalten.

Temperatur

Die Temperatur steuert die Zufälligkeit der Ausgabe eines Modells während der Inferenz. Sie skaliert die Wahrscheinlichkeitsverteilung über die Vorhersagen für das nächste Token über die Softmax-Funktion.

Niedrige Temperatur (0,0--0,3) erzeugt fokussierte, deterministische Ergebnisse -- ideal für faktische Aufgaben, Codegenerierung und Datenextraktion. Das Modell wählt fast immer das Token mit der höchsten Wahrscheinlichkeit.

Hohe Temperatur (über 1,0) glättet die Wahrscheinlichkeitskurve und gibt Token mit geringerer Wahrscheinlichkeit eine bessere Chance, ausgewählt zu werden. Dies erhöht die Vielfalt, kann aber auch zu unsinnigen Ergebnissen führen.

Ein häufiges Missverständnis: Die Temperatur steuert nicht die "Kreativität". Das Modell wird bei höheren Einstellungen nicht intelligenter. Es wird zufälliger. Die Qualitätsobergrenze bleibt gleich; die Untergrenze sinkt.

Warum das wichtig ist

Wenn du weißt, wie die Temperatur funktioniert, kannst du die KI-Ausgabe für deine spezifische Aufgabe optimieren. Niedrig für faktische Präzision, moderat für ausgewogenes Schreiben -- und mit dem Verständnis, dass hohe Temperatur mehr Zufälligkeit bedeutet, nicht mehr Kreativität.

structured outputs (strukturierte Ausgaben)

Structured Outputs ist eine KI-Fähigkeit, die das Modell dazu zwingt, Daten in einem vorgegebenen Format zurückzugeben -- typischerweise JSON, XML oder ein benutzerdefiniertes Schema -- anstelle von Freitext. Du definierst die erwartete Struktur; das Modell garantiert, dass es Daten erzeugt, die dieser entsprechen.

Beispiel: Anstatt zu fragen "Welche Schlüsseldaten enthält dieser Vertrag?" (Freitext-Antwort), gibst du ein JSON-Schema mit den Feldern {party_name, effective_date, termination_date, notice_period} an -- und das Modell füllt jedes Feld zuverlässig aus.

Structured Outputs unterscheiden sich davon, das Modell zu bitten, "bitte als JSON zu formatieren". Dieser Ansatz erzeugt meistens valides JSON. Echte Structured Outputs verwenden eingeschränktes Decoding (Constrained Decoding), um die Format-Konformität zu garantieren -- das Modell kann physisch keine Token erzeugen, die das Schema verletzen würden.

Unterstützt von: GPT-5.2 API (Strict Mode), Gemini API (JSON-Modus mit Schema), Claude API (Tool Use als Structured-Output-Mechanismus).

Warum das wichtig ist

Structured Outputs verwandeln KI von einem Textgenerator in einen zuverlässigen Datenverarbeiter. Wenn nachgelagerter Code auf das Parsen von KI-Ausgaben angewiesen ist, brauchst du Format-Garantien, nicht Wahrscheinlichkeiten -- Structured Outputs sind das, was KI-Integrationen produktionsreif macht.

Inferenz

Inferenz ist das, was jedes Mal passiert, wenn du einen Prompt sendest -- das Modell generiert eine Ausgabe aus deiner Eingabe. Wenn Training die Schule ist, dann ist Inferenz der Job.

Drei Phasen finden während der Inferenz statt: Prefill (gleichzeitige Verarbeitung aller Eingabe-Token), Decode (einzelne Generierung von Ausgabe-Token) und Ausgabekonvertierung (Umwandlung von Token in lesbaren Text).

Die Inferenz muss schnell sein, da sie in Echtzeit erfolgt. Und jedes generierte Token kostet Geld. Das Training findet einmal statt und dauert Tage oder Wochen. Die Inferenz findet millionenfach pro Tag statt und muss in Sekundenschnelle abgeschlossen sein.

Warum das wichtig ist

Bei der Inferenz fallen alle Kosten an. Das Training findet einmal statt; die Inferenz jedes Mal, wenn jemand einen Prompt sendet. Diesen Unterschied zu verstehen erklärt, warum API-Preise und Antwortgeschwindigkeit so wichtig sind.

latency (Latenz)

Latenz in der KI misst die Zeit zwischen dem Senden einer Anfrage und dem Empfang einer Antwort. Zwei Werte sind in der Praxis relevant:

Time to First Token (TTFT): Wie lange es dauert, bis das Modell beginnt, eine Ausgabe zu streamen. Entscheidend für interaktive Oberflächen -- 500 ms TTFT fühlt sich träge an; unter 200 ms fühlt sich sofort an. ChatGPTs Advanced Voice Mode zielt auf durchschnittlich 232 ms TTFT.

End-to-End-Latenz: Gesamtzeit bis zur vollständigen Antwort. Skaliert mit der Ausgabelänge, weil autoregressive Generierung Token sequenziell erzeugt -- eine Antwort mit 1.000 Token dauert immer länger als eine mit 100 Token.

Drei Hebel bestimmen die Latenz: Modellgröße (größere Modelle sind auf vergleichbarer Hardware langsamer), Hardware (spezialisierte Inferenz-Chips reduzieren TTFT erheblich) und Ausgabelänge (unvermeidlich linear). Extended-Thinking-Modi fügen je nach Argumentationstiefe 2--30 Sekunden hinzu.

Warum das wichtig ist

Latenz bestimmt, ob sich ein KI-System reaktionsschnell anfühlt. Für Echtzeitanwendungen wie Sprache und Live-Coding ist TTFT die entscheidende Metrik. Für Batch-Verarbeitung zählt die End-to-End-Zeit. Zu wissen, welche Hebel die Latenz steuern, hilft dir, Geschwindigkeit gegen Ausgabequalität abzuwägen.

Training, Fine-Tuning und Aktualisierung von Modellen

Trainingsdaten

Trainingsdaten sind die Informationen, aus denen ein Modell lernt. Sie können beschriftet (jeder Datenpunkt ist mit der richtigen Antwort versehen, wird beim überwachten Lernen verwendet) oder unbeschriftet (Rohdaten, in denen das Modell selbst Muster findet) sein.

Qualität ist wichtiger als Quantität. Ein Modell, das mit sorgfältig kuratierten, vielfältigen und gut strukturierten Daten trainiert wurde, übertrifft ein Modell, das mit einem größeren, aber verrauschten Datensatz trainiert wurde. Die Vorbereitung umfasst das Sammeln, Bereinigen, Transformieren, Feature Engineering und Aufteilen in Trainings-, Validierungs- und Testsätze.

Warum das wichtig ist

Die Qualität der Trainingsdaten ist der wichtigste Faktor für die Modellleistung. "Garbage in, garbage out" gilt für KI mehr als für jeden anderen Bereich -- voreingenommene oder verrauschte Daten führen zu voreingenommenen oder unzuverlässigen Modellen.

Training (KI-Modelltraining)

Training ist der Prozess, bei dem das Modell durch die Bereitstellung von Daten und die Anpassung seiner Parameter lernt. Der Zyklus wiederholt sich millionenfach: Eingabedaten fließen durch das Netzwerk (Forward Pass), die Vorhersagen des Modells werden mit den erwarteten Ergebnissen verglichen (Fehlerberechnung), Fehler werden rückwärts durch die Schichten weitergegeben (Backpropagation) und die Gewichte werden über Gradientenabstieg aktualisiert.

Dies ist eine rechenintensive Arbeit. Das Training von Llama 3.1 (405 Milliarden Parameter) erforderte etwa 38 Yottaflops -- das sind 3,8 x 10^25 mathematische Operationen. Das Training dauert Tage oder Wochen auf Clustern mit spezieller Hardware.

Der entscheidende Unterschied: Das Training findet einmal (oder selten) statt. Die Inferenz findet jedes Mal statt, wenn jemand einen Prompt sendet. Die nächsten beiden Begriffe behandeln Möglichkeiten, ein trainiertes Modell anzupassen, ohne von vorne zu beginnen.

Warum das wichtig ist

Das Training ist die teuerste und zeitaufwändigste Phase beim Aufbau eines KI-Modells. Das Verständnis des Forward-Pass- und Backpropagation-Zyklus erklärt, warum ein erneutes Training von Grund auf vermieden wird und warum Fine-Tuning und RAG als Alternativen existieren.

Fine-Tuning

Fine-Tuning passt ein vortrainiertes Modell an eine bestimmte Aufgabe oder Domäne an. Anstatt von Null an zu trainieren, nimmst du ein bestehendes Modell und verfeinerst es mit speziellen Daten.

Drei Hauptansätze:

Vollständiges Fine-Tuning aktualisiert alle Parameter. Effektiv, aber teuer.
Parametereffizientes Fine-Tuning (PEFT) aktualisiert nur eine kleine Teilmenge. LoRA (Low-Rank Adaptation) ist die beliebteste Technik -- sie fügt kleine trainierbare Matrizen in Transformer-Schichten ein und reduziert so die Anzahl der zu aktualisierenden Parameter um ein Vielfaches. LoRA kann auf Consumer-GPUs mit 24 GB Speicher ausgeführt werden.
RLHF (Reinforcement Learning from Human Feedback) trainiert ein Belohnungsmodell anhand menschlicher Bewertungen und optimiert dann das LLM, um diese Belohnungswerte zu maximieren. Auf diese Weise hat ChatGPT gelernt, hilfreich statt schädlich zu sein.

Der Mythos, dass Fine-Tuning enorme Rechenleistung erfordert, ist überholt. LoRA hat die Spielregeln verändert.

Warum das wichtig ist

Mit Fine-Tuning kannst du ein Allzweckmodell für deinen spezifischen Bereich anpassen, ohne bei Null anfangen zu müssen. Mit LoRA ist dies nun auf handelsüblicher Hardware möglich -- die Barriere für maßgeschneiderte KI ist gefallen.

RAG (Retrieval-Augmented Generation)

RAG ergänzt das Wissen eines Modells zum Zeitpunkt der Inferenz durch externe Daten. Anstatt sich ausschließlich auf das zu verlassen, was das Modell während des Trainings gelernt hat, ruft RAG relevante Informationen aus einer externen Wissensdatenbank ab und fügt sie in den Prompt ein.

Der Prozess umfasst vier Schritte: Die externen Daten als Vektoren einbetten, die relevantesten Abschnitte basierend auf der Benutzeranfrage abrufen, den Prompt mit dem abgerufenen Kontext ergänzen und eine Antwort generieren, die diesen Kontext einbezieht.

RAG ist kostengünstig (kein erneutes Training erforderlich), hält Informationen aktuell und ermöglicht die Quellenangabe. Es ersetzt jedoch nicht das Training -- es ergänzt es. Ein schlecht trainiertes Modell liefert selbst bei perfektem Abruf keine guten Ergebnisse.

Der Fortschritt: Fine-Tuning verändert das Modell selbst. RAG verändert, was das Modell zum Zeitpunkt der Inferenz sieht.

Warum das wichtig ist

RAG ist der praktischste Weg, um KI-Antworten aktuell und auf deinen eigenen Daten basierend zu halten -- ohne die Kosten und die Komplexität eines erneuten Trainings. Es ist die Grundlage der meisten KI-Implementierungen in Unternehmen.

Zuverlässigkeit und Sicherheit

Halluzination

Eine Halluzination tritt auf, wenn ein Modell plausibel klingende, aber sachlich falsche Inhalte generiert. Das Modell lügt nicht -- es sagt lediglich das statistisch wahrscheinlichste nächste Token voraus, ohne über einen Mechanismus zur Faktenprüfung zu verfügen.

Ursachen sind unter anderem eine Überanpassung an die Trainingsdaten, verzerrte Datensätze und die grundlegende Natur statistischer Vorhersagen. Führende Modelle weisen Halluzinationsraten von nur 0,7 %--0,9 % auf, während viele weit verbreitete Modelle zwischen 2 % und 5 % liegen.

Zwei Faktoren aus früheren Abschnitten stehen in direktem Zusammenhang: Höhere Temperatur erhöht die Zufälligkeit und kann die Halluzinationsraten erhöhen. Größere Kontextfenster tragen dazu bei, Halluzinationen zu reduzieren, indem sie dem Modell mehr relevante Informationen zur Verfügung stellen. Das Verständnis beider Konzepte hilft dir, das Halluzinationsrisiko in der Praxis zu bewältigen.

Warum das wichtig ist

Halluzinationen sind das größte Zuverlässigkeitsrisiko bei KI. Modelle generieren ohne interne Faktenprüfung selbstbewusst falsche Informationen. Die Kenntnis der Ursachen -- und wie Temperatur und Kontextfenster die Raten beeinflussen -- ist für einen verantwortungsvollen Einsatz von KI unerlässlich.

KI-Verzerrung

KI-Verzerrung bezieht sich auf systematische Fehler, die zu unfairen Ergebnissen führen. Drei Hauptursachen sind dafür verantwortlich:

Verzerrte Trainingsdaten -- wenn bestimmte Gruppen im Datensatz unterrepräsentiert sind, übernimmt das Modell diese Lücken.
Algorithmische Verzerrung -- Designentscheidungen in der Modellarchitektur, die bestehende Muster verstärken.
Menschliche Interpretationsverzerrung -- Menschen, die Modellausgaben anwenden, ohne Annahmen zu hinterfragen.

Zur Minderung sind vielfältige, repräsentative Trainingsdaten, regelmäßige Fairness-Audits und menschliche Aufsicht an Entscheidungspunkten erforderlich. Kein Modell ist frei von Verzerrungen, aber das Bewusstsein für diese Ursachen ist der erste Schritt zu einer verantwortungsvollen Nutzung.

Warum das wichtig ist

Verzerrungen in der KI führen zu realen Schäden, wenn Modelle Entscheidungen treffen, die Menschen betreffen. Das Verständnis der drei Ursachen -- Daten, Algorithmus und menschliche Interpretation -- ist der erste Schritt zum verantwortungsvollen Aufbau und Einsatz von KI.

Guardrails

Guardrails sind technische und verfahrenstechnische Kontrollen, die KI-Systeme innerhalb sicherer Grenzen halten. Sie wirken auf drei Ebenen:

Eingabefilterung überprüft, was das Modell erhält -- und blockiert Prompt-Injection-Versuche, die Offenlegung personenbezogener Daten und schädliche Anfragen.
Verarbeitungsbeschränkungen begrenzen das Verhalten des Modells während der Generierung -- sie setzen Themenbegrenzungen und Compliance-Regeln durch.
Ausgabekontrolle validiert Antworten, bevor sie den Benutzer erreichen -- sie überprüft auf schädliche Inhalte, faktische Konsistenz und Richtlinienkonformität.

Guardrails machen Modelle nicht unfehlbar. Sie machen die Risiken beherrschbar. Jede produktive KI-Implementierung benötigt sie.

Warum das wichtig ist

Jeder produktive KI-Einsatz benötigt Guardrails. Sie machen den Unterschied zwischen einem nützlichen Werkzeug und einer unvorhersehbaren Belastung -- sie verwalten Eingabefilterung, Verarbeitungsbeschränkungen und Ausgabevalidierung in drei Schutzschichten.

Natürliche Sprachverarbeitung (NLP)

NLP

Natürliche Sprachverarbeitung (NLP) ist der übergeordnete Bereich, der die sprachliche Interaktion zwischen Mensch und Computer ermöglicht. Sie kombiniert Computerlinguistik, statistische Modellierung und Deep Learning in einer Pipeline: Textvorverarbeitung (Bereinigung und Strukturierung von Rohtext), Merkmalsextraktion (Identifizierung aussagekräftiger Muster), Textanalyse (Anwendung von Modellen zum Verständnis der Bedeutung) und Modelltraining (Verbesserung der Genauigkeit durch Feedback). Das Glossar zum maschinellen Lernen von Google enthält weitere NLP-Definitionen, die es wert sind, mit einem Lesezeichen versehen zu werden.

Zu den wichtigsten Aufgaben innerhalb von NLP gehören die Erkennung benannter Entitäten (Identifizierung von Personen, Orten und Organisationen im Text), die Sentimentanalyse (Bestimmung des emotionalen Tons) und das Part-of-Speech-Tagging (Klassifizierung von Wörtern nach ihrer grammatikalischen Rolle). LLMs arbeiten unter dem Dach von NLP -- sie sind die leistungsfähigsten NLP-Tools, die je entwickelt wurden, aber NLP als Disziplin gibt es schon seit Jahrzehnten.

Warum das wichtig ist

NLP ist die übergeordnete Disziplin, zu der LLMs gehören. Wenn du die Pipeline verstehst -- Vorverarbeitung, Merkmalsextraktion, Analyse, Training --, erhältst du den Kontext dafür, warum LLMs so funktionieren und was ihnen vorausging.

Multimodale KI

Multimodale KI verarbeitet und generiert mehrere Arten von Daten gleichzeitig -- Text, Bilder, Audio, Video und zunehmend auch 3D-Raumdaten. Im Gegensatz zu Single-Modality-Modellen, die nur Text verarbeiten, interpretieren multimodale Systeme Kombinationen von Eingaben.

Aktuelle Beispiele: ChatGPT verarbeitet Text, Bilder und Audio. Claude verarbeitet Text und Bilder. Gemini arbeitet mit Text, Bildern, Audio und Video. Die Entwicklung ist klar -- zukünftige KI-Systeme werden von Haus aus multimodal sein und Informationen so verarbeiten, wie es Menschen tun: über mehrere Sinne gleichzeitig.

Warum das wichtig ist

Die Entwicklung der KI geht in Richtung nativer Multimodalität. Wenn du verstehst, dass Modelle zunehmend Text, Bilder, Audio und Video zusammen verarbeiten, bist du für die nächste Generation von KI-Tools und -Workflows gerüstet.

Wie KI-Modelle gemessen werden

MMLU (Massive Multitask Language Understanding)

MMLU testet Allgemeinwissen in 57 Fächern -- von MINT und Recht bis hin zu Ernährung und Religion -- anhand von 15.908 Multiple-Choice-Fragen. Es wurde im September 2020 von Dan Hendrycks et al. veröffentlicht und wurde schnell zum Standardmaßstab dafür, wie gut ein Modell mit vielfältigem Faktenwissen umgehen kann. Das MMLU-Benchmark-Papier (Hendrycks et al., 2020) beschreibt die Methodik im Detail.

Bis Mitte 2024 hatten die Top-Modelle den ursprünglichen Benchmark fast gesättigt und erzielten so hohe Punktzahlen, dass die Unterschiede zwischen ihnen statistisch insignifikant wurden. Diese Sättigung löste mehrere Ableger aus: MMLU-Pro (schwierigere Fragen), MMMLU (mehrsprachige Version) und MMLU-Redux (korrigierte Fehler im Original).

Eine hohe MMLU-Punktzahl bedeutet, dass ein Modell bei der Abfrage von Fakten aus verschiedenen Disziplinen gut abschneidet. Sie misst weder die Tiefe des Denkvermögens noch die kreativen Fähigkeiten oder die Fähigkeit, Aufgaben aus der realen Welt zu lösen. Betrachte sie als einen Datenpunkt, nicht als Urteil.

Warum das wichtig ist

MMLU ist der am häufigsten zitierte Benchmark für den Vergleich von KI-Modellen. Wenn du seinen Umfang -- Faktenabfrage aus 57 Fächern -- und seine Grenzen kennst, kannst du Aussagen zum Modellvergleich kritisch interpretieren, anstatt sie für bare Münze zu nehmen.

HumanEval

HumanEval misst die Programmierfähigkeit anhand von 164 handgefertigten Python-Programmieraufgaben, die jeweils eine Funktionssignatur, einen Docstring und Unit-Tests (durchschnittlich 7,7 Tests pro Aufgabe) umfassen. OpenAI hat es 2021 zusammen mit dem Codex-Modell entwickelt und veröffentlicht. Die Testsuite ist im HumanEval-Repository von OpenAI verfügbar.

Es verwendet die pass@k-Metrik: die Wahrscheinlichkeit, dass mindestens eines von k generierten Code-Beispielen alle Unit-Tests besteht. Dieser Ansatz berücksichtigt die Variabilität von KI-generiertem Code -- das Modell könnte es beim dritten Versuch richtig machen, selbst wenn die ersten beiden Versuche fehlschlagen.

HumanEval ist nach wie vor der am häufigsten zitierte Coding-Benchmark, obwohl Nachfolge-Benchmarks wie BigCodeBench aufkommen, um komplexere Programmierszenarien zu testen.

Einen tieferen Einblick in den Vergleich der Benchmark-Ergebnisse verschiedener Modelle findest du auf der KI-Tools-Vergleichsseite.

Warum das wichtig ist

HumanEval ist der Standard-Benchmark für die Coding-Fähigkeiten von KI. Wenn du die pass@k-Metrik und den Umfang von 164 Problemen verstehst, kannst du Aussagen zu KI-Coding-Tools besser bewerten und nachvollziehen, warum die Qualität der Codegenerierung variiert.

SWE-bench

SWE-bench misst die KI-Coding-Fähigkeit anhand von 2.294 echten GitHub-Issues und Pull Requests aus populären Open-Source-Python-Projekten. Modelle müssen das Issue lesen, die Codebasis verstehen, einen Patch schreiben und die bestehende Testsuite des Projekts bestehen -- ohne menschliche Unterstützung in irgendeinem Schritt.

SWE-bench Verified (500 menschlich validierte Probleme) ist die Standardversion, die in Modell-Releases zitiert wird. Die Metrik ist die Resolve Rate: der Prozentsatz der Issues, die das Modell beim ersten Versuch korrekt patcht.

Benchmarks verschieben sich schnell. Stand Anfang 2026: Claude Opus 4.5 mit 80,9 %, Gemini 3.1 Pro mit 80,6 %, weitere Frontier-Modelle dicht dahinter. Anders als HumanEvals 164 handgefertigte Python-Aufgaben testet SWE-bench produktionsnahes Software-Engineering -- der Unterschied zwischen einer 75%- und einer 80%-Punktzahl übersetzt sich in reale Unterschiede bei der autonomen Coding-Fähigkeit.

Warum das wichtig ist

SWE-bench ist das glaubwürdigste Maß für reale Coding-Fähigkeit. Die Aufgaben stammen aus echten GitHub-Issues, was ihn zum Benchmark macht, der am direktesten vorhersagt, ob ein KI-Tool mit Produktions-Codebasen umgehen kann.

ARC-AGI-2

ARC-AGI-2 (Abstraction and Reasoning Corpus) testet KI mit neuartigen visuellen Gitter-Rätseln, die Menschen typischerweise in Minuten lösen, die aber echtes abstraktes Denken erfordern -- kein Muster-Abrufen aus Trainingsdaten. Jedes Rätsel zeigt eine Reihe farbiger Gittertransformationen und fragt das Modell, die zugrunde liegende Regel zu identifizieren.

Der Benchmark ist absichtlich resistent gegen Auswendiglernen: Die Aufgaben werden bei jeder Evaluation aus neuen Regeln generiert, sodass ein Modell sich nicht durch das Studium vergangener Beispiele verbessern kann. Die Ergebnisse werden von der ARC Prize Foundation verifiziert.

Stand Anfang 2026: Geminis Deep-Think-Modus erreicht 84,6 %, Claude Opus 4.6 erreicht 68,8 %, GPT-5.2 Pro erreicht 54,2 %. Beachte, dass systembasierte Lösungen über 95 % hinausgekommen sind, obwohl die Ergebnisse einzelner Modelle niedriger bleiben. Der Unterschied zwischen 54 % und 84 % repräsentiert grundlegend unterschiedliche abstrakte Denkfähigkeit.

Warum das wichtig ist

ARC-AGI-2 ist der aktuelle Benchmark, der dem Testen genuiner Problemlösungsfähigkeit am nächsten kommt -- statt ausgefeiltem Muster-Abruf. Eine hohe Punktzahl deutet darauf hin, dass ein Modell wirklich neuartige Situationen bewältigen kann, nicht nur aus Trainingsdaten interpolieren.

Terminal-Bench

Terminal-Bench 2.0 misst die KI-Fähigkeit bei Kommandozeilen- und DevOps-Aufgaben: Dateimanipulation, Shell-Scripting, Netzwerkdiagnose, Prozessverwaltung und Systemkonfiguration. Die Aufgaben laufen in echten Linux-Umgebungen und werden danach bewertet, ob die Befehle der KI den korrekten Systemzustand erzeugen -- nicht nur den korrekten Ausgabetext.

Diese ausführungsbasierte Evaluation macht ihn schwieriger als Benchmarks, die nur generierten Text prüfen. Das Modell muss Befehle ausführen, Ergebnisse beobachten und sich selbst autonom korrigieren.

Stand Anfang 2026: Gemini 3.1 Pro mit 78,4 %, Codex CLI mit 77,3 %, Claude Opus 4.6 mit 74,7 %. Die Bestenliste hat sich deutlich verschoben -- Claude ist nicht mehr an der Spitze, bleibt aber bei mehrstufigen agentischen Aufgaben in eingeschränkten Umgebungen hochkompetitiv.

Warum das wichtig ist

Terminal-Bench-Ergebnisse sind der direkteste Prädiktor für KI-Leistung bei Infrastrukturautomatisierung, DevOps und Systemadministration. Wenn deine Workflows die Kommandozeile beinhalten, ist dieser Benchmark aussagekräftiger als allgemeine Scores.

GDPval-AA

GDPval-AA (General Document Processing and Valuation -- Advanced Analysis) misst die KI-Leistung bei geschäftlichen Dokumentenaufgaben: Finanzberichtsanalyse, Vertragsprüfung, Interpretation von Earnings Calls und strategische Dokumentensynthese. Die Bewertung verwendet ein Elo-basiertes Kopf-an-Kopf-Vergleichssystem -- menschliche Bewerter vergleichen die Ausgaben zweier Modelle zum selben Dokument und geben an, welche stärker ist.

Stand Anfang 2026: Claude Sonnet 4.6 bei ca. 1633 Elo, Gemini 3.1 Pro bei ca. 1317. Der Abstand bleibt erheblich, obwohl sich die konkreten Zahlen mit Modell-Updates und neuen Evaluierungen verschieben.

Warum das wichtig ist

GDPval-AA ist der relevanteste Benchmark für Wissensarbeiter in Wirtschaft, Finanzen und Recht. Die Verwendung realer Geschäftsdokumente und Elo-Bewertung macht ihn aussagekräftiger für die KI-Leistung im Unternehmensumfeld als allgemeine Wissens-Benchmarks.

Elo-Rating

Elo ist ein paarweises Ranking-System, das ursprünglich für Schach entwickelt wurde. In der KI-Bewertung präsentieren Plattformen wie LMArena die Ausgaben zweier anonymer Modelle zum selben Prompt menschlichen Bewertern, die wählen, welche Antwort sie bevorzugen. Der Elo-Algorithmus aktualisiert die Punktzahlen beider Modelle basierend auf dem Ergebnis -- eine Überraschung (schwächeres Modell schlägt stärkeres) verschiebt die Punktzahlen stärker als ein erwartetes Ergebnis.

Stand Anfang 2026: Claude Opus 4.6 bei 1504 auf LMArena, Gemini 3.1 Pro bei 1500, weitere Frontier-Modelle eng beieinander. Rankings verschieben sich häufig, wenn neue Modellversionen erscheinen.

Elo-Ratings erfassen die allgemeine Nutzerpräferenz bei offenen Aufgaben. Sie korrelieren unvollständig mit aufgabenspezifischen Benchmarks -- ein Modell kann beim Elo führen, aber bei SWE-bench oder ARC-AGI-2 zurückfallen.

Warum das wichtig ist

Elo-Ratings sind das direkteste Maß dafür, welche KI Nutzer bei offenen Aufgaben bevorzugen. Sie ergänzen aufgabenspezifische Benchmarks -- ein Modell, das beim Elo führt, aber bei SWE-bench zurückfällt, glänzt in der Konversation, aber weniger beim autonomen Coding.

KI-Generierungsarchitekturen

autoregressive Generierung

Autoregressive Generierung ist die Art und Weise, wie LLMs Text produzieren: Sie sagen ein Token nach dem anderen vorher und verwenden alle zuvor generierten Token als Kontext für die nächste Vorhersage. Jedes Ausgabe-Token hängt von allen vorherigen Token ab -- daher "autoregressiv".

Die Decode-Schleife: (Eingabe-Prompt + alle bisher generierten Token) -> Wahrscheinlichkeitsverteilung über das Vokabular -> ein Token samplen -> an den Kontext anhängen -> wiederholen bis fertig.

Diese Einschränkung erklärt zwei zentrale LLM-Verhaltensweisen. Erstens: Die Generierung ist sequenziell -- du kannst Token 100 nicht erzeugen, ohne vorher Token 1--99 erzeugt zu haben, weshalb längere Antworten länger dauern. Zweitens: Jedes Token ist statistisch wahrscheinlich gegeben dem vorherigen Kontext -- das Modell hat keine Ende-zu-Ende-Prüfung, ob der vollständige Satz faktisch korrekt sein wird, was eine Grundursache von Halluzinationen ist.

OpenAI hat autoregressive Generierung auf Bildpixel statt Texttoken angewandt (GPT Image) -- im Gegensatz zu Diffusionsmodellen, die von Rauschen ausgehen und es iterativ verfeinern.

Warum das wichtig ist

Autoregressive Generierung erklärt, warum LLMs Text sequenziell produzieren, warum die Antwortzeit mit der Länge skaliert und warum Halluzinationen mitten im Satz auftreten. Es ist die architektonische Tatsache hinter Verhaltensweisen, die sonst willkürlich erscheinen.

Diffusionsmodell

Ein Diffusionsmodell generiert Bilder (und zunehmend auch Audio und Video), indem es einen Rausch-Hinzufügungsprozess umkehrt. Während des Trainings lernt das Modell, eine teilweise verrauschte Version eines echten Bildes Schritt für Schritt zu "entrauschen". Bei der Generierung startet es von reinem Zufallsrauschen und wendet den gelernten Entrauschungsprozess wiederholt an, bis ein kohärentes Bild entsteht.

Wichtige Beispiele: DALL-E 3 (API-Einstellung im November 2025 angekündigt, Abschaltung Mai 2026; Nachfolger: GPT Image), Midjourney V6 und V7, Stable Diffusion, Adobe Firefly.

Der zentrale Unterschied zur autoregressiven Generierung: Diffusionsmodelle verfeinern alle Teile des Bildes gleichzeitig über mehrere Schritte, während autoregressive Bildmodelle Pixel sequenziell generieren. Diffusionsmodelle glänzen bei kohärenten Gesamtbildkompositionen; sie hatten historisch Schwierigkeiten mit Textrendering und präziser Anweisungsbefolgung -- zwei Bereiche, in denen OpenAI Vorteile nannte, als sie ChatGPTs Bildgenerierung im März 2025 auf eine autoregressive Architektur (GPT Image) umstellten.

Warum das wichtig ist

Diffusionsmodelle sind die dominierende Architektur für künstlerische Bildgenerierung. Zu wissen, wie sie sich von autoregressiver Generierung unterscheiden, erklärt die Stärken und Schwächen von Midjourney gegenüber ChatGPT Image -- und warum sie so unterschiedliche ästhetische Ergebnisse produzieren.

KI-Fähigkeiten und Workflows

Agentic AI

Agentic AI bezeichnet Systeme, die autonom mehrstufige Aufgaben ausführen -- planen, handeln, Ergebnisse beobachten und den Kurs korrigieren -- ohne menschliche Genehmigung bei jedem einzelnen Schritt. Der Kontrast besteht zu Single-Query-Chatbots, die eine Frage beantworten und auf die nächste warten.

Ein Coding-Agent beispielsweise erhält eine Feature-Anfrage, liest die Codebasis, schreibt Code, führt Tests aus, interpretiert Fehler und überarbeitet, bis die Tests bestehen. Aktuelle Beispiele: Claude Code, ChatGPT Codex, Geminis Jules, Groks DeepSearch.

Vier Eigenschaften unterscheiden Agenten von Chatbots: Persistenz (Zustand über mehrere Schritte aufrechterhalten), Tool-Nutzung (Dateien lesen, Code ausführen, im Web browsen), Selbstkorrektur (Anpassung basierend auf Zwischenergebnissen) und Zielorientierung (ein Ergebnis verfolgen statt einen einzelnen Prompt zu beantworten).

Der Glossareintrag "KI-Agenten sind vollständig autonom" erfasst die zentrale Einschränkung: Aktuelle Agenten benötigen klar definierten Umfang, Guardrails und menschliche Aufsicht für den Produktionseinsatz. Sie sind fähige Praktikanten, keine unabhängigen Kollegen.

Warum das wichtig ist

Agentic AI repräsentiert den Wandel von KI als Frage-Antwort-Tool zu KI als Aufgabenausführer. Das Verständnis des Unterschieds zwischen Agent und Chatbot ist entscheidend für die Bewertung, welche Tools tatsächlich Workflows automatisieren können und welche nur unterstützen.

Extended thinking

Extended Thinking ist ein Denkmodus, in dem das Modell intern Zwischenschritte durcharbeitet, bevor es seine endgültige Antwort gibt. Anstatt sofort das statistisch wahrscheinlichste nächste Token vorherzusagen, generiert das Modell eine Argumentationskette -- prüft Annahmen, erkundet Alternativen, erkennt Fehler -- und produziert dann eine Ausgabe, die von dieser Denkspur informiert ist.

Die Implementierungen unterscheiden sich je nach Produkt: Claude Opus 4.6 verwendet Adaptive Thinking (vier Aufwandsstufen, die das Modell basierend auf der Problemkomplexität selbst wählt). Gemini Ultras Deep Think-Modus wendet erweiterte Argumentation mit einem internen Budget von 192.000 Token an. ChatGPTs Thinking-Modus bietet Standard-, Light- und Extended-Varianten.

Extended Thinking erhöht die Latenz (Sekunden bis Dutzende von Sekunden) und den Token-Verbrauch. Für einfache Nachschlagefragen lohnt sich der Mehraufwand nicht. Für komplexe Argumentation, Mathematik, Planung und Coding-Aufgaben ist die Genauigkeitsverbesserung erheblich.

Warum das wichtig ist

Extended Thinking ist der praktische Mechanismus hinter KI-Modellen, die sich bewusster anfühlen. Zu wissen, wann man es aktiviert -- nur bei komplexen Problemen --, balanciert Geschwindigkeit und Qualität. Es ist auch die interne Automatisierung von Chain-of-Thought-Prompting.

Deep Research

Deep Research ist ein agentischer Workflow, bei dem ein KI-Modell autonom Multi-Source-Recherche durchführt und einen strukturierten Bericht synthetisiert -- ohne dass der Benutzer jede Quelle manuell durchsuchen und lesen muss.

Der Ablauf: eine komplexe Forschungsfrage erhalten -> in Teilanfragen zerlegen -> mehrere Quellen durchsuchen -> abgerufene Seiten lesen und bewerten -> Erkenntnisse synthetisieren -> einen zitierten Bericht erstellen. Die vollständige Ausführung dauert je nach Umfang 2--15 Minuten.

Aktuelle Implementierungen: ChatGPT Deep Research (basierend auf GPT-5.2-Reasoning; Free 5 leichte/Monat, Plus/Team 10 volle + 15 leichte pro 30 Tage, Pro 125 volle + 125 leichte pro 30 Tage), Gemini Deep Research (AI Pro- und Ultra-Stufen), Groks DeepSearch (zeichnet sich dadurch aus, dass auch X/Twitter-Posts neben Webquellen durchsucht werden).

Der Qualitätsunterschied zum einfachen Web Search Grounding: Deep Research liest und reflektiert über Dutzende von Quellen nacheinander, nicht nur die ersten paar Ergebnisse. Die Ausgabe ist ein synthetisierter Bericht mit Struktur und Zitaten -- keine Liste abgerufener Textausschnitte.

Warum das wichtig ist

Deep Research komprimiert Stunden der Recherche in Minuten. Zu verstehen, wie es sich von einfacher Websuche unterscheidet -- agentische Multi-Source-Synthese vs. Einzelabfrage-Abruf --, setzt realistische Erwartungen dafür, was es produziert und wo es an seine Grenzen stößt.

web search grounding (webbasiertes Grounding)

Web Search Grounding ergänzt KI-Antworten mit Live-Suchergebnissen und reduziert die Abhängigkeit von potenziell veralteten Trainingsdaten. Wenn aktiviert, durchsucht das Modell das Web, ruft relevante Seiten ab und integriert deren Inhalt in seine Antwort -- typischerweise mit Quellenangaben.

Aktuelle Implementierungen: ChatGPT Search (Bing-basiert, verfügbar auf allen Stufen einschließlich Free seit Februar 2025), Gemini Search (Google-basiert, Standard in der Gemini-App), Copilot (Bing-basiert, immer aktiv), Perplexity (Search-first-KI).

Der Unterschied zu RAG: Web Search Grounding ruft Daten aus dem öffentlichen Live-Internet ab. RAG ruft Daten aus deinen eigenen privaten Dokumenten ab. Beide reduzieren Halluzinationen, indem sie dem Modell spezifischen Text geben, mit dem es arbeiten kann, anstatt sich auf das Trainingswissen zu verlassen. Keines eliminiert Halluzinationen -- das Modell synthetisiert den abgerufenen Inhalt und kann Quellen falsch interpretieren.

Warum das wichtig ist

Web Search Grounding ist die praktische Lösung für das Knowledge-Cutoff-Problem. Es ist auch eine teilweise Halluzinations-Minderung: Antworten, die auf abgerufenem Text basieren, sind zuverlässiger als Antworten aus dem Trainingswissen allein -- aber nicht perfekt zuverlässig.

source grounding (quellenbasiertes Grounding)

Source Grounding beschränkt ein KI-Modell darauf, nur aus spezifischen Dokumenten zu antworten, die du bereitstellst, anstatt aus seinen Trainingsdaten oder dem Web. Jede Antwort enthält Zitate, die auf exakte Passagen in diesen Dokumenten verweisen.

NotebookLM ist das reinste Beispiel: Lade PDFs, Forschungspapiere oder Besprechungsnotizen hoch, und jede Antwort der KI verlinkt auf den Quellabsatz, der sie stützt. Wenn die Antwort nicht in deinen Quellen steht, sagt das Modell das, anstatt aus Trainingsdaten zu halluzinieren.

Source Grounding macht Halluzination strukturell schwieriger: Das Modell kann keine Informationen erfinden, die ihm nicht gegeben wurden. Fehler kommen dennoch vor -- das Modell kann Quelltext falsch interpretieren --, aber sie sind erkennbar, weil jede Behauptung ein nachvollziehbares Zitat hat. Das ist der entscheidende Vorteil gegenüber Web Search Grounding, das breit statt präzise abruft.

Warum das wichtig ist

Source Grounding ist der zuverlässigste Ansatz für Dokumentenanalyse. Wenn Antworten überprüfbar und nachweisbar sein müssen -- bei juristischer Prüfung, akademischer Forschung, Compliance --, reduziert quellenbasierte KI das Halluzinationsrisiko stärker als jede andere heute verfügbare Technik.

Unternehmen, Integration und Compliance

MCP (Model Context Protocol)

MCP ist ein offener Standard, der definiert, wie KI-Modelle sich mit externen Tools und Datenquellen verbinden. Anthropic beschreibt es als "USB-C für KI": eine einzige Connector-Spezifikation, die über kompatible Systeme hinweg funktioniert, anstatt für jede Modell-Tool-Kombination eine andere Integration zu erfordern.

2024 von Anthropic veröffentlicht, ermöglicht MCP Entwicklern, eine einzelne Integration zu bauen, die mit jedem MCP-kompatiblen KI-System funktioniert. Aktuelle Connectoren umfassen Slack, GitHub, Figma, Asana, Notion, Datenbanken und Dateisysteme. Claude unterstützt über 50 Connectoren; Copilot Studio hat allgemein verfügbare MCP-Unterstützung.

Vor MCP erforderte die Verbindung einer KI mit externen Tools individuelle Integrationsarbeit pro KI-Anbieter. MCP standardisiert die Schnittstelle, sodass eine Integration alle kompatiblen Modelle bedient -- was den Entwicklungsaufwand reduziert und Vendor Lock-in verhindert.

Warum das wichtig ist

MCP-Kompatibilität wird zunehmend zu einem Schlüsselkriterium bei der Wahl einer KI-Plattform. Es ist die Open-Standard-Alternative zu proprietären Plugin-Ökosystemen -- Integrationen, die nach der MCP-Spezifikation gebaut werden, sind über KI-Systeme hinweg portabel, anstatt an einen Anbieter gebunden zu sein.

data residency (Datenresidenz)

Datenresidenz bezieht sich auf Anforderungen -- rechtliche, vertragliche oder organisatorische --, die festlegen, in welchem Land oder welcher Region KI-Daten (Prompts, Ausgaben, Benutzerdaten) gespeichert und verarbeitet werden müssen.

Relevante Vorschriften: Die DSGVO schreibt Datenschutz für EU-Bürger vor, verlangt aber nicht automatisch eine geografische Speicherung. Einige EU-Mitgliedstaaten sowie branchenspezifische Regeln im Gesundheits- und Finanzwesen stellen strengere geografische Anforderungen. Japans APPI und ähnliche nationale Gesetze fügen regionale Ebenen hinzu.

Aktuelle KI-Anbieteroptionen: ChatGPT Enterprise bietet EU Data Boundary, USA und Japan. Microsoft Copilot unterstützt Datenresidenz in EU, UK, USA, Kanada, Japan, Südkorea, Singapur, Indien, Australien und den VAE. Google Workspace AI unterstützt EU, USA und Multi-Region-Konfigurationen.

Für die meisten Einzelpersonen und KMU ist Datenresidenz kein Thema. Für regulierte Branchen (Gesundheitswesen, Finanzen, öffentliche Verwaltung) und EU-basierte Unternehmen ist sie oft eine harte Beschaffungsanforderung.

Warum das wichtig ist

Datenresidenz bestimmt, ob ein KI-Tool in regulierten Branchen oder Rechtsordnungen legal mit den Daten deiner Organisation arbeiten darf. Es ist nicht nur eine technische Spezifikation -- fehlende regionale Speicheroptionen können die Einführung komplett blockieren.

copyright indemnity (Urheberrechtsschutz)

Copyright Indemnity (auch IP-Indemnity oder Copyright Shield genannt) ist eine rechtliche Garantie eines KI-Anbieters, dich zu verteidigen und Schäden zu übernehmen, wenn ein Dritter dich wegen Urheberrechtsverletzung durch KI-generierte Inhalte verklagt.

Wer es anbietet: OpenAI bietet Copyright Shield für API- und Enterprise-Kunden. Microsoft bietet das Copilot Copyright Commitment für kommerzielle Copilot-Nutzer. Anthropic deckt kommerzielle API-Nutzer unter den Standardbedingungen ab.

Wer nicht: Midjourney bietet ausdrücklich keine IP-Indemnity. Die meisten Bildgenerierungsdienste bieten keine an.

Wichtige Ausschlüsse bei allen Anbietern: bewusste Versuche, bestimmte geschützte Werke zu reproduzieren, ignorierte Verletzungswarnungen und Nutzung außerhalb autorisierter Bedingungen. Für einzelne Nutzer ist Copyright Indemnity praktisch selten relevant. Für Unternehmen, die KI-generierte Inhalte im großen Stil veröffentlichen oder monetarisieren, ist es ein legitimes Kriterium für die Anbieterwahl.

Warum das wichtig ist

Copyright Indemnity ist der Unterschied zwischen einer rechtlichen Haftung und einem vertraglichen Schutz für die kommerzielle KI-Nutzung im großen Stil. Zu wissen, welche Anbieter Deckung bieten -- und was die Ausschlüsse sind --, ist eine echte Geschäftsrisikofrage für jede Organisation, die KI-generierte Inhalte kommerziell nutzt.

Gängige KI-Schlagworte vs. Realität

"Mehr Parameter bedeuten immer ein besseres Modell"

Parameter sind wichtig, aber Architektur, Qualität der Trainingsdaten und Trainingstechnik sind noch wichtiger. DeepSeek R1 (671 Milliarden Parameter) übertrifft einige Modelle mit höherer Parameteranzahl in bestimmten Benchmarks.

Warum das wichtig ist

Dieser Mythos verleitet Menschen zu der Annahme, dass das größte Modell auch das beste ist. In Wirklichkeit kann ein gut strukturiertes, gut trainiertes kleineres Modell ein aufgeblähtes übertreffen -- die Parameteranzahl allein ist kein verlässlicher Qualitätsindikator.

"KI-Modelle verstehen, was sie generieren"

LLMs sagen statistisch wahrscheinliche nächste Token auf Grundlage gelernter Muster voraus. Sie verfügen nicht über semantisches Verständnis. Aus diesem Grund kommt es zu Halluzinationen -- das Modell erzeugt plausible Texte, ohne die Fakten zu überprüfen.

Warum das wichtig ist

Der Glaube, dass KI "versteht", führt zu übermäßigem Vertrauen. Modelle sagen wahrscheinliche nächste Token voraus -- sie überprüfen keine Fakten und erfassen keine Bedeutungen. Das zu erkennen verhindert kostspielige Fehler bei der Verwendung von KI für kritische Entscheidungen.

"Temperatur ist gleich Kreativität"

Die Temperatur steuert die Zufälligkeit, nicht die Intelligenz. Eine hohe Temperatur macht das Modell nicht kreativer -- sie macht es zufälliger. Die Qualitätsobergrenze bleibt unverändert; die Untergrenze sinkt.

Warum das wichtig ist

Dieses Missverständnis führt dazu, dass Menschen die Temperatur hochdrehen, um bessere kreative Ergebnisse zu erzielen. In Wirklichkeit erhöht eine höhere Temperatur nur die Zufälligkeit -- die bestmöglichen Ergebnisse des Modells bleiben gleich, während die schlechtesten noch schlechter werden.

"Fine-Tuning erfordert enorme Rechenleistung"

LoRA und andere parametereffiziente Techniken können Modelle auf Consumer-GPUs mit 24 GB Speicher fine-tunen. Die Einstiegshürde ist weggefallen.

Warum das wichtig ist

Diese veraltete Annahme hält Menschen davon ab, Modelle für ihren Anwendungsfall anzupassen. LoRA und ähnliche Techniken haben Fine-Tuning auf Verbraucherhardware zugänglich gemacht -- die Rechenbarriere ist weitaus geringer als die meisten annehmen.

"RAG ersetzt das Training"

RAG ergänzt das Wissen eines Modells zum Zeitpunkt der Inferenz. Es kann ein grundlegend schwaches Modell nicht reparieren -- die Basis muss weiterhin ordnungsgemäß trainiert werden.

Warum das wichtig ist

RAG ist leistungsstark, aber kein Ersatz für ein gut trainiertes Basismodell. RAG als Ersatz für das Training zu betrachten führt zu schlechten Ergebnissen, wenn das zugrunde liegende Modell mit den abgerufenen Informationen nicht gut argumentieren kann.

"Kontextfenster ist gleichbedeutend mit Speicher"

Das Kontextfenster ist ein temporärer Arbeitsspeicher für eine einzelne Konversation. Wenn die Sitzung endet oder das Fenster voll ist, behält das Modell nichts. Es ist eine Tafel, keine Festplatte.

Warum das wichtig ist

Die Verwechslung des Kontextfensters mit einem dauerhaften Speicher führt zu Frustration, wenn das Modell frühere Konversationen "vergisst". Das Kontextfenster ist temporär und an die Sitzung gebunden -- nichts bleibt bestehen, sobald es verschwunden ist.

"KI-Agenten sind vollständig autonom"

Aktuelle KI-Agenten arbeiten mit einem gewissen Maß an Autonomie, benötigen jedoch menschliche Aufsicht, Guardrails und klar definierte Grenzen. Sie sind eher fähige Praktikanten als unabhängige Kollegen.

Warum das wichtig ist

Der Hype um "autonome Agenten" weckt gefährliche Erwartungen. Aktuelle KI-Agenten benötigen menschliche Aufsicht, Guardrails und klare Grenzen -- ihr Einsatz ohne diese Sicherheitsvorkehrungen birgt echte Risiken.

Echte Fähigkeiten mit KI-Tools aufbauen

AITutoro bietet adaptives Training sowohl für ChatGPT als auch für Claude. Die Plattform passt sich an das an, was du bereits weißt, sodass du die Grundlagen überspringst und dich auf die Techniken konzentrierst, die deine Arbeit voranbringen.

Häufig gestellte Fragen

Was ist der Unterschied zwischen KI und generativer KI?

Was ist der Unterschied zwischen LLMs und NLP?

Was sind Token in der KI?

Bist du bereit, deine KI-Tools zu meistern?

Egal, ob du dich für ChatGPT, Claude oder beides entscheidest, gezieltes Skill-Building verwandelt ein gutes Werkzeug in einen Wettbewerbsvorteil.