Glossar

Das Vokabular des Agentic Engineerings — definiert aus der Praxis, nicht aus Wikipedia. Wenn ein Begriff auf dieser Seite unklar ist, steht er wahrscheinlich hier.

Kernbegriffe

Agent Pipeline

Eine Abfolge spezialisierter Agents, die Arbeit von Anfang bis Ende verarbeitet. Ein Agent untersucht, ein anderer implementiert, ein weiterer testet, ein letzter öffnet den PR. Jeder übergibt an den nächsten. Das Ziel: vom Jira-Ticket zum gemergten PR, ohne selbst eine Datei anzufassen.

Der Sprung vom Einzelagenten zur Pipeline ist, wo echte Autonomie beginnt. Übergaben sorgfältig gestalten — Kontextverlust zwischen Agents ist ein realer Kostenfaktor.

Agentic Engineering

Software bauen, bei der KI-Agents eigenständig handeln — nicht nur assistieren. Agents schreiben Code, führen Tests aus, öffnen PRs, überwachen CI — du orchestrierst, sie arbeiten. Die Disziplin des Entwerfens, Bauens und Wartens solcher Agent-Systeme.

Darum geht es auf dieser Seite. Nicht 'KI nutzen' im allgemeinen Sinne — sondern konkret: autonome Agent-Systeme entwickeln.

AI Agent

Ein KI-Modell mit Werkzeugen und einem Auftrag. Es entscheidet selbst, wie es vorgeht, welche Tools es aufruft und wann es fertig ist. Im Gegensatz zu einem Chatbot unternimmt ein Agent Aktionen — liest Dateien, führt Befehle aus, ruft APIs auf, meldet Ergebnisse.

Ein Modell ohne Werkzeuge ist nur ein Chatbot. Die Tools machen daraus einen Agenten.

AI Slop

Minderwertige KI-generierte Inhalte, die selbstbewusst, aber leer sind. Technisch korrekt, intellektuell hohl. Konsensbasiertes Schreiben ohne eigene Gedanken, ohne Reibung, ohne Spezifität. Der Output, den man bekommt, wenn man das Modell nicht herausfordert.

Das Gegenmittel ist Stimme. Echte Erfahrung. Konkrete Zahlen. Meinungen, die das Modell nicht von selbst generieren würde.

Cairn

Ein persistenter KI-Orchestrator, aufgebaut auf Claude Code. Benannt nach den Steinmalen, die Wanderern den Weg markieren — jede Session fügt einen Stein hinzu. Cairn sammelt Wissen über Sessions hinweg durch strukturierte Memory-Dateien, damit die Arbeit nicht bei null neu beginnt.

Der Name wurde in Session 1 (2026-02-09) gewählt. Kein Produkt — ein individuelles System, das auf diesem Blog dokumentiert wird.

CLAUDE.md

Eine Markdown-Datei im Projektstamm, die Claude automatisch als Projektkontext lädt. Wie eine README für KI — erklärt Codebase, Konventionen, Muster und Arbeitsweisen. Ein zentrales Werkzeug des Context Engineerings.

Jedes Projekt, das ich ernst nehme, hat eine. Der Unterschied zwischen 'Hilf mir beim Code' und 'Hilf mir wie ein informierter Kollege.'

Context Engineering

Die Disziplin, zu gestalten, was ein KI-Modell weiß und worauf es zugreifen kann. System-Prompts, CLAUDE.md-Dateien, Tool-Definitionen, Memory-Systeme — alles davon. Die Qualität des Kontexts bestimmt die Qualität des Agent-Outputs.

Die meisten Entwickler stagnieren bei L2, weil sie das unterschätzen. Prompt-Qualität zählt, aber die Kontext-Architektur zählt mehr.

Context Rot

Die Leistungsverschlechterung, die eintritt, wenn der Kontext wächst. Wissenschaftlich belegt: Die Ausgabequalität von LLMs sinkt, wenn das Context Window sich füllt — selbst wenn alle Informationen relevant sind. Mehr Kontext ist nicht immer besser.

Deshalb ist Kontext-Hygiene wichtig. Irrelevante Tokens zu entfernen ist nicht nur eine Kostenfrage — es ist eine Qualitätsfrage.

Context Window

Die Gesamtmenge an Text (in Tokens gemessen), die ein LLM gleichzeitig sehen und verarbeiten kann. Beinhaltet System-Prompt, Gesprächsverlauf, Dateiinhalte, Tool-Antworten — alles. Wenn das Window voll ist, wird älterer Inhalt verworfen oder die Qualität nimmt ab.

Das Context Window zu kennen ist L3-Bewusstsein. Die meisten L2-Entwickler nehmen an, 'größer ist immer besser.' Ist es nicht.

Halluzination

Wenn ein LLM selbstbewusst falsche oder erfundene Informationen generiert. Kein Bug — eine grundlegende Eigenschaft von Modellen, die plausiblen Text vorhersagen. Agents können Dateipfade, API-Signaturen, Testergebnisse und mehr halluzinieren.

Die Lösung ist nicht blindes Vertrauen — sondern Verifikations-Schleifen. Tests laufen, CI validiert, Menschen reviewen.

LLM (Large Language Model)

Das zugrundeliegende KI-Modell (Claude, GPT-4, Llama, Gemini), das Agents und Coding-Assistenten antreibt. Auf riesigen Textmengen trainiert, um Text vorherzusagen und zu generieren. Der Motor hinter jedem KI-Tool.

Zu wissen, welches LLM man nutzt und worin es sich unterscheidet, wird ab L3+ wichtig. Nicht alle LLMs sind gleich gut für agentische Aufgaben.

MCP (Model Context Protocol)

Ein offener Standard, um KI-Modelle mit externen Tools und Datenquellen zu verbinden. Ermöglicht Agents, Datenbanken abzufragen, APIs aufzurufen, Dateien zu lesen — alles jenseits reiner Texterzeugung. Wie ein Plugin-System für KI-Modelle.

Mächtig, aber mit Token-Overhead. Ich habe meinen Atlassian-MCP abgeschaltet, weil er 22K Tokens pro Session für nie genutzte Tools verbrannte.

Multi-Agent

Eine Architektur, bei der mehrere spezialisierte Agents parallel oder sequenziell arbeiten. Jeder übernimmt eine fokussierte Aufgabe; ein Orchestrator koordiniert. Ermöglicht vollständige Pipeline-Automatisierung: ein Agent schreibt Code, ein anderer testet, ein dritter reviewt, ein vierter erstellt den PR.

Der Sprung von Single-Agent auf Multi-Agent ist, wo echte Autonomie beginnt. Auch wo die Komplexität schnell wächst — sorgfältig planen.

Orchestrator

Der Agent (oder Mensch), der andere Agents koordiniert. Vergibt Aufgaben, überwacht Ergebnisse, behandelt Fehler, entscheidet, was als Nächstes kommt. Arbeitet auf höherer Abstraktionsebene — denkt in Workflows, nicht in einzelnen Datei-Edits.

Der Orchestrator sollte die eigentliche Arbeit selten selbst anfassen. Seine Aufgabe ist Koordination, nicht Ausführung.

Prompt Injection

Ein Sicherheitsangriff, bei dem bösartige Anweisungen in Inhalte eingebettet werden, die ein KI-Agent liest — Webseiten, Dokumente, E-Mails, Funktionsergebnisse. Das Ziel: den Agenten dazu bringen, den Anweisungen des Angreifers statt des Nutzers zu folgen.

Real und unterschätzt. Jeder Agent, der externe Inhalte liest, ist ein potenzielles Ziel. Die Verteidigung ist, alle beobachteten Inhalte als nicht vertrauenswürdig zu behandeln.

Session

Eine einzelne kontinuierliche Interaktion mit Claude Code (oder einem ähnlichen Tool), begrenzt durch ein Context Window. Wenn die Session endet, ist der meiste Zustand weg — außer er wurde explizit gespeichert. Sessions sind die Arbeitseinheit im Agentic Engineering.

Session-Hygiene — zu wissen, was gespeichert, was verworfen wird und wann ein Neustart sinnvoll ist — ist wichtiger als die meisten Entwickler ahnen.

Skill

Ein wiederverwendbares Anweisungsmodul, das einem Agent Domänen-Expertise für eine spezifische Aufgabe gibt. Fokussierter als ein Agent — kein persistentes Gedächtnis, keine Identität, nur gezieltes Know-how. In Claude Code sind Skills Markdown-Dateien, die bei Bedarf als Kontext geladen werden.

Skills haben spezialisierte Agents in meinem Setup abgelöst. Weniger Overhead, besser kombinierbar. Dokumentiert in 'Skills Ate My Agents.'

Subagent

Ein spezialisierter KI-Agent, der von einem Orchestrator für eine fokussierte Aufgabe gespawnt wird. Bekommt seinen eigenen Kontext, seine eigenen Tools, seine eigenen Anweisungen. Meldet sich beim Orchestrator zurück, wenn er fertig ist. Der Baustein von Multi-Agent-Pipelines.

Anders als ein allgemeiner Agent — ein Subagent hat bewusst einen engen Anwendungsbereich. Die Spezialisierung ist sein Mehrwert.

System Prompt

Anweisungen, die einem KI-Modell vor dem Gespräch gegeben werden. Definiert seine Rolle, Projektwissen, Einschränkungen, verfügbare Tools und Verhaltensweisen. Der wichtigste Hebel im Context Engineering.

Die meisten Entwickler behandeln das als Nebensache. Ab L3+ ist es das Herzstück der Entwicklungsarbeit.

Token

Die atomare Einheit für Text in LLMs. Ein Token entspricht grob 4 Zeichen oder 0,75 Wörtern. Context Windows, API-Kosten und Rate Limits — alles wird in Tokens gemessen.

Token-Bewusstsein trennt L2 von L3. Aufgeblähte System-Prompts, zu ausführliche Tools und unnötiger Kontext verbrennen Tokens still und heimlich.

Außerdem wissenswert

Auto-compact

Claude Codes automatische Kontextkomprimierung, die ausgeführt wird, wenn das Context Window sich der Kapazitätsgrenze nähert. Fasst die Konversation zusammen, um Platz freizugeben und die Arbeit fortzusetzen. Kann konfiguriert oder deaktiviert werden.

Verstehen, was bei der Komprimierung verloren geht. Wichtige Entscheidungen aus der Mitte einer Session können aus der Zusammenfassung verschwinden.

Destillation

Der Prozess, dauerhafte Muster aus rohen Beobachtungen zu extrahieren. In Agent-Systemen: Session-Journale und Betriebslogs lesen, wiederkehrende Muster ab 3+ Vorkommen identifizieren und in stabile Wissensdateien schreiben. Getrennt von der Beobachtung — 'Agents zeichnen auf, der Optimizer denkt nach.'

Grounding

KI-Output an überprüfbarer Realität verankern. Echte Testergebnisse, tatsächliche Browser-Renders, Produktionsfehler — keine theoretische Performance. Ein Agent, der 97% OCR-Genauigkeit behauptet, braucht echte Kassenbons, echte Kameras, echtes Küchenlicht zur Validierung.

Hook

In Claude Code: automatisierte Skripte, die an bestimmten Punkten im Agent-Workflow laufen — vor oder nach einem Tool-Aufruf, beim Start oder Ende einer Session. Dienen dazu, Einschränkungen durchzusetzen, Kontext einzuspeisen oder Nebeneffekte auszulösen, ohne manuell promoten zu müssen.

Memory Bloat

Unkontrolliertes Wachstum von Agent-Memory-Dateien durch Anhäufung ohne Kuration. Dateien, die mit 1KB starteten, wachsen auf 95KB Rauschen. Verschlechtert die Kontextqualität, erhöht die Token-Kosten und begräbt das Signal. Gelöst durch regelmäßige Destillations-Zyklen.

Optimizer Agent

Ein dedizierter Agent, der Betriebslogs anderer Agents liest, wiederkehrende Muster identifiziert und deren Anweisungen mit neuen Erkenntnissen aktualisiert. Trennt Beobachtung von Kuration. Die 'denkende' Hälfte von 'Agents zeichnen auf, der Optimizer denkt nach.'

RAG (Retrieval-Augmented Generation)

Eine Architektur, bei der ein LLM zur Anfragezeit relevante Dokumente oder Embeddings abruft, um seine Antwort anzureichern. Erfordert eine Vektordatenbank und eine Embedding-Pipeline. Eine Alternative zu flachen Memory-Dateien für Agent-Wissenssysteme.

Ich habe mich für einfache Markdown-Memory-Dateien statt RAG entschieden — keine Vektordatenbank, keine Embedding-Pipeline. Manchmal funktioniert das Einfache.

Drei-Ebenen-Memory

Eine Architektur für persistentes Agent-Wissen über Sessions hinweg: STATUS.md für den aktuellen Zustand (Snapshot, jede Session überschrieben), tägliche Journale für die Langzeithistorie (append-only), und Facts-Dateien für destillierte Muster (kuratiert, dauerhaft).

Transiente vs. strukturelle Fehler

Eine Klassifikation für Agent-Fehler. Transiente Fehler sind temporär — Netzwerk-Timeout, Rate Limit, flockiger Test — und können automatisch wiederholt werden. Strukturelle Fehler sind permanent — fehlende Abhängigkeit, falsche API-Signatur, Logic-Bug — und erfordern menschliches Eingreifen, keine Retry-Schleife.

Die beiden zu verwechseln ist, wie Agents sich in Endlosschleifen an etwas versuchen, das sie alleine nicht lösen können.

Worktree

Eine Git-Funktion, die eine isolierte Arbeitskopie eines Repositories an einem separaten Pfad erstellt. Wird im Agentic Engineering eingesetzt, um parallelen Agents ihre eigene Sandbox zu geben — Änderungen in einem Worktree beeinflussen keinen anderen.

Die Entwickler-Levels: L0–L∞

Ein Rahmen, um zu verstehen, wo du auf der agentischen Entwickler-Reise stehst. Keine Hierarchie — eine Karte. Die meisten Entwickler befinden sich zwischen L1 und L2. Der Sprung zu L3 ist der größte Mindset-Wechsel.

L0
Erste Schritte
ChatGPT, Copy-Paste

KI als Suchmaschinen-Ersatz. Du stellst eine Frage, bekommst eine Antwort, kopierst sie in deinen Editor. Keine Integration, keine Workflow-Änderung — nur eine schnellere Art, Antworten zu finden.

L1
IDE-Integration
GitHub Copilot, Inline-Autocomplete

KI verwoben ins Tippen. Tab-Vervollständigung, Inline-Chat, Code-Erklärungen ohne den Editor zu verlassen. Die Produktivität steigt, aber du steuerst noch alles selbst.

L2
Agentic Coding
Claude Code, Cursor

KI, die über die gesamte Codebase hinweg agiert. Schreibt ganze Dateien, führt Befehle aus, bearbeitet mehrere Dateien in einer Aufgabe. Du beschreibst, was du willst; die KI erledigt die Arbeit. Kontext muss noch manuell geliefert werden.

L3
Context Engineering
CLAUDE.md, System-Prompts, Hooks

Du hörst auf zu prompten und fängst an zu entwickeln. CLAUDE.md-Dateien informieren die KI über das Projekt. System-Prompts formen ihr Verhalten. Hooks automatisieren wiederkehrendes Kontext-Setup. Die KI wird zum informierten Kollegen, nicht nur zum schnellen Tipphelfer.

L4
Orchestrierung
Multi-Agent-Pipelines, spezialisierte Rollen

Du schreibst keinen Code mehr — du leitest ein Team. Spezialisierte Agents für verschiedene Rollen (Implementierer, Tester, Reviewer, PR-Ersteller). Ein Orchestrator koordiniert. Von Jira-Ticket zu gemergtem PR, ohne eine Datei selbst anzufassen.

L∞
Volle Autonomie
Memory-Systeme, selbstverbessernde Agents

Die Grenze. Agents mit persistentem Gedächtnis über Sessions hinweg, selbstoptimierende Wissenssysteme, Agents, die ihre eigenen Anweisungen auf Basis von Erfahrungen verbessern. Die meisten Entwickler arbeiten noch auf L4 hin.