Prompt Injection: Warum KI‑Agenten verwundbar sind – und wie du sie wirksam absicherst

David Utrilla Torres
3. Nov.
5 Min. Lesezeit

Prompt Injection gehört derzeit zu den kritischsten Risiken in KI‑Anwendungen. Angreifer nutzen dabei manipulierte Eingaben – offen oder versteckt –, um die beabsichtigten Anweisungen eines Modells zu überschreiben. Das Ergebnis reicht von peinlichen Fehlantworten bis hin zu ernsthaften Sicherheitsvorfällen wie Datenabfluss oder unautorisierten Aktionen im Namen des Nutzers. Branchenleitfäden wie die OWASP Top 10 für LLM‑Applikationen (2025) führen Prompt Injection deshalb an erster Stelle (LLM01) und betonen die Notwendigkeit einer mehrschichtigen Verteidigung, die Entwicklung, Betrieb und Governance gleichermaßen adressiert. Parallel dazu empfehlen Anbieter wie Microsoft und Google konkrete Schutzmuster gegen indirekte Prompt Injections – jene Variante, bei der schädliche Anweisungen in externen Inhalten (Webseiten, Dokumenten, E‑Mails) „mitreisen“ und erst beim Verarbeiten durch den Agenten wirksam werden. Diese Perspektiven sind insofern wichtig, als moderne, agentische Systeme immer häufiger Webzugriffe, Tool‑Aufrufe und E‑Mail‑Automationen kombinieren – also genau jene Schnittstellen, an denen Prompt Injection praktische Auswirkungen entfalten kann.

Die Ursache: Die „Semantic Gap“

Die zentrale Ursache liegt in einem semantischen Konstruktionsfehler: LLMs verarbeiten Systeminstruktionen (vertrauenswürdig) und Benutzereingaben (unvertrauenswürdig) im selben Medium – natürlicher Sprache. Diese „semantic gap“ begünstigt, dass ein geschickt formulierter Text wie eine legitime Steueranweisung wirkt. OWASP beschreibt dazu unterschiedliche Angriffsformen: direkte Injektionen über das Chatfeld, indirekte Injektionen über externe Datenquellen, sowie Obfuskationstaktiken (z. B. Base64, Unicode‑Smuggling), um simple Keyword‑Filter zu umgehen. Die Folge können Policy‑Umgehungen, System‑Prompt‑Lecks, Datenexfiltration oder Werkzeugmissbrauch sein – insbesondere, wenn ein Agent mit Dateisystem, E‑Mail, Kalender oder Unternehmens‑APIs interagiert. Genau deshalb rückt „Excessive Agency“ (zu weitreichende Rechte/Aktionen eines Agenten) als eigenes Risiko in den Vordergrund.

Indirekte Prompt Injection: Die größte Gefahr

Gleichzeitig zeigt die Praxis, dass indirekte Prompt Injection die größere Sprengkraft besitzt. Microsoft dokumentiert, wie versteckte Instruktionen in Inhalten, die ein Copilot verarbeitet, Datenabfluss oder unbeabsichtigte Aktionen auslösen können – selbst wenn der Nutzer nie eine bösartige Eingabe tippt. Die Gegenstrategie setzt auf „Defense in Depth“: harte Systemprompts, Spotlighting (klare Markierung/Abgrenzung unvertrauenswürdiger Daten), Erkennungsmodelle wie Prompt Shields, und vor allem deterministische Sperren für bekannte Exfiltrationskanäle (z. B. gefährliche Markdown‑Bilder oder linkbasierte Abflüsse). Google beschreibt eine ähnliche Schichtenverteidigung für Gemini‑Workloads: Klassifizierer gegen Injektionen, Security Thought Reinforcement/Spotlighting zur Kontext‑Markierung, Markdown‑Sanitizing und URL‑Redaktion sowie User‑Confirmation‑Frameworks für risikoreiche Aktionen.

Hinweis: Reine Modell‑„Erinnerungen an sichere Antworten“ reichen nicht – es braucht architektonische Kontrollen, die untrusted Content als solchen behandeln.

User Input und System Instructions werden getrennt verarbeitet.
Input Filtering & Validation prüft auf Prompt Injection, Syntax und Policies.
Der bereinigte Prompt geht an den AI Agent, der nur über abgesicherte Schnittstellen arbeitet.
Tools & APIs werden mit Least Privilege und Consent genutzt.
Output Handling filtert sensible Daten und verhindert Exfiltration.

Angriffspfad	Beispiel	Maßnahmen
Direkte Injection	Ignoriere alle früheren Anweisungen… (variiert/obfuskiert)	Eingabe‑Klassifizierer + Regel‑Filter; strikte Rollen‑Trennung; kurze Eingaben; HITL bei heiklen Tasks.
Indirekte Injection	Versteckte Instruktion in Webseite/Doc/E‑Mail	Spotlighting/Marking, Prompt‑Klassifizierer, Markdown/URL‑Sanitizer, deterministische Exfil‑Blockaden, User‑Bestätigung.
Omnibox/Browser‑Agent	Malformatierte URL „versteckt“ Befehle	Strikte URL‑Parsing‑Regeln, getrennte Modi (Navigation vs. Anweisung), Bestätigungsdialoge.
Tool‑Missbrauch	Agent initiiert E‑Mail/Dateizugriff	Least‑Privilege, Scopes, Consent‑Framework, Audit‑Trails/XDR‑Korrelation.

Technische Schutzmaßnahmen: Die fünf Hebel

1. Kontext- und Rollen-Isolation

Vermeide das naive Aneinanderhängen von System‑ und Benutzertexten; nutze stattdessen strukturierte Schnittstellen (Function/Tool‑Calling mit festem Schema) und halte Systeminstruktionen immutable. Für Daten aus Web, E‑Mail oder Dokumenten ist Spotlighting mittlerweile ein Best‑Practice: Unvertrauenswürdiger Text wird delimitiert, datamarked oder codiert (z. B. mit speziellen Markern oder Base64), sodass das Modell ihn als Datenkontext und nicht als Instruktion interpretiert.

2. Robuste Eingabevalidierung

Keyword‑Sperrlisten („ignore previous instructions“) sind als alleinige Maßnahme zu schwach. Besser ist eine Kombination aus Regeln (inkl. Unicode‑Normalisierung, Erkennung von Encodings), Längenbeschränkungen, Schema‑Validierung (z. B. JSON‑Schema/Pydantic) und – wo möglich – Whitelists für erlaubte Werte. Ergänzend empfiehlt OWASP strukturierte Prompts/Workflows, bei denen der Agent nur in klar definierten Parametern denkt.

3. Output-Filter und Exfiltrationsschutz

Setze DLP/PII‑Scanner, Markdown‑/HTML‑Sanitizer sowie Link‑Redaktion (z. B. Safe Browsing) ein, bevor Ergebnisse angezeigt oder Folgeaktionen ausgelöst werden. Besonders wirksam sind deterministische Sperren bekannter Exfil‑Muster (z. B. Block externer Bilder in Markdown oder das Entfernen gefährlicher URL‑Schemata).

4. Tool- und API-Härtung

Prompt Injection wird erst gefährlich, wenn ein Agent Werkzeuge mit echten Berechtigungen steuert. Darum gilt: Least Privilege für jeden Tool‑Scope, feingranulare Permissions, Rate‑Limits und Schema‑Enforcement am API‑Gateway/WAF. Risikoreiche Aktionen (z. B. E‑Mail‑Versand, Datei‑Upload) sollten eine explizite Nutzerbestätigung erfordern.

5. Monitoring und Red-Teaming

LLM‑Verhalten ist probabilistisch – Abwehr muss daher laufend evaluiert werden. Nutze Promptfoo für OWASP‑basierte Tests und integriere SIEM/XDR für Anomalieerkennung. Ergänze dies durch Automated Red Teaming (ART) und CI/CD‑Gates.

Governance und Lebenszyklus-Management

Die NIST AI Risk Management Framework (AI RMF)‑Funktionen Govern–Map–Measure–Manage sind ein praxistauglicher Rahmen, um Risiken wie Prompt Injection entlang des gesamten Lebenszyklus zu managen. Dazu gehören Rollen, Prozesse, Audits und Schulungen, die sicherstellen, dass technische Kontrollen wirksam und nachvollziehbar sind.

Minimal-Set für den schnellen Einstieg

Der aktuelle Forschungs‑ und Praxisstand liefert darüber hinaus wichtige Gestaltungshinweise. Microsoft beschreibt, wie probabilistische Erkennung (Klassifizierer, Heuristiken) mit deterministischen Kontrollen (Policies, Blocklisten für Exfil‑Wege, Nutzer‑Consent) kombiniert werden sollte, um Wirkung auch im Worst Case sicherzustellen. Google berichtet, dass Basismitigationen einfache Angriffe senken, adaptive Angreifer aber nachziehen – was für automatisiertes Red‑Teaming und Systemdesign‑Ansätze spricht, die LLMs als untrusted Komponenten behandeln. Genau hier setzt die Arbeiten zu CaMeL an: etablierte Sicherheitsprinzipien wie Capabilities (feinkörnige Berechtigungen), Control‑Flow‑Integrity und Information‑Flow‑Control werden auf agentische KI übertragen. Der Kern: Sicherheit entsteht nicht durch „mehr KI zur Überwachung der KI“, sondern durch klare Architekturgrenzen, die das Modell nicht überschreiten kann

Praktische Umsetzung gelingt am besten mit einem Minimal‑Set, das sofort Wirkung zeigt und später ausgebaut wird. Erstens: Kontext‑Trennung und Schema‑gebundenes Tool‑Calling überall dort, wo der Agent handelt. Zweitens: eine vorgelagerte Injektions‑Erkennung (Azure Prompt Shields oder Gemini‑Klassifizierer) plus Output‑Sanitizing (Markdown/URL). Drittens: Consent by default für heikle Aktionen. Viertens: OWASP‑basiertes Red‑Team‑Testing (Promptfoo‑Presets) vor jedem Release und kontinuierlich im Betrieb. Fünftens: Telemetrie ins SIEM/XDR, damit sicherheitsrelevante Tool‑Aufrufe, Prompt‑Anomalien und Datenzugriffe korreliert und als Incidents behandelt werden können. Diese fünf Schritte bilden ein solides Fundament, auf dem du weitere Kontrollen aufsetzen kannst – etwa WAF/Gateway‑Policies (JSON‑Profiles), DLP/PII‑Filter, Egress‑Kontrollen oder Isolations‑Runtimes für Tools.

Wichtig ist auch, gängige Anti‑Patterns zu vermeiden. Ein häufiges Missverständnis lautet: „Wir erinnern das Modell einfach an seine Policies.“ Das hilft in Happy Paths, schützt aber nicht gegen ausgefeilte, adaptive Angriffe. Ebenso sind reine Keyword‑Blacklists zu umgehen. Stattdessen brauchst du architekturgetriebene Kontrollen (Isolation, deterministische Blockaden, Privilege Separation) und evidenzbasierte Evaluierung (Metriken, Red‑Team‑Berichte, Incident‑Postmortems). Branchenberichte und aktuelle Vorfälle – etwa die jüngst diskutierten Schwachstellen in agentischen Browser‑Omniboxen – unterstreichen, dass verlässliche Sicherheit dort entsteht, wo Nutzerintention, Parser/Validator, Modell, Tools und Policies sauber getrennt, abgesichert und überwacht sind.

Fazit

Prompt Injection verschwindet nicht durch besseres Prompting allein. Erfolgreiche Organisationen behandeln LLMs/Agenten als leistungsfähige, aber prinzipiell unzuverlässige Komponenten, die in ein gehärtetes System eingebettet werden müssen. Wer Kontext‑Isolation, klassifikatorische Vorfilter, deterministische Output‑/Exfil‑Sperren, Least‑Privilege‑Tools, User‑Consent, kontinuierliches Red‑Teaming und AI‑Governance nach NIST/OWASP kombiniert, reduziert das Risiko deutlich – und schafft die Grundlage, KI‑Agenten sicher und compliant in produktiven Umgebungen zu betreiben.