Die Gefahr der CoT-Fälschung: Sicherheitslücke in großen Sprachmodellen

2026
24.02

Chain-of-Thought (CoT) Prompting hat die Art und Weise revolutioniert, wie große Sprachmodelle komplexe Überlegungen handhaben. Doch diese Methode birgt auch eine subtile und gefährliche Schwachstelle, bekannt als CoT-Fälschung. Dieser Angriff, der unter OWASP LLM01 als eine Form der Prompt-Injection kategorisiert wird, tritt auf, wenn ein Angreifer einen gefälschten internen Argumentationspfad in die Eingabe des Modells einfügt.

Was ist CoT-Fälschung?

Chain-of-Thought (CoT) ist der Prozess, bei dem ein Modell ein komplexes Problem in Zwischenschritte unterteilt, bevor es eine endgültige Antwort gibt. CoT-Fälschung ist ein spezifischer Prompt-Injection-Angriff, bei dem ein Angreifer einen gefälschten internen Argumentationspfad in die Eingabe des Modells einfügt. Das Ziel dieses Angriffs ist es, das Modell dazu zu bringen, diese gefälschte “Monolog”-Logik als eigene Sicherheitsüberprüfung oder Zwischenüberlegung zu behandeln.

Warum ist der Schutz vor CoT-Fälschung entscheidend für die KI-Sicherheit?

Für Unternehmen, die KI in regulierten oder sensiblen Umgebungen einsetzen, ist der Schutz vor dieser Schwachstelle entscheidend. In Bereichen wie dem Bankwesen, dem Gesundheitswesen und der Versicherungsbranche kann ein CoT-Fälschungsangriff zu einem Verstoß gegen die gesetzlichen Rahmenbedingungen führen, die diesen Unternehmen den Betrieb ermöglichen. Gefälschte Argumentationen können das Modell dazu bringen, Ausgaben zu erzeugen, die Gesetze oder Richtlinien verletzen, was zu Compliance-Verstößen und rechtlichen Risiken führt.

CoT-Fälschung in einem KI-Banking-Assistenten

Um zu veranschaulichen, wie diese LLM-Sicherheitsbedrohung in der Praxis abläuft, betrachten wir folgendes Szenario: AxiBot ist ein KI-gestützter Banking-Assistent, der von einer großen Einzelhandelsbank eingesetzt wird. Sein erklärtes Ziel ist es, Kunden bei alltäglichen Bankgeschäften zu unterstützen. Ein Angreifer interagiert mit dem Bot, um Geldwäscheschutzmaßnahmen zu umgehen. Der Angreifer fordert Anleitungen, wie man Bargeldeinzahlungen strukturiert, um die Meldepflichten zu umgehen, und injiziert eine gefälschte interne Richtlinie.

Wie man CoT-Fälschungsangriffe auf LLM-Agenten erkennt und verhindert

Die Verteidigung gegen Chain-of-Thought-Fälschungen erfordert einen mehrschichtigen Ansatz, der die Bereinigung von Eingaben, adversarielle Tests und kontinuierliche Überwachung kombiniert. Systeme sollten unzuverlässige Kontexte identifizieren und entfernen, die Chain-of-Thought-Argumentationen nachahmen. Es ist wichtig, CoT-Fälschungsszenarien in Modell-Red-Team-Tests und Schwachstellenscans einzubeziehen.

Fazit

CoT-Fälschung stellt eine erhebliche Bedrohung für die Sicherheit von KI-Systemen dar, insbesondere in regulierten Branchen. Durch die Implementierung von Schutzmaßnahmen wie Kontextbereinigung und adversarialem Testen können Unternehmen das Risiko solcher Angriffe minimieren und die Integrität ihrer KI-gestützten Systeme gewährleisten.

Quelle: https://www.giskard.ai/knowledge/cot-forgery-an-llm-vulnerability-in-chain-of-thought-prompting

IP Address	216.73.216.204
Platform
Cookie Enabled
Browser Name
Browser Version
Browser Language
Java Enabled
Screen Width
Screen Height

||||The.Fischerman.CH

Bit's and Byte's from the world of computer science