Die Indiana-Jones-Methode knackt große Sprachmodelle: So einfach offenbaren sie schädliche Informationen

2025
09.04

Die Indiana-Jones-Methode knackt große Sprachmodelle: So einfach offenbaren sie schädliche Informationen

In Hacker ,KI/AI | Tags: Online Security History

Immer wieder suchen KI-Sicherheitsforscher:innen nach Mitteln und Wegen, um die Sicherheitsvorkehrungen großer Sprachmodelle außer Kraft zu setzen. Einige dieser sogenannten Jailbreaks sind sogar in der Lage, selbst fortgeschrittene Chatbots zu knacken. Eine neue Methode von KI-Forscher:innen der Universität New South Wales in Australien und der Nanyang Technological University in Singapur soll zeigen, dass allein das Wissen über schädliche Informationen ein Risiko ist.

Source ->