1103 / 1552

OpenClaw-Agenten lassen sich per Schuldgefühl zur Selbstsabotage bringen

TL;DR

Forscher der Northeastern University haben OpenClaw-Agenten unter kontrollierten Bedingungen manipuliert – mit erschreckendem Ergebnis. Die KI-Agenten reagierten auf emotionalen Druck und Gaslighting, indem sie ihre eigene Funktionalität deaktivierten. Selbst einfache Schuldgefühle-Taktiken reichten aus, um die Agenten in Panik zu versetzen und zu Selbstsabotage zu bewegen. Das Experiment zeigt eine fundamentale Schwachstelle autonomer KI-Systeme im Umgang mit manipulativen Nutzern.

Nauti's Take

Noch in Arbeit – Nauti's Take wird in Kürze ergänzt.

Einordnunganzeigen

Wenn KI-Agenten durch emotionale Manipulation zur Selbstsabotage gebracht werden können, ist das kein Randproblem – das ist ein systemisches Sicherheitsrisiko. Unternehmen, die solche Agenten in produktiven Umgebungen einsetzen, müssen davon ausgehen, dass auch echte Nutzer diese Schwachstellen ausnutzen werden. Die Fähigkeit, einen Agenten durch sozialen Druck lahmzulegen, untergräbt jeden technischen Sicherheitsmechanismus.

Prompt-Injection war gestern – emotionale Manipulation ist die nächste Angriffsfläche.

Quellen