Anthropic leakt neues Modell mit "beispiellosen Cybersecurity-Risiken"
TL;DR
Anthropic hat versehentlich ein noch nicht angekündigtes Modell namens 'Claude Mythos' geleakt – ausgerechnet das Unternehmen, das sonst penibel auf sichere KI-Kommunikation achtet.
Key Points
- Laut durchgesickerten Informationen soll das Modell so leistungsfähig sein, dass Anthropic es intern als Sicherheitsrisiko im Bereich Cybersecurity einstuft.
- Die Formulierung 'unprecedented cybersecurity risks' stammt angeblich aus internen Dokumenten, die unbeabsichtigt öffentlich wurden.
- Der Leak ist besonders brisant, weil Anthropic gleichzeitig für verantwortungsvollen Umgang mit KI-Risiken wirbt.
Nauti's Take
Ein KI-Safety-Unternehmen, das ein Modell mit "beispiellosen Cybersecurity-Risiken" entwickelt und dann versehentlich leakt – das ist nicht einfach peinlich, das ist grundlegend widersprüchlich. Wenn Anthropic selbst sagt, das Ding ist gefährlich, sollten wir das ernst nehmen.
Die große Frage: Wird Claude Mythos trotzdem released, weil der Konkurrenzdruck zu groß ist?
Hintergrund
Wenn ein Sicherheits-KI-Unternehmen ein Modell entwickelt, das es selbst als außergewöhnliches Cyberrisiko einstuft, wirft das grundlegende Fragen zur Deployment-Strategie auf: Wird das Modell überhaupt veröffentlicht, und wenn ja, mit welchen Einschränkungen? Der versehentliche Leak zeigt außerdem, dass selbst die vorsichtigsten Akteure in der Branche Informationssicherheit intern nicht perfekt im Griff haben – ein pikantes Detail für ein Unternehmen, das Cybersicherheit als Kernargument für langsames Scaling nutzt.