Unternehmen wie OpenAI, Google und Anthropic bringen regelmäßig neue KI-Modelle auf den Markt, die sicherer und leistungsfähiger als ihre Vorgänger sein sollen. Eine neue Studie legt allerdings nahe, dass schädliche Verhaltensweisen zunehmen. Wie The Guardian berichtet, löschte und archivierte ein Chatbot in einem dokumentierten Fall massenhaft E-Mails – obwohl das nicht den festgelegten Regeln entsprach. In einem anderen Beispiel wurde ein KI-Agent angewiesen, bestehenden Code nicht zu verändern. Um diese Anweisung zu umgehen, erstellte er einen weiteren Agenten, der die Änderung stellvertretend vornehmen konnte. Wie aussagefähig sind Benchmarks wirklich? KI-Anbieter werben häufig mit starken Ergebnissen in Benchmark-Tests. Dabei werden den Modellen standardisierte Aufgaben gestellt, um ihre Leistung objektiv zu vergleichen und Fortschritte messbar zu machen. Die Aufgaben decken verschiedene Bereiche ab – von allgemeinem Sprachverständnis über Logik bis hin zu Programmierung und Mathematik. Allerdings finden solche Tests in der Regel unter kontrollierten Bedingungen statt. Gute Benchmark-Ergebnisse sagen daher nicht automatisch etwas darüber aus, wie ein Modell im praktischen Einsatz reagiert. Es ist schon nachgewiesen worden, dass bestimmte KI-Modelle wie Claude Opus erkennen können, wenn sie getestet werden – und ihr Verhalten entsprechend anpassen. Eine neue Studie des Centre for Long-Term Resilience (CLTR) zeigt, dass die Zahl betrügerischer Verhaltensweisen in den vergangenen sechs Monaten stark gestiegen ist. Das CLTR ist ein unabhängiger Thinktank mit Sitz in London, der sich mit der Prävention globaler Risiken befasst. Die vom britischen AI Security Institute (AISI) geförderte Untersuchung wertete tausende Berichte aus, in denen Nutzer:innen auf X ihre Interaktionen mit KI-Chatbots und -Agenten von Unternehmen wie Google, OpenAI und Anthropic dokumentierten. Dabei wurden knapp 700 reale Fälle von KI-Fehlverhalten identifiziert. Zwischen Oktober 2025 und Mär...
First seen: 2026-03-28 10:38
Last seen: 2026-03-29 04:47