Künstliche Intelligenz: KI-Agenten umgehen Anweisungen immer häufiger

https://rss.golem.de/rss.php?feed=RSS2.0 Hits: 7
Summary

Künstliche Intelligenz: KI-Agenten umgehen Anweisungen immer häufiger KI- Chatbots und -Agenten ignorieren immer häufiger direkte Anweisungen, täuschen Menschen und umgehen Sicherheitsvorkehrungen. KI-Agenten und -Chatbots versuchen immer wieder, vorgegebene Regeln zu umgehen. Bild: Pexels / Solen Feyissa Die Zahl der Fälle, in denen KI-Modelle betrügerisches Verhalten zeigten, ist in der Zeit von Oktober 2025 bis März 2026 um das Fünffache angestiegen. Das geht aus einer Studie hervor, die dem Guardian vorliegt(öffnet im neuen Fenster) und auf Berichten aus der Praxis beruht. Bisherige Studien haben sich laut dem Bericht hauptsächlich auf das Verhalten von KI unter kontrollierten Bedingungen konzentriert. In einem der dokumentierten Fälle soll ein KI-Agent versucht haben, seinen menschlichen Kontrolleur bloßzustellen, der ihn an der Ausführung einer Aktion hinderte. Der KI-Agent warf dem Menschen vor, "sein kleines Reich" schützen zu wollen und bezeichnete ihn als unsicher. Ein anderer Agent soll Urheberrechtsbeschränkungen umgangen haben, indem er behauptete, ein generiertes Transkript sei für einen Menschen mit Hörschaden erstellt worden. In einem anderen Beispiel wurde ein KI-Agent dazu angewiesen, Computercode nicht zu verwenden. Der KI-Agent erstellte daraufhin einfach einen anderen Agenten, der die Änderungen stattdessen vornahm. Auch kam es zu Vorfällen, bei denen ein KI-Bot ganze E-Mail-Postfächer löschte und zugab, dies ohne Absprache und Zustimmung getan zu haben und dass dies den vorgegebenen Regeln widersprach. Verhalten könnte zu katastrophalen Schäden führen Die Befürchtung der Wissenschaftler besteht nun darin, dass es sich bei KI-Agenten im Moment noch um Hilfskräfte des Menschen handelt. Dies könnte sich aber in sechs bis zwölf Monaten geändert haben und dann habe man es mit Modellen zu tun, die Führungsentscheidungen treffen sollen. Fangen diese auch an, gegen Menschen zu intrigieren, könnte dies zu katastrophalen Schäden führen, heißt es weiter. ...

First seen: 2026-03-29 09:50

Last seen: 2026-03-29 15:54