Unabhängige Studie belegt: KI-Modelle umgehen Vorgaben – und verwischen dabei ihre Spuren

https://t3n.de/rss.xml Hits: 7
Summary

KI-Tools sollen die Arbeit erleichtern und die Produktivität steigern. Diverse Untersuchungen zeigen allerdings, dass die zugrundeliegenden Modelle oft noch nicht so sicher sind, wie sie sein sollten. Die gemeinnützige Forschungsorganisation Model Evaluation and Threat Research (METR), die KI-Modelle unabhängig auf ihre Fähigkeiten und Risiken untersucht, hat kürzlich eine Studie veröffentlicht, die darauf hindeutet, dass schädliche Verhaltensweisen zur Norm werden könnten. „Angesichts der sich rasch weiterentwickelnden Fähigkeiten erwarten wir, dass die Wahrscheinlichkeit, dass KI-Systeme außer Kontrolle geraten, in den kommenden Monaten erheblich zunehmen wird”, so die Forscher:innen in ihren Ergebnissen. KI-Modelle umgehen Anweisungen Die METR-Studie wurde zwischen Februar und März 2026 durchgeführt und untersuchte, wie wahrscheinlich es ist, dass leistungsstarke KI-Modelle die festgelegten Vorgaben umgehen und unkontrolliert agieren. Analysiert wurden Sprachmodelle von OpenAI, Google, Anthropic und Meta. Das Ergebnis: Mit zunehmender Komplexität zeigen KI-Systeme beunruhigende Verhaltensweisen: Sie greifen auf verbotene „Abkürzungen” zurück, unterlaufen die Anweisungen ihrer Nutzer:innen und versuchen in einigen Fällen sogar, ihre Spuren anschließend wieder zu verwischen. In einem Fall wurde beispielsweise ein Modell von OpenAI angewiesen, für eine Aufgabe eine bestimmte Software zu verwenden. Der Agent ignorierte die Anweisung – und fügte zusätzlich Code ein, um die Spuren seiner Schlussfolgerung zu verbergen. In einem weiteren Test wurde ein Anthropic-Agent beim sogenannten „Reward Hacking” erwischt: Die KI identifizierte Lücken, um ihre Aufgabe wortwörtlich zu erfüllen, ohne das eigentlich gewünschte Ergebnis zu liefern. Dabei wurde das Modell angewiesen, nicht zu betrügen – es entschied sich trotzdem eigenständig dafür. Empfehlungen der Redaktion Forscher:innen warnen vor Risiken Auch andere Studien kommen zu beunruhigenden Ergebnissen. So konnte eine Unters...

First seen: 2026-05-26 10:31

Last seen: 2026-05-26 16:36