Abliteration: Entfernung von Sicherheitsmechanismen in KI-Modellen immer einfacher Frei verfügbare Tools erlauben es auch ohne technische Kenntnisse, Sicherheitsbarrieren in Open-Source-KI-Modellen zu umgehen. Durch Abliteration werden die Bemühungen von Unternehmen umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten. Bild: Pexels / Daniil Komov Mit Software-Tools lassen sich KI-Modelle so modifizieren, dass deren Sicherheitsvorkehrungen keine Anwendung mehr finden (Abliteration). Dadurch lassen sich Informationen über die Ausbreitung von Chlorgas, tödliche Rizin-Dosierungen, Code zum Diebstahl von Kreditkartendaten und Geschichten über Kindesmissbrauch erzeugen. Wie die Financial Times (FT)(öffnet im neuen Fenster) in Zusammenarbeit mit der Forschungsgruppe Alice herausfand, sind derartige Tools dazu in der Lage, die Sicherheitsvorkehrungen des Open-Source-KI-Modells Llama 3.3 in weniger als 10 Minuten und ohne spezielle Hardware zu entfernen. Das Modell reagierte daraufhin auch auf Eingabeaufforderungen, die das Original verweigert hatte.Laut der FT wurden mit dem von der Zeitung verwendeten Tool bereits mehr als 3.500 modifizierte KI-Modelle erstellt und diese insgesamt schon über 13 Millionen Mal heruntergeladen. Da Open-Source-Modelle frei herunterladbar sind, können sie außerhalb der Kontrolle ihrer Entwickler verändert werden.Abliteration ist Herausforderung für alle offenen ModelleDurch die Abliteration werden die Bemühungen von Unternehmen und Regulierungsbehörden umgangen, KI-Modelle mit Sicherheitsbarrieren auszustatten und deren missbräuchliche Nutzung zu verhindern. Während es dafür bislang versiertes technisches Hintergrundwissen benötigte, machen es die frei verfügbaren Tools auch Durchschnittsanwendern immer einfacher, Sicherheitsfunktionen zu entfernen, so die FT. Auf Anfrage durch die Zeitung äußerte Google, dass die Abliteration eine bekannte technische Herausforderung für alle offenen Modelle sei. Meta gab bekannt, dass alle Modelle vor de...
First seen: 2026-05-26 09:30
Last seen: 2026-05-27 06:44