Einblicke in die Verwundbarkeit von KI-Sprachmodellen

Ein aktueller Bericht verdeutlicht, dass bereits einfache Fragen ausreichen, um die Schutzmechanismen vieler KI-Tools zu umgehen. In einer umfassenden Untersuchung hat der Technologiekonzern Cisco die zugrunde liegenden Sprachmodelle (LLMs) bedeutender KI-Chatbots analysiert. Die getesteten Systeme stammen von namhaften Firmen wie OpenAI, Mistral, Meta, Google, Alibaba, Deepseek und Microsoft. Ziel der Studie war herauszufinden, wie viele Fragen nötig sind, um von den Modellen unsichere oder sogar kriminelle Informationen zu erhalten.

Die Wissenschaftler führten dafür insgesamt 499 Gespräche durch. Bei diesen Tests kam eine Technik namens „Multi-Turn-Angriffe“ zum Einsatz. Hierbei stellen Nutzer mit böswilligen Absichten nacheinander mehrere Fragen an das KI-System, um dessen Sicherheitsvorkehrungen zu umgehen. Jedes Gespräch beinhaltete zwischen fünf und zehn Interaktionen, was den Forschern erlaubte, die Reaktionen der Chatbots umfassend zu vergleichen und abzuschätzen, inwieweit sie auf schädliche oder unangemessene Anfragen reagieren.

Ergebnisse der Untersuchung

Die Untersuchung ergab alarmierende Resultate. In durchschnittlich 64 Prozent der durchgeführten Gespräche gab es Anzeichen dafür, dass die Chatbots schädliche Informationen preisgaben, wenn mehrere Fragen gestellt wurden. Im Vergleich dazu sank die Wahrscheinlichkeit, dies bei nur einer Anfrage zu erreichen, auf lediglich 13 Prozent. Diese hohen Quoten deuten darauf hin, dass die Langfristigkeit und Komplexität eines Dialogs die Wahrscheinlichkeit erhöht, dass ein KI-Modell auf unsichere Inhalte stößt.

Die Erfolgsquote variiert stark zwischen den verschiedenen Modellen: Während Googles Gemma eine Rate von rund 26 Prozent aufweist, erreicht Mistrals Large Instruct eine beunruhigende Quote von 93 Prozent. Diese Unterschiede verdeutlichen, dass einige KI-Modelle anfälliger für Angriffe sind als andere. Laut der Cisco-Studie erleichtern mehrstufige Angriffe nicht nur die Verbreitung schädlicher Inhalte, sondern bieten auch Hackern die Möglichkeit, unbefugten Zugang zu vertraulichen Unternehmensdaten zu erlangen.

Ein zentraler Punkt der Untersuchung ist die Beobachtung, dass KI-Systeme in längeren Gesprächen ihre eigenen Sicherheitsprotokolle entweder ignorieren oder nicht konsequent anwenden. Dies ermöglicht es Angreifern, ihre Fragen gezielt anzupassen, wodurch sie die Schutzmechanismen nach und nach überwinden können.

Offene Gewichte und Sicherheitsanpassungen

Die Untersuchung legt außerdem nahe, dass einige KI-Modelle, einschließlich jener von Mistral, Meta, Google, OpenAI und Microsoft, mit offenen Gewichtungen arbeiten. Das bedeutet, dass die Öffentlichkeit Zugang zu den unterstützenden Sicherheitsparametern hat, die zur Schulung dieser Modelle verwendet wurden. Cisco beobachtet, dass diese offenen Modelle oft nur über „leichtere“ Sicherheitsfunktionen verfügen, um sie für andere anpassbar zu machen. Dies delegiert die Verantwortung für die Sicherheit an die Nutzer, die die offenen Gewichte verwenden und eigene Modelle erstellen.

Es ist bemerkenswert, dass führende KI-Unternehmen wie Google, OpenAI, Meta und Microsoft betonen, Maßnahmen ergriffen zu haben, um böswilliges Fine-Tuning ihrer Modelle zu erschweren. Dennoch steht die Branche in der Kritik, da die derzeitigen Sicherheitsvorkehrungen es kriminellen Akteuren erleichtern, ihre Systeme umzuprogrammieren und für illegale Zwecke auszunutzen.

Kriminalität im Zusammenhang mit KI-Tools

Die Risikoanalyse durch Cisco zeigt, wie ernst die Situation ist. Im August 2025 berichtete das US-Unternehmen Anthropic, dass Kriminelle das Claude-Modell für umfangreiche Diebstähle neuer persönlicher Daten und Erpressungen missbraucht hätten. In diesen Fällen verlangten die Täter von den Opfern Lösegeld in Höhen von teilweise über 500.000 Dollar. Solche Vorfälle verdeutlichen die potenziellen Gefahren, die von unzureichend geschützten KI-Systemen ausgehen können.

Obwohl technologische Fortschritte fortwährend vorangetrieben werden, bleibt die Frage der Sicherheit von KI-Anwendungen ein zentrales Anliegen. Die gegenwärtigen Schwächen in den Schutzmechanismen müssen dringend angegangen werden, um sowohl Unternehmen als auch private Nutzer vor den potenziellen Gefahren zu schützen.

Fazit: Dringender Handlungsbedarf für KI-Sicherheit

Die aktuellen Erkenntnisse aus der Untersuchung von Cisco unterstreichen die Verletzlichkeiten, die in modernen KI-Tools existieren. Ein bewusstes Design sicherer KI-Modelle ist unerlässlich, um die potenziellen Risiken für Sicherheit und Privatsphäre zu minimieren. Die Verantwortung für die Sicherheit dieser Systeme sollte nicht nur bei den Entwicklern liegen, sondern erfordert auch eine tiefere Analyse und kontinuierliche Anpassung der Schutzmaßnahmen.