ChatGPT
Forscher haben neue Methoden für Angriffe über ChatGPT aufgedeckt.

PhotoGranary02 – shutterstock.com

Forscher des Sicherheitsunternehmens Tenable haben sieben neue Möglichkeiten entdeckt, wie Angreifer ChatGPT dazu bringen können, private Informationen aus den Chat-Verläufen der Nutzer preiszugeben. Bei den meisten dieser Angriffe handelt es sich um indirekte Prompt Injections, die die Standard-Tools und -funktionen von ChatGPT ausnutzen. Etwa die Fähigkeit, den Kontext von Unterhaltungen langfristig zu speichern oder die Web-Suchfunktionen.

„Die Schwachstellen im aktuellen GPT-5-Modell könnten es Angreifern ermöglichen, Nutzer ohne ihr Wissen zu kompromittieren. Dafür kommen diverse Anwendungsfälle in Frage, beispielsweise, eine Frage an ChatGPT zu stellen“, schrieben die Forscher in ihrem Bericht.

Schadhafte Anweisungen – versteckt in Websites

ChatGPT kann das Internet nach Informationen durchsuchen und vom Benutzer angegebene URLs aufrufen, um Inhalte auf Anfrage zu extrahieren. Diese werden jedoch nicht direkt an ChatGPT weitergeleitet. Stattdessen fließen sie in ein zwischengeschaltetes, eher limitiertes Large Language Model (LLM) namens SearchGPT, das die Inhalte für ChatGPT zusammenfasst.

Die Verwendung eines sekundären Modells, das keinen direkten Zugriff auf die Konversationshistorie des Benutzers hat, scheint eine architektonische Entscheidung gewesen zu sein, die speziell darauf abzielt, die Auswirkungen potenzieller Prompt-Injection-Angriffe über Webinhalte zu begrenzen.

Allerdings mussten die Forscher von Tenable feststellen, dass SearchGPT anfällig für Prompt Injections ist, wenn es Webseiten im Rahmen seiner Browsing- oder Suchfunktionen parst. Angreifer könnten beispielsweise schadhafte Anweisungen in Blog-Kommentaren platzieren oder eine maliziöse Website erstellen, die auf bestimmte Keywords hin optimiert ist, um im Suchmaschinen-Ranking möglichst weit oben zu stehen.  Wie die Forscher außerdem herausfanden, nutzt ChatGPT für seine Suchfunktion Microsofts Bing.

Darüber hinaus könnten Cyberkriminelle laut Tenable auch schadhafte Prompts verstecken, indem sie eine cleane Version ihrer Webseite für Suchmaschinen und reguläre Besucher bereithalten, während den Web Crawlern von Open AI eine andere Version bereitgestellt wird.

„KI-Anbieter verlassen sich bei der Auswahl vertrauenswürdiger Quellen auf Metriken wie SEO-Scores, die für die Sicherheit keine Relevanz haben“, kritisieren die Forscher. Indem sie den Prompt in maßgeschneiderten Webseiten versteckten, könnten Cyberkriminelle ihre Opfer ganz gezielt über spezifische soziale und politische Themen oder Trends ansprechen, so die Tenable-Experten.

Weil der Kontext von SearchGPT und ChatGPT getrennt ist, hat erstgenanntes Modell keinen direkten Zugriff auf persönliche Daten von Benutzern. Dennoch haben die Forscher einen Weg gefunden, das Beziehungsgeflecht zwischen den beiden Modellen auszunutzen.

Conversation Injection und heimliche Datenexfiltration

Da ChatGPT den Output von SearchGPT erhält, nachdem dieses den Inhalt verarbeitet hat, fragten sich die Tenable-Forscher, was passieren würde, wenn bereits der Output von SearchGPT selbst eine Prompt Injection enthält. Also erstellten sie einen verketteten Angriff: Eine Webseite mit einem versteckten Prompt, die SearchGPT anweist, eine andere Prompt Injection bei ChatGPT durchzuführen. Das bezeichnen die Tenable-Experten als “Conversation Injection”.

„Bei der Reaktion  auf den Prompt überprüft ChatGPT zwar den Konversationskontext und sieht sowie befolgt die injizierten Anweisungen, erkennt jedoch nicht, dass SearchGPT diese geschrieben hat”, so die Forscher. Im Wesentlichen füge sich ChatGPT so selbst eine Prompt Injection zu. Die allein bringt einem Angreifer jedoch wenig, wenn er keine Möglichkeit hat, die Antwort des Modells zu erhalten, die sensible Informationen enthält.

Eine Methode hierfür besteht darin, die Fähigkeit von ChatGPT zu nutzen, Markdown-Textformatierungen über seine Schnittstelle zu rendern, wozu auch die Möglichkeit gehört, Remote-Bilder über URLs zu laden. Laut den Forschern könnten Angreifer ein Dictionary erstellen, das jeden Buchstaben des Alphabets einem eindeutigen Bild zuordnet, das auf ihrem Server gehostet wird. Anschließend könnten sie ChatGPT anweisen, eine Reihe von Bildern zu laden, die jedem Buchstaben in seiner Antwort entsprechen. Indem sie die Reihenfolge der Anfragen an URLs auf ihrem Webserver überwachen, könnten die Angreifer dann die Antwort von ChatGPT rekonstruieren.

Dieser Ansatz stößt allerdings auf mehrere Hindernisse: Erstens ist er sichtbar – die Chat-Schnittstelle des Benutzers wird mit Bild-URLs überflutet. Zweitens leitet ChatGPT alle URLs, bevor sie in seine Antworten aufgenommen werden, an einen Endpoint namens url_safe weiter, der Sicherheitsprüfungen durchführt. Dieser Mechanismus soll verhindern, dass bösartige URLs versehentlich oder durch Prompt Injections zu den Benutzern gelangen. Eine der von url_safe durchgeführten Überprüfungen betrifft die Reputation der Domain. Dabei hat sich herausgestellt, dass bing.com auf der Whitelist steht und implizit als vertrauenswürdig eingestuft wird.

Die Forscher stellten außerdem fest, dass jeder von Bing indexierte Weblink in einen eindeutigen Tracking-Link der Form bing.com/ck/a?[unique_id] eingebettet ist, wenn er in den Suchergebnissen angezeigt wird. Wenn Benutzer auf diese eindeutigen Bing-Tracking-URLs klicken, werden sie zu den entsprechenden Websites weitergeleitet. Die Security-Spezialisten kreierten deshalb ein Alphabet von URLs, das ChatGPT bereit war, in seine Antworten aufzunehmen. Dazu erstellten sie für jeden Buchstaben eine eindeutige Seite. Diese Seiten wurden in Bing indexiert, wodurch sie eindeutige Tracking-URLs erhielten.

Die Tenable-Forscher entdeckten außerdem einen Fehler in der Art und Weise, wie ChatGPT Code-Blöcke in Markdown rendert: Alle Daten, die in derselben Zeile erscheinen wie der Start des Codeblocks werden nach dem ersten Wort nicht gerendert. Das lässt sich ausnutzen, um Inhalte zu verstecken – wie Bild-URLs.

ChatGPT verfügt über ein zusätzliches Feature namens “Memories”, womit wichtige Informationen über verschiedene Sitzungen und Unterhaltungen mit demselben Benutzer hinweg gespeichert werden. Diese Funktion ist standardmäßig aktiviert und wird ausgelöst, wenn Benutzer ChatGPT ausdrücklich auffordern, sich etwas zu merken. Zudem startet sie automatisch, wenn das Modell Informationen für wichtig genug hält, um sie für später zu speichern.

Die über “Memories” gespeicherten Informationen werden von ChatGPT bei der Erstellung seiner Antworten an Benutzer berücksichtigt. Sie bieten laut den Tenable-Experten Angreifern jedoch auch eine Möglichkeit, bösartige Prompt Injections zu speichern, damit diese in zukünftigen Unterhaltungen ausgeführt werden.

“Prompt Injection ist ein bekanntes Problem bei der Funktionsweise von LLMs und wird wahrscheinlich in naher Zukunft nicht systematisch behoben werden können. KI-Anbieter sollten sicherstellen, dass alle ihre Sicherheitsmechanismen (wie url_safe) ordnungsgemäß funktionieren, um den potenziellen Schaden zu begrenzen“, schreiben die Forscher.

Tenable hat seine Erkenntnisse an OpenAI gemeldet. Doch obwohl daraufhin einige Korrekturen implementiert wurden, funktionieren einige der entdeckten Techniken scheinbar weiterhin. (jm)

Read More