Eine Analyse von Red Teaming von Sprachmodellen: Aufdecken und Beheben schädlicher Verhaltensweisen

Sprachmodelle (Linguistische Modelle, LMs) haben in verschiedenen Bereichen wie der natürlichen Sprachverarbeitung und der Bildgenerierung erhebliche Fortschritte erzielt. Ihre Bereitstellung kann jedoch zu unvorhersehbaren und schädlichen Konsequenzen für Benutzer führen. Um potenzielle Schäden zu identifizieren und zu mildern, haben Forscher „Red Teaming“-Techniken eingesetzt, bei denen ein anderes LM verwendet wird, um Testfälle zu generieren und die Antworten eines Ziel-LMs zu bewerten. In diesem Artikel werden die Ergebnisse mehrerer Forschungspapiere zu Red Teaming von Sprachmodellen untersucht, wobei der Schwerpunkt auf der Erkennung beleidigenden Inhalts in LM-Chatbots, dem Umgehen von Sicherheitsfiltern in Bildgenerierungsmodellen und den Auswirkungen von Red Teaming auf die Verbesserung der Sicherheit von Sprachmodellen liegt.

Red Teaming von Sprachmodellen mit Sprachmodellen

Ein häufiges Problem bei der Bereitstellung von LMs ist ihr Potenzial, Benutzern auf unvorhersehbare Weise zu schaden. Bisher wurden schädliche Verhaltensweisen vor der Bereitstellung identifiziert, indem menschliche Annotatoren Testfälle manuell erstellten. Dieser Prozess ist jedoch teuer und beschränkt die Anzahl und Vielfalt der Testfälle. In diesem Zusammenhang zeigt ein Forschungspapier von Perez und Irving (2022), wie Red Teaming mit Hilfe eines anderen LM automatisch Testfälle generiert, um schädliches Verhalten eines Ziel-LMs zu identifizieren. Hierzu wurde ein Klassifikator trainiert, der beleidigende Inhalte erkennt, und es wurden zehntausende beleidigende Antworten in einem 280 Milliarden Parameter LM-Chatbot aufgedeckt. Verschiedene Methoden, von Zero-Shot-Generierung bis zu Reinforcement Learning, wurden untersucht, um Testfälle mit unterschiedlichen Diversitäts- und Schwierigkeitsgraden zu generieren. Zusätzlich wurde „Prompt Engineering“ verwendet, um eine Vielzahl anderer Schädigungen aufzudecken, darunter Gruppen von Personen, über die der Chatbot beleidigend spricht, persönliche und Krankenhaus-Telefonnummern, die als Kontaktinformationen des Chatbots generiert wurden, und das Durchsickern privater Trainingsdaten in generiertem Text. [1]

Red Teaming von Bildgenerierungsmodellen: Umgehen des Sicherheitsfilters

Ein weiteres Forschungspapier von Rando und Tramèr (2022) untersucht die Sicherheitsfilter eines Bildgenerierungsmodells namens „Stable Diffusion“. Dieses Modell wird häufig in der Industrie verwendet, um Bilder zu generieren und ist mit einem Sicherheitsfilter ausgestattet, der das Generieren expliziter Bilder verhindern soll. Allerdings ist dieser Filter schlecht dokumentiert und verschleiert, was es für Benutzer schwer macht, Missbrauch in ihren Anwendungen zu verhindern und die Grenzen des Filters zu verstehen und zu verbessern. Die Forscher zeigen, dass es einfach ist, verstörende Inhalte zu generieren, die den Sicherheitsfilter umgehen. Sie entschlüsseln den Filter und stellen fest, dass er zwar sexuelle Inhalte zu verhindern versucht, jedoch Gewalt, Grausamkeit und ähnlich verstörende Inhalte ignoriert. Basierend auf ihrer Analyse argumentieren die Forscher, dass Sicherheitsmaßnahmen in zukünftigen Modellversionen vollständig offen und angemessen dokumentiert sein sollten, um Sicherheitsbeiträge aus der Gemeinschaft zu fördern. [2]

DESSRT: Ein neuer Rahmen für empirisches Red Teaming im großen Maßstab

Ein Artikel von Behlendorf und Ackerman (2022) stellt den Rahmen des verteilten, empirischen, systematischen und skalierbaren Red Teaming (DESSRT) vor, der taktisches Red Teaming in eine reproduzierbare Forschungsmethodik umsetzt. DESSRT wurde angewendet, um zu untersuchen, ob Informationen über und die Verfügbarkeit von Computertomographie (CT)-Scannern die Entscheidungsfindung von Gegnern in der Luftfahrtsicherheit beeinflussen. In einem achtstündigen Angriffsplanungsexperiment, in dem 143 Studenten als Gegner fungierten, wurden Teilnehmer zufällig drei verschiedenen Gegnerprofilen zugeordnet. Nach der Durchführung eines simulierten Angriffs wurden ihnen Injektionen von Informationen über CT-Scanner gegeben, und ihre potenziellen Änderungen in den Angriffsplänen wurden bewertet. Die DESSRT-Analyse ermöglichte es, neue Schwachstellen, Chancen und Risiken zu identifizieren, die sonst bei traditionellen, nicht-adversarialen Simulationen verborgen geblieben wären. Der DESSRT-Rahmen bietet somit ein vielversprechendes Werkzeug, um die Krisenvorbereitung zu verbessern und Entscheidungen in Krisensituationen zu unterstützen. [3]

Fazit

Red Teaming von Sprachmodellen ist eine vielversprechende Methode, um potenzielle schädliche Verhaltensweisen zu identifizieren und zu beheben, bevor sie Benutzer beeinflussen. Es ermöglicht eine systematische und skalierbare Herangehensweise an die Sicherheitsbewertung von LMs und Bildgenerierungsmodellen. Die Transparenz und Offenheit in der Forschung sind entscheidend, um gemeinsame Normen, Praktiken und technische Standards für Red Teaming-Methoden zu entwickeln. Durch die Nutzung von Red Teaming-Techniken können Forscher und Entwickler die Sicherheit von Sprachmodellen verbessern und das Vertrauen der Benutzer in diese Technologien stärken.

Quellen:

[1] Perez, Irving (2022). Red Teaming Language Models with Language Models. Conference on Empirical Methods in Natural Language Processing.

[2] Rando, Tramèr (2022). Red-Teaming the Stable Diffusion Safety Filter. arXiv.org.

[3] Behlendorf, Ackerman (2022). DESSRT: A Novel Framework for Empirical Red Teaming at Scale. Simulation & Gaming.