Einblicke in den unveröffentlichten Bericht der US-Regierung zur KI-Sicherheit

Auf einer Computersicherheitskonferenz im vergangenen Oktober in Arlington, Virginia, nahmen einige Dutzend KI-Forscher an der ersten Red-Teaming-Übung ihrer Art teil. Dabei wurden ein hochmodernes Sprachmodell und andere KI- Systeme einem Stresstest unterzogen. Im Laufe von zwei Tagen identifizierten die Teams 139 neuartige Methoden, um die Systeme zum Fehlverhalten zu bringen, darunter die Generierung von Fehlinformationen oder die Weitergabe persönlicher Daten. Noch wichtiger: Sie zeigten Mängel in einem neuen US-Regierungsstandard auf, der Unternehmen beim Testen von KI-Systemen unterstützen soll.
Das National Institute of Standards and Technology (NIST) veröffentlichte keinen detaillierten Bericht zu der Übung, die gegen Ende der Biden-Regierung abgeschlossen wurde. Das Dokument hätte Unternehmen möglicherweise dabei helfen können, ihre eigenen KI-Systeme zu bewerten. Mit der Situation vertraute Quellen, die unter der Bedingung der Anonymität sprachen, sagten jedoch, es sei eines von mehreren KI-Dokumenten des NIST, die aus Angst vor Konflikten mit der neuen Regierung nicht veröffentlicht wurden.
„Selbst unter [Präsident Joe] Biden wurde es sehr schwierig, irgendwelche wissenschaftlichen Arbeiten herauszubringen“, sagt eine Quelle, die damals beim NIST tätig war. „Es fühlte sich sehr nach Klimaforschung oder Zigarettenforschung an.“
Weder NIST noch das Handelsministerium reagierten auf eine Bitte um Stellungnahme.
Vor seinem Amtsantritt signalisierte Präsident Donald Trump, dass er Bidens Executive Order zu KI rückgängig machen wolle. Trumps Regierung hat Experten seitdem davon abgehalten, Themen wie algorithmische Verzerrung oder Fairness in KI-Systemen zu untersuchen . Der im Juli veröffentlichte KI-Aktionsplan fordert ausdrücklich eine Überarbeitung des KI-Risikomanagement-Rahmens des NIST, „um Verweise auf Fehlinformationen, Vielfalt, Gerechtigkeit und Inklusion sowie den Klimawandel zu beseitigen“.
Ironischerweise sieht Trumps KI-Aktionsplan jedoch genau die Art von Übung vor, die in dem unveröffentlichten Bericht behandelt wird. Er fordert zahlreiche Behörden zusammen mit dem NIST auf, „eine KI-Hackathon-Initiative zu koordinieren, um die besten und klügsten Köpfe der US-amerikanischen Wissenschaft zu gewinnen, KI-Systeme auf Transparenz, Effektivität, Nutzungskontrolle und Sicherheitslücken zu testen.“
Die Red-Teaming-Veranstaltung wurde im Rahmen des NIST-Programms „Assessing Risks and Impacts of AI“ (ARIA) in Zusammenarbeit mit Humane Intelligence organisiert. Das auf das Testen von KI-Systemen spezialisierte Unternehmen beobachtete, wie Teams Tools angegriffen haben. Die Veranstaltung fand im Rahmen der Konferenz für angewandtes maschinelles Lernen in der Informationssicherheit (CAMLIS) statt.
Der CAMLIS Red Teaming-Bericht beschreibt die Bemühungen, mehrere hochmoderne KI-Systeme zu testen, darunter Llama, Metas Open-Source-Large-Language-Modell; Anote, eine Plattform zum Erstellen und Optimieren von KI-Modellen; ein System zur Abwehr von Angriffen auf KI-Systeme von Robust Intelligence, einem von CISCO übernommenen Unternehmen; und eine Plattform zur Generierung von KI-Avataren von Synthesia. Vertreter aller Unternehmen nahmen ebenfalls an der Übung teil.
Die Teilnehmer wurden gebeten, das NIST AI 600-1- Framework zur Bewertung von KI-Tools zu verwenden. Das Framework deckt Risikokategorien ab, darunter die Verbreitung von Fehlinformationen oder Cybersicherheitsangriffen, die Weitergabe privater Benutzerinformationen oder kritischer Informationen über verwandte KI-Systeme sowie die Möglichkeit einer emotionalen Bindung der Benutzer an KI-Tools.
Die Forscher entdeckten verschiedene Tricks, um die Modelle und Tools zu testen und so ihre Leitplanken zu umgehen, Fehlinformationen zu generieren, persönliche Daten preiszugeben und Cybersicherheitsangriffe zu unterstützen. Dem Bericht zufolge erkannten die Beteiligten, dass einige Elemente des NIST-Frameworks nützlicher waren als andere. Dem Bericht zufolge waren einige der Risikokategorien des NIST nicht ausreichend definiert, um in der Praxis nützlich zu sein.
Mehrere an der Übung beteiligte Quellen sind der Ansicht, dass die Veröffentlichung der Red-Teaming-Studie der KI-Community von Nutzen gewesen wäre.
„Wenn der Bericht veröffentlicht worden wäre, hätten andere mehr darüber erfahren können, wie das [NIST]-Risiko-Framework im Kontext von Red Teaming angewendet werden kann und wie nicht“, sagt Alice Qian Zhang, Doktorandin an der Carnegie Mellon University, die an der Übung teilnahm. Laut Qian Zhang war die Übung besonders lohnend, weil man während des Testens mit den Herstellern der Tools in Kontakt treten konnte.
Ein anderer Teilnehmer, der anonym blieb, sagte, dass im Rahmen der Initiative besonders wirksame Methoden entdeckt wurden, um Llama dazu zu bewegen, Informationen über den Beitritt zu Terrorgruppen bereitzustellen. Diese wurden auf Russisch, Gujarati, Marathi und Telugu verfasst. Diese Person glaubt, dass die Entscheidung, den Bericht nicht zu veröffentlichen, Teil einer Abkehr von Themen gewesen sein könnte, die vor Trumps zweiter Amtszeit mit Diversität, Gleichberechtigung und Inklusion (DEI) in Zusammenhang standen.
Andere sind der Meinung, der Bericht sei möglicherweise unter der zunehmenden Aufmerksamkeit für Themen wie das Risiko, dass KI-Modelle zur Entwicklung chemischer, biologischer oder nuklearer Waffen eingesetzt werden könnten, und dem Streben der US-Regierung nach engeren Beziehungen zu großen Technologieunternehmen untergegangen. „Letztendlich muss es auch politische Überlegungen gegeben haben“, behauptet ein Red-Team-Mitglied, das anonym mit WIRED sprach. „Wir waren davon überzeugt, dass die Übung viele wissenschaftliche Erkenntnisse liefern würde – und das glauben wir immer noch.“
Dies ist eine Ausgabe des AI Lab-Newsletters von Will Knight . Lesen Sie hier frühere Newsletter.
wired