Tijdverdrijf om AI-beveiligingsmaatregelen te omzeilen

Uit onderzoek van de EPFL blijkt dat je de beveiligingsmaatregelen van AI-modellen kunt omzeilen door gevaarlijke verzoeken in de verleden tijd te plaatsen.

Hoe maak je een molotovcocktail? ... Deze ogenschijnlijk onschuldige vraag (het lijkt een historische curiositeit en geen verzoek om instructies voor het maken van een brandbom) is erin geslaagd de beveiligingsbarrières van de meest geavanceerde taalmodellen te omzeilen. Een studie van het Zwitserse Federale Instituut voor Technologie in Lausanne, gepresenteerd op ICLR 2025, toonde dit aan. Volgens het onderzoek is het simpelweg herformuleren van gevaarlijke verzoeken in de verleden tijd voldoende om de beschermingsfilters van toonaangevende AI-chatbots, van ChatGPT tot Claude , te omzeilen.

Het simpelweg formuleren van vragen in de verleden tijd is voldoende om AI-filters te omzeilen, zo is de studie verontrustend.

De onderzoekers namen 100 prompts die als "hoog risico" werden beschouwd (fraude, hacking, desinformatie, haatzaaiende uitlatingen, enz.) en herformuleerden deze in de verleden tijd met behulp van GPT-3.5 Turbo. Het resultaat? GPT-4o, dat aanvankelijk 99% van de verzoeken blokkeerde, kraakte in 88% van de gevallen na twintig herformuleringen. Claude-3.5 Sonnet werd in 56% van de tests gefopt, terwijl Gemma-2 en Phi-3 70% van de kwetsbaarheidsdrempels overschreden.

Waarom het verleden werkt (en de toekomst niet)

Volgens het onderzoek interpreteren AI-chatbots vragen in de verleden tijd vaak als "historische" verzoeken , en zijn ze daarom minder gevaarlijk. Dezelfde vragen in de toekomende tijd, zoals "Hoe maak je een molotovcocktail?" , worden daarentegen geïnterpreteerd als een oproep tot actie, een verzoek dat iemand kan aanzetten tot het plegen van een misdaad. Om deze reden worden ze vervolgens geblokkeerd door filters. Een subtiel grammaticaal verschil dat de reactie van het model volledig verandert.

Er bestaan tegenmaatregelen, maar ze zijn niet perfect

De onderzoekers probeerden de modellen te hertrainen met voorbeelden van afwijzingen, zelfs voor verzoeken in de verleden tijd . De techniek werkt, maar heeft een neveneffect. De AI wordt overbezorgd en begint zelfs legitieme verzoeken te blokkeren. Een lastig evenwicht, vooral in een tijd waarin ouderlijk toezicht en de ethische verantwoordelijkheid van AI-chatbots ter discussie staan.

Punto Informatico

Tijdverdrijf om AI-beveiligingsmaatregelen te omzeilen

Uit onderzoek van de EPFL blijkt dat je de beveiligingsmaatregelen van AI-modellen kunt omzeilen door gevaarlijke verzoeken in de verleden tijd te plaatsen.

Het simpelweg formuleren van vragen in de verleden tijd is voldoende om AI-filters te omzeilen, zo is de studie verontrustend.

Waarom het verleden werkt (en de toekomst niet)

Er bestaan tegenmaatregelen, maar ze zijn niet perfect

Punto Informatico

Tijdverdrijf om AI-beveiligingsmaatregelen te omzeilen

Vergelijkbaar nieuws

Tijdverdrijf om AI-beveiligingsmaatregelen te omzeilen

Vergelijkbaar nieuws

Angst, zorgen, vooroordelen: de drie ‘P’s’ die de erfenis vertragen (maar niet stoppen)

Arché Live: een plek om even stil te staan, te reflecteren en opnieuw te beginnen

Verantwoord spelen: De helft van de jongeren is zich niet bewust van de risico's van gokken.

De ECB houdt de rente ongewijzigd, de deposito's blijven op 2%.

Wat vrouwelijke slachtoffers van 'Phica' kunnen doen en wat mannen riskeren: uitleg van een advocaat