Skip to main content

Tietoturvatutkijat HiddenLayer-yrityksestä ovat kehittäneet uuden ”jailbreak”-menetelmän, jolla lähes kaikki suuret kielimallit — kuten OpenAI:n GPT-4o, Googlen Gemini 2.5 ja Anthropicin Claude 3.7 — saadaan tuottamaan vahingollista sisältöä. Hyökkäys käyttää hyväkseen kehittynyttä kehotepohjaista injektiotekniikkaa (prompt injection), jossa yhdistyvät ”politiikkatiedostojen” jäljittely ja roolipelaaminen.

Menetelmällä tekoäly voidaan huijata antamaan ohjeita esimerkiksi:

ydinasemateriaalin rikastamiseen

biologisten myrkkyjen valmistukseen

massaväkivallan suunnitteluun

itsensä vahingoittamiseen.

Tekniikka hyödyntää myös ”leetspeak”-kieltä, jossa kirjaimia korvataan numeroilla ja erikoismerkeillä, ja se voi toimia yhdellä ainoalla kehotteella kaikissa suurimmissa malleissa ilman muutoksia.

Erityisen huolestuttavaa on, että tekoäly saatiin ”näyttelemään” tilanteita, joissa se ikään kuin käsikirjoittaa televisiosarjoja — mutta oikeasti antaa ohjeita laittomista toimenpiteistä. Esimerkiksi ChatGPT kirjoitti ”vitsikkään” oppaan uraanin rikastamiseen käyttäen leetspeak-kieltä.

HiddenLayer varoittaa, että löydös osoittaa vakavan puutteen kielimallien koulutuksessa ja turvarakenteissa. Yrityksen mukaan tarvitaan kiireellisesti uusia suojatyökaluja ja havaitsemismenetelmiä tekoälyjen suojaamiseksi väärinkäytöksiltä.

 

Lähteet:

https://futurism.com/easy-jailbreak-every-major-ai-chatgpt?utm_source=flipboard&utm_content=topic/computerscience