Tutkijat löysivät helpon tavan "murtaa" kaikkien suurten tekoälyjen suojauksen

Tietoturvatutkijat HiddenLayer-yrityksestä ovat kehittäneet uuden ”jailbreak”-menetelmän, jolla lähes kaikki suuret kielimallit — kuten OpenAI:n GPT-4o, Googlen Gemini 2.5 ja Anthropicin Claude 3.7 — saadaan tuottamaan vahingollista sisältöä. Hyökkäys käyttää hyväkseen kehittynyttä kehotepohjaista injektiotekniikkaa (prompt injection), jossa yhdistyvät ”politiikkatiedostojen” jäljittely ja roolipelaaminen.

Menetelmällä tekoäly voidaan huijata antamaan ohjeita esimerkiksi:

ydinasemateriaalin rikastamiseen

biologisten myrkkyjen valmistukseen

massaväkivallan suunnitteluun

itsensä vahingoittamiseen.

Tekniikka hyödyntää myös ”leetspeak”-kieltä, jossa kirjaimia korvataan numeroilla ja erikoismerkeillä, ja se voi toimia yhdellä ainoalla kehotteella kaikissa suurimmissa malleissa ilman muutoksia.

Erityisen huolestuttavaa on, että tekoäly saatiin ”näyttelemään” tilanteita, joissa se ikään kuin käsikirjoittaa televisiosarjoja — mutta oikeasti antaa ohjeita laittomista toimenpiteistä. Esimerkiksi ChatGPT kirjoitti ”vitsikkään” oppaan uraanin rikastamiseen käyttäen leetspeak-kieltä.

HiddenLayer varoittaa, että löydös osoittaa vakavan puutteen kielimallien koulutuksessa ja turvarakenteissa. Yrityksen mukaan tarvitaan kiireellisesti uusia suojatyökaluja ja havaitsemismenetelmiä tekoälyjen suojaamiseksi väärinkäytöksiltä.

Lähteet:

https://futurism.com/easy-jailbreak-every-major-ai-chatgpt?utm_source=flipboard&utm_content=topic/computerscience

Tutkijat löysivät helpon tavan ”murtaa” kaikkien suurten tekoälyjen suojauksen

Taavi Schönberg

Edellinen artikkeliKriittinen haavoittuvuus Roundcube-sähköpostijärjestelmässä – hyökkäykset käynnissä ja exploit myynnissä

Seuraava artikkeliMicrosoft juhlii 50-vuotista taivaltaan uudistamalla Copilotin – tekoäly nyt näkee, mitä sinä näet

MYYNTI, HUOLTO & TUKI

KOTISIVUT & VERKKOKAUPAT

OHJELMISTOKEHITYS

AJANKOHTAISTA