Tutkimus: Suuret kielimallit korruptoivat dokumentteja monivaihetehtävissä - vain Python-koodaus onnistuu luotettavasti

Microsoftin tutkijat testasivat 19 suurta kielimallia 52 ammattialan tehtävissä ja havaitsivat, että mallit turmelsivat keskimäärin 25-50% dokumenteista pitkissä työkuluissa. Python-ohjelmointi oli ainoa alue, jossa useimmat mallit toimivat luotettavasti, kun taas muilla aloilla virheet kumuloituvat vaarallisesti.

Microsoftin tutkijat Philippe Laban, Tobias Schnabel ja Jennifer Neville julkaisivat ennakkojulkaisun, jossa he testasivat 19 suurta kielimallia (LLM) DELEGATE-52-testipenkissään. Testipenkki sisälsi 310 työympäristöä 52 ammattialan toimialueelta, mukaan lukien koodaus, kristallografia, sukututkimus ja nuottien merkintä. Kukin ympäristö koostui noin 15 000 tokenin pituisista dokumenteista ja 5-10 monimutkaisesta muokkaustoiminnosta.

Tutkimuksen tulokset olivat hälyttäviä: huippumallit Gemini 3.1 Pro, Claude 4.6 Opus ja GPT 5.4 menettivät keskimäärin 25% dokumenttien sisällöstä 20 delegoidun vuorovaikutuksen aikana. Kaikkien mallien keskimääräinen heikkeneminen oli 50%. Virheet eivät ole pelkkiä hallusinaatioita, vaan ne korruptoivat dokumenttien eheyden hiljaa ja kumulatiivisesti.

Python-ohjelmointi oli ainoa toimialue, jossa useimmat mallit olivat "valmiita" tuotantokäyttöön. Paras malli saavutti luotettavuuskynnyksen vain 11:ssä 52 toimialueesta. Virheet pahenivat suurempien dokumenttien, pidempien vuorovaikutusten ja häiritseviä tiedostoja sisältävien ympäristöjen myötä. Tämä heijastaa yritysmaailman todellisuutta, jossa työympäristöt ovat monimutkaisia ja tärkeimmät dokumentit harvoin yksinkertaisia.

Asiantuntijat korostavat, että AI:ta ei pidä sulkea pois yritystyökuluista, mutta delegoitu AI ei ole vielä tarpeeksi luotettava jätettäväksi yksin tärkeiden dokumenttien kanssa. Ratkaisuja ovat muun muassa moniagenttijärjestelmät, joissa yksi agentti tekee muokkaukset ja toinen tarkistaa virheet, sekä mallien erikoistuva hienosäätö tietyille työkuluille. Inhimillinen asiantuntemus muuttuu tuotannosta valvontaan ja validointiin, mikä tekee siitä entistä arvokkaampaa.

Tärkeimmät pointit

DELEGATE-52-testipenkki: 310 työympäristöä 52 ammattialan toimialueelta, 15K tokenin dokumentit
Huippumallit (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) menettivät 25% sisällöstä 20 vuorovaikutuksessa
Kaikkien mallien keskimääräinen dokumenttien heikkeneminen 50% pitkissä työkuluissa
Python-koodaus ainoa toimialue, jossa useimmat mallit toimivat luotettavasti
Paras malli saavutti luotettavuuskynnyksen vain 11/52 toimialueesta
Virheet kumuloituvat: suuremmat dokumentit, pidemmät vuorovaikutukset pahentavat tuloksia
Ratkaisuja: moniagenttijärjestelmät, mallien hienosäätö, vahvemmat varmistusmenetelmät

Lähde: infoworld — alkuperäinen artikkeli julkaistu 13.5.2026

Tutkimus: Suuret kielimallit korruptoivat dokumentteja monivaihetehtävissä – vain Python-koodaus onnistuu luotettavasti

Tärkeimmät pointit

Taavi Schönberg

Edellinen artikkeliMicrosoft korjasi 138 haavoittuvuutta, mukana kriittisiä DNS- ja Netlogon RCE-vikoja

Seuraava artikkeliLenovon ThinkPad L-sarjan hinnat nousevat rajusti – uudet L14 G7 ja L16 G7 mallit

MYYNTI, HUOLTO & TUKI

KOTISIVUT & VERKKOKAUPAT

OHJELMISTOKEHITYS

AJANKOHTAISTA