Skip to main content

Microsoftin tutkijat testasivat 19 suurta kielimallia 52 ammattialan tehtävissä ja havaitsivat, että mallit turmelsivat keskimäärin 25-50% dokumenteista pitkissä työkuluissa. Python-ohjelmointi oli ainoa alue, jossa useimmat mallit toimivat luotettavasti, kun taas muilla aloilla virheet kumuloituvat vaarallisesti.

Microsoftin tutkijat Philippe Laban, Tobias Schnabel ja Jennifer Neville julkaisivat ennakkojulkaisun, jossa he testasivat 19 suurta kielimallia (LLM) DELEGATE-52-testipenkissään. Testipenkki sisälsi 310 työympäristöä 52 ammattialan toimialueelta, mukaan lukien koodaus, kristallografia, sukututkimus ja nuottien merkintä. Kukin ympäristö koostui noin 15 000 tokenin pituisista dokumenteista ja 5-10 monimutkaisesta muokkaustoiminnosta.

Tutkimuksen tulokset olivat hälyttäviä: huippumallit Gemini 3.1 Pro, Claude 4.6 Opus ja GPT 5.4 menettivät keskimäärin 25% dokumenttien sisällöstä 20 delegoidun vuorovaikutuksen aikana. Kaikkien mallien keskimääräinen heikkeneminen oli 50%. Virheet eivät ole pelkkiä hallusinaatioita, vaan ne korruptoivat dokumenttien eheyden hiljaa ja kumulatiivisesti.

Python-ohjelmointi oli ainoa toimialue, jossa useimmat mallit olivat "valmiita" tuotantokäyttöön. Paras malli saavutti luotettavuuskynnyksen vain 11:ssä 52 toimialueesta. Virheet pahenivat suurempien dokumenttien, pidempien vuorovaikutusten ja häiritseviä tiedostoja sisältävien ympäristöjen myötä. Tämä heijastaa yritysmaailman todellisuutta, jossa työympäristöt ovat monimutkaisia ja tärkeimmät dokumentit harvoin yksinkertaisia.

Asiantuntijat korostavat, että AI:ta ei pidä sulkea pois yritystyökuluista, mutta delegoitu AI ei ole vielä tarpeeksi luotettava jätettäväksi yksin tärkeiden dokumenttien kanssa. Ratkaisuja ovat muun muassa moniagenttijärjestelmät, joissa yksi agentti tekee muokkaukset ja toinen tarkistaa virheet, sekä mallien erikoistuva hienosäätö tietyille työkuluille. Inhimillinen asiantuntemus muuttuu tuotannosta valvontaan ja validointiin, mikä tekee siitä entistä arvokkaampaa.

Tärkeimmät pointit

  • DELEGATE-52-testipenkki: 310 työympäristöä 52 ammattialan toimialueelta, 15K tokenin dokumentit
  • Huippumallit (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) menettivät 25% sisällöstä 20 vuorovaikutuksessa
  • Kaikkien mallien keskimääräinen dokumenttien heikkeneminen 50% pitkissä työkuluissa
  • Python-koodaus ainoa toimialue, jossa useimmat mallit toimivat luotettavasti
  • Paras malli saavutti luotettavuuskynnyksen vain 11/52 toimialueesta
  • Virheet kumuloituvat: suuremmat dokumentit, pidemmät vuorovaikutukset pahentavat tuloksia
  • Ratkaisuja: moniagenttijärjestelmät, mallien hienosäätö, vahvemmat varmistusmenetelmät

Lähde: infoworld — alkuperäinen artikkeli julkaistu 13.5.2026