LLM- ja LRM-mallien päättelykyvyt vuonna 2025 – tutkimuskooste
Mitä ovat LLM ja LRM?
LLM (Large Language Model) viittaa suuriin kielimalleihin – kuten GPT-4, Gemini, Claude ja Llama – jotka on koulutettu valtavilla tekstiaineistoilla tuottamaan luonnollista kieltä, vastaamaan kysymyksiin ja ratkomaan monenlaisia tehtäviä. LRM (Large Reasoning Model) tarkoittaa erityisesti sellaisia LLM-malleja, jotka on suunniteltu ja/tai hienosäädetty suorittamaan nimenomaan loogista päättelyä ja “ajatteluketjuja” (chain-of-thought). Kaikki LRM:t ovat siis LLM:iä, mutta kaikki LLM:t eivät ole LRM:iä – LRM-termin käyttö korostaa mallin kykyä (tai yritystä) päättelyyn monimutkaisissa ongelmissa. Alla oleva tutkimuskooste käsittelee sekä LLM- että LRM-mallien rajoja vuoden 2025 alkupuolen tutkimusten valossa.
Vuoden 2025 alkupuoliskolla on julkaistu useita merkittäviä tutkimuksia ja teknologiajulkaisuja, joissa tarkastellaan suurten kielimallien (LLM) ja erityisten “päättelymallien” (LRM) kykyä ratkaista monimutkaisia ongelmia. Yhteinen teema näissä on kysymys: kykenevätkö nämä mallit todelliseen loogiseen päättelyyn vai perustuuko suorituskyky pohjimmiltaan kaavamaisiin mallinsovituksiin (pattern matching)? Alla on kooste tärkeimmistä löydöksistä vuonna 2025 julkaistuista tutkimuksista ja raporteista, suomeksi tiivistettynä. Kunkin tutkimuksen kohdalla listataan myös sen keskeiset havainnot.
Applen “The Illusion of Thinking” -tutkimus (Shojaee ym. 2025)
Testatut mallit:
- OpenAI O1 ja O3-mini (OpenAI Reasoning Model, LRM)
- DeepSeek-R1 (DeepSeek Reasoning Model, LRM)
- Anthropic Claude-3 Sonnet ja Haiku (LRM)
- Google Gemini (useat versiot, LLM ja osin LRM)
- Meta Llama-3 (LLM)
- Microsoft Phi-3 (LLM)
- Useita pienempiä referenssi-LLM:iä
Apple julkaisi kesäkuussa 2025 tutkimuksen nimeltä “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.” Tutkimus analysoi Large Reasoning Model -mallien (ketjuttain ajattelevien LLM:ien) suorituskykyä erityyppisissä pulmatehtävissä, joissa ongelman monimutkaisuutta voitiin säädellä tarkasti.
- Kolme suorituskyvyn aluetta: Mallien päättelykyvyssä havaittiin kolme erillistä “suorituskyvyn regiimiä” tehtävän vaikeuden kasvaessa. (1) Helpoissa tehtävissä tavallinen LLM (ilman erillistä ajatteluketjua) yllättäen päihitti “ajattelemaan opetetun” mallin, ja vieläpä pienemmällä laskentateholla. (2) Keskivaikeissa ongelmissa lisätty ketjutettu ajattelu toi etua: päättelymallit suoriutuivat paremmin kuin tavalliset mallit. (3) Hyvin vaikeissa tehtävissä molempien mallityyppien suoritus romahti käytännössä täysin.
- Täydellinen romahdus korkealla vaikeudella: Tutkimus osoitti, että kehittyneimmilläkään päättely-LLM:illä ei ole kykyä ratkaista erittäin monimutkaisia ongelmia – niiden tarkkuus romahtaa täysin tietyn kompleksisuustason jälkeen. Mallit eivät yksinkertaisesti pysty ylittämään tätä “ongelmakynnyksen” yli menevää vaikeustasoa.
- Päättely-yritysten määrä laskee vaikeimmissa ongelmissa: Yllättävänä löydöksenä havaittiin myös “päätöksentekoparadoksi”: mitä vaikeammaksi pulma tuli, sitä vähemmän päättelyaskelia ketjutetut mallit lopulta tuottivat – ikään kuin malli luovuttaisi kesken kaiken vaikka sille olisi annettu riittävästi “tokeneita” jatkaa ajattelua. Mallit siis lisäsivät “ajatustensa” pituutta ongelman vaikeuden kasvaessa vain tiettyyn pisteeseen asti, mutta juuri ennen romahduspistettä ne alkoivat tuottaa lyhyempiä päättelyketjuja eivätkä käyttäneet koko sallittua merkkimäärää. Tämä on vastoin odotusta, että vaikeampien ongelmien ratkaisuun mallit käyttäisivät enemmän laskentaa – sen sijaan ne näyttivät luovuttavan kun raja tuli vastaan.
- Ei viitteitä muodollisesta loogisesta päättelystä: Tutkijat päätyivät johtopäätökseen, ettei nykymalleissa näy merkkejä aidosta loogisesta päättelystä. Mallien toimintaa selittää paremmin “sofistikoitu mallinsovitus”, joka osoittautui erittäin hauraaksi: esimerkiksi pelkkä nimien muuttaminen tehtävässä voi muuttaa lopputulosta ratkaisevasti. “Emme löytäneet todisteita muodollisesta päättelystä kielimalleissa,” tutkimus toteaa, “mallien käyttäytymistä selittää pikemminkin monimutkainen kaavojen tunnistaminen – vieläpä niin haurasta, että esimerkiksi pelkkä nimien vaihtaminen voi muuttaa tuloksia huomattavasti.” Lisäksi havaittiin, etteivät päättelymallit pysty hyödyntämään eksplisiittisiä algoritmeja luotettavasti: vaikka mallille annettiin askel askeleelta oikea algoritmi (esim. tornien Hanoi-pulmaan), sen suorituskyky silti romahti monimutkaisuuden kasvaessa. Kaikki tämä asettaa kyseenalaiseksi, missä määrin nykymallien “ajatteleminen” oikeasti vastaa ihmisen loogista päättelyä eikä vain opittujen mallien toistamista.
Applen GSM-Symbolic-tutkimus (Mirzadeh ym. 2025)
Testatut mallit:
- OpenAI O1 (LRM)
- OpenAI GPT-4 (LLM)
- Google Gemini 1.5 Flash & Pro (LLM/LRM)
- Meta Llama-3 (LLM)
- Microsoft Phi-3 (LLM)
- DeepSeek-V2 (LLM)
- Qwen2 (Alibaba, LLM)
- Nous Research Hermes 2 (LLM)
- Anthropic Claude 3 Sonnet (LRM)
- Cohere Command-R+ (LLM)
- Useita pienempiä/muokattuja LLM:iä
Samojen Apple-tutkijoiden ryhmä tarkasteli myös erikseen matemaattista päättelykykyä ja mallien yleistystä. He loivat GSM-Symbolic-nimisen laajennuksen suosittuun GSM8K-tekstitehtäväsarjaan testatakseen, ymmärtävätkö mallit todella tehtävien logiikan vai menevätkö ne harhaan epäolennaisesta informaatiosta. Tässä tutkimuksessa havaittiin hälyttäviä rajoitteita LLM:ien matemaattisessa “päättelyssä”.
- Herkkä epäolennaiselle tiedolle: Mallit eivät osaa erottaa olennaista tietoa epäolennaisesta luotettavasti. Tutkijat lisäsivät yksinkertaisiin peruslaskutehtäviin ylimääräisiä, asiaankuulumattomia lauseita ja seurasivat mallien vastauksia. Tuloksena kaikki johtavat mallit menivät harhaan ylimääräisestä hälystä: esimerkiksi eräässä hedelmien laskentatehtävässä lisättiin turha lause “viisi kiiviä oli keskivertoa pienempiä”, jolla ei ole vaikutusta oikeaan lopputuloon. Silti useat tekoälymallit (mukaan lukien OpenAI:n kehittyneet mallit) vähensivät virheellisesti lopputulosta viidellä tämän maininnan vuoksi – eli ne päättelivät kaavamaisesti, että “pienemmät kiivit” pitäisi jättää laskuista pois. Tämä esimerkki paljastaa vakavan puutteen: mallit tarttuvat tekstissä esiintyviin vihjeisiin ymmärtämättä loogista yhteyttä ongelmaan.
- Suorituskyky romahtaa kun ongelmaa muokataan: Laajamittaisissa testeissä havaittiin, että pelkkä numeroiden tai nimien muuttaminen matikkatehtävissä sai mallien vastaukset vaihtelemaan huomattavasti, mikä vihjaa ulkoa opettelun kaltaiseen toimintaan eikä ymmärtämiseen. Erityisen dramaattista oli lisäämällä tehtävään yksi irrelevantti sivulause (GSM-NoOp-aineistossa): mallien tarkkuus laski jyrkästi – OpenAI:n o1-esiversion kohdalla n. -17.5% ja Microsoftin Phi-3 -mallin kohdalla peräti -65% tehtävän ratkaisuosuudesta. Kaikkiaan testattiin yli 20 huippumallia (mm. OpenAI o1, GPT-4, Google Gemma 2, Meta Llama 3), ja kaikilla ilmeni samankaltaista haavoittuvuutta häiriötekijöille. Myös pelkkä lukuarvojen vaihtaminen kysymyksissä heikensi suoritusta systemaattisesti, mikä viittaa siihen, etteivät mallit oikeasti “ymmärrä” tehtävien rakennetta vaan nojaavat opetusaineistossa usein esiintyneisiin malleihin.
- Johtopäätös – kaavamaista päättelyä: Tutkimus päättelee, että suurten kielimallien matemaattinen päättely ei ole muodollista loogista päättelyä vaan enimmäkseen kompleksia mallien yhdistelyä (pattern matching) ilman varmaa ymmärrystä. Mallit eivät kykene luotettavasti tunnistamaan, mikä informaation osa on relevanttia ongelman ratkaisun kannalta. Kuten Applen tutkijaryhmä tiivisti: “Kielimallien päättely ei ole loogista päättelyä tavallisessa mielessä, vaan perustuu enimmäkseen kaavojen tunnistamiseen.” Tämä on vakava haaste: nykymallit saattavat pärjätä hyvin tutuissa testitehtävissä, mutta pienikin muunnelma kysymyksenasettelussa voi paljastaa niiden yleistämiskyvyn puutteet.
(Huom: Edellä kuvatut Applen tutkimukset nostivat esiin jännitteen OpenAI:n väitteiden ja Applen havaintojen välillä. OpenAI julkisti syksyllä 2024 uuden “o1”-mallinsa, joka ketjutetun ajattelun ja vahvistusoppimisen avulla saavutti huipputuloksia monissa vaikeissa testeissä. Esimerkiksi o1 ratkaisi 83% kansainvälisen matematiikkaolympiadin karsintatehtävistä, kun GPT-4:n tulos oli vain 13%. OpenAI esitti tämän todisteena siitä, että “ajattelemaan opetettu” LLM kykenee jo lähes ihmistasoiseen päättelyyn tietyillä erikoisaloilla. Applen löydökset kuitenkin kyseenalaistavat, onko kyse oikeasta loogisesta ymmärryksestä vai vain yhä voimakkaammasta mallinsovituksesta, joka särkyy helposti uudenlaisissa tilanteissa.)
Meta AI & Hebrew University: “Don’t Overthink It” -tutkimus (Shaham ym. 2025)
Testatut mallit:
- OpenAI GPT-4 (LLM)
- Gemini 1.5 Pro (Google, LLM/LRM)
- Llama-2 70B (Meta, LLM)
- Claude 3 Opus (Anthropic, LRM)
- Llama-3 70B (Meta, LLM)
- Phi-2 (Microsoft, LLM)
- OpenHermes-2.5 (Nous, LLM)
Toukokuussa 2025 Meta AI:n FAIR-tiimin ja Hebrean yliopiston tutkijat julkaisivat yhteisen tutkimuksen otsikolla “Don’t Overthink It. Preferring Shorter Thinking Chains for Improved LLM Reasoning.” Tämä tutkimus kääntää päättelymallien tehokkuuteen liittyvän näkökulman päälaelleen: aiemman oletuksen mukaan pidemmät ajatustenketjut (Chain-of-Thought) olisivat parempia, mutta tutkijat havaitsivat päinvastaista.
- Liian pitkä “ajattelu” voi heikentää tulosta: Tutkijat havaitsivat yllättäen, että lyhyemmät päättelyketjut tuottivat parempia vastauksia kuin erittäin pitkät ajatuskulut monimutkaisissa tehtävissä. He generoivat kolmella huipputason päättely-LLM:llä useita ratkaisuyrityksiä samoihin vaikeisiin matemaattisiin ongelmiin. Kun kunkin mallin vastauksista valittiin lyhin looginen ratkaisu, se oli johdonmukaisesti tarkempi kuin satunnainen vastaus tai pisin mahdollinen vastauksista. Toisin sanoen, malli “yliajatellessaan” pitkän kaavan kautta teki enemmän virheitä, kun taas ytimekäs päättely pysyi oikeilla raiteilla useammin.
- Short-m@k – rinnakkaiset lyhyet päättelyt: Tutkimus esitteli uuden menetelmän nimeltä “short-m@k”, joka hyödyntää edellä mainittua havaintoa. Siinä malli suorittaa rinnakkain kappaleen verran useita lyhyitä päättelyketjuja ja pysäyttää laskennan heti, kun ensimmäiset m ratkaisuyritystä valmistuvat. Lopullinen vastaus valitaan näiden lyhyempien ketjujen enemmistöpäätöksen perusteella (ikään kuin äänestämällä). Tulokset olivat vaikuttavia: tämä menetelmä paransi mallin tarkkuutta keskimäärin ~34% verrattuna perinteiseen pitkään ketjuun, ja samalla vähensi laskentakustannuksia jopa ~40%. Lyhyemmät ajatusketjut rinnakkain suoritettuna toivat siis sekä paremman tuloksen että nopeamman suorituksen, kumoten oletuksen että “pidempään ajatteleva AI” olisi aina tarkempi.
- Lyhyiden ketjujen hyöty myös koulutuksessa: Tutkijat myös hienosäätivät (fine-tune) erästä kielimallia käyttämällä erilaisia ratkaisuketjuja: toisessa ääripäässä opetuksessa painotettiin lyhyitä päättelypolkuja ja toisessa pitkiä polkuja. Tulokset osoittivat, että lyhyisiin ajatusketjuihin perustuva koulutus paransi mallin suorituskykyä enemmän kuin pitkien ketjujen käyttö. Tämä on vastoin aiempia olettamuksia, joiden mukaan malli hyötyisi siitä, että sitä opetetaan ajattelemaan mahdollisimman pitkälle; päinvastoin, “liika miettiminen” vaikuttaa tuottavan harhautuksia.
- Johtopäätös: Tutkimus kehottaa “miettimään vähemmän” – eli pohtimaan kriittisesti nykyistä suuntausta kasvattaa loputtomasti mallin inference-vaiheen päättelyaskelia. Tulosten mukaan pitempi ajatusketju ei automaattisesti tarkoita parempaa päättelyä, vaan voi paradoksaalisesti heikentää tarkkuutta ja tuhlata resursseja. Nykyiset ketjutetut päättelymallit saattavat siis kärsiä eräänlaisesta “yliajattelun ongelmasta”. Käytännön suositus on, että useita lyhyitä ratkaisuyrityksiä kannattaa kokeilla rinnakkain ja lopettaa ajatteleminen ajoissa – näin saavutetaan sekä tehokkuutta että luotettavuutta. Tämä tutkimus toi esiin tärkeän näkökulman: todellinen päättelykyky ei välttämättä synny kasvattamalla tokenien määrää loputtomiin, vaan keskittymällä olennaiseen ja välttämällä turhaa harhailua pitkissä “ajatuksen poluissa”.
Chollet ym.: ARC-AGI-2 -haaste (2025)
Testatut mallit:
- OpenAI O1-pro (LRM)
- DeepSeek-R1 (LRM)
- OpenAI O3 (LRM)
- GPT-4.5 (OpenAI, LLM)
- Claude 3.5 Sonnet & Haiku (Anthropic, LRM)
- Gemini 2.0 Flash (Google, LLM/LRM)
- Llama-3 70B (Meta, LLM)
- Gemini 1.5 Flash (Google, LLM)
- Command-R+ (Cohere, LLM)
Tunnettu AI-tutkija François Chollet (Google/Meta AI) julkaisi toukokuussa 2025 yhdessä kollegoidensa kanssa uuden ARC-AGI-2 -nimisen haaste- ja tutkimusraportin. Kyseessä on päivitetty versio Chollet’n aiemmin kehittämästä Abstraction and Reasoning Corpus (ARC) -testistöstä, joka on suunniteltu mittaamaan tekoälyn kykyä yleistää ja ratkaista täysin uusia pulmia minimaalisella taustatiedolla. ARC-AGI-2 sisältää aiempaa vaikeampia ja monipuolisempia abstrakteja ongelmia, joilla pyritään mittaamaan yleisälykkyyttä – eli onko AI päässyt eroon pelkän mallinsovituksen rajoista.
- Nykyiset mallit epäonnistuvat lähes täysin: ARC-AGI-2 paljasti karusti, että edes kaikkein edistyneimmät nykymallit eivät pysty ratkaisemaan tämän benchmarkin tehtäviä juuri lainkaan. Esimerkiksi OpenAI:n erityinen “päättelymalli” o1-pro sekä DeepSeek R1 suoriutuivat testissä vain noin 1–1,3 % tasolle (siis käytännössä arvauksen luokkaa). Vastaavasti suuret ei-päättelyyn viritetyt LLM:t kuten GPT-4.5, Anthropic Claude 3.7 “Sonnet” ja Google Gemini 2.0 Flash saivat nekin vain ~1 % oikein. Jopa OpenAI:n aikaisempi o3-malli, joka oli menestynyt alkuperäisessä ARC-testissä, ylsi nyt vain 4 % tasolle – ja tämäkin vaati erittäin runsasta laskentaa (n. $200 arvoinen pilvilaskenta per tehtävä). Toisin sanoen, huippumallit olivat lähes voimattomia uusien abstraktien ongelmien edessä.
- Ihmiset suoriutuvat yhä selvästi paremmin: Vertailuna ihmiset ratkoivat saman tehtäväjoukon keskimäärin 60 % tarkkuudella. Yli 400 vapaaehtoista ihmistä osallistui testiin, ja tulos osoittaa, että ihmisen luontainen päättely- ja hahmotuskyky on toistaiseksi aivan omaa luokkaansa verrattuna alan parhaisiinkaan AI-malleihin. Siinä missä tekoälyn tulokset olivat sattumanvaraisen arvailun tasolla, ihmisille tehtävät osoittautuivat ratkaistaviksi huomattavassa määrin – mikä alleviivaa, että nyky-LLM:illä ei ole vielä yleispätevää ongelmanratkaisukykyä.
- Mallien on opittava muutakin kuin bruutteja kuvioita: ARC-AGI-2 suunniteltiin nimenomaan välttämään tilanteita, joissa malli voisi pärjätä pelkällä tilastollisella päättelyllä tai valtavalla laskentavoimalla kokeilemalla kaikkea. Tehtävät ovat esimerkiksi visuaalisia ruudukko-ongelmia, joissa AI:n on pääteltävä kuvioiden perusteella oikeat ratkaisut ilman että se olisi koskaan nähnyt samanlaisia esimerkkejä. Tällaiset ongelmat vaativat oivalluskykyä ja abstraktiota. Tutkijat myös rajasivat mallien käytettävissä olevaa “teho-ajan” määrää, jotta pelkkä brute force -hakeminen ei toisi tulosta. Itse asiassa ARC-AGI-2 korostaa ratkaisun tehokkuutta: idea on mitata, voiko AI oppia ratkaisemaan ongelman ihmisen tavoin kohtuullisella ponnistelulla, sen sijaan että se käyttää rajattomasti laskentaa. Tämä asettaa riman korkealle kohti todellista päättelyä, jossa laatu ja ymmärrys korvaavat pelkän raakalaskennan.
- Kaukana AGI:sta, mutta suuntaa tulevaan: Tämän haasteen ensimmäiset tulokset osoittavat selvästi, että nykyinen tekoäly on vielä kaukana aidosta yleisälystä (AGI). Toisaalta ARC-AGI-2 tarjoaa nyt yhteisölle mittarin ja “selvemmän polun” kehittää malleja eteenpäin. Haasteen ympärille perustettiin ARC Prize 2025 -kilpailu, jossa luvataan palkinto ensimmäiselle mallille joka yltää vähintään 85 % tarkkuuteen ARC-AGI-2-tehtävissä tietyllä rajoitetulla laskentakustannuksella (vain $0.42 per tehtävä). Tavoite on rohkaista uusia innovaatioita, jotka parantavat sekä mallien kyvykkyyttä että tehokkuutta – eli löytää ratkaisuja, joilla AI voisi lähestyä ihmisen tapaista päättelyä ilman rajatonta brute forcea. Chollet’n ja kumppanien viesti on, että edistystä mitataan juuri tällaisilla vaikeilla testeillä: toistaiseksi LLM:t ovat kompastuneet, mutta näiden haasteiden kautta alalla on nyt selkeä mittari mille tasolle seuraavien sukupolvien on päästävä murtaakseen pelkän mallintunnistuksen muurit.
MIT: LLM-Based Formalized Programming (Hao ym., ICLR 2025)
Testatut mallit:
- GPT-4 (OpenAI, LLM)
- Gemini 1.5 (Google, LLM)
- Llama-2 70B (Meta, LLM)
- Phi-2 (Microsoft, LLM)
Huhtikuussa 2025 MIT:n tutkijat Yilun Hao ym. julkaisivat tutkimuksen, jossa suuri kielimalli valjastetaan “älykkääksi avustajaksi” monimutkaisten suunnittelu- ja optimointiongelmien ratkaisuun. Heidän menetelmässään LLM laatii ongelmasta formaalin esityksen, jonka perinteinen optimointialgoritmi ratkaisee täsmällisesti. Näin yhdistyy LLM:n kielellinen joustavuus ja tietämys tehokkaan matemaattisen ratkaisijan tarkkuuteen.
- LLM “muotoilee” ongelman, algoritmi ratkaisee: Perinteiset yhdistelmälliset optimointiongelmat (kuten reitin optimointi, resurssien allokointi jne.) ovat vaikeita suoraan LLM:lle, koska ne vaativat eksaktia laskentaa. Tutkijoiden kehyksessä käyttäjä kuvaa ongelman luonnollisella kielellä ja LLM ohjataan pilkkomaan se osiin: tunnistamaan muuttujat, rajoitteet ja tavoitteet, ikään kuin ihminen asettelisi optimointitehtävän. LLM käy läpi useita välivaiheita tarkistaen itseään – jos se havaitsee ristiriidan tai virheen kuvauksessa, se yrittää korjata sen itse sen sijaan, että luovuttaisi. Lopulta valmis formaali malli syötetään olemassa olevalle optimointiohjelmistolle, joka laskee parhaan ratkaisun.
- Dramaattinen parannus vaikeissa ongelmissa: Kehyksen avulla LLM pystyi ratkaisemaan 85 % joukon vaikeita suunnitteluongelmia (9 eri ongelmatehtävää) oikein, kun paras verrokki ilman tätä menetelmää onnistui vain 39 %:ssa. Toisin sanoen yhdistämällä LLM ja algoritmi saatiin yli kaksinkertainen onnistumisprosentti verrattuna pelkkään LLM:n yritykseen ratkoa sama ongelma omin päin. Testitapauksiin kuului esim. varaston robottien reittien minimointi, tuotantokoneiden aikataulutus, lentoyhtiön miehistön optimointi – kaikki monivaiheisia, reunaehtoja sisältäviä pulmia. LLMFP osoittautui yleispäteväksi lähestymistavaksi: se toimi useiden erilaisten LLM-mallien kanssa ja monissa tehtävissä samalla tavalla hyvin.
- Inhimillinen tapa ratkoa monimutkaista ongelmaa: Menetelmä on inspiroitu tavasta, jolla ihmiset usein ratkaisevat vaikeita ongelmia – jakamalla ne osiin ja hyödyntämällä apuvälineitä. Tässä LLM toimii eräänlaisena konsulttina tai välittäjänä: se ymmärtää luonnollisella kielellä kuvatun ongelman, muuntaa sen tekniseen muotoon ja pyytää sitten “työkalua” (optimointialgoritmia) laskemaan ratkaisun. Mielenkiintoinen yksityiskohta on, että LLM myös valvoo ja hienosäätää omaa kuvaustaan – se ikään kuin päätteli ja oppii virheistään jo formalisointivaiheessa. Tämän ansiosta, jos LLM teki aluksi virheen (esim. unohti että “negatiivista määrää tuotetta ei voi lähettää”, tms.), se havaitsi ristiriidan ja korjasi ehdotustaan ennen kuin ratkaisu laskettiin. Näin vältettiin monet ansat, joihin pelkkä kielimalli olisi muuten kompastunut.
- Osoitus LLM:n ja päättelytyökalun synergiasta: Tulokset korostavat, että LLM:n “älykkyyttä” voidaan parantaa yhdistämällä se perinteisiin päättelyohjelmiin. Ilman optimointityökalua LLM jäi noin 40 % suorituskykyyn näissä vaikeissa tehtävissä – mikä indikoi, että yksin toimiessaan malli usein hallitsi tehtävän kieltä, muttei löytänyt optimaalista ratkaisua jokaisessa tapauksessa. Sen sijaan, kun LLM hyödynsi oikeaa algoritmia, se saavutti 85 % onnistumisen. Tämä vihjaa, että LLM:n tuottama “päättely” oli osittain pintapuolista, mutta kun sen tuottama ongelman malli ratkaistiin formaalilla päättelyllä, saatiin paljon luotettavampi lopputulos.
Google DeepMind: Gemini 2.5 Flash – hybrid reasoning -malli (2025)
Testatut malli:
- Gemini 2.5 Flash (Google, ”hybrid LRM” – chain-of-thought päällä/pois kehittäjän ohjauksella)
Huhtikuussa 2025 Google DeepMind julkisti Gemini 2.5 Flash -mallin, jota se kutsui “ensimmäiseksi täysin hybridiksi päättelymallikseen”. Tämä ei ollut akateeminen paperi vaan tuotejulkaisu, mutta se on relevantti, koska se heijastaa yritystason näkemystä siitä, miten LLM-mallien päättelykykyä voidaan ohjata ja hyödyntää käytännössä.
- “Ajattelun” kytkeminen päälle/pois: Gemini 2.5 Flash -mallissa kehittäjälle annetaan kontrolli mallin päättelyprosessiin. Sitä kuvataan hybrid reasoning -lähestymiseksi: mallille voi dynaamisesti asettaa, tekeekö se ketjutettua ajattelua vai vastaa suoraan. Käytännössä tämä tarkoittaa, että kehittäjä voi kytkeä päälle mallin “ajattele ensin” -tilan monimutkaisia tehtäviä varten, tai kytkeä sen pois priorisoidessaan nopeutta yksinkertaisemmissa kysymyksissä. Lisäksi voidaan säätää erillinen “thinking budget” – eli enimmäismäärä tokeneita, jonka verran malli saa käyttää ajatteluketjuun ennen varsinaista vastausta. Näillä säädöillä pyritään löytämään optimitasapaino vastauksen laadun ja kustannuksen/viiveen välillä.
- Parantunut suoritus vaikeissa tehtävissä: Google ilmoitti, että Gemini 2.5 Flash on merkittävä päivitys päättelykyvyissä verrattuna edeltäjiinsä. Kun thinking mode on käytössä, malli ei muodosta vastausta heti, vaan ensin analysoi kysymystä, pilkkoo sen osatehtäviin ja laatii suunnitelman – samaan tapaan kuin ihminen ratkoisi monivaiheisen ongelman. Tämä lisätty ajatteluvaihe tuottaa selvästi parempia ja kattavampia vastauksia monimutkaisiin, usean askeleen ongelmiin, kuten matemaattisiin pulmiin tai pitkää päättelyä vaativiin kysymyksiin. Google raportoi, että Gemini 2.5 Flash suoriutuu “vaikeiden syötteiden” testissä (LMArena Hard Prompts) erittäin hyvin – se on näissä haastavissa keisseissä toiseksi paras heti isomman Gemini 2.5 Pro -mallin jälkeen.
- Kustannustehokkuutta ja joustavuutta: Flash-mallin idea on tarjota parempi hinta/suorituskyky-suhde päättelytehtäviin. Google kertoi, että 2.5 Flash asettuu yhtiön mallivalikoimassa Pareto-optimaaliseksi vaihtoehdoksi: se saavuttaa kilpailukykyisen tarkkuuden murto-osalla laskentakustannuksesta ja mallin koosta verrattuna joihinkin kilpaileviin huippumalleihin. Kehittäjä voi siis valita Flash-mallin saadakseen riittävän hyvän laadun edullisemmin, ja tarvittaessa aktivoida “lisäajattelun” vain tilanteissa, joissa kysymys on todella haastava. Blogissa näytettiin myös, kuinka suorituskyky paranee systemaattisesti kun ajattelulle annettua token-budjettia kasvatetaan – tosin samalla viive ja kustannus nousevat. Malli ei kuitenkaan tuhlaa turhia: se käyttää vain osan budjetista, jos se huomaa ettei tehtävä tarvitse enempää pohdintaa.
- Merkitys: päättelyn hallinta osana käytännön sovelluksia: Google DeepMindin julkaisu kuvastaa trendiä, jossa isot teknologiatoimijat pyrkivät viemään LLM-mallien päättelyominaisuuksia konkreettiseen hyötykäyttöön, kuitenkaan unohtamatta realiteetteja. On tunnustettu, että monessa arkisessa tapauksessa malli ei tarvitse pitkää päättelyketjua (ja käyttäjät arvostavat nopeutta), mutta tietyissä vaativissa tehtävissä ketjutettu ajattelu on ratkaisevaa parhaan lopputuloksen saamiseksi. Gemini 2.5 Flash antaa kehittäjien “kytkeä ajattelun päälle” juuri silloin kun se on tarpeen. Tämä implikoi, että pelkkä suora mallinsovitus (ilman ajatuksen eksplisiittistä jäsentelyä) ei aina riitä: malliin on rakennettu erillinen päättelytila, mikä on jo itsessään todiste siitä, että todellinen päättelykyky on jotain mitä täytyy erikseen ohjata.
Yhteenveto: Mitä LLM- ja LRM-mallien päättelykyvystä tiedetään 2025?
Vuoden 2025 tutkimukset ja raportit osoittavat sekä päättelymallien lupaavia edistysaskeleita että niiden perustavanlaatuisia rajoituksia. Ketjutetulla ajattelulla vahvistetut LLM- ja LRM-mallit voivat saavuttaa parempia tuloksia tietyissä monimutkaisissa tehtävissä kuin aiemmat mallit – esimerkiksi OpenAI:n o1 ylitti ihmistason joissain benchmarktuloksissa ja Google toi markkinoille mallin, jossa päättelyä voidaan hyödyntää hallitummin.
Toisaalta riippumattomat ja akateemiset tutkimukset (Apple, Meta/Hebrew, Chollet ym.) varoittavat, että nämä voitot saattavat olla osin näennäisiä: malleilla ei edelleenkään ole varmaa käsitystä ongelmien loogisesta rakenteesta, vaan ne tukeutuvat opittuihin kuvioihin, jotka särkyvät, kun kohdataan aidosti uusi tilanne tai harhautetaan epäolennaisilla piirteillä. Todellinen päättelykyky – kyky yleistää, huomioida vain oleellinen ja ratkoa uusia ongelmia luotettavasti – on yhä saavuttamatta.
Vuoden 2025 tutkimukset piirtävät kuvan teknologiasta, joka osaa “matkia” päättelyä yhä paremmin ja jopa osoittaa häivähdyksiä moniaskeleisesta ajattelusta, mutta useat kokeet paljastavat, että kulissien takana LLM- ja LRM-mallit eivät järkiperäisesti ymmärrä samalla tavalla kuin ihmiset. Mallien käytös vaikeissa ongelmissa voidaan edelleen selittää tilastollisena mallinsovituksena eikä uutena “ajattelun mekanismina”.
Alan paras käytäntö alkaa tunnistaa nämä rajat: esimerkiksi Meta tutki, miten liika “ajatteleminen” voi jopa heikentää lopputulosta, ja Google antaa kehittäjille työkalut säädellä mallin ajatteluprosessia ongelman mukaan. Nämä löydökset asettavat tiekartan tulevalle tutkimukselle – tarvitaan uusia arkkitehtuureja ja menetelmiä, jotka ylittävät nykyisen mallinsovituksen rajoitukset, ja parempia arviointitapoja mittaamaan, milloin malli oikeasti ymmärtää tehtävänannon.
Vuosi 2025 on tuonut tärkeää tietoa siitä, missä kohdin nykyiset LLM:t ja LRM:t vielä epäonnistuvat. Tämä auttaa suuntaamaan seuraavia askeleita kohti mallien aidompaa älykkyyttä ja yleistymiskykyä.
Lähteet
- Shojaee, Mirzadeh ym. (Apple ML Research, 2025): The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
- Mirzadeh ym. (Apple, 2024/2025): GSM-Symbolic: Probing the Role of Spurious Correlations in Language Model Reasoning
- Shaham ym. (Meta AI & HUJI, 2025): Don’t Overthink It: Preferring Shorter Thinking Chains for Improved LLM Reasoning
- Chollet ym. (ARC Prize, 2025): ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
- Hao ym. (MIT, 2025): LLM-Based Formalized Programming: Formalizing Combinatorial Optimization Problems with LLMs
- Google DeepMind (2025): Gemini 2.5 Flash launch & reasoning mode

