Googlen DiffusionGemma generoi tekstiä 4x nopeammin käyttämällä diffuusiotekniikoita perinteisen token-kerrallaan-prosessoinnin sijaan. 26B MoE-malli sopii 18 GB:n kuluttaja-GPU:ille.
Google julkaisi kesäkuussa 2026 kokeellisen DiffusionGemma-kielimallin, joka rikkoo perinteisen vasemmalta-oikealle-prosessoinnin. Malli generoi tekstiä neljä kertaa nopeammin kuin autoregressiiviset mallit käyttämällä diffuusiotekniikoita, jotka tunnetaan AI-kuvageneraattoreista. DiffusionGemma luo kokonaisia tekstilohkoja samanaikaisesti sen sijaan, että prosessoisi tokeneita peräkkäin.
26 miljardin parametrin mixture-of-experts (MoE) -malli perustuu Googlen Gemma 4 -perheen teknologiaan. Se aktivoi vain 3,8 miljardia parametria päättelyn aikana ja mahtuu kvantisoituna 18 gigatavun VRAM-muistiin, kuten Nvidia RTX 5090 -kuluttajagrafiikkakorteille. Malli voi generoida 256 tokenin kappaleita yhdessä eteenpäin-syklissä, mikä mahdollistaa kaksisuuntaisen huomion ja reaaliaikaisen itsensä korjaamisen.
DiffusionGemma soveltuu erityisesti nopeutta vaativiin paikallisiin työnkulkuihin, kuten interaktiiviseen koodaukseen ja editointiin. Malli kykenee käsittelemään epälineaarisia tekstirakenteita ja on optimoitu Nvidian laitteistolle kuluttajajärjestelmistä Hopper- ja Blackwell-yritysratkaisuihin. Apache 2.0 -lisenssin ansiosta kehittäjät voivat vapaasti käyttää, muokata ja kaupallistaa mallia.
Googlekin myöntää mallin rajoitukset korkeissa QPS-pilvipalveluympäristöissä, joissa rinnakkaisprosessointi ei tuo merkittäviä hyötyjä ja voi jopa nostaa palvelukustannuksia. DiffusionGemman laatutaso on myös alhaisempi kuin tavallisen Gemma 4:n, mutta analyytikoiden mukaan malli voi vähentää prosessointikustannuksia sopivissa käyttökohteissa merkittävästi.
Tärkeimmät pointit
- 26B mixture-of-experts (MoE) -malli, aktivoi vain 3,8B parametria päättelyn aikana
- 4x nopeampi tekstigeneraatio diffuusiotekniikan ansiosta verrattuna autoregressiivisiin malleihin
- Mahtuu kvantisoituna 18 GB VRAM:iin (esim. Nvidia RTX 5090)
- Generoi 256 tokenia rinnakkain yhdessä eteenpäin-syklissä
- Kaksisuuntainen huomio ja reaaliaikainen itsensä korjaus luottamuspisteiden avulla
- Apache 2.0 -lisenssi, saatavilla Hugging Face, GitHub, vLLM ja pian llama.cpp
- Optimoitu Nvidian laitteistolle kuluttaja-GPU:ista Hopper/Blackwell-järjestelmiin
- Rajoitukset: alhaisempi laatutaso kuin Gemma 4, ei sovellu korkeisiin QPS-ympäristöihin
Lähde: infoworld — alkuperäinen artikkeli julkaistu 12.6.2026

