Google esitteli DiffusionGemma-mallin, joka hylkää perinteisen vasemmalta-oikealle-prosessoinnin

Googlen DiffusionGemma generoi tekstiä 4x nopeammin käyttämällä diffuusiotekniikoita perinteisen token-kerrallaan-prosessoinnin sijaan. 26B MoE-malli sopii 18 GB:n kuluttaja-GPU:ille.

Google julkaisi kesäkuussa 2026 kokeellisen DiffusionGemma-kielimallin, joka rikkoo perinteisen vasemmalta-oikealle-prosessoinnin. Malli generoi tekstiä neljä kertaa nopeammin kuin autoregressiiviset mallit käyttämällä diffuusiotekniikoita, jotka tunnetaan AI-kuvageneraattoreista. DiffusionGemma luo kokonaisia tekstilohkoja samanaikaisesti sen sijaan, että prosessoisi tokeneita peräkkäin.

26 miljardin parametrin mixture-of-experts (MoE) -malli perustuu Googlen Gemma 4 -perheen teknologiaan. Se aktivoi vain 3,8 miljardia parametria päättelyn aikana ja mahtuu kvantisoituna 18 gigatavun VRAM-muistiin, kuten Nvidia RTX 5090 -kuluttajagrafiikkakorteille. Malli voi generoida 256 tokenin kappaleita yhdessä eteenpäin-syklissä, mikä mahdollistaa kaksisuuntaisen huomion ja reaaliaikaisen itsensä korjaamisen.

DiffusionGemma soveltuu erityisesti nopeutta vaativiin paikallisiin työnkulkuihin, kuten interaktiiviseen koodaukseen ja editointiin. Malli kykenee käsittelemään epälineaarisia tekstirakenteita ja on optimoitu Nvidian laitteistolle kuluttajajärjestelmistä Hopper- ja Blackwell-yritysratkaisuihin. Apache 2.0 -lisenssin ansiosta kehittäjät voivat vapaasti käyttää, muokata ja kaupallistaa mallia.

Googlekin myöntää mallin rajoitukset korkeissa QPS-pilvipalveluympäristöissä, joissa rinnakkaisprosessointi ei tuo merkittäviä hyötyjä ja voi jopa nostaa palvelukustannuksia. DiffusionGemman laatutaso on myös alhaisempi kuin tavallisen Gemma 4:n, mutta analyytikoiden mukaan malli voi vähentää prosessointikustannuksia sopivissa käyttökohteissa merkittävästi.

Tärkeimmät pointit

26B mixture-of-experts (MoE) -malli, aktivoi vain 3,8B parametria päättelyn aikana
4x nopeampi tekstigeneraatio diffuusiotekniikan ansiosta verrattuna autoregressiivisiin malleihin
Mahtuu kvantisoituna 18 GB VRAM:iin (esim. Nvidia RTX 5090)
Generoi 256 tokenia rinnakkain yhdessä eteenpäin-syklissä
Kaksisuuntainen huomio ja reaaliaikainen itsensä korjaus luottamuspisteiden avulla
Apache 2.0 -lisenssi, saatavilla Hugging Face, GitHub, vLLM ja pian llama.cpp
Optimoitu Nvidian laitteistolle kuluttaja-GPU:ista Hopper/Blackwell-järjestelmiin
Rajoitukset: alhaisempi laatutaso kuin Gemma 4, ei sovellu korkeisiin QPS-ympäristöihin

Lähde: infoworld — alkuperäinen artikkeli julkaistu 12.6.2026

Google esitteli DiffusionGemma-mallin, joka hylkää perinteisen vasemmalta-oikealle-prosessoinnin

Tärkeimmät pointit

Taavi Schönberg

Edellinen artikkeliMicrosoft testaa Copilot+ -tekoälyominaisuuksia erillisillä näytönohjaimilla

Seuraava artikkeliMicrosoft korjasi WUSA-asennustyökalun Windows-päivitysongelman

MYYNTI, HUOLTO & TUKI

KOTISIVUT & VERKKOKAUPAT

OHJELMISTOKEHITYS

AJANKOHTAISTA