DiffusionGemma: Derfor gentænker Googles nye open source-model AI-arkitekturen


Afslutningen på token-for-token-logikken: Hvad DiffusionGemma egentlig betyder
I årevis har sprogmodelverdenen fulgt ét enkelt paradigme: En model genererer tekst ved at forudsige ord for ord – mere præcist: token for token – hvor hvert nyt token afhænger af det foregående. Dette autoregressive princip er så dybt forankret i LLM-arkitekturen, at det næsten ikke længere stilles spørgsmålstegn ved. Google udfordrer det nu grundlæggende med DiffusionGemma – og det har vidtrækkende implikationer for alle de virksomheder, der ikke blot ønsker at anvende KI, men at udnytte den strategisk.
DiffusionGemma er ikke endnu en opdatering i Gemma-modelfamilien. Det er et konceptuelt brud. I stedet for at generere tokens sekventielt anvender modellen diskret diffusion: Hele blokke på op til 256 tokens "afstøjes" iterativt og parallelt – på samme måde som det princip, der kendes fra billedgenerering (Stable Diffusion, Flux), men nu overført til tekstdomænet. Resultatet er et markant højere antal genererede tokens pr. sekund, uden at kvaliteten nødvendigvis forringes.
Arkitektur i detaljer: Sparse MoE møder bidirektionalitet
Det tekniske fundament i DiffusionGemma hviler på Gemma-4-Mixture-of-Experts-arkitekturen med 26 milliarder parametre i alt – hvoraf kun ca. 4 milliarder er aktive ved hvert forward-pass. Dette Sparse-MoE-design er ingen tilfældighed: Det muliggør markant lavere inferensomkostninger ved samtidig høj modelkapacitet, fordi routing-netværket altid kun aktiverer de mest relevante ekspert-undernetværk.
Særlig bemærkelsesværdig er overgangen fra unidirektionel til bidirektionel opmærksomhed. Klassiske autoregressive modeller må under generering kun se tilbage på allerede producerede tokens – en teknisk nødvendighed, der bortfalder i diffusionstilgangen. DiffusionGemma kan "overskue" og forfine den samlede blok, der skal genereres, på én gang, hvilket fremmer mere strukturerede og sammenhængende output.
Hertil kommer et Encoder-Decoder-design med kontekst-caching samt en eksplicit Thinking-Mode til trinvis reasoning. Sidstnævnte giver modellen mulighed for at strukturere komplekse forespørgsler internt, inden et svar afgives – en egenskab, der hidtil primært har været forbeholdt proprietære modeller som OpenAIs o-serie.
Multimodalitet som differentieringsparameter
DiffusionGemma er ikke begrænset til tekst. Modellen behandler udover tekst også billeder i variabel opløsning samt video – og det inden for én samlet arkitekturramme. For virksomheder, der opbygger workflows omkring dokumentanalyse, visuel kvalitetskontrol eller multimediel indholdsskabelse, er det en betydelig fordel: Én enkelt model dækker flere modaliteter, hvilket reducerer kompleksitet og integrationsbarrierer.
„Det spændende spørgsmål er ikke, om diskret diffusion er bedre end autoregression – men i hvilke anvendelsestilfælde den er strukturelt overlegen. For lokale, latensoptimerede workflows med klart afgrænsede output-blokke ser potentialet betydeligt ud."
Denne vurdering deles også af Dr. Maik Bunzel, grundlægger og administrerende direktør for mabucon.eu, der ser tilgangen som den logiske konsekvens af en tendens: Virksomheder ønsker KI-agenter, der er hurtige, deterministiske og kan afvikles lokalt – og det er præcis her, DiffusionGemma kan udfylde en niche, som Cloud-First-modeller strukturelt ikke er i stand til at dække.
Lokal afvikling: Den afgørende praktiske fordel
Et centralt løfte med DiffusionGemma er lokal kørbarhed på consumer-hardware. Gennem kombinationen af Sparse MoE og egnet kvantisering skal modellen kunne afvikles på GPU'er med cirka 18 GB VRAM – altså på hardware, som allerede findes i mange virksomheder, for eksempel i form af NVIDIA RTX 4090 eller professionelle workstation-kort.
Det er ikke en triviel detalje. For virksomheder med strenge databeskyttelses- og compliancekrav – eksempelvis inden for sundhedsvæsen, finansielle tjenesteydelser eller offentlig forvaltning – er lokal behandling af følsomme data ofte ikke blot ønskværdig, men regulatorisk påkrævet. En kraftfuld multimodal model, der kan driftes fuldt ud on-premises, lukker et hul, som mange cloud-udbydere bevidst lader stå åbent. Sådanne krav reguleres bl.a. af GDPR.
Modellen er desuden udtrykkeligt optimeret til lav concurrency – dvs. til scenarier, hvor det ikke handler om at behandle hundredvis af samtidige forespørgsler, men om at én enkelt agent eller et lille team anvender modellen intensivt. Det passer præcist til anvendelsesprofilen for mange mellemstore virksomheder, der opbygger KI-drevne assistenter til interne processer.
Hvad virksomheder bør vide nu
- Hastighed via parallelisering: Generering af hele token-blokke frem for sekventielt output kan reducere latensen drastisk i bestemte opgavetyper – særligt relevant for opsummeringer, struktureret dataudtræk og kodegenerering.
- Open source-strategi: DiffusionGemma er tilgængeligt som eksperimentelt open source-model. Det betyder fuld tilpasningsdygtighed, men også et behov for intern eller ekstern ekspertise til deployment og Fine-Tuning.
- Vurder arkitekturmodenhed: "Eksperimentel" er ikke et marketingbegreb, men et teknisk signal. Til produktionssystemer anbefales en grundig evalueringsproces – særligt hvad angår Thinking-Mode og multimodal integration.
- Hardwareplanlægning: Den, der planlægger lokal inferens, bør betragte kravet om 18 GB VRAM som en minimumsgrænse. Afhængigt af kvantiseringstrin og kontekstlængde kan behovet stige.
- Egnethed til anvendelsesscenarie: Low-Concurrency-workloads drager størst fordel. Til højt parallelle API-tjenester forbliver cloud-inferens foreløbig mere effektiv.
Perspektivering: Et paradigmeskift i slowmotion
Det ville være forhastet at erklære DiffusionGemma som en øjeblikkelig erstatning for etablerede autoregressive modeller. Arkitekturen er eksperimentel, og økosystemets modenhed (tooling, community, benchmarks) er stadig under opbygning. Men den konceptuelle kursændring er reel og fortjener seriøs opmærksomhed.
Dr. Maik Bunzel fra mabucon.eu sætter dette ind i en større sammenhæng: Konvergensen af diskret diffusion, Sparse MoE og lokal deployment viser, at næste generation af kraftfulde KI-modeller ikke nødvendigvis vil være større, men arkitektonisk klogere. For virksomheder betyder det: Den, der forstår de tekniske grundprincipper nu, kan træffe velfunderede Build-or-Buy-beslutninger tidligere end andre.
Det egentlige strategiske spørgsmål er derfor ikke "Autoregression eller diffusion?", men: Hvilken arkitektur passer til min anvendelsesprofil, min infrastruktur og mine compliance-krav? DiffusionGemma leverer et overbevisende nyt svar – for en voksende del af virksomhedens KI-scenarier, der hidtil har været henvist til utilfredsstillende kompromiser som følge af manglen på egnede modeller.