Hvilke LLM'er er de bedste lige nu? Dr. Maik Bunzel fra mabucon analyserer AI-markedet


Spørgsmålet lyder enkelt, men er det ikke: Hvilket sprogmodel er i øjeblikket det bedste? ChatGPT? Claude Opus? Gemini? Grok? DeepSeek? Eller måske en open source-model som Llama?
Dr. Maik Bunzel, grundlægger af mabucon, er skeptisk over for generelle ranglister. For ham afgøres det ikke af modellens navn, men af den konkrete anvendelse. „Et LLM er intet vidundermiddel. Det er et værktøj. Og som med ethvert værktøj skal man vide, hvad man vil bruge det til", forklarer Bunzel.
Præcis her begynder mabucons arbejde. Virksomheden udvikler KI-agenter, der ikke blot skriver tekster eller besvarer spørgsmål, men forstår, planlægger og udfører forretningsprocesser. Det handler om Agentic Coding, LLM-orkestrering, RAG-pipelines, Tool-Calling, MCP-servere, Guardrails, Evals og Human-in-the-Loop. Kort sagt: KI-systemer, der ikke står ved siden af virksomheden som en chatbot, men integreres dybt i dens arbejdsgange.
Fra modelsammenligning til det egentlige processpørgsmål
Mange virksomheder stiller det forkerte første spørgsmål. De spørger: „Hvilken model skal vi bruge?" Bunzel ville begynde anderledes: „Hvilken proces koster jer unødvendig tid hver dag?"
For det er først ud fra processen, at det giver mening at afgøre, hvilken model der overhovedet er relevant. En virksomhed, der dagligt udarbejder tilbud ud fra e-mails og PDF-vedhæftninger, har brug for andre kompetencer end en virksomhed, der vil søge i interne vidensdatabaser, automatisere kundesupport eller generere dagaktuelle rapporter.
Hos mabucon begynder hvert projekt derfor med en potentialeanalyse. Arbejdsgangene gennemlyses, flaskehalse synliggøres og vurderes efter indsats og effekt. Først derefter handler det om arkitekturen: Hvilken model overtager hvilken del? Hvor kræves hurtige svar? Hvor kræves dyb ræsonnering? Hvor skal et menneske godkende? Hvor er databeskyttelse, sporbarhed og logning afgørende?
„Den bedste model er sjældent én enkelt model. I praksis vinder den rigtige orkestrering næsten altid."
ChatGPT: den stærke alrounder blandt KI-modellerne
For mange brugere er OpenAI med ChatGPT blevet synonymt med moderne kunstig intelligens. De aktuelle GPT-modeller hører til de stærkeste alroundere på markedet. De er særligt gode, når opgaverne er bredt favnende: tekster, analyser, strategi, coding, opsummeringer, kreative idéer, forskningsforberedelse og struktureret kommunikation.
Bunzel ser ChatGPT som særligt stærk, hvor virksomheder har brug for en alsidig KI, der hurtigt kan sættes produktivt i brug. For advokatfirmaer, konsulentvirksomheder, bureauer og vidensmedarbejdere er det en stor fordel. En model, der kan strukturere processkrifter, udvikle marketingtekster, forklare tabeller, gennemgå kode og skitsere processer, skaber øjeblikkelig værdi.
Svagheden ligger ifølge Bunzel ikke i ydeevnen, men i fristelsen til at betragte ChatGPT som den eneste løsning.
„Den, der blot åbner en chat og overlader medarbejderne til sig selv med den, får ikke procesautomatisering. Man får bedre individuelt arbejde. Det er nyttigt, men endnu ingen skalering."
- Styrker: meget alsidig, stærk inden for tekster, analyser, strategi, Coding og Content-produktion.
- Svagheder: uden en ordentlig integration ender det ofte ved isoleret enkeltarbejde.
- Typiske anvendelsesområder: vidensarbejde, advokatkontor-workflows, SEO-tekster, interne assistenter, marketing og procesplanlægning.
ChatGPT egner sig fremragende som kernemodel til vidensarbejde, Content-produktion, strategiske analyser og interne assistenter. I ægte agentsystemer bør det dog kombineres med virksomhedsviden, klare Tool-adgange, godkendelser og evalueringsløkker.
Claude Opus: stærk inden for sprog, kode og lange tankeforløb
Anthropic med Claude, særligt Opus-modellerne, opfattes ofte som specielt stærk inden for komplekse tekster, Coding og længere tankeprocesser. Claude formulerer sig tit elegant, struktureret og naturligt. For store dokumenter, juridiske analyser, tekniske specifikationer og længere argumentationskæder er det en klar fordel.
Bunzel ser Claude som en model til krævende opgaver, hvor præcision, stil og udholdenhed er påkrævet.
„Claude er stærk, når man ønsker at bearbejde lange, komplekse sammenhænge på en klar måde. Særligt ved dokumenter, koncepter og softwareprojekter kan det være meget værdifuldt."
- Styrker: højkvalitetssprog, analyse af lange dokumenter, Coding, struktureret argumentation.
- Svagheder: ikke automatisk det bedste valg til enhver workflow; tilgængelighed og integration skal undersøges.
- Typiske anvendelsesområder: Code-reviews, tekniske koncepter, juridiske analyser, langtekster og dokumentbehandling.
For mabucon er Claude derfor en kandidat til krævende dokumentarbejde, Code-reviews, strukturerede analyser og højkvalitets tekstproduktion. I Multi-Agent-systemer kan Claude eksempelvis være "tænkeren", mens andre modeller håndterer hurtige rutineopgaver.
Gemini: stærk i Google-økosystemet og inden for multimodalitet
Google Gemini udspiller sin styrke der, hvor Google-tjenester, søgning, dokumenter, regneark, e-mails, YouTube og multimodale data spiller en rolle. Gemini kan være særligt interessant, når virksomheder i forvejen arbejder intensivt i Google Workspace, eller når tekst, billede, video og søgning mødes.
Bunzel beskriver Gemini som en model med stort potentiale for arbejdsmiljøer, hvor information er fordelt på tværs af mange Google-nære systemer.
„Hvis en virksomhed organiserer sin hverdag i Gmail, Drive, Docs, Sheets og Meet, er Gemini strategisk relevant. Ikke kun på grund af modellen, men på grund af økosystemet."
- Styrker: Google-integration, søgning, multimodalitet, Workspace-nærhed, behandling af forskellige medieformater.
- Svagheder: kvaliteten kan variere afhængigt af brugerflade, modelvariант og integration.
- Typiske anvendelsesområder: Google Workspace, YouTube-workflows, multimodal research, intern vidensøgning og operationel automatisering.
For meget præcise juridiske eller højt regulerede processer ville Bunzel ikke blindt anvende Gemini alene, men altid kombinere det med validering, kildekontrol og menneskelige godkendelser. I agentarkitekturer kan Gemini være særligt stærk, når det handler om at søge i store informationsrum, behandle multimodalt indhold og automatisere Google-nære workflows.
DeepSeek: spændende hvad angår omkostninger, teknik og egne deployments
DeepSeek har positioneret sig som en seriøs udbyder, primært på grund af stærke reasoning- og coding-evner kombineret med ofte attraktivt omkostningsprofil. For tekniske teams er DeepSeek interessant, når der er behov for mange modelkald, eller når omkostninger pr. forespørgsel spiller en afgørende rolle.
Bunzel ser heri et vigtigt punkt for praksis:
„Ved reel automatisering tæller ikke kun benchmarks. Når en agent behandler tusindvis af sager om måneden, bliver omkostninger, hastighed og stabilitet pludselig strategiske faktorer."
- Styrker: godt cost-benefit-forhold, stærke tekniske evner, interessant ved store mængder modelkald.
- Svagheder: databeskyttelse, governance og tillid skal undersøges særligt grundigt.
- Typiske anvendelsesområder: tekniske prototyper, omkostningsfølsom automatisering, coding-opgaver og interne tests.
Svagheden ligger i governance, databeskyttelse og tillid. Virksomheder skal nøje undersøge, hvor data behandles, hvilke compliance-krav der gælder, og om modellen er egnet til følsomme oplysninger. Særligt for advokatfirmaer, medicin, finans eller interne virksomhedsdata er en billig model alene ikke tilstrækkelig.
Mistral: europæisk alternativ med enterprise-potentiale
Mistral er særligt interessant for virksomheder, der prioriterer europæiske udbydere, databeskyttelse og kontrollerbare deployments. Modellerne er kraftfulde, økosystemet vokser, og for mange enterprise-anvendelser kan Mistral være et strategisk klogt alternativ.
Bunzel understreger fordelen ved europæiske KI-strategier:
„Ikke alle virksomheder ønsker eller kan binde deres kerneprosesser fuldt ud til US-platforme. Særligt ved følsomme data, regulatoriske krav og langsigtet uafhængighed bør man tage alternativer alvorligt."
- Styrker: EU-nærhed, enterprise-fokus, kontrollerbare deployments, databeskyttelsesperspektiv.
- Svagheder: ikke på niveau med de absolutte topmodeller i ethvert benchmark.
- Typiske anvendelsesområder: interne assistenter, databeskyttelsesbevidst automatisering, enterprise-KI og specialiserede workflows.
Mistral er ikke den stærkeste model i ethvert benchmark. Men i praksis handler det ikke altid om at anvende den absolut kraftfuldeste model. Ofte er en meget god model tilstrækkelig, når arkitektur, datagrundlag, procesforståelse og kontrol er på plads.
Llama og open-weight-modeller: kontrol frem for komfort
Meta Llama og andre Open-Weight-modeller er primært relevante for virksomheder, der ønsker maksimal kontrol over deres KI-infrastruktur. De kan selv-hostes, tilpasses og integreres i interne systemer. Det er teknisk mere krævende, men giver strategisk uafhængighed.
Bunzel ser ikke Open-Weight-modeller som en erstatning for alle cloud-modeller, men som en vigtig byggesten.
„Hvis en virksomhed har egne datarum, interne vidensystemer eller særligt følsomme processer, kan et selvkontrolleret model give mening. Men man skal være ærlig: Driften kræver know-how."
- Styrker: Kontrol, tilpasningsevne, datasuverænitet og egen infrastruktur.
- Svagheder: Hosting, sikkerhed, monitoring, opdateringer og evaluering kræver ressourcer.
- Typiske anvendelsesområder: interne vidensystemer, egne RAG-systemer, databeskyttelsesprojekter og specialiseret virksomheds-KI.
Styrken ligger i kontrol, tilpasningsevne og datasuverænitet. Svagheden ligger i ressourceforbruget: Hosting, monitoring, sikkerhed, opdateringer, Evals og Fine-Tuning skal løses professionelt.
Grok: stærk inden for realtid, trends og sociale medier
Grok fra xAI er særligt interessant, når aktuelle debatter, dynamikker på sociale medier og hurtige trendanalyser spiller en rolle. For virksomheder, der arbejder intensivt med X, offentlige diskussioner, memes eller dagsaktuelle stemninger, kan Grok være værdifuldt.
Bunzel ville dog ikke bruge Grok som første valg til højpræcist fagligt arbejde.
„Til fornemmelse for trends og offentlige debatter kan Grok være spændende. Til juridiske, medicinske eller virksomhedskritiske processer har man brug for mere kontrol."
- Styrker: Realtidsfornemmelse, dynamik på sociale medier, trendanalyse og offentlige debatter.
- Svagheder: mindre egnet som fundament for præcist fagligt arbejde og regulerede virksomhedsprocesser.
- Typiske anvendelsesområder: Social-Media-Monitoring, trendradar, offentlige debatter, indholdside og hurtige markedsstemninger.
Dermed er Grok snarere en radar end et fundament: stærk, når det handler om hastighed, kultur og offentlig diskussion; svagere, når det drejer sig om pålidelige faglige beslutninger.
Hvorfor mabucon ikke tror på én enkelt model
Det afgørende punkt i Bunzels analyse lyder: Fremtiden tilhører ikke den ene bedste model, men den intelligente kombination af flere modeller. En agent kan bruge en hurtig model til klassificering, en stærk reasoning-model til vanskelige beslutninger, en omkostningseffektiv model til rutineopgaver og en særligt sikker model til følsomme data.
Hertil kommer RAG-Pipelines, altså systemer der målrettet henter virksomhedsviden. Tool-Calling forbinder agenten med CRM, ERP, bogføring, indbakker og interne systemer. Guardrails sætter grænser. Evals kontrollerer kvaliteten. Human-in-the-Loop sikrer, at mennesket træffer beslutninger på kritiske tidspunkter.
Forskellen mellem en chatbot og en produktiv KI-agent er enkel: Chatbotten svarer. Agenten udfører.
Dr. Maik Bunzel: fra opbygning af advokatkontor til procesintelligens
At Bunzel ser på processer, kommer ikke fra teorien. Han har gennem mange år opbygget et landsdækkende specialadvokatkontor med kontorer i Cottbus, Berlin og Kiel og har haft ansvaret for flere tusinde mandater. Den, der arbejder i et reguleret, dokumenttungt og kommunikationsintensivt miljø, lærer hurtigt, hvor tid går tabt: ved registrering, sortering, gennemgang, videresendelse, opfølgning og dokumentation.
Af denne erfaring opstod mabucon. Virksomheden omsætter tænkningen fra advokatkontoropbygning, jura, struktur og skalering til autonome KI-systemer for virksomheder. Præcision er her ikke et marketingord. For Bunzel er det håndværk. En KI-agent må ikke arbejde omtrentligt rigtigt. Den skal være gennemskuelig, regelkonform og verificerbar.
Den stærkeste LLM er kun så god som systemet bag den
Den, der i dag spørger efter den bedste LLM, får ikke et enkelt svar. ChatGPT er den stærke allrounder. Claude imponerer inden for sprog, kode og lange analyser. Gemini brillerer i Google-økosystemet og ved multimodalitet. DeepSeek er spændende hvad angår pris og teknik. Mistral tilbyder europæiske enterprise-perspektiver. Llama står for kontrol og egne deployments. Grok er interessant til trends og realtidsdebatter.
Men for Dr. Maik Bunzel er det kun overfladen. Det afgørende er, hvad virksomheder bygger ud fra det. En enkelt model sparer måske minutter. En velstruktureret, orkestreret agent kan ændre hele arbejdsgange.
Det egentlige spørgsmål lyder derfor ikke: Hvilken LLM er den bedste? Det bedre spørgsmål lyder: Hvilken proces i din virksomhed bør ikke længere køre manuelt i morgen?