Når robotter læser følelser: Vision Language Models og den nye dimension af menneske-maskine-samarbejde

Dr. Maik Bunzel

12.06.2026 · 6 min. læsetid

Når robotter læser følelser: Vision Language Models og den nye dimension af menneske-maskine-samarbejde

Robotter som emotionelle medarbejdere – en ny virkelighed i arbejdslivet?

Forestillingen om, at en robot kan registrere, om dens menneskelige kollega er koncentreret, frustreret eller afslappet, lyder som science fiction. Men aktuelle forskningsresultater, offentliggjort i IEEE Robotics and Automation Letters, viser: Denne evne er tættere på end antaget – og den ændrer grundlæggende, hvordan vi må tænke på integrationen af intelligente systemer i arbejdsprocesser. For virksomheder, der satser på automatisering og KI-understøttede workflows, giver denne udvikling vigtige strategiske impulser.

Fra ansigtsgenkendelse til kontekstuel perception

Konventionelle systemer til følelsesregistrering i menneske-robot-interaktion baserer sig primært på klassisk ansigtanalyse og Object Tracking. Et rynket ansigt klassificeres som vrede – uanset om personen er dybt koncentreret eller faktisk utilfreds. Denne reduktionistiske tilgang har betydelige svagheder, når maskiner anvendes i komplekse, dynamiske arbejdsmiljøer.

Forskere ved University of Melbourne har nu taget et afgørende skridt videre: De trænede en kollaborativ robot ved hjælp af en Vision Language Model (VLM) – en teknologi, der konceptuelt er beslægtet med kendte Large Language Models som GPT, men som desuden kan behandle visuelle input. I stedet for blot at analysere ansigtstræk vurderer systemet hele interaktionsscenen: kropsholdning, håndbevægelser, den rumlige kontekst mellem menneske og maskine samt forløbet af den fælles opgave.

Resultatet er bemærkelsesværdigt: Mens det konventionelle KI-system opnåede en overensstemmelsesscore på 0,77 (på en skala fra 0 til 1) sammenlignet med menneskelige observatørvurderinger, nåede VLM en score på 0,86. Ved første øjekast ikke et revolutionerende spring – men i præcisionen af realtidsbeslutninger i kollaborationsscenarier udgør det en betydelig forskel.

"Det sociale smøremiddel": Emotionel adaptivitet i praksis

I studiets anden del interagerede 40 forsøgspersoner med en robot, der bevidst begik fejl. Efterfølgende kunne robotten enten reagere med en emotionelt adaptiv undskyldning – baseret på dens vurdering af menneskets følelsesmæssige tilstand – eller med et foruddefineret standardsvar. Resultatet: 31 ud af 40 deltagere foretrak tydeligt den tilpassede reaktion.

Dette fund har umiddelbar relevans for udformningen af KI-agenter i virksomhedsmiljøer. Dr. Maik Bunzel, grundlægger og administrerende direktør for mabucon.eu, beskæftiger sig indgående med spørgsmålet om, hvordan autonome agenter kan integreres i eksisterende workflows ikke blot funktionelt, men også socialt kompetent. Hans vurdering stemmer overens med studiets resultater: Emotionel responsivitet er ikke en luksus, men en acceptfaktor – særligt i miljøer, hvor mennesker og systemer arbejder tæt sammen.

Samtidig afslører undersøgelsen en afgørende begrænsning: Den personaliserede undskyldning fungerede som et socialt smøremiddel, men kunne ikke genoprette den tillid, der var gået tabt på grund af den egentlige fejl. Tillid til autonome systemer opbygges primært gennem funktionel pålidelighed – ikke gennem kommunikativ behændighed.

VLM'ernes blinde vinkel: Observatører frem for empatikere

Særligt oplysende er en metodisk sondring, som forskerne fremhæver: VLM'en klassificerede følelser på samme måde som eksterne menneskelige observatører – altså mennesker, der betragtede en interaktion udefra. Sammenlignede man derimod KI-vurderingerne med de selvrapporterede følelser hos de direkte involverede personer, var overensstemmelsen markant svagere.

Denne indsigt er højst relevant i praksis: VLM'er er præcise observatører af sociale signaler, men ikke tankelæsere. De opfanger det, der er synligt – ikke det, der opleves indvendigt. På KI-forskningens sprog ville man sige: Modellen opererer på Behavioral Layer, ikke på Experiential Layer. For anvendelsen i kollaborative scenarier betyder det, at disse systemer skal forstås som et understøttende informationslag – ikke som emotionel intelligens i menneskelig forstand.

Implikationer for virksomheder: Hvad betyder det konkret?

Undersøgelsen leverer flere praksisrelevante konklusioner for organisationer, der integrerer eller ønsker at integrere kollaborativ robotik eller KI-agenter i deres processer:

Gentænk acceptstrategien: Emotionel adaptivitet øger accepten af robotter og KI-systemer mærkbart. Investeringer i kontekstsensitive kommunikationslag kan betale sig – ikke som nice-to-have, men som en strategisk nødvendighed i change management-processer.
Funktionalitet er stadig trumf: Intet nok så empatisk interface kompenserer for manglende pålidelighed. Virksomheder bør erklære robustheden i deres autonome systemer for den højeste prioritet, før de investerer i emotionelle grænseflader.
Kontekstuelt datadesign: VLM'er kræver righoldige, kontekstualiserede træningsdata. Virksomheder, der ønsker at træne egne kollaborative systemer, må tænke ud over isolerede sensordata og indsamle komplette interaktionskontekster.
Tillid er en proces: Opbygningen af tillid mellem menneske og maskine sker ikke gennem én enkelt vellykket reaktion, men gennem konsistent, kompetent præstation over tid. Det har konsekvenser for udrulningsstrategier og pilotbaserede implementeringsscenarier.
Databeskyttelse og etik i fokus: Systemer, der løbende analyserer ansigtsudtryk og kropssprog, berører følsomme databeskyttelsesområder. GDPR-spørgsmål skal tænkes ind fra begyndelsen.

Den større kontekst: Emotionel KI som del af agentbaserede systemer

Udviklingen af emotionelt responsive robotter er ikke et isoleret forskningsfelt – det er en del af en bredere bevægelse mod agentbaserede KI-systemer, der ikke blot udfører opgaver, men aktivt interagerer med menneskelige brugere, tilpasser sig og handler autonomt i dynamiske omgivelser. Disse systemer anvendes i stigende grad i produktionsmiljøer, logistikcentre, sundhedssektoren og hybride kontormiljøer.

For Dr. Maik Bunzel fra mabucon.eu står ét centralt spørgsmål i forgrunden: Hvordan designer man agent-arkitekturer, så de ikke blot fungerer teknisk, men også virkelig accepteres i menneskers arbejdshverdag? Den foreliggende undersøgelse leverer empiriske data, der rækker ud over robotikkonteksten – og er overførbare til enhver KI-agent, der interagerer med mennesker og skal reagere på deres emotionelle signaler.

„En personaliseret undskyldning virker som et socialt smøremiddel – men den kan ikke reparere den tabte tillid efter en fejl i den fysiske opgave." – Seung Chan Hong, University of Melbourne

Fremtidsperspektiv: Hvor står teknologien om tre år?

Forskningen peger i en klar retning: VLMs integreres som et emotionelt erkendtelseslag i kollaborative systemer, deres præcision øges med bedre træningsdata, og kombinationen af sprog-, billed- og kontekstbehandling bliver til standardarkitektur inden for Human-Robot Interaction. Samtidig består den fundamentale erkendelse: Teknologi kan observere, reagere og tilpasse sig – men ægte tillid opstår gennem pålidelighed, ikke gennem simulation af empati.

For virksomheder betyder det: Nu er det rette tidspunkt at gentænke den egne strategi for kollaborative KI-systemer. Ikke fordi emotionelle robotter er umiddelbart på vej mod masseimplementering, men fordi de konceptuelle grundprincipper – kontekstsensitiv perception, adaptiv kommunikation, tillidsopbygning gennem kompetence – allerede i dag bør præge udformningen af enhver KI-understøttet arbejdsproces. Den, der forstår disse principper tidligt og forankrer dem i sin systemarkitektur, vil i morgen have en målbar konkurrencemæssig fordel.