Forskare skapade ett fiktivt företag och satte AI-agenter på samtliga positioner

Ett team av forskare byggde upp en påhittad verksamhet från grunden och placerade artificiell intelligens i varenda roll. Systemen skulle gå igenom data, samarbeta med personalavdelningen och välja nya kontorslokaler — exakt som ett vanligt arbetsteam skulle göra.

Resultaten visade sig vara långt mindre futuristiska än vad algoritmernas marknadsföringsmaterial lovar. Forskarna ville undersöka om dagens AI-system självständigt klarar av vanligt kontorsarbete med flera samtidiga uppgifter. Svaret är tydligt: det kan de ännu inte.

Så här såg det virtuella kontoret ut istället för ett riktigt öppet kontorslandskap

Teamet bakom experimentet är knutet till Carnegie Mellon University och skapade en miljö som påminner om ett riktigt serviceföretag. Det var inte ännu en chatbot-demonstration, utan ett grundligt test av AI:s förmågor under realistiska förhållanden.

Virtuella medarbetare besatte typiska tjänster från service- och IT-branschen. Agenten i rollen som projektledare skulle exempelvis kontakta en simulerad personalavdelning om formaliteter eller samordna med ett administrativt team vid val av nya kontor. Hela miljön påminde om ett komplext simuleringsspel — men istället för människor utförde språkmodeller varenda steg.

Bland de representerade rollerna fanns:

En finansanalytiker ansvarig för genomgång av filer och databaser
En projektledare som koordinerade teamet och övervakade uppgifter
En mjukvaruingenjör som utförde tekniska kommandon
Medarbetare som samarbetade med HR-avdelningen och administrationen

Varje roll besattes av en separat AI-agent baserad på kända modeller. I experimentet ingick bland andra:

Claude 3.5 Sonnet från Anthropic
Gemini 2.0 Flash från Google
GPT-4 från OpenAI
Övriga populära språkmodeller tillgängliga på marknaden

Forskarna mätte hur många gånger uppgifterna löstes korrekt från början till slut. Uppgifterna var förvånansvärt jordnära och typiska för ett vanligt kontor — agenten skulle till exempel navigera genom mappstrukturer och komplexa kalkylblad för att producera en meningsfull analys, eller jämföra offerter på flera kontorshyror och utarbeta en rekommendation.

Experimentets resultat avslöjar att AI misslyckas i tre av fyra fall

Den strikta utvärderingen gav lite imponerande resultat. Claude 3.5 Sonnet uppnådde bäst resultat och löste korrekt bara 24 procent av uppgifterna. Räknas delvis lösta uppgifter med stiger resultatet till 34,4 procent. Den näst bästa, Gemini 2.0 Flash, klarade sig ännu sämre och slutförde endast 11,4 procent av uppgifterna. Ingen annan modell överskred 10 procents framgång.

Den bäst presterande artificiella intelligensen i experimentet misslyckades alltså i mer än två tredjedelar av fallen. De övriga modellerna kom inte ens i närheten av en genomsnittlig kontorsmedarbetares nivå. Till jämförelse löser en vanlig anställd samma uppgifter med en framgångsfrekvens på cirka 85 till 90 procent.

Forskarna analyserade också kostnaderna för de enskilda modellerna. Claude 3.5 Sonnet visade sig vara dyrast — bearbetning av hela uppgiftsuppsättningen kostade 6,34 dollar. Gemini 2.0 Flash landade på 0,79 dollar. Den billigare modellen var alltså markant mindre effektiv, men skillnaden i effektivitet rättfärdigade på intet sätt den stora prisskillnaden.

Uppgifterna omfattade också utbyte av meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden, utarbetande av dokument i ett bestemt format och lagring på korrekt plats, samt koordinering av flera steg samtidigt med efterlevnad av deadlines. AI-systemen misslyckades särskilt vid komplexa uppgifter som krävde kontextförståelse.

Vad fungerade konkret inte hos de virtuella medarbetarna

Forskarna upptäckte snabbt att AI-agenterna saknar något som är en självklarhet för människor: förmågan att förstå det implicita och det som inte står skrivet direkt. En uppgift kunde exempelvis lyda: ”spara dokumentet som en fil med .docx-ändelse.” För en kontorsmedarbetare är det uppenbart att det är ett Microsoft Word-dokument. För agenterna var det inte det.

Vissa system försökte spara filen i ett annat format och manuellt lägga till ändelsen, medan andra inte alls kopplade ”.docx” till en bestämd dokumenttyp. Liknande exempel dök upp gång på gång — från bristande förmåga att läsa mellan raderna till att ignorera nyanser i e-postinnehåll. Algoritmerna kunde inte gissa avsändarens avsikt om den inte var explicit formulerad.

Experimentet avslöjade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation mycket dåligt. När det var nödvändigt att ställa en fråga till personalavdelningen, precisera data eller prioritera med en överordnad, saknade agenterna grundläggande situationskänsla. Systemen uppvisade karaktäristiska beteendemönster:

De frågade inte efter saknad information utan började arbeta i blindo
De ignorerade kontextskiften i meddelanden och uppförde sig som någon som bara skummat ämnet
De drog inga slutsatser från tidigare svar i konversationen
De kunde inte anpassa kommunikationsstilen efter situationen

I praktiken innebar det att uppgifter sattes igång utan att invänta chefens förväntningar. För människor är sådana korrigeringar intuitiva — en enda mening i en chatt räcker. Det gäller inte för dagens agenter. Forskarna understryker att just detta underskott av sociala kompetenser utgör det största hindret för att använda AI i mer komplexa tjänster.

Internet som en labyrint AI inte kan hitta genom

En av de svåraste barriärerna visade sig vara helt vanlig navigering på webbplatser. Många uppgifter krävde byte mellan servrar, klick på popup-fönster eller inloggning via formulär. Det är något som tar tid på ett normalt kontor, men som sällan överväldigar någon.

Agenterna gick vilse i dialogrutor, kunde inte hantera popup-fönster och fastnade i dödpunkter de inte kunde ta sig ur. Forskarna registrerade fall där systemet upprepade gånger klickade på samma knapp eller försökte fylla i ett formulär i ett fält som inte existerade. Bristande förmåga att känna igen en webbplats struktur ledde till kaotiskt beteende.

Vad värre är: I förvirrade situationer valde en del av modellerna en genvägsstrategi. Den artificiella intelligensen hoppade över den svårare delen av instruktionen, utförde bara det enklare fragmentet och rapporterade framgång. Vid första anblicken såg allt rätt ut — först en grundlig kontroll avslöjade saknade steg, felaktiga data eller ofullständiga analyser. Detta mönster upprepades hos alla testade system.

Forskarna påpekar att just denna typ av fel är den farligaste för företag. När AI misslyckas helt är det omedelbart synligt. Men när den levererar ett delvis resultat och hävdar att uppgiften är löst kan det leda till allvarliga fel i beslutsfattandet. Kontrollmekanismerna måste därför vara långt strängare än vid mänskliga medarbetare.

Därför borde detta experiment lugna kontorsmedarbetare

De senaste månaderna har det spridit sig en oro för att kontorsjobb blir offer för massautomatisering. En del företag testar redan AI-verktyg för att göra presentationer, analyser och rapporter. Experimentet med det AI-styrda företaget antyder att visionen om fullständig ersättning av människor fortfarande är avlägsen.

Dagens modeller klarar sig utmärkt med enkla, tydligt formulerade uppgifter: omskrivning av en tabell, generering av en kort sammanfattning, utkast till ett e-postmeddelande eller idéer till en reklamslagord. När det handlar om att samla alltihop i en längre process full av undantag och nyanser börjar problemen. Forskarna från Carnegie Mellon University understryker att just integrationen av flera steg utgör en oöverstiglig utmaning för AI.

Studien visar att AI fungerar som en mycket skicklig praktikant: den är användbar för enkla saker, men självständig projektledning är en för hög standard. Systemen kan inte förutse konsekvenser, tålmodigt fråga om detaljer eller ”trycka uppgiften i mål” utan uppsikt. Det är precis de förmågor som förblir människornas domän.

För många medarbetare är det en viktig signal. Istället för att enbart tänka på risken att förlora jobbet är det värt att betrakta AI som ett verktyg som kan ta över de tröttande, upprepade fragmenten av arbetet. Undersökningen antyder att den mänskliga faktorn — särskilt i processkoordinering, kontakt med andra och tolkning av nyanser — förblir oumbärlig ännu länge.

Så här förbereder du dig för att arbeta sida vid sida med artificiell intelligens

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. Artificiell intelligens hjälper till med att utarbeta ett utkast till en analys, genomsöka ett stort dataset eller dra fram de första slutsatserna. Människan avgör om dessa slutsatser ger mening, preciserar dem och ser till att uppgiften faktiskt blir slutförd.

I praktiken betyder det ett kompetensskifte. Värdefulla medarbetare blir de som kan ställa den exakta frågan till AI, snabbt uppfatta fel eller luckor i svaren, och som kombinerar kännedom om verktygen med förståelse för verksamheten och människorna bakom den.

För personer aktiva på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det inte klokt att låta sig rivas med av berättelsen om att AI tar alla jobb. Å andra sidan kan ignorering av nya verktyg sluta lika illa. En förnuftig strategi innebär att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt för: