Building TRUST in Text: Linguistically Motivated Language Model Detection
Mange ved allerede, at store sprogmodeller (LLM’er) kan “komme til” at give forkerte svar eller sprede misinformation. Det, der er blevet tydeligt på det seneste, er, at de også kan blive manipuleret, eller forgiftet, udefra med det formål at fremme bestemte dagsordener. Forestil dig for eksempel en læge, der bruger en forgiftet LLM, som på subtile måder skubber dem i retning af at udskrive ét firmas medicin frem for en konkurrents. Jeg arbejder ud fra hypotesen om, at subtile lingvistiske signaler I genereret tekst kan afsløre, at modellen er blevet forgiftet på denne måde. Mit mål er at udvikle ny viden og metoder, som gør os i stand til at opdage sådanne angreb og gøre sprogmodeller mere robuste og tillidsvækkende. I takt med at LLM’er bliver taget i brug i hele samfundet, bliver dette stadig vigtigere.
Jeg har haft en livslang interesse for sprog, hvilket fik mig til at begynde at studere lingvistik efter gymnasiet. Jeg valgte at læse på Stockholms Universitet – på det tidspunkt et af de få steder, der tilbød en specialisering i datalingvistik. Derefter ville jeg lære mere og fik en ph.d.-stilling i Natural Language Processing (NLP), netop som såkaldte neurale netværk begyndte at vinde frem. I dag er det denne teknologi, der driver moderne kunstig intelligens, herunder LLM’er. Mens mange AI-forskere ser bort fra lingvistisk kundskab, mener jeg, at netop lingvistik er nøglen til videnskabelige gennembrud i NLP. Min kærlighed til sprog er også en af grundene til, at jeg altid bruger et flersproget perspektiv i mit arbejde – og i dette projekt gør det os i stand til at arbejde for, at LLM’er bliver sikre og pålidelige på tværs af sprog verden over.
At opdage forgiftet tekst i LLM’er indebærer, at man skal overvinde flere centrale udfordringer. Først og fremmest skal vi samle realistiske eksempler på manipulation – på tværs af emner og sprog. Dernæst er de sproglige “fingeraftryk” fra et angreb formentlig ekstremt subtile, hvilket kræver metoder, der kan opfange selv små sproglige forskydninger. Vores løsninger skal desuden være hurtige og kunne skaleres, da de modeller, der er i drift, allerede betjener millioner af brugere – og I forvejen er ekstremt ressourcekrævende. Og, fordi ondsindede aktører løbende vil tilpasse deres metoder, skal vores detektionsmetoder hele tiden kunne udvikle sig.
I takt med at LLM’er tages i brug på tværs af samfundet – f.eks. i sundhedsvæsenet, uddannelsessektoren og finansverdenen – stiger risikoen for angreb støt. Mit projekt gør det muligt for os at være på forkant med at sørge for, at LLM’er forbliver sikre, og at vi hele tiden er et skridt foran potentielle angribere. På den ene side sigter projektet mod at levere konkrete teknologiske løsninger, der kan sikre LLM’er og dermed fjerne en af de centrale barrierer for at tage dem i brug i samfundet.
Samtidig er det et af mine mål at oplyse offentligheden om denne relativt ukendte risiko. Mange er klar over, at LLM’er kan “tage fejl”, men de færreste ved, at en LLM kan blive forgiftet med det konkrete formål at vildlede en bestemt bruger på en bestemt måde. Bevidsthed om denne risiko kan i sig selv bidrage til at mindske faren, mens vi arbejder på at opbygge effektive forsvar.
Jeg er utroligt beæret over at have modtaget Sapere Aude: DFF-Forskningsleder-bevillingen. Det er en anerkendelse af den grundforskning, jeg har udført siden min ph.d., og en afgørende trædesten for min videre udvikling som uafhængig forskningsleder. Med denne bevilling får jeg mulighed for at fordybe mig i en helt ny tværfaglig forskningsretning i samarbejde med fremragende eksterne partnere ved Stockholms Universitet og NVIDIA. De to ph.d.-studerende og postdoc’en, der bliver en del af projektet, vil være blandt de første til at udforske det spirende felt inden for sikkerhed i store sprogmodeller – med et lingvistisk twist – og får dermed en helt unik position i forhold til deres videre karriere. Samtidig er bevillingen et vigtigt bidrag til, at det forskningsmiljø, jeg har været i gang med at opbygge gennem de seneste år, kan fortsætte med at blomstre.
Jeg er oprindeligt fra Norge, og har slået mig ned i Farum sammen med min danske kone og vores tre små børn. En stor del af min tid går med at navigere det glædelige kaos, som familielivet indebærer. Min kærlighed til sprog har altid været både en personlig og en faglig drivkraft. Når jeg ikke arbejder med AI og sprogmodeller, nyder jeg at lave så avancerede måltider som tiden tillader, rejse med familien, og finpudse mine evner i at finde på far-jokes – til stor fornøjelse (eller frustration) for familien. At balancere forskning og familieliv er en udfordring, og også en konstant kilde til perspektiv og inspiration.
Aalborg Universitet
Sprogteknologi
Furesø
Hamar Katedralskole