Sprogmodellerne kommer

Derfor er AI for forskere fedt... og lidt farligt

18.12.2024

af

Kvinder læser magasin om kunstig intelligens

Foto: Tada Images/Shutterstock

ChatGPT og de andre generative sprogmodeller kan løse praktiske udfordringer og lette arbejdet. Men de kommer med nogle risikofaktorer for forskningen, man skal være opmærksom på.

Kunstig intelligens er kommet for at blive. Det er et faktum, ligesom internettet er det. Og derfor kan vi lige så godt lade være med at diskutere, om vi hellere vil undvære det.

”AI kommer til at påvirke os alle, så vi kan lige så godt holde op med at tro, at det er et valg. Det er det ikke,” siger Jan Damsgaard, der er professor ved Institut for Digitalisering på CBS.

Diskussionen om, hvorvidt AI er en god eller en dårlig ting, svarer til at diskutere, om internettet er godt eller dårligt, tilføjer han.

”Når man gør checks and balances op, er der flere fordele end ulemper ved det der internet. Jeg tror ikke, der er nogen, der ønsker sig tilbage til en tid før internettet.”

Derfor er det også givet, at AI kommer til at ændre forskningen, og at forskningen aldrig bliver det samme igen, siger han.

”Man kan godt drømme sig tilbage til, hvordan det var engang. Men sådan er det ikke længere, så det er ikke interessant. Vi kan ikke bare sige, at det vil vi ikke have alligevel. Det gælder om at komme fremad i stedet.”

Og det prøver vi så. Med Jan Damsgaards bemærkninger in mente tager vi her et kig på både de fordele, der umiddelbart er at hente som forsker. Og dernæst de farer og faldgruber, der knytter sig til AI såvel som internettet.

Det har vi talt om med Jan Damsgaard om. Og med Rune Nyrup, der er lektor ved Center for Videnskabsstudier på Aarhus Universitet, og Gry Hasselbalch, der er forfatter, forsker i dataetik og medstifter af tænketanken DataEthics.

"Der er jo forskere, der har vigtigt videnskabeligt indhold, men ikke har den rigtige form, der skal til for at dele ud af det. Det er en måde at bruge AI-sprogmodellerne på."

Gry Hasselsbalch, forfatter, forsker i dataetik og medstifter af tænketanken DataEthics

Artiklen fortsætter efter annoncen

Ledige stillinger

Job
Region Midtjylland
Job
Region Nordjylland
Job
Grønlands Selvstyre, Departementet for Landbrug, Selvforsyning, Energi og Miljø
Job
Folketingets Administration
Job
Forsvarsministeriet, Departementet

6 fordele

Hvis vi tager fordelene først, er det gennemgående tema de praktiske muligheder, de store sprogmodeller som ChatGPT skaber for forskere for at frigøre ressourcer. De tre eksperter nævner en række opgaver, AI kan hjælpe med at løse:

Analyse af lange tekster

AI giver mange muligheder for at analysere data og finde mønstre, der ellers ville være utroligt tidskrævende for mennesker, fortæller Rune Nyrup. For samfundsvidenskaberne har særligt de store sprogmodeller et betydeligt potentiale.

”Hvis fx juraforskere sidder med en kæmpe mængde retsdokumenter og er interesserede i sager med en helt bestemt profil, har de nu muligheden for langt hurtigere at finde frem til disse sager, opsummere deres hovedpointer, præ-processere dem til yderligere dataanalyse osv.,” siger han.

Bl.a. giver AI mulighed for meget hurtigt at læse sig ind på et stort emne, tilføjer Jan Damsgaard.

”Fx de her store, tunge litteraturstudier, jeg skulle lave, hvis jeg kastede mig over et nyt område. Nu forsker jeg meget inden for blockchain, kryptovaluta, AI og lign., som ville tage halvandet-to år at læse sig ind på. Med AI bliver det hurtigere at danne sig et overblik, reducere kompleksiteten og finde frem til grunddelene af ny teori.”

Semantisk analyse af kilder

Derudover kan man ifølge Jan Damsgaard også få et meget mere ”levende” billede af sit kildemateriale. Hidtil har man blot kunnet se, hvilke artikler der citerer hinanden. Med AI kan man også se, hvordan de citerer hinanden, om kilderne er enige eller uenige osv.

”I dag bruger alle Google Scholar eller internettet til at finde artikler. Og vi bruger antallet af citationer som et udtryk for popularitet. Det er det vel også i en grad, men der står ikke, om de, der har citeret mig, er enige eller uenige.”

Her kan AI hjælpe med at lave en semantisk analyse af den måde, artiklerne bliver citeret på, lyder det.

”Hvis man nu citerer fem artikler og skriver, at de alle sammen siger det samme, og derfor må det være en udbredt holdning. Hvad nu hvis de alle bygger på den samme artikel? På den måde kan man få løsnet op og kigget dybere.”

Oversættelse og korrekturlæsning

Sprogmodellerne kan være behjælpelige i forhold til de forskelle, der er i forskeres forudsætning for international publicering, fortæller Gry Hasselbalch.

”Fx i Danmark kan man forestille sig, at der er nogle, der måske er henholdende, fordi de føler sig mindre skarpe ift. det sproglige – typisk engelsk. De kan få hjælp til at rette sproget, korrekturlæsning og forslag til, hvordan de skal formulere sig.”

AI kan med andre ord åbne mulighederne for publicering for nogle, men også være med til at gøre resten af verden opmærksom på forskning, den ellers ikke ville have set.

”Der er jo forskere, der har vigtigt videnskabeligt indhold, men ikke har den rigtige form, der skal til for at dele ud af det. Det er en måde at bruge AI-sprogmodellerne på,” siger hun.

Formidling, hvis man ikke er så god til det

I forlængelse heraf kan sprogmodellerne hjælpe med skrive tekster. Ikke nødvendigvis kun den videnskabelige artikel, men i det hele taget, siger Jan Damsgaard.

”ChatGPT fx er sindssygt god til at skrive tekst, så sammen med den kan man skrive kvalitetstekst. Det er selvfølgelig en kæmpe fordel for folk, der skal til at lære at skrive forskningsformidling, så de samtidig kan koncentrere sig om forskningen og ikke kun om at formidle den.”

Ansøgninger og budgetter

AI kan løse vigtige tidskrævende og rutineprægede opgaver som standardformuleringer til formularer i fondsansøgninger eller de tilhørende budgetter, fortæller Gry Hasselbalch.

”Selvfølgelig skal du skrive dine forskningsansøgninger selv, men du kan jo godt bruge det til input. Nogle forskere er fx dårlige til det med budgetter. Der kan de som minimum lave en brainstorm over, hvor meget der skal sættes af til forskellige ting, og få en generativ AI model til at udregne det.”

Man kan med andre ord betragte fx ChatGPT som et værktøj, der kan løse en masse opgaver, der tager tid fra forskningen.

”En slags avanceret assistance, der kan hjælpe med de kedelige e-mails. Eller den kan gennemgå Europa-Kommissionens hjemmeside for at finde forskningsmidler inden for dit forskningsområde. Sådan nogle administrative ting, der kan gøre livet nemmere, så man kan få tid til at fokusere på sin egentlige kerneforskning,” siger Gry Hasselbalch.

Tidligt peer review

Og så kan det måske lyde lidt kontra-intuitivt, men sprogmodellerne er ret gode til at være kritiske, forklarer Jan Damsgaard.

”De kan jo give peer reviews af éns artikel, inden man sender den ind, så man ikke skal bruge de der seks måneder på at vente på, at man får et par linjer tilbage om, hvad nogen synes om éns artikel. Så man kan faktisk få et peer review lidt tidligere.”

"En advokat i USA, fik en bøde for at have indsendt retsdokumenter, som citerede ikke-eksisterende domsafsigelser. Man kan gøre forskellige ting for at forhindre dette. Men pga. modellernes kompleksitet er det meget svært at vide sig sikker uden at tjekke efter manuelt."

Rune Nyrup, lektor, Center for Videnskabsstudier, Aarhus Universitet

ANNONCE

5 faldgruber

De tre eksperter peger desuden på, at AI-redskaberne indebærer en række farer og risici for forskere.

Hallucinationer

Sprogmodellerne ved ikke alt. Og hvis der er et hul i deres viden, kan de finde på selv at udfylde det, fortæller Gry Hasselbalch.

”Hvis man fx skal generere en bibliografi eller finde noget fakta, har sprogmodellerne det af og til med at finde på ting. Du kan sidde og skulle lave en bibliografi baseret på et kildemateriale, og pludselig finder modellen selv på et årstal eller et nyt efternavn.”

”Jeg håber virkelig ikke, der er nogen forskere, der bruger ChatGPT til at skrive deres artikler, men jeg tror godt, at det for nogle kan være tillokkende, fordi de føler sig pressede til at publicere. Man skal publicere hurtigt og hele tiden,” siger hun.

En af de største udfordringer kommer fra modellernes kompleksitet og uigennemsigtighed, siger Rune Nyrup. Specielt med de store sprogmodeller er det meget svært at forudsige og forklare, hvordan de helt præcist vil opføre sig i forskellige situationer.

”Der var fx en advokat i USA, der fik en bøde for at have indsendt retsdokumenter, som citerede ikke-eksisterende domsafsigelser. Man kan gøre forskellige ting for at forhindre dette. Men pga. modellernes kompleksitet er det meget svært at vide sig sikker uden at tjekke efter manuelt,” lyder det.

Plagiering og ophavsret

Chatmodellerne træner sig selv på ophavsretsligt beskyttet materiale og læser med bag ved betalingsmure, siger Gry Hasselbalch.

”Jeg har bedt ChatGPT om at beskrive min akademiske skrivestil, og det ramte den ret præcist. Jeg spurgte derfor, hvordan den kunne vide det, for det meste af det, jeg har skrevet, er ophavsretsbeskyttet materiale. Den svarede, at det var fra offentligt tilgængelige kilder, fx når jeg holder taler. Men det kan man ikke vurdere et skriftligt sprog på.”

”Selv om virksomhederne bag modellerne påstår, at de ikke gemmer og genbruger ophavsretsbeskyttet materiale, er det blevet påvist flere gange, at modellerne næsten ordret gentager den type materiale, fx tekstbidder af kendte forfattere som Stephen King.”

På den måde kan man i princippet bede den om at plagiere hendes skrivestil, mener hun.

Men lige præcis dilemmaet om plagiering og ophavsret er fortsat uafklaret, og der hersker fortsat forskellige perspektiver.

Fx mener Jan Damgaard, at Gry Hasselsbalch i princippet har ret. Men sprogmodellerne er først og fremmest værktøjer, mener han. Værktøjer, der læser mønstre. De kan ikke læse og forstå tekst, og derfor er der ikke entydigt tale om brud på ophavsret eller plagiering.

”Den kopierer ikke teksten. Hvis du læser en god bog, kan du ikke gengive den ordret bagefter. Men du kan fortælle hovedpointerne fra bogen. Og det er nøjagtig det, sprogmodeller gør. De har læst bøgerne, men de kan ikke gengive dem.”

”Det svarer til, at den forfatter, der skrev den bog, du læste i biologi i skolen, hvor der står, at fugle lægger æg, skal honoreres, hver gang du siger, at fugle lægger æg. Du bruger det ikke direkte – du bruger bare som en del af den viden, du har,” siger han.

Kvalitet og kreativitet som forskere

Når en sprogmodel bliver trænet på eksisterende data, er det begrænset, hvor kreativ den kan være. Forskerens egen evne til at vende tingene på hovedet og gøre tingene anderledes har ført til historiens største paradigmeskifter, betoner Gry Hasselbalch.

”Albert Einstein fandt på relativitetsteorien, fordi han brød med det herskende newtonske årsag-effekt-verdensbillede. Og Einstein har selv sagt senere, at det gjorde han med sin videnskabelige kreativitet og intuition.”

Til det bruger fx ChatGPT en for rationel metode, hvor man putter noget information ind i en model, der så bliver behandlet, og så lærer den via noget data. Men den kan ikke gå ud over, hvad den har lært, siger hun.

”Så det kan blive et problem for forskningen på længere sigt, hvis vi bliver afhængige af sprogmodellerne. Det vil ændre selve innovationsmotoren i forskningen.”

Jan Damsgaard ærgrer sig over, at der er mange, der er bekymrede for at blive erstattet af AI. Sådan kan man nemlig ikke helt se på det, mener han.

”Man skal selvfølgelig ikke bede en sprogmodel om at skrive hovedargumentet i en artikel uden at have sig selv med. Men for mig erstatter AI ikke forskerne, AI forstærker forskerne – så de kan koncentrere sig om det, de er gode til,” siger han.

Faglig dovenskab og sorg

Et af de faremomenter, Jan Damsgaard kan få øje på, er det, han kalder faglig dovenskab. Den går ud på, at man glemmer sin kritiske sans og sunde fornuft og spørger sig selv, om det, man læser, nu også kan passe.

”Hidtil er vi gået så grueligt meget igennem, når vi har læst peer review. Man kan sidde på sin pind og læse i halvandet år, før man overhovedet kan udtale sig inden for et bestemt område. Når man nu kan skære en tredjedel af den tid, hvordan træner man så folk i at opretholde den kritiske sans?”

En anden udfordring er den faglige sorg. Med ny udvikling kommer et ”pushback” fra folk, der typisk er bange for at blive tilsidesat eller overflødiggjort, fortsætter han.

”Der vil være folk, der siger: ’Det er ikke godt. Det hallucinerer. Det er fuldt af fejl. Det kan vi ikke bruge.’ Det er folk, der står til at blive udfordret i kraft af de ting, de kan, som ikke længere bliver vil blive værdsat lige så meget.”

Pas på følsomme data

De store, kommercielle sprogmodeller egner sig ikke nødvendigvis til følsomme personoplysninger, pointerer Gry Hasselbalch.

”Du skal ikke bruge de større kommercielle modeller til arbejde med følsomt data, fordi du ikke kan garantere datasikkerheden. Derfor kan det blive et stort problem, hvis du pludselig begynder at dele interviews eller andet med personlige data. Det skal man også tænke over.”

Nyhedsbrevet Forskeren

Denne artikel er fra vores nyhedsbrev Forskeren, der skriver om forskeres arbejdsforhold og rolle i samfundet. Som medlem af Djøf kan du tilmelde dig Forskeren via Mit Djøf under Samtykke og kommunikation.

Kommentarer

Vær den første til at skrive en kommentar
Din mail-adresse vil ikke blive vist offentligt
Dette spørgsmål forhindrer spam i kommentarsporet