Fra Saarbrücken til Silicon Valley

Stephan Oepen forsker på språkteknologi. Alt fra Google Translate, Apples Siri og Amazons Alexa bygger på denne teknologien. I en verden som stadig blir mindre og mer digitalisert, blir datamaskinenes evne til å forstå og gjøre noe meningsfylt med menneskespråket stadig viktigere – og det er fortsatt en lang vei å gå.

Foto: Gunhild M. Haugnes/UiO

Språk er kraftfullt

Språk kan både forene og splitte, trøste og såre, informere og desinformere. Ledere har kommet til makten og blitt mektigere på grunn av språk. Hvem kan glemme Kennedys «Ich bin ein Berliner», Martin Luther Jrs. «I have a dream» eller Niel Armstrongs «A small step for man, a giant leap for mankind». Alt dette er ord – språk – som er en del av historien.   

Det er liten tvil om at en som behersker et språk og har god grammatisk og kommunikativ kompetanse, har bedre forutsetninger for å lykkes enn en person som ikke behersker alle sider ved språket like godt. Således kan man kanskje driste seg til å si at Professor Stephan Oepen, og hans kollegaer som forsker på språkteknologi, bidrar til å jevne ut forskjeller på bakgrunn av språk. 

Fra Saarbrücken til Silicon Valley

Professor Oepen har en bred og spennende bakgrunn. Han er professor innenfor maskinlæring ved Institutt for informatikk (IFI) ved Universitetet i Oslo (UiO). Han er også med i forskergruppen Language Technology Group (LTG). Han har studert både lingvistikk (språkvitenskap) og informatikk i hjemlandet Tyskland. Før UiO jobbet han ved det tyske forskningsinstituttet for kunstig intelligens (DFKI) og Saarland-universitetet i Tyskland. Han har også et opphold på fem år i USA hvor han jobbet ved Stanford-universitetet og var med på å bygge opp et oppstartsselskap på begynnelsen av 2000-tallet. Etter startup opplevelsen gikk han tilbake til Stanford og så UiO, og har siden hatt fokus på grunnforskning. 

Dagens teknologi har mangler

Språkteknologi har omgitt oss i lang tid, men mange vil nok bli overrasket over hvor umoden denne teknologien egentlig er. Microsoft lanserte autokorrektur i Word allerede med 6.0 versjonen i 1993. Google Translate ble lansert i 2006. Dette var viktige, men små steg, hvis man sammenligner med teknologivisjonen som Oepen og hans kollegaer jobber med.

Språkteknologi er blitt veldig teknologiorientert. Det begynte etter 2. verdenskrig. Da var det mer kognisjonsvitenskaplig interesse. Nå er det mer teknologiutvikling som står i fokus. Innenfor dette feltet jobber man i dag nærmest utelukkende med maskinlæring, sier professor Stephan Oepen.

For tiden jobber UiOs forskningsgruppe i språkteknologi mye med bl.a. sentimentanalyse. Her er formålet å fange opp hvordan folk vurderer ting. Det kan f.eks. være en anmeldelse som publiseres av et produkt eller tjeneste, eller noe folk deler i kommentarfeltet. 

En betydelig andel av informasjonen som ligger på internett består av språk. Da tenker jeg ikke på dataspråk, men lingvistikk. Dette er noe en datamaskin i utgangspunktet ikke kan forstå. Det vi jobber med er å sette datamaskin i stand til å tolke språket og gjøre noe meningsfylt med det, sier Oepen. 

Dagens oversettelsesteknologi har lite lingvistikk kunnskap, det vil si at de har lite kunnskap om språk. Teknologien baserer seg gjerne på ren maskinlæring og holder seg til oppgaver som til syvende og sist ikke krever språkforståelse. Dette medfører at oversettelse fungerer bra, men man kan nødvendigvis ikke stole på det. 

Teknologien som Oepen jobber med skal fange opp betydningen i språket, og dermed sikre bedre resultat. Formålet med teknologien er å vurdere bl.a. setningsstruktur, som igjen vil sette teknologien i stand til å velge en formell, logisk representasjon av setningens betydning. Dette skal i utgangspunktet gi mer presisjon, men teknologien blir da gjerne mindre robust. Google Translate på den andre siden er veldig robust, men er mindre pålitelig, ifølge Oepen.

Regnekraften har økt

Det finnes i dag en god del modeller for det engelske språket, men ikke for norsk eller andre mindre språk. Google har laget en tverspråklig modell for alt som ikke er engelsk. Mange forskere i flere land jobber med å utvikle modeller for egne språk. Utfordringen er at maskinlæringsmodeller vil gjenspeile det de er trent på. Det betyr at man må samle inn og velge riktig treningstekst, kombinert med regnekraft. 

Tjenester som Google Translate er muliggjort på grunn av dyp læring. Det er en versjon av maskinlæring, med dype nevrale nettverk. Dette har egentlig vært kjent i mange år, men ble nesten avskrevet i en periode. Dette har nå fått sitt inntog på grunn av større tilgang på både data og regnekraft, sier Oepen.

Overgangen til nevrale nett begynte for alvor for 10 år siden. Da Google Translate ble lansert i 2006 var det basert på statistisk maskinlæring, noe som innebar at oversettelsen var basert på sannsynligheter. I 2016 gikk Google translate over til en nevral variant, noe som hevet kvaliteten på oversettelsene betraktelig.

Regnekraften har økt betraktelig den siste tiden med såkalte Graphical Processing Units (GPUer). Dyp læring er i bunnen anvendt lineær algebra og passer bra med GPU-arkitektur, men dette fordrer at man har tilgang på GPUer for å trene slike modeller.

I 2019 lanserte Google BERT[1], som kanskje er den største forbedringen Google har gjort på hvordan de forstår språklig innhold de siste fem årene. BERT skal bedre forstå meningen bak søket ditt slik at man får et mer relevant søkeresultat, samtidig vil innholdet på nettsiden bli bedre forstått. BERT er en spesiell språkmodell som er trent på enkeltspråk. BERT er en nevral modell som i seg selv ikke kan oversette. Ved å lære å predikere hvilket ord som kommer, fanger modellen også opp noe grammatikk. 

I disse dager jobber vi med å utvikle en norsk språkmodell som BERT som vil bidra til bedre språkteknologi for norsk. Noen ganger er man overrasket over hvor bra nevrale nettverk fungerer, men vi har kun en begrenset forståelse for hvordan de fungerer, sier Oepen.

Nasjonal infrastruktur er viktig

Oepen fremhever viktigheten av tilgang på nasjonal lagrings- og beregningsinfrastruktur, et område der Norge har sterke tradisjoner. UiOs språkteknologigruppe gikk over til den nasjonale tungregningsinfrastrukturen allerede for 14 år siden, og de har ikke angret. 

Vi har en god del internasjonale suksesshistorier som forskningsgruppe blant annet fordi man hadde tilgang til gode og skalerbare regneressurser, sier Oepen stolt.

Språkteknologigruppen brukte i lang tid CPUer, men nå er det i minst like stor grad GPU-tilgang som gjelder. GPU-kapasiteten økte betraktelig i fjor høst da superdatamaskinen Saga ble introdusert. Samtidig fremhever Oepen Finland som et foregangsland, med 20 ganger større GPU-kapasitet enn Saga. 

I tillegg til den nasjonale e-infrastrukturen, peker Oepen på internasjonalt samarbeid med felles beregningsinfrastruktur som viktig for framgang i forskningen knyttet til kunstig intelligens og maskinlæring. I denne sammenhengen er LUMI-samarbeidet, som Norge, Finland, Sverige, Danmark, Belgia, Tsjekkia, Polen, Estland og Sveits har gått sammen om, av sentral betydning. LUMI er en GPU-tung superdatamaskinen som skal stå klar i 2021 i Finland, og norske forskere vil ha tilgang til infrastrukturen.

- Uninett Sigma2 som administrerer den nasjonale infrastrukturen for beregningsvitenskap i Norge, og tilbyr tjenester innen tungregning og datalagring, er i gang med å oppmuntre forskningsmiljøer til overgang fra CPU til GPU. Koden og programvaren må være klar for overgangen. Vår kode er i stor grad allerede tilpasset dette, sier Oepen.

Oepen er samtidig klar på at det fortsatt vil være behov for lokal og nasjonal infrastruktur selv når LUMI-samarbeidet er operativ. Norske forskere vil ha behov for en flertrinnsmodell, og nasjonal infrastruktur vil spille en viktig rolle i dette.

- De ulike forskingsmiljøene har behov for å koordinere seg. Språkteknologimiljøet bruker superdatamaskinen Saga samt en lignende nasjonal maskin i Finland. Noen forskningsmiljøer har per nå mer lokale løsninger, noe som kan begrense hva studentene kan få til og reduserer deres muligheter i å få opplæring i storskala infrastrukturløsninger. Dette bør innarbeides allerede i mastergradfasen, og burde være mer uniformt i både utdanning og forskning og i størst mulig grad på tvers av forskningsdisipliner, avslutter Oepen.

 

[1] Bidirectional Encoder Representations from Transformers

 

Av Anam Javaid
Publisert 29. mai 2020 09:03 - Sist endret 26. aug. 2020 19:32