English version of this page

Vi trenger åpne norske språkmodeller

Det er stor enighet om at Norge må satse videre på åpne norske språkmodeller fremover. Dette kom frem på arrangementet «CuttingEdgeAI - NORA.LLM: Åpne norske språkmodeller som allemannseie".

Panelsamtale: (fra venstre) : Klas Pettersen (NORA), Sven Størmer Thaulow (Schibsted), Gunnar Bøe (Sigma2), Lilja Øvrelid (UiO), Åse Wetås (Språkrådet), Svein Arne Brygfjeld (Nasjonalbiblioteket).

Fredag 12. april 2024 samlet ledende eksperter på fagfeltet seg i et fullbooket Domus Bibliotheca, på Universitet i Oslo (UiO). Det var Språkteknologigruppa ved UiO og NORA – Norwegian Artificial Intelligence Research Consortium som stod bak arrangementet.

Klas Pettersen, CEO i NORA, ønsket alle velkommen og understreket viktigheten av møteplassen CuttingEdgeAI, hvor forskningsmiljøer, institusjoner, næringsliv, offentlig sektor, politiske miljøer og interesserte borgere kan samles.

Han snakket om at det er spennende tider i Norge med en KI-milliard til forskning, og planer om å etablere fire til seks KI-sentre i landet. Pettersen la vekt på samarbeidet med offentlig sektor og næringsliv for å maksimere disse mulighetene. Han fremhevet også en nyhet om at språkteknologigruppen ved Universitetet i Oslo hadde publisert tre nye norske språkmodeller.

Se opptaket av Klas Pettersen her:

Hvordan fungerer GPT-språkmaskineriet?

Professor og leder for Institutt for informatikk på UiO, Stephan Oepen, forklarte deltakerne hvordan GPT-språkmaskineriet fungerer og benyttet anledningen til å avmystifisere teknologien bak disse språkmodellene.

Oepen belyste utfordringene knyttet til "hallusinering" hvor modellene kan skape uriktige eller fiktive svar, noe som kan være problematisk i vitenskapelige og juridiske sammenhenger. Dette illustrerte han med eksempler på hvordan forskjellige språkmodeller, inkludert versjoner av ChatGPT, presterer variert i å gi nøyaktige og oppdaterte svar basert på språket de blir forespurt på.

Oepen diskuterte også viktigheten av treningsdata for å utvikle robuste språkmodeller og hvordan språkintuisjon spiller en rolle i utviklingen av disse modellene gjennom teknikker som self-supervised learning.

Videre forklarte han konsepter rundt nevrale nettverk og hvordan de brukes til å modellere språkdata, med fokus på hvordan informasjonen flyter gjennom nettverket og hvordan vekting av forbindelser påvirker modellens oppførsel og læringsprosess.

Han pekte også på at mens språkmodeller har blitt mer sofistikerte, er det fortsatt store begrensninger knyttet til deres evne til å forstå og generere menneskelig språk med full nøyaktighet, spesielt når det gjelder å generere pålitelige juridiske dokumenter eller komplekse vitenskapelige tekster uten manuell overvåkning og korrigering.

Se hele foredraget til Stephan Oepen her:

Lansering av nye store og åpne norske språkmodeller

Forskningsgruppen for språkteknologi ved UiO, Language Technology Group (LTG), presenterte arbeidet sitt med utvikling og lansering av nye store og åpne norske språkmodeller, som også er en pilot for det større NORA.LLM-prosjektet.

*Gruppeleder for Language Technology Group (LTG), professor Lilja Øvrelid.*

Tre nye norske språkmodeller er lansert, basert på de GPT-liknende arkitekturene BLOOM og Mistral, alle med «open source»-lisens.

De er utviklet av forskningsmiljø ved UiO i samarbeid med Sigma2 og Nasjonalbiblioteket.

Sammen med andre aktører i det nasjonale AI-nettverket NORA, planlegger partnerne en nasjonal infrastruktur for utvikling og bruk av store norske språkmodeller.

To av modellene er trent fra bunnen av på norsk.

*Førsteamanuensis Andrey Kutuzov fra LTG*

Den tredje tar utgangspunkt i en modell forhåndstrent for Engelsk av det franske selskapet Mistral AI, som så har blitt trent videre for norsk. Les mer om dette i Titan.uio.no, nyhetsavis for realfag og teknologi ved UiO.

Se presentasjonene til gruppeleder for LTG, professor Lilja Øvrelid, sammen med professor Erik Velldal, forsker David Samuel og førsteamanuensis Andrey Kutuzov her:

Digitale norske språkdata ved Nasjonalbiblioteket

Svein Arne Brygfjeld, leder for AI-lab ved Nasjonalbiblioteket, forklarte Nasjonalbibliotekets rolle inn mot kunstig intelligens og språkteknologi, og sa at biblioteket fungerer som en betydelig datakilde for trening av store språkmodeller.

Nasjonalbiblioteket har digitalisert omfattende samlinger, inkludert bøker og aviser, som er verdifulle for maskinlæring. Nasjonalbiblioteket ønsker å bruke sin digitale samling på en måte som respekterer opphavsrett, samtidig som det fremmer forskning og utvikling i språkteknologi, sa Brygfeldt.

Videre fremhevet Brygfeldt det pågående samarbeidet med Universitetet i Oslo og andre institusjoner for å trene språkmodeller, og sa de planlegger å gjøre deler av deres data tilgjengelig for offentligheten.

Se hele presentasjonen her:

Hvordan bruke norske språkmodeller i praksis? Erfaringer fra Schibsted

Simen Eide, leder for Schibsteds AI Enablement Program, forklarte hvordan Schibsted bruker og tilpasser store språkmodeller for å forbedre tjenestene sine innen media og annonsering. Schibsted har brukt modeller som BERT for å forbedre anbefalingssystemer på plattformer som Finn.no. De har også eksperimentert med mer avanserte språkmodeller for å generere oppsummeringer av nyhetsartikler og å svare på forbrukerspørsmål.

Eide viste hvordan de har eksperimentert med å trene modeller på egne data for å tilpasse til Schibsteds unike behov, som for eksempel å generere fengende overskrifter for VG. Resultatene viste at deres tilpassede modeller basert på NORA.LLM ofte ga bedre resultater enn de kommersielle modellene.

Han avsluttet med å si at det er viktig med videre samarbeid med norske forskningsmiljøer for å forbedre og tilpasse disse teknologiene ytterligere til norske forhold og utfordringer.

Se hele presentasjonen her:

LUMI: Lagrings- og beregningsinfrastruktur for storskala KI

Regnekraft er svært viktig når det gjelder store språkmodeller, og nettopp dette var tema på foredraget til Gunnar Bøe, direktør i Sigma2.

Sigma2 AS har ansvar for å tilby den nasjonale e-infrastrukturen for beregningsvitenskap i Norge og tilbyr tjenester innen høytytende databehandling (superdatamaskiner) og lagring av store datamengder for forsknings- og utdanningsformål.

Universitetene i Bergen, Oslo, Tromsø og NTNU samarbeider med Sigma2 om drift av de nasjonale tjenestene. Dette samarbeidet går under navnet NRIS (Norwegian research infrastructure services).

Bøe snakket om pågående og fremtidige investeringer i kraftige datamaskiner, inkludert en planlagt investering på 225 millioner kroner i det som forventes å bli Norges største superdatamaskin. Han beskrev også samarbeidet med de fire eldste universitetene i Norge gjennom NRIS (Norwegian Research Infrastructure Services).

Videre ble det diskutert hvordan internasjonale samarbeid og superdatamaskiner, som Lumi, spiller en nøkkelrolle i forskning og hvordan de store investeringene i disse ressursene bringer betydelige forbedringer i hastigheten på forskningsprosesser. Bøe pekte også på de høye kostnadene forbundet med drift av slike ressurser og behovet for tilstrekkelig finansiering.

Bøe sa det var viktig med internasjonalt samarbeid gjennom Lumi-konsortiet, som inkluderer 11 europeiske land, og hvordan slike samarbeid muliggjør tilgang til større og mer kraftfulle ressurser enn hva Norge kan oppnå alene. Framtiden så også lys ut med videre planer om å vurdere og utvide tungregneressurser i Norge i samarbeid med andre nordiske land, sa han.

Se hele presentasjonen her:

Panelsamtale: Samfunnsbehov og risikoer knyttet til store språkmodeller

Arrangementet ble avsluttet med en panelsamtale om samfunnsbehov og risikoer knyttet til store språkmodeller.

Følgende deltok i samtalen:

Moderator: Klas Pettersen

Panelister:

Svein Arne Brygfjeld, Nasjonalbiblioteket
Gunnar Bøe, Sigma2
Lilja Øvrelid, UiO
Sven Størmer Thaulow, Schibsted
Åse Wetås, Språkrådet

Se hele samtalen her:

Takk til alle som deltok på arrangementet!

Vi oppfordrer alle som er interessert i kunstig intelligens til å melde seg på NORAs årskonferanse 3-4. juni 2024. Gå til påmelding her. Påmeldingsfrist 15. mai 2024.

Publisert 17. apr. 2024 14:20 - Sist endret 18. apr. 2024 15:48