Hoppa till huvudinnehåll

NLP-projekt ska förbättra språkförståelsen i svenska AI applikationer

måndag, juni 10, 2019

En välutvecklad grund för NLP - Natural Language Processing - är en av hörnstenarna i många framgångsrika AI applikationer. AI Innovation of Sweden startar nu ett projekt, Svenskt Språkdatalabb, för att skapa en omfattande NLP-datamängd för svenska språket.

För att tolka det mänskliga språket krävs mer än ett stort ordförråd

NLP - Natural Language Processing - ger förutsättningar för att tolka och analysera det mänskliga språket, med dess underliggande betydelser och erfarenhetsbaserade slutsatser som människan naturligt har med sig när de läser eller lyssnar på en text.

Genom matematik och algoritmer kan datorer bearbeta språk automatiskt, men förutom den rena ordförståelsen krävs också t.ex. sentimentanalys för att förstå en text. Sentimentanalys innebär att försöka förstå den känsla eller de åsikter som en text innehåller och kan handla om och uppfatta om texten indikerar någons åsikt eller sinnesstämning.

För att kunna lära upp datorerna i detta och därigenom skapa en språkintelligent AI- motor är en grundförutsättning tillgången till omfattande annoterade datamängder, vilket innebär att det finns en stor mängd data att träna modeller på.

Svenskt Språkdatalabb ska bli en nationell NLP-resurs

I och med att svenskan är ett språk som inte talas av så stor befolkning, så har det inte funnits ett tillräckligt intresse från de internationella aktörerna att bygga datamängder, och de som eventuellt finns är ofta inte licensierade på ett sätt som främjar användning, speciellt inte i kommersiella sammanhang.

AI innovation of Sweden kommer nu att starta upp arbetet med att skapa en infrastruktur för svenska datamängder där annoterade datamängder och färdigtränade modeller tillgängliggörs.

Målet med Svenskt Språkdatalabb är att skapa en nationell kunskapsnod inom språkteknologi, och ta fram svenska referensdatamängder för NLP som sedan tillgängliggörs med öppen access i AI Innovation of Swedens datafabrik.

Förutom vanliga ordlistor och inkludering av existerande svenska datamängder så kommer rådata att samlas in från ett stort antal källor, bland annat nyhetstexter, sociala media, internetforum och recensioner från olika områden.

Projektet kommer förutom annoterad data också att resultera i ett antal färdigtränade modeller för bland annat entitetstaggning och sentimentanalys för att möjliggöra vidare forskning och innovation.

Projektet Svenskt Språkdatabas delfinansieras från Vinnova och kommer att drivas av AI Innovation of Sweden i samarbete med partners med spetskompetens inom NLP; Recorded Future, GavagaiTalkamaticSpråkbanken och SKL samt en referensgrupp bestående av en stor bredd behovsägare inom olika områden.

Vanja Carlén, projektledare på AI Innovation of Sweden, kommer ansvara för att driva projektet.

Varför vill ni utveckla detta projektet inom AI Innovation of Sweden?
- Den nya teknologin ställer höga krav på modeller som både förstår och kan generera naturligt språk och vi kommer allt oftare i kontakt med Natural Language Processing utan att vara medvetna om det. Tillgången på modeller och öppen data för det svenska språket kommer underlätta för utvecklingen av svenska språkapplikationer för näringsliv, akademi och inom den offentliga sektorn - vi vill inte hamna på efterkälken!

Vilka tror du kommer bli de stora användarna av Svenskt Spåkdatalabb?
- Intresset för projektet har varit mycket stort och vi ser behovsägare inom allt från akademi till näringsliv och offentlig sektor. Många tillämpningar kräver stora mängder svensk träningsdata och vi ser just nu ett stort intresse för förtränade modeller, men också översättningstillämpningar till exempel. Vi ser också ett intresse för att vidareutveckla datamängden för tillämpningar inom specifika domäner, exempelvis juridik och medicin.

Vad tror du är det svåraste i den språkliga delen av AI, vad är och kommer vara de största utmaningarna? 
- Svenska är ett litet språk och globala aktörer har sällan intresse av att ta fram annoterade datamängder för svenska. Utvecklingen av modeller anpassade för det svenska språket blir allt viktigare och mängden öppen svensk data är begränsad. Det krävs stora mängder data för utvecklingen av NLP-modeller och en begränsande faktor är att textmängder kan vara upphovsrättsskyddade eller innehålla persondata och därmed ej kan delas. I detta projekt tar vi också fram bakgrundstränade modeller som ska hantera just detta - vi ska tillgängliggöra modeller tränade på känslig data, utan att dela grunddatan. Tillgängliggörandet av svensk text och modeller kommer att bidra till att bibehålla den språkliga mångfalden och främja innovation inom NLP-området i Sverige, något som kommer en lång rad aktörer till nytta.

Du är sedan en tid tillbaka projektledare vid AI Innovation of Sweden, i vilka uppdrag kommer man att möta dig?
- Förutom att vara aktiv i Svenskt Språkdatalabb, så kommer jag bland annat vara projektledare för en satsning på Nationellt Rymddatalabb tillsammans med Rymdstyrelsen, RISE och Luleå Universitet.