Hoppa till huvudinnehåll

Första modellerna presenteras i Svenska Språkdatalabbet

onsdag, december 18, 2019

Är Sverige en plats eller ett subjekt? I dialogen mellan människor är detta sällan något man funderar över, men när det kommer till utvecklingen av språkmodeller är det en av de större utmaningarna. Detta var något som var i fokus när Svenska Språkdatalabbet presenterade de första modellerna som utvecklats inom projektet.

Entitetstagging ett av de första områdena

Entitetstaggning, eller uppmärkning av ords tillhörighet, har varit ett av de första områden som Svenska språkdatalabbet valt att fokusera på.

Projektgruppen och de företag som ingår i referensgruppen fick ta del av presentationer av Språkbanken, RISE,  Recorded Future och Talkamatic kring det arbete som gjorts med att samla och värdera ord, begrepp och meningar med syfte att via modeller kunna analysera ordens betydelse i sin kontext. 

- Vi har valt att börja fokusera på datainsamling och entitetstaggning, eftersom denna basmodell kan användas för många ändamål för användare av datalabben.​ Modellerna kommer att vara tillgängliga att använda direkt eller anpassa efter specifika behov i organisationer, berättar Vanja Carlén, projektledare på AI Innovation of Sweden.

- Datan kommer från ett stort antal källor: sociala medier, internetforum och recensioner, liksom en stor mängd data från nyhetsrapporter. Modellen tränas alltså på ord och meningar som används i det vardagliga språket.
 


Under referensgruppsmötet presenterade projekt teamet hur de utvecklade modellerna för entitetstaggning kommer att fungera. 

Referensgruppen på plats berättade mer om hur  de arbetar med NLP idag och hur deras utmaningar ser ut, och vilka vinster deras verksamheter kan göra med ett färdigutvecklat svenskt språkbibliotek.

- Det är ett  mycket stort intresse för projektet och väldigt intressant att höra hur referensgruppen använder NLP idag och hur man ser att man kan ha nytta av de modeller och de dataset som har tagits fram i projektet, berättar Vanja vidare.

- Om vi ​​kan använda AI för att lyssna av möten och sammanställa mötesprotokoll, kan vi spara över 10 000 timmars arbete per år.

Behovet är såklart stort i samband med språktjänster som chattbotar, kundtjänst etc, men appliceringsområdena är betydligt fler.

- Om vi ​​kan använda AI för att lyssna av möten och sammanställa mötesprotokoll, kan vi spara över 10 000 timmars arbete per år, berättar Maria Hedwall från Astra Zeneca.

- Förutom tidsbesparingen, så kan vi också ta bort faktorn för mänsklig partiskhet, vilket kan leda till anteckningar som tas baseras på en individs prioriteringar.

Sentimentsanalys nästa avstamp

Språkdatalabbet går nu vidare till nästa delprojekt som då handlar om sentiment analys, vilket innebär att man försöker avgöra om en text uttrycker en åsikt eller värdering och om det är fallet, i så fall vilken. I första läget är det en analys av om det är en positiv eller negativ attityd till det som nämns i texten, men det går att fördjupa betydligt.

Vanja Carlén, projektledare på AI Innovation of Sweden sammanfattar;
- Det var väldigt roligt att få se de modeller som har tagits fram. De visar mycket goda resultat och vi ser stora användningsområden redan idag. Vi kommer nu att jobba vidare med dessa och inför nästa referensgruppsworkshop som vi har i vår så kommer vi se ännu mer utvecklade modeller.

- Nästa steg är nu att utveckla modellen ytterligare och förstå dialogperspektivet för att bredda det möjliga användningsområdet för modellen. Jag ser fram emot att ta del av mer appliceringar och sentimentanalysmodellen under nästa referensgrupp våren 2020 .

Läs mer om Svenska Språkdatalabbet

 

Svenska Språkdatalabbet är ett av de projekt som drivs av AI Innovation of Sweden. Projektet är delvis finansierat av Vinnova i samarbete med partners med expertis inom NLP, bland annat Recorded Future, Gavagai, Talkamatic, Språkbanken och SKL tillsammans med en referensgrupp bestående av behovsägare från olika branscher.