KB-labb: Infrastruktur för AI-utveckling med förhinder

16 jun 2023 • 8 min

Med Kungliga bibliotekets digitala material som källa ska KB-labb vara en nationell infrastruktur för datadriven forskning och AI-utveckling. Nås den ambitionen eller är Kungliga biblioteket för fegt när det handlar om upphovsrätt?

Lars Ilshammar, tidigare biträdande riksbibliotekarie med Kungliga biblioteket som arbetsplats, menar att KB-labb som startades 2019, är viktigt för att, som han säger det, det kan ge forskningen vad forskningen behöver, vill ha och ropar efter.

– Det handlar inte bara om digitalt material i form av påsiktsbilder och pdf:er. Framför allt handlar det om stora sammanlänkade datamängder för att skapa förutsättningar för så kallad datadriven forskning, säger Lars Ilshammar.

KB-labb håller till i Garnisonen, med samma bombastiska estetik som Radio- och TV-huset och Filminstitutet som ligger alldeles i närheten. Labbet beskrivs som en nationell infrastruktur med utgångspunkt i KB:s samlingar.

Lars Ilshammar.

Love Börjeson tar emot i lokalerna på markplan, en blandning av högteknologi och äldre arkiv- och katalogiseringssystem. Han är enhetschef och jobbade tidigare på Stanford University, på ett labb där han inom sociologi-ämnet främst arbetade med textanalys. När de väntade sitt tredje barn, flyttade han och familjen hem till Sverige.

Han började jobba på sin gamla institution på Stockholms universitet och upptäckte att de inte var, som han uttrycker det nu, intresserade av data. I stället startade han ett labb i den ideella sektorn, på Hyresgästföreningen. Det gick bra tills det blev för mycket politisk styrning, säger han. Våren 2019 kom han till Kungliga biblioteket då KB insett vikten av digital humaniora och att forskare ville komma åt samlingarna i det som heter dataset, samlingar med strukturerad data som kan laddas ned och bearbetas.

Love Börjeson startade KB-labb och började med två forskningsprojekt.

– Underförstått var dealen: om ni kirrar det här så får ni vara kvar.

2021 uttryckte riksbibliotekarie Karin Grönvall i ett pressmeddelande att Kungliga biblioteket sett att KB-labb bidragit till samhällsnytta inom både offentlig och privat sektor. ”Det är därför naturligt att KB-labb nu övergår till permanent verksamhet”, förklarade hon. Nu är mellan 15 och 20 projekt igång på KB-labb.

– Dataset är bryggan mellan samlingarna och den kvantitativa forskningen. Det var den första uppgiften vi löste här, understryker Love Börjeson.

2018 släppte Google sin första större språkmodell och Love Börjeson och de andra på KB-labb insåg när de började att de hade bättre data och därmed chans att, som han säger det, slå Googles språkmodell. Efter ungefär ett halvår kom KB Labbs språkmodell ut och sedan dess är språkmodeller en av labbets huvudverksamheter.

– Vi går stenhårt efter KB:s instruktioner och redan i den första paragrafen står det att KB är en nationell infrastruktur och att KB ska stödja svensk forskningskvalitet och det demokratiska samhällets utveckling.

Labbets uppgift är att möjliggöra kvantitativ forskning på samlingarna av text, ljud, bild och video och att ta fram modeller baserade på samlingarna.

– Det är bara vi som kan göra det för den här datan får inte flytta på sig, säger Love Börjeson.

Love Börjeson.

Jonas Ingvarsson är docent i litteraturkunskap, med inriktning mot medier och redaktionell praktik. Han håller till på Göteborgs universitet och bland annat leder han projektet Kritikens nya ordning: mixade metoder i studiet av svensk litteraturkritik under ett och ett halvt sekel.

– KB-labb vill tillgängliggöra så mycket som möjligt av den data som redan finns på KB. Jag trodde helt enkelt att de skulle kunna trycka på en knapp och sedan hade de access till allt. Så är det inte utan KB-labb är en rätt självständig enhet. De beställer fram material efter hand.

Personalen är hjälpsam, betonar Jonas Ingvarsson, men hans och kollegornas erfarenhet är att det emellanåt gått lite långsammare att få material på plats i labbet än de först föreställt sig.

– Ett annat problem som ställer till det för såväl KB-labb som för oss som vill utnyttja tjänsten är lagstiftningen, alltså upphovsrättslagen. Eller rättare sagt, det handlar om KB:s tolkning av lagstiftningen, som bidrar till att det är väldigt strikt access till det här materialet. Ingen data får föras in, ingen data får föras ut från KB-labb. Forskaren får göra sina laborationer på plats och endast ta med sig själva resultaten ut.

– Vi har, fortsätter Jonas Ingvarsson, med viss förvåning, konstaterat att KB inte verkar vilja förklara hur man faktiskt tillämpar den här lagen. Det känns extra underligt när vi fick mycket uppmuntran från KB inför vår ansökan, där vi skrev in KB som en aktör. De menade, vilket vi var mycket glada över, att just vår typ av projekt var betydelsefullt för att kunna få till stånd en förändring i KB:s möjligheter att tillgängliggöra data på ett öppnare sätt.

Jonas Ingvarsson påpekar att det dessutom tillkommer ytterligare en aktör som gör sin egen tolkning av lagen. Det handlar om organisationen Bonus Copyright Access, som förvaltar upphovsrätten till tidningsmaterialet.

Den första januari i år fick upphovsrättslagen ett nytt tillägg och Jonas Ingvarsson funderar på om det inte borde ge möjlighet till en större öppenhet från KB:s och Bonus sida. Men ingen förändring har skett.

Jonas Ingvarsson.

Det Göteborgsbaserade projektet som är beroende av tidningsdata, startade 2019, ungefär samtidigt som KB-labb och under pandemin åkte de knappt alls upp till Stockholm och KB-labb. Redan före corona, påpekar Jonas Ingvarsson, fördes dock diskussioner om att öppna filialer för KB-labb. Bland annat var Göteborgs universitet påtänkt som en partner.

Enligt en rapport skrinlades planerna på grund av pandemin, men om så var fallet menar Jonas Ingvarsson, borde arbetet ha återupptagits nu. Kanske handlar det återigen om en ängslighet i förhållande till upphovsrättsfrågan.

– Men vad är det för forskarservice om datan bara finns på ett enda ställe i hela Sverige, undrar Jonas Ingvarsson.

Även Carl Heath håller till i Göteborg. Han är senior forskare och fokusledare för området digital resiliens i forskningsinstitutet Rise. Han betraktar KB-labb som en ”ganska unik resurs”, en verksamhet som i sin roll gentemot KB erbjuder tillgång till stora delar av det svenska kulturarvet. Han menar att AI-utvecklingen just nu gör att det för ett litet språkområde som svenskan, blir väldigt viktigt att forma en språkmodell som går att pröva och testa etiskt, säkerhetsmässigt och på andra sätt.

– Som det är i dag är KB väl skickat att bidra i utveckling av AI när det gäller perspektiv kopplade till det svenska språket. KB-labb är förankrat i en demokratisk institution, en myndighet som i slutändan lyder under folket. Det gör att vi som land kan bibehålla vår förmåga som kunskapssamhälle när vi också äger makten över gränssnitten, ytan mellan människan och maskinen, menar Carl Heath och fortsätter:

– Det är inte bara ett projekt på KB. En digital infrastruktur som KB-labb behöver ha ett tydligt uppdrag, ett regleringsbrev och en budget som motsvarar det värdeskapande som en sådan tjänst kan ha. Mig veterligen är det inte på plats, understryker han.

Carl Heath konstaterar att det är svårt att mäta framgången och att det gäller att regeringen förstår den enorma effektiviseringspotentialen som modellerna har för myndighetsutövning. Det handlar enligt honom om utvecklingen av en mycket bättre, digital relation till medborgarna från det offentliga.

– Om du till exempel kan tala med ett naturligt språk på alla svenska språk och minoritetsspråk, med alla myndigheter, i realtid. Vilket värdeskapande skulle inte det innebära? Eller om du skulle kunna transkribera varje möte i realtid, med hög precision och få ut protokoll och dagordning, säger Carl Heath.

Han anser också att KB självt inom ramen för sitt uppdrag kan välja att prioritera KB-labb ännu mer.

Carl Heath. Foto: Regeringskansliet

Tillbaka till Love Börjeson och det där med att stödja det demokratiska samhällets utveckling. Han menar att KB-labb har en viktig uppgift när det gäller AI.

– KB:s samlingar är omfattande och representerar alla sorters svenska: olika dialekter, sociolekter, genrer och innehåll. När KB-labb tränar AI-modeller på KB:s data lär sig modellerna därför att representera alla sorters svenska och det är en viktig poäng. Språkmodeller är en kulturell och samhällelig resurs. Det ska inte vara så att det inte går att använda KB-labbs modeller för en viss typ av brytning exempelvis. Ingen ska exkluderas, inget sätt att uttrycka sig på ska osynliggöras, säger Love Börjeson.

KB-labb släpper också sina modeller öppet vilket gör att de som använder modellerna kan göra det lokalt utan att behöva ladda upp potentiellt känslig data genom någon annans molntjänst. Genom att modellerna är helt öppna kan också vem som helst testa dem och vidareträna dem för olika ändamål eller språkliga variationer. KB:s grundverksamhet är att samla in, ordna upp, beskriva och tillgängliggöra samlingarna och där kan KB Labb bidra på främst ”tillgängliggörande-sidan”.

– Insamlingen blir viktigare och viktigare, hur den sker. Informationslandskapet är både fragmentiserat och monopoliserat av stora företag. Så förmågan att urskilja den riktiga källan, vad som är maskingenererat och mänskligt genererat, blir en del av det demokratiska samhällets stomme, anser Love Börjeson.

För honom handlar arbetet på KB-labb mycket om att säkerställa forskningsmiljön och att de jobbar enligt vetenskapliga principer. Han försöker också, genom diverse ansökningar, skaffa ”beräkningsresurser” till forskarna på labbet, samtidigt som de också arbetar mycket med forskningskoordinering.

I vintras skrev Svenska Dagbladets ledarskribent Per Gudmundson att KB försvårar svenska framsteg inom artificiell intelligens genom att inte göra all sin data från samlingarna tillgänglig. Love Börjeson välkomnar diskussionen och säger att KB och i förlängningen även KB-labb följer svensk lagstiftning. Om de inte gör det tappar de förtroendet från leverantörerna av material och då faller legitimiteten för insamlingsuppdraget.

– Minnesinstitutioner generellt, som KB och Riksarkivet, har lite av en oväntad renässans. Den verifierbara källan kommer att vara en nyckelresurs i en demokrati och där har vi minnesinstitutioner ett stort ansvar som ingen annan kan axla. Det handlar både om enskilda objekt och om AI-utveckling baserad på humanistiska data. Det går också att göra språkmodeller tillsammans med KB men det är lite mankemang för då måste man ta sig hit och ska det flyttas på data till någon superdator så är det alltid KB som måste göra det, förklarar Love Börjeson.

Han menar att KB inte sätter sig på tvären och att deras egna modeller är både högpresterande, öppna och helt transparenta.

Apropå språkmodeller säger han att de kan språk, inte verkligheten. Det är inga faktabaser.

– KB är en myndighet och har samlingar, men vi är inte samlingarna. Vi skulle inte kunna svara ”som Strindberg”. Däremot vill vi kunna ställa mer kvalificerade frågor till samlingarna, berättar Love Börjeson.

Det kan röra sig om frågor som: Vilka författare har blivit inspirerade av Klas Östergrens olika stilgrepp? Den frågan kan inte Chat GPT svara på utan då måste det finnas något slags textlikhetsmodell, något KB-labb har, enligt Love Börjeson.

Det skulle också kunna handla om frågor som: Hur har ämnen och sentiment i rapporteringen om Ukraina förändrats sedan krigets utbrott? Den typen av frågor till dataset, skulle bana vägen för många typer av forskning, menar Love Börjeson. I slutet av 2023 eller möjligen i början av 2024, kan KB-labb ha denna förmåga på plats.

Åter till Lars Ilshammar och Per Gudmundsons kritik mot KB och KB-labb

– Per Gudmundson såg inte de verkliga hindren som finns, som i första hand upphovsrätt men också dataskydd. Det förvånade mig lite grann att en företrädare för just Svenska Dagbladets ledarsida som brukar prata varmt om vikten av ägande, av att respektera äganderätt, upphovsrätt och integritet, plötsligt var helt ointresserad av sådana frågor. Han tyckte uppenbarligen att när det är KB:s material kan man lämna ut det helt fritt i hela världen, säger Lars Ilshammar.

Det finns i bibliotekariernas dna att när material samlas in så ska det materialet vara så fritt som möjligt, menar han. Men samtidigt går det inte att sätta sig över gällande lagstiftning.

– Då blir man Pirate Bay och det skulle inte befrämja KB på något sätt. Sedan kan man diskutera hur det borde vara. Borde upphovsrätten verkligen gälla 70 år tillbaka i tiden? Är det rimligt? Men nu är det så och då får man gilla läget tills vidare. Vad gäller KB-labb behöver det växa och det ganska snart, om verksamheten ska fortsätta att leva och utvecklas. På sikt behöver det också kopplas intimt ihop med övriga delar av KB, anser Lars Ilshammar och fortsätter:

– Det får inte bli en isolerad ö som sitter för sig själv och inte har något att göra med övrig verksamhet. Labbet måste också kunna erbjuda tjänster och funktionalitet inte bara till de forskare som kan datadriven forskning och som kanske är programmeringskunniga själva. I dag är det en ganska hög tröskel för att kunna tillämpa och använda labbets förmågor. Den tröskeln måste sänkas.

Lars Ilshammar menar också att politiken, inte minst utbildningsdepartementet, måste se nyttan av verksamheten och att det i förlängningen handlar om kulturarv som en demokratisk resurs.

– Men när det kommer till kritan får det inte kosta någonting, märkligt nog. Så är det inte i våra grannländer eller i många andra länder i Europa. Samtidigt som vi säger att vi ska vara bäst i världen på att ta vara på digitaliseringens möjligheter, säger Lars Ilshammar.

0 kommentarer

Senaste nytt

Internationellt

Möter attacker med öppna dörrar

Enda sättet att möta antidemokratiska attacker som har drabbat bibliotek i Berlin är att göra precis tvärtom: öppna dörrarna för samtal om demokrati. Det säger Boryano Rickum, bibliotekschef i Tempelhof-Schöneberg, ett av biblioteken som har råkat ut för högerextrema attacker där böcker förstörs.

22 feb 2024 • 2 min

Internationellt

Högerextrem våg mot tyska bibliotek

Kritiska granskningar av högerextrema grupper och den gröna politikern Annalena Baerbocks självbiografi finns bland de böcker som har förstörts. Ett bibliotek i Berlin möter problemet genom att bjuda in författare förstörda böcker för att de ska få diskutera sina idéer.

15 feb 2024 • 2 min

Essä

Grattis på 60-årsdagen!

AI har funnits längre än många av oss har levt, ändå är det först nu som teknologin väcker upphetsad debatt. I stället för att bli skrämda borde vi se de grå vardagsnyttorna, skriver Lars Ilshammar.

14 feb 2024 • 7 min

Nyheter

"Vi är inga gränspoliser"

Göteborg är en av flera kommuner som har markerat mot förslaget om anmälningsplikt. Det har tagits väl emot bland personalen på biblioteken. ”Det känns skönt att vi står eniga”, säger Kristian Schultz, bibliotekarie i Göteborg.

13 feb 2024 • 2 min