KB-labb: Infrastruktur för AI-utveckling med förhinder
16 jun 2023 • 8 min
Med Kungliga bibliotekets digitala material som källa ska KB-labb vara en nationell infrastruktur för datadriven forskning och AI-utveckling. Nås den ambitionen eller är Kungliga biblioteket för fegt när det handlar om upphovsrätt?
Lars Ilshammar, tidigare biträdande riksbibliotekarie med Kungliga biblioteket som arbetsplats, menar att KB-labb som startades 2019, är viktigt för att, som han säger det, det kan ge forskningen vad forskningen behöver, vill ha och ropar efter.
– Det handlar inte bara om digitalt material i form av påsiktsbilder och pdf:er. Framför allt handlar det om stora sammanlänkade datamängder för att skapa förutsättningar för så kallad datadriven forskning, säger Lars Ilshammar.
KB-labb håller till i Garnisonen, med samma bombastiska estetik som Radio- och TV-huset och Filminstitutet som ligger alldeles i närheten. Labbet beskrivs som en nationell infrastruktur med utgångspunkt i KB:s samlingar.
Love Börjeson tar emot i lokalerna på markplan, en blandning av högteknologi och äldre arkiv- och katalogiseringssystem. Han är enhetschef och jobbade tidigare på Stanford University, på ett labb där han inom sociologi-ämnet främst arbetade med textanalys. När de väntade sitt tredje barn, flyttade han och familjen hem till Sverige.
Han började jobba på sin gamla institution på Stockholms universitet och upptäckte att de inte var, som han uttrycker det nu, intresserade av data. I stället startade han ett labb i den ideella sektorn, på Hyresgästföreningen. Det gick bra tills det blev för mycket politisk styrning, säger han. Våren 2019 kom han till Kungliga biblioteket då KB insett vikten av digital humaniora och att forskare ville komma åt samlingarna i det som heter dataset, samlingar med strukturerad data som kan laddas ned och bearbetas.
Love Börjeson startade KB-labb och började med två forskningsprojekt.
– Underförstått var dealen: om ni kirrar det här så får ni vara kvar.
2021 uttryckte riksbibliotekarie Karin Grönvall i ett pressmeddelande att Kungliga biblioteket sett att KB-labb bidragit till samhällsnytta inom både offentlig och privat sektor. ”Det är därför naturligt att KB-labb nu övergår till permanent verksamhet”, förklarade hon. Nu är mellan 15 och 20 projekt igång på KB-labb.
– Dataset är bryggan mellan samlingarna och den kvantitativa forskningen. Det var den första uppgiften vi löste här, understryker Love Börjeson.
2018 släppte Google sin första större språkmodell och Love Börjeson och de andra på KB-labb insåg när de började att de hade bättre data och därmed chans att, som han säger det, slå Googles språkmodell. Efter ungefär ett halvår kom KB Labbs språkmodell ut och sedan dess är språkmodeller en av labbets huvudverksamheter.
– Vi går stenhårt efter KB:s instruktioner och redan i den första paragrafen står det att KB är en nationell infrastruktur och att KB ska stödja svensk forskningskvalitet och det demokratiska samhällets utveckling.
Labbets uppgift är att möjliggöra kvantitativ forskning på samlingarna av text, ljud, bild och video och att ta fram modeller baserade på samlingarna.
– Det är bara vi som kan göra det för den här datan får inte flytta på sig, säger Love Börjeson.
Jonas Ingvarsson är docent i litteraturkunskap, med inriktning mot medier och redaktionell praktik. Han håller till på Göteborgs universitet och bland annat leder han projektet Kritikens nya ordning: mixade metoder i studiet av svensk litteraturkritik under ett och ett halvt sekel.
– KB-labb vill tillgängliggöra så mycket som möjligt av den data som redan finns på KB. Jag trodde helt enkelt att de skulle kunna trycka på en knapp och sedan hade de access till allt. Så är det inte utan KB-labb är en rätt självständig enhet. De beställer fram material efter hand.
Personalen är hjälpsam, betonar Jonas Ingvarsson, men hans och kollegornas erfarenhet är att det emellanåt gått lite långsammare att få material på plats i labbet än de först föreställt sig.
– Ett annat problem som ställer till det för såväl KB-labb som för oss som vill utnyttja tjänsten är lagstiftningen, alltså upphovsrättslagen. Eller rättare sagt, det handlar om KB:s tolkning av lagstiftningen, som bidrar till att det är väldigt strikt access till det här materialet. Ingen data får föras in, ingen data får föras ut från KB-labb. Forskaren får göra sina laborationer på plats och endast ta med sig själva resultaten ut.
– Vi har, fortsätter Jonas Ingvarsson, med viss förvåning, konstaterat att KB inte verkar vilja förklara hur man faktiskt tillämpar den här lagen. Det känns extra underligt när vi fick mycket uppmuntran från KB inför vår ansökan, där vi skrev in KB som en aktör. De menade, vilket vi var mycket glada över, att just vår typ av projekt var betydelsefullt för att kunna få till stånd en förändring i KB:s möjligheter att tillgängliggöra data på ett öppnare sätt.
Jonas Ingvarsson påpekar att det dessutom tillkommer ytterligare en aktör som gör sin egen tolkning av lagen. Det handlar om organisationen Bonus Copyright Access, som förvaltar upphovsrätten till tidningsmaterialet.
Den första januari i år fick upphovsrättslagen ett nytt tillägg och Jonas Ingvarsson funderar på om det inte borde ge möjlighet till en större öppenhet från KB:s och Bonus sida. Men ingen förändring har skett.
Det Göteborgsbaserade projektet som är beroende av tidningsdata, startade 2019, ungefär samtidigt som KB-labb och under pandemin åkte de knappt alls upp till Stockholm och KB-labb. Redan före corona, påpekar Jonas Ingvarsson, fördes dock diskussioner om att öppna filialer för KB-labb. Bland annat var Göteborgs universitet påtänkt som en partner.
Enligt en rapport skrinlades planerna på grund av pandemin, men om så var fallet menar Jonas Ingvarsson, borde arbetet ha återupptagits nu. Kanske handlar det återigen om en ängslighet i förhållande till upphovsrättsfrågan.
– Men vad är det för forskarservice om datan bara finns på ett enda ställe i hela Sverige, undrar Jonas Ingvarsson.
Även Carl Heath håller till i Göteborg. Han är senior forskare och fokusledare för området digital resiliens i forskningsinstitutet Rise. Han betraktar KB-labb som en ”ganska unik resurs”, en verksamhet som i sin roll gentemot KB erbjuder tillgång till stora delar av det svenska kulturarvet. Han menar att AI-utvecklingen just nu gör att det för ett litet språkområde som svenskan, blir väldigt viktigt att forma en språkmodell som går att pröva och testa etiskt, säkerhetsmässigt och på andra sätt.
– Som det är i dag är KB väl skickat att bidra i utveckling av AI när det gäller perspektiv kopplade till det svenska språket. KB-labb är förankrat i en demokratisk institution, en myndighet som i slutändan lyder under folket. Det gör att vi som land kan bibehålla vår förmåga som kunskapssamhälle när vi också äger makten över gränssnitten, ytan mellan människan och maskinen, menar Carl Heath och fortsätter:
– Det är inte bara ett projekt på KB. En digital infrastruktur som KB-labb behöver ha ett tydligt uppdrag, ett regleringsbrev och en budget som motsvarar det värdeskapande som en sådan tjänst kan ha. Mig veterligen är det inte på plats, understryker han.
Carl Heath konstaterar att det är svårt att mäta framgången och att det gäller att regeringen förstår den enorma effektiviseringspotentialen som modellerna har för myndighetsutövning. Det handlar enligt honom om utvecklingen av en mycket bättre, digital relation till medborgarna från det offentliga.
– Om du till exempel kan tala med ett naturligt språk på alla svenska språk och minoritetsspråk, med alla myndigheter, i realtid. Vilket värdeskapande skulle inte det innebära? Eller om du skulle kunna transkribera varje möte i realtid, med hög precision och få ut protokoll och dagordning, säger Carl Heath.
Han anser också att KB självt inom ramen för sitt uppdrag kan välja att prioritera KB-labb ännu mer.
Tillbaka till Love Börjeson och det där med att stödja det demokratiska samhällets utveckling. Han menar att KB-labb har en viktig uppgift när det gäller AI.
– KB:s samlingar är omfattande och representerar alla sorters svenska: olika dialekter, sociolekter, genrer och innehåll. När KB-labb tränar AI-modeller på KB:s data lär sig modellerna därför att representera alla sorters svenska och det är en viktig poäng. Språkmodeller är en kulturell och samhällelig resurs. Det ska inte vara så att det inte går att använda KB-labbs modeller för en viss typ av brytning exempelvis. Ingen ska exkluderas, inget sätt att uttrycka sig på ska osynliggöras, säger Love Börjeson.
KB-labb släpper också sina modeller öppet vilket gör att de som använder modellerna kan göra det lokalt utan att behöva ladda upp potentiellt känslig data genom någon annans molntjänst. Genom att modellerna är helt öppna kan också vem som helst testa dem och vidareträna dem för olika ändamål eller språkliga variationer. KB:s grundverksamhet är att samla in, ordna upp, beskriva och tillgängliggöra samlingarna och där kan KB Labb bidra på främst ”tillgängliggörande-sidan”.
– Insamlingen blir viktigare och viktigare, hur den sker. Informationslandskapet är både fragmentiserat och monopoliserat av stora företag. Så förmågan att urskilja den riktiga källan, vad som är maskingenererat och mänskligt genererat, blir en del av det demokratiska samhällets stomme, anser Love Börjeson.
För honom handlar arbetet på KB-labb mycket om att säkerställa forskningsmiljön och att de jobbar enligt vetenskapliga principer. Han försöker också, genom diverse ansökningar, skaffa ”beräkningsresurser” till forskarna på labbet, samtidigt som de också arbetar mycket med forskningskoordinering.
I vintras skrev Svenska Dagbladets ledarskribent Per Gudmundson att KB försvårar svenska framsteg inom artificiell intelligens genom att inte göra all sin data från samlingarna tillgänglig. Love Börjeson välkomnar diskussionen och säger att KB och i förlängningen även KB-labb följer svensk lagstiftning. Om de inte gör det tappar de förtroendet från leverantörerna av material och då faller legitimiteten för insamlingsuppdraget.
– Minnesinstitutioner generellt, som KB och Riksarkivet, har lite av en oväntad renässans. Den verifierbara källan kommer att vara en nyckelresurs i en demokrati och där har vi minnesinstitutioner ett stort ansvar som ingen annan kan axla. Det handlar både om enskilda objekt och om AI-utveckling baserad på humanistiska data. Det går också att göra språkmodeller tillsammans med KB men det är lite mankemang för då måste man ta sig hit och ska det flyttas på data till någon superdator så är det alltid KB som måste göra det, förklarar Love Börjeson.
Han menar att KB inte sätter sig på tvären och att deras egna modeller är både högpresterande, öppna och helt transparenta.
Apropå språkmodeller säger han att de kan språk, inte verkligheten. Det är inga faktabaser.
– KB är en myndighet och har samlingar, men vi är inte samlingarna. Vi skulle inte kunna svara ”som Strindberg”. Däremot vill vi kunna ställa mer kvalificerade frågor till samlingarna, berättar Love Börjeson.
Det kan röra sig om frågor som: Vilka författare har blivit inspirerade av Klas Östergrens olika stilgrepp? Den frågan kan inte Chat GPT svara på utan då måste det finnas något slags textlikhetsmodell, något KB-labb har, enligt Love Börjeson.
Det skulle också kunna handla om frågor som: Hur har ämnen och sentiment i rapporteringen om Ukraina förändrats sedan krigets utbrott? Den typen av frågor till dataset, skulle bana vägen för många typer av forskning, menar Love Börjeson. I slutet av 2023 eller möjligen i början av 2024, kan KB-labb ha denna förmåga på plats.
Åter till Lars Ilshammar och Per Gudmundsons kritik mot KB och KB-labb
– Per Gudmundson såg inte de verkliga hindren som finns, som i första hand upphovsrätt men också dataskydd. Det förvånade mig lite grann att en företrädare för just Svenska Dagbladets ledarsida som brukar prata varmt om vikten av ägande, av att respektera äganderätt, upphovsrätt och integritet, plötsligt var helt ointresserad av sådana frågor. Han tyckte uppenbarligen att när det är KB:s material kan man lämna ut det helt fritt i hela världen, säger Lars Ilshammar.
Det finns i bibliotekariernas dna att när material samlas in så ska det materialet vara så fritt som möjligt, menar han. Men samtidigt går det inte att sätta sig över gällande lagstiftning.
– Då blir man Pirate Bay och det skulle inte befrämja KB på något sätt. Sedan kan man diskutera hur det borde vara. Borde upphovsrätten verkligen gälla 70 år tillbaka i tiden? Är det rimligt? Men nu är det så och då får man gilla läget tills vidare. Vad gäller KB-labb behöver det växa och det ganska snart, om verksamheten ska fortsätta att leva och utvecklas. På sikt behöver det också kopplas intimt ihop med övriga delar av KB, anser Lars Ilshammar och fortsätter:
– Det får inte bli en isolerad ö som sitter för sig själv och inte har något att göra med övrig verksamhet. Labbet måste också kunna erbjuda tjänster och funktionalitet inte bara till de forskare som kan datadriven forskning och som kanske är programmeringskunniga själva. I dag är det en ganska hög tröskel för att kunna tillämpa och använda labbets förmågor. Den tröskeln måste sänkas.
Lars Ilshammar menar också att politiken, inte minst utbildningsdepartementet, måste se nyttan av verksamheten och att det i förlängningen handlar om kulturarv som en demokratisk resurs.
– Men när det kommer till kritan får det inte kosta någonting, märkligt nog. Så är det inte i våra grannländer eller i många andra länder i Europa. Samtidigt som vi säger att vi ska vara bäst i världen på att ta vara på digitaliseringens möjligheter, säger Lars Ilshammar.
Senaste nytt
Därför har Biblioteksbladets coronagrupp bytt namn
Biblioteksbladet hade en stor men sedan länge avsomnad grupp på Facebook. Kunde vi stöpa om den för att få nya insikter om vad som rör sig i bibliotekssektorn? Vägen till ett svar på frågan blev kort och krokig – men nu hoppas jag att vi har hittat fram.
10 okt 2024 • 2 min
Ljudboken har tagit över
Ljudböcker säljer bäst, mer tid läggs på lyssning än på läsning, några av de mest framgångsrika författarna publiceras bara digitalt. Papprets dominans har brutits. Utom på biblioteken.
9 okt 2024 • 10 min
Förbjudna böcker uppmärksammas på norska – ”fantastiskt gensvar”
För första gången hakar hela Norge på Banned books week, men i norskt namn. Gensvaret har varit enormt, berättar initiativtagare på Oslo universitetsbibliotek.
8 okt 2024 • 3 min
Efter ett år av krig – ”Skrämmande tyst”
I våras kritiserade bibliotekarien Soledad Cartagena sina kollegor runtom i landet för passivitet om kriget mellan Israel och Hamas. Vad har hänt sedan dess?
7 okt 2024 • 3 min
Fokus på livet ska slå hål på fördomar
Med fokus på judiskt liv, i stället för på förintelse och död, vill resursbiblioteket för jiddisch öka förståelsen och minska fördomarna mot judar. Ett år efter Hamas attack på judar i Israel kämpar svenska judar mot eskalerande antisemitism.
7 okt 2024 • 3 min
Över 700 deltar i vecka mot bokförbud
Bröderna Lejonhjärta, Hungerspelen och The handmaid's tale. Det är bara några av alla böcker som har förbjudits i något sammanhang. I veckan riktas särskilt fokus på alla förbjudna böcker.
4 okt 2024 • < 1 min
Efter Stärkta bibliotek: ”Utmaning att bibehålla framstegen”
Det statliga stödet Stärkta bibliotek var framgångsrikt, konstaterar Kulturrådet. Nu kvarstår en utmaning i att bibehålla och vidareutveckla de framsteg som blev möjliga tack vare stödet.
3 okt 2024 • < 1 min
V och C efterlyser skarpare lagstiftning om skolbibliotek
Både Vänsterpartiet och Centerpartiet vill se skarpare skrivningar i nya lagen om vilka skolor som kan undantas från kravet på att ha bemannat skolbibliotek.
2 okt 2024 • < 1 min
Internet Archive fällt för pandemibibliotek
Efter ett utslag i domstol reducerar just nu Internet Archive mängden tillgängliga böcker. I ett uttalande skriver arkivets grundare Brewster Kahle att han respekterar domstolen men står fast vid målet att göra skapa nätåtkomst till all kunskap.
2 okt 2024 • 2 min
Hon tar kampen mot bokförbuden
Situationen för bibliotekarier hårdnar på många håll i USA. I ett besök på Bokmässan berättade Tricina Strong-Beebe, skolbibliotekarie i New Jersey, om trakasserierna. Men också om det bästa vapnet mot förbudsivrarna.
1 okt 2024 • 3 min
Äldre äldre i digitalt utanförskap
Hur mår svenskarna på internet år 2024? Både bra och dåligt, visar Internetstiftelsens årliga rapport. Gladast är Facebook-användare i pensionsåldern, medan 00-talisterna lever utsatt på sociala medier och de allra äldsta behöver stort digitalt stöd.
30 sep 2024 • 3 min
Ny bok om samisk kultur till hjälp för bibliotekarier
Med kortfattad och konkret information vill Hanna Schimmer ge folkbiblioteken enkla verktyg för att förbättra sin verksamhet gentemot den samiska befolkningen med nysläppta boken Nya stigar. ”Ingen ska kunna säga att de inte har tid att läsa.”
27 sep 2024 • 2 min
0 kommentarer