Forska på fulltexter – en bit på väg, och en bit kvar

7 jan 2025 • 5 min

Doktoranden Camilla Lindelöw trodde att forskare redan arbetade mycket med text- och datautvinning, TDM, från upphovsrättsskyddat material och att det fanns processer för det. Men så är det inte. ”Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen.”

Camilla Lindelöw, doktorand i Borås.

Camilla Lindelöw, doktorand, Högskolan i Borås

Med uppdateringarna i upphovsrättslagen 2023 har forskare goda teoretiska möjligheter att arbeta med så kallad TDM (Text and Data Mining, eller text- och datautvinning på svenska). I praktiken är det betydligt svårare. Som nybliven doktorand vid Högskolan i Borås ville jag textanalysera artiklar från tre vetenskapliga tidskrifter. Trots lagändringarna visade det sig svårt att få fram artiklarna. Jag blev överraskad av hur omständligt det var, och att det var svårast med den enda helt öppet tillgängliga tidskriften. Lärosätesbiblioteken förhandlar regelbundet med de vetenskapliga förlagen om licensavtal för böcker och tidskrifter, numer också med de förlag som erbjuder öppet tillgängliga publikationer. Eftersom TDM nu är en laglig rätt för forskare är det dags att börja utforma krav för att göra TDM praktiskt genomförbart i avtalsförhandlingarna.

I mitt doktorandarbete studerar jag vetenskaplig kommunikation, bibliometri och metadata. Jag är särskilt intresserad av metadata för vetenskapliga publikationer, en typ av metadata som ofta används i bibliometriska studier. Som en del i mitt arbete kartlägger jag vilka datakällor som används i dessa studier. Studierna jag gått igenom har publicerats i tre bibliometriska tidskrifter. Eftersom det rör sig om nästan 10 000 artiklar ville jag identifiera datakällorna maskinellt. Det har tidigare gjorts med dataset och mjukvara och såg ut att vara en möjlig metod. På en doktorandskola på CWTS i Leiden träffade jag också en forskare som var intresserad av metodutveckling för detta, och vi bestämde oss för att arbeta ihop.

Innan jag blev doktorand arbetade jag som handläggare på Kungliga biblioteket (KB), under den tid som DSM-direktivet skulle införas i Sverige. DSM-direktivet är ett EU-direktiv, det ligger till grund för ändringarna i upphovsrättslagen. 2019 utgick direktivet från EU, och 2023 började lagändringarna gälla för Sverige. Eftersom vi på KB arbetade med regeringsuppdrag för öppen vetenskap var detta av intresse. Direktivet blev främst känt genom de debatter om så kallad länkskatt och de digitala plattformarnas ansvar för det som publiceras hos dem. Intressanta debatter i sig, men i den här texten vill jag diskutera de nya inskränkningar i upphovsrätten som gjordes för text- och datautvinning (artikel 3 och 4). Direktivet ledde till att den svenska upphovsrättslagens kapitel 2 uppdaterades till att text- och datautvinning får utföras av den som har lovlig tillgång till verken. Lovlig tillgång för en forskare betyder ofta tillgång via lärosätesbiblioteket. Den nya lagen ger mig alltså rätt att analysera de dokument jag har tillgång till via lärosätenas prenumerationer på vetenskapliga tidskrifter (och böcker). När lärosätena tecknar prenumerationer med de vetenskapliga förlagen skriver de avtal, och de avtalen hänvisar nu till EU-direktivet och den nya svenska upphovsrättslagen för vad prenumeranterna tillåts göra.

Så långt teorin – forskare (och andra) har rätt att analysera text och annan data maskinellt. Nu till praktiken – de knappt 10 000 artiklar jag är intresserad av kan laddas ned via förlagens webbplatser, som vi har tillgång till via högskolebiblioteket. Jag vill gärna undvika att ladda ned dem för hand, och det kan lösas genom att förlagen genom prenumerationerna ger tillgång till sina API:er – en väg att maskinellt ladda ned data. En alternativ väg till dessa två är att kontakta förlagen och be dem om artiklarna. Det finns två orsaker till varför jag inte väljer den sista vägen; jag vill kunna göra om processen enkelt om jag upptäcker att jag vill ändra något i mitt urval och jag vill veta vad det är jag filtrerar fram. Ett skript gör detta möjligt.

Förväntan om redan skrivna skript

När jag påbörjade det här arbetet var jag övertygad om att det här redan var något som gjordes regelbundet, det hade talats om TDM många år innan lagändringen trädde i kraft. Det gjorde att jag förväntade mig att hitta redan skrivna skript som jag kunde återanvända. Jag hittade också ett flera år gammalt skript hos ROpenScience som möjliggjorde att ladda ned data från olika förlag via Crossref på ett standardiserat sätt. ROpenSci är en organisation som underlättar öppen vetenskap genom att utveckla öppet tillgängliga skript – en betydlig hjälp att inte behöva börja från början varje gång. Crossref är en förlagsgemensam organisation som bland annat samlar in och tillgängliggör förlagens metadata för publikationer. Tyvärr visade det sig inte vara fullt så enkelt som jag hade trott. Varken skriptet eller Crossrefs lösning fungerade, Crossref beskrev att få förlag hade anammat den här lösningen. Skriptet var beroende av en tredjepartslösning för att hantera autentisering som visar att jag har rätt att ladda ned materialet, och detta underhölls inte längre. Alltså kunde jag inte göra en samlad insamling.

Återstod att samla artiklar per tidskrift. En ny överraskning var att den tidskrift som var öppet tillgänglig visade sig vara den som det absolut inte gick att ladda ned maskinellt ifrån. Trots att alla artiklarna har en Creative Commons-licens som även tillåter TDM tillgängliggörs tidskriften via en plattform som inte verkar ha ett API (jag skickades runt på förlaget utan att få ett svar på om det fanns). Plattformen hade också en strikt policy när det kom till skrapning (hämta data direkt från webbsidorna). Så mycket för Creative Commons-licenser på de enskilda artiklarna. Till slut laddade vi ned dessa 300 artiklar för hand och var glada att det var den tidskrift med minst antal artiklar.

De andra två tidskrifterna fanns på förlag som hade API:er, inte bara ett utan flera. Här hade Crossrefs lösning kommit väl till pass, istället fick jag läsa igenom två uppsättningar API-dokumentation. För båda förlagen behövde jag ansöka om API-nyckel för att kunna använda API:et. När det ändå inte fungerade med de API-nycklar jag fick kontaktade jag förlagen. Hos det ena behövde API-nyckeln aktiveras för fulltextåtkomst vilket gjordes efter en del mailkonversation, och extra API-dokumentation jag fick via mail. Det andra API:et fick jag inte att fungera alls. Efter kommunikation med det förlaget visade det sig att de satsat på hängslen och livrem; utöver att ha API-nyckeln var jag också tvungen att sitta på det IP-intervall som tillhörde högskolan. VPN fungerade inte. Jag arbetar till stor del på distans och upplever att mycket idag är anpassat till ett sådant arbete, men uppenbarligen inte det här.

Blandade format

Fulltexter kan komma i många format. Det vanligaste är pdf, mer eller mindre läsvänligt för såväl människor som maskiner. För maskinläsning är xml att föredra, och för vetenskapliga artiklar påbörjades utvecklingen av JATS, Journal Article Tag Suite, redan 2002. Det är ett försök att standardisera xml för vetenskapliga artiklar. JATS blev uppmärksammat när Coalition S (en sammanslutning av europeiska forskningsfinansiärer som arbetar för öppen vetenskap) lanserade sina riktlinjer för öppen tillgång och la in JATS, vilket fick mindre förlag att opponera sig mot för högt ställda tekniska krav. Vad jag erfarit verkar inte heller de större förlagen ha anammat JATS. Från det första större förlaget kunde jag ladda ned pdf:er, vilket förmodligen delvis berodde på att tidskriften har funnits i tiotals år och de tidigare numren inte omvandlats till xml. Från det andra förlaget fick jag tillgång till en förlagsspecifik xml. Så är det att vara en stor spelare, det går att sätta egna standarder. Blandningen av pdf:er och xml:er innebar ett tidskrävande extrasteg i vårt arbete då vi behövde omvandla båda till en gemensam lösning för att kunna påbörja arbetet med att leta datakällor. Hur det gick är en annan historia.

Sammanfattningsvis är jag alltså överraskad över hur pass komplicerat detta var. Jag hade fått för mig att forskare redan i stor utsträckning arbetade praktiskt med TDM och att arbetsprocesser fanns utarbetade. Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen. Till exempel skulle det underlätta betydligt om Crossrefs lösning kunde väckas till liv igen. Då skulle vi inte behöva skriva ett skript per förlag. För de helt öppet tillgängliga förlagen behöver det säkerställas att de ger möjlighet att utnyttja de generösa CC-licenser som vi betalar för att få på plats.

Forska på fulltexter – en bit på väg, och en bit kvar

Camilla Lindelöw, doktorand, Högskolan i Borås

Förväntan om redan skrivna skript

Blandade format

Camilla Lindelöw, doktorand, Högskolan i Borås

Vad tycker du? Avbryt svar

BIBLIOTEKSBLADETS POLICY FÖR KOMMENTARER

Nyhetsbrev

NYHET

Högtryck och lågtryck på Bibliotekshögskolan

Senaste debatten