Forska på fulltexter – en bit på väg, och en bit kvar

7 jan 2025 • 5 min

Doktoranden Camilla Lindelöw trodde att forskare redan arbetade mycket med text- och datautvinning, TDM, från upphovsrättsskyddat material och att det fanns processer för det. Men så är det inte. ”Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen.”

Med uppdateringarna i upphovsrättslagen 2023 har forskare goda teoretiska möjligheter att arbeta med så kallad TDM (Text and Data Mining, eller text- och datautvinning på svenska). I praktiken är det betydligt svårare. Som nybliven doktorand vid Högskolan i Borås ville jag textanalysera artiklar från tre vetenskapliga tidskrifter. Trots lagändringarna visade det sig svårt att få fram artiklarna. Jag blev överraskad av hur omständligt det var, och att det var svårast med den enda helt öppet tillgängliga tidskriften. Lärosätesbiblioteken förhandlar regelbundet med de vetenskapliga förlagen om licensavtal för böcker och tidskrifter, numer också med de förlag som erbjuder öppet tillgängliga publikationer. Eftersom TDM nu är en laglig rätt för forskare är det dags att börja utforma krav för att göra TDM praktiskt genomförbart i avtalsförhandlingarna.

I mitt doktorandarbete studerar jag vetenskaplig kommunikation, bibliometri och metadata. Jag är särskilt intresserad av metadata för vetenskapliga publikationer, en typ av metadata som ofta används i bibliometriska studier. Som en del i mitt arbete kartlägger jag vilka datakällor som används i dessa studier. Studierna jag gått igenom har publicerats i tre bibliometriska tidskrifter. Eftersom det rör sig om nästan 10 000 artiklar ville jag identifiera datakällorna maskinellt. Det har tidigare gjorts med dataset och mjukvara och såg ut att vara en möjlig metod. På en doktorandskola på CWTS i Leiden träffade jag också en forskare som var intresserad av metodutveckling för detta, och vi bestämde oss för att arbeta ihop.

Innan jag blev doktorand arbetade jag som handläggare på Kungliga biblioteket (KB), under den tid som DSM-direktivet skulle införas i Sverige. DSM-direktivet är ett EU-direktiv, det ligger till grund för ändringarna i upphovsrättslagen. 2019 utgick direktivet från EU, och 2023 började lagändringarna gälla för Sverige. Eftersom vi på KB arbetade med regeringsuppdrag för öppen vetenskap var detta av intresse. Direktivet blev främst känt genom de debatter om så kallad länkskatt och de digitala plattformarnas ansvar för det som publiceras hos dem. Intressanta debatter i sig, men i den här texten vill jag diskutera de nya inskränkningar i upphovsrätten som gjordes för text- och datautvinning (artikel 3 och 4). Direktivet ledde till att den svenska upphovsrättslagens kapitel 2 uppdaterades till att text- och datautvinning får utföras av den som har lovlig tillgång till verken. Lovlig tillgång för en forskare betyder ofta tillgång via lärosätesbiblioteket. Den nya lagen ger mig alltså rätt att analysera de dokument jag har tillgång till via lärosätenas prenumerationer på vetenskapliga tidskrifter (och böcker). När lärosätena tecknar prenumerationer med de vetenskapliga förlagen skriver de avtal, och de avtalen hänvisar nu till EU-direktivet och den nya svenska upphovsrättslagen för vad prenumeranterna tillåts göra.

Så långt teorin – forskare (och andra) har rätt att analysera text och annan data maskinellt. Nu till praktiken – de knappt 10 000 artiklar jag är intresserad av kan laddas ned via förlagens webbplatser, som vi har tillgång till via högskolebiblioteket. Jag vill gärna undvika att ladda ned dem för hand, och det kan lösas genom att förlagen genom prenumerationerna ger tillgång till sina API:er – en väg att maskinellt ladda ned data. En alternativ väg till dessa två är att kontakta förlagen och be dem om artiklarna. Det finns två orsaker till varför jag inte väljer den sista vägen; jag vill kunna göra om processen enkelt om jag upptäcker att jag vill ändra något i mitt urval och jag vill veta vad det är jag filtrerar fram. Ett skript gör detta möjligt.

Förväntan om redan skrivna skript

När jag påbörjade det här arbetet var jag övertygad om att det här redan var något som gjordes regelbundet, det hade talats om TDM många år innan lagändringen trädde i kraft. Det gjorde att jag förväntade mig att hitta redan skrivna skript som jag kunde återanvända. Jag hittade också ett flera år gammalt skript hos ROpenScience som möjliggjorde att ladda ned data från olika förlag via Crossref på ett standardiserat sätt. ROpenSci är en organisation som underlättar öppen vetenskap genom att utveckla öppet tillgängliga skript – en betydlig hjälp att inte behöva börja från början varje gång. Crossref är en förlagsgemensam organisation som bland annat samlar in och tillgängliggör förlagens metadata för publikationer. Tyvärr visade det sig inte vara fullt så enkelt som jag hade trott. Varken skriptet eller Crossrefs lösning fungerade, Crossref beskrev att få förlag hade anammat den här lösningen. Skriptet var beroende av en tredjepartslösning för att hantera autentisering som visar att jag har rätt att ladda ned materialet, och detta underhölls inte längre. Alltså kunde jag inte göra en samlad insamling.

Återstod att samla artiklar per tidskrift. En ny överraskning var att den tidskrift som var öppet tillgänglig visade sig vara den som det absolut inte gick att ladda ned maskinellt ifrån. Trots att alla artiklarna har en Creative Commons-licens som även tillåter TDM tillgängliggörs tidskriften via en plattform som inte verkar ha ett API (jag skickades runt på förlaget utan att få ett svar på om det fanns). Plattformen hade också en strikt policy när det kom till skrapning (hämta data direkt från webbsidorna). Så mycket för Creative Commons-licenser på de enskilda artiklarna. Till slut laddade vi ned dessa 300 artiklar för hand och var glada att det var den tidskrift med minst antal artiklar.

De andra två tidskrifterna fanns på förlag som hade API:er, inte bara ett utan flera. Här hade Crossrefs lösning kommit väl till pass, istället fick jag läsa igenom två uppsättningar API-dokumentation. För båda förlagen behövde jag ansöka om API-nyckel för att kunna använda API:et. När det ändå inte fungerade med de API-nycklar jag fick kontaktade jag förlagen. Hos det ena behövde API-nyckeln aktiveras för fulltextåtkomst vilket gjordes efter en del mailkonversation, och extra API-dokumentation jag fick via mail. Det andra API:et fick jag inte att fungera alls. Efter kommunikation med det förlaget visade det sig att de satsat på hängslen och livrem; utöver att ha API-nyckeln var jag också tvungen att sitta på det IP-intervall som tillhörde högskolan. VPN fungerade inte. Jag arbetar till stor del på distans och upplever att mycket idag är anpassat till ett sådant arbete, men uppenbarligen inte det här.

Blandade format

Fulltexter kan komma i många format. Det vanligaste är pdf, mer eller mindre läsvänligt för såväl människor som maskiner. För maskinläsning är xml att föredra, och för vetenskapliga artiklar påbörjades utvecklingen av JATS, Journal Article Tag Suite, redan 2002. Det är ett försök att standardisera xml för vetenskapliga artiklar. JATS blev uppmärksammat när Coalition S (en sammanslutning av europeiska forskningsfinansiärer som arbetar för öppen vetenskap) lanserade sina riktlinjer för öppen tillgång och la in JATS, vilket fick mindre förlag att opponera sig mot för högt ställda tekniska krav. Vad jag erfarit verkar inte heller de större förlagen ha anammat JATS. Från det första större förlaget kunde jag ladda ned pdf:er, vilket förmodligen delvis berodde på att tidskriften har funnits i tiotals år och de tidigare numren inte omvandlats till xml. Från det andra förlaget fick jag tillgång till en förlagsspecifik xml. Så är det att vara en stor spelare, det går att sätta egna standarder. Blandningen av pdf:er och xml:er innebar ett tidskrävande extrasteg i vårt arbete då vi behövde omvandla båda till en gemensam lösning för att kunna påbörja arbetet med att leta datakällor. Hur det gick är en annan historia.

Sammanfattningsvis är jag alltså överraskad över hur pass komplicerat detta var. Jag hade fått för mig att forskare redan i stor utsträckning arbetade praktiskt med TDM och att arbetsprocesser fanns utarbetade. Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen. Till exempel skulle det underlätta betydligt om Crossrefs lösning kunde väckas till liv igen. Då skulle vi inte behöva skriva ett skript per förlag. För de helt öppet tillgängliga förlagen behöver det säkerställas att de ger möjlighet att utnyttja de generösa CC-licenser som vi betalar för att få på plats.

0 kommentarer

Vad tycker du?

BIBLIOTEKSBLADETS POLICY FÖR KOMMENTARER

Som gäst på Biblioteksbladets webbplats är du välkommen att kommentera och diskutera. Vi förväntar oss att tonen i kommentarerna är respektfull och att de håller sig till ämnet.

Vi raderar kommentarer som innehåller grovt språk, rasism, sexism, trakasserier, personliga påhopp, förtal, skvaller och lögner liksom ogrundade spekulationer om enskilda eller särskilda folkgrupper, samt kommentarer som inte håller sig till ämnet. Detsamma gäller länkar till ovanstående. Den som gör ett inlägg som strider mot gällande lagar kan personligen bli ansvarig för detta.

Vill du komma i kontakt med redaktionen direkt går det också bra att e-posta till redaktion@biblioteksbladet.se.


Senaste nytt

Debatt

Debatt: Läromedelsförfattarnas analys brister

Begagnatmarknaden bär inte skulden för krisen för svensk kurslitteratur. Läromedelsförlagen måste erbjuda en bra betallösning för e-böcker, skriver Lars Iselid, forskningsbibliotekarie, i ett svar på Per Kornhalls förslag som han kallar för konstgjord andning.

24 jan 2025 • 3 min

Nyheter

Bibliotekspersonal filmades – upplevdes som obehagligt

På två bibliotek i Stockholm senaste veckan har personalen filmats av personer som också har ställt frågor. Båda incidenterna har anmälts och upplevts som obehagliga av personalen. ”Vi ser över våra riktlinjer”, säger stadsbibliotekarie Daniel Forsman.

23 jan 2025 • 2 min

Digitalisering

Unik studenthistoria digitaliserad

Vilka var 1700-talets studenter på V-Dala nation i Uppsala? Det och andra historiska uppgifter om studenterna universitetet finns nu att hitta för alla i digitaliserad form. ”Otroligt fascinerande material.”

23 jan 2025 • 3 min

Internationellt

Dansk encyklopedi ratar Meta

Den danska motsvarigheten till Nationalencyklopedin, Lex, upphör med annonsering i sociala medier. Valet att i stället gynna traditionella medier beskrivs som en investering i demokrati och ett upplyst samhälle.

13 jan 2025 • 2 min

Kommentar

SvD:s ledarsida klipper och klistrar

I maj 2015 väckte skribenten Paulina Neuding debatt om hot och stök på bibliotek. I en ny artikel framställer hon problemen som bestående – men har behövt gräva djupt för att hitta sina bästa exempel.

11 jan 2025 • 3 min