Forska på fulltexter – en bit på väg, och en bit kvar
7 jan 2025 • 5 min
Doktoranden Camilla Lindelöw trodde att forskare redan arbetade mycket med text- och datautvinning, TDM, från upphovsrättsskyddat material och att det fanns processer för det. Men så är det inte. ”Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen.”
Camilla Lindelöw, doktorand i Borås.
Med uppdateringarna i upphovsrättslagen 2023 har forskare goda teoretiska möjligheter att arbeta med så kallad TDM (Text and Data Mining, eller text- och datautvinning på svenska). I praktiken är det betydligt svårare. Som nybliven doktorand vid Högskolan i Borås ville jag textanalysera artiklar från tre vetenskapliga tidskrifter. Trots lagändringarna visade det sig svårt att få fram artiklarna. Jag blev överraskad av hur omständligt det var, och att det var svårast med den enda helt öppet tillgängliga tidskriften. Lärosätesbiblioteken förhandlar regelbundet med de vetenskapliga förlagen om licensavtal för böcker och tidskrifter, numer också med de förlag som erbjuder öppet tillgängliga publikationer. Eftersom TDM nu är en laglig rätt för forskare är det dags att börja utforma krav för att göra TDM praktiskt genomförbart i avtalsförhandlingarna.
I mitt doktorandarbete studerar jag vetenskaplig kommunikation, bibliometri och metadata. Jag är särskilt intresserad av metadata för vetenskapliga publikationer, en typ av metadata som ofta används i bibliometriska studier. Som en del i mitt arbete kartlägger jag vilka datakällor som används i dessa studier. Studierna jag gått igenom har publicerats i tre bibliometriska tidskrifter. Eftersom det rör sig om nästan 10 000 artiklar ville jag identifiera datakällorna maskinellt. Det har tidigare gjorts med dataset och mjukvara och såg ut att vara en möjlig metod. På en doktorandskola på CWTS i Leiden träffade jag också en forskare som var intresserad av metodutveckling för detta, och vi bestämde oss för att arbeta ihop.
Innan jag blev doktorand arbetade jag som handläggare på Kungliga biblioteket (KB), under den tid som DSM-direktivet skulle införas i Sverige. DSM-direktivet är ett EU-direktiv, det ligger till grund för ändringarna i upphovsrättslagen. 2019 utgick direktivet från EU, och 2023 började lagändringarna gälla för Sverige. Eftersom vi på KB arbetade med regeringsuppdrag för öppen vetenskap var detta av intresse. Direktivet blev främst känt genom de debatter om så kallad länkskatt och de digitala plattformarnas ansvar för det som publiceras hos dem. Intressanta debatter i sig, men i den här texten vill jag diskutera de nya inskränkningar i upphovsrätten som gjordes för text- och datautvinning (artikel 3 och 4). Direktivet ledde till att den svenska upphovsrättslagens kapitel 2 uppdaterades till att text- och datautvinning får utföras av den som har lovlig tillgång till verken. Lovlig tillgång för en forskare betyder ofta tillgång via lärosätesbiblioteket. Den nya lagen ger mig alltså rätt att analysera de dokument jag har tillgång till via lärosätenas prenumerationer på vetenskapliga tidskrifter (och böcker). När lärosätena tecknar prenumerationer med de vetenskapliga förlagen skriver de avtal, och de avtalen hänvisar nu till EU-direktivet och den nya svenska upphovsrättslagen för vad prenumeranterna tillåts göra.
Så långt teorin – forskare (och andra) har rätt att analysera text och annan data maskinellt. Nu till praktiken – de knappt 10 000 artiklar jag är intresserad av kan laddas ned via förlagens webbplatser, som vi har tillgång till via högskolebiblioteket. Jag vill gärna undvika att ladda ned dem för hand, och det kan lösas genom att förlagen genom prenumerationerna ger tillgång till sina API:er – en väg att maskinellt ladda ned data. En alternativ väg till dessa två är att kontakta förlagen och be dem om artiklarna. Det finns två orsaker till varför jag inte väljer den sista vägen; jag vill kunna göra om processen enkelt om jag upptäcker att jag vill ändra något i mitt urval och jag vill veta vad det är jag filtrerar fram. Ett skript gör detta möjligt.
Förväntan om redan skrivna skript
När jag påbörjade det här arbetet var jag övertygad om att det här redan var något som gjordes regelbundet, det hade talats om TDM många år innan lagändringen trädde i kraft. Det gjorde att jag förväntade mig att hitta redan skrivna skript som jag kunde återanvända. Jag hittade också ett flera år gammalt skript hos ROpenScience som möjliggjorde att ladda ned data från olika förlag via Crossref på ett standardiserat sätt. ROpenSci är en organisation som underlättar öppen vetenskap genom att utveckla öppet tillgängliga skript – en betydlig hjälp att inte behöva börja från början varje gång. Crossref är en förlagsgemensam organisation som bland annat samlar in och tillgängliggör förlagens metadata för publikationer. Tyvärr visade det sig inte vara fullt så enkelt som jag hade trott. Varken skriptet eller Crossrefs lösning fungerade, Crossref beskrev att få förlag hade anammat den här lösningen. Skriptet var beroende av en tredjepartslösning för att hantera autentisering som visar att jag har rätt att ladda ned materialet, och detta underhölls inte längre. Alltså kunde jag inte göra en samlad insamling.
Återstod att samla artiklar per tidskrift. En ny överraskning var att den tidskrift som var öppet tillgänglig visade sig vara den som det absolut inte gick att ladda ned maskinellt ifrån. Trots att alla artiklarna har en Creative Commons-licens som även tillåter TDM tillgängliggörs tidskriften via en plattform som inte verkar ha ett API (jag skickades runt på förlaget utan att få ett svar på om det fanns). Plattformen hade också en strikt policy när det kom till skrapning (hämta data direkt från webbsidorna). Så mycket för Creative Commons-licenser på de enskilda artiklarna. Till slut laddade vi ned dessa 300 artiklar för hand och var glada att det var den tidskrift med minst antal artiklar.
De andra två tidskrifterna fanns på förlag som hade API:er, inte bara ett utan flera. Här hade Crossrefs lösning kommit väl till pass, istället fick jag läsa igenom två uppsättningar API-dokumentation. För båda förlagen behövde jag ansöka om API-nyckel för att kunna använda API:et. När det ändå inte fungerade med de API-nycklar jag fick kontaktade jag förlagen. Hos det ena behövde API-nyckeln aktiveras för fulltextåtkomst vilket gjordes efter en del mailkonversation, och extra API-dokumentation jag fick via mail. Det andra API:et fick jag inte att fungera alls. Efter kommunikation med det förlaget visade det sig att de satsat på hängslen och livrem; utöver att ha API-nyckeln var jag också tvungen att sitta på det IP-intervall som tillhörde högskolan. VPN fungerade inte. Jag arbetar till stor del på distans och upplever att mycket idag är anpassat till ett sådant arbete, men uppenbarligen inte det här.
Blandade format
Fulltexter kan komma i många format. Det vanligaste är pdf, mer eller mindre läsvänligt för såväl människor som maskiner. För maskinläsning är xml att föredra, och för vetenskapliga artiklar påbörjades utvecklingen av JATS, Journal Article Tag Suite, redan 2002. Det är ett försök att standardisera xml för vetenskapliga artiklar. JATS blev uppmärksammat när Coalition S (en sammanslutning av europeiska forskningsfinansiärer som arbetar för öppen vetenskap) lanserade sina riktlinjer för öppen tillgång och la in JATS, vilket fick mindre förlag att opponera sig mot för högt ställda tekniska krav. Vad jag erfarit verkar inte heller de större förlagen ha anammat JATS. Från det första större förlaget kunde jag ladda ned pdf:er, vilket förmodligen delvis berodde på att tidskriften har funnits i tiotals år och de tidigare numren inte omvandlats till xml. Från det andra förlaget fick jag tillgång till en förlagsspecifik xml. Så är det att vara en stor spelare, det går att sätta egna standarder. Blandningen av pdf:er och xml:er innebar ett tidskrävande extrasteg i vårt arbete då vi behövde omvandla båda till en gemensam lösning för att kunna påbörja arbetet med att leta datakällor. Hur det gick är en annan historia.
Sammanfattningsvis är jag alltså överraskad över hur pass komplicerat detta var. Jag hade fått för mig att forskare redan i stor utsträckning arbetade praktiskt med TDM och att arbetsprocesser fanns utarbetade. Jag skulle önska att lärosätesbiblioteken uppmärksammade detta i sina förhandlingar genom krav på förlagen. Till exempel skulle det underlätta betydligt om Crossrefs lösning kunde väckas till liv igen. Då skulle vi inte behöva skriva ett skript per förlag. För de helt öppet tillgängliga förlagen behöver det säkerställas att de ger möjlighet att utnyttja de generösa CC-licenser som vi betalar för att få på plats.
Senaste nytt
Debatt: Läromedelsförfattarnas analys brister
Begagnatmarknaden bär inte skulden för krisen för svensk kurslitteratur. Läromedelsförlagen måste erbjuda en bra betallösning för e-böcker, skriver Lars Iselid, forskningsbibliotekarie, i ett svar på Per Kornhalls förslag som han kallar för konstgjord andning.
24 jan 2025 • 3 min
Bibliotekspersonal filmades – upplevdes som obehagligt
På två bibliotek i Stockholm senaste veckan har personalen filmats av personer som också har ställt frågor. Båda incidenterna har anmälts och upplevts som obehagliga av personalen. ”Vi ser över våra riktlinjer”, säger stadsbibliotekarie Daniel Forsman.
23 jan 2025 • 2 min
Unik studenthistoria digitaliserad
Vilka var 1700-talets studenter på V-Dala nation i Uppsala? Det och andra historiska uppgifter om studenterna universitetet finns nu att hitta för alla i digitaliserad form. ”Otroligt fascinerande material.”
23 jan 2025 • 3 min
KB:s insamling av medier fortsatt viktig – även under krig
Kungliga biblioteket begärde 46 extra miljoner för att göra nationalbiblioteket redo i fall av krig. Men det blev inga extrapengar från regeringen och KB måste göra omprioriteringar för att göra nödvändiga förberedelser.
22 jan 2025 • < 1 min
Metoder från skolan dämpade stöket
Biblioteket i Broby hade problem med stökiga ungdomar. Nya grepp och ett nytt bemötande har gjort situationen bättre. "Bara genom att säga välkommen så skapar du någonting."
21 jan 2025 • 6 min
Nya projekt för ung läsning följs för kunskapsinhämtning
Speaker's Corner, läsambassadörer och läsvisare. Åtta biblioteksprojekt har valts ut som särskilt intressanta för att öka ungas läsning i socioekonomiskt utsatta områden.
20 jan 2025 • 2 min
Ambulans för böcker ska rädda tryckt kulturarv
Det är bättre och billigare att rädda böcker och annat tryckt material om det görs direkt efter en översvämning eller annan naturkatastrof. Därför bygger Tyskland just nu en flotta av ambulanser för böcker och arkivmaterial.
17 jan 2025 • 4 min
Beredskapsplan gör det synligt vad bibliotek kan bidra med
Bibliotek är bra på beredskap, men kan bli bättre. En kurs ska göra Sverige än mer redo för både kris och krig.
16 jan 2025 • 2 min
Los Angeles: Bibliotek hjälper och brinner
Bibliotek är viktiga resurser under brandkatastrofen i Kalifornien, slår den amerikanska biblioteksföreningen fast. ”Tillsammans kan vi stärka våra samhällens motståndskraft.”
14 jan 2025 • 2 min
Bibliotekens verksamhet kartlagd för att utnyttjas vid bedrägeri
Minst fyra bibliotek i norra Stockholm har under årets första dagar använts som täckmantel för att bedragare ska komma åt bankuppgifter och i nästa steg pengar. Sex polisanmälningar har hittills gjorts.
13 jan 2025 • 4 min
Dansk encyklopedi ratar Meta
Den danska motsvarigheten till Nationalencyklopedin, Lex, upphör med annonsering i sociala medier. Valet att i stället gynna traditionella medier beskrivs som en investering i demokrati och ett upplyst samhälle.
13 jan 2025 • 2 min
SvD:s ledarsida klipper och klistrar
I maj 2015 väckte skribenten Paulina Neuding debatt om hot och stök på bibliotek. I en ny artikel framställer hon problemen som bestående – men har behövt gräva djupt för att hitta sina bästa exempel.
11 jan 2025 • 3 min
0 kommentarer