Så hotas Wikipedia av AI

12 apr 2023 • 6 min

AI-verktyg som ChatGPT är beroende av Wikipedia – men de kan samtidigt göra att både pengar och de viktiga redigerande volontärerna försvinner. "Skulle AI-verktygen ofrivilligt strypa syretillförseln till Wikipedia kan det vara som att slänga gift i den brunn där man hämtar sitt vatten", skriver Johan Jönsson på svenskspråkiga Wikipedia.

Johan Jönsson: ”Det största hotet är att Wikipedia helt marginaliseras.” Foto: Kristian Borg

Vi kan nu prata med maskinerna och se dem svara med starkt och ofta obefogat självförtroende. Det har funnits automatiserade chattbotar förut, men med AI-verktyget ChatGPT talar människor för första gången om bredare användningsområden och en omdaning av det samhälle vi känner. Redan finns en lång rad företag som säljer tjänster som baserar sig på ChatGPT eller universitetskurser där användningen av AI är obligatorisk.

Ethan Mollick, docent vid handelshögskolan vid University of Pennsylvania, har försökt sammanfatta sina lärdomar av att införlivat verktyget i sin undervisning. Först och främst bör man inte be det förklara någonting man inte själv har koll på, skriver han. AI:n kan ge uppslag för vidare läsning, komma med idéer, hjälpa till ett formulera en text, sammanfatta och förenkla information eller hjälpa till att skriva kod – men ställer man frågor är ChatGPT benägen att ge fullständigt påhittade svar. Det blir lätt så med stora språkmodeller, som utifrån oerhörda mängder träningsdata försöker hitta vad som är en sannolik formulering men som förstås inte har någon förståelse för ämnet. Ber man den lista vad som är en molekylärbiologs viktigaste verk kan den glatt hitta på en rimlig titel, för modellen har sett stora mängder artiklar och vet vilka ord som brukar användas. Hela kommunikationsmodellen bygger på att sätta samman ord med varandra. Ber du ChatGPT att beskriva en grön häst som flyger genom en brun himmel förväntar du dig att den gör detta – trots att det inte stämmer överens med verkligheten. Ber du den att skapa en lista på böcker kan den komma att göra det även om den måste skapa materialet på egen hand. Skall den förklara vem någon är kan den fylla på med vad som verkar sannolikt snarare än vad som är sant.
Det betyder inte att människor inte kommer att ställa frågor. Genom Bing har Microsoft redan börjat bygga in ChatGPT i sina produkter. Det är en uppdaterad version, som kan söka på internet och är bättre på att visa varifrån den har hämtat sin information. Google har lanserat sin motsvarighet, Bard, för att inte hamna på efterkälken. Webbläsaren DuckDuckGo har till och med lanserat ett AI-verktyg, DuckAssist, som explicit bara skall hämta information från Wikipedia. Det är långt troligare att vi vänder oss till vad vi har rakt framför oss, det som är lätt att använda, än till det som kräver en ansträngning, att vi måste gå någon annanstans. Och Wikipedia serverar artiklar, inte enkla svar: Knappt någon människa har lust att läsa en trettiosidig text för att få svar på en fråga, skrev wikipedianen Ziko van Dijk i en artikel i tyskspråkiga Wikipedias nyhetsorgan Kurier i februari.
Delar av rörelsen bakom Wikipedia har diskuterat GPT-modellerna länge, men det är först med ChatGPT som det mot slutet av 2022 fick större uppmärksamhet. När ett nytt verktyg dyker upp är det mycket mänskligt att koncentrera sig på hoten. På engelskspråkiga Wikipedia har många oroat sig över att dränkas i AI-skrivna spamartiklar, som inte håller måttet eller som skapats i marknadsföringssyfte snarare än för att de är av allmänintresse. Det är inte utan grund: i februari meddelade den amerikanska tidskriften Clarkesworld, en av världens ledande publikationer för science fiction- och fantasynoveller, att de tills vidare tvingades stänga för nya manus. Mängden AI-skapade verk som skickades in var alldeles för hög.
På engelskspråkiga Wikipedia påbörjade man i december 2022 arbetet med en riktlinje för stora språkmodeller, alltså vad vi i dagligt tal brukar kalla AI. Även om den inte är antagen som del av engelskspråkiga Wikipedias regelverk än kan man tydligt se vilka hot skribenterna anar även när syftet bara är att bidra till uppslagsverket – att texten inte skall kontrolleras, att modellen skall hallucinera fram referenser till källor som inte existerar, att perifera teorier skall ges orimligt mycket utrymme. I sitt nuvarande skick kräver förslaget till riktlinje att den som skriver text med ChatGPT håller sig till områden skribenten verkligen behärskar väl, och att AI:ns påståenden noga granskas innan de införlivas i encyklopedin. Enstaka skribenter har presenterat AI-skrivna artiklar, men de kräver fortfarande ganska mycket arbete.

Men det största hotet är förstås att Wikipedia helt marginaliseras.

Men det största hotet är förstås att Wikipedia helt marginaliseras. Om Microsoft och Google börjar bygga in AI som kan ge svar på frågor i sina webbläsare och tekniken faktiskt utvecklas till den grad att folk mestadels känner att de får svar kan trafiken till Wikipedia sina – finns någonting där, smidigt och lätt, varför skall man gå vidare?
Skulle de vara lika bra som Wikipedia? Att döma av hur de fungerar i dag, där de glatt kan hitta på ett svar när de inte vet, är svaret förmodligen nej, inte alls. Men räcker det? De behöver inte vara lika bra. De behöver bara vara bra nog. I den mycket inflytelserika boken The Innovator’s Dilemma från 1997 skrev den amerikanska företagsekonomen Clayton Christensen om hur dominerande teknologier blir omsprungna av de nya och hur gamla organisationer sällan lyckas behålla position när deras fält byter skepnad. Centralt i Christensens bok är hur en ny teknologi, en produkt som bryter mot den tidigare traditionen snarare än en ständig förbättring av den existerande, typiskt inte är bättre än vad den ersätter, utan bara billigare, enklare eller mer bekväma. Wikipedia var inte bättre än Nationalencyklopedin eller Encyclopaedia Britannica när wikierna knuffade sig fram och slet åt sig deras läsare. Artiklarna var bara enklare att nå, utan att behöva betala för åtkomsten. Nu mer än tjugo år senare har Wikipedia vuxit sig bättre och mer pålitligt än det var då – men det i sig är ingen garanti för att uppslagsverket varar för evigt.

AI:n kan ge uppslag för vidare läsning, komma med idéer, hjälpa till ett formulera en text, sammanfatta och förenkla information eller hjälpa till att skriva kod – men ställer man frågor är ChatGPT benägen att ge fullständigt påhittade svar.

Läsarna skulle kunna ta del av innehållet ändå: ChatGPT och liknande verktyg bygger till en ganska stor del på information från Wikipedia och Wikidata: dels direkt, dels ligger Wikipedia bakom en stor del av den information som har samlats in av Common Crawl, som är ChatGPT:s viktigaste källa. Men Wikipedia är beroende av att läsare kommer åt artiklarna på uppslagsverket. Delvis för att den del av verksamheten som kostar pengar – teknisk utveckling, att hålla servrarna vid liv, jurister och dylikt – bekostas genom donationer man bara ser om man besöker Wikipedia, men ännu mer eftersom encyklopedin är beroende av att ständigt nya människor ser knappen som säger ”Redigera” och bestämmer sig för att själva börja skriva uppslagsverk. Utan ett ständigt inflöde nya människor för att ersätta de som inte längre har tid, tröttnar eller avlider skulle Wikipedia långsamt tyna bort.
Rörelsen kring Wikipedia har förstås länge varit medveten om hotet. Det är inte nytt, även om det har tagit en ny form och blivit brännande aktuellt. I åratal har vi sett att fler och fler läsare inte hittar hela vägen fram även när de tar del av Wikipedias information. Den som söker på Google får ofta upp en liten informationsruta som presenterar det viktigaste om ett ämne, mycket ofta hämtad från Wikipedia och Wikidata. Hur många människor bor i Somalia? Ja, om det står redan bredvid sökresultaten – varför klicka sig vidare? Andra får sin information via röstassistenter. Siri, när stod slaget vid Vänersborg? Alexa, vem är Argentinas president? Ofta har de inte ens förstått att det är Wikipedia de lyssnar till.
Stiftelsen som äger Wikipedia har på olika sätt försökt att bemöta detta. Man har utvecklat egna mobilappar för att inte vara så beroende av sökresultat som kan ledas om någon annanstans, men när hela rörelsens ekonomi bygger på insamlingsarbetet har det faktum att det är mycket svårare och dyrare att samla in pengar i mobilen varit ett av hindren för en storskalig satsning på att få alla som besöker uppslagsverket i webbläsaren på mobilen att gå över till apparna. I stället för att försöka bekämpa vad man ser som en oundviklig utveckling – Wikipedias information är publicerad under en fri licens som tillåter alla att återanvända den, under vissa villkor – har man utvecklat ett API, ett sätt att smidigt nå informationen på wikierna, som stora aktörer kan betala för och på så sätt betala tillbaka för den information de ändå skulle använda. En reaktion på en värld som vill använda Wikipedias information, men inte nödvändigtvis leda läsaren hela vägen till uppslagsverket.
Frågan är hur mycket ChatGPT och andra AI-verktyg skulle lida om Wikipedia långsamt blev lite sämre, månad för månad. De har gott om andra platser de hämtar information från, men Wikipedia och Wikidata är världens största projekt där människor mödosamt sitter och sätter samman information, med någon mån av kvalitetskontroll, med en vision om att allt skall kunna källhänvisas och vara neutralt formulerat – det sistnämnda lika viktigt som att informationen stämmer i en värld som gärna ser ett urval fakta som ett medel för att nå ett visst mål, snarare än att ha upplysningen som ett mål i sig. Skulle AI-verktygen ofrivilligt strypa syretillförseln till Wikipedia kan det vara som att slänga gift i den brunn där man hämtar sitt vatten.
Johan Jönsson
Administratör, svenskspråkiga Wikipedia. Författare till boken ”Wikipedia inifrån”. 

1 kommentarer

  1. Viktigt för bibliotekssektorn att komma ihåg är att medie- och informationskunnighet (inklusive AI-kunnighet och kunskap om Wikipedia som verktyg för att bilda om medie- och informationskunnighet) är en av de bästa lösningarna för att möta denna utmaning. Om vi nu _vet_ att AI-verktygen hämtar information från Wikipedia – desto större anledning att arbeta med Wikipedia (och andra wikiprojekt) i biblioteksverksamheten, både för att dela ny (eller gömd) kunskap men också för att kunna lära ut om informationens kretslopp.

Senaste nytt

Reportage

Sommarläsning till hängmattan

Sommarregn, sol och bad och förhoppningsvis en välförtjänt ledighet med tid för läsning. Mellan böckerna kanske också lite läsning om bibliotek. Missade du något under våren? Här finns chansen att ta igen.

5 jul 2024 • 4 min

Nyheter

Almedalen 2024: Brotten mot kulturarvet

Riksbibliotekarie Karin Grönvall och riksantikvarie Susanne Thedéen samtalade om hur samhället kan bli bättre på att förhindra brott mot kulturarvet – och komma åt dem som begår brotten. Dessutom berättar åklagare Eva Wintzell om jakten på boktjuvarna i ett inslag.

4 jul 2024 • < 1 min

Nyheter

Almedalen 2024: Vetenskap för miljarder

En för de flesta okänd, men hittills säker, investering är den i vetenskapliga tidskrifter som omsätter miljarder varje år. Det medför stora kostnader för bibliotek och forskare. Panelen med Pamela Schultz Nybacka, Pelle Snickars och Wilhelm Widmark debatterade. Se hela samtalet här.

4 jul 2024 • < 1 min

Nyheter

Almedalen 2024: Bibliotekens betydelse i kris

När biblioteken utnämns som en samhällsviktig verksamhet i tider av kris och i värst fall krig, hur går det då med självständigheten? Linda Wagenius resonerade om den frågan tillsammans med Helene Öberg och Lisa Mobrand. Hör hela samtalet här.

4 jul 2024 • < 1 min

Nyheter

Almedalen 2024: Ett förlorat kulturarv

Få poddar och youtube-kanaler samlas in och sparas för framtiden. Hur ska minnet av 2020-talet räddas? Hör hela samtalet med Karin Grönvall, Pelle Snickars, Ewa Pihl Krabbe (S) och Marie-Louise Hänel Sandström (M).

4 jul 2024 • < 1 min

Nyheter

Almedalen 2024: Försvaret av det fria ordet

Silvia Ernhagen, Jesper Bengtsson och Brit Stakston diskuterade hur vi ska se till att inte få ett samhälle där böcker förbjuds på biblioteken. "Vi har en bekymrande förkärlek för att importera allt som kommer från USA."

4 jul 2024 • < 1 min

Essä

Juridisk tvångströja kräver kreativa omvägar

Tidigare har det krävts lagbrott för att rädda kulturarv som annars gått förlorat. Kanske går det att dra nytta av dessa exempel när en digitalt uppdaterad pliktexemplarslag ska implementeras, skriver Pelle Snickars, professor i digitala kulturer.

1 jul 2024 • 7 min