ChatGPT: en farlig indholdspirat på plyndringstogt

Det rumler i fundamentet under AI-bølgen. Begejstringen er væk. Nyt kritisk fokus på, hvordan ChatGPT stjæler indhold i øst og vest fra alt og alle. 
I starten af 00’erne kom der stigende fokus på ulovligt distribueret onlineindhold og piratkopiering. På samme måde er det nu datahøst, begået af techgiganterne, der står for skud. Men selvom man kan drage paralleller til kampen mod digital pirateri, er det på mange måder en anden, mere kompliceret størrelse vi har med at gøre. Der tales nu om, hvorvidt virakken rent faktisk kan hive tæppet væk under hele AI-industrien. | Foto: Alexander Nordahl
I starten af 00’erne kom der stigende fokus på ulovligt distribueret onlineindhold og piratkopiering. På samme måde er det nu datahøst, begået af techgiganterne, der står for skud. Men selvom man kan drage paralleller til kampen mod digital pirateri, er det på mange måder en anden, mere kompliceret størrelse vi har med at gøre. Der tales nu om, hvorvidt virakken rent faktisk kan hive tæppet væk under hele AI-industrien. | Foto: Alexander Nordahl
CHRISTIAN VILLUM, TEKNOLOGIEKSPERT, OPEN SOURCE FORTALER OG ELEKTRONISK MUSIKIVÆRKSÆTTER BASERET I KØBENHAVN

Forestil dig et liv uden generativ AI. Et liv, hvor du ikke lige kan få ekspresoversat en tekst, bede om idéer til dit blanke papir eller få gode romantiske råd til din kommende date. 

Ja, sidstnævnte er faktisk én af de mest populære prompter, ifølge virksomheden bag ChatGPT, OpenAI. Selvom vi kun har haft fornøjelsen af – eller skrækken over – adgangen til sprogmodeller som ChatGPT og Midjourney i nogle få måneder, føles de allerede ret uundværlige for mange.

Men den adgang er ikke nogen selvfølge. Der er nemlig nogle store slagsmål i gang bag facaden, og dem begynder vi nu at høre om.

Retten til ikke at blive høstet

Det startede med, at OpenAI her i sommer pludselig annoncerede, at de udgav et lille software-script – et stykke kode – som man kan installere på sin hjemmeside og dermed undgå at blive “scrapet”, altså få sine data høstet, af OpenAI’s dataindsamlingsbot. Det er den maskine, som samler enorme mængder træningsdata ind til at træne deres generative AI, ChatGPT. Et overraskende udspil fra OpenAI, som ellers hårdnakket har påberåbt sig retten til at bruge frit tilgængelige data fra nettet til at skabe og forbedre deres algoritme.

Det er dog i den sammenhæng værd at bemærke, at dette software-script kun ville påvirke fremtidige versioner af ChatGPT. Data brugt til de nuværende versioner blev høstet for længe siden, faktisk før 2021, uden tilladelse. 

Lidt forsimplet er sådan en høstning teknisk set ikke ulovlig, så længe der er tale om offentligt tilgængelige links. Det er stadfæstet ved domsafsigelse i USA og har skabt præcedens i det meste af verden. Men hvad nu, hvis man føder de høstede data ind i en ny, kommerciel tjeneste, som tager verden med storm, skovler penge ind og spytter materialer ud som, i nogle tilfælde, måske ligner dem man puttede ind? Er det så lovligt? Det spørgsmål er mere ude i den mørke ende af gråzonen, og det er nok derfor, OpenAI med deres script prøver at afvæbne kritikken.

Nyhedsbranchen skruer konflikten op til 11

Det næste, der så skete for nylig, var, at nyhedssites som The Verge og New York Times installerede scriptet. Sidstnævnte ændrede i samme åndedrag deres servicevilkår, således at høstningen af deres data gøres ulovlig. Det i sig selv sendte chokbølger gennem AI-industrierne, fordi mange andre medier rundt omkring i verden orienterer sig mod New York Times’ digitale strategier og kunne forventes at følge trop.

Men det stoppede ikke dér. Ifølge pålidelige kilder overvejer New York Times nemlig nu, i disse dage, at sagsøge OpenAI for ulovligt at bruge, hvad de selv betegner som ophavsretsligt beskyttet materiale fra avisen uden at søge tilladelse først. Det med at træne hemmeligt på beskyttet materiale er nemlig ikke grebet ud af den blå luft. Det vender vi tilbage til.

Det mulige søgsmål sker i kølvandet på en række andre nylige sagsanlæg mod OpenAI og de andre AI-firmaer. Således har en række prominente offentlige personer for nyligt været ude med riven efter AI-virksomhederne for at bryde deres ophavsret. Standupkomiker og forfatter Sarah Silverman er gået sammen med en række anerkendte amerikanske forfattere, såsom Christopher Golden og Richard Kadrey, om at sagsøge OpenAI og andre AI-firmaer for at plagiere deres arbejde. 

Foruden OpenAI rettes sigtekornet bl.a. mod mastodonterne Meta, som driver sprogmodellen LLaMA, og GitHub, der som bekendt ejes af Microsoft, har introduceret AI-værktøjet GitHub Copilot. Og sidst, men ikke mindst firmaet bag Midjourney, som driver internettets nok mest populære model til generering af billeder. En tjeneste, som dagligt bruges til at producere mere end 275.000 billeder for brugere i hele verden.

OpenAI og skyggebibliotekerne

Lad os vende tilbage til det med de beskyttede materialer. Sagens kerne er nemlig, at de ovennævnte servicer efter sigende er blevet trænet på næsten 300.000 akademiske bøger, som softwaren har kunnet hente på en række angiveligt ulovlige forskningslitteratursdownloadtjenester, ofte kaldet skyggebiblioteker, der bærer navne som Sci-Hub, Bibliotik og Library Genesis. Det er tjenester, som driver gratis biblioteksservice på akademiske tekster, der ellers holdes bag betalingsmure, selvom de ofte er betalt med offentlige støttekroner. Et særdeles aktivistisk oprør inden for forskningsverdenen, som har som mission at hjælpe forskere i udviklingslande, hvilke ellers ikke har råd til at købe publikationerne. Men det sker altså uden tilladelse fra bøgernes forlag.

De sagsøgende parter siger, at hvis træningen er sket på disse ikke lovligt tilgængelige akademiske værker, hvad skulle så have afholdt OpenAI og de andre virksomheder fra at træne løs på andre ophavsretligt beskyttede kilder? Det vil de have klarlagt én gang for alle via rettens vej.

På mange måder står vi midt i en gentagelse af 00’ernes piratkopieringskrig, hvor rettighedshavere var i indædt kamp mod rebelske fildelingstjenester som Napster og The Pirate Bay.

Goliat vs. Goliat

Men hvor piraterne dengang var ukendte enkeltpersoner med teknisk snilde, er modparten denne gang verdens, måske, stærkeste private sektor: den amerikanske techbranche, der som bekendt også kaldes den femte statsmagt. En statsmagt, som mange hævder har marginaliseret den fjerde statsmagt, pressen, og dermed New York Times og The Verge. Og dermed er linjerne trukket op. Denne kamp handler ikke kun om beskyttet materiale, men om magt, indflydelse – og eksistens. 

Men det stopper ikke der, tværtimod.

Tvetydig domsafsigelse trækker linjerne op for kamphanerne

Den allerseneste udvikling er nemlig, at en amerikansk domstol i Washington, D.C. for blot få dage siden stadfæstede ved dom, at værker skabt med generativ AI ikke kan påberåbe sig ophavsretlig beskyttelse. Med andre ord betragtes værker skabt med generativ AI ikke som værker på linje med dem, vi mennesker kan skabe. 

Betyder det så, at AI-virksomhederne kan frasige sig ansvaret for overtrædelse af ophavsrettighedslovgivningen, fordi de producerede værker ikke kan eller må beskyttes og dermed ikke kan ses som værende krænkende brug af beskyttet materiale? Eller betyder det, at nyhedstjenesterne og indholdsskaberne kan påberåbe sig, at eftersom AI-værkerne nu ikke ses som originale værker, skal de derimod ses som afledte kopier af deres beskyttede originaler?

Hvilken vej, det vil gå, er svært at spå om. The plot thickens, som man siger på godt dansk. Men sørg i hvert fald for at få dine AI-datingtips i hus – mens du kan.


Del artikel

Tilmeld dig vores nyhedsbrev

Vær på forkant med udviklingen. Få den nyeste viden fra branchen med vores nyhedsbrev.

Forsiden lige nu

Læs også