Det nye spam er AI-spam, og den nye sult er datasult

90 pct. af al indhold på nettet er om blot tre år syntetisk robotindhold

Om få år vil vi nostalgisk kigge tilbage på 2023, som dengang internettet udelukkende var skabt af mennesker. For med generativ AI’s folkelige gennembrud i år sker der lige nu en eksplosion i ikke-menneskeskabt video, tekst, billede og lyd. En udvikling, som er så dramatisk, at en undersøgelse konkluderer, at hele 90 pct. af al indhold på nettet om blot tre år vil være syntetisk robotskabt. En kreativ og demokratisk revolution, som giver flere mulighed for at udtrykke sig på trods af begrænsede evner.

Velkommen til AI-ekkokammeret

Den syntetiske indholdsrevolution har dog en bagside. Risikoen er, at menneskets originale og kreative indhold drukner i kunstigt indhold, som begynder at kopiere sig selv. Som filosoffen D’Arcy Blaxell skriver, er faren, at vi skaber et AI-ekkokammer:

“This means that genuine originality and creativity will be lost as we descend into a feedback loop of increasingly sharpened AI-orthodoxy; where common-sense is distilled into its computerized essence and communication becomes characterized by adherence. The problem is not that individual people will outsource to AI and forget how to be creative, or even that humanity as a whole will lose its capacity for ingenuity. It’s that the widespread adoption of ChatGPT will lead to an internet-wide echo chamber of AI-regurgitation where chatbots compete in an endless cycle of homogenization and repetition.”

Faren for indavl vokser, fordi vi allerede i 2026 løber tør for originalt, menneskeskabt indhold

Problemet bliver kun større og mere akut, fordi vi allerede i 2026 løber tør for vildt, originalt, menneskeskabt indhold, som computeren ikke allerede har læst. Det er et kæmpe problem, som gør risikoen for AI-indavl endnu større. Vi har kæmpestore forventninger til AI, men de vil blive gjort til skamme, hvis vi løber helt tør for data.

Det lyder vildt, men AI har allerede trænet sig selv på de bedste menneskeskabte kilder, og færre og færre er tilbage, specielt når det gælder tekster af kvalitet. Dataudsultningen bliver vores nye fælles globale problem om blot tre år.

Vejvideoer kan være vores eneste redning ud af datamanglen

Sulten efter data kan om få år blive så desperat, at originale videooptagelser fra automatiske biler kan være vores bedste bud på noget originalt. AI-professor Ross Andersen skriver i The Atlantic:

If indeed AIs are starving for new inputs by midcentury—or sooner, in the case of text—the field’s data-powered progress may slow considerably, putting artificial minds and all the rest out of reach. I called Villalobos to ask him how we might increase human cultural production for AI. “There may be some new sources coming online,” he told me. “The widespread adoption of self-driving cars would result in an unprecedented amount of road video recordings.”

Kopier af kopier af kopier af ringere og ringere kvalitet

Målet med AI var at forstærke den menneskelige intelligens, men nu er der fare for, at den forstyrrer, svækker og fordummer os i en spiral af syntetisk indavl og automatiseret snæversyn. Som den alarmeret Ross Anderson udtrykker det:

“What will happen when LLMs dominate the internet? The implications go beyond text alone. For instance, if a musical model is trained with compositions by Mozart, subsequent generations may lack the brilliance of the original and produce inferior results, comparable to a musical “Salieri.” With each subsequent generation, the risk of declining quality and intelligence increases.This concept may remind you of the movie “Multiplicity,” starring Michael Keaton, where cloning leads to a decline in intelligence and an increase in the stupidity of each subsequent clone.The same phenomenon can occur with LLMs. “

Problemet opstår, fordi modellen statisk altid fremmer det mest gennemsnitlige og den populære, laveste fællesnævner. AI-forsker Ilia Shumailov mener, at “Generative models, on the other hand, tend to overfit for popular data and often misunderstand/misrepresent less popular data.”.

Samtidig er AI-modellerne meget svære at skalere og begynder hurtigt at generalisere urealistisk. Dette kaldes overfitting-problemet, men er blot et fint akademisk ord for bullshit og intetsigende klicheer.

Betydningen og kreativiteten kollapser, når snæversyn og indavl gentages igen og igen

Fænomenet kaldes modelkollaps eller dimensionel kollaps. Dette kollaps opstår, når AI’er trænes på outputtet fra andre AI’er. Resultat er indhold af faldende kvalitet eller værdi. AI-forsker Ilia Shumailov udtrykker i den videnskabelige artikel The Curse of Recursion: Training on Generated Data Makes Models Forget, om brugen af syntetisk indhold til at træne AI, sig tørt:

“We find that use of model-generated content in training causes irreversible defects in the resulting models.”

Problemet er, at outputtet bliver et automatiseret snæversyn af et begrænset sæt ideer eller perspektiver. Erkendelsens dimensioner reduceres fra tre til to.

En proces, som forsker og forfatter Ted Chiang i The New Yorker sammenligner med en uendelig fotokopi af fotokopier:

“It’s the digital equivalent of repeatedly making photocopies of photocopies in the old days.”

Det betyder, at vi er ved at drukne internettet i bla-bla-bla. Som det så malerisk udtrykkes af professor Ross Anderson fra Cambridge Universitet, er AI-spam den nye forurening:

“Just as we’ve strewn the oceans with plastic trash and filled the atmosphere with carbon dioxide, so we’re about to fill the Internet with blah. This will make it harder to train newer models by scraping the web, giving an advantage to firms which already did that, or which control access to human interfaces at scale. Indeed, we already see AI startups hammering the Internet Archive for training data.”

Hvordan undgår vi og bekæmper modelkollaps?

Som al anden forurening er der ingen lette løsninger. Den store fare er, at vi naivt tror, at løsningen blot er at høste mere og mere menneskeskabt data i virkeligheden, “In The Wild”, uden regler, rammer og omtanke. Hvor vi i AI-feltet gentager menneskets ubetænksomme overforbrug af Jordens naturressourcer.

De syv veje til at undgå dataudsultning og indavl

Grundlæggende er der syv veje til at beskytte AI mod sig selv. Veje, som vi mennesker tidligere har brugt til at beskytte vores miljø og arvemateriale.

Forstå og formidl, at den menneskelige erkendelse og originalitet er nytænkningens eneste og evige udgangspunkt

Helt grundlæggende handler det om at formidle problemet og værdien af det menneskeskabte i forhold til syntetisk indhold. I tidens techbegejstring er det vigtigt, vi fortæller, at robotterne aldrig kan eller skal erstatte den dybe menneskelige erkendelse og originalitet. Denne forståelse er nemlig præmissen for de andre vigtige tiltag.

Skab et “naturreservat “ for ukorrumperet menneskeskabt originalitet

Den første vej er at skabe et beskyttet, rent reservat af menneskeskabt indhold. På samme måde, som man tidligere for at modvirke forurening har skabt naturreservater med beskyttede, lukkede økosystemer eller har søger at beskytte vores genpuljes mangfoldighed. Nu er det menneskeskabt data, som er værd at bevare. Adgang og brug af dette arkiv skal omfattes af strenge regler og rammer for at undgå AI-indavl. Samme princip, som er bag det store arkiv i Nordnorge med alverdens truede plantearter, så vi undgår, at nogle uddør.

Endnu mere menneske-in-the-loop

Lad mennesket spille en større kontrollerende rolle i alle dele af udviklingen af AI, så bias fjernes, kvaliteten og rekursive processer stoppes.

Datadiversitet og diversitet i algoritmedesign

Brug af meget forskellige datasæt under AI-modeltræningen kan hjælpe med at forhindre overafhængighed af AI-genereret indhold og sikre en triangulering af modellens datafundament. Endelig kan AI-indavlen og rekursiviteten modvirkes ved at designe diversitet ind i algoritmen. Det kunne eksempelvis være tvungen randomisering, hvor forceret matematisk tilfældighed sikrer, at modellen udfordres og lærer af nye data og indsigter. På den måde undgås en indavl som en dataudvælgelsesbias.

Udvikl et “miljømærke” for det menneskeskabte indhold

Igen som vi miljøbeskytter med mærkningsordninger, skal vi mærke det kunstige indhold for at beskytte det menneskeskabte og modellens renhed. En effektiv mærkning af AI vil beskytte mod forurening, som giftmærket afholder os fra at hælde noget giftigt i køkkenvasken. Dette er desværre en næsten uoverskuelig politisk og regulativ opgave på tværs af lande og datakilder.

At bekæmpe AI-spam med lov

Helt klassisk at lovgive sig ud af problemet for med forbud at bekæmpe AI-spam bedst og mest muligt. Her kunne udvikles rammer og regler for brug af træningsdata for at sikre mod indavl og AI-selvbesmittelse. En metode, som med succes har været brugt i forhold til privacy og tech.

At skabe en pris, en skat og et marked for menneskeskabt data

Endelig er det vigtigt at prissætte menneskeskabt data for at sikre, at det bliver beskyttet, og omvendt straffe unødvendig brug og udbredelse af syntetiske data. Ideen er, at en beskatning og værdiansættelse vil beskytte menneskeskabt data, fordi det er prissat, som en carbon tax kan beskytte klimaet.

Alle syv tiltag, som kan være med til at sikre, at vi bliver klogere af al den AI. Ikke det modsatte. Det handler om at sætte en stopper for AI-spam.