Tränandet av AI-språkmodeller kräver otroligt mycket data men det räcker inte.

När mänskligt genererade data tar slut eller blir för dyra att använda, står bolagens hopp till data genererade av AI-systemen själva. Syntetiska data.

Man skulle alltså träna kommande generationer av mer kapabla systemen – med mer avancerad hårdvara, större beräkningskapacitet och förfinade algoritmer – på data som genererats av mindre utvecklade AI-system. Till exempel skulle GPT5 kunna tränas på data som genererats av GPT4.

Det låter för bra för att vara sant. Och så är det förstås. AI-genererade data är sämre än mänskliga data. Och framför allt är de inte mänskliga.