Le IA potrebbero star leggendo troppi libri
Che farcene di copyright, fair use e trasparenza con le IA?
Su The Atlantic trovi il database dei libri utilizzati per il training di alcune delle Intelligenze Artificiali più diffuse, come LLaMa di Meta. Il problema? La maggior parte dei libri sono coperti da copyright, il cui utilizzo, quindi, sarebbe soggetto a delle regole per l’utilizzo.
In maniera piuttosto diretta, Alex Reisner, autore e programmatore che ha condotto l’inchiesta, ha scritto: "The future promised by AI is written with stolen words”.
Com’è potuto succedere? Senza addentrarci nei dettagli tecnici, le IA sono alimentate con un processo di estrazione di moli enormi di dati dal web, come Wikipedia, i social media (evitando i dati personali, almeno quella di Meta), e, in questo caso, i libri. Questo processo serve ad “allenare” le IA a riconoscere i pattern e ad essere poi capace di riprodurre testi simili a quelli di un umano. [Mi perdoneranno i data scientist per questa descrizione poco accurata]
Per questa inchiesta, il database contenente i libri sarebbe Books3, una raccolta che nasce per permettere a chiunque di sviluppare una propria IA, pur non avendo risorse e mezzi dei giganti del web. Quindi un intento anche nobile. Tuttavia, qualcosa potrebbe essere andato storto.
Così, se spesso il focus è: “a chi appartiene un contenuto prodotto dall’IA?”, è invece necessario chiedersi anche: “ma è giusto usare opere sotto copyright per allenare le IA?”. E, poi, come comportarsi con gli scrittori o altri creativi, che hanno già rivolto accuse a OpenAI e Meta.
Oggi Artifacts vedrà cosa stanno facendo le istituzioni, perché secondo alcuni sarebbe da permettere l’utilizzo di opere sotto copyright per il “fair use”, e soprattutto perché sapere cosa c’è dentro le IA è tanto (o forse più) importante di chi sia il proprietario di ciò che viene prodotto.
Il Titolo
Partiamo da quello che sta facendo l’Unione Europea:
Gli sviluppatori di IA o i ricercatori possono utilizzare copie di database o opere per estrarre dati e informazioni e tenerli per il tempo necessario a questo processo. Tuttavia, chi detiene i diritti può esercitare l’opt-out, ossia impedire l’utilizzo delle proprie opere;
Nell’AI Act viene richiesto alle aziende che sviluppano IA di “divulgare qualsiasi materiale protetto da copyright utilizzato per sviluppare i loro sistemi”.
Tuttavia, come nota Floridi, sapere se un contenuto è coperto o meno da copyright non risolve il problema. Piuttosto, quello che bisognerebbe chiedersi è se si applichi o meno il fair use, ossia la facoltà di utilizzare per il training delle IA materiale coperto da copyright per scopi di informazione o insegnamento, senza chiedere l’autorizzazione a chi ne ha i diritti.
Il dibattito sul fair use per le IA Generative è complesso, affascinante, ma soprattutto lungo. Quindi, in breve, le posizioni sono:
chi è contro perché sostiene che le opere generate grazie alla creatività degli autori potrebbero impattare negativamente il mercato degli autori stessi. E che, quindi, i creativi abbiano passato anni a produrre opere che ora vengono utilizzate, senza compenso, per il profitto di chi sviluppa le IA.
chi è a favore, ad esempio Creative Commons, sostenendo che le IA non producano delle copie di lavori sotto copyright, ma che usi le informazioni per creare qualcosa di totalmente nuovo.
Difficile prendere una posizione. Piuttosto, quello che è interessante capire è se i contenuti prodotti dalle IA siano totalmente nuovi e originali. O meglio, se possiedano la caratteristica di ‘transformativeness’, e quindi non siano mere copie dei dati di training, ma opere originali e sufficientemente diverse. Questa caratteristica è essenziale per stabilire se si possa parlare di fair use.
Infatti, da un lato le IA percepiscono i libri come semplici moli enormi di testo per il training, e quindi creano a tutti gli effetti contenuti originali che non fanno riferimento ad autori specifici, ma sono semplicemente associazioni statistiche. E, quindi, c’è spazio per parlare di fair use e considerare il processo come ‘transformative’. Dall’altro, pur non copiando le opere, le IA non potrebbero fare alcun tipo di trasformazione senza quei testi. Per questo, alcuni non riconoscono i requisiti per il fair use.
Sarà un dibattito acceso, probabilmente centrale nei prossimi anni. Vedremo anche se sarà possibile continuare a usare le opere sotto copyright tutelando però gli autori in qualche modo..
A prescindere da questo dilemma, un elemento torna essenziale: che le IA siano aperte e trasparenti, ossia che diventi possibile sapere quali dati contengono, da dove provengono e, quindi, perché dicano certe cose invece di altre. Requisiti che, al momento, solo alcune aziende soddisfano.
Perché? Come suggerisce lo stesso Reisner, il rischio è che “se internet ha democratizzato l’accesso all’informazione, rendendola facilmente accessibile a tutti, con l’IA si torni a dei gatekeeper opachi e unaccountable” di cui non conosciamo le informazioni alla base. Quindi, che i sistemi di IA, che già ora utilizziamo ampiamente per ottenere informazioni, privilegino delle visioni del mondo invece che altre. E che, poi, influenzino anche la nostra prospettiva.
Insomma, che le IA siano un libro aperto.
Rassegna (Stampa)
ChatGPT ora può navigare su Internet. E quindi sapere cosa è successo ieri.
Perché noi umani siamo fondamentali per costruire l’IA, e alcuni anche sfruttati
Mark Zuckerberg si è fatto intervistare nel Metaverso. E chi se non lui?
Meta ora fa sul serio con l’IA. Ci fa anche parlare con Paris Hilton.
L’UE ci dice come siamo messi con la digitalizzazione. Bene, ma potrebbe andare meglio.
Lo Scaffale
Con the Atlas of AI, Kate Crawford racconta il lato tangibile dell’IA. E quindi quali siano le implicazioni ambientali, le conseguenze sociali, le dinamiche geopolitiche e perché, ad esempio, l’Africa praticamente non esiste per l’Intelligenza Artificiale.
Nerding
Immagina di aver voglia di salsa ma con gli strumenti del jazz. O anche di avere dei gusti musicali decenti e volere una canzone che risponda alle tue esigenze. Con Stable Audio puoi farlo e creare la tua musica con una semplice descrizione di ciò che desideri.
E anche oggi, grazie per essere arrivato fin qui :)
Ci sentiamo martedì prossimo!