I modelli di intelligenza artificiale come ChatGPT e Bard vengono addestrati utilizzando i dati creati dagli esseri umani. Più dati ingeriscono, più intelligenti diventano nell'imitare l'intelligenza e la creatività umane. I grandi attori del settore dell'intelligenza artificiale, come OpenAI e Meta, hanno implementato modelli linguistici di grandi dimensioni addestrati raschiando testi e libri disponibili online per estrarre dati.
A causa del modo in cui vengono addestrati gli LLM, era inevitabile che ci sarebbe stato un conflitto tra la legge sul copyright e l'intelligenza artificiale. Ora i polli stanno tornando a casa, poiché Sarah Silverman e altri artisti stanno facendo causa a OpenAI e Meta per violazione del copyright.
In un'azione legale collettiva [PDF] depositato in California, la comica Sarah Silverman e altri scrittori (Christopher Golden e Richard Kadrey) cercano di recuperare i danni contro OpenAI e Meta per violazione del copyright. La causa sostiene che OpenAI e Meta abbiano sottratto libri protetti da copyright da siti Web pirata per addestrare i loro modelli di intelligenza artificiale. Questo è l'equivalente di un modello AI che scarica i suoi set di dati di addestramento da Piratebay senza compensare gli autori.
Casualmente, A azione legale separata di classe [PDF] contro OpenAI sostiene che la società abbia utilizzato informazioni private non autorizzate per addestrare ChatGPT. Anche Google sta affrontando una causa simile per il presunto utilizzo di dati rubati per addestrare Google Bard. Questo è il motivo per cui dovresti prendi l'abitudine di proteggere le tue informazioni personali, sebbene il lavoro editoriale e i dati personali privati non siano la stessa cosa.
Quali sono le possibilità che Sarah Silverman possa vincere la causa?
Silverman e altri artisti affermano che ChatGPT può riassumere accuratamente i loro libri quando richiesto. La denuncia sostiene che non sarebbe possibile se il modello AI non avesse accesso al materiale protetto da copyright. Tuttavia, se ChatGPT è stato addestrato utilizzando miliardi di testi Internet, probabilmente si è imbattuto in articoli, commenti e post sui social media che discutevano dei libri.
Inoltre, Meta ha rivelato dove ha acquistato i libri che ha utilizzato per addestrare il suo modello di intelligenza artificiale: la fonte è stata rintracciata in un sito Web torrent di e-book. Allo stesso modo, l'azione legale collettiva contro OpenAI menziona anche siti Web illegali in cui si sospetta che OpenAI abbia ottenuto i materiali protetti da copyright, ma OpenAI deve ancora confermare le sue fonti.
Se è dimostrato che OpenAI e Meta hanno utilizzato siti Web torrent illegali per acquisire materiali protetti da copyright per addestrare i propri modelli di intelligenza artificiale, Silverman potrebbe avere una possibilità di vincere la causa. Tuttavia, i modelli di intelligenza artificiale sono un territorio inesplorato senza precedenti su cui i tribunali possano fare affidamento per pronunciarsi sulla violazione del copyright dell'IA. In effetti, questo è uno dei motivi per cui l'UE ha proposto una legge sull'IA.
Qual è il futuro dei modelli di intelligenza artificiale e della legge sul copyright?
Siamo ancora agli albori dell'intelligenza artificiale per sapere come si adatterà alla legge sul copyright. È ancora più complesso cercare di capirlo chi possiede il copyright per la creazione di AI. Ma per i creatori umani, esistono regolamenti per proteggerli dall'accesso di qualcun altro al loro materiale protetto da copyright senza compenso, consenso o credito. Se le regole esistono per gli esseri umani, si applicheranno ai modelli di intelligenza artificiale?
Il parlamento dell'UE ha tracciato uno sguardo ravvicinato sul futuro di come i modelli di intelligenza artificiale rispetteranno la legge sul copyright. Se l'EU AI Act diventa legge, i modelli AI come ChatGPT e Bard saranno tenuti a pubblicare tutte le loro fonti di set di dati e i dati protetti da copyright utilizzati per la formazione. Ciò contribuirà a chiarire qualsiasi confusione se i modelli di intelligenza artificiale accedessero a libri, film, musica e foto protetti da copyright per l'addestramento attraverso siti Web di pirateria illegale.
La sentenza dell'azione legale collettiva contro AI creerà un precedente legale
I modelli di linguaggio di grandi dimensioni possono raschiare tutti gli angoli di Internet per i dati utilizzati nella formazione. Ma sarebbero responsabili per violazione del copyright se accedono a siti Web torrent illegali per acquisire i dati? E se lo fanno, puoi provarlo?
Indipendentemente dall'esito, le azioni legali collettive contro le società tecnologiche che possiedono i modelli di intelligenza artificiale più popolari creeranno un precedente che sarà rilevante in futuro.