GPTBot probabilmente non è quello che pensi.

Punti chiave

  • GPTBot di OpenAI è un web crawler progettato per raccogliere dati da siti Web pubblici, che vengono poi utilizzati per addestrare e migliorare modelli IA come GPT-4 e ChatGPT.
  • Alcuni dei più grandi siti Web su Internet stanno bloccando GPTBot perché accede e utilizza contenuti protetti da copyright senza autorizzazione o compenso per i creatori.
  • Sebbene i siti Web possano utilizzare strumenti come robots.txt per provare a bloccare GPTBot, non ci sono garanzie che OpenAI si conformi, dando loro il controllo sull'accesso ai dati protetti da copyright.

Nell'agosto 2023, OpenAI, la potenza dell'intelligenza artificiale a cui è stato attribuito lo sviluppo di ChatGPT, ha annunciato GPTBot, un web crawler progettato per attraversare il web e raccogliere dati.

Non molto tempo dopo quell’annuncio, alcuni dei più grandi siti web su Internet hanno bloccato l’accesso del bot al loro sito web. Ma perché? Cos'è il GPTBot di OpenAI? Perché i grandi siti web ne hanno paura e perché cercano di bloccarlo?

instagram viewer

Cos'è il GPTBot di OpenAI?

GPTBot è un web crawler creato da OpenAI per effettuare ricerche in Internet e raccogliere informazioni per gli obiettivi di sviluppo dell'intelligenza artificiale di OpenAI. È programmato per eseguire la scansione dei siti Web pubblici e inviare i dati ai server di OpenAI. OpenAI utilizza quindi questi dati per addestrare e migliorare i propri modelli di intelligenza artificiale, con l’obiettivo di costruire sistemi di intelligenza artificiale sempre più avanzati. Per creare modelli di intelligenza artificiale sofisticati come GPT-4 o i suoi prodotti secondari come ChatGPT, i web crawler sono quasi indispensabili.

L'addestramento di un modello di intelligenza artificiale richiede un'enorme quantità di dati e uno dei modi più efficaci per raccogliere questi dati è implementare strumenti come i web crawler. I crawler possono navigare sistematicamente sul Web, seguire collegamenti per indicizzare grandi volumi di pagine Web ed estrarre dati chiave come testo, immagini e metadati che corrispondono a uno schema predefinito.

Questi dati possono quindi essere strutturati e inseriti in modelli di intelligenza artificiale per addestrare le loro capacità di elaborazione del linguaggio naturale o capacità di generazione di immagini o addestrarli per altri compiti di intelligenza artificiale. In parole povere, i web crawler raccolgono i dati che consentono a strumenti come ChatGPT o DALL-E di fare quello che fanno.

I web crawler non sono un concetto nuovo. Probabilmente ce ne sono milioni che scansionano i miliardi di siti web disponibili oggi su Internet. E sono in circolazione almeno dai primi anni ’90. GPTBot è solo uno di questi crawler di proprietà di OpenAI. Quindi, cosa sta causando la controversia attorno a questo particolare web crawler?

Perché i grandi siti tecnologici bloccano GPTBot?

Secondo Business Insider, alcuni dei più grandi siti Web su Internet stanno bloccando attivamente il crawler di OpenAI sul proprio sito Web. Quindi, se l’obiettivo finale di GPTBot è quello di far avanzare lo sviluppo dell’intelligenza artificiale, perché alcuni dei più grandi siti su Internet, alcuni dei quali hanno beneficiato in un modo o nell’altro dell’intelligenza artificiale, si oppongono?

Bene, ecco il punto. Dalla rinascita delle tecnologie di intelligenza artificiale generativa nel 2022, ci sono stati numerosi dibattiti sul diritto delle aziende di intelligenza artificiale a utilizzare, quasi senza limiti, dati provenienti da Internet, una parte significativa dei quali è protetta dalla legge diritto d'autore. Nessuna legge chiara regola il modo in cui queste aziende raccolgono e utilizzano i dati per il proprio guadagno.

Quindi, in pratica, crawler come GPTBot scansionano il web, catturano il lavoro creativo delle persone sotto forma di testo, immagini o altre forme di media e utilizzarlo per scopi commerciali senza ottenere alcun permesso, licenza o fornire un compenso all'originale creatori.

Là fuori c'è un selvaggio west e le aziende di intelligenza artificiale si stanno accaparrando tutto ciò su cui riescono a mettere le mani. Grandi siti web come Quora, CNN, New York Times, Business Insider e Amazon non sono molto contenti del loro i contenuti protetti da copyright vengono raccolti da questi crawler, quindi OpenAI può trarne vantaggi finanziari a loro piacimento spese.

Ecco perché questi siti utilizzano "robots.txt", un metodo vecchio di decenni per bloccare i web crawler. Secondo OpenAI, GPTBot obbedirà alle istruzioni per scansionare o evitare la scansione dei siti web in base alle regole incorporate nel robots.txt, un piccolo file di testo che indica ai web crawler come comportarsi su un sito. Se hai un sito tutto tuo e ti piacerebbe impedire a GPTBot di acquisire i tuoi dati, ecco come puoi blocca i crawler di OpenAI dallo scraping del tuo sito web.

I siti web possono davvero fermare GPTBot?

Mentre i crawler come GPTBot sono indispensabili per raccogliere le enormi quantità di dati necessari addestrare sistemi di intelligenza artificiale avanzati, ci sono valide preoccupazioni riguardo al diritto d’autore e al fair use che non possono essere realizzate ignorato.

Certo, ci sono strumenti semplici come robots.txt che possono essere utilizzati per proteggersi da ciò, ma se GPTBot obbedisce alle istruzioni su questo file è interamente a discrezione di OpenAI. Non ci sono garanzie che lo facciano, e non esiste un modo immediato e infallibile per sapere se lo hanno fatto. Nella lotta per tenere GPTBot lontano dai dati protetti da copyright, OpenAI detiene l'asso, almeno per ora.