Preoccupato per i chatbot AI che raschiano il tuo sito web per i contenuti? Fortunatamente, puoi impedire loro di farlo. Ecco come.

Allo stato attuale, i chatbot AI hanno una licenza gratuita per eseguire lo scraping del tuo sito Web e utilizzarne il contenuto senza la tua autorizzazione. Preoccupato che i tuoi contenuti vengano cancellati da tali strumenti?

La buona notizia è che puoi impedire agli strumenti di intelligenza artificiale di accedere al tuo sito Web, ma ci sono alcuni avvertimenti. Qui, ti mostriamo come bloccare i bot utilizzando il file robots.txt per il tuo sito web, oltre ai pro e ai contro di farlo.

In che modo i chatbot AI accedono ai tuoi contenuti web?

I chatbot AI vengono addestrati utilizzando più set di dati, alcuni dei quali sono open source e disponibili pubblicamente. Ad esempio, GPT3 è stato addestrato utilizzando cinque set di dati, secondo un documento di ricerca pubblicato da OpenAI:

  1. Common Crawl (60% del peso in allenamento)
  2. WebText2 (peso del 22% nell'addestramento)
  3. instagram viewer
  4. Libri1 (peso 8% in allenamento)
  5. Libri2 (peso 8% in allenamento)
  6. Wikipedia (peso 3% in allenamento)

Scansione comune include petabyte (migliaia di TB) di dati da siti web raccolti dal 2008, in modo simile a come l'algoritmo di ricerca di Google esegue la scansione dei contenuti web. WebText2 è un set di dati creato da OpenAI, contenente circa 45 milioni di pagine Web collegate a post Reddit con almeno tre voti positivi.

Quindi, nel caso di ChatGPT, il bot AI non sta accedendo e scansionando direttamente le tue pagine web, non ancora, comunque. Tuttavia, OpenAI's annuncio di un browser Web ospitato da ChatGPT ha sollevato dubbi sul fatto che questo potrebbe essere in procinto di cambiare.

Nel frattempo, i proprietari di siti Web dovrebbero tenere d'occhio altri chatbot di intelligenza artificiale, poiché molti di loro arrivano sul mercato. Bard è l'altro grande nome nel campo, e si sa molto poco i set di dati utilizzati per addestrarlo. Ovviamente, sappiamo che i robot di ricerca di Google eseguono costantemente la scansione delle pagine Web, ma ciò non significa necessariamente che Bard abbia accesso agli stessi dati.

Perché alcuni proprietari di siti web sono preoccupati?

La più grande preoccupazione per i proprietari di siti Web è che i robot AI come ChatGPT, Bard e Bing Chat svalutino il loro contenuto. I robot di intelligenza artificiale utilizzano i contenuti esistenti per generare le loro risposte, ma riducono anche la necessità per gli utenti di accedere alla fonte originale. Invece di visitare i siti Web per accedere alle informazioni, gli utenti possono semplicemente fare in modo che Google o Bing generino un riepilogo delle informazioni di cui hanno bisogno.

Quando si tratta di chatbot AI nella ricerca, la grande preoccupazione per i proprietari di siti Web è la perdita di traffico. Nel caso di Bard, il robot AI raramente include citazioni nelle sue risposte generative, indicando agli utenti da quali pagine ottiene le sue informazioni.

Quindi, oltre a sostituire le visite al sito Web con le risposte AI, Bard elimina quasi ogni possibilità che il sito Web di origine riceva traffico, anche se l'utente desidera maggiori informazioni. Bing Chat, d'altra parte, più comunemente si collega a fonti di informazioni.

In altre parole, lo è l'attuale flotta di strumenti di intelligenza artificiale generativa utilizzando il lavoro dei creatori di contenuti sostituire sistematicamente la necessità di creatori di contenuti. Alla fine, devi chiedere quale incentivo lascia ai proprietari di siti web per continuare a pubblicare contenuti. E, per estensione, cosa succede ai robot AI quando i siti Web smettono di pubblicare i contenuti su cui si basano per funzionare?

Come bloccare i robot AI dal tuo sito web

Se non vuoi che i robot AI utilizzino i tuoi contenuti web, puoi impedire loro di accedere al tuo sito utilizzando il robots.txt file. Sfortunatamente, devi bloccare ogni singolo bot e specificarlo per nome.

Ad esempio, il bot di Common Crawl si chiama CCBot e puoi bloccarlo aggiungendo il seguente codice al tuo file robots.txt:

Agente utente: CCBot
Non consentire: /

Ciò impedirà a Common Crawl di eseguire la scansione del tuo sito Web in futuro, ma non rimuoverà i dati già raccolti dalle scansioni precedenti.

Se sei preoccupato per i nuovi plug-in di ChatGPT che accedono ai tuoi contenuti Web, OpenAI ha già pubblicato istruzioni per bloccare il suo bot. In questo caso, il bot di ChatGPT si chiama ChatGPT-User e puoi bloccarlo aggiungendo il seguente codice al tuo file robots.txt:

Agente utente: ChatGPT-Utente
Non consentire: /

Tuttavia, impedire ai robot AI dei motori di ricerca di eseguire la scansione dei tuoi contenuti è un altro problema. Poiché Google è molto riservato sui dati di addestramento che utilizza, è impossibile identificare quali bot dovrai bloccare e se rispetteranno anche i comandi nel tuo robots.txt file (molti crawler non lo fanno).

Quanto è efficace questo metodo?

Bloccare i robot AI nel tuo robots.txt file è il metodo più efficace attualmente disponibile, ma non è particolarmente affidabile.

Il primo problema è che devi specificare ogni bot che vuoi bloccare, ma chi può tenere traccia di ogni bot AI che arriva sul mercato? Il prossimo problema è che i comandi nel tuo robots.txt file sono istruzioni non obbligatorie. Mentre Common Crawl, ChatGPT e molti altri bot rispettano questi comandi, molti bot non lo fanno.

L'altro grande avvertimento è che puoi solo impedire ai robot AI di eseguire scansioni future. Non puoi rimuovere i dati dalle scansioni precedenti o inviare richieste ad aziende come OpenAI per cancellare tutti i tuoi dati.

Sfortunatamente, non esiste un modo semplice per impedire a tutti i robot di intelligenza artificiale di accedere al tuo sito Web e bloccare manualmente ogni singolo bot è quasi impossibile. Anche se tieni il passo con gli ultimi robot IA che vagano per il Web, non c'è alcuna garanzia che aderiscano tutti ai comandi nel tuo robots.txt file.

La vera domanda qui è se i risultati valgono lo sforzo e la risposta breve è (quasi certamente) no.

Ci sono anche potenziali svantaggi nel bloccare i robot AI dal tuo sito web. Soprattutto, non sarai in grado di raccogliere dati significativi per dimostrare se strumenti come Bard stanno avvantaggiando o danneggiando la tua strategia di marketing per i motori di ricerca.

Sì, puoi presumere che la mancanza di citazioni sia dannosa, ma stai solo indovinando se ti mancano i dati perché hai impedito ai robot AI di accedere ai tuoi contenuti. Era una storia simile quando Google ha introdotto per la prima volta frammenti in primo piano cercare.

Per le query pertinenti, Google mostra uno snippet di contenuto delle pagine Web nella pagina dei risultati, rispondendo alla domanda dell'utente. Ciò significa che gli utenti non devono fare clic su un sito Web per ottenere la risposta che stanno cercando. Ciò ha causato il panico tra i proprietari di siti Web e gli esperti SEO che si affidano alla generazione di traffico dalle query di ricerca.

Tuttavia, il tipo di query che attivano gli snippet in primo piano sono generalmente ricerche di basso valore come "che cos'è X" o "com'è il tempo a New York". Chiunque desideri informazioni approfondite o un bollettino meteorologico completo farà comunque clic e coloro che non lo desiderano non sono mai stati così preziosi in primo luogo.

Potresti scoprire che è una storia simile con gli strumenti di intelligenza artificiale generativa, ma avrai bisogno dei dati per dimostrarlo.

Non precipitarti in nulla

I proprietari e gli editori di siti Web sono comprensibilmente preoccupati per la tecnologia AI e frustrati dall'idea che i robot utilizzino i loro contenuti per generare risposte istantanee. Tuttavia, questo non è il momento di lanciarsi in mosse controffensive. La tecnologia AI è un campo in rapida evoluzione e le cose continueranno a evolversi a un ritmo rapido. Cogli questa opportunità per vedere come vanno le cose e analizzare le potenziali minacce e le opportunità che l'AI offre.

L'attuale sistema di fare affidamento sul lavoro dei creatori di contenuti per sostituirli non è sostenibile. Sia che aziende come Google e OpenAI cambino il loro approccio o che i governi introducano nuove normative, qualcosa deve dare. Allo stesso tempo, stanno diventando sempre più evidenti le implicazioni negative dei chatbot AI sulla creazione di contenuti, che i proprietari di siti Web e i creatori di contenuti possono sfruttare a proprio vantaggio.