L’apprendimento zero-shot risolve diversi problemi dell’apprendimento automatico, ma come funziona e come migliora l’intelligenza artificiale?

Punti chiave

  • La generalizzazione è essenziale nel deep learning per garantire previsioni accurate con nuovi dati. L’apprendimento zero-shot aiuta a raggiungere questo obiettivo consentendo all’intelligenza artificiale di utilizzare le conoscenze esistenti per fare previsioni accurate su classi nuove o mai viste senza dati etichettati.
  • L’apprendimento zero-shot imita il modo in cui gli esseri umani apprendono ed elaborano i dati. Fornendo informazioni semantiche aggiuntive, un modello pre-addestrato può identificare con precisione nuove classi, proprio come un essere umano può imparare a identificare una chitarra a corpo cavo comprendendone le caratteristiche.
  • L'apprendimento zero-shot migliora l'intelligenza artificiale migliorando la generalizzazione, la scalabilità, riducendo l'overfitting ed essendo economicamente vantaggioso. Consente di addestrare i modelli su set di dati più ampi, acquisire più conoscenze attraverso il trasferimento dell'apprendimento, avere una migliore comprensione contestuale e ridurre la necessità di dati etichettati estesi. Con l’avanzare dell’intelligenza artificiale, l’apprendimento zero-shot diventerà ancora più importante nell’affrontare sfide complesse in vari campi.
    instagram viewer

Uno dei maggiori obiettivi del deep learning è addestrare modelli che hanno acquisito una conoscenza generalizzata. La generalizzazione è essenziale perché garantisce che il modello abbia appreso modelli significativi e possa fare previsioni o decisioni accurate quando si trova di fronte a dati nuovi o invisibili. L'addestramento di tali modelli spesso richiede una notevole quantità di dati etichettati. Tuttavia, tali dati possono essere costosi, laboriosi e talvolta impossibili.

L’apprendimento zero-shot viene implementato per colmare questa lacuna, consentendo all’intelligenza artificiale di utilizzare le conoscenze esistenti per fare previsioni abbastanza accurate nonostante la mancanza di dati etichettati.

Che cos'è l'apprendimento Zero-Shot?

L'apprendimento zero-shot è un tipo specifico di tecnica di apprendimento di trasferimento. Si concentra sull'utilizzo di un modello pre-addestrato per identificare classi nuove o mai viste prima semplicemente fornendo informazioni aggiuntive che descrivono i dettagli della nuova classe.

Utilizzando la conoscenza generale di un modello su determinati argomenti e fornendogli una semantica aggiuntiva su cosa cercare, dovrebbe essere in grado di individuare con precisione quale argomento ha il compito di identificare.

Diciamo che dobbiamo identificare una zebra. Tuttavia, non disponiamo di un modello in grado di identificare tali animali. Quindi, otteniamo un modello preesistente addestrato per identificare i cavalli e dire al modello che i cavalli con strisce bianche e nere sono zebre. Quando iniziamo a inferire il modello fornendo immagini di zebre e cavalli, ci sono buone probabilità che il modello identifichi correttamente ciascun animale.

Come molte tecniche di deep learning, l’apprendimento zero-shot imita il modo in cui gli esseri umani apprendono ed elaborano i dati. Gli esseri umani sono noti per essere studenti naturali che imparano a colpo zero. Se ti venisse chiesto di trovare una chitarra a corpo cavo in un negozio di musica, potresti avere problemi a cercarne una. Ma una volta che ti dico che un corpo cavo è fondamentalmente una chitarra con un foro a forma di F su uno o entrambi i lati, probabilmente ne troverai subito uno.

Per un esempio reale, utilizziamo l'app di classificazione zero-shot di sito di hosting LLM open source Hugging Face utilizzando il modello clip-vit-large.

Questa foto ritrae l'immagine del pane in un sacchetto della spesa legato a un seggiolone. Poiché il modello è stato addestrato su un ampio set di dati di immagini, è probabilmente in grado di identificare ogni elemento nella foto, come pane, generi alimentari, sedie e cinture di sicurezza.

Ora vogliamo che il modello classifichi l'immagine utilizzando classi mai viste prima. In questo caso, le classi nuove o mai viste sarebbero "Pane rilassato", "Pane sicuro", "Pane seduto", "Drogheria alla guida" e "Drogheria sicura".

Tieni presente che abbiamo utilizzato di proposito classi e immagini invisibili non comuni per dimostrare l'efficacia della classificazione zero-shot su un'immagine.

Dopo aver inferito il modello, è stato in grado di classificare con una certezza pari a circa l'80% che la classificazione più appropriata per il l'immagine era "Pane sicuro". Ciò è probabilmente dovuto al fatto che il modello pensa che un seggiolone sia più per la sicurezza che per sedersi, rilassarsi o guida.

Eccezionale! Personalmente sarei d'accordo con l'output del modello. Ma come ha fatto esattamente il modello a produrre un simile risultato? Ecco una visione generale di come funziona l'apprendimento zero-shot.

Come funziona l'apprendimento Zero-Shot

L'apprendimento zero-shot può aiutare un modello pre-addestrato a identificare nuove classi senza fornire dati etichettati. Nella sua forma più semplice, l’apprendimento zero-shot avviene in tre passaggi:

1. Preparazione

L’apprendimento zero-shot inizia preparando tre tipi di dati

  • Classe vista: Dati utilizzati nell'addestramento del modello preaddestrato. Il modello fornisce già le classi viste. I migliori modelli per l'apprendimento zero-shot sono modelli addestrati su classi strettamente correlate alla nuova classe che si desidera che il modello identifichi.
  • Classe Invisibile/Romanzo: Dati che non sono mai stati utilizzati durante l'addestramento del modello. Dovrai curare tu stesso questi dati poiché non puoi ottenerli dal modello.
  • Dati semantici/ausiliari: Bit di dati aggiuntivi che possono aiutare il modello a identificare la nuova classe. Può trattarsi di parole, frasi, incorporamenti di parole o nomi di classi.

2. Mappatura semantica

Il prossimo passo è mappare le caratteristiche della classe invisibile. Questo viene fatto creando incorporamenti di parole e creando una mappa semantica che collega gli attributi o le caratteristiche della classe invisibile ai dati ausiliari forniti. Apprendimento trasferito dall'intelligenza artificiale rende il processo molto più veloce, poiché molti attributi relativi alla classe invisibile sono già stati mappati.

3. Inferenza

L'inferenza è l'uso del modello per generare previsioni o output. Nella classificazione delle immagini zero-shot, gli incorporamenti di parole vengono generati sull'input dell'immagine fornita e vengono quindi tracciati e confrontati con i dati ausiliari. Il livello di certezza dipenderà dalla somiglianza tra i dati inseriti e quelli ausiliari forniti.

Come l'apprendimento Zero-Shot migliora l'intelligenza artificiale

L'apprendimento zero-shot migliora i modelli di intelligenza artificiale affrontando diverse sfide nell'apprendimento automatico, tra cui:

  • Generalizzazione migliorata: Ridurre la dipendenza dai dati etichettati consente di addestrare i modelli in set di dati più ampi, migliorando la generalizzazione e rendendo il modello più robusto e affidabile. Man mano che i modelli diventano più esperti e generalizzati, potrebbe anche essere possibile che i modelli imparino il buon senso piuttosto che il modo tipico di analizzare le informazioni.
  • Scalabilità: I modelli possono essere continuamente addestrati e acquisire maggiori conoscenze attraverso il trasferimento dell'apprendimento. Le aziende e i ricercatori indipendenti possono migliorare continuamente i loro modelli per essere più capaci in futuro.
  • Ridotta possibilità di overfitting: L'adattamento eccessivo può verificarsi perché il modello viene addestrato su un set di dati di piccole dimensioni che non contiene una varietà sufficiente per rappresentare tutti i possibili input. L'addestramento del modello tramite l'apprendimento zero-shot riduce le possibilità di overfitting addestrando il modello ad avere una migliore comprensione contestuale dei soggetti.
  • Conveniente: Fornire una grande quantità di dati etichettati può richiedere tempo e risorse. Utilizzando l'apprendimento del trasferimento zero-shot, l'addestramento di un modello robusto può essere eseguito con molto meno tempo e dati etichettati.

Con l’avanzare dell’intelligenza artificiale, tecniche come l’apprendimento zero-shot diventeranno ancora più importanti.

Il futuro dell’apprendimento zero-shot

L’apprendimento zero-shot è diventato una parte essenziale dell’apprendimento automatico. Consente ai modelli di riconoscere e classificare nuove classi senza una formazione esplicita. Con il continuo progresso nelle architetture dei modelli, negli approcci basati sugli attributi e nell’integrazione multimodale, l’apprendimento zero-shot può farlo contribuire in modo significativo a rendere i modelli molto più adattabili nell’affrontare sfide complesse nel campo della robotica, della sanità e dei computer visione.