Cerchi un modo per addestrare una potente intelligenza artificiale per le tue applicazioni specifiche? Prova a trasferire l'apprendimento!

Se sei interessato ad addestrare il tuo modello di intelligenza artificiale per l'elaborazione del linguaggio naturale (PNL) o la visione artificiale, dovresti familiarizzare con il transfer learning e come utilizzare i modelli pre-addestrati.

Senza trasferire l'apprendimento, la formazione di un modello efficace e affidabile sarà spesso uno sforzo proibitivo in termini di risorse, che richiede un sacco di soldi, tempo ed esperienza, con lo sviluppatore di ChatGPT OpenAI che si stima abbia speso milioni per addestrare GPT-3, GPT-3.5 e GPT-4. Con la potenza del transfer learning, puoi addestrare il tuo modello potente come l'ultimo modello GPT con poche risorse in un breve periodo.

Che cos'è l'apprendimento del trasferimento AI?

Il trasferimento dell'apprendimento è l'idea di prendere un modello pre-addestrato come BERT o uno dei diversi modelli GPT e addestrarlo su un set di dati personalizzato per lavorare su attività che non era necessariamente addestrato ad affrontare.

instagram viewer

Ad esempio, puoi prendere un modello pre-addestrato per classificare diverse specie di gatti e addestrarlo per classificare i cani. Attraverso l'apprendimento del trasferimento, l'addestramento del modello di classificazione del cane dovrebbe richiedere molto meno tempo e risorse per diventare affidabile come il modello originale di classificazione del gatto.

Funziona poiché cani e gatti condividono molti tratti che il modello pre-addestrato può già identificare. Poiché il modello di classificazione dei gatti può identificare i vari tratti di un gatto, come avere quattro zampe, pellicce e prominenti musi, il modello di classificazione del cane può saltare tutto l'addestramento per identificare quei tratti ed ereditarli dall'originale modello. Dopo aver ereditato tutte quelle reti neurali, tagli gli ultimi strati del modello addestrato utilizzato per identificare i tratti più specifici di un gatto e li sostituisci con un set di dati specifico per i cani.

Quali modelli di intelligenza artificiale puoi utilizzare per trasferire l'apprendimento?

Per utilizzare il transfer learning, avrai bisogno di un modello preaddestrato. Un modello pre-addestrato è comunemente noto come un modello di intelligenza artificiale addestrato allo scopo di acquisire conoscenze generali su un particolare argomento o idea. Questi tipi di modelli pre-addestrati sono appositamente creati per consentire alle persone di perfezionare e creare modelli più specifici per l'applicazione. Alcuni dei modelli pre-addestrati più popolari sono per la PNL, come BERT e GPTe visione artificiale, come VGG19 e Inceptionv3.

Sebbene popolari, questi modelli facilmente ottimizzabili non sono gli unici che puoi utilizzare per trasferire l'apprendimento. È inoltre possibile utilizzare modelli addestrati su attività più specifiche rispetto al riconoscimento generico di oggetti o lingua. Finché il modello ha sviluppato reti neurali applicabili al modello che stai tentando di addestrare, puoi utilizzare praticamente qualsiasi modello per trasferire l'apprendimento.

Puoi ottenere modelli preaddestrati pubblicamente disponibili da luoghi come TensorFlow Hub, Hugging Face e il mercato dei modelli OpenAI.

Vantaggi dell'utilizzo dell'AI Transfer Learning

Il trasferimento dell'apprendimento offre numerosi vantaggi rispetto all'addestramento di un modello di intelligenza artificiale da zero.

  • Tempo di formazione ridotto: Quando si addestra un modello da zero, gran parte del processo di formazione viene dedicato alla conoscenza di base generale. Attraverso il transfer learning, il tuo modello eredita automaticamente tutte queste conoscenze di base, riducendo così in modo significativo i tempi di formazione.
  • Meno fabbisogno di risorse: Poiché tutte le conoscenze di base sono già presenti, tutto ciò che devi fare è addestrare ulteriormente il modello per le specifiche della tua applicazione. Ciò richiede spesso solo un set di dati relativamente piccolo che può essere elaborato con una potenza di calcolo inferiore.
  • Prestazione migliorata: A meno che tu non spenda milioni di dollari per costruire il tuo modello da zero, non puoi aspettarti un modello buono o affidabile come un modello di linguaggio di grandi dimensioni (LLM) da una gigantesca azienda tecnologica. Utilizzando il transfer learning, puoi sfruttare le potenti capacità di questi LLM preaddestrati, come GPT, per migliorare le prestazioni del tuo modello.

È possibile addestrare un modello di intelligenza artificiale da zero, ma per farlo sono necessarie maggiori risorse.

Come funziona il trasferimento dell'apprendimento?

In sostanza, ci sono tre fasi quando si tratta di trasferire l'apprendimento.

  • Selezione di un modello preaddestrato: Un modello preaddestrato viene sottoposto all'addestramento iniziale utilizzando un set di dati di dimensioni considerevoli da un'attività di origine, ad esempio ImageNet, o un'ampia raccolta di testo. Questa fase di addestramento iniziale consente al modello di acquisire la conoscenza delle caratteristiche e dei modelli generali trovati nel set di dati. La quantità di tempo e risorse risparmiate dal transfer learning dipenderà dalle somiglianze tra il modello pre-addestrato e il modello che stai cercando di costruire.
  • Estrazione delle caratteristiche: Dopo aver selezionato un modello pre-addestrato per la messa a punto, i livelli iniziali del modello pre-addestrato (i più vicini all'input) vengono congelati; ciò significa che i loro pesi vengono mantenuti fissi durante la messa a punto. Il congelamento di questi livelli conserva le conoscenze generali apprese durante la fase di pre-addestramento e impedisce loro di essere pesantemente influenzati dal set di dati specifico delle attività del modello di destinazione. Per i modelli completamente addestrati per applicazioni specifiche, i livelli finali dei modelli vengono rimossi o non appresi per il modello di destinazione da addestrare in altre applicazioni specifiche.
  • Ritocchi: Dopo che il modello pre-addestrato è stato congelato e i livelli superiori rimossi, un nuovo set di dati viene inviato all'algoritmo di apprendimento, che viene quindi utilizzato per addestrare il nuovo modello e le specifiche della sua applicazione.

C'è di più oltre alle tre fasi, ma questo schema descrive in dettaglio come funziona il processo di apprendimento del trasferimento dell'IA, con qualche messa a punto.

Limitazioni all'AI Transfer Learning

Sebbene l'apprendimento di trasferimento sia un concetto prezioso per l'addestramento di modelli efficaci e affidabili, ci sono alcune limitazioni che è necessario conoscere quando si utilizza l'apprendimento di trasferimento per addestrare un modello.

  • Attività non corrispondente: Quando si sceglie un modello di base per il trasferimento dell'apprendimento, deve essere il più pertinente possibile ai problemi che il nuovo modello risolverà. È più probabile che l'utilizzo di un modello che classifica i gatti per creare un modello di classificazione dei cani produca risultati migliori rispetto all'utilizzo di un modello di classificazione delle auto per creare un modello per le piante. Quanto più pertinente è il modello di base rispetto al modello che stai tentando di creare, tanto più tempo e risorse risparmierai durante il processo di trasferimento dell'apprendimento.
  • Distorsione del set di dati: Sebbene i modelli pre-addestrati siano spesso addestrati in set di dati di grandi dimensioni, esiste ancora la possibilità che abbiano sviluppato un particolare bias durante il loro addestramento. L'utilizzo del modello di base altamente distorto farebbe sì che il modello erediti i suoi bias, riducendo così l'accuratezza e l'affidabilità del modello. Sfortunatamente, l'origine di questi pregiudizi è difficile da individuare a causa del natura black-box del deep learning.
  • Sovrapposizione: Uno dei principali vantaggi del trasferimento dell'apprendimento è che è possibile utilizzare un set di dati relativamente piccolo per addestrare ulteriormente un modello. Tuttavia, l'addestramento del modello su un set di dati troppo piccolo può causare l'overfitting, che riduce significativamente l'affidabilità del modello quando vengono forniti nuovi dati.

Quindi, mentre l'apprendimento del trasferimento è una pratica tecnica di apprendimento dell'IA, esistono dei limiti e non è un proiettile d'argento.

Dovresti usare il trasferimento di apprendimento?

Sin dalla disponibilità di modelli pre-addestrati, il transfer learning è sempre stato utilizzato per creare modelli più specializzati. Non c'è davvero alcun motivo per non utilizzare il transfer learning se esiste già un modello pre-addestrato rilevante per i problemi che il tuo modello risolverà.

Sebbene sia possibile addestrare da zero un semplice modello di machine learning, sarà necessario farlo su un modello di deep learning molti dati, tempo e abilità, il che non avrebbe senso se puoi riutilizzare un modello esistente simile a quello che intendi utilizzare treno. Quindi, se vuoi spendere meno tempo e denaro per addestrare un modello, prova ad addestrare il tuo modello attraverso l'apprendimento di trasferimento.