PaLM 2 porta enormi aggiornamenti a LLM di Google, ma questo significa che ora può andare in punta di piedi con GPT-4 di OpenAI?
Google ha presentato la prossima generazione del suo Pathways Language Model (PaLM 2) il 10 maggio 2023, al Google I/O 2023. Il suo nuovo modello di linguaggio di grandi dimensioni (LLM) vanta molti miglioramenti rispetto al suo predecessore (PaLM) e potrebbe finalmente essere pronto per affrontare il suo più grande rivale, GPT-4 di OpenAI.
Ma quanti miglioramenti ha fatto Google? PaLM 2 è il creatore della differenza che Google spera che sia e, cosa più importante, con così tante funzionalità simili, in che modo PaLM 2 è diverso dal GPT-4 di OpenAI?
PALM 2 vs. GPT-4: panoramica delle prestazioni
PaLM 2 è ricco di funzionalità nuove e migliorate rispetto al suo predecessore. Uno dei vantaggi unici che PaLM 2 ha rispetto a GPT-4 è il fatto che è disponibile in dimensioni più piccole specifiche per determinate applicazioni che non hanno la stessa potenza di elaborazione integrata.
Tutte queste diverse dimensioni hanno i loro modelli più piccoli chiamati Gecko, Otter, Bison e Unicorn, con Gecko il più piccolo, seguito da Otter, Bison e infine Unicorn, il modello più grande.
Google afferma anche un miglioramento delle capacità di ragionamento rispetto a GPT-4 in WinoGrande e DROP, con il primo che ottiene un margine ristretto in ARC-C. Tuttavia, c'è un miglioramento significativo su tutta la linea quando si tratta di PaLM e SOTA.
PaLM 2 è anche migliore in matematica, secondo le 91 pagine di Google Documento di ricerca PaLM 2 [PDF]. Tuttavia, il modo in cui Google e OpenAI hanno strutturato i risultati dei test rende difficile confrontare direttamente i due modelli. Google ha anche omesso alcuni confronti, probabilmente perché PaLM 2 non ha funzionato altrettanto bene di GPT-4.
In MMLU, GPT-4 ha segnato 86,4, mentre PaLM 2 ha segnato 81,2. Lo stesso vale per HellaSwag, dove GPT-4 ha segnato 95.3, ma PaLM 2 ha potuto raccogliere solo 86.8 e ARC-E, dove GPT-4 e PaLM 2 hanno ottenuto 96.3 e 89.7, rispettivamente.
Il modello più grande della famiglia PaLM 2 è PaLM 2-L. Sebbene non ne conosciamo le dimensioni esatte, sappiamo che è significativamente più piccolo del modello PaLM più grande, ma utilizza più computer di addestramento. Secondo Google, PaLM ha 540 miliardi di parametri, quindi il "significativamente più piccolo" dovrebbe mettere PaLM 2 ovunque tra 10 e 300 miliardi di parametri. Tieni presente che questi numeri sono solo ipotesi basate su ciò che Google ha affermato nel documento PaLM 2.
Se questo numero è vicino a 100 miliardi o meno, PaLM 2 è molto probabilmente inferiore in termini di parametri rispetto a GPT-3.5. Considerare che un modello potenzialmente inferiore a 100 miliardi può andare in punta di piedi con GPT-4 e persino batterlo in alcune attività è degno di nota. GPT-3.5 inizialmente ha fatto saltare tutto fuori dall'acqua, incluso PaLM, ma PaLM 2 ha fatto una bella ripresa.
Differenze nei dati di addestramento GPT-4 e PaLM 2
Sebbene Google non abbia svelato le dimensioni del set di dati di addestramento di PaLM 2, la società riporta nel suo documento di ricerca che il set di dati di addestramento del nuovo LLM è significativamente più grande. Anche OpenAI ha adottato lo stesso approccio quando ha presentato GPT-4, senza fare affermazioni sulla dimensione del set di dati di addestramento.
Tuttavia, Google ha voluto concentrarsi su una comprensione più profonda della matematica, della logica, del ragionamento e della scienza, il che significa che gran parte dei dati di formazione di PaLM 2 è incentrata sugli argomenti di cui sopra. Google afferma nel suo documento che il corpus pre-training di PaLM 2 è composto da più fonti, inclusi documenti web, libri, codice, matematica e dati conversazionali, apportando miglioramenti su tutta la linea, almeno rispetto a Palma.
Anche le abilità conversazionali di PaLM 2 dovrebbero essere su un altro livello considerando che il modello è stato addestrato in oltre 100 lingue per dargli una migliore comprensione contestuale e una migliore traduzione capacità.
Per quanto riguarda i dati di addestramento di GPT-4, OpenAI ci ha comunicato di aver addestrato il modello utilizzando i dati disponibili pubblicamente e i dati concessi in licenza. Pagina di ricerca di GPT-4 afferma: "I dati sono un corpus di dati su scala web che include soluzioni corrette e non corrette a problemi di matematica, deboli e forti ragionamenti, affermazioni contraddittorie e coerenti e che rappresentano una grande varietà di ideologie e idee».
Quando viene posta una domanda a GPT-4, può produrre un'ampia varietà di risposte, non tutte pertinenti alla tua domanda. Per allinearlo alle intenzioni dell'utente, OpenAI ha messo a punto il comportamento del modello utilizzando l'apprendimento per rinforzo con feedback umano.
Sebbene potremmo non conoscere i dati di addestramento esatti su cui è stato addestrato uno di questi modelli, sappiamo che l'intento di addestramento era molto diverso. Dovremo aspettare e vedere come questa differenza nell'intento di addestramento differenzia i due modelli in una distribuzione nel mondo reale.
Chatbot e servizi PaLM 2 e GPT-4
Il primo portale per accedere a entrambi gli LLM utilizza i rispettivi chatbot, Bard di PaLM 2 e ChatGPT di GPT-4. Detto questo, GPT-4 è dietro un paywall con ChatGPT Plus e gli utenti gratuiti hanno accesso solo a GPT-3.5. Bard, d'altra parte, è gratuito per tutti e disponibile in 180 paesi.
Questo non vuol dire che non puoi nemmeno accedere a GPT-4 gratuitamente. Bing AI Chat di Microsoft utilizza GPT-4 ed è completamente gratuito, aperto a tutti e disponibile proprio accanto a Bing Search, il più grande rivale di Google nello spazio.
Google I/O 2023 è stato pieno di annunci su come PaLM 2 e l'integrazione dell'IA generativa miglioreranno Google Workspace esperienza con le funzionalità AI in arrivo su Google Documenti, Fogli, Presentazioni, Gmail e praticamente tutti i servizi offerti dal gigante della ricerca. Inoltre, Google ha confermato che PaLM 2 è già stato integrato in oltre 25 prodotti Google, tra cui Android e YouTube.
In confronto, Microsoft ha già introdotto funzionalità di intelligenza artificiale nella suite di programmi Microsoft Office e in molti dei suoi servizi. Al momento, puoi provare entrambi gli LLM nelle loro versioni di offerte simili di due società rivali che si scontrano nella battaglia contro l'IA.
Tuttavia, poiché GPT-4 è uscito presto ed è stato attento a evitare molti degli errori che Google ha fatto con il Bard originale, è stato il de facto LLM per sviluppatori di terze parti, startup e praticamente chiunque altro desideri incorporare un modello di intelligenza artificiale capace nel proprio servizio, quindi lontano. Noi abbiamo un elenco di app GPT-4 se vuoi verificarle.
Questo non vuol dire che gli sviluppatori non passeranno o almeno proveranno PaLM 2, ma Google deve ancora recuperare il ritardo con OpenAI su questo fronte. E il fatto che PaLM 2 sia open source, invece di essere bloccato dietro un'API a pagamento, significa che ha il potenziale per essere adottato più ampiamente di GPT-4.
PaLM 2 può affrontare GPT-4?
PaLM 2 è ancora molto nuovo, quindi resta da rispondere se può o meno affrontare GPT-4. Tuttavia, con tutto ciò che Google promette e il modo aggressivo che ha deciso di utilizzare per propagarlo, sembra che PaLM 2 possa dare filo da torcere a GPT-4.
Tuttavia, GPT-4 è ancora un modello abbastanza capace e, come accennato in precedenza, batte PaLM 2 in parecchi confronti. Detto questo, i numerosi modelli più piccoli di PaLM 2 gli conferiscono un vantaggio inconfutabile. Gecko stesso è così leggero che può funzionare su dispositivi mobili, anche offline. Ciò significa che PaLM 2 può supportare una classe completamente diversa di prodotti e dispositivi che potrebbero avere difficoltà a utilizzare GPT-4.
La corsa all'IA si sta scaldando
Con il lancio di PaLM2, la corsa per il dominio dell'IA si è accesa, poiché questo potrebbe essere il primo degno avversario a sfidare GPT-4. Con un nuovo modello di intelligenza artificiale multimodale chiamato "Gemini" anche in formazione, Google non mostra alcun segno di rallentamento qui.