Probabilmente hai sentito parlare del GPT di OpenAI, ma non sono gli unici LLM sul blocco.
Punti chiave
- GPT-4 di OpenAI è il modello di linguaggio di grandi dimensioni più avanzato e ampiamente utilizzato, con 1,76 trilioni di parametri e capacità multimodali.
- Claude 2 di Anthropic compete con GPT-4 nelle attività di scrittura creativa e resiste nonostante abbia meno risorse.
- PaLM 2 di Google, pur non essendo un killer GPT-4, è un potente modello linguistico con forti capacità multilingue e creative. Falcon-180B è un modello open source che rivaleggia con i giganti commerciali e può competere con GPT-3.5.
È la stagione dell'intelligenza artificiale e le aziende tecnologiche stanno sfornando grandi modelli linguistici come il pane di un panificio. I nuovi modelli vengono rilasciati rapidamente e sta diventando troppo difficile tenerne traccia.
Ma in mezzo alla raffica di nuove versioni, solo pochi modelli sono saliti ai vertici e si sono dimostrati veri contendenti nell’ampio spazio dei modelli linguistici. Mentre ci avviciniamo alla fine del 2023, abbiamo messo insieme i sei modelli linguistici di grandi dimensioni più impressionanti che dovresti provare.
1. GPT-4 di OpenAI
GPT-4 è il modello linguistico di grandi dimensioni più avanzato disponibile al pubblico fino ad oggi. Sviluppato da OpenAI e rilasciato a marzo 2023, GPT-4 è l'ultima iterazione della serie Generative Pre-addestrated Transformer che ha avuto inizio nel 2018. Con le sue immense capacità, GPT-4 è diventato uno dei modelli di linguaggi di grandi dimensioni più utilizzati e più popolari al mondo.
Sebbene non confermato ufficialmente, le fonti stimano che GPT-4 possa contenere l'incredibile cifra di 1,76 trilioni di parametri, circa dieci volte più grande del suo predecessore, GPT-3.5, e cinque volte più grande dell'ammiraglia di Google, PaLM 2. Questa enorme scala abilita le capacità multimodali di GPT-4, consentendogli di elaborare sia testo che immagini come input. Di conseguenza, GPT-4 può interpretare e descrivere informazioni visive come diagrammi e schermate oltre al testo. La sua natura multimodale fornisce una comprensione più umana dei dati del mondo reale.
Nei benchmark scientifici, GPT-4 supera significativamente altri modelli contemporanei in vari test. Sebbene i benchmark da soli non dimostrino pienamente i punti di forza di un modello, i casi d'uso del mondo reale hanno dimostrato che GPT-4 è eccezionalmente abile nel risolvere problemi pratici in modo intuitivo. GPT-4 è attualmente fatturato a $ 20 al mese e accessibile tramite il piano Plus di ChatGPT.
2. Claude 2 di Anthropic
Sebbene non sia così popolare come GPT-4, Claude 2, sviluppato da Anthropic AI, può eguagliare i benchmark tecnici di GPT-4 e le prestazioni nel mondo reale in diverse aree. In alcuni test standardizzati, inclusi esami selezionati, Claude 2 supera GPT-4. Il modello linguistico AI ha anche una finestra di contesto di gran lunga superiore con circa 100.000 token, rispetto ai modelli di token 8k e 32k di GPT -4. Sebbene una maggiore lunghezza del contesto non si traduca sempre in prestazioni migliori, la capacità estesa di Claude 2 offre chiari vantaggi, come la digestione di interi libri di 75.000 parole per l'analisi.
Nelle prestazioni complessive, GPT-4 rimane superiore, ma i nostri test interni mostrano che Claude 2 lo supera in diversi compiti di scrittura creativa. Claude 2 segue anche GPT-4 nelle abilità di programmazione e matematica in base alle nostre valutazioni, ma eccelle nel fornire risposte creative e simili a quelle umane. Quando abbiamo chiesto a tutti i modelli di questo elenco di scrivere o riscrivere un pezzo creativo, sei volte su dieci, abbiamo scelto il risultato di Claude 2 per i suoi risultati dal suono naturale e simili a quelli umani. Attualmente, Claude 2 è disponibile gratuitamente tramite il chatbot Claude AI. C'è anche un piano a pagamento da $ 20 per l'accesso a funzionalità extra.
Nonostante abbia meno sostegno finanziario rispetto a giganti come OpenAI e Microsoft, il modello AI Claude 2 di Anthropic regge il confronto con i popolari modelli GPT e la serie PaLM di Google. Per un'intelligenza artificiale con meno risorse, Claude 2 è straordinariamente competitiva. Se costretti a scommettere su quale modello esistente abbia le migliori possibilità di rivaleggiare con GPT nel prossimo futuro, Claude 2 sembra la scommessa più sicura. Anche se in termini di finanziamenti, le capacità avanzate di Claude 2 suggeriscono che può competere anche con colossi ben finanziati (anche se vale la pena notare che Google ha dato diversi grandi contributi a Antropico). Il modello supera la sua classe di peso e si dimostra promettente come sfidante emergente.
3. GPT-3.5 di OpenAI
Sebbene messo in ombra dal rilascio di GPT-4, GPT-3.5 e i suoi 175 miliardi di parametri non dovrebbero essere sottovalutati. Attraverso la messa a punto iterativa e gli aggiornamenti incentrati su prestazioni, precisione e sicurezza, GPT-3.5 ha fatto molta strada rispetto al modello GPT-3 originale. Sebbene manchi delle capacità multimodali di GPT -4 e sia in ritardo nella lunghezza del contesto e nel conteggio dei parametri, GPT-3.5 rimane altamente capace, con GPT-4 che è l'unico modello in grado di superare le sue prestazioni a tutto tondo decisamente.
Nonostante sia un modello di secondo livello nella famiglia GPT, GPT-3.5 può reggere il confronto e persino superare i modelli di punta di Google e Meta su diversi benchmark. Nei test comparativi di abilità matematiche e di programmazione rispetto al PaLM 2 di Google, le differenze non erano evidenti, con GPT-3.5 che in alcuni casi aveva anche un leggero vantaggio. Compiti più creativi come l'umorismo e la scrittura narrativa hanno visto GPT-3.5 avanzare in modo decisivo.
Quindi, mentre GPT-4 segna una nuova pietra miliare nell’intelligenza artificiale, GPT-3.5 rimane un modello straordinariamente potente, in grado di competere e talvolta superare anche le alternative più avanzate. Il suo continuo perfezionamento garantisce che rimanga rilevante anche insieme ai modelli di nuova generazione più appariscenti.
4. PaLM2 di Google
Quando si valutano le capacità di un modello di intelligenza artificiale, la formula collaudata è leggere il rapporto tecnico e controlla i punteggi dei benchmark, ma prendi tutto ciò che hai imparato con le pinze e testa il modello te stesso. Per quanto possa sembrare controintuitivo, i risultati dei benchmark non sempre sono in linea con le prestazioni del mondo reale per alcuni modelli di intelligenza artificiale. Sulla carta, PaLM 2 di Google avrebbe dovuto essere il killer GPT-4, con i risultati dei test ufficiali che suggeriscono che corrisponde a GPT-4 in alcuni benchmark. Tuttavia, nell’uso quotidiano emerge un quadro diverso.
Nel ragionamento logico, nella matematica e nella creatività, PaLM 2 non è all'altezza di GPT-4. Inoltre è in ritardo rispetto a Claude di Anthropic in una serie di attività di scrittura creativa. Tuttavia, sebbene non riesca a essere all’altezza della sua fama di killer GPT-4, PaLM 2 di Google rimane un potente modello linguistico a pieno titolo, con immense capacità. Gran parte del sentiment negativo attorno ad esso deriva dal confronto con modelli come GPT-4 piuttosto che da prestazioni decisamente scarse.
Con 340 miliardi di parametri, PaLM 2 è uno dei modelli più grandi al mondo. Eccelle particolarmente nelle attività multilingue e possiede forti capacità matematiche e di programmazione. Sebbene non sia il migliore, PaLM 2 è abbastanza efficiente anche in attività creative come la scrittura. Quindi, mentre i benchmark dipingevano un quadro ottimistico che non si è materializzato del tutto, PaLM 2 dimostra comunque abilità di intelligenza artificiale impressionanti, anche se non superando tutti i concorrenti su tutta la linea.
5. Falcon-180B di TII
A meno che tu non abbia tenuto il passo con il ritmo rapido del rilascio dei modelli in linguaggio AI, probabilmente non hai mai incontrato il Falcon-180B. Sviluppato dal Technology Innovation Institute degli Emirati Arabi Uniti, il Falcon-180 da 180 miliardi di parametri è uno dei più potenti modelli linguistici open source disponibili, anche se manca il riconoscimento del nome dei modelli GPT o l'uso diffuso di Meta Lama 2. Ma non commettere errori: il Falcon-180B può competere con i migliori della categoria.
I risultati dei benchmark rivelano che Falcon-180B supera la maggior parte dei modelli open source e compete con colossi commerciali come PaLM 2 e GPT-3.5. Nei test di matematica, programmazione, ragionamento e scrittura creativa, ha addirittura superato GPT-3.5 e PaLM 2 a livello volte. Se classifichiamo GPT-4, GPT-3.5 e Falcon-180B, collocheremmo Falcon-180B esattamente tra GPT-4 e GPT-3.5 per i suoi punti di forza in diversi casi d'uso.
Anche se non possiamo dire con certezza che sia migliore di GPT-3.5 in termini di prestazioni complessive, si dimostra da solo. Sebbene oscuro, questo modello merita attenzione perché eguaglia o supera le capacità di alternative più conosciute. Puoi provare il modello Falcon-180B su Volto che abbraccia (una piattaforma LLM open source).
Llama 2, il modello linguistico di grandi dimensioni da 70 miliardi di parametri di Meta AI, si basa sul suo predecessore, Llama 1. Pur essendo più piccolo dei modelli principali, Llama 2 supera significativamente la maggior parte degli LLM open source disponibili al pubblico nei benchmark e nell'utilizzo nel mondo reale. Un'eccezione sarebbe il Falcon-180B.
Abbiamo testato Llama 2 rispetto a GPT-4, GPT-3.5, Claude 2 e PaLM 2 per valutarne le capacità. Non sorprende che GPT-4 abbia surclassato Llama 2 in quasi tutti i parametri. Tuttavia, Llama 2 ha resistito a GPT-3.5 e PaLM 2 in diverse valutazioni. Anche se sarebbe inesatto affermare che Llama 2 è superiore a PaLM 2, Llama 2 ha risolto molti problemi che ostacolavano PaLM 2, comprese le attività di codifica. Claude 2 e GPT-3.5 hanno superato Llama 2 in alcune aree, ma si sono rivelati decisamente migliori solo in un numero limitato di compiti.
Quindi, pur non superando le capacità dei più grandi modelli proprietari, Llama 2 open source supera la sua classe di peso. Per un modello liberamente disponibile, dimostra prestazioni impressionanti, rivaleggiando con i giganti dell'intelligenza artificiale come PaLM 2 in valutazioni selezionate. Llama 2 offre uno sguardo sul potenziale futuro dei modelli linguistici open source.
Il divario prestazionale tra i modelli di intelligenza artificiale si sta riducendo
Sebbene il panorama dell'intelligenza artificiale si stia evolvendo a un ritmo vertiginoso, GPT-4 di OpenAI rimane il leader del gruppo. Tuttavia, mentre GPT-4 rimane ineguagliato in termini di dimensioni e prestazioni, modelli come Claude 2 dimostrano che con sufficiente abilità, i modelli più piccoli possono competere in aree selezionate. PaLM 2 di Google, nonostante non sia all'altezza di alcune alte aspettative, mostra ancora profonde capacità. E Falcon-180B dimostra che le iniziative open source possono stare fianco a fianco con i titani del settore se ricevono risorse sufficienti.