I grandi modelli linguistici (LLM) sono disponibili in tutte le forme e dimensioni e ti assisteranno in qualsiasi modo tu ritenga opportuno. Ma qual è il migliore? Mettiamo alla prova le IA dominanti di Alphabet, OpenAI e Meta.
Cosa devi sapere sui chatbot AI
L'intelligenza artificiale generale è stata un obiettivo degli scienziati informatici per decenni e l'IA è stata un pilastro per scrittori e cineasti di fantascienza ancora più a lungo.
AGI mostra un'intelligenza simile alle capacità cognitive umane e il test di Turing- un test della capacità di una macchina di esibire un comportamento intelligente indistinguibile da quello di un essere umano - è rimasto quasi incontrastato nei settant'anni da quando è stato concepito per la prima volta.
La recente convergenza di computer su larga scala, enormi quantità di denaro e l'incredibile volume di informazioni gratuite disponibile su Internet aperto ha permesso ai giganti della tecnologia di addestrare modelli in grado di prevedere la sezione di parole successiva, o token, in una sequenza di gettoni.
Al momento della scrittura, entrambi Bardo di Google E ChatGPT di OpenAI sono disponibili per l'uso e il test attraverso le loro interfacce web.
Il modello linguistico di Meta, LLaMa, non è disponibile sul Web, ma puoi farlo facilmente scarica ed esegui LLaMa sul tuo hardware e usalo attraverso una riga di comando o esegui Dalai sulla tua macchina—una delle numerose app con un'interfaccia user-friendly.
Ai fini del test, eseguiremo il modello Alpaca 7B della Stanford University, un adattamento di LLaMa, e lo confronteremo con Bard e ChatGPT.
I seguenti confronti e test non intendono essere esaustivi, ma piuttosto forniscono un'indicazione dei punti chiave e delle capacità.
Qual è il modello di linguaggio di grandi dimensioni più semplice da utilizzare?
Sia Bard che ChatGPT richiedono un account per utilizzare il servizio. Entrambi gli account Google e OpenAI sono facili e gratuiti da creare e puoi iniziare immediatamente a fare domande.
Tuttavia, per eseguire LLaMa localmente, dovrai avere alcune conoscenze specialistiche o la capacità di seguire un tutorial. Avrai anche bisogno di una notevole quantità di spazio di archiviazione.
Qual è il modello linguistico di grandi dimensioni più privato?
Sia Bard che ChatGPT hanno ampie politiche sulla privacy e Google lo sottolinea ripetutamente nei suoi documenti che non dovresti "includere informazioni che possono essere utilizzate per identificare te o altri nel tuo Bard conversazioni”.
Per impostazione predefinita, Google raccoglie le tue conversazioni e la tua posizione generale in base al tuo indirizzo IP, al tuo feedback e alle informazioni sull'utilizzo. Queste informazioni vengono memorizzate nel tuo account Google per un massimo di 18 mesi. Sebbene tu possa mettere in pausa il salvataggio della tua attività di Bard, dovresti essere consapevole che "per aiutare con la qualità e migliorare i nostri prodotti, i revisori umani leggono, annotano ed elaborano le tue conversazioni di Bard".
Anche l'uso di Bard è soggetto allo standard Norme sulla privacy di Google.
La politica sulla privacy di OpenAI è sostanzialmente simile e raccoglie l'indirizzo IP e i dati di utilizzo. Contrariamente alla conservazione limitata nel tempo di Google, OpenAI "conserverà le tue informazioni personali solo per il tempo necessario a fornire i nostri Servizio all'utente o per altri scopi commerciali legittimi come la risoluzione di controversie, motivi di sicurezza e protezione o il rispetto dei nostri obblighi legali obblighi”.
Al contrario, un modello locale sulla tua macchina non richiede un account o condivide i dati dell'utente con nessuno.
Quale LLM ha la migliore conoscenza generale?
Per verificare quale LLM ha la migliore conoscenza generale, abbiamo posto tre domande.
La prima domanda, "Quale bandiera nazionale ha cinque facce?" è stato risposto correttamente solo da Bard, che ha identificato la bandiera nazionale del Nepal come avente cinque lati.
ChatGPT ha affermato con sicurezza che "Non esiste una bandiera nazionale che abbia cinque lati. Le bandiere nazionali sono tipicamente di forma rettangolare o quadrata, caratterizzate da colori, motivi e simboli distinti".
Il nostro modello locale si è avvicinato, affermando che "La bandiera nazionale indiana ha cinque lati ed è stata progettata nel 1916 per rappresentare l'India movimento di indipendenza." Sebbene questa bandiera esistesse e avesse cinque lati, era la bandiera dell'Indian Home Rule Movement, non un bandiera nazionale.
Nessuno dei nostri modelli potrebbe rispondere che il termine corretto per un oggetto a forma di pisello è "pisiforme", con ChatGPT che va al punto da suggerire che i piselli abbiano una "forma geometrica tridimensionale perfettamente rotonda e simmetrico."
Tutti e tre i chatbot identificano correttamente Franco Malerba come astronauta italiano e membro del Parlamento europeo, con Bard che dà una risposta formulata in modo identico a una sezione della Wikipedia di Malerba iscrizione.
Quale LLM è buono per le istruzioni tecniche?
Quando hai problemi tecnici, potresti essere tentato di rivolgerti a un chatbot per chiedere aiuto. Mentre la tecnologia avanza, alcune cose rimangono le stesse. La spina elettrica BS 1363 è in uso in Gran Bretagna, Irlanda e molti altri paesi dal 1947. Abbiamo chiesto ai modelli linguistici come collegarlo correttamente.
I cavi che si collegano alla spina hanno un filo sotto tensione (marrone), un filo di terra (giallo/verde) e un filo neutro (blu). Questi devono essere collegati ai terminali corretti all'interno dell'alloggiamento della spina.
La nostra implementazione Dalai ha identificato correttamente la spina come "stile inglese", quindi ha virato fuori rotta e ha invece fornito istruzioni per la vecchia spina BS 546 con pin tondo insieme ai vecchi colori di cablaggio.
ChatGPT è stato leggermente più utile. Ha etichettato correttamente i colori del cablaggio e ha fornito un elenco di materiali e una serie di otto istruzioni. ChatGPT ha anche suggerito di inserire il filo marrone nel terminale etichettato "L", il filo blu nella "N" terminale e il filo giallo in "E." Questo sarebbe corretto se i terminali BS1363 fossero etichettati, ma loro non lo sono.
Bard ha identificato i colori corretti per i fili e ci ha incaricato di collegarli ai terminali Live, Neutral e Earth. Non ha fornito istruzioni su come identificarli.
Secondo noi. nessuno dei chatbot ha fornito istruzioni sufficienti per aiutare qualcuno a cablare correttamente una presa elettrica BS 1363. Una risposta concisa e corretta sarebbe: "Blu a sinistra, marrone a destra".
Quale LLM è buono per scrivere codice?
Python è un utile linguaggio di programmazione che funziona sulla maggior parte delle piattaforme moderne. Abbiamo incaricato i nostri modelli di usare Python e "Costruire un programma di calcolatrice di base in grado di eseguire operazioni aritmetiche come addizione, sottrazione, moltiplicazione e divisione. Dovrebbe accettare l'input dell'utente e visualizzare il risultato." Questo è uno dei migliori progetti di programmazione per principianti.
Mentre sia Bard che ChatGPT hanno immediatamente restituito un codice utilizzabile e commentato a fondo, che siamo stati in grado di testare e verificare, nessuno dei codici del nostro modello locale sarebbe stato eseguito.
Quale LLM racconta le migliori barzellette?
L'umorismo è uno dei fondamenti dell'essere umano e sicuramente uno dei modi migliori per distinguere uomo e macchina. A ciascuna delle nostre modelle abbiamo dato il semplice suggerimento: "Crea uno scherzo originale e divertente".
Fortunatamente per i comici di tutto il mondo e per la razza umana in generale, nessuno dei modelli è stato in grado di generare uno scherzo originale.
Bard ha lanciato il classico: "Perché lo spaventapasseri ha vinto un premio? Era eccezionale nel suo campo".
Sia la nostra implementazione locale che ChatGPT hanno offerto la degna lamentela: "Perché gli scienziati non si fidano degli atomi? Perché inventano tutto!"
Una battuta derivata ma originale sarebbe: "In che modo i Large Language Models sono come gli atomi? Entrambi si inventano le cose!"
Lo leggete prima qui, gente.
Nessun chatbot è perfetto
Abbiamo scoperto che mentre tutti e tre i grandi modelli linguistici hanno i loro vantaggi e svantaggi, nessuno di essi può sostituire la vera competenza di un essere umano con conoscenze specialistiche.
Mentre sia Bard che ChatGPT hanno dato risposte migliori alla nostra domanda di codifica e sono molto facili da usare, l'esecuzione di un modello di linguaggio di grandi dimensioni in locale significa che non è necessario preoccuparsi della privacy o censura.
Se desideri creare una fantastica arte AI senza preoccuparti che qualcuno ti guardi alle spalle, è facile eseguire un modello AI artistico anche sulla tua macchina locale.