Gli utenti in genere accedono a modelli di linguaggi di grandi dimensioni (LLM) tramite l'uso di un'interfaccia utente tramite un'API. Sebbene fornisca numerosi vantaggi, l'utilizzo delle API introduce anche limitazioni, come la necessità di una connessione Internet costante connessione, personalizzazioni limitate, possibili problemi di sicurezza e aziende che limitano le capacità del modello tramite a paywall.

Con gli LLM quantizzati ora disponibili su HuggingFace e gli ecosistemi AI come H20, Text Gen e GPT4All permettendoti di caricare i pesi LLM sul tuo computer, ora hai un'opzione gratuita, flessibile e sicura AI.

Per iniziare, ecco sette dei migliori LLM locali/offline che puoi utilizzare in questo momento!

1. Hermes GPTQ

Un modello linguistico all'avanguardia messo a punto utilizzando un set di dati di 300.000 istruzioni da Nous Research. Hermes è basato su LlaMA2 LLM di Meta ed è stato messo a punto utilizzando principalmente output GPT-4 sintetici.

Modello

Ermete 13b GPTQ

Dimensione del modello

7,26GB

Parametri

13 miliardi

Quantizzazione

4 bit

Tipo

LlaMA2

Licenza

GPL 3

instagram viewer

L'uso di LlaMA2 come modello base consente a Hermes di raddoppiare la dimensione del contesto o una dimensione massima del token di 4.096. Abbinando la lunga dimensione del contesto e un'architettura del codificatore, Hermes è noto per dare risposte lunghe e bassi tassi di allucinazioni. Questo rende Hermes un ottimo modello per vari elaborazione del linguaggio naturale (PNL) attività, come scrivere codice, creare contenuti ed essere un chatbot.

Esistono diverse quantizzazioni e versioni del nuovo Hermes GPTQ. Ti consigliamo di provare prima il modello Hermes-Llama2 13B-GPTQ, in quanto è la versione più semplice da implementare pur avendo ottime prestazioni.

2. Falcon Istruire GPTQ

Immagine di credito: John Schnobrich/Unsplash

Questa versione quantizzata di Falcon si basa sull'architettura del solo decodificatore messa a punto sul modello grezzo Flacon-7b di TII. Il modello Falcon di base è stato addestrato utilizzando un eccezionale 1,5 trilioni di token provenienti da Internet pubblico. In quanto modello di solo decodificatore basato su istruzioni concesso in licenza con Apache 2, Falcon Instruct è perfetto per le piccole imprese che cercano un modello da utilizzare per la traduzione linguistica e l'immissione di dati.

Modello

Falcon-7B-Istruire

Dimensione del modello

7,58GB

Parametri

7 miliardi

Quantizzazione

4 bit

Tipo

Falco

Licenza

Apache 2.0

Tuttavia, questa versione di Falcon non è l'ideale per la messa a punto ed è solo per l'inferenza. Se desideri mettere a punto Falcon, dovrai utilizzare il modello grezzo, che può richiedere l'accesso a hardware di formazione di livello aziendale come NVIDIA DGX o Acceleratori IA AMD Instinct.

3.GPT4ALL-J Groovy

Immagine di credito: Nubelson Fernandes/Sblocca

GPT4All-J Groovy è un modello solo decodificatore messo a punto da Nomic AI e concesso in licenza con Apache 2.0. GPT4ALL-J Groovy si basa sul modello GPT-J originale, noto per essere eccezionale nella generazione di testo dai prompt. GPT4ALL -J Groovy è stato messo a punto come modello di chat, ottimo per applicazioni di generazione di testo veloci e creative. Ciò rende GPT4All-J Groovy ideale per i creatori di contenuti nell'assisterli nella scrittura e nei lavori creativi, che si tratti di poesia, musica o storie.

Modello

GPT4ALL-J Fantastico

Dimensione del modello

3,53GB

Parametri

7 miliardi

Quantizzazione

4 bit

Tipo

GPT-J

Licenza

Apache 2.0

Sfortunatamente, il modello GPT-J di base è stato addestrato su un set di dati solo in inglese, il che significa che anche questo modello GPT4ALL-J ottimizzato può solo chattare ed eseguire applicazioni di generazione di testo in inglese.

4.WizardCoder-15B-GPTQ

Immagine di credito: James Harrison/Unsplash

Cerchi un modello specificamente ottimizzato per la codifica? Nonostante le sue dimensioni notevolmente ridotte, WizardCoder è noto per essere uno dei migliori modelli di codifica superando altri modelli come LlaMA-65B, InstructCodeT5+ e CodeGeeX. Questo modello è stato addestrato utilizzando un metodo Evol-Instruct specifico per la codifica, che modifica automaticamente i tuoi prompt in modo che diventino un prompt correlato alla codifica più efficace che il modello può comprendere meglio.

Modello

WizardCoder-15B-GPTQ

Dimensione del modello

7,58GB

Parametri

15 miliardi

Quantizzazione

4 bit

Tipo

Lama

Licenza

bigcode-openrail-m

Essendo quantizzato in un modello a 4 bit, WizardCoder può ora essere utilizzato su PC normali, dove le persone possono utilizzarlo per la sperimentazione e come assistente di codifica per programmi e script più semplici.

5. Wizard Vicuna Uncensored-GPTQ

Wizard-Vicuna GPTQ è una versione quantizzata di Wizard Vicuna basata sul modello LlaMA. A differenza della maggior parte degli LLM rilasciati al pubblico, Wizard-Vicuna è un modello non censurato con il suo allineamento rimosso. Ciò significa che il modello non ha gli stessi standard morali e di sicurezza della maggior parte dei modelli.

Modello

Wizard-Vicuna-30B-Uncensored-GPTQ

Dimensione del modello

16,94GB

Parametri

30 miliardi

Quantizzazione

4 bit

Tipo

Lama

Licenza

GPL 3

Anche se possibilmente in posa un Problema di controllo dell'allineamento AI, avere un LLM non censurato fa anche emergere il meglio del modello potendo rispondere senza alcun vincolo. Ciò consente inoltre agli utenti di aggiungere il proprio allineamento personalizzato su come l'IA dovrebbe agire o rispondere in base a un determinato prompt.

6. Orca Mini-GPTQ

Credito immagine: Alex Kondratiev/Unsplash

Stai cercando di sperimentare un modello addestrato su un metodo di apprendimento unico? Orca Mini è un'implementazione modello non ufficiale dei documenti di ricerca Orca di Microsoft. È stato addestrato utilizzando il metodo di apprendimento insegnante-studente, in cui il set di dati era pieno di spiegazioni anziché solo di suggerimenti e risposte. Questo, in teoria, dovrebbe tradursi in uno studente più intelligente, in cui il modello può comprendere il problema piuttosto che cercare solo coppie di input e output come funzionano i tipici LLM.

Modello

Orca Mini-GPTQ

Dimensione del modello

8,11GB

Parametri

3 miliardi

Quantizzazione

4 bit

Tipo

Lama

Licenza

MIT

Con solo tre miliardi di parametri, Orca Mini GPTQ è facile da eseguire anche su sistemi meno potenti. Tuttavia, questo modello non dovrebbe essere utilizzato per scopi professionali in quanto genera informazioni false, risposte distorte e offensive. Questo modello dovrebbe essere utilizzato per l'apprendimento e la sperimentazione di Orca e dei suoi metodi.

7.LlaMA 2 Chat GPTQ

LlaMA 2 è il successore dell'originale LlaMA LLM, che ha generato la maggior parte dei modelli in questo elenco. LlaMA 2 è una raccolta di diversi LLM, ciascuno addestrato utilizzando 7-70 miliardi di parametri. Complessivamente, LlaMA 2 è stato preaddestrato utilizzando 2 trilioni di token di dati presi da set di dati di istruzioni pubblicamente disponibili.

Modello

Falcon-40B-Instruct-GPTQ

Dimensione del modello

7,26GB

Parametri

3 miliardi

Quantizzazione

4 bit

Tipo

OpenLlaMA

Licenza

EULA (Metalicenza)

LlaMA 2 è destinato ad essere utilizzato per uso commerciale e di ricerca. Pertanto, questo modello viene utilizzato al meglio dopo la messa a punto per prestazioni migliori su attività specifiche. Questo specifico modello GPTQ di chat LlaMA 2 è stato messo a punto e ottimizzato per il dialogo inglese, rendendolo il modello perfetto per aziende e organizzazioni come chatbot con poca o nessuna formazione extra necessario. Secondo i termini, le aziende con meno di 700 milioni di utenti possono utilizzare LlaMA 2 senza pagare alcun canone di licenza da Meta o Microsoft.

Prova oggi i modelli locali in lingua estesa

Alcuni dei modelli sopra elencati hanno diverse versioni in termini di parametri. In generale, le versioni con parametri più alti producono risultati migliori ma richiedono hardware più potente, mentre le versioni con parametri più bassi generano risultati di qualità inferiore ma possono essere eseguite su hardware di fascia bassa. Se non sei sicuro che il tuo PC sia in grado di eseguire il modello, prova prima a utilizzare la versione con i parametri inferiori, quindi continua finché non ritieni che il calo delle prestazioni non sia più accettabile.

Poiché i modelli quantizzati in questo elenco occupano solo pochi gigabyte di spazio e piattaforme di distribuzione del modello come GPT4All e Text-Generation-WebUI può essere facilmente installato tramite i loro programmi di installazione con un clic, provare diversi modelli e le versioni del modello non dovrebbero richiedere molto tempo e fatica.

Allora, cosa stai aspettando? Prova un modello locale oggi!