Puoi utilizzare Meta's Llama 2 online, ma puoi personalizzare e personalizzare l'esperienza se lo installi sul tuo computer locale.
Meta ha rilasciato Llama 2 nell'estate del 2023. La nuova versione di Llama è ottimizzata con il 40% di token in più rispetto al modello Llama originale, raddoppiando la lunghezza del contesto e superando significativamente gli altri modelli open source disponibili. Il modo più semplice e veloce per accedere a Llama 2 è tramite un'API tramite una piattaforma online. Tuttavia, se desideri la migliore esperienza, la soluzione migliore è installare e caricare Llama 2 direttamente sul tuo computer.
Con questo in mente, abbiamo creato una guida passo passo su come utilizzare Text-Generation-WebUI per caricare un LLM Llama 2 quantizzato localmente sul tuo computer.
Perché installare Llama 2 localmente
Ci sono molte ragioni per cui le persone scelgono di eseguire direttamente Llama 2. Alcuni lo fanno per problemi di privacy, altri per la personalizzazione e altri per funzionalità offline. Se stai ricercando, perfezionando o integrando Llama 2 per i tuoi progetti, l'accesso a Llama 2 tramite API potrebbe non essere adatto a te. Lo scopo di eseguire un LLM localmente sul tuo PC è ridurre la dipendenza da
strumenti IA di terze parti e utilizzare l'intelligenza artificiale sempre e ovunque, senza preoccuparsi di divulgare dati potenzialmente sensibili ad aziende e altre organizzazioni.Detto questo, cominciamo con la guida passo passo per installare Llama 2 in locale.
Per semplificare le cose, utilizzeremo un programma di installazione con un clic per Text-Generation-WebUI (il programma utilizzato per caricare Llama 2 con la GUI). Tuttavia, affinché questo programma di installazione funzioni, è necessario scaricare Visual Studio 2019 Build Tool e installare le risorse necessarie.
Scaricamento:Visual Studio 2019 (Gratuito)
- Vai avanti e scarica l'edizione community del software.
- Ora installa Visual Studio 2019, quindi apri il software. Una volta aperto, spunta la casella Sviluppo desktop con C++ e premi Installa.
Ora che hai installato lo sviluppo desktop con C++, è il momento di scaricare il programma di installazione con un clic di Text-Generation-WebUI.
Passaggio 2: installa Text-Generation-WebUI
Il programma di installazione con un clic di Text-Generation-WebUI è uno script che crea automaticamente le cartelle richieste e configura l'ambiente Conda e tutti i requisiti necessari per eseguire un modello AI.
Per installare lo script, scaricare il programma di installazione con un clic facendo clic su Codice > Scarica ZIP.
Scaricamento:Programma di installazione di generazione testo-WebUI (Gratuito)
- Una volta scaricato, estrai il file ZIP nella posizione preferita, quindi apri la cartella estratta.
- All'interno della cartella, scorri verso il basso e cerca il programma di avvio appropriato per il tuo sistema operativo. Eseguire i programmi facendo doppio clic sullo script appropriato.
- Se utilizzi Windows, seleziona start_windows file batch
- per MacOS, seleziona start_macos bisaccia di conchiglia
- per Linux, start_linux script della shell.
- Il tuo antivirus potrebbe creare un avviso; questo va bene. Il prompt è solo un falso positivo dell'antivirus per eseguire un file batch o uno script. Clicca su Corri comunque.
- Si aprirà un terminale e inizierà la configurazione. All'inizio, la configurazione verrà messa in pausa e ti chiederà quale GPU stai utilizzando. Seleziona il tipo appropriato di GPU installata sul tuo computer e premi Invio. Per chi non ha una scheda grafica dedicata, seleziona Nessuno (voglio eseguire i modelli in modalità CPU). Tieni presente che l'esecuzione in modalità CPU è molto più lenta rispetto all'esecuzione del modello con una GPU dedicata.
- Una volta completata la configurazione, ora puoi avviare Text-Generation-WebUI localmente. Puoi farlo aprendo il tuo browser web preferito e inserendo l'indirizzo IP fornito nell'URL.
- La WebUI è ora pronta per l'uso.
Tuttavia, il programma è solo un caricatore di modelli. Scarichiamo Llama 2 per avviare il caricatore di modelli.
Passaggio 3: scarica il modello Llama 2
Ci sono alcune cose da considerare quando decidi quale iterazione di Llama 2 ti serve. Questi includono parametri, quantizzazione, ottimizzazione dell'hardware, dimensioni e utilizzo. Tutte queste informazioni si troveranno indicate nel nome del modello.
- parametri: Il numero di parametri utilizzati per addestrare il modello. Parametri più grandi creano modelli più capaci, ma a scapito delle prestazioni.
- Utilizzo: Può essere standard o chat. Un modello di chat è ottimizzato per essere utilizzato come chatbot come ChatGPT, mentre lo standard è il modello predefinito.
- Ottimizzazione dell'hardware: Si riferisce all'hardware che esegue al meglio il modello. GPTQ significa che il modello è ottimizzato per funzionare su una GPU dedicata, mentre GGML è ottimizzato per funzionare su una CPU.
- Quantizzazione: Denota la precisione dei pesi e delle attivazioni in un modello. Per l'inferenza, una precisione pari a q4 è ottimale.
- Misurare: Si riferisce alla dimensione del modello specifico.
Tieni presente che alcuni modelli potrebbero essere disposti in modo diverso e potrebbero anche non visualizzare lo stesso tipo di informazioni. Tuttavia, questo tipo di convenzione di denominazione è abbastanza comune in Abbracciare il viso Libreria di modelli, quindi vale ancora la pena comprenderla.
In questo esempio, il modello può essere identificato come un modello Llama 2 di medie dimensioni addestrato su 13 miliardi di parametri ottimizzati per l'inferenza della chat utilizzando una CPU dedicata.
Per coloro che utilizzano una GPU dedicata, scegli a GPTQ modello, mentre per chi utilizza una CPU, scegliere GGML. Se vuoi chattare con la modella come faresti con ChatGPT, scegli chiacchierata, ma se vuoi sperimentare il modello con tutte le sue capacità, usa il file standard modello. Per quanto riguarda i parametri, sappi che l'utilizzo di modelli più grandi fornirà risultati migliori a scapito delle prestazioni. Personalmente consiglierei di iniziare con un modello 7B. Per quanto riguarda la quantizzazione, usa q4, poiché serve solo per l'inferenza.
Scaricamento:GGML (Gratuito)
Scaricamento:GPTQ (Gratuito)
Ora che sai di quale iterazione di Llama 2 hai bisogno, vai avanti e scarica il modello che desideri.
Nel mio caso, poiché lo utilizzo su un ultrabook, utilizzerò un modello GGML ottimizzato per la chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Al termine del download, posiziona il modello generazione di testo-webui-main > Modelli.
Ora che hai scaricato e inserito il modello nella cartella del modello, è il momento di configurare il caricatore del modello.
Passaggio 4: configurare Text-Generation-WebUI
Ora iniziamo la fase di configurazione.
- Ancora una volta, apri Text-Generation-WebUI eseguendo il file start_(il tuo sistema operativo) file (vedere i passaggi precedenti sopra).
- Nelle schede situate sopra la GUI, fare clic su Modello. Fai clic sul pulsante Aggiorna nel menu a discesa del modello e seleziona il tuo modello.
- Ora fai clic sul menu a discesa del Caricatore di modelli e seleziona AutoGPTQ per coloro che utilizzano un modello GTPQ e ctransformers per coloro che utilizzano un modello GGML. Infine, fare clic su Carico per caricare il tuo modello.
- Per utilizzare il modello, apri la scheda Chat e inizia a testare il modello.
Congratulazioni, hai caricato con successo Llama2 sul tuo computer locale!
Prova altri LLM
Ora che sai come eseguire Llama 2 direttamente sul tuo computer utilizzando Text-Generation-WebUI, dovresti essere in grado di eseguire anche altri LLM oltre a Llama. Ricorda solo le convenzioni di denominazione dei modelli e che solo le versioni quantizzate dei modelli (di solito precisione q4) possono essere caricate sui normali PC. Molti LLM quantizzati sono disponibili su HuggingFace. Se vuoi esplorare altri modelli, cerca TheBloke nella libreria dei modelli di HuggingFace e dovresti trovare molti modelli disponibili.