Utilizza la libreria PandasAI Python per sfruttare la potenza dell'intelligenza artificiale e modelli di linguaggio di grandi dimensioni per eseguire attività di analisi dei dati.
Pandas è la libreria predominante per la manipolazione di set di dati e dataframe. Questa è stata la norma per molto tempo. Ma con il progresso dell'intelligenza artificiale, viene sviluppata una nuova libreria open source chiamata PandasAI che aggiunge capacità di intelligenza artificiale generativa a Pandas.
PandasAI non sostituisce Pandas. Invece, offre le sue capacità di intelligenza artificiale generativa. In questo modo, puoi eseguire l'analisi dei dati chattando con PandasAI. Quindi astrae ciò che sta accadendo in background e ti fornisce l'output della tua query.
Installazione di PandasAI
Panda AI è disponibile tramite PyPI (Python Package Index). Crea un nuovo ambiente virtuale se stai usando un IDE locale. Poi usa il gestore di pacchetti pip per installarlo.
pip installa pandasai
Potresti riscontrare un errore di conflitto di dipendenze simile a quello mostrato di seguito se utilizzi Google Colab.
Non eseguire il downgrade della versione IPython. Basta riavviare il runtime ed eseguire nuovamente il blocco di codice. Questo risolverà il problema.
Il codice sorgente completo è disponibile in a Deposito GitHub.
Comprensione del set di dati di esempio
Il set di dati di esempio che manipolerai con PandasAI è il set di dati sui prezzi delle abitazioni in California di Kaggle. Questo set di dati contiene informazioni sugli alloggi dal censimento della California del 1990. Ha dieci colonne che forniscono statistiche su queste case. La scheda dati per aiutarti a saperne di più su questo set di dati è disponibile su Kaggle. Di seguito sono riportate le prime cinque righe del set di dati.
Ogni colonna rappresenta una singola statistica di una casa.
Collegamento di PandasAI al modello di linguaggi di grandi dimensioni
Per connettere PandasAI a a modello di linguaggi di grandi dimensioni (LLM) come quello di OpenAI, è necessario accedere alla sua chiave API. Per ottenerne uno, procedere al Piattaforma OpenAI. Quindi accedi al tuo account. Selezionare API sotto la pagina delle opzioni che appare dopo.
Successivamente, fai clic sul tuo profilo e seleziona il Visualizza le chiavi API opzione. Nella pagina che appare il prossimo clic Crea una nuova chiave segreta pulsante. Infine, dai un nome alla tua chiave API.
OpenAI genererà la tua chiave API. Copialo perché ti servirà durante la connessione di PandasAI con OpenAI. Assicurati di mantenere la chiave segreta poiché chiunque abbia accesso ad essa può effettuare chiamate a OpenAI per tuo conto. OpenAI addebiterà quindi il tuo account per le chiamate.
Ora che hai la chiave API, crea un nuovo script Python e incolla il codice qui sotto. Non avrai bisogno di cambiare questo codice poiché la maggior parte delle volte ci costruirai sopra.
importare panda COME pd
da pandasai importare Panda AI# Sostituisci con il tuo set di dati o dataframe
df = pd.read_csv("/contenuto/alloggio.csv")# Istanzia un LLM
da pandasai.llm.openai importare OpenAI
llm = OpenAI(api_token="il tuo token API")
pandas_ai = PandasAI(llm)
Il codice precedente importa sia PandasAI che Pandas. Quindi legge un set di dati. Infine, crea un'istanza di OpenAI LLM.
Ora sei pronto per conversare con i tuoi dati.
Esecuzione di attività semplici utilizzando PandasAI
Per interrogare i tuoi dati, passa il tuo dataframe e il tuo prompt all'istanza della classe PandasAI. Inizia stampando le prime cinque righe del tuo set di dati.
pandas_ai (df, prompt="Quali sono le prime cinque righe del set di dati?")
L'output del prompt precedente è il seguente:
Questo output è identico a quello della panoramica del set di dati precedente. Ciò dimostra che PandasAI produce risultati corretti ed è affidabile.
Quindi, controlla il numero di colonne presenti nel tuo set di dati.
pandas_ai (df, prompt='Quante colonne ci sono nel set di dati? ')
Restituisce 10 che è il numero corretto di colonne nel set di dati California Housing.
Controllo della presenza di valori mancanti nel set di dati.
pandas_ai (df, prompt="Ci sono valori mancanti nel set di dati?")
PandasAI restituisce che il file totale_camere da letto la colonna ha 207 valori mancanti, il che è di nuovo corretto.
Ci sono molti compiti semplici che puoi realizzare usando PandasAI, non sei limitato a quelli sopra.
Esecuzione di query complesse utilizzando PandasAI
PandasAI non supporta solo attività semplici. Puoi anche usarlo per eseguire query complesse sul set di dati. Ad esempio, nel set di dati sulle abitazioni, se si desidera determinare il numero di case che si trovano su un isola, hanno un valore superiore a 100.000 dollari e hanno più di 10 stanze è possibile utilizzare il prompt sotto.
pandas_ai (df, prompt= "Quante case hanno un valore superiore a 100000",
"siete su un'isola e il totale delle camere da letto è più di 10?")
L'output corretto è cinque. Questo è lo stesso risultato prodotto da PandasAI.
Le query complesse potrebbero richiedere un po' di tempo a un analista di dati per la scrittura e il debug. Il prompt precedente richiede solo due righe di linguaggio naturale per eseguire lo stesso compito. Devi solo avere in mente esattamente ciò che vuoi realizzare e PandasAI si prenderà cura del resto.
Grafici di disegno utilizzando PandasAI
I grafici sono una parte vitale di qualsiasi processo di analisi dei dati. Aiuta gli analisti di dati a visualizzare i dati in modo umano. PandasAI ha anche una funzione di disegno grafico. Devi solo passare il dataframe e l'istruzione.
Inizia creando un istogramma per ogni colonna nel set di dati. Questo ti aiuterà a visualizzare la distribuzione delle variabili.
pandas_ai (df, prompt= "Traccia un istogramma per ogni colonna nel set di dati")
L'output è il seguente:
PandasAI è stato in grado di disegnare l'istogramma di tutte le colonne senza dover passare i loro nomi nel prompt.
PandasAI può anche tracciare grafici senza che tu gli dica esplicitamente quale grafico usare. Ad esempio, potresti voler scoprire la correlazione dei dati nel set di dati sulle abitazioni. Per raggiungere questo obiettivo è possibile passare un prompt come segue:
pandas_ai (df, prompt= "Tracciare la correlazione nel set di dati")
PandasAI traccia una matrice di correlazione come mostrato di seguito:
La libreria sceglie una heatmap e traccia una matrice di correlazione.
Passaggio di più dataframe all'istanza PandasAI
Lavorare con più dataframe può essere complicato. Soprattutto per una persona che è nuova all'analisi dei dati. PandasAI colma questa lacuna poiché tutto ciò che devi fare è passare entrambi i dataframe e iniziare a utilizzare i prompt per manipolare i dati.
Crea due dataframe usando Pandas.
dati_dipendenti = {
'ID Dipendente': [1, 2, 3, 4, 5],
'Nome': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
'Dipartimento': ['HR', 'Saldi', 'ESSO', 'Marketing', 'Finanza']
}dati_stipendi = {
'ID Dipendente': [1, 2, 3, 4, 5],
'Stipendio': [5000, 6000, 4500, 7000, 5500]
}
impiegati_df = pd. DataFrame (dati_dipendenti)
stipendi_df = pd. DataFrame (salari_dati)
Puoi porre a PandasAI una domanda che attraversa entrambi i dataframe. Devi solo passare entrambi i dataframe all'istanza PandasAI.
pandas_ai([impiegati_df, stipendi_df], "Quale dipendente ha lo stipendio più alto?")
Ritorna Olivia che è di nuovo la risposta corretta.
Eseguire l'analisi dei dati non è mai stato così facile, PandasAI ti consente di chattare con i tuoi dati e analizzarli con facilità.
Comprendere la tecnologia che alimenta PandasAI
PandasAI semplifica il processo di analisi dei dati, risparmiando così molto tempo per gli analisti di dati. Ma astrae ciò che sta accadendo in background. Devi familiarizzare con l'IA generativa in modo da poter avere una panoramica di come funziona PandasAI sotto il cofano. Questo ti aiuterà anche a stare al passo con le ultime innovazioni nel dominio dell'IA generativa.