30 comandi panda per la manipolazione dei frame di dati

La libreria panda rende la scienza dei dati basata su Python un giro facile. È una popolare libreria Python per leggere, unire, ordinare, pulire i dati e altro ancora. Sebbene panda sia facile da usare e da applicare ai set di dati, ha molte funzioni di manipolazione dei dati da imparare.

Potresti usare i panda, ma ci sono buone probabilità che lo stai sottoutilizzando per risolvere i problemi relativi ai dati. Ecco il nostro elenco di dati preziosi che manipolano le funzioni dei panda che ogni scienziato di dati dovrebbe conoscere.

Installa i panda nel tuo ambiente virtuale

Prima di procedere, assicurati di installare i panda nel tuo ambiente virtuale usando pip:

pip installa i panda

Dopo averlo installato, importa panda nella parte superiore del tuo script e procediamo.

1. panda. DataFrame

Usate panda. DataFrame() per creare un DataFrame nei panda. Esistono due modi per utilizzare questa funzione.

Puoi formare un DataFrame a livello di colonna passando un dizionario nel file panda. DataFrame() funzione. Qui, ogni chiave è una colonna, mentre i valori sono le righe:

instagram viewer

importare panda
DataFrame = panda. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
stampa (DataFrame)

L'altro metodo consiste nel formare DataFrame su righe. Ma qui separerai i valori (elementi di riga) dalle colonne. Anche il numero di dati in ciascuna lista (dati di riga) deve coincidere con il numero di colonne.

importare panda
DataFrame = panda. DataFrame([[1, 4, 5], [7, 19, 13]], colonne= ["J", "K", "L"])
stampa (DataFrame)

2. Leggi da e scrivi in Excel o CSV nei panda

Puoi leggere o scrivere su file Excel o CSV con i panda.

Lettura di file Excel o CSV

Per leggere un file Excel:

#Sostituisci esempio.xlsx con il percorso del tuo file Excel
DataFrame = DataFrame.read_excel ("example.xlsx")

Ecco come leggere un file CSV:

#Sostituisci esempio.csv con il percorso del tuo file CSV
DataFrame = DataFrame.read_csv("example.csv")

Scrivere in Excel o CSV

Scrivere in Excel o CSV è un'operazione di panda ben nota. Ed è utile per salvare le tabelle appena calcolate in fogli dati separati.

Per scrivere su un foglio Excel:

DataFrame.to_excel("percorso_completo_della_cartella_destinazione/nomefile.xlsx")

Se vuoi scrivere a CSV:

DataFrame.to_csv("percorso_completo_della_cartella_destinazione/nomefile.csv")

Puoi anche calcolare le tendenze centrali di ogni colonna in un DataFrame usando i panda.

Ecco come ottenere il valore medio di ciascuna colonna:

DataFrame.mean()

Per il valore mediano o modale, sostituire significare() con mediano() o modalità().

4. DataFrame.transform

panda' DataFrame.transform() modifica i valori di un DataFrame. Accetta una funzione come argomento.

Ad esempio, il codice seguente moltiplica ogni valore in un DataFrame per tre utilizzando La funzione lambda di Python:

DataFrame = DataFrame.transform (lambda y: y*3)
stampa (DataFrame)

5. DataFrame.isnull

Questa funzione restituisce un valore booleano e contrassegna tutte le righe contenenti valori null come Vero:

DataFrame.isnull()

Il risultato del codice precedente può essere difficile da leggere per set di dati più grandi. Quindi puoi usare il isnull().sum() funzione invece. Questo restituisce un riepilogo di tutti i valori mancanti per ogni colonna:

DataFrame.isnull().sum()

6. Dataframe.info

Il Informazioni() la funzione è un operazione essenziale dei panda. Restituisce invece il riepilogo dei valori non mancanti per ciascuna colonna:

DataFrame.info()

7. DataFrame.descrivi

Il descrivere() La funzione fornisce la statistica di riepilogo di un DataFrame:

DataFrame.descrivi()

8. DataFrame.sostituire

Usando il DataFrame.replace() metodo in panda, puoi sostituire le righe selezionate con altri valori.

Ad esempio, per scambiare righe non valide con Nonna:

# Assicurati di installare pip numpy affinché funzioni
importare numpy
importare panda
# L'aggiunta di una parola chiave inplace e l'impostazione su True rende permanenti le modifiche:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
stampa (DataFrame)

9. DataFrame.fillna

Questa funzione consente di riempire le righe vuote con un valore particolare. Puoi riempire tutto Nonna righe in un set di dati con il valore medio, ad esempio:

DataFrame.fillna (df.mean(), inplace = True)
stampa (DataFrame)

Puoi anche essere specifico per la colonna:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
stampa (DataFrame)

10. DataFrame.dropna

Il goccia() il metodo rimuove tutte le righe contenenti valori null:

DataFrame.dropna (sul posto = True)
stampa (DataFrame)

11. DataFrame.insert

Puoi usare i panda inserire() funzione per aggiungere una nuova colonna a un DataFrame. Accetta tre parole chiave, il nome della colonna, un elenco dei suoi dati e relativi Posizione, che è un indice di colonna.

Ecco come funziona:

DataFrame.insert (colonna = 'C', valore = [3, 4, 6, 7], loc=0)
stampa (DataFrame)

Il codice precedente inserisce la nuova colonna in corrispondenza dell'indice di colonna zero (diventa la prima colonna).

12. DataFrame.loc

Puoi usare loc per trovare gli elementi in un determinato indice. Per visualizzare tutti gli elementi nella terza riga, ad esempio:

DataFrame.loc[2]

13. DataFrame.pop

Questa funzione consente di rimuovere una colonna specificata da un DataFrame panda.

Accetta un elemento parola chiave, restituisce la colonna spuntata e la separa dal resto del DataFrame:

DataFrame.pop (elemento= 'nome_colonna')
stampa (DataFrame)

14. DataFrame.max, min

Ottenere i valori massimo e minimo usando i panda è facile:

DataFrame.min()

Il codice precedente restituisce il valore minimo per ciascuna colonna. Per ottenere il massimo, sostituisci min con max.

15. DataFrame.join

Il giuntura() la funzione di panda ti consente di unire DataFrames con nomi di colonne diversi. È possibile utilizzare il join sinistro, destro, interno o esterno. Per unire a sinistra un DataFrame con altri due:

#Unisci a sinistra le colonne più lunghe con quelle più corte
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left') 
stampa (nuovo DataFrame)

Per unire DataFrame con nomi di colonna simili, puoi differenziarli includendo un suffisso a sinistra oa destra. Fallo includendo il lsuffisso o suffisso parola chiave:

newDataFrame = df1.join([df2, rsuffix='_', how='esterno') 
stampa (nuovo DataFrame)

16. DataFrame.combine

Il combinare() La funzione è utile per unire due DataFrame contenenti nomi di colonna simili in base a criteri impostati. Accetta un funzione parola chiave.

Ad esempio, per unire due DataFrame con nomi di colonna simili basati solo sui valori massimi:

newDataFrame = df.combine (df2, numpy.minimum)
stampa (nuovo DataFrame)

Nota: Puoi anche definire una funzione di selezione personalizzata e inserire numpy.minimo.

17. DataFrame.astype

Il astype() la funzione cambia il tipo di dati di una particolare colonna o DataFrame.

Per modificare tutti i valori in un DataFrame in stringa, ad esempio:

DataFrame.astype (str)

18. DataFrame.sum

Il somma() funzione in pandas restituisce la somma dei valori in ogni colonna:

DataFrame.sum()

Puoi anche trovare la somma cumulativa di tutti gli articoli utilizzando cumsum():

DataFrame.cumsum()

19. DataFrame.drop

panda' gocciolare() la funzione elimina righe o colonne specifiche in un DataFrame. Devi fornire i nomi delle colonne o l'indice di riga e un asse per usarlo.

Per rimuovere colonne specifiche, ad esempio:

df.drop (colonne=['colonna1', 'colonna2'], asse=0)

Per eliminare le righe sugli indici 1, 3 e 4, ad esempio:

df.drop([1, 3, 4], asse=0)

20. DataFrame.corr

Vuoi trovare la correlazione tra colonne intere o float? i panda possono aiutarti a raggiungere questo obiettivo usando il corr() funzione:

DataFrame.corr()

Il codice precedente restituisce un nuovo DataFrame contenente la sequenza di correlazione tra tutte le colonne intere o float.

21. DataFrame.add

Il Inserisci() La funzione consente di aggiungere un numero specifico a ciascun valore in DataFrame. Funziona scorrendo un DataFrame e operando su ogni elemento.

Imparentato:Come utilizzare i cicli For in Python

Per aggiungere 20 a ciascuno dei valori in una colonna specifica contenente numeri interi o float, ad esempio:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Come la funzione di addizione, puoi anche sottrarre un numero da ogni valore in un DataFrame o in una colonna specifica:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Questa è una versione di moltiplicazione della funzione di addizione dei panda:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Allo stesso modo, puoi dividere ciascun punto dati in una colonna o DataFrame per un numero specifico:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Usando il std() funzione, panda ti consente anche di calcolare la deviazione standard per ogni colonna in un DataFrame. Funziona scorrendo ogni colonna in un set di dati e calcolando la deviazione standard per ciascuna:

DataFrame.std()

26. DataFrame.sort_values

Puoi anche ordinare i valori in modo crescente o decrescente in base a una determinata colonna. Per ordinare un DataFrame in ordine decrescente, ad esempio:

newDataFrame = DataFrame.sort_values (by = "colmun_name", discendente = True)

27. DataFrame.melt

Il sciolto() la funzione in panda inverte le colonne in un DataFrame in singole righe. È come esporre l'anatomia di un DataFrame. Quindi ti consente di visualizzare il valore assegnato a ciascuna colonna in modo esplicito.

newDataFrame = DataFrame.melt()

28. Conteggio frame di dati

Questa funzione restituisce il numero totale di elementi in ciascuna colonna:

DataFrame.count()

29. DataFrame.query

panda' interrogare() ti consente di chiamare gli elementi utilizzando il loro numero di indice. Per ottenere gli articoli nella terza riga, ad esempio:

DataFrame.query('4') # Richiama la query sul quarto indice

30. DataFrame.dove

Il dove() function è una query panda che accetta una condizione per ottenere valori specifici in una colonna. Ad esempio, per ottenere tutte le età inferiori a 30 anni da un Età colonna:

DataFrame.where (DataFrame['Età'] < 30)

Il codice precedente restituisce un DataFrame contenente tutte le età inferiori a 30 anni ma assegna Nonna alle righe che non soddisfano la condizione.

Gestisci i dati come un professionista con i panda

pandas è un tesoro di funzioni e metodi per la gestione di set di dati da piccoli a grandi con Python. La libreria è utile anche per pulire, convalidare e preparare i dati per l'analisi o l'apprendimento automatico.

Prendersi il tempo per padroneggiarlo rende sicuramente la vita più facile come scienziato dei dati e ne vale la pena. Quindi sentiti libero di raccogliere tutte le funzioni che puoi gestire.

20 funzioni Python che dovresti conoscere

La Python Standard Library contiene molte funzioni per aiutare con le tue attività di programmazione. Scopri i più utili e crea codice più robusto.

Leggi Avanti

CondividereTwittaE-mail

Argomenti correlati

Programmazione
Pitone
Programmazione
Banca dati

Circa l'autore

Idowu Omisola (123 articoli pubblicati)

Idowu è appassionato di qualsiasi tecnologia e produttività intelligenti. Nel tempo libero, gioca con la programmazione e passa alla scacchiera quando è annoiato, ma ama anche staccare dalla routine di tanto in tanto. La sua passione per mostrare alle persone la via della tecnologia moderna lo motiva a scrivere di più.

Altro da Idowu Omisola

Iscriviti alla nostra Newsletter

Iscriviti alla nostra newsletter per suggerimenti tecnici, recensioni, ebook gratuiti e offerte esclusive!

Clicca qui per iscriverti

About Technology - denizatm.com