Le tabelle pivot continuano ad essere tra gli strumenti più apprezzati e ampiamente utilizzati all'interno di MS Excel. Che tu sia un analista di dati, un ingegnere di dati o semplicemente un utente normale, è probabile che tu abbia già un debole per MS Excel.

Tuttavia, c'è una possibilità crescente di replicare gli strumenti e le utilità di MS Excel, specialmente in Python. Sapevi che puoi creare tabelle pivot estese in DataFrames di Python con poche righe di codice stesso?

Sì, è corretto; se sei incuriosito, ecco come puoi farlo.

Prerequisiti per la creazione di tabelle pivot

Come qualsiasi altro linguaggio di programmazione, anche Python ha bisogno che tu soddisfi alcuni prerequisiti prima di poter iniziare a programmare.

Per ottenere l'esperienza più ottimizzata durante la creazione della tua prima tabella pivot in Python, ecco di cosa avrai bisogno:

  • Python IDE: La maggior parte dei codici Python ha un ambiente di sviluppo integrato (IDE) preinstallato sul proprio sistema. Ce ne sono diversi
    instagram viewer
    IDE compatibili con Python sul mercato, inclusi Jupyter Notebook, Spyder, PyCharm e molti altri.
  • Dati di esempio: A titolo illustrativo, ecco un set di dati di esempio su cui lavorare. In alternativa, sentiti libero di modificare questi codici direttamente sui tuoi dati in tempo reale.

Collegamento del campione di dati:Esempio di supermercato

Importazione delle biblioteche essenziali

Poiché Python funziona sul concetto di librerie di terze parti, è necessario importare il file Panda libreria per la creazione di pivot.

Puoi usare Panda per importa un file Excel in Python e archiviare i dati in un DataFrame. Per importare Panda, usa il file importare comando nel modo seguente:

importare panda come pd

Come creare pivot in Python

Poiché la libreria è ora disponibile, è necessario importare il file Excel in Python, che è la base per creare e testare i pivot in Python. Archivia i dati importati in un DataFrame con il codice seguente:

# Crea un nuovo DataFrame
# sostituisci con il tuo percorso qui
percorso = "C://Utenti//utente/OneDrive//Desktop//"
# puoi definire il nome del file qui
file = "Esempio - Superstore.xls"
df = pd.read_excel (percorso + file)
df.testa()

Dove:

  • df: Nome della variabile per memorizzare i dati DataFrame
  • pd: Alias ​​per la libreria Panda
  • read_excel(): Funzione Panda per leggere un file Excel in Python
  • sentiero: La posizione in cui è archiviato il file Excel (Sample Superstore)
  • file: Nome del file da importare
  • testa(): Visualizza le prime cinque righe di DataFrame, per impostazione predefinita

Il codice precedente importa il file Excel in Python e archivia i dati in un DataFrame. Infine, il testa la funzione visualizza le prime cinque righe di dati.

Questa funzione è utile per garantire che i dati siano importati correttamente in Python.

Quali campi della tabella pivot esistono in Python?

Come la sua controparte Excel, una tabella pivot ha un insieme simile di campi in Python. Ecco alcuni campi che devi conoscere:

  • Dati: Il campo dati si riferisce ai dati archiviati all'interno di un Python DataFrame
  • I valori: Dati colonnari utilizzati all'interno di un pivot
  • Indice: Una o più colonne di indice per raggruppare i dati
  • Colonne: Le colonne aiutano ad aggregare i dati esistenti all'interno di un DataFrame

Scopo dietro l'utilizzo della funzione di indice

Poiché la funzione di indice è l'elemento principale di una tabella pivot, restituisce il layout di base dei dati. In altre parole, puoi raggruppare i tuoi dati con il indice funzione.

Si supponga di voler visualizzare alcuni valori aggregati per i prodotti elencati in Segmento colonna. È possibile calcolare un aggregato predefinito (valore medio) in Python definendo il valore dell'indice delle colonne designato.

df.tabella_pivot (indice = "Segmento")

Dove:

  • df:DataFrame contenente i dati
  • tabella pivot:Funzione tabella pivot in Python
  • indice: funzione integrata per definire una colonna come indice
  • Segmento: Colonna da utilizzare come valore di indice

I nomi delle variabili di Python fanno distinzione tra maiuscole e minuscole, quindi evita di passare dai nomi delle variabili predefiniti elencati in questa guida.

Come utilizzare i valori multi-indice

Quando si desidera utilizzare più colonne di indice, è possibile definire i nomi delle colonne in a elenco all'interno della funzione di indice. Tutto quello che devi fare è specificare i nomi delle colonne all'interno di un set di parentesi quadre ([ ]), come mostrato di seguito:

df.tabella_pivot (indice = ["Categoria", "Sottocategoria"])

La funzione pivot indenta la colonna dell'indice nell'output. Python mostra il significare di tutti i valori numerici rispetto a ciascun valore di indice.

Impara a limitare i valori nell'output

Poiché Python seleziona tutte le colonne numeriche per impostazione predefinita, puoi limitare i valori per modificare i risultati mostrati nell'output finale. Utilizzare il i valori funzione per definire le colonne che desideri visualizzare.

df.tabella_pivot (indice = ["Regione", "Categoria", "Sottocategoria"], valori = "I saldi")

Nell'output finale, ci saranno tre colonne di indice e i valori medi per la colonna Sales contrapposti a ciascun elemento.

Definizione di funzioni aggregate nella tabella pivot

Cosa succede quando non si desidera calcolare i valori medi per impostazione predefinita? La tabella pivot ha molte altre funzionalità, che vanno oltre il calcolo di una semplice media.

Ecco come scrivere il codice:

df.tabella_pivot (indice = ["Categoria"], valori = "I saldi", aggfunc = [somma, max, min, len])

Dove:

  • somma: Calcola la somma dei valori
  • massimo: Calcola il valore massimo
  • min: Calcola il valore massimo
  • len: Calcola il conteggio dei valori

È inoltre possibile definire ciascuna di queste funzioni in righe di codice separate.

Come aggiungere i totali complessivi alla tabella pivot

Nessun asset di dati è completo senza i totali complessivi. Per calcolare e visualizzare i totali complessivi per colonna di dati, utilizzare il margini e nome_margini funzione.

df.tabella_pivot (indice = ["Categoria"], valori = "I saldi", aggfunc = [somma, max, min, len], margins=True, margins_name='Grandi totali')

Dove:

  • margini: Funzione per il calcolo del totale complessivo
  • nome_margini: Specificare il nome della categoria nella colonna dell'indice (ad esempio, totali generali)

Modifica e usa il codice finale

Ecco il breve codice finale:

importare panda come pd
# sostituisci con il tuo percorso qui
percorso = "C://Utenti//utente/OneDrive//Desktop//"
# puoi definire il nome del file qui
file = "Esempio - Superstore.xls"
df = pd.read_excel (percorso + file)
df.tabella_pivot (indice = ["Regione", "Categoria", "Sottocategoria"], valori = "I saldi",
aggfunc = [somma, max, min, len],
margini=Vero,
margini_nome='Grandi totali')

Creazione di tabelle pivot in Python

Quando si utilizzano tabelle pivot, le opzioni sono semplicemente infinite. Python ti consente di gestire facilmente vasti array di dati senza preoccuparti delle discrepanze dei dati e dei ritardi di sistema.

Poiché le funzionalità di Python non si limitano alla semplice condensazione dei dati in pivot, puoi combinare più cartelle di lavoro e fogli di Excel, mentre esegui una serie di funzioni correlate con Python.

Con Python, c'è sempre qualcosa di nuovo all'orizzonte.