Per analizzare un set di dati, devi prima comprendere i dati. A volte, potresti non avere una conoscenza diretta di un set di dati, impedendoti di trarne il massimo. In qualità di analista di dati, puoi utilizzare l'analisi dei dati esplorativa (EDA) per acquisire conoscenza del tuo set di dati prima di un'analisi approfondita.

L'analisi esplorativa dei dati (EDA) esamina un set di dati per ottenere informazioni significative. Il processo di esecuzione dell'EDA comporta l'interrogazione di informazioni sulla struttura e il contenuto di un set di dati.

Installazione del pacchetto Gota

Il pacchetto Gota è il più popolare per analisi dei dati in Vai; è come il Pacchetto Python Panda ma per Vai. Il pacchetto Gota contiene molti metodi per analizzare i set di dati e leggere i formati JSON, CSV e HTML.

Esegui questo comando sul tuo terminale nella directory in cui hai inizializzato un file del modulo Go:

andare get -u github.com/andare-gota/gota

Il comando installerà Gota nella directory locale, pronto per l'importazione del pacchetto per usarlo.

instagram viewer

Proprio come Panda, Gota supporta le operazioni di serie e frame di dati. Ci sono due sottopacchetti nel pacchetto Gota: la serie e il pacchetto dataframe. Puoi importarne uno o entrambi, a seconda delle tue esigenze.

importare (
"github.com/andare-gota/gota/serie"
"github.com/andare-gota/gota/dataframe"
)

Lettura di un set di dati utilizzando il pacchetto Gota

Puoi utilizzare qualsiasi file CSV che ti piace, ma i seguenti esempi mostrano i risultati da un set di dati Kaggle, contenente i dati sui prezzi dei laptop.

Gota ti consente di leggere i formati di file CSV, JSON e HTML per creare frame di dati utilizzando il file Leggi CSV, Leggi JSON, e Leggi HTML metodi. Ecco come caricare un file CSV in un oggetto dataframe:

file, err := os. Open("/percorso/di/file-csv.csv")

Se ehm!= zero {
fmt. Println("errore di apertura file")
}

dataFrame := dataframe. Leggi CSV(file)
fmt. Println (dataFrame)

Puoi usare il Aprire metodo del os pacchetto per aprire un file CSV. Il metodo ReadCSV legge l'oggetto file e restituisce un oggetto dataframe.

Quando si stampa questo oggetto, l'output è in formato tabulare. È possibile manipolare ulteriormente l'oggetto dataframe utilizzando i vari metodi forniti da Gota.

L'oggetto stamperà solo alcune delle colonne se un set di dati ha più di un valore impostato.

Recupero della dimensione del set di dati

Le dimensioni di un dataframe sono il numero di righe e colonne che contiene. Puoi recuperare queste dimensioni usando il Dim metodo dell'oggetto dataframe.

var righe, colonne = dataFrame. Si attenua()

Sostituisci una delle variabili con un trattino basso per recuperare solo l'altra dimensione. Puoi anche interrogare individualmente il numero di righe e colonne, usando il Ora e Ncol metodi.

var righe = dataFrame. Nrow()
var colonne = dataFrame. Ncol()

Recupero dei tipi di dati delle colonne

Avrai bisogno di conoscere i tipi di dati compositi nelle colonne di un set di dati per analizzarlo. Puoi recuperarli usando il Tipi metodo del tuo oggetto dataframe:

var tipi = dataFrame. tipi()
fmt. Println (tipi)

Il metodo Types restituisce una sezione contenente i tipi di dati della colonna:

Recupero dei nomi delle colonne

Avrai bisogno dei nomi delle colonne per selezionare colonne specifiche per le operazioni. Puoi usare il Nomi metodo per recuperarli.

var columnNames := dataFrame. Nomi()
fmt. Println (columnNames)

Il metodo Names restituisce una porzione dei nomi delle colonne.

Controllo dei valori mancanti

Potresti avere un set di dati che contiene valori null o non numerici. È possibile verificare la presenza di tali valori utilizzando HasNaN e IsNaN metodi di un oggetto della serie:

aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan controlla se una colonna contiene elementi null. IsNaN restituisce una porzione di valori booleani che rappresentano se ogni valore nella colonna è un numero.

Esecuzione di analisi statistiche descrittive

Analisi statistica descrittiva ti aiuta a capire la distribuzione delle colonne numeriche. Usando il Descrivere metodo, puoi generare un'analisi statistica descrittiva del tuo set di dati:

descrizione := dataFrame. Descrivere()
fmt. Println (descrizione)

Il metodo Describe restituisce metriche come la media, la deviazione standard e i valori massimi delle colonne in un set di dati. Li riassume in un formato tabellare.

Puoi anche essere specifico e concentrarti su colonne e metriche selezionando una colonna particolare, quindi eseguendo query per la metrica desiderata. Dovresti prima recuperare la serie che rappresenta una colonna specifica, quindi utilizzare i suoi metodi in questo modo:

aCol := dataFrame. Col("display_size")
var media = aCol. Significare()
var mediana = aCol. Mediano()
var minimo = aCol. Min()
var deviazione standard = aCol. StdDev()
var massimo = aCol. Massimo ()
var quantiles25 = aCol. quantile(25.0)

Questi metodi rispecchiano i risultati dell'analisi statistica descrittiva eseguita da Describe.

Recupero degli elementi in una colonna

Una delle attività finali che vorrai eseguire è controllare i valori in una colonna per una panoramica generale. Puoi usare il Record metodo per visualizzare i valori di una colonna.

aCol := dataFrame. Col("marchio")
fmt. Println (aCol. record())

Questo metodo restituisce una porzione di stringhe contenente i valori nella colonna selezionata:

Esportazione di un frame di dati Gota in un file

Se scegli di andare oltre e utilizzare il pacchetto Gota per l'analisi completa dei dati, dovrai salvare i dati nei file. Puoi usare il Scrivi CSV e Scrivi JSON metodi di dataframe per esportare i file. I metodi accettano un file che creerai usando il os pacchi Creare metodo.

Ecco come puoi esportare un dataframe usando il pacchetto Gota.

dataFrame := dataframe. Leggi CSV(file)
outputFile, err := os. Crea("output.csv")

Se ehm!= zero {
tronco d'albero. fatale (err)
}

err = dataFrame. Scrivi CSV (file di output)

Se ehm!= zero {
tronco d'albero. Fatalln("Si è verificato un errore durante la scrittura del contenuto del dataframe nel file")
}

Il dataFrame variabile è una rappresentazione del dataframe. Quando usi il Creare metodo del os pacchetto, crea un nuovo file vuoto con il nome specificato e restituisce il file. Il metodo WriteCSV accetta l'istanza del file e restituisce un errore o zero se non ci sono errori.

L'analisi dei dati esplorativi è importante

La comprensione dei dati e dei set di dati è essenziale per gli analisti di dati e gli specialisti dell'apprendimento automatico. È un'operazione critica nel loro ciclo di lavoro e l'analisi esplorativa dei dati è una delle tecniche che usano per raggiungere questo obiettivo.

C'è di più nel pacchetto Gota. Puoi usarlo per varie funzioni di data wrangling nello stesso modo in cui useresti la libreria Python Pandas per l'analisi dei dati. Tuttavia, Gota non supporta le stesse funzionalità dei Panda.