Annuncio

importare i dati nel foglio di calcolo di GoogleQuando si tratta di database online e di informazioni che si possono trovare all'interno di ciò che è comunemente noto come "ragnatela invisibile I 12 migliori motori di ricerca per esplorare il Web invisibileGoogle o Bing non possono cercare tutto. Per esplorare il Web invisibile, è necessario utilizzare questi motori di ricerca speciali. Per saperne di più “, non sono il tuo utente tipico. Certo, passo un po' troppo del mio tempo a setacciare database online in posti come gli Archivi Nazionali e la CIA FOIA leggendo stanza, ma devo dire che nulla mi rende più eccitato di quando trovo una tabella basata su HTML piena di volumi di apparentemente complessi e non collegati dati.

Il fatto è che le tabelle di dati sono una miniera d'oro di importanti verità. I dati vengono spesso raccolti da eserciti di reclute di raccolta dati con stivali a terra. Ci sono persone del censimento degli Stati Uniti che viaggiano per l'intero paese per informazioni domestiche e familiari. Hai gruppi ambientalisti senza scopo di lucro che raccolgono ogni sorta di informazioni interessanti sull'ambiente, l'inquinamento, il riscaldamento globale e altro ancora. E se ti piace il paranormale o l'ufologia, ci sono anche tabelle di informazioni costantemente aggiornate sugli avvistamenti di strani oggetti nel cielo sopra di noi.

instagram viewer

Ironia della sorte, penseresti che qualsiasi governo al mondo sarebbe interessato a sapere che tipo di navi straniere vengono avvistate nei cieli di qualsiasi paese, ma a quanto pare no, almeno non negli Stati Uniti. comunque. In America, la collezione di avvistamenti insoliti di imbarcazioni è stata relegata a squadre di hobbisti dilettanti che si accalcano verso nuovi avvistamenti UFO come falene su una fiamma. Il mio interesse per questi avvistamenti in realtà non deriva da un fascino per gli alieni o le imbarcazioni di altri pianeti, ma da un fascino scientifico per i modelli - dove e perché più persone stanno vedendo cose nel cielo e se quegli avvistamenti potrebbero riflettere qualcosa di molto reale e molto più con i piedi per terra che sta effettivamente andando Su.

Per esplorare i volumi di dati raccolti da squadre di appassionati di UFO, ho effettivamente sviluppato un modo per importare grandi tabelle HTML di dati in un foglio di calcolo di Google, quindi manipolare e analizzare tali dati per estrarre e scoprire dati significativi e importanti informazione. In questo articolo, intendo mostrarti come fare lo stesso.

Dati HTML importanti nel foglio di calcolo di Google

In questo esempio, ti mostrerò come importare tutti i dati che potrebbero essere archiviati in una tabella su qualsiasi sito Web su Internet, nel tuo foglio di calcolo di Google. Pensa all'enorme volume di dati disponibile oggi su Internet sotto forma di tabelle HTML. Wikipedia da sola ha dati in tabelle per argomenti come il riscaldamento globale, l'U.S. Census Bureau ha tonnellate di set di dati sulla popolazione, e un po' di Googling ti porterà molto di più oltre.

Nel mio esempio, sto iniziando con un database sul National UFO Reporting Center che in realtà sembra un database deep-web in stile query, ma se osservi il Strutturazione dell'URL, è in realtà un sistema di reportistica semi-complesso basato sul Web composto da pagine Web statiche e tabelle HTML statiche, esattamente ciò che vogliamo quando cerchiamo dati da importare.
importare i dati nel foglio di calcolo di Google
NUForc.org è una di quelle organizzazioni che funge da uno dei più grandi centri di segnalazione per gli avvistamenti di UFO. Non è l'unico, ma è abbastanza grande da trovare nuovi set di dati con avvistamenti attuali per ogni mese. Scegli di visualizzare i dati ordinati in base a criteri come Stato o Data e ciascuno di questi viene fornito sotto forma di pagina statica. Se ordini per data e poi fai clic sulla data più recente, vedrai che la tabella elencata è una pagina Web statica denominata in base al formato della data.
importare dati in google docs
Quindi, ora abbiamo uno schema per estrarre regolarmente le ultime informazioni sugli avvistamenti da questo database basato su HTML. Tutto quello che devi fare è importare la prima tabella, utilizzare la voce più recente (quella in alto) per identificare la ultimo aggiornamento, quindi utilizzare la data di tale pubblicazione per creare il collegamento URL in cui si trova l'ultima tabella di dati HTML esiste. Ciò richiederà semplicemente un paio di istanze della funzione ImportHTML e quindi alcuni usi creativi delle funzioni di manipolazione del testo. Quando hai finito, avrai uno dei tuoi fogli di calcolo di reporting più interessanti e autoaggiornanti. Iniziamo.

Importazione di tabelle e manipolazione dei dati

Il primo passo, ovviamente, è creare il nuovo foglio di calcolo.
importare dati in google docs
Quindi, come si importano le tabelle HTML? Tutto ciò di cui hai bisogno è l'URL in cui è archiviata la tabella e il numero della tabella nella pagina: di solito il primo elencato è 1, il secondo è 2 e così via. Poiché conosco l'URL di quella prima tabella che elenca le date e i conteggi degli avvistamenti elencati, è possibile importare digitando la seguente funzione nella cella A1.

=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)

H2 mantiene la funzione “=ora (ora())“, quindi la tabella si aggiornerà ogni ora. Questo è probabilmente estremo per i dati che lo aggiornano di rado, quindi probabilmente potrei farla franca ogni giorno. Ad ogni modo, la funzione ImportHTML di cui sopra porta nella tabella come mostrato di seguito.
UFReport4
Dovrai fare un po' di manipolazione dei dati su questa pagina prima di poter mettere insieme l'URL per la seconda tabella con tutti gli avvistamenti UFO. Ma vai avanti e crea il secondo foglio sulla cartella di lavoro.
importare dati in google docs
Prima di provare a costruire quel secondo foglio, è il momento di estrarre la data del post da questa prima tabella, per costruire il collegamento alla seconda tabella. Il problema è che la data viene inserita come formato data, non come stringa. Quindi, per prima cosa devi usare la funzione TESTO per convertire la data di pubblicazione del rapporto in una stringa:

=testo (A2,”mm/gg/aa”)

Nella cella successiva a destra, è necessario utilizzare la funzione SPLIT con il delimitatore "/" per suddividere la data in mese, giorno e anno.

=diviso (RE2,”/”)
importare nel foglio di calcolo di Google
Guardando bene! Tuttavia, ogni numero deve essere forzato a due cifre. Lo fai nelle celle proprio sotto di loro usando di nuovo il comando TESTO.

=testo (MI2,”00″)

Un formato di "00" (quelli sono zeri) forza due cifre o uno "0" come segnaposto.
importare nel foglio di calcolo di Google
Ora sei pronto per ricostruire l'intero URL nell'ultima tabella HTML di nuovi avvistamenti. Puoi farlo usando la funzione CONCATENATE e mettendo insieme tutte le informazioni che hai appena estratto dalla prima tabella.

=concatena(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
importare nel foglio di calcolo di Google
Ora, sul nuovo foglio che hai creato sopra (il foglio bianco), eseguirai una nuova funzione "importhtml", ma questa volta per la prima Parametro collegamento URL, quindi tornerai al primo foglio di calcolo e fai clic sulla cella con il collegamento URL appena creato.
UFReport9
Il secondo parametro è “tabella” e l'ultimo è “1” (perché la tabella degli avvistamenti è la prima e l'unica della pagina). Premi invio e ora hai appena importato l'intero volume di avvistamenti che sono stati pubblicati in quella particolare data.
UFReport10
Quindi, probabilmente stai pensando che questo sia un bel atto di novità e tutto il resto – voglio dire, dopotutto, quello che hai fatto è estratto le informazioni esistenti da una tabella su Internet e le ho migrate a un'altra tabella, anche se privata nei tuoi documenti Google account. Sì è vero. Tuttavia, ora che è nel tuo account Google Docs privato, hai a portata di mano gli strumenti e le funzioni per analizzare meglio quei dati e iniziare a scoprire connessioni sorprendenti.

Utilizzo dei rapporti pivot per analizzare i dati importati

Proprio di recente, ho scritto un articolo sull'utilizzo Rapporti pivot in Google Spreadsheet Diventa un analista di dati esperto durante la notte utilizzando gli strumenti di report del foglio di calcolo di GoogleSapevi che uno dei migliori strumenti per condurre l'analisi dei dati è in realtà Google Spreadsheet? La ragione di ciò non è solo perché può fare quasi tutto ciò che potresti desiderare... Per saperne di più per eseguire tutti i tipi di fantastiche imprese di analisi dei dati. Bene, puoi fare le stesse incredibili acrobazie di analisi dei dati sui dati che hai importato da Internet – dandoti la possibilità di scoprire connessioni interessanti che forse nessun altro ha scoperto prima tu.

Ad esempio, dalla tabella degli avvistamenti finali, potrei decidere di utilizzare un rapporto pivot per dare un'occhiata al numero di diverse forme uniche riportate in ogni stato, rispetto al numero complessivo di avvistamenti in quel particolare stato. Infine, filtro anche tutto ciò che menziona "alieni" nella sezione commenti, per eliminare, si spera, alcune delle voci più wingnut.
UFReport11
Questo in realtà rivela alcune cose piuttosto interessanti fin dall'inizio, come il fatto che la California ha chiaramente il più alto livello numero di avvistamenti segnalati di qualsiasi altro Stato, insieme alla distinzione di segnalare il maggior numero di forme di imbarcazioni nel nazione. Dimostra anche che il Massachusetts, la Florida e l'Illinois sono grandi successi anche nel dipartimento degli avvistamenti UFO (almeno nei dati più recenti).

Un'altra cosa interessante di Google Spreadsheet è l'ampia gamma di grafici a tua disposizione, inclusa una mappa geografica che ti consente di disporre "punti caldi" di dati in un formato grafico che si distingue davvero e rende abbastanza quelle connessioni all'interno dei dati ovvio.
importare i dati nel foglio di calcolo di Google
Se ci pensate, questa è davvero solo la punta dell'iceberg. Se ora puoi importare dati da tabelle di dati su qualsiasi pagina su Internet, pensa solo alle possibilità. Ricevi gli ultimi numeri di borsa o i 10 libri e autori più recenti nella top ten dei bestseller del New York Times o le auto più vendute al mondo. Esistono tabelle HTML su quasi tutti gli argomenti che puoi immaginare e in molti casi queste tabelle vengono aggiornate di frequente.

ImportHtml ti dà la possibilità di collegare il tuo foglio di calcolo Google a Internet e alimentare i dati che esistono là fuori. Può diventare il tuo hub personale di informazioni che puoi utilizzare per manipolare e massaggiare in un formato con cui puoi effettivamente lavorare. È solo un'altra cosa molto interessante da amare su Google Spreadsheet.

Hai mai importato dati nei tuoi fogli di calcolo? Che tipo di cose interessanti hai scoperto in quei dati? Come hai usato i dati? Condividi le tue esperienze e idee nella sezione commenti qui sotto!

Crediti immagine: Grafico commerciale

Ryan ha una laurea in ingegneria elettrica. Ha lavorato 13 anni nell'ingegneria dell'automazione, 5 anni nell'IT e ora è un ingegnere delle app. Ex caporedattore di MakeUseOf, ha parlato a conferenze nazionali sulla visualizzazione dei dati ed è apparso su TV e radio nazionali.