Seleziona una pagina

Come estrarre dati da una pagina web

come-estrarre-dati-da-una-pagina-web

Ogni giorno il web si riempie di nuovi contenuti. Ogni minuto vengono caricate 400 ore di nuovi video su YouTube e si effettuano circa 3 milioni e mezzo di ricerche su Google. Nello stesso minuto vengono messi 3 milioni di nuovi “mi piace” su Facebook e 300.000 persone aggiornano la propria bacheca. Nel frattempo, sugli smartphone di tutto il mondo vengono scambiati circa 16 milioni di messaggi tramite le piattaforme di text messaging come WhatsApp o WeChat.  Vengono, dunque, creati continuamente più dati di quelli che si riescono a processare e il volume è cosi enorme da meritarsi la definizione di Big Data. In questo contesto è facile comprendere quanto l’estrazione dei dati dalle pagine web possa costituire una risorsa strategica per qualsiasi business. In questa pagina cercheremo di capire come estrarre i dati da una pagina web e quali strumenti utilizzare.

In cosa consiste l’estrazione delle pagine web?

L’estrazione dei dati, chiamata anche, web scraping, consiste nell’estrarre informazioni da una pagina web recuperandole dal codice ed è un processo molto simile a quello eseguito dai crawler di Google per scansionare la rete e indicizzarne i contenuti. Il web scraping e l’analisi dei dati hanno un impatto ad ampio spettro poiché non esiste, ormai, settore industriale né materia scientifica o umanistica che non conosca l’utilizzo massivo dei dati. Grazie agli strumenti di web scraping è possibile estrarre testi, immagini, video, tabelle, numeri e le applicazioni sono pressoché infinite. Questi sono alcuni esempi di quali tipo di dati possono essere estratti e come utilizzarli:

  • Lead Generation: Possono essere ricavati contatti, numeri di telefono ed email per creare la propria lista di vendita,
  • Analisi della concorrenza: Si possono, per esempio, utilizzare i dati ottenuti online per studiare i prezzi dei prodotti degli E-commerce competitor,
  • Web reputation:  è possibile collezionare dati per comprendere quale sia l’opinione dei propri consumatori attraverso l’analisi dei social per esempio ma anche di articoli di giornali o blog.
  • Analisi SEO: si può studiare l’analisi semantica di una pagina web attraverso l’estrazione di chiavi di ricerca per capire su quali ottimizzazioni lavora un competitor.

Il web scraping è legale?

A questo punto ti starai chiedendo se l’estrazione dei dati dai siti web sia legale. Il salvataggio dei dati a cui si ha legalmente accesso è generalmente consentito in base ai termini di utilizzo di molti siti Web. Questa pratica diventa illegale quando viene impiegata per finalità illecite e quando i dati estrapolati vengono utilizzati per altri usi come pubblicazione, scopi di lucro, finalità di controllo, raccolta e trattamento dati personali, sensibili e finanziari, all’insaputa e senza il consenso del titolare del sito o del titolare dei contenuti e delle informazioni presenti sul sito stesso. In ogni caso molti siti semplicemente non forniscono una funzionalità di esportazione o impediscono l’esportazione dei dati a cui hanno accesso. Bisogna sempre controllare i termini di servizio del sito che si utilizza per assicurarsi che l’esportazione dei dati sia consentita. I più comuni strumenti di web scraping esportano solo i dati che riescono a visualizzare. In effetti funzionano un po’ come la funzionalità stampa del browser: puoi stampare solo ciò che vedi sullo schermo.

Come estrarre dati da una pagina web

Esistono principalmente due tecniche di web scraping. Vediamo quali sono e le differenze che le contraddistinguono:

Estrazione manuale:

Come estrarre dati da una pagina web manualmente? Tutto ciò che ti  serve è la capacità di copiare e incollare informazioni e un un foglio elettronico per tenere traccia dei dati estratti. Questo è probabilmente il metodo più semplice di web scraping e a volte l’unico visto che alcuni siti web impediscono l’estrazione dei dati. Inoltre, la tecnica manuale consente di evitare errori grazie al controllo umano o di  saltare set dati non pertinenti ai nostri scopi. Di contro può essere piuttosto costoso se non altro per l’investimento in termini di tempo.

Strumenti di web Scraper

Gli strumenti automatici di web scraping o web scraper sono diventati sempre più popolari grazie alla loro facilità d’uso e al risparmio di tempo e denaro. Questi tools possono essere delle semplici estensioni del browser o veri e propri software più potenti. Consentono una scansione incredibilmente veloce, estraendo centinaia di dati in pochi secondi. Sono facili da usare poiché la maggior parte di questi strumenti hanno implementato interfacce utente molto intuitive che consentono a chiunque di estrarre dati dal web senza rendere necessario avere competenze di codifica.

Principali strumenti di web scraping

A questo punto ti starai chiedendo qual è il miglior strumento per l’estrazione di dati dal web. Ovviamente tutto dipende dalle tue esigenze e da progetti specifici. Tuttavia vediamo quali sono gli strumenti di web scraping più utilizzati:

Octoparse

Octoparse è uno strumento potente ed efficace che permette di estrarre diverse tipologie di dati trasformandoli in dati strutturati. Ha un’interfaccia semplice grazie alla quale è possibile configurarlo facilmente e personalizzare i criteri di estrazione desiderati. Ha una versione gratuita e si possono invece acquistare abbonamenti con ulteriori funzioni.

ParseHub

Anche ParseHub offre un piano gratuito e dei piani aziendali personalizzati. È uno strumento che combina la facilità di utilizzo con funzionalità molto avanzate. ParseHub riesce a gestire mappe, calendari, ricerche, forum. È possibile creare API da siti web che non li hanno, permette di scansionare le pagine web con Javascript, Ajax ed inoltre è integrato con sistemi di archiviazione.

Web Scraper

Web Scraper è un’estensione gratuita per Google Chrome e Firefox per l’estrazione di dati da siti web dinamici. Permette di configurare lo scraper semplicemente cliccando sugli elementi che ci interessa estrarre creando quindi una sorta di sitemap. In seguito lo strumento fornisce una tabella con i dati che abbiamo selezionato. Ovviamente poi è possibile esportare i dati in formato CSV, XLSX o JSON.

DataMiner

Data Miner è un’estensione Google Chrome e Microsoft Edge che permette l’estrazione dei dati da qualsiasi pagina pagina HTML.  Puoi estrarre tabelle ed elenchi da qualsiasi pagina e caricarli su Fogli di Google o Excel. Con la versione free puoi estrarre dati da 500 pagine al mese ma puoi ampliare le sue funzioni acquistando un abbonamento.

Google Spreadsheets

Lo strumento Fogli di Google non è nato per l’estrazione dei dati dalle pagine web ma grazie ad alcune funzioni permette l’importazione di vari tipi di dati strutturati, tra cui XML, HTML, CSV, TSV . Supponiamo di voler importare una tabella presente su una qualsiasi pagina web, in questo caso una tabella presente su Wikipedia.

esempio estrazione di dati da una pagina web
Dopo aver aperto lo strumento Fogli di Google da Google Drive, basterà fare doppio clic sulla prima cella quindi incollare la formula seguente:

=ImportHTML(“https://it.wikipedia.org/wiki/Fiumi_pi%C3%B9_lunghi_del_mondo”; “table”; 5)

Il numero 5 alla fine della formula consente di far capire allo strumento quale tabella, in ordine di apparizione nella pagina web, deve essere importata.
Basta accedere al sorgente della pagina cliccando sulla corrispettiva voce dal tasto destro del mouse e con la funzioni CTRL+F cercare <table. In questo modo si può stabilire il numero della tabella contenente i dati da importare e specificarlo nella formula.

come estrarre dati da una pagina web

In seguito tutti i dati presenti nella tabella pubblicata sul web risulteranno automaticamente importati nel foglio di calcolo. Ovviamente i dati possono poi essere salvati sul proprio pc o copiati su Excel.

estrarre dati da una pagina web con google fogli

Alcune formule utili per esportare altri tipi di dati sono:

  • =importdata(”link”) per copiare tutti i dati presenti sulla pagina
  • =importfeed(“link feed”) per importare i feed della pagina

Conclusioni

In questa pagina abbiamo visto come estrarre dati da una pagina web e quali strumenti utilizzare. L’analisi dei dati riveste un ruolo fondamentale per le aziende, se vuoi specializzarti in questo ambito potresti essere interessato alla Certificazione Web Analytics Specialist grazie alla quale imparerai ad utilizzare gli strumenti di web marketing fondamentali per questa professione.

Metti alla prova le tue capacità e scopri se la professione di Web Analytics Specialist è adatta a te a te con il nostro TEST.

FAI IL TEST

Valutazione Digital Coach su Google