Seleziona una pagina

Come estrarre dati da una pagina web

Questa pagina è pensata apposta per dare una risposta alla query che hai digitato su Google. Estrarre dati da una pagina web è una tecnica che in inglese viene definita web scraping (dal verbo “to scrape” che significa grattare, raschiare, racimolare). Il web scraping è un’attività simile a quella compiuta abitualmente dai crawler di Google per la scansione della rete e consiste nel copiare i contenuti di un sito per averli a propria disposizione, ad esempio su un file excel. L’estrazione avviene attraverso l’analisi del codice delle pagine e può variare in base al dato che si vuole scaricare (ad esempio testo o tabelle).

 

Strumenti per estrarre dati da una pagina web

Attraverso l’utilizzo di web scraping tool specifici è possibile automatizzare questa pratica. Andiamo perciò a vedere quali sono i principali strumenti gratuiti per l’estrazione dati da una pagina html.

 

Google Sheets

Il sistema forse più sottovalutato, ma molto efficace per estrarre dati da una pagina html in modo efficace è lo strumento Google Sheets (o Fogli Google), disponibile gratuitamente per chiunque su Google Drive attraverso il proprio account. Si tratta in pratica della versione free di Excel, quindi di tool dedicato ai fogli di calcolo, che non nasce propriamente come sistema di scraping, ma che grazie a una serie di funzioni consente l’importazione di vari tipi di dati strutturati.

schermata Google sheetsNello specifico, per estrarre dati da un sito web è possibile portarsi su Google Drive e aprire un nuovo documento Google Sheets. Quindi, dopo aver selezionato la prima cella del foglio di calcolo, si potrà impostare una formula per l’importazione dei dati.

 

Queste sono le formule più utilizzate (per “link” si intende l’URL della pagina che si desidera analizzare):

  • =importdata(”link”) per copiare tutti i dati presenti sulla pagina
  • =importfeed(“link feed”) per importare i feed della pagina
  • =importhtml(“link”;“table”) per estrarre le tabelle dalla pagina

 

ParseHub

schermata hompage parsehubParseHub è un software desktop – ossia scaricabile sul proprio computer – disponibile per sistemi Windows, Mac e Linux. Si tratta di un programma di analisi (dall’inglese “to parse”, che significa appunto analizzare) che nella propria versione free consente la gestione di 5 progetti in contemporanea e l’estrazione dati da 200 pagine in 40 minuti.

 

Data Miner

data miner homepage

Data Miner è un web scraping tool che può essere integrato con Google Chrome. Attraverso l’estensione per browser permette di selezionare in maniera visuale i dati da estrarre da una singola pagina. La versione gratuita include la possibilità di estrarre dati da 500 pagine al mese.

 

 

 

Web Scraper

schermata homepage web scraperWeb Scraper è un altro strumento disponibile gratuitamente come estensione di Google Chrome. Consente di creare una sitemap del sito dal quale si desidera scaricare dati e di selezionare quindi i vari elementi per avere un’anteprima del risultato. Dopo la creazione della sitemap è sufficiente lanciare l’estrazione per esportare i dati dal web su un file csv.

 

Octoparse

homepage octoparse

Octoparse è un software semplicissimo da usare nella propria versione free. È dotato di un’interfaccia che guida l’utente nell’estrazione dati in 3 semplici passaggi:

 

  • inserimento dell’URL del sito che si desidera analizzare
  • selezione dei dati da estrarre
  • avvio dell’estrazione e download dei dati in formato html, csv o txt.

 

OutWit Hub

outwit hub homepageOutWit Hub è un’estensione per Firefox installabile direttamente sul browser per scaricare dati da internet. Attualmente è disponibile soltanto in inglese e in francese, ma può essere installato su ogni tipo di sistema.

 

Perché estrarre dati da una pagina web

Dopo aver visto quali sono i principali software per l’estrazione di dati da una pagina web, passiamo ad un’analisi delle attività per le quali questa pratica è indispensabile, che possono essere principalmente:

  • estrazione di testi dai social per compiere una sentiment analysis e comprendere l’opinione dominante su un determinato  argomento
  • estrazione di keyword per analisi semantiche e keyword research
  • estrazione dei prezzi di un prodotto per determinare il prezzo medio di mercato e monitorare la concorrenza

L’analisi e l’interpretazione dei dati riveste un ruolo sempre più importante per le aziende nell’ambito del web product management. Digital Coach offre uno specifico programma di Certificazione Web Analytics Specialist, pensato per imparare a padroneggiare Google Analytics e altri strumenti indispensabili in ambito di web marketing.

CERTIFICAZIONE WEB ANALYTICS SPECIALIST

Il Web Analytics Specialist analizza e interpreta i dati relativi a canali web per aiutare i propri clienti a definire e ottimizzare la loro digital strategy. Se sei interessato ai nostri corsi e vuoi saperne di più sulle date di partenza e sulle modalità di frequenza siamo a tua disposizione!

CONTATTACI

 

 

[wprs-box]

Valutazione Digital Coach su Google