Seleziona una pagina

TF IDF SEO

Cos'è e a cosa serve

 

TF IDF SEO cos’è? A cosa serve questa formula così complicata? Si tratta di un algoritmo che ha una lunga storia e che ha avuto molteplici usi nel corso del tempo. Il suo utilizzo da parte dei motori di ricerca nella valutazione della pertinenza delle pagine web, rispetto all’intento di ricerca dell’utente, apre una porta lato SEO sul comportamento di Google nell’indicizzazione dei documenti. Questo aspetto rende la metrica TF IDF SEO molto utile da inserire in una strategia di Search Engine Optimization e di seguito vedremo in che modo possa contribuire alla costruzione di contenuti validi.

Se sei interessato a capire come funziona Google e quali sono le strategie per ottimizzare una risorsa web per il motore di ricerca, il corso SEO Manager con certificazione può essere la strada giusta per te.

 

tf idf seo cover

 

TF IDF SEO cos’è?

L’acronimo TF IDF sta per Term Frequency-Inverse Document Frequency e rappresenta una misura statistica che calcola l’importanza di una parola all’interno di una pagina, in rapporto ad un corpus di documenti simili. La storia di questa formula è più lunga rispetto a quella della SEO o del web in generale. Il concetto di frequenza di termine è apparso la prima volta nel 1957, in seguito agli studi statistici di Hans Peter Luhn, mentre l’algoritmo di frequenza inversa dei documenti ha origine nel 1972 grazie all’informatica inglese Karen Sparck Jones.

All’inizio il TF IDF SEO è stato usato in diverse discipline, come la linguistica computazionale e l’architettura dell’informazione. Oggi viene usato nell’analisi automatizzata del testo, come fattore di ponderazione in information retrieval e data mining. Si usa anche per assegnare un punteggio alle parole negli algoritmi di Machine Learning per NPL (Natural Language Processing), come tecnica di recupero di informazioni. Ogni termine ha i rispettivi punteggi di TF e IDF e il prodotto di questi due punteggi porta al TF IDF weighting, cioè il peso. Maggiore è il peso TF-IDF, più raro è il termine e viceversa.

 

TF IDF SEO: differenza tra TF e IDF

Un esempio può aiutare a capire meglio: se un termine compare molte volte in un documento, vuol dire che quel termine è importante e che il documento parli di quel termine. Se una parola appare in molti documenti, non vuol dire che tutti parlino di quella parola, perché nei testi si trovano molte parole come “e”, “è”, “questo”, “quello”, ”per”, “il”, “le”, “la”, ecc. Tali parole sono dette stop-words, ossia parole d’arresto che non hanno significato, se isolate. Questi termini testimoniano come la sola frequenza non basti ad attestare un valore semantico. 

Per approfondire il concetto, bisogna chiarire cosa rappresentano i due punteggi.

  • TF, ossia Term Frequency, misura la frequenza con cui si verifica un termine in un documento. La frequenza di termine, da sola, dice solo se un termine è stato usato troppo spesso o troppo raramente, perciò ha senso solo se rapportata all’IDF.
  • IDF, la Inverse Document Frequency, misura l’importanza del termine in un corpus di documenti simili. Siccome in un ampio insieme di documenti possono esserci tantissime stop-words, lo scopo di questo numero è quello di alleggerire i termini frequenti e assegnare importanza a quelli rari.

Il TF IDF SEO serve a mettere l’accento sulle parole che hanno valore, nonostante una frequenza bassa, e a ridimensionare quei termini molto frequenti, ma privi di valore semantico.

 

TF IDF formula

tf idf formulaCome si calcola il TF IDF SEO? Secondo la Jones, nel processo di estrapolazione dei termini, più un termine è distribuito, meno il processo è efficace. Se ad esempio, il termine che chiameremo t, è presente in tutti i documenti presi in esame, chiamato convenzionalmente D, l’efficacia del processo di estrapolazione è bassa, proprio perché t è presente in tutte le risorse. Al contrario, se il termine t è contenuto in pochi documenti, l’efficacia dell’estrapolazione si alza e si riescono ad individuare le poche pagine che contengono t

 

Funzioni TF IDF

La TF IDF formula sarà: 

TF (t)= numero di volte in cui il termine compare nel documento / numero totale di parole del documento.

Se in un documento che parla di animali volessimo calcolare la term frequency della parola cane, supponendo che il termine compaia 12 volte e che la pagina sia composta da 100 parole, allora:

TF (cane)= 12/100= 0,12

Il calcolo Inverse Document Frequency dà come risultato la frequenza “inversa” di documento, in quanto al denominatore si trova il numero di documenti che contengono il termine di cui si cerca la frequenza:

IDF (t)= log  [ D (numero totale di documenti )] / [ Dt (numero dei documenti in cui compare il termine  t)].

Continuiamo con l’esempio del termine cane. Se esaminiamo un corpus di 10 milioni di documenti e tra questi la parola cane è presente in 0,3 milioni di documenti, la frequenza inversa del documento è:

IDF (cane): log (10.000.000) / (300.000)= 1,52

Se il termine t fosse contenuto in tutti i documenti, (Dt= 10.000.000), il valore IDF diventerebbe pari a 0 (log 1=0). Questo processo permette quindi di eliminare le parole comuni dal processo di ricerca.

Il TF-IDF della parola cane sarà: TFxIDF, dunque 0,12 x 1,52 = 0,182.

Se la parola è molto comune e appare in molti documenti, questo numero si avvicinerà a 0, altrimenti si avvicinerà a 1. Un’operazione intelligente a livello SEO è quella di confrontare tutti i termini con pesi TF-IDF elevati con i rispettivi volumi di ricerca sul web.

Se vuoi approfondire i più importanti concetti della SEO, ti consiglio di scaricare questo e-book gratuito.

 

 

Differenza con la keyword density

La Term Frequency-Inverse Document Frequency è talvolta confusa con una delle metriche spesso associata alla SEO on-page: la keyword density, cioè la percentuale in cui la parola chiave è contenuta in una pagina. Questa metrica era molto considerata, poiché si pensava fosse uno dei criteri adottato da Google per fare ranking di un sito. Al contrario, oggi ha un’accezione negativa, in quanto spesso sfocia nel keyword stuffing, pratica addirittura penalizzata da Google. La keyword density non mette in relazione un termine o una parola chiave con delle pagine correlate, calcola solo la percentuale di presenza della parola chiave all’interno della pagina. Il TF IDF SEO è una metrica più complessa e sofisticata, perché riflette l’importanza di una specifica parola chiave in una determinata pagina e in relazione alle pagine concorrenti.

 

Google usa la TF-IDF ?

John Muller, Senior Webmaster di Google, in un’ intervista svolta dal Search Engine Journal, ha risposto a questa domanda in modo elusivo, affermando vagamente che si tratti di una metrica usata nel recupero di informazioni, o nella rimozione delle stop-words. Si presume, invece, che la formula della Jones, o varianti di essa, faccia parte dei meccanismi di indicizzazione del motore di ricerca, ed è lo stesso Big G a dirlo nel suo blog. Per capire come questa metrica possa essere utile a livello SEO, è d’obbligo approfondire i nuovi comportamenti del motore di ricerca e l’uso che potrebbe fare del TF IDF SEO.

 

Co-occorrenze e ricerca semantica

Quali cambiamenti del motore di ricerca hanno portato all’utilizzo della metrica TF IDF SEO? Con l’evoluzione dell’algoritmo di Google, soprattutto dopo il lancio di Google Hummingbird, sono cambiate le modalità di restituzione dei risultati: vengono privilegiati quelli più pertinenti rispetto alla query. Seguendo i principi della ricerca semantica, Google si sforza di interpretare l’intento di ricerca, senza basarsi esclusivamente su una parola chiave specifica. Dunque, il motore di ricerca è in grado di collegare concetti correlati per comprendere il reale contenuto della pagina.

Secondo questo principio, esistono nuovi fattori che incidono sul posizionamento: uno di questi è la co-occorrenza di keyword in diverse query, cioè lo studio delle parole che compaiono più frequentemente in una pagina che tratta un determinato argomento. Il motore di ricerca analizza come gruppi di keyword simili vengano cercati durante una stessa sessione di ricerca di un utente. L’obiettivo di Google è sempre quello di capire il search intent dell’utente per fornire risultati in grado di soddisfarlo, indipendentemente dal fatto che la frase esatta che è stata cercata, appaia o meno sulle pagine dei risultati forniti per una query specifica. Google, cercando di comprendere le entità (cose o concetti rappresentati linguisticamente da sostantivi) e le loro relazioni, di fronte ad alcune query collegate tra loro fornisce risultati come se si trattasse della stessa query.

In ottica SEO, questo vuol dire che è più importante l’intento di ricerca che sta dietro a una query, piuttosto che la query stessa. Ciò implica la maggiore importanza di creare contenuti di alta qualità, che rispettino l’intento di ricerca e che si differenzino dai concorrenti, piuttosto che ottimizzare le pagine per una keyword specifica.

 

Come è usato da Google

tf idf usato da googleLa necessità del motore di ricerca è quella di ponderare le parole: il modo più usato è il calcolo della frequenza di parole chiave. Il contenuto parla davvero al lettore? Ciò che si legge nella pagina è pertinente rispetto a ciò che l’utente cerca? Risolve il suo problema? Più il contenuto ha senso e valore per l’utente, più ha peso per il motore di ricerca.

Alla base della valutazione del contenuto di un sito web si trova il recupero di informazioni, poiché le macchine devono comprendere il reale contenuto di una pagina. E come funzionano le macchine? Con la matematica, ovvio! In che modo calcolare matematicamente l’argomento e l’intento di un articolo? È qui che viene in soccorso la formula TF IDF SEO, usata dal motore di ricerca per valutare e classificare la pertinenza di un documento. Per fare ciò, Google analizza le pagine del suo indice in base a una serie di funzionalità specifiche che considera pertinenti alla query. Dal momento che la maggior parte dei contenuti online è testo, queste funzionalità consistono nella presenza o assenza di determinati termini e frasi nella pagina. Accanto alla presenza, si calcola anche la loro importanza nella pagina rispetto ad altre pagine del web.

 

Come usare TF IDF nella SEO

Comprendere come viene usato l’algoritmo TF IDF SEO può aiutarci a capire come poterlo sfruttare in ottica SEO: Google misura la frequenza di utilizzo media per un particolare termine su tutto il web e stabilisce un punto di riferimento per rimuovere le stop-words, nonché per fornire una visibilità ancora maggiore al contenuto. Sono diversi i modi in cui è possibile trarre vantaggi da questa metrica: di seguito vedremo come il Term Frequency-Inverse Document Frequency possa migliorare la strategia SEO in termini di posizionamento in SERP.

Vuoi sapere tutto su Google e i suoi algoritmi? La SEO è la disciplina che fa per te! Scoprilo con questo test.

 

Test SEO Specialist

 

Il TF IDF SEO è un calcolo complicato da fare da soli, possono aiutarti in questo dei validi TF IDF tool, sia gratuiti che a pagamento, in grado di darti informazioni utili sull’utilizzo avanzato di parole chiave, di vedere quali termini e frasi sono più utilizzati e di misurare il rendimento delle tue pagine. Il calcolo TF IDF SEO delle parole chiave ti permetterà di:

  • ottimizzare i contenuti on page per argomenti e non per singole parole;
  • trovare lacune nel contenuto;
  • creare nuovi contenuti che ti faranno posizionare più in alto nella SERP.

Il consiglio generale è quello di integrare il Term Frequency-Inverse Document Frequency in una strategia rivolta alle pagine per le quali questo punteggio potrebbe dare il massimo del beneficio:

  • contenuti già ottimizzati che possono salire ulteriormente in SERP, perché godono già di una buona autorevolezza;
  • contenuti validi che però stanno perdendo posizioni. L’algoritmo ti aiuterà a comprendere come il motore di ricerca sta valutando la pertinenza dei contenuti e a capire come ottimizzarla;
  • pagine di prodotto che fanno fatica a posizionarsi. Nel caso di un e-commerce ad esempio, il TF IDF ti aiuta a identificare i contenuti critici o mancanti nella pagina.

 

Ottimizzazione dei contenuti on page

Per ottimizzare il tuo sito puntando alle prime posizioni in SERP, non ti serve l’analisi TF IDF SEO di tutte le pagine del web come fa Google, sarebbe impossibile. È più proficuo fare un’analisi solo sulle prime 10 pagine posizionate per la tua frase chiave target, cioè quelle con cui sei in competizione. Puoi iniziare con un conteggio medio di parole, per capire se è necessario aggiungere grandi sezioni di contenuto alla tua pagina, o se hai dato troppo spazio ad un argomento. Successivamente, puoi analizzare l’importanza dei termini con uno dei TF IDF tool che vedremo più avanti. Di solito, i tool analizzano le prime 10 URL della SERP e forniscono un elenco delle parole chiave più importanti, calcolando a che punto sta il tuo sito in base a questo elenco di termini pertinenti.

In che modo questo elenco può aiutarti ad ottimizzare i contenuti del tuo sito? La prima cosa da fare è cercare di restringere questo elenco: non tutte le keyword trovate con questa analisi vanno bene per il tuo sito. Se hai un ecommerce, è probabile che un competitor venderà un prodotto simile al tuo e che compaia, dal momento che rientra nel campo semantico della tua parola chiave, nell’elenco di keyword correlate alla tua: inserire un competitor nella tua pagina rischia di penalizzarti.

L’analisi TF IDF può aiutarti ad individuare degli argomenti correlati al tuo, argomenti che non hai trattato, ma che varrebbe la pena esplorare, poiché aumenterebbero la qualità del tuo contenuto. Puoi anche studiare come i concorrenti utilizzano i termini mancanti, per individuare il modo migliore di trattarli. Potrebbe trattarsi di piccole modifiche o di aggiungere una parte consistente di testo, come un paragrafo ad una singola pagina, o ancora di interi post dedicati all’argomento mancante sul sito.

 

TF IDF esempio

Facciamo un esempio: hai un blog di fitness e pubblichi pagine in cui spieghi il funzionamento dei singoli esercizi. Una volta effettuata l’analisi TF IDF noterai che tra le keyword ottenute, molte riguardano l’alimentazione: “dieta”, “dieta personalizzata”, ”proteine”, “frutta secca” e cosi via. A questo punto ti domanderai: un articolo sull’importanza di assumere proteine per aumentare il tono muscolare, renderebbe i miei contenuti più validi per il lettore? Sicuramente sì. Come si vede in figura, i TF IDF SEO tool mettono anche a disposizione un editor dove modificare comodamente il testo, seguendo i suggerimenti laterali: l’analisi ci dice quali keyword usare di più, quali usare di meno (in questo caso nessuna), i termini perfettamente ottimizzati, e l’ammontare totale delle parole, che nell’esempio in figura sarebbe da implementare: 

 

tf idf tool

 

TF IDF SEO può aiutarti a migliorare un contenuto che si classifica già bene. Guarda le pagine che generano più traffico sul tuo sito web: sono già perfette o mancano di contenuto? Mancano collegamenti utili? L’ottimizzazione riguarda anche l’aggiunta di collegamenti. Il calcolo della Term Frequency-Inverse Document Frequncy, grazie all’analisi della SERP, si può usare anche per collegarti strategicamente a pagine che forniranno risorse per i tuoi lettori, migliorando al contempo la tua strategia di link building

 

seo-tf-idf-tool

 

Torniamo all’esempio del blog di fitness: nell’articolo sulle “proteine” che hai appena aggiunto, puoi inserire un link ad un post che contiene ”le 10 migliori ricette salutari di pesce”, contenuto in un blog di cucina che abbia una buona reputazione su Google, anziché includere le ricette all’interno del tuo sito. Il tuo contenuto non verrà cannibalizzato dal link, perché l’argomento è abbastanza diverso da quello che stai trattando, e al contempo accrescerà il valore del contenuto. Probabilmente l’analisi TF-IDF SEO porterà alla luce anche argomenti di valore che non puoi trattare nella tua pagina, magari perché troppo fuori tema: dunque, occhio alla pertinenza degli argomenti. 

 

Keyword research avanzata

Quando si parla di ottimizzazione SEO di una pagina web, uno dei primi step da compiere è la keyword research, ossia tutte quelle operazioni che ci permettono di rintracciare le query utili in base a ciò che gli utenti cercano, rispetto ad un argomento. La keyword research è una strategia che necessita continuamente di nuove tecniche e strumenti di ottimizzazione aggiornati. TF IDF SEO ti aiuta anche in questo: facendo un passo avanti rispetto alla keyword density, apre la possibilità di ottimizzazione avanzata dei contenuti, grazie alla scoperta di intere famiglie di nuove parole chiave contenute in altri siti web. Creare nuovi contenuti va di pari passo con la ricerca di nuove parole chiave: l’analisi competitiva TF-IDF rivela termini semanticamente correlati alle tue parole chiave in ordine di pertinenza, contenute in altre risorse web. Anche se le pagine ben posizionate non sono necessariamente classificate per queste keyword, si tratta comunque di termini necessari per intercettare l’intento di ricerca.

Riproponendo l’esempio del blog di fitness, sulla base della keyword “esercizi fitness”, notiamo che, usando un classico tool di keyword research, e successivamente un TF IDF tool, otteniamo termini diversi:

keyword research avanzata

 

Grazie all’analisi della Term Frequency-Inverse Document Frequency abbiamo intere famiglie di nuove parole chiave, ricavate dai documenti simili e dall’uso che questi ne fanno, che non si troverebbero mai con un classico strumento di keyword research come Ubersuggest. Più è alta la barra rossa, maggiore è il TF IDF weighting, e la linea gialla ci dice graficamente in quali URL una parola è usata di più. Cliccando sui vari elementi del grafico abbiamo accesso a tutti i punteggi numerici.

 

tf-idf-weighting

 

TF IDF tool

Esistono diversi TF IDF SEO tool utili all’analisi delle tue pagine e a creare una strategia di ottimizzazione, vediamo quali sono i più usati:

  • SEOability ha uno strumento TF-IDF completamente gratuito: disponi di 3 analisi al giorno per iniziare, 5 con iscrizione gratuita o 50 con il piano premium. Si può accedere ad un editor dal quale è possibile modificare direttamente il testo, in questo modo si possono ottimizzare i contenuti seguendo i suggerimenti dello strumento.
  • TF IDF tool è uno strumento a pagamento che ti permette di analizzare inserendo la parola chiave, l’URL della pagina, o i contenuti stessi da incollare nell’editor messo a disposizione. Lo strumento mette in evidenza gli approfondimenti che possono riguardare le opportunità perse, le potenziali penalizzazioni, i consigli sull’ottimizzazione. Attraverso i grafici è anche possibile confrontare il livello dei tuoi contenuti con quelli dei concorrenti. 
  • Ryte prevede l’iscrizione è gratuita, con la possibilità di fare 10 analisi al mese, che comprendono consigli sulle parole chiave e ispirazioni per l’aggiunta di altri argomenti. Anche Ryte include un editor di testo per l’ottimizzazione guidata dei contenuti: l’assistente di testo durante la scrittura ti dice quali termini o argomenti potresti usare di più o approfondire, oppure quelli che hai usato troppo. Ti fornirà anche informazioni sulla parola più lunga, il numero di parole e il tempo di lettura stimato. È possibile anche aggiungere un tag schema.org per fornire al motore di ricerca informazioni sui dati strutturati. 

 

In conclusione, l’utilizzo di questa metrica contribuisce in modo sostanziale all’ottimizzazione dei contenuti di una pagina web. Questo perché sono i contenuti ad avere la meglio su qualsiasi altro parametro di valutazione da parte del motore di ricerca. Non è conveniente pensare all’uso di TF IDF SEO come metodo per riempire le pagine di altre parole chiave in modo sterile, piuttosto è da considerare come strumento dal quale prendere spunto per migliorare la qualità dei contenuti. A tal proposito, non c’è strumento potente come il nostro cervello: anche la Term Frequency-Inverse Document Frequency deve essere usata con un occhio critico, in quanto non tutti i suggerimenti forniti dai risultati dell’analisi fanno al caso nostro. Trattandosi di un’analisi estesa, potremmo avere tra i risultati anche suggerimenti fuorvianti, che non alzano il livello delle nostre pagine: ecco perché è importante usare in modo intelligente questo punteggio, così come è necessario affidarsi al ragionamento nell’uso di tutti gli strumenti SEO. 

 

 

Valutazione Digital Coach su Google