Crawl budget, guida all’ottimizzazione ed esempi pratici

C’è un termine molto usato, da qualche tempo a questa parte, tra tutti coloro i quali si occupano di Seo: un concetto anche piuttosto complesso che va a fornire precise indicazioni su quanto un sito piaccia o meno a Google, su quanto venga preso in considerazione concretamente. La parola crawl budget ha assunto un rilievo enorme per analizzare un sito, capire quali sono gli aspetti che vanno bene e quali non vanno, parlando dal punto di vista della scansione di Google.
Partiamo da una semplice definizione: il crawl budget, detta in soldoni, è il tempo che lo spider di Google decide di dedicare al nostro sito. Snocciolato in termini ancora più facili, il crawl budget è il numero di pagine che Googlebot (lo spider di Google) scansiona e indicizza, con riferimento ad un sito web, in un determinato arco di tempo.

“Google ci sta concedendo un po’ del suo tempo… non possiamo permetterci di sprecarlo”

In questo articolo ti parlo di:

1 Cosa vuol dire ‘crawl’ e come funziona Googlebot
2 Cos’è il crawl budget
3 Come funziona il budget di scansione?
4 Quando ci si deve preoccupare del crawl budget?
5 Ottimizzazione del crawl budget: consigli per farlo
6 Controllare il proprio crawl budget: esempi pratici

Cosa vuol dire ‘crawl’ e come funziona Googlebot

Brevissima premessa: quando si parla di crawler il riferimento è un software o robot che dir si voglia che visita un sito web e legge le varie pagine presenti, oltre alle altre informazioni reperibili, così da creare poi le pagine da fornire come risultati agli utenti. Googlebot è lo spider di Google che, come Big G stesso afferma,“è stato progettato per essere eseguito contemporaneamente da migliaia di macchine per migliorare le prestazioni e seguire il ritmo di crescita del Web.” In sostanza il web crawler di Google riesce a scansionare un numero quasi infinito di pagine in tempo reale.
Il meccanismo di un crawler come Googlebot è quello di ottenere un elenco di url dopo aver scansionato un sito: quindi procederà a scorrere all’interno di quell’elenco con cadenza periodica andando ad analizzarne in contenuto, aggiungendo nuovi url nel caso ve ne fossero. Tutto questo è quindi legato a doppio filo con il concetto di crawl budget, perché dalla quantità di scansione che Google concederà al nostro sito dipenderà poi il posizionamento.

Cos’è il crawl budget

In termini strettamente matematici, per tornare a monte sul tema, il crawl budget o budget di scansione è il numero di pagine di un sito che Google andrà a scansionare in un intervallo di tempo predefinito: questo data può variare (e, anzi, spesso lo fa) da un giorno all’altro. Da cosa dipende questa variazione? Di base dal ‘budget’ che Google stesso decide di assegnare ad ogni sito.
In sostanza a seconda di vari fattori, come le dimensioni del sito, il numero di pagine, la pesantezza del sito (soprattutto da quando i Core Vitals sono diventati fattori di ranking), eventuali errori o complessità nei quali lo spider eventualmente incappa, Google assegna un budget di scansione. Decide quindi quante volte passare il suo web crawler su quel sito in un intervallo di tempo preciso.

Il Crawl Budget è il numero di pagine di un sito che Google andrà a scansionare in un intervallo di tempo predefinito

Come funziona il budget di scansione?

Quindi, se il numero complessivo di pagine presenti in un sito eccede il budget di scansione che Google ha concesso, alcune di quelle pagine non saranno sottoposte a scansione: il che non vuol dire necessariamente che non verranno indicizzate, ma spesso e volentieri potrebbe essere così. Il limite di scansione di un crawler di un motore di ricerca si calcola sulla base della frequenza con la quale riescono ad eseguire la scansione senza causare problemi, oltre che con la frequenza con la quale desiderano eseguire la scansione di un sito.
Ecco perché ottimizzare il crawl budget è fondamentale: il rischio è quello di sprecare il budget di scansione che Google sta concedendo al nostro sito causando quindi problemi a livello di Seo. Ottimizzare il budget di scansione significa evitare, il più possibile, che Google perda tempo a scansionare pagine del sito che non sia ha alcun interesse a far indicizzare.

Quando ci si deve preoccupare del crawl budget?

Il budget di scansione è, quindi, un elemento che deve essere tenuto costantemente sotto controllo (lo si può fare dalla propria Search Console, attraverso Impostazioni > Statistiche di Scansione > Apri Rapporti) così da essere pronti a intervenire nel caso di criticità. Ottimizzare il budget di scansione significa far fruttare al meglio il tempo che Google decide dedicare al nostro sito: quando il suo spider passa a scansionare le pagine, dovremmo essere in grado di fargli capire con esattezza quali parti del sito deve prendere in considerazione e quali, invece, no. Di base ci si dovrebbe preoccupare del crawl budget nei seguenti casi:

Se si è proprietari di siti di grandi dimensioni: pensiamo ai giornali online o agli ecommerce. Spesso capita di sentire clienti che vanno nel panico per il crawl budget e magari sono proprietari di un sito di 15 pagine: in quel caso il budget di scansione non rappresenta in alcun modo un impedimento.
Se sono state aggiunte tante pagine nuove: se all’interno del proprio sito sono state aggiunte una marea di pagine nuove a distanza di breve tempo, si dovrebbe essere certi di avere il giusto budget di scansione per farle indicizzare tutte rapidamente.
Se sono presenti catene di redirect: le catene di redirect sono uno dei problemi più grandi a livello di Seo tecnica. Si parla di reindirizzamenti a catena, quindi di pagine che puntano ad un’altra, che a sua volta punta ad un’altra ancora e così via. Le catene di redirect sprecano crawl budget.

Ottimizzazione del crawl budget: consigli per farlo

Passiamo ora in rassegna alcuni consigli pratici per ottimizzare il budget di scansione del proprio sito internet, sempre tenendo in considerazione che lo spider di Google non può mai essere forzato in alcun modo

Velocità del sito: migliorare la velocità del proprio sito significa portare Googlebot a eseguire la scansione di più Url nello stesso periodo di tempo. Secondo Google stesso, “Rendere un sito più veloce migliora l’esperienza degli utenti e allo stesso tempo aumenta la velocità di scansione”. Quindi una mano tesa allo spider ma anche alla user experience.
Uso ottimale dei link interni: i link interni sono fondamentali tanto quanto quelli esterni, per i quali spesso si spendono soldi in attività di link building. Usare sapientemente i link interni significa distribuire il crawl budget portando, ad esempio, lo spider a consultare una pagina poco scansionata, magari se linkata da una molto ben posizionata e quindi sottoposta a tanti crawling.
Evitare pagine orfane: le pagine orfane sono quelle che non hanno collegamenti interni o esterni che puntano ad esse.
Limitare i contenuti duplicati: questi contenuti non fanno mai bene, non soltanto in ottica budget di scansione. Ebbene possono danneggiare anche il crawl budget in quanto Google non spreca risorse scansionando pagine con contenuto uguale.
Numero elevato di pagine non indicizzabili: attenzione a gestire il numero di pagine non indicizzabili. Se sono troppe si va incontro ad uno spreco di crawl budget.
Creazione e invio di sitemap corretta: la sitemap è il file all’interno del quale si vanno ad indicare a Google tutte le pagine che compongono il sito, e di conseguenza le url che si vorrebbe fossero indicizzate. Non creare una sitemap o crearne una con url non corretti disperde budget di scansione.
Contenuti di bassa qualità: ebbene sì, anche i contenuti di scarsa qualità possono influire sul crawl budget. Se il Googlebot passa su un sito e trova sempre e soltanto contenuti scarsi, potrebbe decidere di diminuire la frequenza dei propri passaggi. Ecco ancora una volta che emerge l’importanza di contenuti unici e di qualità all’interno di un sito.

Controllare il proprio crawl budget: esempi pratici

Il crawl budget di un sito, come detto, può essere controllato direttamente dalla propria Search Console. Se per un sito, ad esempio, il numero di scansioni medie è di 30 pagine al giorno, dando per scontato che resti lo stesso, si avrebbe un budget di scansione mensile di 30 x 30, ovvero 900 pagine al mese.
Dal budget di scansione dipende anche la velocitò con la quale i nuovi contenuto vengono duplicati. Anche in questo caso esempi pratici vengono in aiuto: i giornali online ad esempio, quelli con alto numero di visitatori e con tantissimi articoli che vengono inseriti quotidianamente, hanno un crawl budget elevatissimo con diverse scansioni su base giornaliera. Non a caso appena si inserisce un nuovo articolo, dopo pochi minuti (se non secondi) lo si trova già su Google.
Diverso è il discorso per i siti piccoli: spesso i clienti chiedono perché un testo o un articolo pubblicato nel blog interno del loro sito non è presente su Google, dopo qualche giorno dalla pubblicazione. Non è sempre facile far comprendere, a chi non è un addetto ai lavori, questo concetto di budget di scansione, che implica anche il fatto che un testo può essere stato pubblicato in data 8 aprile, ma Google, se il sito in questione è di piccole dimensioni e non ha un crawl budget elevato, lo potrebbe scansionare anche a distanza di giorni, se non di settimane.