4 April 2007
Spider Sotto Controllo II
Quando ho scritto la prima parte di Spider sotto controllo per il blog della TSW ero certo di ogni parola dell’articolo stesso, frutto di uno studio lungo più di 3 mesi sulle visite dei robots (spider, crawler) ad un sito-x. Mesi dopo il post, Google lancia Webmaster Tool (WT) e con gli stessi termini parla della spiderizzazione: velocità, frequenza, ecc. Con questo non intendo dire che Google mi abbia copiato, no no! Figuriamoci! Intendo solo dire che le mie conclusioni in riferimento al funzionamento della spiderizzazione sono molto simili a quelle che Google ha poi svelato in WT.
Subito dopo un primo sorriso di compiacimento mi son rattristato nel vedere gli strumenti da me sviluppati sparire davanti alla forza dei tools di Google. Pazienza. (Quindi, non bisogna mai imbarcarsi in vicende sulle quali Google sta lavorando)
È passato più di un anno dall’inizio della mia sperimentazione, e da un po’ ho maturato delle considerazioni in merito alla spiderizzazione che vorrei condividere con voi. Ne approfitto per scrivere il post sugli spider, che peraltro qualche settimane fa mi mi è stato richiesto da Jacopo.
Come funziona uno spider lo sappiamo tutti… o forse no?
Ho voluto creare questa immagine per esemplificare graficamente, di certo meglio che a parole.
Grafico 1
1.- Viene segnalato un URL allo spider.
2.- lo spider fa la richiesta HTTP dell’ URL, lo legge
3.- e lo spider "torna a casa" con il risultato.
Semplice vero?
Ma cosa accade quando lo spider trova un link all’interno della pagina che sta leggendo? Lo segue saltando come un canguro?
Grafico 2
Penso proprio di no, altrimenti non potrebbe mai più "tornare a casa" e la lettura delle pagine sarebbe incompleta. Lo spider deve per forza arrivare alla chiusura del documento, dopo di che "torna a casa" portando con sé l’informazione. Non esistono visite di spider con referrer provenienti da altri siti.
Allora possiamo dire che:
1.- i link all’interno di una pagina non vengono mai seguiti dall’attuale spider. Sarà una nuova sessione dello spider a seguire i link raccolti.
2.- Una pagina non potrebbe mai prendere uno spider e confonderlo in una trama complicata di link al punto tale da non farlo più uscire.
3.- Una pagina senza link non ferma uno spider. I link, quindi, non rappresentano una via di uscita o di collegamento durante il percorso dello spider stesso.
(Spero tanto che questi punti contribuiscano a far luce su alcune "leggende" che popolano la rete).
A questo punto mi fermo, mi piacerebbe ora sentire la vostra opinione prima di proseguire con gli approfondimenti relativi ai tre passi della spiderizzaizone del grafico 1.
Nei prossimi post…
Spider sotto controllo III - Viene segnalato un URL allo spider
…controllando su Web Analytics ho trovato una similitudine tra le viste degli utenti e quelle degli spider…
Spider sotto controllo IV - lo spider fa la richiesta HTTP del URL e legge il documento
…è questo il momento dove gli aspetti tecnici compiono il loro ruolo, dal server al profilo su Webmaster Tools di Google…
Spider sotto controllo V - e lo spider "torna a casa" con il risultato
…cosa fa Google con tutti questi dati che arrivano a tonnellate? Possiamo avere un’idea dell’importanza del codice HTML nel processo del ranking?.. o questo è solo un’altra leggenda metropolitana dei puristi del codice…
Alcuni post su MR che parlano della SEO e gli spider:
Fattori on-page: Top 10 per SEO
Cose da non fare nella SEO


























Solo una nota sulla frase “Non esistono visite di spider con referrer provenienti da altri siti.”
Il referer è una feature del programma che naviga che ha la cortesia di dire ad un server chi sia stato a segnalargli quella pagina.
Non è necessario per uno spider farlo e non sono sicuro che sia obbligatorio neppure per un browser (salvo che forse molti servizi smetterebbero di funzionare).
E’ comunque utile sapere tramite chi si è stati indicizzati, magari per farsi indicizzare maggiormente dalla stessa “fonte”, in questo caso si possono utilizzare url formattati appositamente.
Comment by Stefano "Free.9" Scardovi — 4 April 2007 @ 08:52