« Sparate all’uccello
I fattori di posizionamento su Google »

4 April 2007

Spider Sotto Controllo II

Quando ho scritto la prima parte di Spider sotto controllo per il blog della TSW ero certo di ogni parola dell’articolo stesso, frutto di uno studio lungo più di 3 mesi sulle visite dei robots (spider, crawler) ad un sito-x. Mesi dopo il post, Google lancia Webmaster Tool (WT) e con gli stessi termini parla della spiderizzazione: velocità, frequenza, ecc. Con questo non intendo dire che Google mi abbia copiato, no no! Figuriamoci! Intendo solo dire che le mie conclusioni in riferimento al funzionamento della spiderizzazione sono molto simili a quelle che Google ha poi svelato in WT.

Subito dopo un primo sorriso di compiacimento mi son rattristato nel vedere gli strumenti da me sviluppati sparire davanti alla forza dei tools di Google. Pazienza. (Quindi, non bisogna mai imbarcarsi in vicende sulle quali Google sta lavorando) :)

È passato più di un anno dall’inizio della mia sperimentazione, e da un po’ ho maturato delle considerazioni in merito alla spiderizzazione che vorrei condividere con voi. Ne approfitto per scrivere il post sugli spider, che peraltro qualche settimane fa mi mi è stato richiesto da Jacopo.

Come funziona uno spider lo sappiamo tutti… o forse no?
Ho voluto creare questa immagine per esemplificare graficamente, di certo meglio che a parole.

 
Grafico 1

1.- Viene segnalato un URL allo spider.
2.- lo spider fa la richiesta HTTP dell’ URL, lo legge
3.- e lo spider "torna a casa" con il risultato.

Semplice vero?

Ma cosa accade quando lo spider trova un link all’interno della pagina che sta leggendo? Lo segue saltando come un canguro? :)

 
Grafico 2

Penso proprio di no, altrimenti non potrebbe mai più "tornare a casa" e la lettura delle pagine sarebbe incompleta. Lo spider deve per forza arrivare alla chiusura del documento, dopo di che "torna a casa" portando con sé l’informazione. Non esistono visite di spider con referrer provenienti da altri siti.

Allora possiamo dire che:

1.- i link all’interno di una pagina non vengono mai seguiti dall’attuale spider. Sarà una nuova sessione dello spider a seguire i link raccolti.
2.- Una pagina non potrebbe mai prendere uno spider e confonderlo in una trama complicata di link al punto tale da non farlo più uscire.
3.- Una pagina senza link non ferma uno spider. I link, quindi, non rappresentano una via di uscita o di collegamento durante il percorso dello spider stesso.

(Spero tanto che questi punti contribuiscano a far luce su alcune "leggende" che popolano la rete).

A questo punto mi fermo, mi piacerebbe ora sentire la vostra opinione prima di proseguire con gli approfondimenti relativi ai tre passi della spiderizzaizone del grafico 1. 


Nei prossimi post… 

Spider sotto controllo III – Viene segnalato un URL allo spider
…controllando su Web Analytics ho trovato una similitudine tra le viste degli utenti e quelle degli spider…

Spider sotto controllo IV – lo spider fa la richiesta HTTP del URL e legge il documento
…è questo il momento dove gli aspetti tecnici compiono il loro ruolo, dal server al profilo su Webmaster Tools di Google…

Spider sotto controllo V – e lo spider "torna a casa" con il risultato
…cosa fa Google con tutti questi dati che arrivano a tonnellate? Possiamo avere un’idea dell’importanza del codice HTML nel processo del ranking?.. o questo è solo un’altra leggenda metropolitana dei puristi del codice…

Alcuni post su MR che parlano della SEO e gli spider:
Fattori on-page: Top 10 per SEO
Cose da non fare nella SEO  

Social Bookmarking
blinkbits  BlinkList  blogmarks  co.mments  connotea  del.icio.us  De.lirio.us  digg  Fark  feedmelinks  Furl  LinkaGoGo  Ma.gnolia  NewsVine  Netvouz  RawSugar  Reddit  scuttle  Shadows  Simpy  Smarking  Spurl  TailRank  Wists  YahooMyWeb 

Solo una nota sulla frase “Non esistono visite di spider con referrer provenienti da altri siti.”

Il referer è una feature del programma che naviga che ha la cortesia di dire ad un server chi sia stato a segnalargli quella pagina.

Non è necessario per uno spider farlo e non sono sicuro che sia obbligatorio neppure per un browser (salvo che forse molti servizi smetterebbero di funzionare).

E’ comunque utile sapere tramite chi si è stati indicizzati, magari per farsi indicizzare maggiormente dalla stessa “fonte”, in questo caso si possono utilizzare url formattati appositamente.

Comment by Stefano "Free.9" Scardovi — 4 April 2007 @ 08:52

Una cosa che mi piacerebbe fosse approfondita, e magari ci penso anche io, è che lo spider non è il motore, ma un agente.
Molti confondono lo spider col motore, dandogli quasi una propria intelligenza, che invece non ha.

Lo spider è solo un lettore di pagine su commissione di un meccanismo interno che lo fa muovere.

Questa cosa, apparentemente banale ed ovvia per alcuni, non lo è per molti e falsa molte delle idee che ci sono in giro.
Che ne pensi, Johnnie?

Comment by Fradefra — 12 April 2007 @ 17:03

C’è anche la convinzione che lo spider sia qualcosa che “si muove” di pagina in pagina (un po’ anche come il ragno rappresentato nelle immagini in alto) ma in realtà lo spider non entra mai nel server e dunque non può indicizzare le pagine che non riesce a vedere dall’esterno.

E per vederle c’è ovviamente bisogno di qualcuno che glie le faccia vedere.

Lo spider si limita a prelevare il sorgente html (come qualunque browser) di una pagina di cui gli sia noto l’indirizzo.

Il motore di ricerca quando ritiene di recuperare pagine nuove o di aggiornare quelle già presenti passa l’URL al proprio spider che si limita a prelevarle inserendole in un certo modo nel DB, poi il motore elaborerà il DB ottenuto e presenterà le pagine alle interrogazioni degli utenti.

Nell’attività di spidering non c’è nulla di intelligente se non forse qualche filtro che fa scartare le pagine presenti in robots.txt e le pagine di spam con meri fini di indicizzazione.

Comment by Stefano "Free.9" Scardovi — 12 April 2007 @ 17:13

@fradefra
Hai ragione “motore <> spider”, ma in tanti pensano che siano la stessa cosa. Infatti ci sono motori di ricerca che acquistano tecnologia offerta da terzi, ad esempio la tecnologia Inktomi che però è stata acquisita da Yahoo nel 2002.

@Stefano
Proprio il grafico 2 segnala che uno spider non si comporta come un canguro, quindi non salta di pagina in pagina, fa come nel grafico uno: parte, legge “html” e torna con il bottino :)
Poco fa si parlava di nuova generazione di spider intelligenti, sicuramente c’è stato un cambiamento nello spidering da un po’ di tempo a questa parte. Nel prossimo post parlerò delle mie osservazioni.

grazie dei commenti ;)

Comment by Johnnie Maneiro — 12 April 2007 @ 19:47

[...] dopo il post, Google lancia Webmaster Tool … Per leggere tutto il post Originale vai su: Marketing Routes Post a [...]

Pingback by Aggregatore News sui Motori di Ricerca » Spider Sotto Controllo II — 27 September 2007 @ 12:00

Leave a comment

About Marketing Routes:

Blog multi-autore che ha come focus il mondo del marketing, dell'advertising e della comunicazione online ed offline. Non solo un bookmark da controllare giornalmente ma un dispensatore di notizie, consigli, strategie per tutti coloro che operano in questi settori. Nato con la convinzione che di blog riguardanti il marketing, la comunicazione e la pubblicità ce ne siano molti, ma quelli veramente di qualità sono pochi, Marketing Routes vuole apportare agli utenti della rete i modi di vedere, le esperienze e le considerazioni di diversi giovani professionisti del settore così da aprire un dibattito con gli utenti senza mai prendersi troppo sul serio.

Creative Commons License

Design © 2006 by Consulenzaweb.com | Powered by WordPress