26 September 2006
GoogleDog and copyCats
Ovvero tutto ciò che avreste voluto sapere sul filtro antiduplicazione di Google ma non avete mai osato chiedere. O forse avete chiesto, ma nei posti sbagliati (ogni riferimento al blog di Inigo Montoya è puramente voluto). Dedico il mio primo post su Marketing Routes ad uno dei temi ricorrenti nelle elucubrazioni mentali di webmaster e seo-wannabe di tutto il mondo: il trattamento che il fin troppo noto motore di ricerca riserva ai documenti clonati (duplicates) o troppo simili (near-duplicates).
Se il clamore suscitato dalla pubblicazione del brevetto "Information Retrieval based on historical data" (12/2003) ha dato vita ad interessanti dibattiti in seno alla comunità Seo/Sem, ma si è spento in tempi relativamente brevi, "Detecting duplicate and near-duplicate files", che a gennaio ha festeggiato il suo primo lustro di vita, continua ad essere oggetto di speculazioni più o meno argomentate e leggende più o meno demenziali. Un evergreen, insomma.
Tutto ha inizio quindi dal già menzionato brevetto del 2001, sulla cui reale implementazione non vi è, e non vi sarà mai, una conferma ufficiale. Chiari i motivi di questa consegna del silenzio dalle parti di Mountain View: timore della concorrenza e non voler fornire un prezioso hint a spammer e seo. Si potrebbe obiettare che in alcune serp le risorse (troppo) simili proliferano felicemente, tuttavia nella maggior parte dei casi questo filtro, unito agli algoritmi di clustering, contribuisce a mantenere i risultati delle ricerche il più eterogenei possibile.
Comprendendone innanzitutto le finalità sarà più facile valutarne l’effettivo impatto sul proprio quotidiano lavoro di ottimizzazione per i motori di ricerca.
1. Rilevare siti mirror e shadow domain;
2. rilevare pagine replicate;
3. evitare di indicizzare pagine ritenute troppo simili ad altre già presenti in archivio;
4. evitare di presentare all’utente risorse troppo simili in risposta ad una query;
5. preservare la corretta valutazione del Pagerank.
Se per riconoscere la perfetta uguaglianza tra due o più pagine web è sufficiente un hash, più complessa è la ricerca di risorse simili; nel brevetto viene esposta una metodologia basata sulla suddivisione in porzioni (fingerprint) dei documenti e sull’analisi di fingerprints comuni a due o più documenti. Sono previste inoltre l’estrapolazione di fingerprint unici all’interno del documento (l’importanza di questo processo verrà compresa più avanti nel post) e la creazione di cluster all’interno dei quali catalogare le risorse giudicate near-duplicate.
A seguito di una ricerca, viene selezionato un set di documenti idonei ad essere inclusi tra i risultati, ma tra quelli che appartengono allo stesso cluster solo il più rilevante (PR più alto, documento più aggiornato e, aggiunta mia, il main topic del sito che lo contiene) verrà presentato all’utente.
Questa tecnica viene utilizzata anche per il rilevamento di risorse duplicate e, secondo William Pugh e Monika H. Henzinger, inventori del brevetto, abbassa fino allo 0,1% le probabilità di falsi positivi.
Va doverosamente specificato che il fine di questo algoritmo non è sancire la pena capitale per tutte le risorse reputate simili tra loro. Esistono casi in cui la riproposizione degli stessi contenuti è assolutamente legittima: le versioni printer-friendly e wap di una pagina ad esempio, oppure le risorse derivanti da article marketing. Ciò che avviene è un "filtraggio" in fase di restituzione dei risultati di una ricerca, che ha come principale effetto pratico quello di escludere dalle serp le pagine giudicate troppo simili a quella proposta all’utente, oppure inserirle al termine dei risultati utili.
Salvo rari casi, comunque, il valore della pagina, il PR, la presenza nell’indice non sono messi in discussione.
Sulla base di quanto appena scritto è evidente che Google non abbia interesse a selezionare la pagina "originale". La maggior rilevanza di un documento rispetto ad un altro non è influenzata da fattori di anzianità bensì da parametri valutabili algoritmicamente come il Pagerank (reale) della pagina.
Degna di considerazione la frequente vicinanza, in serp, di risorse apparentemente near-duplicate. Si è detto che nel suddividere il documento in porzioni (fingerprint), vengono estrapolate quelle uniche, ossia quei contenuti testuali (testi, link…) che rendono la pagina diversa da altre presenti in archivio. Semplicemente se quelle parti uniche sono rilevanti, consistenti e utili all’utente può verificarsi il fenomeno della coesistenza di documenti similari in un set di risultati.
Tre consigli pratici per i webmaster:
1. Chi è solito sfruttare le risorse offerte dai siti di article marketing, effettua scambio recensioni, ripropone articoli o notizie di altri siti può -e deve!- rendere le proprie pagine rilevanti curandone il "contorno": link esterni verso risorse autorevoli (e coerenti con i contenuti della pagina), contenuti testuali aggiuntivi, title e meta description redatti ad hoc.
2. Gli sviluppatori di siti dinamici, in cui spesso le parti ridondanti (menu, header, footer) sono consistenti, dovranno aumentare la quantità di contenuti unici di ogni pagina, anche lavorando sulla diversificazione del title tag e meta description. Opzionalmente si potrà creare un layout con Css e Div in modo da dare maggiore prominenza (all’interno del codice) ai testi unici rispetto alle parti ripetute.
3. Per chi vede il proprio documento "droppare" o sparire nelle serp a causa della presenza di una risorsa duplicata o simile: se ciò è frutto di un copyright infringement la soluzione migliore è quella di effettuare uno spam report usando l’apposito modulo di Google; se invece la similarità tra le risorse è legittima, sarà utile incrementare i link in entrata della pagina (aumentandone il PR) e renderla più rilevante compiendo le operazioni suggerite al punto 1.
Conscio che, data la mole di casi particolari e bug degli algoritmi che si osservano studiandone i behaviour, non sia possibile scrivere il post "definitivo" sul filtro antiduplicazione di Google; coltivo però l’utopistica speranza di non leggere, almeno per un po’, quei feedback in stile "signora mia..!" che spuntano, un giorno sì e un giorno anche, in Forum e blog di settore quando si parla di duplicate e near-duplicate content.


























[...] Qualche tempo fa, avevamo pubblicato un post, dedicato al confronto tra strong vs bold, in cui riecheggiava l’ennesimo dei tanti miti SEO. Generalmente poniamo particolare attenzione a quello che diciamo parlando di SEO, in primis per evitare di essere fraintesi, in secundis per cercare nel nostro piccolo di contribuire con alcune ‘certezze’, in un settore in cui molto è opinabile ed incerto. È stato ad esempio così nel caso delle keyword presenti nell’url, dove riportavamo la voce autorevole di Matt Cutts, così come nel caso dello scambio link o ancora sul filtro di Google per il contenuto duplicato passando per gli inbound links. [...]
Pingback by Miti nella search engine optimization — 1 November 2006 @ 13:42