Original ViagraBuy Viagra AlternativeViagra PurchaseViagra DosagesViagra AffiliateCheap Robert.up2.co.il ViagraAdverse Side Effects Of ViagraViagra Online ConsultationEffects Of ViagraFree Trial Of ViagraHerbal VigorLegally Purchase ViagraHow Viagra WorksViagra Prescription For WomanBuy Href Lvivhost.com ViagraVgx-viagraSildenafil Citrate 50mgFemale ViagraHerbal Viagra Welnet4u.de WfCialis Generic ViagraViagra Toronto BuyAge Of Viagra UsersHysterectomy Libido ViagraViagra ForumsViagra SuppliersFemale Viagra CreamProblems With ViagraWhat Is Viagra Made OfDirt Cheap ViagraBuy Viagra NowFemale Viagra UkIngredients Of ViagraCheapest Sildenafil CitrateZocor Alternative ViagraViagra By MailGeneric Name For ViagraIs Viagra Safe For WomenViagra Stores50 Mg ViagraAdviser Finance Order ViagraViagra AlternativeBuy Viagra On The InternetViagra PlantFemale Equivalent Of ViagraDrug ViagraLowest Price ViagraViagra Online StoresSildenafil Oral JellyPaypal ViagraViagra Chemical StructureAlternative Drug New ViagraCheapest Viagra In UkViagra Pill SplitterViagra Benefits Side EffectsBuy Viagra In CanadaViagra FunOrder Cheap ViagraViagra Online KaufenViagra Drug InteractionTrying ViagraCheap Less ViagraFemale Viagra ResponseBuy Viagra Online CheapCheapest Online ViagraKeeping A HardonLink Online Suggest ViagraGeneric Viagra SafeHerbal Alternatives To ViagraViagra Expiration DateHerbal Viagra UkCyalis Levitra Sales ViagraViagra Uk PurchaseCanada Generic ViagraSearch Herbal ViagraPc100 ViagraAlternative Search ViagraCialis Compare Levitra ViagraViagra Buy Now Pay LaterViagra WomenViagra JokeViagra Free Trial PackCheap Quality ViagraLowest Viagra PriceOrder Viagra Air TravelIndian Sildenafil CitrateViagra For RecreationViagra EnglandViagra LevitraSildenafil Citrate 100mg PlusGeneric Drug For ViagraBuy Porn ViagraOriginal Use Of ViagraPurchase Sildenafil CitrateVeegaPurchase ViagraViagra And Sexual PerformanceCheap Generic ViagraBuy Inurl Viagra ViagraBuying Generic CialisBrand Drug Generic Name ViagraLow Cost ViagraIs Vigrx Available In StoresCheapest Viagra AnywhereViagra Mail Order UkHow To Make Your Own ViagraViagra Soft GenericViagra Message BoardViagra DosageGeneric ViagraBuy Prescription ViagraViagra Buy In Uk OnlineWhen Do I Take ViagraViagra The Little Blue PillBuy Viagra CheapFemale Version Of ViagraViagra SaleViagra Sale OnlineFree ViagraViagra Sales U.kCheapest Generic ViagraViagra Studies WomenIndian ViagraSafe For Females To Use ViagraViagra Cheap PrescriptionSildenafil Citrate OmnigenViagra PharmacyViagra Chinese MedicineViagra FastVega ViagraViagra Price ComparisonOral ViagraFree Sample Pack Of ViagraSelling ViagraDoes Viagra ExpireViagra DescriptionPal Pay Pill ViagraBest Prices On ViagraCheap Inurl Viagra ViagraBuy Viagra In UkOrder Viagra 1Discount ViagraGuaranteed Cheapest ViagraViagra Prescription UkHerbal Viagra FdaWho Invented ViagraViagra High Blood PressureUk Pharmacies Cheap ViagraWholesale ViagraViagra Store In CanadaOrder Viagra No PrescriptionCan Viagra Be Used By WomenPicture Viagra PillBuy Viagra Now OnlineViagra In PhilippinesBuy Herbal ViagraViagra WholesalersWhen Was Viagra DiscoveredGeneric Viagra Soft TabsBuy Viagra OnlineViagra StaminaBest Herbal ViagraLevitra Versus ViagraViagra Free TrialBest Price For Generic ViagraWhere Did Viagra Come FromLevitra Vs ViagraBuy Cheap Generic ViagraNatural ViagraGeneric Money Order ViagraGeneric Viagra OnlineViagra SalesViagra 25mgViagra Price ListGeneric Ogden ViagraGeneric Omnigen ViagraViagra Retail DiscountPfizer ViagraViagra Prescription OnlineBuy Cheap Viagra Online UkBuy Viagra On LineSoft ViagraViagra Order CanadaLong Term Effects Of ViagraWomens ViagraBuy Generic Viagra From IndiaGeneric Viagra Lowest PricesSildenafil Citrate Soft TabsViagra IngredientsViagra DiscussionsOrder Viagra NowNames Of Herbal ViagraViagra Effects On WomenViagra PillNew Drug For Women ViagraViagra Alternative And WomanViagra DirectionsViagra Best Price In EuropeViagra Next Day DeliveryAlternative Female ViagraCheap Viagra 50mg

« Web pills
Genuine leather »

26 September 2006

GoogleDog and copyCats

copycats.jpgOvvero tutto ciò che avreste voluto sapere sul filtro antiduplicazione di Google ma non avete mai osato chiedere. O forse avete chiesto, ma nei posti sbagliati (ogni riferimento al blog di Inigo Montoya è puramente voluto).

Dedico il mio primo post su Marketing Routes ad uno dei temi ricorrenti nelle elucubrazioni mentali di webmaster e seo-wannabe di tutto il mondo: il trattamento che il fin troppo noto motore di ricerca riserva ai documenti clonati (duplicates) o troppo simili (near-duplicates).

Se il clamore suscitato dalla pubblicazione del brevetto "Information Retrieval based on historical data" (12/2003) ha dato vita ad interessanti dibattiti in seno alla comunità Seo/Sem, ma si è spento in tempi relativamente brevi, "Detecting duplicate and near-duplicate files", che a gennaio ha festeggiato il suo primo lustro di vita, continua ad essere oggetto di speculazioni più o meno argomentate e leggende più o meno demenziali. Un evergreen, insomma.

Tutto ha inizio quindi dal già menzionato brevetto del 2001, sulla cui reale implementazione non vi è, e non vi sarà mai, una conferma ufficiale. Chiari i motivi di questa consegna del silenzio dalle parti di Mountain View: timore della concorrenza e non voler fornire un prezioso hint a spammer e seo. Si potrebbe obiettare che in alcune serp le risorse (troppo) simili proliferano felicemente, tuttavia nella maggior parte dei casi questo filtro, unito agli algoritmi di clustering, contribuisce a mantenere i risultati delle ricerche il più eterogenei possibile.
Comprendendone innanzitutto le finalità sarà più facile valutarne l’effettivo impatto sul proprio quotidiano lavoro di ottimizzazione per i motori di ricerca.

1. Rilevare siti mirror e shadow domain;
2. rilevare pagine replicate;
3. evitare di indicizzare pagine ritenute troppo simili ad altre già presenti in archivio;
4. evitare di presentare all’utente risorse troppo simili in risposta ad una query;
5. preservare la corretta valutazione del Pagerank.

Se per riconoscere la perfetta uguaglianza tra due o più pagine web è sufficiente un hash, più complessa è la ricerca di risorse simili; nel brevetto viene esposta una metodologia basata sulla suddivisione in porzioni (fingerprint) dei documenti e sull’analisi di fingerprints comuni a due o più documenti. Sono previste inoltre l’estrapolazione di fingerprint unici all’interno del documento (l’importanza di questo processo verrà compresa più avanti nel post) e la creazione di cluster all’interno dei quali catalogare le risorse giudicate near-duplicate.
A seguito di una ricerca, viene selezionato un set di documenti idonei ad essere inclusi tra i risultati, ma tra quelli che appartengono allo stesso cluster solo il più rilevante (PR più alto, documento più aggiornato e, aggiunta mia, il main topic del sito che lo contiene) verrà presentato all’utente.
Questa tecnica viene utilizzata anche per il rilevamento di risorse duplicate e, secondo William Pugh e Monika H. Henzinger, inventori del brevetto, abbassa fino allo 0,1% le probabilità di falsi positivi.

Va doverosamente specificato che il fine di questo algoritmo non è sancire la pena capitale per tutte le risorse reputate simili tra loro. Esistono casi in cui la riproposizione degli stessi contenuti è assolutamente legittima: le versioni printer-friendly e wap di una pagina ad esempio, oppure le risorse derivanti da article marketing. Ciò che avviene è un "filtraggio" in fase di restituzione dei risultati di una ricerca, che ha come principale effetto pratico quello di escludere dalle serp le pagine giudicate troppo simili a quella proposta all’utente, oppure inserirle al termine dei risultati utili.
Salvo rari casi, comunque, il valore della pagina, il PR, la presenza nell’indice non sono messi in discussione.
Sulla base di quanto appena scritto è evidente che Google non abbia interesse a selezionare la pagina "originale". La maggior rilevanza di un documento rispetto ad un altro non è influenzata da fattori di anzianità bensì da parametri valutabili algoritmicamente come il Pagerank (reale) della pagina.

Degna di considerazione la frequente vicinanza, in serp, di risorse apparentemente near-duplicate. Si è detto che nel suddividere il documento in porzioni (fingerprint), vengono estrapolate quelle uniche, ossia quei contenuti testuali (testi, link…) che rendono la pagina diversa da altre presenti in archivio. Semplicemente se quelle parti uniche sono rilevanti, consistenti e utili all’utente può verificarsi il fenomeno della coesistenza di documenti similari in un set di risultati.

Tre consigli pratici per i webmaster:

1. Chi è solito sfruttare le risorse offerte dai siti di article marketing, effettua scambio recensioni, ripropone articoli o notizie di altri siti può -e deve!- rendere le proprie pagine rilevanti curandone il "contorno": link esterni verso risorse autorevoli (e coerenti con i contenuti della pagina), contenuti testuali aggiuntivi, title e meta description redatti ad hoc.
2. Gli sviluppatori di siti dinamici, in cui spesso le parti ridondanti (menu, header, footer) sono consistenti, dovranno aumentare la quantità di contenuti unici di ogni pagina, anche lavorando sulla diversificazione del title tag e meta description. Opzionalmente si potrà creare un layout con Css e Div in modo da dare maggiore prominenza (all’interno del codice) ai testi unici rispetto alle parti ripetute.
3. Per chi vede il proprio documento "droppare" o sparire nelle serp a causa della presenza di una risorsa duplicata o simile: se ciò è frutto di un copyright infringement la soluzione migliore è quella di effettuare uno spam report usando l’apposito modulo di Google; se invece la similarità tra le risorse è legittima, sarà utile incrementare i link in entrata della pagina (aumentandone il PR) e renderla più rilevante compiendo le operazioni suggerite al punto 1.

Conscio che, data la mole di casi particolari e bug degli algoritmi che si osservano studiandone i behaviour, non sia possibile scrivere il post "definitivo" sul filtro antiduplicazione di Google; coltivo però l’utopistica speranza di non leggere, almeno per un po’, quei feedback in stile "signora mia..!" che spuntano, un giorno sì e un giorno anche, in Forum e blog di settore quando si parla di duplicate e near-duplicate content.

Social Bookmarking
blinkbits  BlinkList  blogmarks  co.mments  connotea  del.icio.us  De.lirio.us  digg  Fark  feedmelinks  Furl  LinkaGoGo  Ma.gnolia  NewsVine  Netvouz  RawSugar  Reddit  scuttle  Shadows  Simpy  Smarking  Spurl  TailRank  Wists  YahooMyWeb 

[...] Qualche tempo fa, avevamo pubblicato un post, dedicato al confronto tra strong vs bold, in cui riecheggiava l’ennesimo dei tanti miti SEO. Generalmente poniamo particolare attenzione a quello che diciamo parlando di SEO, in primis per evitare di essere fraintesi, in secundis per cercare nel nostro piccolo di contribuire con alcune ‘certezze’, in un settore in cui molto è opinabile ed incerto. È stato ad esempio così nel caso delle keyword presenti nell’url, dove riportavamo la voce autorevole di Matt Cutts, così come nel caso dello scambio link o ancora sul filtro di Google per il contenuto duplicato passando per gli inbound links. [...]

Pingback by Miti nella search engine optimization — 1 November 2006 @ 13:42

[...] filtro anti-duplicazione applicato dai maggiori motori di ricerca, impedisce che tra i risultai che restituisce ci siano [...]

Pingback by ▷&#9655 Duplicate content seo tool - Katame - web marketing solutions — 6 August 2007 @ 12:48

[...] è già stato ampiamente sviscerato da Stuart Delta mesi fa e, per allargare il discorso all’infallibilità di Google nella discriminazione fra [...]

Pingback by Contenuti duplicati e posizionamento — 31 August 2007 @ 12:01

Leave a comment

About Marketing Routes:

Blog multi-autore che ha come focus il mondo del marketing, dell'advertising e della comunicazione online ed offline. Non solo un bookmark da controllare giornalmente ma un dispensatore di notizie, consigli, strategie per tutti coloro che operano in questi settori. Nato con la convinzione che di blog riguardanti il marketing, la comunicazione e la pubblicità ce ne siano molti, ma quelli veramente di qualità sono pochi, Marketing Routes vuole apportare agli utenti della rete i modi di vedere, le esperienze e le considerazioni di diversi giovani professionisti del settore così da aprire un dibattito con gli utenti senza mai prendersi troppo sul serio.

Creative Commons License

Design © 2006 by Consulenzaweb.com | Powered by WordPress