« Accoona. Il motore di ricerca semantico che ancora deve imparare l’alfabeto della search.
Internet News »

4 July 2006

Chi dice che lo spam …non è delicious?

spam Mi ero ripromesso un paio di settimane fa di procedere ad una segnalazione di carattere informativo, l’ennesima, sullo spam ai motori di ricerca, fenomeno non nuovo certo, ma che sembra tutt’altro che un trend passeggero, peraltro non più esclusiva di qualche minorenne dell’est europeo (ce n’è anche qualcuno nostrano ma è meglio non fare nomi e cognomi) particolarmente abile.

Ora anche altri noti big si sono prestati penosamente a questa pratica. Come diceva qualcuno, basta poco che ce vo’.

Qualche tempo fa parlai di Comundo.it, lo spam engine di Lycos  peraltro realizzato malissimo e che per fortuna non era in grado di sconfinare nel top ranking (volutamente non entro nell’aspetto SEO della cosa in modo da non agevolare nessuno su come rimediare alle pecche).

In tempi recenti parlai del mio amatissimo Craigslist.org che, pur non essendo un motore di ricerca, ma piuttosto una delle più importanti community che ci sono oggi online, intasava anche lui le pagine dei risultati di Google. Inutile dire comunque che non sono i soli. Le segnalazioni sono diverse, nella speranza che migliori qualcosa nella qualità del search. Cominciamo dall’insospettabile Technorati che è quello ‘mascherato’ meglio.

Già da diversi mesi infatti Technorati ha cominciato ad ‘ottimizzare’ le sue pagine di risultati (per dovere di cronaca anche Feedster fa la stessa cosa) dedicati ai tag, per farle indicizzare a Google, che ovviamente non si accorge del trick (ma non avevano il Trustrank loro? Già forse proprio per quello abbiamo ora questi fenomeni).

Comunque il problema di Technorati è serio per diverse ragioni, la prima delle quali è che ormai rappresenta un nome nella blogosfera, tracciando quasi 40 milioni di blog, e già questo dovrebbe farvi temere per un intasamento delle serp ben oltre l’over quota. A questo leghiamo un altro fenomeno.

E’ noto che alcuni domini sul web, come già feci presente illo tempore, sono preferiti ad altri. Technorati è esattamente uno di quelli ed è anche questa una delle ragioni per cui non è ancora stato bannato dall’indice di Google (nè lo sarà mai).
Steve Rubel non avendo esperienza in fatto di motori di ricerca, ingenuamente considera positivamente il fenomeno in chiave comunicativa e non ne intravede il problema, sostenendo addirittura che: "it’s much easier to find relevant blog conversations right from Google."

Vorrei tanto capire come mai se una conversazione offerta da un blog è tanto rilevante, l’arbitro di ciò che rileva nell’indice di Google debba essere Technorati. Aggiungo che questo di Technorati è un trucchetto a buon mercato per ricevere traffico a costo zero. La cosa bella poi è che, trattandosi di pagine dedicate ai tag, non è difficile che noti brand beneficino di una ingiustificata presenza al top dei risultati all’interno del Google index.

technorati

technorati

Il paradosso che molti, non so perchè, non notano (e ancora meno denunciano) è che non ha senso che un motore di ricerca abbia il proprio db all’interno di un altro. Questa pratica disdicevole oltre a intasare poi non apporta nessun beneficio alla navigazione di un utente.

Mettendo ora da parte T’rati, ora mi interessa farvi sapere anche questo. Anche i sistemi di news di Google e Yahoo sembrano essere nelle mire dello spam.

yahoo news

google news

La cosa in questo caso è più grave che nei precedenti casi segnalati. Perchè se pure è possibile sfruttare certe falle di un algoritmo, meno semplice dovrebbe essere sfuggire al controllo editoriale umano. E’ vero che i sistemi di news dei 2 big sono gestiti da un software che pesca le più rilevanti, ma altrettanto vero è che per finire in quei sistemi, c’è un preventivo check di ‘qualità’ ad opera di persone in carne ed ossa.

Accade ad esempio che su Yahoo News, un ex portale italiano, da diverso tempo tramutatosi in un parked domain, riesca ad intasare anche la ricerca di news, piazzandosi (in data 30 giugno 2006) al top dei risultati per la keyword "ringtones". Situazione analoga su Google News (sempre nella stessa data e sempre per la stessa keyword); cambia solo il responsabile che questa volta è Vibe.

MSN News, fortunatamante non sembra soffrire questi problemi. Concludo segnalandovi l’ultimo, Del.icio.us, che non meno di altri consente il crawling delle proprie pagine. Per certi versi qui è ancora peggio, in quanto il social bookmarking (oltre ad avere poco senso per me), quando si fa indicizzare non è foriero di valore aggiunto, ma solo di una sfilza di link privi di descrizione, che per il navigatore sono solo un nonsense.

La condivisione vale infatti quando è richiesta e ristretta entro una cerchia prestabilita dallo user, non certo quando è imposta. Perchè in questo caso si chiama SPAM. Mi domando come mai queste info le dobbiate apprendere da me (e da pochi altri) che sono solo un povero spaghetti blogger e chi viene considerato un punto di riferimento, più o meno giustamente, certe verità non le diffonde mai. Stranezze del web.

Social Bookmarking
blinkbits  BlinkList  blogmarks  co.mments  connotea  del.icio.us  De.lirio.us  digg  Fark  feedmelinks  Furl  LinkaGoGo  Ma.gnolia  NewsVine  Netvouz  RawSugar  Reddit  scuttle  Shadows  Simpy  Smarking  Spurl  TailRank  Wists  YahooMyWeb 

[...] C’è chi crea qualche piccolo spam-engine, chi diventa famoso e poi fa spam nelle Serp, chi sta per fallire e spamma, ma c’è chi è davvero forte e ci va pesante. Un motore di ricerca che cerca di apparire nelle SERP di altri motori di ricerca è spam…continua Vuoi ricevere gratis le ultime novita’ di Wmtools? Lascia qui la tua email… Tuo Nome E-mail [...]

Pingback by » Lo spam da Serie A - Web Marketing e Posizionamento — 4 July 2006 @ 12:53

Su un piccolo particolare non sarei sicuro, anche se uno è big, è spama pesantemente non significa che non sara banato, anzi spamando è l’inizio di una lunga decadenza.

Quando si inizia a spamare, non ci si ferma piu big o piccolo web master sfigato di turno, secondo il mio parere diventa una dipendenza, ovvio piu traffico si crea, meno probabilità si hanno di essere banati, ci sono anche degli spamer intelligenti, ma alla lunga si finisce.

Il concetto è semplice: paragoniamo il vino ai contenuti e l’acqua allo spam ,
quindi vino = contenuti, acqua = spam, allora che faccio comincio pian piano aggiungo del acqua al vino, e man mano ne aggiungo sempre di piu d’acqua, tanto è piu facile aggiungere del acqua che fare del buon vino, al inizio nessuno se ne rende conto ( tanto la maggior parte non sa cosa è il buon vino ), poi qualcuno se ne rende conto ma non protesta, piccole proteste ma nessuno ci può fare niente perché I am the big player, ( fino a quando ), finche non giunge qualcuno che non annacqua il vino, cosi da permettere al arbitro di squalificare il big player e veicolare i navigatori al nuovo player che prima o poi spamera.
Tuttogratis anni fa incuneava le serp era il piu grande player ma poi è stato pesantemente penalizzato, secondo me quando uno inizia a spamare inizia un gioco di difesa che a lungo gli a fara perdere.

Comment by ARKIN — 4 July 2006 @ 18:37

>Concludo segnalandovi l’ultimo, Del.icio.us,
> che non meno di altri consente il crawling delle proprie pagine

E’ inesatto quello che dici, guarda qui:

da http://del.icio.us/robots.txt

User-agent: *
Disallow: /
Allow: /rss

Comment by TrEnT — 4 July 2006 @ 21:01

Ciao, non è inesatto. Non so a quando risalga il robots.txt, fatto sta che non ultimo oggi mi sono imbattuto in una pagina indicizzata di del.icio.us all’interno di google. Guarda comunque qui o qui.  Queste directory dentro l’indice di google non ci dovrebbero proprio essere, eppure…ci sono.

Comment by Jacopo Gonzales — 4 July 2006 @ 21:08

Il robots c’e’ sempre stato.
Quei risultati non appaio mai nelle serp normali, se noti non hanno l’abstract tipico delle serp di google, e’ tipico dei domini bannati. In effeti e’ strano che GG indicizzi quelle pagine, ma non direi che e’ spam e poi chi cercherebbe mai del.icio.us/tag/advertising o del.icio.us/tag/web ??

> Queste directory dentro l’indice di google non ci
> dovrebbero proprio essere

Del.icio.us non e’ una directory anzi e’ tutto l’opposto, le directory hanno un’organizzazione a cartelle tipo file system, mentre del.icio.us ha un’organizzazione per tag che sono come delle etichette e per ogni risorsa se ne possono “attaccare” piu’ di una invece nel caso delle directory ogni risorsa avra’ un indirizzo univoco.

Comment by TrEnT — 4 July 2006 @ 21:43

Ricapitoliamo un attimo, onde evitare che ci fraintendiamo.

Oggi cercando vattiaricordarecosa su Google, all’interno dei vari risultati organici ce n’era uno che si riferiva ad una pagina come quelle che ti ho segnalato. Sull’abstract concordo, ma potrebbero essere diverse le ragioni per cui l’url appare indicizzata in quel modo, come se avesse attivo un nocache ad esempio.

Per fortuna lo so che sono i tag. ;-)

Non intendevo dire che Del.icio.us è una directory. Il termine era riferito alla struttura, vedi appunto http://del.icio.us/tag/web

Comunque dal mio punto di vista non c’è ragione che le pagine dei tag di del.icio.us appaiano nelle serp, dal momento che appunto non è una directory, ma solo un sistema di social bookmarking che raccoglie link.

Comment by Jacopo Gonzales — 4 July 2006 @ 22:04

Sì, infatti ricapitoliamo,
Il titolo del tuo post e’:
> Chi dice che lo spam …non è delicious?
lo dico io:
del.icio.us non consente il crawling delle proprie pagine perche’ il file robots.txt non lo consente.
http://del.icio.us/robots.txt

Comment by TrEnT — 5 July 2006 @ 03:24

Io concludo aggiungendo che pur essendo presente il txt, lo spider sembra non tenerne conto, inserendo nell’indice pagine che invece non ci dovrebbero essere. ;-)

Comment by Jacopo Gonzales — 5 July 2006 @ 07:24

Non confondiamo le cose.
Questa query:
http://www.google.it/search?hl=it&q=site%3Adel.icio.us
Ritorna alcuni milioni di risultati.
Nessuna di queste pagine pero’ e’ “indicizzata” da Google.
Per es. non sono presenti in cache e il robot di google non ne ha mai letto il contenuto, perche’ il robots.txt glielo ha impedito.
Tuttavia, milioni di altri siti hanno link a queste pagine, e quindi google e’ venuto a conoscenza di questi URL da altre fonti.
Non sa cosa queste pagine contengano, ma probabilmente sono un buon risultato per queries contenenti ‘del.icio.us’ e qualche tag…

Comment by Faber — 5 July 2006 @ 16:41

Ciao Faber, dunque, stanno emergendo delle inesattezze che mi preme correggere:

1) se vedi un risultato (anche privo di descrizione, copia cache e pagine simili) nell’indice di un motore, vuol dire che quella pagina e’ stata indicizzata a tutti gli effetti, ed è per questo presente nell’indice. Diversamente non ve ne sarebbe traccia alcuna.

2) Veniamo ora ai link di puntamento. Anche se del.icio.us avesse milioni di link che puntano da siti diversi a pagine di tagging, il robots.txt parla piuttosto chiaro, e google, come del resto qualunque altro motore, non la leggerebbe mai, di conseguenza non esiste ipotesi alcuna per cui questa possa finire nell’indice, se le istruzioni del robots.txt parlano chiaro.

3) Arriviamo al vero nocciolo della questione. Nel caso di Del.icio.us le pagine effettivamente sono presenti nell’indice. La spiegazione? Per me è piuttosto chiara: il robots.txt o è presente solo da pochissimo, oppure è stato ‘istruito’ come è attualmente solo in ‘tempi recenti’, e giustamente Google, notando il cambiamento, sta semplicemente provvedendo ad eseguire, rimuovendole dall’indice.

4) Nel robots.txt questo "Disallow: /"  impedisce al motore di scansionare la pagina, non ad impedire la cache. ;-)

Comment by Jacopo Gonzales — 5 July 2006 @ 17:11

JG> 1) se vedi un risultato (anche privo di descrizione, copia cache e pagine simili) nell’indice di un motore, vuol dire che quella pagina e’ stata indicizzata a tutti gli effetti, ed è per questo presente nell’indice.

No, Jacopo. Ha ragione Faber: “indicizzato” significa che il motore di ricerca ha richiesto un documento e ne ha, appunto, indicizzato il contenuto, in modo da poter mostrare quel documento nei risultati delle richerche rilevanti. E come vedi, i contenuti di del.icio.us non appaiono nelle pagine dei risultati di Google. Quelli che Google mostra in risposta alla query “site:del.icio.us” sono –correttamente– solo alcuni URL (presumibilmente, quelli che hanno back link dal resto del Web).

JG> Diversamente non ve ne sarebbe traccia alcuna.

No. La “traccia” che rimane sono gli URL (per sapere che un URL esiste, Google non ha bisogno di indicizzare il documento corrispondente: gli basta indicizzare i suoi back link). Quando Google ti mostra un URL in risposta a una query site:nomesito, non significa che il documento corrispondente è stato indicizzato, né che Googlebot ha richiesto quell’URL.

E’ importante anche comprendere che il fatto che alcune pagine di del.icio.us abbiano PageRank ed esistano nella cache di Google non significa che quelle stesse pagine siano “indicizzate”: per quanto riguarda il PageRank, non è necessario fare una scansione di un documento per assegnare un valore di PR all’URL corrispondente (basta indicizzare i suoi back link); e per quanto riguarda le copie cache, quelle pagine potrebbero essere state crawlate prima dell’introduzione del robots.txt con “Disallow: /” (una novità relativamente recente su del.icio.us, probabilmente conseguente alla sua acquisizione da parte di Yahoo!), ma questo –ripeto– non significa che il contenuto di quei documenti sia “indicizzato”.

Comment by Everfluxx — 6 July 2006 @ 09:16

Svelato l’arcano: confrontate il robots.txt di del.icio.us con la sua copia cache su Google.

A Googlebot viene servito un robots.txt “speciale”:

User-agent: *
Disallow: /
Allow: /rss

User-agent: delicious-thumbnails
Allow: /

User-agent: Googlebot
Allow: /
Disallow: /inbox
Disallow: /network
Disallow: /search
Disallow: /post
Disallow: /login

Trattasi perciò di cloaking del robots.txt basato sullo user-agent (se richiedete http://del.icio.us/robots.txt con User-agent:Googlebot/2.1 riceverete la versione speciale per Googlebot).

Comment by Everfluxx — 29 September 2006 @ 12:05

Leave a comment

About Marketing Routes:

Blog multi-autore che ha come focus il mondo del marketing, dell'advertising e della comunicazione online ed offline. Non solo un bookmark da controllare giornalmente ma un dispensatore di notizie, consigli, strategie per tutti coloro che operano in questi settori. Nato con la convinzione che di blog riguardanti il marketing, la comunicazione e la pubblicità ce ne siano molti, ma quelli veramente di qualità sono pochi, Marketing Routes vuole apportare agli utenti della rete i modi di vedere, le esperienze e le considerazioni di diversi giovani professionisti del settore così da aprire un dibattito con gli utenti senza mai prendersi troppo sul serio.

Creative Commons License

Design © 2006 by Consulenzaweb.com | Powered by WordPress