« Sangria Party con Paella
Corso Gratuito sui Comunicati Stampa »

30 September 2008

Adesso denuncio google a google per spam!

Non è che nel web manchino i paradossi.
Anche la vita reale è bella densa: c’è un tale, per dire, che ha i capitali all’estero e strilla di italianità da difendere. Facce come il culo a gogo.

Comunque restiamo ai paradossi nel web. Ce n’è di tutti i tipi ma, per chi si occupa di motori, questo è abbastanza divertente: un classico esempio di predicare bene e razzolare cosìcosì.

Se n’erano già accorti low level e everfluxx (ciao ragazzi!) mesi fa qui.
In breve: Google è impestato di spam, probabilmente a causa di codici captcha bucati.
Ero convinto che vi avrebbero messo mano rapidamente, e invece….

Una semplice query site:www.google.it/notebook/public/ mostra la crescita del fenomeno: attualmente circa un quarto di milione di pagine nella directory /notebook sono spammate poveramente.
Talmente poveramente che non ho nessun dubbio che se quelle pagine fossero presenti in un sito esterno, questi sarebbe piallato in un batter d’occhio dal principale motore di ricerca.

Si tratta di testi artificiali, astutamente (!) spinti fuori dalla no-scroll area tramite un trenino di br br br. Le caratteristiche e i pattern dei testi fanno ritenere che i vettori di questi attacchi siano piuttosto pochi.

E’ abbastanza scandaloso che malgrado di questo si parli da diverso tempo, il motore di Mountain View non abbia finora fatto una piega… e sì che la soluzione sarebbe di una semplicità sconcertante:

1) un bel meta noindex sulle pagine notebook e/o
2) un bel rel=nofollow sui link in uscita dalle pagine notebook e/o
3) una bella riga Disallow: /notebook/public/ nel robots.txt (hanno 165 righe nel robots.txt, che gli cambia una in più?)

Poi magari una revisionata ai codici captcha…
Si tratta di soluzioni che Google caldeggia a gran voce nei propri consigli ai webmaster, anche recentissimamente.
Possibile che non applichino le LORO stesse best practices?
Possibile, pare.

Allora, adesso apro i GGWT e li denuncio come fonte di spam, sperando che non spostino la pratica ai Quality Rater di Brescia o che non facciano un lodo apposito: è vietato spammare a tutti tranne che ai 4 principali motori.

Social Bookmarking
blinkbits  BlinkList  blogmarks  co.mments  connotea  del.icio.us  De.lirio.us  digg  Fark  feedmelinks  Furl  LinkaGoGo  Ma.gnolia  NewsVine  Netvouz  RawSugar  Reddit  scuttle  Shadows  Simpy  Smarking  Spurl  TailRank  Wists  YahooMyWeb 

Ciao pieropan!
un post così poteva essere scritto solo da te. :)
cmq, ho trovato questo poema su google: Used Condoms For Sale — http://www.google.it/notebook/public/07151035476140351388/BDQelIwoQxcbKscIj
si vede che i condoms.txt Google non li sa usare :D :D

ciao!!

Comment by Johnnie Maneiro — 30 September 2008 @ 17:01

> …
> un bel rel=nofollow sui link
> in uscita dalle pagine notebook
> …
Per quanto ne so (lo dico in seguito a qualche blando test) i link delle pagine presenti su /notebook/public/ non trasferiscono nulla né rank, né trust. Forse sono pagine rese “noindex/nofollow/disallow” alla sorgente.

Comment by DAG — 30 September 2008 @ 17:30

Ciao Johnnie :)

@DAG
E’ possibile anzi sperabile, ma perchè tenere “nascosta” l’inutilita SEO del loro utilizzo? Se sono state assorbite qualche link esterno dovrebbe esserci, probabilmente con PR infimo, ma chissà che nel complesso non porti qualcosa -nelle intenzioni dello spammer- se fatto all’ingrosso.

Ma poi non è neppure questo il punto… il nofollow evidente sui link, o il noindex in meta, scoraggiano in radice lo spam e anche i test di spam.
Vediamo le ragioni dello spammer, perchè tenta? Se fossi io lo spammer non mi importerebbe nulla del PR e del trust di GG, mi importerebbe moltissimo del fatto che è un sito che NON puo’ essere bannato e sul quale posso far convergere frotte di link provenienti dal lato oscuro del web, senza rischi. Attualmente le penalizzazioni si trasmettono tramite link… se GG diventa un anello della catena in qualche modo interrompe la “pena” che prima o poi verrebbe inflitta al target, risalendo la catena. In qualche modo ricicla i bad link e mette in sicurezza le link farm spinte: la link farm punta a GG e GG punta al sito da spingere, e quest’ultimo in teoria viene slegato dalla link farm e dai problemi che questa potrebbe avere. Se fossi uno spammer ragionerei cosi’.

Ora, per quel che ne sappiamo potrebbe anche essere un honeypoint, ma in genere Occam rulez…. per cui è più facile imho che semplicemente non ci abbiano fatto caso.

Comment by pieropan — 30 September 2008 @ 18:45

Ciao Pieropan,

Gran bel post. :)

La spam individuata da Low a giugno (quella sotto la cartella /notebook/user) fu segata poco tempo dopo il mio post (coincidenza?). Per la precisione furono rimosse dall’indice tutte le pagine della cartella: rimedio drastico ma palliativo in quanto a efficacia, se oggi, come hai notato, esiste un problema identico sotto la cartella “public”.

Google dovrebbe davvero fare qualcosa, ma un meta tag “noindex” sulle pagine di Google Notebook (o un Disallow: /notebook/public/ nel robots.txt) probabilmente non è una strada percorribile, perché Google ha interesse a mostrare nei risultati i notebook pubblici, quando rilevanti.

E il “rel=nofollow” sui link uscenti non servirebbe a nulla, perché (@Dag) l’obiettivo di queste pagine non è trasferire link popularity ad altre pagine, ma posizionarsi direttamente nelle SERP e attrarre traffico (vedi link “Enter here: [sito affiliato]” in bell’evidenza nella non-scroll area di ogni pagina di spam).

Dal punto di vista di Google, la soluzione migliore sarebbe allenare i propri algoritmi in modo da riconoscere automaticamente questo tipo di spam (i pattern non mi sembra che manchino qui)… e/o migliorare la sicurezza del proprio CAPTCHA.

Comunque, se segnali, in bocca al lupo e tienici aggiornati. ;)

Comment by Everfluxx — 30 September 2008 @ 20:10

Aggiungiamo benzina sul fuoco? ;)
http://googlesystem.blogspot.com/2008/09/google-should-learn-about-contacts-apis.html

Comment by Simone Carletti — 30 September 2008 @ 20:13

Ciao Everfluxx,
il codice captcha dovrebbe essere la porta aperta da chiudere subito, dato che ha serie implicazioni anche per lo spam email.

Imho andrebbe chiusa l’intera cartella in attesa di mettere in sicurezza e istruire l’algoritmo, dato che lo spam è largamente preponderante rispetto al resto. Ma mica spam da niente eh… lì è pieno di malware molto aggressivo: prova a seguire il link della pagina segnalata da Johnnie. Ti trovi un .exe in computer senza aver fatto nulla. Per di più da una pagina targata google!

Comunque se analizzi quello che c’è in /notebook/public/ vedrai che molti siti sono defunti. Gli spammer seri :) si muovono più velocemente di quanto l’algoritmo riesca a stargli dietro. Notebook/public di fatto ora rappresenta una presa di beneficio supplementare per lo spammer, che può fregarsene dei ban presi e puo’ addirittura performare sui motori senza essere presente.

Esempio: /notebook/public/15033412177501179275/BDQG0SwoQir2gm8Ej fa 302 su omegahomefinance dot com (sito agonico in serp, gli snippet stanno esalando l’ultimo respiro), che a sua volta fa 302 su business-answer dot org, che è inesitente in GG, dato che ha un robots.txt che blocca tutto e se ne può bellamente fegare dell’opinione che GG ha di lui.

Ciao, stammi bene e a presto.

Comment by Pieropan — 1 October 2008 @ 15:44

Leave a comment

About Marketing Routes:

Blog multi-autore che ha come focus il mondo del marketing, dell'advertising e della comunicazione online ed offline. Non solo un bookmark da controllare giornalmente ma un dispensatore di notizie, consigli, strategie per tutti coloro che operano in questi settori. Nato con la convinzione che di blog riguardanti il marketing, la comunicazione e la pubblicità ce ne siano molti, ma quelli veramente di qualità sono pochi, Marketing Routes vuole apportare agli utenti della rete i modi di vedere, le esperienze e le considerazioni di diversi giovani professionisti del settore così da aprire un dibattito con gli utenti senza mai prendersi troppo sul serio.

Creative Commons License

Design © 2006 by Consulenzaweb.com | Powered by WordPress