16 July 2006
Clusty il motore di ricerca che …non si scorda mai
Clusty, il motore di ricerca che …non si scorda mai. (Il keyword clustering aiuta la memoria dei search engine, ecco perchè…)
PrePost: questo post ha un lato scientifico (si licet), un lato informativo (che è di pubblica utilità) e un lato personale (che interessa ‘quasi’ solo me). Il lato personale potrebbe non interessare a molti (mentre interesserà moltissimo a pochi…) e comunque è quello che più mi diverte. Mi piace mischiare con storie personali (soprattuto negative) le mie considerazioni webbologiche perchè danno un po’ di sale alla zuppa e perchè mi diverte giocare al gatto coi…topi.
Un po’ di giorni fa, a seguito del dibattito nato – online e offline con qualche ‘net friend’ – in merito alla semanticità di Accoona, nuovo motore di ricerca ‘europeo’, mi è tornato alla mente Clusty, un motore di ricerca di cui avevo parlato già anni fa e che reputo essere (at the end of the page…) un buon motore di ricerca; certamente non famoso quanto Google, certamente non ‘embedded’ come Msn di Microsoft e sicuramente non ‘storico’ quanto Yahoo, ma assolutamente degno di osservazione e di analisi.
Nomen Omen
Il motore di ricerca Clusty porta nel nome il suo ‘technological core’; Clusty deriva dalla radice ‘clust’ , che troviamo nella parola ‘cluster’ e nel verbo ‘to clust’ e che in sostanza significa ‘gruppo, raggruppare, raggruppamento’ etc… Diciamolo subito: Clusty, come qualsiasi altro motore di ricerca attualmente online, non è un motore di ricerca semantico; è un motore di ricerca lessicale e quindi basato esclusivamente sul ‘retrieval’ di Keyword e Keyphrase (considerando comunque una keyphrase come una keyword ‘composita’…). Siamo quindi ben lontani dalla tanto agognata ‘semanticità’ del Search Engine 3.0, ma devo dire che i risultati di Clusty sono senza dubbio molto soddisfacenti e, forse per le minori pretese (di Accoona.com, per esempio), saltano subito agli occhi. In questo post cercherò di mostrare come il clustering, anche lessicale e quindi ‘non intelligente’, possa essere un aiuto prezioso per tutti i motori di ricerca non disposti a ‘perdersi’ dei pezzi del web (i ‘pezzi’ sono le pagine dei siti web).
Linking cerebrale e sigarette sul comodino
E’ un vero e proprio uovo di colombo, ma se ci riflettiamo solo un attimo, qual è il vero ‘collante’ della nostra memoria? I collegamenti (i link, diremmo oggi); e questo appare chiaro quando ci scordiamo qualcosa. Senza darci arie di psicologi (che sono brutte arie…), possiamo osservare ogni giorno che quando dimentichiamo qualcosa (anche semplicemente: “dove ho messo le sigarette?”), per ricordarci cerchiamo degli ‘agganci’ con qualcosa che non abbiamo ancora dimenticato; per esempio, cerchiamo di ricordare dove fossimo l’ultima volta che abbiamo fumato: “Ecco, sì, stavo parlando con mio fratello al telefono che mi diceva proprio che mi ero già acceso due sigarette durante la telefonata”, allora salgo in camera mia e trovo le sigarette sul comodino, penso che forse le avevo ‘freudianamente’ dimenticate lì per un istinto di ’conservazione’, me ne accendo una e scendo a scrivere questo post.
Bene, il motore di ricerca Clusty funziona – intenzionalmente o no, questo non ci è dato sapere – in questo modo. Durante l’analisi delle pagine web già crawlate (quindi già inserite nell’indice e anche se non ancora pubblicate) Clusty sembra cercare degli ‘appigli’ tra i termini e lo fa probabilmente (siamo sempre nelle ipotesi da reverse engineer) anche tenendo conto di quello che effettivamente gli utenti cercano sul suo motore (in un prossimo post spero che riusciremo a mostrare quali sono le potenzialità di un’analisi delle query per qualsiasi motore che voglia elevarsi anche un solo gradino sopra la fase ‘lessicale’ della search, che dura ormai da troppo tempo).
Facciamo allora un esempio concreto. Dicevo prima che, scrivendo di Accoona e leggendo i commenti dei colleghi, mi sono ricordato di Clusty (perche’ la ‘sequenza dei collegamenti puo’ essere anche creativa e spontanea…). Normalmente, una delle query che utilizzo per testare un motore di ricerca è il mio nome e cognome; non è tanto per egocentrismo, egotismo o vanità (mie qualità a cui sono comunque molto affezionato), quanto piuttosto perchè io so benissimo quali sono i post che ho scritto, gli articoli e i siti che gestisco etc., e quindi se su un determinato search engine non trovo una pagina che so esistere e che so contenere una determinata keyword, allora è ‘perchè’ il motore di ricerca – semplicemente – non l’ha indicizzata. Bene, vado su Clusty e comincio a fare ego-surfing.
EgoSurfing su Clusty (fatelo anche voi!)
Cercando “federico riva” su Clusty (consiglio sempre gli apici per un buon egosurfing), visualizzo una SERP che mi dice che posso scegliere fra 2272 risultati di ricerca, ma soprattutto, visualizzo – sulla spalla della pagina – una lista di termini (keyword o keyphrase) linkati. Ecco lo Snap della pagina.
Si tratta di termini che – secondo Clusty – hanno a che fare con “Federico Riva” e che, come potete osservare, sono disposti in un ordine decrescente. Da Marketing (33 presenze) a Vyuz San Diego, passando per …pissing estremo e prima ancora…Godado ? . Bene. Cerchiamo di capire che cosa ha fatto Clusty. Apparentemente (faccio sempre il reverse engineer) si tratta di termini che ricorrono almeno in due pagine web in concomitanza con la keyphrase “federico riva” (che ovviamente viene considerata da Clusty come una singola keyword, dal momento che è stata scritta fra apici).
Non ci troviamo quindi di fronte – almeno sembra – a un motore di ricerca semantico, quanto piuttosto a un motore di ricerca che ‘raggruppa’, intelligentemente, keyword che (probabilmente presenti anche in pagine web dove NON appare il termine Federico Riva) hanno a che fare con la query cercata. D’altronde, Clusty non si chiama Semanty e quindi, almeno dal nome, non si avanza nessuna pretesa di semanticità.
La cosa che va subito detta è che questi link che appaiono alla sinistra delle SERP non debbono essere considerati dei semplici link, bensì delle informazioni. Clusty, mostrandoci dei link che possono ‘attivare’ una ulteriore query, ci ‘informa’ che il termine o i termini cercati sono correlati con quelli visualizzati e linkati e, con una disposizione verticale, ci suggerisce che Federico Riva ha a che fare più con il marketing che con il pissing estremo…anche se, a tal proposito, sembra che abbia a che fare fortemente anche con Godado, cosa che ‘ahi Godado’ non è più vera da poco prima di Natale 2005; ma su questo punto torneremo in seguito, come anche sul fatto che un motore di ricerca che ragiona a ‘cluster’ ha una…marcia in più (per usare un antico e sfortunato payoff) per individuare i siti spam (e non solo gli spamengine).
Proseguiamo però con l’analisi dei link suggeritici da Clusty. In calce agli stessi, possiamo leggere due ‘suggerimenti’: ‘more’ e ‘all results’.
Dico subito che con mia grande sorpresa, visualizzo un link che non pensavo proprio di trovare ed e quello relativo a ReadyTrading.com. ReadyTrading era un sito (anzi, è ancora…?) di mia proprietà (come chiunque può vedere dal Whois) e che vedeva coinvolte due persone, o meglio: una ditta individuale (Federico Riva appunto) e un individuo con una ditta (Diego Ratti).
Diego Ratti svolgeva l’attività di Docente di trading e io ero il capo del sito che aveva il compito primario di incassare i soldi e di redistribuirli al Ratti trattenendo una piccola percentuale per la mia ‘opera’.
Beh, quando venni ‘kickato’ dalla Godado Italia S.r.l. senza nessuna giusta causa che fosse quella di una miopia delirante, il dottor Ratti decise, anche in questo caso arbitrariamente, che il dottor Riva non aveva più diritto ad avere quel sito e quell’attività (di consulenza trading pubblicizzata online) e che quindi era il caso di sostituire la home page con una ‘under construction’.
D’altronde forse il Ratti pensava che, dal momento che il sito era stato realizzato da dipendenti di Godado (con la collaborazione di uno stagista nicknamed ‘spruzzo’) e che il dominio era stato acquistato (mi pare di ricordare…) con la carta di credito di Godado e comunque ospitato a titolo gratuito sui server Inet di Godado e che i corsi erano tenuti negli uffici di Carate Brianza di Godado Italia S.r.l., io non avevo alcun diritto su quel dominio.
Tratterò in un altro punto dei diritti dei proprietari di un dominio (che sono ovviamente superiori a quelli dei ‘possessori’) e in altra sede del fatto che non mi è stato più consentito di rientrare in possesso del mio dominio, qui mi preme solo sottolineare come Clusty sia stato più intelligente del dottor Ratti e come anzi sia stato troppo intelligente…
Infatti nel dare disposizione agli stessi che avevano realizzato e uppato il sito, il Ratti si dimenticava di togliere le sottocartelle del sito e quindi Clusty giustamente (anzi direi, troppo giustamente…) ha tenuto in indice le pagine che non erano state eliminate, pensando che solo un lamer alle primisime armi avrebbe potuto pensare di cancellare un sito semplicemente sostituendo l’html della index.
Travolto dalla mia innata curiosità comincio allora a navigare le pagine del sito e vedo che Clusty ha indicizzato proprio tutte le pagine, anche quella dove si vede che il numero di fax a cui i potenziali ‘alunni’ dovevano mandare il fax di accettazione era quello di Godado Italia, un numero che ancora ricordo a memoria.
Vado poi su Google e vedo che in effetti, con la query ‘intelligente’: site:www.readytrading.com appaiono tutte le pagine ancora indicizzate di ReadyTrading.com. Anche Google quindi non aveva tolto dall’indice le pagine e d’altronde perchè farlo se non lo aveva fatto chi non era stato capace di applicare una veloce, tecnologica e comunue inutile ‘damnatio memoriae’ (a fine post vi mostrerò un bello strumento, presente da anni, che permette di vedere come se fossero ancora online le pagine di quasi tutti i siti del world wide web).
Cercando però su Google con ‘Federico Riva’, noto che non appaiono nemmeno nei primi 100 risultati le pagine di readytrading e questo perchè? Perchè Google non ha un forte sistema di interlinking ‘per quanto lessicale e cioè basato sulle keyword e keyphrase’ come lo ha Clusty.
Ci sono casi ancora più evidenti (che ho trovato sempre grazie all’ego-surfing) del fatto che un motore di ricerca meno potente (come obiettivamente è Clusty rispetto al WareEngine di DelaView, AKA Google Inc.) possa grazie a un semplicissimo sistema di clustering, avere più ‘memoria’ di un motore di ricerca che invece fa ancora della quantità il suo cavallo di battaglia (Google infatti indicizza circa dieci volte le pagine indicizzate da Clusty con la query ‘virgolettata’ “federico riva”.
Vedo infatti che Clusty mi ricorda che quasi dieci anni fa chiedevo informazioni sulle pipe a una famosa community di fumatori di pipe smokers e che il mio numero di matricola all’università degli studi di Milano era 432603.
Clusty contro Goolia
Clusty è un motore di ricerca più intelligente di Google per un motivo ben preciso e molto semplice; il problema attuale dei big player della search non è la scarsità di informazioni, ma l’eccesso. Se una query anche di ‘nicchia’ come il nome di uno spaghetti webber come me, produce decine di migliaia di risultati di ricerca, come è possibile pensare che un utente sappia dove ‘andare a cliccare’? Il presupposto ‘infondato’ di Google è che i primi risultati rankati siano anche i più significativi per la ricerca stessa, ma non è quasi mai così e questo perchè Google ranka nelle prime posizioni i siti che contengono la keyword - keyphrase cercata e che hanno un ‘peso’ maggiore secondo il GooglePle$ (a prescindere dalla sua ‘votazione ufficiale’ con il PageRank).
Quindi, se il nome ‘federico riva’ appare in una pagina che è considerata ‘importante’, ma che parla di sfuggita di me o che contiente un pingback a un mio commento su un trackback di un Blog di un Blogger che nemmeno conosco, questa pagina viene considerata più ‘attinente’ alla query di una pagina di un mio sito. Il sistema di clustering di Clusty (che trova il suo punto di forza nella visualizzazione dei link ‘ritenuti’ correlati) sarebbe un’ottima soluzione per Google che ha un problema di eccesso di risultati che diventa palese nelle query molto generiche (e che invece quasi scompare con le query composte da 4 o 5 termini, dove la ‘potenza’ del DB di Ghole si mostra in tutta la sua forza).
Purtroppo Googlex ha ancora l’idea che un motore di ricerca per essere ‘puro’ debba essere ‘bianco’ (the whiter, the better…potremmo dire) e quindi qualsiasi ‘suggerimento’ che possa essere considerato ‘umano…troppo umano’ viene scartato in partenza. La mia previsione è che Google dovrà al più presto venire a patti con l’umanità del Web, perchè siamo un po’ tutti stanchi di dovere spulciare fra centinaia di migliaia di risultati per trovare qualcosa di utile o di leggere descrizioni dei siti che (per via di una paranoia anti meta-description) o si affida a una rocambolesca analisi del contenuto della pagina o a una ‘improvvisata e spesso datata’ redazione di Dmoz (o ODP che dir si voglia).
Il sistema di clustering ‘visualizzato’ è sicuramente un passo importante verso questa strada e un motore di ricerca ‘voluminoso’ come Google ne trarrebbe sicuramente più vantaggio di quello che fa ora Clusty. Certo, l’abbinamento a una – anche ‘soft’ – analisi semantica delle pagine e della keyword utilizzate come query potrebbe senza dubbio dare una grande mano a evitare che il dottor Riva sia oscenamente abbinato al Pissing estremo, a Godado o a un link come questo: http://14738.eregole.com/gifsex/ o come questo: http://www1051.webattrezzi.com/motorericercasex/.
Se aprite le pagine, vedrete che si tratta di “account terminated”, tanto simili a quelli che si possono trovare cercando con la query “jeans brasiliani” su Google, dove il primo sito visualizzato su Google è di proprietà, possesso, grafica e hosting di Federico Riva (solo perchè il nome del dominio coincide con la query, con il trattino tanto amato da Cutts), il secondo di ‘miss gustosona’ che su Ebay vende jeans ‘svasati’ a 10 - 20 euro cad. e il terzo del sito di Diego Ratti & Godado (dal Whois del Nic non si capisce bene chi sia il proprietario) che vende jeans brasiliani anche a 190 Euro.
A seguire, una ‘teoria’ di Account terminati che non si capisce perchè Google tenga ancora in indice, giacchè i siti abbondano all’eccesso. Come vedete, a volte il clustering può fare un po’ di confusione e anche un motore leader può diventare d’un tratto lamer.
Il gioco è comunque divertente; se cerco: Jeans brasiliani su Clusty ottengo una serp con un link clustering di questo tipo:

dove appare evidente che il clustering è ancora molto lessicale, perchè sono abbinate delle query (forse) o delle keyphrase spesso (anche se non sappiamo quanto…) abbinate alla query effettuata. La non semanticità di Clusty non gli permette di evitare che fra i link suggeriti ce ne sia uno che punta ai “motori di ricerca”. Una cosa che Clusty dovrebbe sicuramente permettere e una ‘disaggregazione’ della query composita; per esempio: cerco “jeans brasiliani” e mi propone anche “motori di ricerca”, ma attualmente solo in combinazione con il Brasile. Dovrebbe anche permettere di cercare con un semplice click sulla singola Keyword ‘Motori di ricerca’. A quel punto, potremmo visualizzare due tipi di link suggeriti nel clustering e quello per la sola ricerca ‘motori di ricerca’ darebbe questo risultato:

A quel punto, clicchiamo su motori di ricerca Italiani (perchè ce ne sono…) e vediamo che il sito Tuttoweb.it, propone fra i motori italiani anche Godado. Cerco allora “Godado” su Clusty (mentre sarebbe stato il caso che Clusty stesso me lo avesse suggerito fra i link”) e appare una nuova SERP che propone link e dove vedo che posso ‘raffinare’ la ricerca scegliendo fra ‘sources’ (gli engine che Clusty ‘metausa’ e fra gli URL). Scelgo Allora Godado.tv, ma vedo che il primo sito indicizzato (Godado.tv) non si apre. Allora cerco Godado TV su Clusty stesso e il primo risultato non è un motore di ricerca che si apre, ma il sito di un portale che annuncia una vecchia iniziativa di Godado di un sito che – anche lui – non si apre più, ovvero TeleGodado.

Clicco su Portale, Telegodado e la prima pagina non è la index di Telegodado.com (ma se andrete sul sito capirete il motivo) ma una news di Freeonline che riporta la dichiarazione entusiastica di Diego Ratti, presidente di Godado Italia S.r.l. che dice: "Grazie ad una grafica innovativa e alla sua semplicità di utilizzo, gli utenti, semplicemente eseguendo i links proposti da Telegodado, con un solo click avranno la possibilità di visualizzare uno schermo virtuale attraverso il quale vedere la Tv di tutto il mondo via internet”.
Sarebbe interessante se Clusty permettesse, attraverso una toolbar (con uno strumento simile a quello lanciato da Yahoo più di un anno fa) di individuare sulla pagina aperta grazie a un click ‘eseguito’ di ‘eseguire’ nuove query direttamente (in modalita ‘sinottica’ o ‘scorporata’) di modo che con un semplice click (eseguirò su Diego Ratti) avrei potuto vedere una nuova lista di link-informazioni suggeriti e quindi questa schermata, dove possiamo vedere che il Ratti non si occupa(va?) solo di Broadcasting, non solo di motori di ricerca e non solo di corsi di Trading, ma anche di “Superconductive components”…

Clusty e Search Entertainment
Beh con Clusty ci si può davvero divertire e potete farlo anche voi con amici, conoscenti, individui o altro e fatelo sempre più spesso, perchè contribuirete ad aumentare la qualità stessa dei risultati di ricerca di Clusty (non nelle SERP, ma nei link suggeriti, che ne sono il valore aggiunto). Sono infatti tornato sulla query iniziale “federico riva” e, indovinate un po’, i link suggeriti sono cambiati e adesso ReadyTrading è visualizzabile sulla prima ‘condensata’ serie di links:

Ma, per il momento, è visualizzabile solo per me perchè altri miei ‘net friend’ vedono degli altri link. Suppogo quindi che Clusty mantenga una history di quello che un utente cerca e si sforzi di consegnargli risultati sempre più attinenti non tanto alla ricerca ‘an sich’ quanto piuttosto ai suoi ‘interessi’, in un tentativo anche se embrionale di behavioral search che non può essere affatto tenuto sottogamba e che forse viene anche esteso agli altri utenti (ovvero: se tanti utenti hanno cliccato questi link…dobbiamo considerarli più attinenti di altri e quindi visualizzarli anche agli altri utenti, secondo una logica di ‘voto’ un po’ più intelligente del LarryRank).
Postilla: fra pochi giorni il sito ReadyTrading non sarà più visualizzabile perchè scadrà il dominio, ma per chi volesse navigare su questo sito, sulle vecchie edizioni di altri siti (come Godado o come il Pipe Digest che riporta la mia passione per le pipe di schiuma), potete utilizzare un bellissimo strumento che ho conosciuto anni fa grazie all’amatissima Alexa e che si chiama Archive.org. Con Alexa potete visionare l’andamento del traffico di un sito (vedi sotto l’andamento di Godado da quando il Riva se ne è andato…:-)):

Con Webarchive.org potete visualizzare il ‘passato’ di un sito e…con Clusty.com potete magari capire perchè …fa parte del passato.


























Clusty - analisi di Riva
Vi segnalo un’interessante analisi di Federico Riva:
[URL="http://www.marketingroutes.com/2006/07/16/clusty-il-motore-di-ricerca-che-%e2%80%a6non-si-scorda-mai/"] Clusty il motore di ricerca che non…
Trackback by Forum per Webmaster — 17 July 2006 @ 16:43