« B[log] of the Week: [Mini]marketing, il blog del marketing minimale
Chi dice che lo spam …non è delicious? »

3 July 2006

Accoona. Il motore di ricerca semantico che ancora deve imparare l’alfabeto della search.

accoona

Accoona è un nuovo motore di ricerca. Per chi sentisse la mancanza di un nuovo tentativo di soppiantare il potere dei tre Big, ho speso un po’ del mio preziosissimo tempo ad analizzare questo nuovo SE, non tanto perchè segue al suo ‘lancio’ europeo, quanto piuttosto perchè– secondo il suo COO – Accoona è il primo motore di ricerca ‘semantico’. Visto che sono il massimo esperto italiano di motori di ricerca semantici (essendo l’unico che ne ha mai parlato…) sono andato a curiosare e, come mi immaginavo, questo motore di ricerca di semantico non ha nulla, se non le dichiarazioni di Alessandra Coderoni, Chief Operating Officer di Accoona.

Prima di dimostrare che Accoona non è più semantico di Google (anzi lo è addirittura meno), vediamo che cosa si intende per semantico: Un motore di ricerca può definirsi semantico quando “capisce”, al di là dei termini (kew-words, key-phrase e combinazione di queste due), che cosa l’utente stia cercando; ovverosia, capisce il significato di una query, proprio come se fosse una persona che dialoga con un’altra persona e – a prescindere dai termini utilizzati o dalla lingua utilizzata – comprende quale sia la ‘richiesta’ dell’interlocutore; anche per questo, un motore di ricerca semantico viene anche definito “motore di ricerca intelligente”, o “powered” da una tecnologia di AI (Artificial Intelligence).

I motori di ricerca attuali invece (tranne qualche ‘beta serp che gira sui forum da mesi e che non influisice minimamente sul corpus del motore di ricerca di DelaView) sono tutti ‘lessicali’ e quindi ‘cercano’ in siti indicizzati la presenza di tutti i termini che sono inseriti nella query, con regole più o meno simili (stop words list, eliminazione delle ripetizioni, interpretazione dello spazio come separazione di parola etc). Google è un motore di ricerca tipicamente lessicale e infatti mentre è molto forte sulle query lunghe e complesse (tipicamente frasi di cui non si ricorda l’autore, oppure modelli di macchine rare etc.) è scadente (come anche Yahoo e Msn) sulle query semplici (scarpe, casa, italia etc.) e – anche se un lieve miglioramento c’è effettivamente stato negli ultimi anni (soprattutto se pesato con la fiorente crescita degli spamgine), di fatto i motori di ricerca sono oggi ancora inferiori alle directory per quel che riguarda le keyword semplici o dette anche ‘generiche’ (distinguendole così dalle ‘specifiche’).

Che Google sia lessicale e non semantico si vede a qualsiasi query sospinta, ma per vederlo immediatamente, basta cliccare uno dei banner-adsense che (gratuitamente e a spese degli utenti unici dei webmaster affiliati) portano click al motore di ricerca più usato al mondo: per esempio, se trovate un banner che dice:

google trivia

Vedrete che la query lanciata dalla Brin&Page Foundation è questa e che tutti i primi siti segnalati sono siti che contengono l’esatta sequenza dei caratteri della query stessa. A parte il fatto che da quando girano questi educational AdSense (di Goolge Trivia), molti webmasterimprenditori si sono dati da fare per costruire pagine ad hoc che venissero indicizzate nelle prime posizioni, sfruttando così il traffico ‘raccolto’ a zero euro, da centinaia di migliaia di altri webmaster, è evidente che in questi casi non ci troviamo di fronte ad alcun tipo di semanticità della SERP; ovverosia, quasiasi sito che, pur contenendo tutte le informazioni necessarie, e pur avendo un SergeyRank e una BrinPopularity altissima, non apparirebbe affatto nella pagina dei risultati anche se solo utilizzasse delle parole sinonime.

Per esempio: un motore di ricerca semantico dovrebbe capire che la frase: "Motivi per cui l’atmosfera terrestre è di colore celeste" (tranne in kalifornia, il cielo tende a essere celeste e non blu) ha lo stesso significato (da qui l’aggettivo ‘semantico’) di quella propagata dal Google Trivia. Se provate a cercare su Google, vedrete che i siti che appaiono sono totalmente differenti da quelli che visualizza con la query dell’AdSense e, BTW, non si trova nulla che spieghi perchè il cielo è sempre più blu.

Veniamo ora ad Accoona. In un recente articolo del Dailynet, si legge che Accoona:

“Sfrutta una tecnologia di intelligenza artificiale in grado di comprendere il senso delle parole ricercate dall’utente. Tutti gli altri motori di ricerca forniscono le pagine web che contengono le parole inserite nella ricerca. Accoona è inoltre capace di riconoscere automaticamente la lingua utilizzata tra le sette ‘parlate’ finora:italiano, inglese, francese, tedesco, spagnolo, olandese e portoghese”

E sulle stesse pagine di Accoona, apprendiamo che: “Accoona.com è un motore di ricerca con strumenti interattivi che offrono agli utenti migliori risultati su web, aziende e notizie; funziona grazie ad una tecnologia di intelligenza artificiale brevettata […].

Fondata nel Febbraio 2004, Accoona Corporation, un pioniere nell’intelligenza artificiale (Artificial Intelligence, AI), applicata alla tecnologia della ricerca, ha presentato il motore di ricerca Accoona negli Stati Uniti e in Cina nel dicembre 2004. La società sta portando il settore competitivo del motore di ricerca al livello successivo, potenziando le sue tecnologie avanzate di ricerca, l’esperienza dei propri dirigenti e rafforzando le relazioni con la Cina, la seconda popolazione on line del mondo per dimensioni, che presto diventerà la più grande”.

Dunque, andando per ordine: prima di dimostrare che Accoona non sembra (e importante è invece che appaia..) avere alle spalle nessun tipo di sistema di intelligenza artificiale, vorrei fare notare al management di Accoona che quando si cita un brevetto, bisogna anche citare il numero dello stesso e - nel caso il ‘patent’ (the english for ‘brevetto’) sia ‘pending’ (ovverosia richiesto ma non ancora confermato, e quindi vale quasi zero), bisogna comunque mettere il numero di registrazione. Ora, dal momento che dubitavo che Stuart Kauder, CEO di Accoona, dicesse delle balle, sarebbe il caso di inserire il numero del brevetto o della richiesta dello stesso (dell’eventuale Patent Pending). Dal momento che io ho una certa esperienza di brevetti, essendo l’inventore di una tecnologia di ricerca per il web, ho cercato sui siti preposti e ho trovato che in effetti Accoona dispone di una ‘domanda di brevetto’ (quindi non si tratta ancora di brevetto vero e proprio). Per chi volesse approfondire la cosa, clicchi qui.

Mi preme invece di incollare qui un piccolo stralcio di tutta la domanda di brevetto. Il testo dice:

“An apparatus, method, and system for a Artificial Intelligence for Data Searching Applications (AIDSA) that improves upon search systems. The AIDSA enables searchers to better target their searches and yield better search results by intelligently identifying, interrelating, and executing searches including synonyms of keywords. In one embodiment, the AIDSA expands upon a user’s query by finding related words and generating all permutations of the user’s query and identified related words. Then the AIDSA searches a database based on this expanded query and ranks the results. In one embodiment, the AIDSA super-targets the search results by ranking the results. For example, references having a greater incidence of expanded search terms will be ranked higher than those references having fewer matching search terms. Further, the AIDSA allows users to emphasize certain search terms and this emphasis further targets and affects the search results. In one embodiment, a slider user interface pop-up widget will appear in response to a user highlight a keyword or word phrase and allow a user to set a level of emphasis for the keyword or word phrase. Also, an information bar user interface is taught. The information bar displays AIDSA search results based on the information being viewed by a user.”

A prescindere dal fatto che non pare proprio che ci troviamo di fronte alla enucleazione del nocciolo teoretico di un motore di ricerca semantico (ma l’analisi sarebbe qui fuori luogo) devo dire che anche la semplice ‘sinonimizzazione’ non mi pare sia mai utilizzata dal buon Accoona. Entriamo quindi nel merito delle SERP e facciamo qualche prova per vedere come funziona la semanticità di questo nuovo motore

Dal momento che non voglio infierire, mi occuperò adesso della parte in lingua inglese, che è sicuramente quella più efficiente, dal momento che il motore di ricerca Accoona è online in lingua inglese:

Se cerchiamo documenti relativi alla moda di Rodolfo Valentino (il famoso latin lover actor del cinema muto) troviamo risultati di ricerca che riguardano sia il nostro stilista sia il leggendario adone. Di fatto, qualunque essere umano avrebbe capito che la query riguardava solo ed esclusivamente l’attore e non lo stilista cotonato.

Se poi estendiamo questa ricerca ai soli siti di lingua italiana, andando su Accoona.it, notiamo che la situazione non migliora e anzi, selezionando i siti in lingua italiana della SERP di cui sopra si ottengono i primi tre risultati in tre lingue differenti (tra cui il tedesco, in seconda posizione) . In sostanza pare che Accoona (si possono trovare innumerevoli esempi al proposito) non sia in grado di riconoscere nemmeno la lingua in cui una pagina web è redatta e questo lo rende non solo lontano da qualsiasi ipotesi di semantcità (dove infatti il significato di una query rimane invariato al cambiare dalla lingua che la enuncia), ma anche dagli standard ‘lessicali’ non solo di Google, Yahoo e MSN, ma anche di motori di ricerca di livello inferiore come Teoma et alii (per citare un ex novello Google..).

Proviamo ora a cercare con una query più facile da comprendere per qualsiasi motore di ricerca lessicale: se scrivo nel form: “rodolfo valentino” moda, trovo solo risultati di ricerca che parlano di Rodolfo Valentino e non c’è la confusione con lo stilista.
Selezionando le opzioni di ‘raffinamento della ricerca’ (il Supertarget Your Search di Accoona, un trademark) ottengo dei risultati stravaganti, dal momento che pare che le selezioni di targeting non abbiano molto a che fare con la query effettuata, a dimostrazione che il motore di ricerca non ha ‘capito’ qual era il ‘target’ della ricerca stessa. Infine, selezionando ‘rimuovi tutto’, scopriamo che Accoona ha indicizzato 1,346,955,825 pagine, circa un ottavo di quelle ‘dichiarate’ da Google fino a quando era in essere l’agone contro Yahoo.

Accoona sembra migliorare però in una query in cui si dimostra superiore ‘o comunque più semantico’ di Google. Se cerco “Tigers live in woods’, mentre su Google trovo la maggior parte dei risultati relativi al campione nero di golf, su Accoona questo non accade. Accade però che i primi tre risultati di ricerca non organici (non ho letto dichiarazione in merito o comunicati, ma chiunque può verificarlo da sè) sono gli stessi di Yahoo, con cui evidentemente Accoona ha stretto una partnership, forse in attesa di un’autonomia commerciale.

Se invece cerchiamo ‘cavalli’, sia nella versione inglese, sia nella versione italiana, prevale lo stilisto sul mammifero, come è giusto che accada per la versione inglese, mentre non è giusto che accada nella versione in lingua italiana. Totalmente deludente il fatto che non ci sia nessun tipo di correzione automatica del mistyping, che sta alla base sia dei motori di ricerca lessicali, sia (e direi, soprattutto) di quelli semantici, dal momento che il significato prevale sul significante. Cercando quindi Cavallli (con tre elle) su Accoona, troviamo una manciata di siti che hanno scritto erroneamente il termine, cosa che invece viene individuata come errore da Google.

Cercando la query “roberto baggio ama i cavalli”, il primo sito indicizzato su Accoona è dedicato agli orologi di Roberto Cavalli, segno che il sistema di Latent Semantic Indexing utilizzato da Accoona, non è stato in grado di comprendere che la vicinanza dei termini nella query (roberto e cavalli) deve riallacciarsi alla frequenza di prossimità fra i due termini in tutte le pagine indicizzate (più di un miliardo, appunto)  e quindi non ‘capisce’ che non si sta parlando affatto dello stilista eccentrico, ma del numero 10 più famoso degli ultimi anni.

Non pare esistere alcun tipo di filtro per le ricerche pornografiche (che pare non vengano interpretati come tali). Se cerco ‘Bukkake’, appare anche il link di Accoona Answers che riporta in modalità cobranded, il contenuto offerto da Wikipedia.
E’ bene notare che quando si seleziona il ‘rimuovi tutto’ (per rimuovere le funzione di raffinamento della ricerca di cui sopra) è quasi impossibile reinserirlo.

Lascia comunque perplessa l’affermazione contenuta nell’autopresentazione di Accoona dove, parlando dell’intelligenza artificiale che starebbe alla base del motore, si dice che:

"First of all, Accoona’s Artificial Intelligence uses the meaning of words to get you better searches. For example, when you type five keywords in a traditional search engine, you’re going to get every page that has all five keywords, no more, no less. With Accoona’s Artificial Intelligence Software, which understands the meaning of the query, the user will get many additional results."

Ma non viene fatto nemmeno un esempio e, dalle prove che ho effettuato, sembra che non ci sia alcuna differenza rispetto a Google, tranne che per il numero inferiore di risultati offerti.

Cercando per Federico Riva (nella versione .com senza specificazione geografica) si visualizzano 10 risultati dello stesso sito che ha a che vedere con guide enogastronomiche di Vancouver e francamente non se ne capisce il motivo, mentre cercando su Accoona.it si visualizzano risultati che mi riguardano. E’ bene notare anche che – positivamente -, ma non differentemente da Google, i risultati relativi a Riva Federico non sono sostanzialmente differenti da quelli relativi a Federico Riva (a voler dire che Accoona ha capito che si tratta della stessa ‘cosa’).

La prova del 9 non viene però superata da Accoona con una ricerca che ho utilizzato varie volte per mostrare le inefficienze di Google. Se cerco ‘comprare mazze da baseball’ appare (anche se non in prima posizione) uno dei miei articoli che parla proprio del LSI (Latent Semantic Indexing) e sec selezioneo Aziende (che dovrebbe selezionare solo i siti di ecommerce) non appare nulla, così come se cerco ‘compro mazze da baseball’ o ‘acquistare mazze da baseball’, dimostrazione che non c’è nessun tipo di effettiva sinonimia applicata (una delle basi della semantica).

La mancanza della ricerca per immagini è sicuramente una grave carenza e pare più che altro che la semanticità del motore sia affidata a una ‘seconda query di raffinamento’ in cui però i termini proposti non sono quasi mai attinenti con la query effettuate (provate da voi).

Altra prova della non semanticità del motore è questa query: Se cerco ‘motori di ricerca’ e ‘ricerca di motori’ (due query che a qualsiasi human being appaiono essere ben diverse nel loro significato) le SERP sono tutti attinenti SE e, BTW, non viene visualizzata la root di nessun motore di ricerca, ma solo articoli e pagine che contengono la dicitura ‘motori di ricerca’ al loro interno, un ‘comportamento’ tipico dei motori di ricerca lessicali (lo stesso ‘fenomeno’ accade con la traduzione in lingua inglese della query).

Sono un po’ stanco e sicuramente voi di più. Concludo rilevando la grave assenza di funzioni di ricerca avazate (dal site: al link:) che potrebbe avere un senso (un significato…) se ci trovassimo di fronte veramente a un motore di ricerca semantico, ma che in questo caso rappresenta solo un brutto downside.

Ultima nota, positiva: al contrario di tutte le altre barre di SE, Accoona mette a disposizione dei suoi utenti la funzione di ‘lettura’ delle pagine. Scaricando la toolbar e un software di una società partner (56 mega per concessione in 60 gg di trial version) permette a chi non ha voglia di leggere o – soprattutto – a chi non può, di ascoltare una graziosa voce femminile che legge con un accento molto americano il testo selezionato di qualsiasi pagina. Inutile dire che questa signorina…parla solo inglese.

Siamo stati sicuramente molto critici e ingenerosi e dobbiamo dire che siamo ben lontani dalla realizzazione di un motore di ricerca semantico (e anche di un buon motore di ricerca lessicale). Senza dubbio però, il peso dato da questo motore (che pare avrà un ruolo importante in Cina) al tema della semanticità della serch in internet è sicuramente di buon auspicio per chi, magari con più risorse, potrà finalmente dare vita a un motore di ricerca che ‘sospetti’ quello di cui stiamo …scrivendo.

P.S.: A proposito di Cina, Accoona incredibilmente permette di accedere ad Accoona.cn e addirittura di visualizzare moltissimi risultati riguardanti la strage di piazza Tienanmen, cosa che non è permessa da Yahoo.cn e probabilmente nemmeno da Google.cn. Dico probabilmente perchè qui dalla Thailandia (come anche dall’Italia), Google.cn ha un redirect permanente su Google.com (per chi non si collega dalla supergrandefratellizzata Cina). Come ha detto Alessandra Coderoni, Chief Operating Officer di Accoona in Italia, bisogna adeguarsi anche alla cultura di società in cui la libertà di stampa non fa parte della tradizione e forse a breve Accoona si adeguerà alla cultura di Google, dove la libertà di Search, non parlerà ancora cinese per tanto tanto tempo.

Social Bookmarking
blinkbits  BlinkList  blogmarks  co.mments  connotea  del.icio.us  De.lirio.us  digg  Fark  feedmelinks  Furl  LinkaGoGo  Ma.gnolia  NewsVine  Netvouz  RawSugar  Reddit  scuttle  Shadows  Simpy  Smarking  Spurl  TailRank  Wists  YahooMyWeb 

[...] Federico Riva, su Marketing Routes, fa una bella analisi su Accoona, un motore di ricerca sconosciuto in Italia mostrando come in realtà questo motore di ricerca, che si autodefinisce semantico, di semantico ha meno di Google…continua Vuoi ricevere gratis le ultime novita’ di Wmtools? Lascia qui la tua email… Tuo Nome E-mail [...]

Pingback by » Analisi sul motore Accoona - Web Marketing e Posizionamento — 3 July 2006 @ 11:47

[...] Ne abbiamo sentito parlare a destra e a manca del nuovo motore di ricerca Accoona,ma finora l’analisi più esauriente che ho letto è qui su Marketing Routes.E non è per niente rassicurante. Non so voi, ma io me l’aspettavo. Posted by spery Filed in web [...]

Pingback by i’m still perfecting imperfection » Blog Archive » Accoona, che fa rima con lacuna — 3 July 2006 @ 17:19

mi fa sempre un pochino ridere sentir parlare di intelligenza artificiale..

a maggior ragione riguardo a questa tematica in cui praticamente l’unica intelligenza consisterebbe nella consultazione automatica di un elenco di “sinonimi”..

Comment by baldo — 3 July 2006 @ 19:21

Bravo Federico, bell’analisi, comprensibile anche da chi come me ha studiato semiotica, etc etc all’università ma non ha aveva mai trovato così chiaramente descritto il nesso tra questa e i motori di ricerca. Ho appena scoperto il vostro blog e devo farvi i complimenti.

Comment by Carlo Odello — 3 July 2006 @ 20:18

Complimenti per la tua analisi e per la completezza delle informazioni, anche noi ci stiamo “dilettando” nella creazione di un motore di ricerca e come tu hai sottolineato, renderlo semantico puro al 100% è la cosa più difficile .. pensa che la nostra soluzione era affittare un umanoide di seconda mano e metterlo li a capire le query :P … scherzo!!! cmq .. complimenti per la recensione ;)

Comment by [CapoBecchino] — 4 July 2006 @ 08:19

[..] A detta dell’azienda Irlandese Accoona dovrebbe essere il primo motore di ricerca semantico. Se così fosse, utilizzando keyphrases diverse con lo stesso senso ci dovremmo aspettare, se non risultati identici, per lo meno simili. Ma sembra che non sia esattamente così come illustrato nell’interessante articolo di Federico Riva…

Comment by Ikaro.net — 5 July 2006 @ 17:53

buono l’articolo
[ma faticoso a leggere, almeno per me,
per i colori (bianco su verde)]
saluti

Comment by m_g — 9 July 2006 @ 11:03

[...] Sotto quest’ultimo aspetto quante volte vi è capitato di andare su un sito che ospita gli AdSense e di vedere che gli spot non hanno nulla a che fare col contenuto della pagina ma solo con alcune ‘parole’ e quante volte Google ci ricorda il perchè il cielo è blu e per quali motivi? Beh forse qualcosa sta per cambiare in meglio. [...]

Pingback by » Nuovi brevetti dal Googleplex - Marketing Routes — 12 July 2006 @ 11:49

[...] Un po’di giorni fa, a seguito del dibattito nato – online e offline con qualche ‘net friend’ – in merito alla semanticità di Accoona, nuovo motore di ricerca ‘europeo’, mi è tornato alla mente Clusty, un motore di ricerca di cui avevo parlato già anni fa e che reputo essere (at the end of the page…) un buon motore di ricerca; certamente non famoso quanto Google, certamente non ‘embedded’ come Msn di Microsoft e sicuramente non ‘storico’ quanto Yahoo, ma assolutamente degno di osservazione e di analisi. [...]

Pingback by » Clusty il motore di ricerca che …non si scorda mai - Marketing Routes — 16 July 2006 @ 11:41

[...] Se siete dei nostri lettori affezionati saprete che di Accoona, lo pseudo motore di ricerca semantico e del suo funzionamento artificiale (ma non intelligente) Federico ha scritto un’analisi piuttosto completa ed approfondita oltre ogni proclama. [...]

Pingback by » Accoona e il Pay per Lead - Marketing Routes — 26 July 2006 @ 11:55

[...] Accoona [...]

Pingback by » Motori di Ricerca e Intelligenza Artificiale - Marketing Routes — 24 August 2006 @ 18:27

[...] Accoona: motore di ricerca semantico [...]

Pingback by Dal Web Semantico ai Sistemi Cognitivi - 1 parte — 20 September 2006 @ 22:30

[...] Evidentemente le parole chiave devono essere appropiate… ma qui, i tordi (gli utonti) non troveranno mai una guida per la scelta delle parole chiave… Ricordo solo che Google è un motore di ricerca lessicale e non semantico, sarebbe quindi opportuno provare anche idonee combinazioni lessicali. [...]

Pingback by Dott. FN - Dott. Federico Neri » Ricercare è arte. - Il Blog di Federico Neri — 24 September 2006 @ 22:09

Can your site be displayed in English? I heard you were the one to ask regarding LSI as opposed to old fashioned LSI.

Comment by Jeffrey A. Solochek — 9 December 2006 @ 02:23

Leave a comment

About Marketing Routes:

Blog multi-autore che ha come focus il mondo del marketing, dell'advertising e della comunicazione online ed offline. Non solo un bookmark da controllare giornalmente ma un dispensatore di notizie, consigli, strategie per tutti coloro che operano in questi settori. Nato con la convinzione che di blog riguardanti il marketing, la comunicazione e la pubblicità ce ne siano molti, ma quelli veramente di qualità sono pochi, Marketing Routes vuole apportare agli utenti della rete i modi di vedere, le esperienze e le considerazioni di diversi giovani professionisti del settore così da aprire un dibattito con gli utenti senza mai prendersi troppo sul serio.

Creative Commons License

Design © 2006 by Consulenzaweb.com | Powered by WordPress