La presenza di annunci duplicati nei risultati di ricerca di un aggregatore, è uno dei pochissimi aspetti negativi rispetto alla ricerca sui singoli portali.
Inoltre la presenza di duplicati è una conseguenza diretta della ricchezza e completezza delle fonti utilizzate, in quanto è evidente che tanto più è grande il numero di portali indicizzati, tanto più è probabile che uno stesso annuncio (o meglio un annuncio che si riferisce allo stesso immobile) sia presente più volte.
A seguito delle preziose segnalazioni (e talvolta di una collaborazione ancora più diretta) di molti utenti, su Caasa abbiamo progressivamente migliorato ed affinato l’algoritmo utilizzato, fino ad ottenere risultati molto soddisfacenti.
- Per ogni singolo annuncio che sta per essere inserito nell’indice, vengono selezionati tutti gli annunci nella stessa città con le stesse ( o estremamente simili ) caratteristiche numeriche (prezzo e dimensione in mq).
- A questo punto vengono valutati tutti gli altri parametri ( localizzazione, keywords, venditore, data di pubblicazione, caratteristiche come il piano, il numero di bagni, etc) e viene prodotto un coefficiente di similitudine.
- In fine viene valutata la similitudine tra le descrizioni, con l’uso di algoritmi abbastanza sofisticati (tra cui la distanza di Levenshtein ). Se la similitudine è superiore ad una determinata soglia, calcolata in base coefficiente di similitudine precedentemente calcolato, l’annuncio è marchiato come duplicato.
- Il duplicato di rank più alto (ovvero più ricco d’informazioni affidabili) diviene il duplicate winner ed è l’unico ad apparire direttamente nell’indicizzazione di Caasa.
- Gli altri duplicati sono quindi marchiati come duplicate loser e non figurano negli indici, anche se
- alcune caratteristiche (ad esempio la data di pubblicazione) potrebbero essere utilizzate per arricchire le informazioni presentate relative al winner.
- premendo il pulsantino vicino al link in verde del winner sono mostrati i link anche ai loser (in ordine di rank).
Dalla versione 3α.18 in produzione da ieri, i link (anche per loser) sono cliccabili. In questo modo è più facile accedere a differenti versioni dello stesso annuncio ed avere accesso ad informazioni ulteriori eventualmente presenti solo su determinate fonti.
Ovviamente sussistono ancora situazioni in cui annunci riconducibili allo stesso immobile non sono associati (con ragionevole certezza) allo stesso immobile. Infatti talvolta gli immobili sono in vendita presso differenti agenzie, che pubblicano annunci con testi e informazioni differenti, tanto da rendere estremamente complicato capire che si tratta dello stesso immobile. Talvolta inoltre ci sono annunci che vengono “aggiornati” ( ma in effetti sono semplicemente ri-pubblicati ex-novo ) con prezzi (e talvolta anche metrature!) differenti, mentre i precedenti annunci sono ancora presenti su qualche altro portale.
Riceviamo molto volentieri segnalazioni da parte degli utenti di casi di malfunzionamento, nella speranza di migliorare ancora l’algoritmo e di fornire un servizio sempre migliore.