Premessa
I dati presentati su mercato-immobiliare.info, caasa.it e osservatorioimmobiliare.it sono il frutto di un’analisi statistica sul database di annunci immobiliari raccolto tramite la collaborazione diretta con numerosi portali immobiliari italiani o tramite l’analisi di siti web pubblicamente accessibili e dovono intendersi quindi essenzialmente come una media dei valori richiesti negli annunci immobiliari e non come una stima o perizia sul valore degli immobili.
Il numero complessivo di annunci del database, è pari al momento a circa undici milioni e rappresenta quindi una parte molto significativa degli immobili oggetto di compravendita in Italia. Si tratta però di un insieme di annunci che non hanno una provenienza “ufficiale” e sui quali non è possibile effettuare alcuna verifica, se non statistica.
Tutti i dati sono forniti senza alcuna garanzia di completezza e correttezza e non possono in nessun caso considerarsi stime del valore di immobili specifici o sostituirsi alle quotazioni ufficiali dell'OMI (che vengo utilizzate anche nelle nostre stime e riportati come riferimento quando possibile) o a perizie effettuate da professionisti sulla base di documenti e misure ufficiali.
Definizioni
Database
E’ costituito dall’insieme di annunci immobiliari provenienti dai principali portali immobiliari italiani e memorizzato al fine di consentire ricerche e analisi statistiche.
Indicizzazione
Con indicizzazione di un portale immobiliare, s’intente l’inserimento nel database di Caasa degli annunci immobiliari ivi presenti. Alcuni portali ci mettono a disposizione un elenco di annunci realizzato in un opportuno formato xml proprio al fine di facilitarne l’indicizzazione, mentre altri si limitano a consentire un’attività di analisi dei loro rispettivi siti web. Altri ancora impediscono l’indicizzazione. Consideriamo nostri partner tutti i portali o siti indicizzati e ne manteniamo un elenco aggiornato, almeno per i principali.
Sorgenti
I portali indicizzati costituiscono le sorgenti del database. Per ogni singolo annuncio, la url sul portale originale ne costituisce la sorgente.
Tipologia e Contratto
Gli annuncio del database possono riferirsi ad immobili offerti in vendita o in affitto, ma non sono gestite altri tipi di offerta (ad esempio case vacanza, multiproprietà, residence o stanze).
Tra le molteplici tipologie d’immobili vengo prese in considerazione le seguenti: appartamento, attico, bifamiliare, bivano, casa indipendente, locale commerciale, monolocale, pentavano, quadrivano, terreno edificabile, trivano, ufficio, villa, villetta a schiera. All’immobile cui si riferisce ogni singolo annuncio sono associate una o più tipologie, sulla base della presenza di determinate keyword. L’assegnazione delle tipologie non è univoca (ad uno stesso immobile possono essere cioè associate più tipologie) e l’associazione ha un differente peso (un coefficiente) sulla base delle keyword effettivamente presenti nell’annuncio. Ad esempio ad un annuncio dal titolo “Villetta in vendita a Roma” verrebbe associata (altre al contratto “vendita”) la tipologia “villetta a schiera”, ma anche (con peso più basso) “villa” e “casa indipendente”.
Localizzazione
Gli immobili cui si riferiscono gli annunci indicizzati, sono localizzati con diversi gradi di precisione. A ciascuno è obbligatoriamente associato uno e un solo comune italiano, anche se, al momento, le regioni Valle d’Aosta e Trentino-Alto Adige sono escluse dall’indicizzazione perché spesso i toponimi utilizzati sono rispettivamente in francese e tedesco, compromettendo la capacità di localizzarli in modo affidabile.
Una volta identificato il comune, tramite l’analisi dei toponimi, ad ogni annuncio possono essere associate una o più delle seguenti informazioni:
- geolocalizzazione
ovvero la latitudine e longitudine - indirizzo
in termini di una via, piazza o altro luogo d’interesse con una geolocalizzazione nota (senza numero civico, visto che quasi sempre è omesso per riservatezza dagli annunci e spesso si indica una via di qualche rilevanza nei pressi) - zona
ovvero un quartiere, località, frazione, circoscrizione, municipio o altra suddivisione toponomastica utilizzata negli annunci immobiliari
Ad ogni immobile è associato quindi uno e un solo comune, una o nessuna geolocalizzazione, uno o nessun indirizzo e una o nessuna zona.
Un indirizzo può far parte di una (ed una sola) zona e se un annuncio è associato ad un tale indirizzo è certamente associato anche alla relativa zona.
Le zone sono state ricavate da un processo di analisi ed estrazione dagli stessi annunci immobiliari. Ad esse è associata una geolocalizzazione, ma non i confini che spesso non è possibile determinare in modo “ufficiale” e che comunque non vengono utilizzati in modo rigoroso e uniforme negli annunci. Per questo motivo un annuncio è associato ad una zona solo se è associato ad un indirizzo che fa parte della zona o se sono presenti riferimenti espliciti alla zona stessa: la sola geolocalizzazione non è sufficiente, considerato che può capitare che zone contigue siano significativamente differenti dal punto di vista immobiliare.
La localizzazione è uno degli aspetti più delicati di tutto il processo di indicizzazione: gli annunci sono spesso carenti di informazioni dettagliate al riguardo, quand’anche non ne forniscano d’ingannevoli, magari con espressioni volutamente ambigue o indeterminate (“… a meno di mezz’ora dalla zona più centrale e prestigiosa della città …”). Per questo motivo, annunci con localizzazioni ambigue (ad esempio con riferimenti testuali a più quartieri) o contraddittori (per esempio con riferimenti testuali ad un determinato quartiere, ma con geolocalizzazione in un punto distante della città) hanno un rank ridotto, perdono i riferimenti alla localizzazione o sono esclusi dall’indicizzazione.
Non per tutti i comuni è presente una scomposizione territoriale per indirizzi o zone, ma sono al momento coperti tutti i comuni più importanti dal punto di vista immobiliare.
Annunci
Ad ogni annuncio sul database sono associate differenti informazioni, alcune obbligatorie (nel senso che annunci per i quali non è possibile determinarle non vengono indicizzati) e altre facoltative.
Sono obbligatorie: la url sorgente (univoca) e il portale sorgente, il titolo e la descrizione dell’annuncio, il tipo di contratto e almeno una tipologia (tra quelle prese in considerazione), il comune (tra quelli ufficialmente censiti dall’ISTAT) in cui è localizzato l’immobile e una data di pubblicazione (o di ultimo aggiornamento). Se non è possibile determinare la data di pubblicazione a partire dalle informazioni presenti sulla sorgente (o tali informazioni non sono attendibili), la data di pubblicazione coincide con la data di indicizzazione. Gli annunci vengono rimossi dal database quando sono rimossi dalle loro sorgenti e comunque se la loro pubblicazione è più vecchia di 9 mesi.
Sono facoltative: il prezzo (di vendita o di affitto mensile), la superficie, la localizzazione (come precedentemente definita), il piano, il numero di bagni e numerose altre caratteristiche (la presenza dell’ascensore, del riscaldamento centralizzato, del giardino, di un posto auto, della cucina abitabile, etc.) e le informazioni sul venditore o l’intermediario.
In base alle informazioni presenti e alla affidabilità della sorgente, viene calcolato un coefficiente di qualità o rank, che rappresenta in modo sintetico la completezza d’informazioni disponibili e l’affidabilità delle stesse.
Annunci validi
Nell’elaborazione delle quotazioni, sono utilizzabili solo gli annunci con informazioni sulla dimensione e sul prezzo. La superficie che dovrebbe essere indicata è quella definita come superficie commerciale[1], ma non c’è purtroppo alcuna garanzia che le dimensioni siano davvero coerenti con questo tipo di definizione o (più in generale) che i valori siano corretti. E’ però possibile un’analisi statistica che elimini i valori anomali o quelli di annunci non affidabili.
Per questo motivo nell’elaborazione delle quotazioni vengono esclusi annunci con valori troppo distanti dai valori correnti (con dimensioni o prezzi troppo alti o bassi), oltre che quelli con rank troppo basso (cioè poco affidabili). Vengono inoltre esclusi gli annunci che hanno quotazioni molto distanti dai valori OMI, almeno se superano (significativamente) il massimo possibile per l'intera città o al contrario sono (significativamente) inferiori al minimo cittadino.
Per concorrere alla stima delle quotazioni nelle singole zone, gli annunci devo ovviamente possedere informazioni sulla loro localizzazione, ulteriori rispetto al solo comune. Tra questi vengono utilizzati (oltre a quelli localizzati nella zona d’interesse) anche quelli che tramite l’indirizzo o la geolocalizzazione risultino vicini al centro di quella zona, ma con un peso che dipende dalla distanza ed è comunque inferiore a quello degli annunci localizzati in zona.
Il numero di annunci utilizzati nelle stime è indicato come numero di annunci validi. Si noti che le stime sono effettuate per ogni tipologia e (poiché un solo annuncio può riferirsi a diverse tipologie, anche se con coefficienti diversi), la somma degli annunci validi per ogni tipologia (in un determinato comune o zona) può certamente essere maggiore del numero di annunci complessivi (in quel comune o zona), ma anche inferiore, considerato che non tutti gli annunci sono annunci validi. Nelle singole zone il discorso è ulteriormente complicato dal fatto che possono concorrere alla determinazione delle quotazioni anche annunci non localizzati in quella zona, rendendo possibile (per quanto difficile per zone e comuni con molti annunci) che una quotazione per una singola zona e tipologia abbia un numero annunci validi superiore al numero complessivo di annunci per quella zona.
Duplicati
Si definiscono duplicati due annunci con differente sorgente che si riferiscono allo stesso immobile.
In fase d’indicizzazione gli annunci vengono analizzati alla ricerca di duplicazioni, in modo da accorpare tutti quelli afferenti allo stesso immobile. Considerato il numero di sorgenti disponibili, il fenomeno delle duplicazioni è estremamente importante: al momento su oltre 11 milioni di annunci, quelli univoci sono 2 milioni e seicentomila e cerchiamo sempre di migliorare gli algoritmi utilizzati per identificare i duplicati.
[1] Si veda ad esempio l’agenzia delle entrate.