Seleziona una pagina

Regole Spider

Gli spider di Caasa leggono ed interpretano il file robots.txt secondo il Robots Exclusion Protocol del sito che stanno navigando per conoscere le (eventuali) restrizioni all'accesso che il proprietario ha impostato per i bot in generale o specificatamente per CaasaBot o CaasaImagesBot.

Tramite il file robots.txt è quindi possibile negare l'accesso ad alcune o a parte delle informazioni presenti su un sito, per uno o più bot.
E' importante considerare che il file robots.txt, deve trovarsi nella root di ogni singolo dominio o sottodominio; ad esempio il file http://www.caasa.it/robots.txt si riferisce al dominio www.caasa.it, mentre http://blog.caasa.it/robots.txt è relativo al blog e a tutti i suoi contenuti.

Il nome dello User Agent usato dallo spider di Caasa è "CaasaBot" quindi basta che nel file robots.txt venga indicata una sezione generica (UserAgent: *) o una sezione specifica con UserAgent "caasabot" perché lo spider apprenda quali sono i suoi permessi di navigazione.

Esiste anche un secondo spider utilizzato da Caasa per scaricare, scalare in modo ideale per la visualizzazione sul nostro portale ed estrarre informazioni sulla geolocalizzazione (se presenti) dalle immagini associate agli annunci. Tale scansione avviene in momenti distinti rispetto a quella dello spider "principale" ed è scorrelata dal punto di vista delle autorizzazioni da essa.

Lo User Agent utilizzato dallo spider delle immagini è "CaasaImagesBot": per limitare la scansione è necessario quindi impostare una direttiva generica od una specifica per lo User Agent "caasaimagesbot".

CaasaBot e CaasaImagesBot riconoscono la direttiva "Disallow: percorso", ma  NON riconoscono invece la direttiva "Allow: percorso".

Share This