A cosa serve il file robots.txt

Un file robots.txt serve a limitare l'accesso ai contenuti del vostro sito da parte degli spider dei motori di ricerca.

A volte è necessario impedire che alcune sezioni del vostro sito vengano indicizzate dai motori di ricerca. A tale scopo potete usare il file robots.txt.

Create un file di testo che chiamerete robots.txt. Al suo interno potreste inserire le seguenti istruzioni:


User-agent: *
Disallow: /cgi-bin
Disallow: /images
Disallow: /public

La regola User-agent serve per indirizzare le regole successive ad uno specifico spider di un motore di ricerca. In questo caso l'asterisco indirizza le regole a tutti gli spider.

La regola Disallow impedisce allo spider di indicizzare la directory o il file specificati di seguito. I percorsi vengono presi dalla root del vostro sito e come potete notare iniziano tutti con uno slash.

Il file robots.txt va caricato nella directory root del vostro sito. Si tenga presente, comunque, che alcuni spider maligni possono con facilità ignorare il file in questione, come ad esempio quei programmi che servono a copiare i siti in locale.

Una soluzione al problema della clonazione di fatto non esiste, o meglio, non è definitiva, in quanto dovreste costantemente aggiornare la lista degli User-Agent e reindirizzarli verso una pagina specifica.

Tenete inoltre presente che alcuni di questi programmi sono in grado di manipolare la loro identità al fine di sfuggire ai controlli.

Se volete disabilitare completamente l'indicizzazione del vostro sito, potete scrivere:


User-agent: *
Disallow: /