WordPress: uso del file robots.txt

WordPress: uso del file robots.txt

Uno dei segreti per evitare di avere spiacevoli sorprese utilizzando un motore di ricerca è quello di impostare un file robots.txt per il nostro sito in WordPress. Per spiacevoli sorprese intendo il vedere indicizzati dei contenuti che volevamo tenere riservati. Vediamo come impostare questo tipo di file.

Create un file di testo che chiamerete robots.txt. Al suo interno potreste inserire le seguenti istruzioni:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

La regola User-agent serve per indirizzare le regole successive ad uno specifico spider di un motore di ricerca. In questo caso l'asterisco indirizza le regole a tutti gli spider.

La regola Disallow impedisce allo spider di indicizzare la directory o il file specificati di seguito. I percorsi vengono presi dalla root del vostro sito e come potete notare iniziano tutti con uno slash.

Il file robots.txt va caricato nella directory root del vostro sito. Si tenga presente, comunque, che alcuni spider maligni possono con facilità ignorare il file in questione, come ad esempio quei programmi che servono a copiare i siti in locale.

Una soluzione al problema della clonazione di fatto non esiste, o meglio, non è definitiva, in quanto dovreste costantemente aggiornare la lista degli User-Agent e reindirizzarli verso una pagina specifica.

Tenete inoltre presente che alcuni di questi programmi sono in grado di manipolare la loro identità al fine di sfuggire ai controlli.

Torna su