Posizionamento nei Motori di Ricerca

INFO: TEL. 02/26.82.28.75 INTERNO 251

HOME

MOTORI DI RICERCA

CHI SIAMO

COME NON FARSI INDICIZZARE DA GOOGLE

Può anche nascere l’esigenza di NON farsi trovare da Google (o dai vari motori di ricerca).
Essendo i metodi di indicizzazione automatici ( abbiamo visto che può bastare un backlink di una pagina indicizzata per essere “catturati” ), bisogna usare alcuni accorgimenti per rimanere in incognito o totalmente o solo per alcune pagine a nostra scelta.

Si possono usare due modi: usare il file robots.txt o agire sull’<head> delle singole pagine.
Il file robots.txt è un semplicissimo file di testo ( può essere creato con notepad ) che, nella sua forma ideale, dovrebbe contenere semplicemente due campi:

User-agent e Disallow.

Il primo campo serve a definire quale bot ( bot significa robot sprovvisti di fisicità ) dovrà essere escluso, il secondo definisce da quale zona del sito escluderlo.
Tipicamente i due campi sono composti in questo modo e separati da un "a capo":

User-Agent: Googlebot
Disallow: /

In questo esempio il file robots.txt escluderà dalla visita dell'intero sito ( lo slash identifica la radice del sito e dunque la sua interezza ). Lo user agent è Googlebot, ossia lo spider di Google.
Il file Robots.txt accetta anche il parametro di commento identificato dal simbolo di cancelletto #.

Tutto ciò che seguirà il cancelletto sarà interpretato dallo user agent come un commento e dunque ignorato.
Il file robots.txt andrà poi inserito nella radice del sito, nella stessa posizione in cui compare la index dell'homepage, e dovrà dunque essere visibile digitando http://www.nomesito.it/robots.txt .
Ogni user agent è identificato solitamente da un nome univoco che lo rende riconoscibile al web server del sito.

Explorer 6 montato su Windows 2000, ad esempio, si identifica con la dicitura:

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Q312461)

Un elenco molto utile di user agent è reperibile su Siteware. Sapendo quale software sta visitando il sito, il webmaster può costruire pagine ottimizzate per i differenti user agent, oppure, ed è quello che a noi interessa, escluderne alcuni dall'accesso al sito.
Solitamente si tende a non escludere tutto il sito dall’indicizzazione, ma solo le directory con contenuti che non si vogliono rendere pubblici, come le pagine di amministrazione, le pagine ad uso interno, ecc.

Se ad esempio vogliamo escludere le directory /cgi-bin/ /admin/ e /privata/ ad ogni bot ( l’esterisco significa appunto “tutti” ) basterà inserire i seguenti campi:

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /privata/

E’ anche possibile impedire l’accesso ad uno specifico bot nel nostro sito e solo a quello.

Escludiamo ad esempio il bot di Netmechanic, il sito che offre servizi di controllo di siti Web cui non siamo interessati:

User-agent: NetMechanic
Disallow: /

A questo punto non ci rimarrà che salvare il file come robots.txt, collegarci al server che ospita il nostro sito e uploadare il file nello stesso posto della homepage.
L’elasticità del file robots.txt è dunque assoluta: possiamo decidere di escludere chi vogliamo dalle pagine che vogliamo.
E’ anche possibile verificare la validità del file grazie a molti servizi di validazione robots.txt sparsi nel web.
Il secondo modo possibile di esclusione consiste nell’inserire nell’ <head> di tutte le pagine che vogliamo tener nascoste ai motori il tag:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

L’esempio è stato pensato per escludere la pagina dall’indicizzazione di ogni bot, tuttavia si può anche essere più specifici ( come nel caso robots.txt ) andando a specificare chi escludere come nell’esempio:

<meta name="GOOGLEBOT" content="NOINDEX, NOFOLLOW">

Il tag “meta name” può anche essere usato per impedire a Google di tenere una cache delle nostre pagine:

<meta name="GOOGLEBOT" content="NOARCHIVE">

RISORSE FREE

GUIDE E MANUALI

TOOLS E UTILITY

FORUM COMMUNITY

INFO: TEL. 02/26.82.28.75 INTERNO 251

Web Master - 2f- web wiz