Posizionamento nei Motori di Ricerca

INFO: TEL. 02/26.82.28.75 INTERNO 251

INDICIZZARE UN SITO NEI MOTORI DI RICERCA

Una volta entrati nella "lista d'attesa" dei siti da indicizzare, ed arrivato il nostro "turno", le nostre pagine web saranno esaminate da dei programmi automatici che svolgono funzioni molto simili ( anche per la loro ripetitività ) a quelle dei robot.

Parlare di "tecnologie" per quanto riguarda i motori di ricerca significa infatti anche parlare di spider : questi, detti anche " web crawler ", sono un tipo particolare di bot e precisamente sono dei bot che usano i motori di ricerca per catalogare e indicizzare le pagine.

Gli spider ( in italiano " ragni " ) sono comparsi per la prima volta sul Web nel 1993 con la nascita dei primi motori di ricerca: essi non fanno altro che risalire la " rete " Internet link dopo link alla ricerca di pagine web che poi, analizzate e filtrate dagli spider stessi, andranno a formare la banca dati del motore di ricerca.

Formata la banca dati, ad altri programmi è demandata invece la creazione e l'aggiornamento della "classifica" delle pagine visitate, sempre tuttavia basandosi sui dati prelevati dagli spider: quelle che maggiormente coincideranno con gli algoritmi di classificazione avranno, in relazione naturalmente ai termini oggetto di ricerca, un posto in classifica più alto all'interno del database e dunque un migliore posizionamento nella ricerca degli utenti.

Conoscere dunque il funzionamento degli spider significa soprattutto acquisire le nozioni di base da valutare nella creazione delle varie tipologie di informazioni da inserire in una pagina web ( ossia i meta tag, le parole chiave, ma anche i testi, i link ecc. ).

Le informazioni che possiamo allora raccogliere attorno al funzionamento degli spider sono spesso basate sul lavoro di monitoraggio continuo della classifica del proprio sito in presenza di variazione di alcuni elementi verso cui questi robot sono "sensibili", oppure accedendo semplicemente alle pagine in cui i motori di ricerca spiegano con brevi note la propria tecnologia.

Google è un motore di ricerca estremamente complesso: possiede diversi archivi e diversi tipi di spider. Una pagina visitata può apparire temporaneamente nei risultati delle ricerche per poi scomparire dopo qualche giorno.

Solitamente poi, le prime indicizzazioni non sono mai complete: si fermano nella stragrande maggioranza dei casi alle pagine di primo livello gerarchico, per poi diventare sempre più approfondite ( secondo livello, terzo livello ecc. ) solo nelle indicizzazioni successive; il PR a sua volta influenza notevolmente la "profondità" di analisi di una pagina web da parte di un motore di ricerca.

Questo comportamento è normale e il webmaster non ha modo di influenzare i tempi di archiviazione del motore di ricerca se non agendo sul PR.

Esistono fondamentalmente due tipi di " crawlerizzazione " ( cioè di analisi delle pagine web) da parte di Google:

  • Deep-Crawl : viene ri-scansionato tutto il web pagina per pagina, aggiornando indici, PageRank delle pagine e cache.

Dopo una Deep-crawl, Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter.

In questo periodo di tempo si parla di Google Dance perchè i risultati che escono possono essere diversi di volta in volta.

Dopo qualche giorno invece si stabilizzano.

  • Fresh-Crawl : viene fatta quasi tutti i giorni e in pratica aggiorna alcune pagine ( quelle con un certo PR, direi maggiore o uguale a 2 ) che già sono presenti nell'indice e aggiunge alcune pagine eventualmente create dopo l'ultima Deep-crawl.

Gli spider non si limitano esclusivamente a raccogliere indiscriminatamente ogni tipo di materiale; attraverso alcuni opportuni accorgimenti infatti ognuno di questi robot è programmato per distinguere, ai fini della classificazione, contenuti utili e contenuti non utili.

In particolare due sono i principali motivi che portano lo spider ad escludere alcuni contenuti: le cosiddette stop words e i contenuti ritenuti di spam .

Le stop words sono parole che, a seconda della loro entità, o bloccano lo spider, il quale potrà anche eliminare il sito dalla ricerca, oppure più semplicemente vengono ignorate e dunque rese inutili perché ritenute troppo comuni ( in questo caso si farebbe meglio a denominarle filter words ); il primo tipo di parole sono solitamente a carattere pornografico o altamente deleterio, mentre nella seconda tipologia rientrano alcune voci sintattiche superflue, come le congiunzioni, ovvero anche parole altamente abusate.

Gli spider, che per essere veloci e funzionali si comportano nella maggior parte dei casi come un browser di vecchia generazione stile lynx ( non può leggere frame, o codice non HTML ), solitamente possono essere riconosciuti verificando se nei log del proprio server figurano degli accessi da particolari zone o da precisi User Agent ( detti anche UA ). Per esempio "Slurp" , lo spider usato dal colosso della ricerca in Internet Inktomi ( che gestisce il database di HotBot e AOL ), usa un UA equivalente a "Slurp" seguito dal numero di versione e un range IP di connessione molto variabile (può essere il range IP 216.32.237.* oppure 209.185.143 ).

 

I bot di Google invece si chiamano " Googlebot " ed hanno queste caratteristiche:

Range di IP :

64.68.82.01 à 64.68.82.80

64.209.181.52 ( crawler1.googlebot.com )

•  ( crawl1.googlebot.com )

•  ( crawler2.googlebot.com )

•  à 209.185.253.188

La maggior parte degli User Agent si chiamano:

Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/) .

 

indicizzazione sui motori di ricerca
INFO: TEL. 02/26.82.28.75 INTERNO 251
posizionamento sui motori di ricerca
Web Master - 2f