|
APPROFONDIMENTI
PRODOTTI
Hardware
Software
Reti
ADSL
Normative
Sicurezza
SERVIZI
Hosting/Housing
Registrazione Domini
Web Design
Motori di Ricerca
|
 |
AREA
TECNICA - MOTORI
DI RICERCA
Motori
di ricerca: definizione
I
motori di ricerca nascono e si sviluppano per rimediare alle
conseguenze della crescita esponenziale del web: per ricercare
quindi informazioni particolari nel quasi infinito numero di
documenti presenti nella Rete.
Difficile stabilire con esattezza il numero dei motori di ricerca attivi
in tutto il
mondo: ogni giorno ne compaiono di nuovi e altri, anche fra quelli
più noti, scompaiono. Alcuni siti Internet offrono elenchi di motori con
quasi 2000 possibilità di scelta, ma è credibile che la cifra
ormai si attesti sui 7000.
A prescindere dal loro numero, però, solamente una fetta esigua
possiede una reale importanza in termini di visibilità internazionale o di
reale utilità nelle informazioni fornite: 10 - 12 motori superano la
soglia del 10% dell'audience mondiale, ed escludendo le guide a
indice, solo 6 - 7 motori vanno oltre la soglia del 10%.
Ogni motore di ricerca è formato da tre elementi fondamentali:
-
un
robot (spider o crawler, ecc) che ricerca
le pagine da indicizzare
-
un
indice
che raccoglie tutte le pagine memorizzate
-
un
database
che fornisce le risposte (output) per ogni ricerca effettuata (query)
con delle parole chiave
Il
robot è un programma che attraversa la struttura ipertestuale del Web
alla ricerca di nuovi documenti e controlla periodicamente
quelli già archiviati. Generalmente agisce in base alle richieste
ricevute
dagli autori dei documenti stessi. Esso basa i suoi criteri di
ricerca generalmente sulle liste e sui links che trova nelle pagine dei siti: innanzitutto
quindi liste di URL precompilate e relative a documenti
particolarmente ricchi di links, partendo da siti ritenuti molto
rilevanti e/o molto visitati, siti recenti o che segnalano ciò che
c'è di nuovo nella Rete, archivi
pubblici, ecc. L'altro criterio fondamentale è quello di visitare le pagine segnalate
direttamente dagli autori. A questo punto la pagina visitata dal
robot viene catalogata in un indice, nel quale il motore di ricerca
andrà a cercare i documenti ogni volta che gli verrà fatta
richiesta. La catalogazione è accompagnata da una descrizione dei contenuti del sito
indicizzato.
Maggiori informazioni su quasi 300 fra i più noti robots ed il loro
funzionamento su "The
Web Robots Pages".
Dopo aver distinto tra le due grandi classi (motori e guide ad
indice), è possibile effettuare una distinzione più approfondita
dei motori di ricerca:
I motori
puri sono sicuramente la categoria più nota e diffusa: ne fanno
parte i cataloghi più grandi, come Google, Altavista, HotBot,
Northern Light, ed arrivano ad indicizzare anche miliardi di pagine
(Google ne indicizza 3,083,324,652 in data 4 gennaio 2003).
I metamotori motori danno
risultati provenienti da altri motori, senza poter raffinare troppo
la ricerca, ma dando una visione ampia e generica di cosa c'è su
internet riguardo ad un dato argomento.
I motori in lingua naturale, infine, non fanno riferimento come le
altre due categorie agli operatori booleani ("and", "or",
ecc.) tipici dei database, ma cercano di comprendere il significato
intero di una frase, ma chiaramente sono motori ancora in fase sperimentale.
Esistono anche dei motori di ricerca ibridi, cioè che associano al
loro database anche una guida a indice, e sono una tipologia che sta
iniziando a diffondersi.
|