W sieci WWW znajduje się olbrzymia liczba dokumentów, programów i innych obiektów. Dlatego znalezienie konkretnej informacji nie jest sprawą prostą. Narzędziami ułatwiającymi to zadanie są wyszukiwarki, które pozwalają przeszukiwać zawartość stron WWW, a także innych obiektów, np. dokumentów tekstowych lub graficznych.
Działanie wyszukiwarki możemy podzielić na dwa równoległe procesy.
Duże zapotrzebowanie na ten rodzaj usług doprowadziło do powstania metaserwisów, które nie dysponują własnymi katalogami zasobów, lecz zdobywają informacje o zasobach dużych wyszukiwarek. Podstawę działania wyszukiwarek stanowi oprogramowanie zajmujące się katalogowaniem zasobów. Działanie takiego oprogramowania opiera się na w pełni automatycznym przetwarzaniu zawartości stron WWW, w wyniku którego w bazie danych serwisu zostaje dokonany wpis zawierający adres strony oraz słowa kluczowe dobrane na podstawie zawartości dokumentu. Jeśli dokument HTML zawiera odnośniki do innych dokumentów – te dokumenty są również przetwarzane.
Ponieważ algorytmy określania zawartości dokumentów okazywały się mało wydajne, w języku HTML wprowadzono metaznaczniki (metatags), pozwalające autorowi dokumentu ustalać słowa kluczowe odpowiednie dla danego dokumentu. Metaznaczniki mogą zawierać słowa kluczowe nie pojawiające się przy wyświetlaniu strony, ale dostępne dla agenta wyszukującego, co zwiększa prawdopodobieństwo sukcesu przy wyszukiwaniu. Informacje zawarte w metaznacznikach są traktowane przez agenta jako istotniejsze od treści dokumentu (mechanizm ten jest zresztą powszechnie nadużywany przez wprowadzanie popularnych słów kluczowych luźno związanych czy wręcz nie związanych z treścią dokumentu). Coraz szerzej wprowadza się również wyszukiwanie na podstawie zapytań sformułowanych w języku naturalnym.
Nowe podejście prezentuje standard XML, przenoszący akcent z aspektu prezentacyjnego (jak strona ma wyglądać w przeglądarce) na aspekt zawartości informacyjnej (jakie dane zawiera dokument). Takie podejście znakomicie ułatwia m.in. przeszukiwanie i katalogowanie dokumentów. Wyszukiwarki, umożliwiające przeprowadzenie szczegółowego wyszukiwania dokumentów zapisanych w języku XML, są coraz powszechniejsze w Internecie.
Ogromna liczba stron WWW oraz gwałtowny przyrost zasobów informacyjnych sprawiają, że nawet najbardziej zaawansowane narzędzia mają trudności z wytypowaniem właściwych stron WWW.
Sposobem na zwiększenie szansy znalezienia poszukiwanej informacji w sieci WWW są wyszukiwarki wyspecjalizowane. Zasadniczą różnicą między wyszukiwarką wyspecjalizowaną a zwykłą jest zawartość ich zasobów. Wyszukiwarka wyspecjalizowana zawiera w katalogu łączniki tylko do takich stron, które odpowiadają profilowi danej wyszukiwarki.
Innym sposobem na efektywniejsze wyszukiwanie informacji są wyszukiwarki nowej generacji. Oprogramowanie sortujące tych wyszukiwarek decyduje o trafności wyboru odpowiednich linków z bazy danych na podstawie pewnych algorytmów.
| Popularne wyszukiwarki: |
|
| Przykład metaserwisu: |
| Przykład wyszukiwarki wyspecjalizowanej - serwis MP3: |
| Wyszukiwarki nowej generacji: |
|