Wyszukiwanie

ITpedia

W sieci WWW znajduje się olbrzymia liczba dokumentów, programów i innych obiektów. Dlatego znalezienie konkretnej informacji nie jest sprawą prostą. Narzędziami ułatwiającymi to zadanie są wyszukiwarki, które pozwalają przeszukiwać zawartość stron WWW, a także innych obiektów, np. dokumentów tekstowych lub graficznych.

Działanie wyszukiwarki możemy podzielić na dwa równoległe procesy.

  • Z jednej strony agent (spider, crawler, robot) odwiedza strony w sieci WWW, przeglądając ich zawartość i zapisując informacje o tych stronach w bazie danych (zasobach wyszukiwarki). Strony już zapisane są regularnie odwiedzane przez agenta (np. raz w miesiącu) w celu ich aktualizacji.
  • Drugi niezależny proces sortuje zgromadzone informacje, po czym możliwe staje się przeszukanie zasobów wyszukiwarki według słów kluczowych – pojedynczych lub ich kombinacji.

Duże zapotrzebowanie na ten rodzaj usług doprowadziło do powstania metaserwisów, które nie dysponują własnymi katalogami zasobów, lecz zdobywają informacje o zasobach dużych wyszukiwarek. Podstawę działania wyszukiwarek stanowi oprogramowanie zajmujące się katalogowaniem zasobów. Działanie takiego oprogramowania opiera się na w pełni automatycznym przetwarzaniu zawartości stron WWW, w wyniku którego w bazie danych serwisu zostaje dokonany wpis zawierający adres strony oraz słowa kluczowe dobrane na podstawie zawartości dokumentu. Jeśli dokument HTML zawiera odnośniki do innych dokumentów – te dokumenty są również przetwarzane.

Ponieważ algorytmy określania zawartości dokumentów okazywały się mało wydajne, w języku HTML wprowadzono metaznaczniki (metatags), pozwalające autorowi dokumentu ustalać słowa kluczowe odpowiednie dla danego dokumentu. Metaznaczniki mogą zawierać słowa kluczowe nie pojawiające się przy wyświetlaniu strony, ale dostępne dla agenta wyszukującego, co zwiększa prawdopodobieństwo sukcesu przy wyszukiwaniu. Informacje zawarte w metaznacznikach są traktowane przez agenta jako istotniejsze od treści dokumentu (mechanizm ten jest zresztą powszechnie nadużywany przez wprowadzanie popularnych słów kluczowych luźno związanych czy wręcz nie związanych z treścią dokumentu). Coraz szerzej wprowadza się również wyszukiwanie na podstawie zapytań sformułowanych w języku naturalnym.

Nowe podejście prezentuje standard XML, przenoszący akcent z aspektu prezentacyjnego (jak strona ma wyglądać w przeglądarce) na aspekt zawartości informacyjnej (jakie dane zawiera dokument). Takie podejście znakomicie ułatwia m.in. przeszukiwanie i katalogowanie dokumentów. Wyszukiwarki, umożliwiające przeprowadzenie szczegółowego wyszukiwania dokumentów zapisanych w języku XML, są coraz powszechniejsze w Internecie.

Ogromna liczba stron WWW oraz gwałtowny przyrost zasobów informacyjnych sprawiają, że nawet najbardziej zaawansowane narzędzia mają trudności z wytypowaniem właściwych stron WWW.

Sposobem na zwiększenie szansy znalezienia poszukiwanej informacji w sieci WWW są wyszukiwarki wyspecjalizowane. Zasadniczą różnicą między wyszukiwarką wyspecjalizowaną a zwykłą jest zawartość ich zasobów. Wyszukiwarka wyspecjalizowana zawiera w katalogu łączniki tylko do takich stron, które odpowiadają profilowi danej wyszukiwarki.

Innym sposobem na efektywniejsze wyszukiwanie informacji są wyszukiwarki nowej generacji. Oprogramowanie sortujące tych wyszukiwarek decyduje o trafności wyboru odpowiednich linków z bazy danych na podstawie pewnych algorytmów.

  • Jednym ze sposobów jest obliczanie, ile razy dana strona była odwiedzana przez użytkowników i jak długo użytkownicy pozostawali na tej stronie (wg założenia, że strona lepsza jest częściej odwiedzana przez użytkowników).
  • Drugim sposobem jest wyznaczenie trafnej strony na podstawie liczby linków prowadzących do tej strony z serwisów „autorytatywnych” (zawierających odpowiednio duży zasób wartościowych informacji na poszukiwany temat).
Popularne wyszukiwarki:
Przykład metaserwisu:
Przykład wyszukiwarki wyspecjalizowanej - serwis MP3:
Wyszukiwarki nowej generacji:
-
-