Porady
Przeszukując przestrzeń
PC Format 9/2013

Choć Google stał się synonimem wyszukiwania, warto pamiętać, że nie jest jedyny. Wiele serwisów, takich jak Wolfram Alpha czy DuckDuckGo, oferuje funkcje, których próżno szukać u giganta. Dlatego warto poznać możliwości alternatywnych wyszukiwarek i zacząć ich używać w codziennej pracy. BARTŁOMIEJ MROŻEWSKI

Google oraz alternatywne wyszukiwarki docierają do najdalszych zakątków internetu. Tam, dokąd nie dotarł jeszcze nikt, poza autorem danej strony.

Roboty indeksujące

Analizą internetu i wydobywaniem treści zajmują się wyspecjalizowane programy – roboty indeksujące, nazywane niekiedy pająkami. Po wejściu na stronę pobierają jej treści, potem wyszukują wszystkie linki i otwierają je. Powtarzając tę procedurę na każdej napotkanej stronie, są w stanie dotrzeć do najdalszych zakątków internetu, oczywiście tak długo, dopóki znajdujące się w nich strony są choć raz zlinkowane. Współczesne roboty indeksujące są inteligentne. Wiedzą na przykład, które strony są aktualizowane często, i te odwiedzają co kilka minut. Dzięki temu treść najnowszych artykułów jest dostępna w wyszukiwarce.

Czy zatem wszystko, co jest w sieci, jest dostępne w wyszukiwarce? Otóż nie. Każdy właściciel strony może utworzyć plik robots.txt, w którym określa, jakie obszary witryny mają być pominięte przez mechanizm indeksujący, a tym samym, co ma nie być dostępne w wyszukiwarce. Niektóre serwisy, takie jak Facebook czy Twitter, zazdrośnie strzegą swoich zasobów i nie są dostępne w wyszukiwarce. To samo dotyczy zawartości rozmaitych baz danych, które są dostępne za pośrednictwem interfejsu WWW, w którym można formułować kwerendy. Dotyczy to np. katalogów bibliotek czy baz z połączeniami lotniczymi i kolejowymi, które można przeszukiwać tylko za pomocą specjalnych wyszukiwarek.

Analiza treści

Gdy robot „przeczyta” stronę, od razu analizuje jej treść. Nie tylko wydobywa wszystkie słowa, ale także stara się odnaleźć ich kontekst. Sprawdza, czy tekst jest w tytule, nazwie linku, czy jest wyróżniony w inny sposób. Ważnym elementem analizy jest sprawdzanie metainformacji, czyli treści przeznaczonej tylko dla robotów oraz innych programów, ale niewidocznej dla użytkownika. Oprócz słów kluczowych umieszczonych w początkowej sekcji strony HTML, są to np. znaczniki semantyczne. W specyfikacji HTML 5 jest cały zbiór tagów semantycznych, takich jak

,
,


Zobacz również