Wyszukiwanie informacji w internecie jest calkiem proste, chociaz na pierwszy rzut oka moze wydawac sie, ze znalezienie tam czegokolwiek graniczy z cudem. Jak bowiem sposrod milionow internetowych stron (co najmniej 275 milionow wedlug danych firmy Digital z marca 1998), dziesiatkow tysiecy grup dyskusyjnych oraz niezliczonej ilosci baz danych odszukac te jedna, jedyna informacje, ktora jest nam w danym momencie niezbedna. To tak jak szukac igly w stogu siana. Z duza doza prawdopodobienstwa mozemy zalozyc, ze informacja, ktorej szukamy jest umieszczona w tej niezliczonej ilosci danych opublikowanych w globalnej sieci. Problem tylko w tym, ze dopoki nie jest ona poprawnie skatalogowana, nie bedzie nam tak latwo do niej dotrzec.
Pomoca sluza nam tak zwane "wyszukiwarki". Jest to bardzo ogolny termin zawierajacy w sobie wszystkie serwisy sluzace do wyszukiwania informacji. I jakkolwiek cel jest wspolny dla wszystkich serwisow, to zasady ich dzialania sa rozne, a wiec i wynik naszych poszukiwan moze sie roznic znaczaco w zaleznosci od tego z ktorego serwisu skorzystamy. Sprobujmy wiec uporzadkowac nasza wiedze o "internetowych szperaczach". Dziela sie one na cztery glowne kategorie:
1. Search engine - "Szperacze"
Najlepszym przykladem search engine jest serwis firmy Digital - AltaVista. Wyszukiwanie informacji polega na wprowadzeniu slow kluczowych (keywords), ktore opisuja informacje przez nas poszukiwana. Slowa te przesylane sa do bazy danych i w odpowiedzi uzyskujemy liste internetowych stron na ktorych wystepuja slowa o ktore pytalismy.
2. Search directory -
W serwisach tego typu wyszukiwanie informacji polega na przeszukiwaniu bazy danych wedlug okreslonego tematu.
3. Directory/search engine - Katalogi/wyszukiwarki
Typowymi przykladami takiego serwisu sa Yahoo, Excite, Infoseek. Lacza one w sobie obydwie wyzej opisane metody wyszukiwania konkretnej informacji. Jestesmy w stanie stopniowo zawezac temat naszych poszukiwan, za kazdym razem dostajac bardziej specyficzne opcje do wyboru. W kazdym momencie naszych poszukiwan mozemy tez wpisac slowa kluczowe.
4. Multiengine - Ultrawyszukiwarki
All-in-one, Mamma, Metacrawler oraz SavvySearch to najbardziej znane serwisy tego typu. Serwisy te potrafia samoczynnie polaczyc sie z kazda znana im wyszukiwarka, powtorzyc im to samo pytanie, ktore otrzymaly od nas, a nastepnie przesortowac odpowiedzi eliminujac powtorzenia i przekazac je nam w postaci uporzadkowanego zbioru. Jako wynik naszych poszukiwan otrzymujemy kilka list stron z roznych przeszukiwarek (search engines) albo jedna liste stanowiaca kompilacje pracy wszystkich zatrudnionych search engines. Wyszukiwanie informacji polega tu oczywiscie na wprowadzeniu slow kluczowych.
Jak dzialaja Search Engines ?
Search Engines (szperacze) skonstruowane sa z trzech glownych elementow. Pierwszy z nich to tzw. spider (pajak). Jest to program, ktory nieustannie odwiedza internetowe serwery na ktorych umieszczone sa strony i wczytuje je do swojej pamieci. Kryteria jakimi kieruja sie tego typu programy moga byc bardzo rozne. Niektore z nich zapisuja tylko tytul strony i jej adres, inne wczytuja cala strone jak rowniez wszystkie umieszczone na niej odnosniki (links). Spider regularnie powraca do strony sprawdzajac jakie nastapily na niej zmiany. Wszystkie informacje zarejestrowane przez program typu spider, przekazywane sa do tzw. indeksu (index).
Index, swoistego rodzaju spis tresci, jest drugim elementem wyszukiwarki, w ktorym na stale zapisywane sa informacje o wszystkich stronach odwiedzonych przez program typu spider.
Trzecim elementem jest program wyszukiwania informacji, ktory w momencie otrzymania pytania od uzytkownika, przeglada miliony stron zarejestrowanych w indeksie i po znalezieniu wlasciwych ustawia je w kolejnosci, ktora spelnia najwieksza liczbe zadanych kryteriow.
Search Engines bez watpienia sa jednym z najbardziej uzytecznych narzedzi w internecie. Bez nich moglibysmy bez konca przegladac internetowe zasoby w nadziei przypadkowego znalezienia na nich poszukiwanej informacji.
Jak powstaja katalogi?
Nie ma jeszcze programu, ktory bylby w stanie bezblednie powiedziec "co autor mial na mysli". Z tego glownie powodu katalogi powstaja w wyniku zmudnego wstukiwania na klawiaturze informacji o internetowych stronach i zapisywania ich w odpowiednich kategoriach. Jezeli chcemy zeby nasza strona znalazla sie w zbiorach internetowych katalogow, musimy ja sami tam umiescic korzystajac ze specjalnej formy danego katalogu lub skorzystac z serwisow, ktore za odpowiednia oplata zrobia to za nas. Pisalem o tym w artykule pt. "Jak promowac internetowa strone?" w grudniu 1997. Niewatpliwa zaleta tego typu serwisow jest ich duzo wieksza dokladnosc w porownaniu z wyszukiwarkami i proste zasady obslugi. Wada katalogow jest znacznie skromniejsza liczba odnosnikow do stron zawierajacych informacje na dany temat.
Jak szukac?
Najprostsza metoda to wpisac w odpowiednie pole haslo, ktorego szukamy i nacisnac klawisz "Enter". Co jednak zrobic gdy w odpowiedzi dostaniemy liste kilku milionow stron na ktorych umieszczone jest poszukiwane przez nas haslo. Przeciez nie sposob obejrzec ich wszystkich. Musimy wiec sprecyzowac nasze pytanie tak, zeby w odpowiedzi uzyskac jak najdokladniejszy wynik, poprzez maksymalne ograniczenie obszaru naszych poszukiwan. Osiagniemy to dzieki stosowaniu w pytaniach operatorow logicznych.
Algebra Boole"a
Sformulowane w dziewietnastym wieku przez angielskiego matematyka Georga Boole"a podstawy logiki sa ciagle najpopularniejsza metoda precyzyjnego konstruowania logiki pytania. Uzywajac odpowiednich operatorow w naszym pytaniu, definiujemy bardzo precyzyjnie odpowiedz, ktora chcemy otrzymac. Operatory logiczne stosowane sa powszechnie w wiekszosci serwisow wyszukiwawczych. Ponizej przedstawiam najczesciej stosowane. Nie wszystkie z nich sa uzywane przez serwisy wyszukiwawcze, wiec warto wczesniej upewnic sie jakie stosuje serwis z ktorego uslug korzystamy.
AND
- operator okreslajacy nam, ze oba polaczone slowa musza pojawic sie w wyniku odpowiedzi na nasze pytanie. Czesto analogiczna funkcje pelni znak
"+"
.
Przyklad:
wpisanie slow
Warszawa AND Chicago odszuka tylko dokumenty zawierajace w tekscie oba te slowa.
OR
- przynajmniej jedno z polaczonych tym operatorem slow musi wystapic w odpowiedzi.
Przyklad:
wpisanie slow
Warszawa OR Chicago odszuka dokumenty zawierajace slowo
Warszawa lub slowo
Chicago. Odszukane dokumenty moga zawierac tez oba te slowa.
NOT
- uzywany przed slowem, ktorego nie chcemy zobaczyc w odpowiedzi. Musi byc uzyty jako kombinacja z operatorami
AND lub
OR. Uzycie znaku
"-"
daje analogiczne wyniki.
Przyklad:
wpisanie slow
samochod AND NOT Ford odszuka dokumenty zawierajace slowo
samochod lecz nie zawierajace slowa
Ford.
NEAR
- okresla slowa, ktore maja pojawic sie w sasiedztwie. W niektorych wyszukiwarkach mozemy podac parametr definiujacy obszar sasiedztwa do np. 10 slow. Nie jest to operator logiczny, lecz raczej parametr wprowadzony przez
AltaViste.
Przyklad:
wpisanie hasla
John NEAR Kennedy odszuka nam dokumenty zawierajace imie John Kennedy, John Fitzgerald Kennedy, John F. Kennedy, Kennedy, John.
" "
- w ten sposob mozemy sformulowac pytanie o wielowyrazowe frazy.
Przyklad:
wpisanie sentencji
"Jeszcze Polska nie zginela" odszuka dokumenty zawierajace dokladnie te wyrazy w tak podanej kolejnosci.
*
- uniwersalny znak zastepujacy dowolna ilosc innych znakow. Funkcjonuje tak jak Jocker w kartach.
Przyklad:
wpisujac jako slowo kluczowe
Elvi*, mozemy w odpowiedzi otrzymac zbior stron na ktorych wystepuja slowa
Elvis, Elvira, itp.
Najpopularniejsze serwisy
W sieci internet istnieje ponad 2,000 przeroznych serwisow wyszukujacych informacje. Wiekszosc z nich to wysoce specjalistyczne serwisy skierowane do konkretnego uzytkownika.
Przedstawione ponizej to najbardziej popularne, ogolnie dostepne i, co wazniejsze, zupelnie bezplatne serwisy wyszukiwawcze w sieci internet.
AltaVista Search
www.altavista.digital.com
Serwis firmy
Digital jest jednym z najwiekszych tego typu w internecie. Dziennie odpowiada na ponad 14 milionow pytan. Oferuje wyszukiwanie informacji w zasobach WWW lub grupach nowosci sieciowych
(Usenet) w dwoch trybach: prostym lub zlozonym. Wyszukiwanie proste polega na wpisaniu do odpowiedniego pola slow kluczowych. W trybie zlozonym nalezy wybrac opcje
"Advanced Search", rowniez wpisujemy slowa kluczowe laczac je odpowiednimi operatorami.
AltaVista oferuje nam mozliwosc ograniczenia naszych poszukiwan do okreslonych obszarow sieci; miedzy innymi mozemy poszukiwac informacji zawartych tylko w odsylaczach
(hyperlinks), tytule strony, nazwie domeny, adresie
URL itp. Mozemy takze wyszukiwac dokumenty zawierajace plik graficzny o podanej nazwie lub
applet Javy wedlug tekstu zawartego w jego opisie.
Serwis AltaVista oferuje rowniez wyszukiwanie w kilkunastu roznych jezykach, miedzy innymi tez i w jezyku polskim. Indeks AltaVisty zawiera ponad 60GB danych. Dla porownania, wszystkie teksty opublikowane w naszej gazecie mozna zmiescic w calosci na jednej dyskietce (tj. 1.44MB) i jeszcze zostanie nam duzo wolnego miejsca. Funkcjonuje powiedzenie, ze jezeli tego czego szukamy nie znajdzie AltaVista, to widocznie w internecie tego po prostu nie ma.
HotBot
www.hotbot.com
To bardzo szybki i podobno najbardziej wydajny serwis wyszukujacy. Nic dziwnego: jego baza danych zawiera prawie 60 milionow zindeksowanych stron. Szybkosc serwisu gwarantuje wykorzystanie technologii
Inktomi. W internecie istniej od 1996 roku. Oprocz wielu standardowych opcji oferuje przeszukiwanie zasobow wedlug regionow geograficznych oraz znajdowanie stron stworzonych w danym przedziale czasu.
Excite
www.excite.com
Jest bardzo sprawnym i szybkim serwisem pomocnym przy prostym wyszukiwaniu slowa kluczowego, jednak w opinii fachowcow niezadowalajacym przy skomplikowanych poleceniach. Przy kazdym odnalezionym dokumencie mozemy dodatkowo wybrac funkcje dalszego wyszukiwania
(More like this), wedlug slow kluczowych opisujacych dana strone.
Ciekawostka dla uzytkownikow sieci AOL (America on Line) bedzie fakt, ze jej szperacz AOL NetFind, pomimo nieco innej szaty graficznej jest dokladnie tym samym serwisem co Excite.
Yahoo!
www.yahoo.com
To najstarszy i najpopularniejszy internetowy katalog. Jedno z najlepszych miejsc do rozpoczecia naszych poszukiwan czegokolwiek. Bardzo prosty i intuicyjny interfejs graficzny pozwala na latwe dotarcie do poszukiwanych informacji. Na stronie glownej serwisu umieszczonych jest kilkanascie glownych kategorii katalogu. Wystarczy wybrac interesujaca nas kategorie, co spowoduje wyswietlenie na ekranie kolejnej listy podrzednych kategorii. Postepujac w analogiczny sposob mozemy w koncu dotrzec do interesujacego nas zagadnienia.
Yahoo! oferuje nam rowniez mozliwosc przeszukiwania wlasnego katalogu, a jezeli nic tam nie znajdziemy, mozemy sprobowac szczescia w szperaczu
AltaVista. Od niedawna oba te serwisy scisle ze soba wspolpracuja.
Lycos
www.lycos.com
Serwis bardzo podobny do wspomnianego wyzej Yahoo!, ale mniejszy i mniej znany. Moze dzieki temu dziala o wiele szybciej. Inne zalety to duza aktualnosc danych oraz sposob sortowania informacji. W znalezionych dokumentach wyroznia slowa kluczowe. Pokazuje 5% najwazniejszych adresow w WWW.
MetaCrawler
www.metacrawler.com
Nie posiadajac wlasnej bazy informacji o sieci wyszukiwarka ta korzysta z danych najpopularniejszych internetowych serwisow wyszukiwawczych. Wysylajac pytanie do
MetaCrawler posrednio kierujemy je jednoczesnie do
Yahoo!, WebCrawler, AltaVista, Excite, Infoseek i
Lycos. Obok popularnych funkcji precyzowania pytan,
MetaCrawler pozwala nam takze ograniczyc obszar poszukiwan ze wzgledu na kraj. Mozemy tez zdefiniowac ilosc odpowiedzi jaka chcemy uzyskac od kazdego z wykorzystywanych serwisow glownych.
Wyszukiwarki polskie.
W Polsce pierwsze katalogi powstaly w 1995 roku. Wkrotce potem pojawily sie automatyczne szperacze. Ponizej przedstawiam Panstwu najwazniejsze polskie serwisy wyszukujace informacje w sieci internet.
Wirtualna Polska
www.wp.cnt.pl
Jest chyba najpopularniejszym tego typu serwisem w Polsce. Na poczatku funkcjonowal jako prosty katalog. Obecnie oferuje rowniez "szperacza" przeszukujacego zawartosc polskich serwerow. Na duza popularnosc
Wirtualnej Polski niewatpliwie mialo wplyw prowadzenie calej gamy roznych serwisow. Jednym z nich jest
"Nieustajaca Lista Przebojow WWW", w ktorej internauci glosuja na najlepsze ich zdaniem polskie strony.
OptimusNET
www.onet.pl
To katalog i wyszukiwarka prowadzona przez firme
Optimus. W poszukiwaniach mozna stosowac polskie znaki diakrytyczne. Tak jak w przypadku
Wirtualnej Polski dodatkowe serwisy zwiekszaja popularnosc
OpimusNET.
WOW!
www.wawa.wow.pl
www.nyc.wow.pl
www.uk.wow.pl
Przeszukiwarka ta funkcjonuje na trzech serwerach w Warszawie, Londynie i w Nowym Jorku. W swoim katalogu umieszcza strony polskie i polonijne, publikowane w jezyku polskim.
WOW! prowadzi rowniez codzienne serwisy informacyjne
"Prosto z Polski" i
"Serwis Polonii". Reklamuje sie jako
"Polskie Yahoo!"
Wszystkie powyzsze polskie serwisy to glownie katalogi uzupelnione funkcja wyszukiwawcza. Istnieja tez w Polsce serwisy, ktore spelniaja role typowych search engines (szperaczy).
Dwa najwazniejsze to:
NEToscop
www.chip.pl
Jest prowadzony przez pracownikow wydawnictwa
Chip. Stanowi wyszukiwarke tylko polskich dokumentow w sieci. Silna zaleta serwisu jest mozliwosc wyszukiwania informacji az w pieciu roznych standardach kodowania polskich znakow diakrytycznych.
Infoseek PL
www.infoseek.icm.edu.pl
Jest polskim odpowiednikiem popularnego serwisu
Infoseek (www.infoseek.com).
Polski Infoseek zawiera w sobie informacje o ponad milionie stron WWW. Program
spider tego serwisu bezustannie indeksuje nowe strony, ale tylko te, ktore zarejestrowane sa z domena glowna
pl. Mozna tez samemu zglosic swoja strone. Wiele dodatkowych funkcji umozliwia bardzo dokladne sprecyzowanie pytania, a dzieki temu otrzymujemy odpowiedzi w pelni nas satysfakcjonujace. Ponadto przyjemny i latwy w obsludze interfejs graficzny oraz duza szybkosc dzialania przyczynily sie do ogromnej popularnosci tego stosunkowo nowego serwisu w Polsce.
O czym nalezy pamietac?
Najwazniejsze to wiedziec jakiego rodzaju informacji poszukujemy. W zaleznosci od tego kryterium wybieramy najodpowiedniejszy serwis wyszukiwawczy. Jezeli szukamy konkretnej firmy warto odwiedzic ktorys z serwisow typu "internetowe zolte strony" www.yellowpages.com lub Bigbook ( www.bigbook.com). Chcac odszukac adres elektronicznej poczty znajomego warto skorzystac z serwisu Four11 ( www.four11.com) lub Switchboard ( www.switchboard.com). W internecie mozemy tez uzyskac mapy i informacje jak dojechac do konkretnego miejsca. Jednym z bardziej znanych tego typu serwisow jest MapQuest ( www.mapquest.com).
Czesto poszukujemy najnowszych sterownikow do roznego typu urzadzen komputerowych. W tym przypadku zawsze najlepiej odwiedzic internetowa strone producenta, lub strone pod adresem ( www.winfiles.com).
Poszukujac ogolnych informacji warto zajrzec do encyklopedii. Najbardziej znana to Encyclopedia Britannica ( www.eb.com). Korzystanie z jej internetowych zasobow jest niestety platne. Zanim jednak zaplacimy mozemy przez tydzien "na probe" korzystac z serwisu bezplatnie. Od niedawna funkcjonuje w sieci internet, pierwsza polska "Encyklopedia Internetowa". ( www.fogra.com.pl).
Wyszukiwarke najlepiej wybierac wedlug szybkosci dzialania i latwosci obslugi, bez wnikania w jej dodatkowe mozliwosci zaawansowanego wyszukiwania informacji. W wiekszosci przypadkow, niezaleznie z jakiego szperacza skorzystamy, zadowoli nas opcja najprostszego wyszukiwania.
Trzeba pamietac, ze niektore z wyszukiwarek rozrozniaja duze i male litery. Rezultat naszych poszukiwan moze sie znacznie roznic w zaleznosci od tego czy jako poszukiwane slowo kluczowe wpiszemy haslo "polska" czy "Polska".
Jezeli nie znajdziemy tego czego szukamy w pierwszych 20-30 odpowiedziach, to najlepiej inaczej sformulowac pytanie lub zmienic serwis.
Internet jest fantastycznym miejscem do znalezienia informacji na kazdy mozliwy temat, a do tego nie musimy nawet wychodzic z pokoju. Nie zapominajmy jednak o tradycyjnych metodach zdobywania informacji. Ciagle jeszcze funkcjonuja telefony, istnieja czytelnie i biblioteki. Czesto po obejrzeniu setek stron i wydrukowaniu tony papieru, ciagle nie mamy tego co bylo nam potrzebne. W internecie, tak jak i w zyciu swietnie sprawdza sie prawo Sturgeona: "Dziewiecdziesiat procent wszystkiego to smieci". Czasami wystarczy po prostu zadzwonic.
Na zakonczenie
Temat szukania informacji w sieci internet jest niemal tak obszerny jak sama siec. Z tego to glownie powodu informacje, ktore Panstwu przedstawilem w bardzo skrotowej formie trzeba traktowac jako wstep do wlasnych eksperymentow. Najwazniejsze to nie zrazac sie poczatkowymi niepowodzeniami. Czesto jako wynik naszych poszukiwan otrzymamy dluga liste stron, ktore dotycza zupelnie innego tematu niz mielismy to na mysli. Tak tez sie moze zdazyc i w wielu przypadkach nie jest to nasza wina. Wynika to z faktu, ze technologia nie dotarla jeszcze do punktu, w ktorym ludzie i komputery idealnie rozumieja sie nawzajem. Musimy pamietac, ze na szczescie ciagle jeszcze jestesmy duzo bardziej inteligentni niz najszybszy nawet komputer. Z tego tez powodu powinnismy byc bardziej tolerancyjni, wobec siebie i wobec komputerow, w naszych poszukiwaniach odpowiedzi na kazde pytanie.