Pozycjonowanie stron internetowych. Wyszukiwarki część 1.
Dzięki firmie Global eMarketing S.A. i jej serwisowi www.ranking.pl posiadamy
wiarygodne statystyki popularności poszczególnych wyszukiwarek. Ich
wiarygodność wiąże się z faktem, że są to zbiorcze dane z polskich serwisów
generujących łącznie 285 000 odwiedzin dziennie.
Zaprezentowane poniżej wyniki pochodzą z 14 lipca 2003 roku. Od tego czasu coś
mogło się zmienić, jednakże od ponad 2 lat czołówka jest taka sama.
1) 35.4% google.com
2) 30.2% onet.pl
3) 25.2% wp.pl
4) 3.1% msn.com
5) 1.9% interia.pl
6) 1.2% szukacz.pl
7) 1.1% netsprint.pl
źródło: www.ranking.pl/rank.php?stat=domeny10PL
Sytuacja jest oczywista. Mamy 3 hegemonów: Google.com, Onet.pl i WP.pl. Te
trzy serwisy generują razem 85-95% ruchu w Polskim Internecie pochodzącego z
wyszukiwarek.
Każdy silnik (oprogramowanie wyszukiwarki) jest nieco inny. Co prawda każda wyszukiwarka
działa na tej samej zasadzie, ale każdy ma swoje, w pełni konfigurowalne
algorytmy wpływające na strukturę rankingu. Mimo faktu, że każdy administrator
wyszukiwarki ma pewien zakres swobody w przypisywaniu wagi poszczególnym
elementom strony www czyniąc każdą kopię silnika unikalną, to jednak pewne
cechy pozostają wspólne.
Powyższe fakty bardzo pomagają wpływać właścicielom stron www na ranking w
większym stopniu, niż administratorzy by sobie tego życzyli.
Jak działają wyszukiwarki ?
Na szczęście dla biznesów, wszystkie liczące się wyszukiwarki działają na tej
samej zasadzie. Dodatkowo większość wykorzystuje zbliżone algorytmy
ustalające pozycje strony www w rankingu wyszukiwania.
Wyszukiwarka składa się z czterech podstawowych elementów:
- Pajączka (Spider, Crawler),
- Bazy danych,
- Indeksu
- i Programu Wyszukującego.
Bardzo często Bazę danych i Indeks traktuje się jako jedność i nazywa Indeksem,
co jest jednak sporym uproszczeniem.
Pajączek
Spider czyta zlecone mu strony tak, jak to robi przeglądarka. Czyta kod strony i
go interpretuje. W przeciwieństwie jednak do przeglądarki pajączek
interpretowany kod czyści z niepotrzebnych znaczników HTML i zapamiętuje
tylko interesujący go tekst. Oczywiście tekst ten ma własne znaczniki
informujące w dalszym procesie program wyszukujący, gdzie dany tekst się
znajdywał w kodzie strony, czy był to tytuł, nagłówek H1, zwykły tekst itd.
Pajączek po przeczytaniu strony podąża po linkach do podstron w tej samej
domenie (Deep Crawling) czytając je również. Różne wyszukiwarki mają
zdefiniowaną różną głębokość, na którą zagłębia się pajączek. Zakłada się, że
najważniejsze strony powinny być najdalej 2 kliknięcia od strony głównej.
Po "przerobieniu" danego serwisu pajączek poprzez linki kierujące na zewnątrz
trafia na inne, nieznane mu dotąd strony.
Celem większości wyszukiwarek oprócz prawidłowego dostarczania rankingu jest
objęcie jak największej liczby stron Google w styczniu 2003 zindeksowała 3 083
324 652 stron. Proces indeksowania Internetu opiera się o 2 założenia:
1. do prawie każdej strony ktoś się kiedyś odwołał i można do niej dojść po
linkach na stronach bazy wyjściowej i stron znalezionych poprzez tą bazę.
Baza wyjściowa to pewna liczba stron www, głównie portali i katalogów,
które administratorzy nowej wyszukiwarki ustalają ręcznie, aby ich pajączek
miał wyjście na możliwie najwięcej serwisów.
2. resztę stron zaproponują właściciele. Zwracam uwagę na słowo
"zaproponują". Zwykle mówi się o "dodawaniu stron do wyszukiwarki". W
rzeczywistości formularze wyszukiwarek PROPONUJĄ pajączkowi, które
strony ma odwiedzić. Ręczne "dodanie" poprzez formularz nie jest więc
równoznaczne ze zindeksowaniem strony przez wyszukiwarkę. Dlatego też
trzeba ponawiać proponowanie do skutku, do pojawienia się naszej strony w
wynikach.
Zebrane informacje przekazywane są do Bazy Danych wyszukiwarki. Pajączki
wracają na zindeksowane strony po pewnym określonym czasie, lub przy
ponownym zaproponowaniu strony do indeksacji. Sprawdza wtedy czy strony się
nie zmieniły i ewentualnie pobiera nowe dane.
Baza Danych i Indeks
Baza Danych jest indeksowana (najprawdopodobniej po dodaniu nowego wpisu).
Tworzy się Indeks. To czy strona pojawi się przy wyszukiwaniu zależy od tego,
czy jej została uwzględniona w Indeksie, a nie w Bazie Danych... chociaż
zazwyczaj jest to równoważne. Indeks to spis wszystkich unikalnych słów wraz z
odnośnikami do miejsc występowania ich w bazie danych. Indeks wyszukiwarki
można porównać do indeksu, który można znaleźć w książkach idea jest taka
sama.
Program Wyszukujący
Gdy użytkownik wpisze jakieś hasło w formularzu wyszukiwarki, Program
Wyszukujący przeszukuje Indeks w poszukiwaniu tego słowa. Jeśli słowo zostanie
znalezione, Program Wyszukujący czyta wszystkie strony z Bazy Danych
oznaczone w indeksie jako zawierające dane zapytanie. Następnie posługując się
swoimi algorytmami ocenia wartości każdej strony. Za ocenę stron mogą
odpowiadać algorytmy w samym Programie Wyszukującym, dodatkowy program
(np. PageRank w Google) i np. fakt pojawienia się strony w katalogu. Na
podstawie ocen jest tworzony ranking.
PageRank to specjalny program, który ocenia wartość strony na
podstawie liczby stron, które zawierają link do danej strony. Wbrew
oficjalnemu opisowi program ten nie jest demokratyczny.
W bazie danych znajduje się pełny, zapamiętany tekst. Wyszukiwarki jednak
generalnie stosują tzw. Stop Words. Są to słowa bez konkretnego znaczenia, jak
spójniki czy rodzajniki, których nie uwzględnia się w wyszukiwaniu.
Co czytają pajączki?
Różne wyszukiwarki zbierają różne informacje o indeksowanych stronach. Każda,
za pomocą Pajączka, zapamiętuje tylko to, co może mieć znaczenie w
generowanym przez nią rankingu.
Wyjątkowo Google i Wirtualna Polska zapamiętują w osobnej bazie danych całą
treść stron i udostępniają je w swoim archiwum, jako tzw. "kopie lokalne" (WP)
czy po prostu "kopie" (Google). Jednakże baza danych, z której korzysta Program
Wyszukujący, zawiera tylko niezbędne informacje.
Cały tekst strony
Cały tekst ze strony, tzn. to co znajduje się pomiędzy znacznikami BODY
indeksują prawie wszystkie wyszukiwarki. Niektóre oszczędzają miejsce i nie
zapamiętują więcej niż pierwsze 64 KB tekstu.
TITLE
Wszystkie pajączki zapamiętują Tytuł strony, gdyż jest on jednym z
głównych kryteriów rankingu.
Znaczniki META
Znaczna większość wyszukiwarek zbiera informacje z META Description i
Keywords. Onet.pl gdy piszę te słowa nadal bardzo zwraca uwagę na znaczniki
META. Z drugiej strony Google.com zupełnie nie bierze ich pod uwagę tworząc
ranking.
Ramki
Jeśli chodzi o polskie wyszukiwarki, to prawie wszystkie wspierają ramki
(FRAMES). Sytuacja nie jest jednak taka różowa. Twierdzenie o wspieraniu ramek
zazwyczaj jest bardzo przesadzone. Tak naprawdę wyszukiwarka przeczyta treść
pliku zawierającego strukturę ramek (FRAMESET) i zindeksuje zawartość ramek z
osobna. W rezultacie Internauta prawie na pewno nie trafi na stronę główną
często może wylądować np. w menu lub którejś ze stron wewnętrznych.
Ramki to ogólnie zły pomysł, jeśli chcemy promować naszą stronę w
wyszukiwarkach.
Link Popularity
Coraz popularniejsze staje się sprawdzanie Link Popularity dla każdej strony.
Jest to ilość zindeksowanych stron, które posiadają linki do naszej. Liczą się
oczywiście strony nie będące częścią naszego serwisu. Ta metoda wzięła się to z
założenia, że do stron ciekawych/ wartościowych ludzie się podłączają chętniej
niż do byle jakich. Najpopularniejsze rozwiązanie stosujące tą metodę to
PageRank używany przez Google.com.
Linki
Pamiętasz o funkcji Deep Crawl? Pajączki przeanalizują stronę w poszukiwaniu
odwołań do innych ciekawych stron. Wszystkie wyszukiwarki wspierają linki
tekstowe i takie należy stosować (przynajmniej w formie alternatywy). Większość
nie ma problemów z linkami graficznymi. Tylko niektóre poradzą sobie z Mapami
Linków (client-side image maps). Żadna wyszukiwarka nie poradzi sobie z linkami
zawartymi w kodzie prezentacji Flash czy Shockwave.
Anchor text
Z funkcjami Deep Crawl i Link Popularity związany jest jeszcze fakt, że pajączki
zapamiętują tzw. "anchor text" treść linku zewnętrznego. "Anchor text" to treść
zawarta pomiędzy znacznikami odsyłacza [a].
[ Jeśli na Twoją stronę kieruje link zawierający Twoje słowo kluczowe w anchor
text to ma on większą wagę, niż link zawierający np. adres www. ]
Linki graficzne
Jeśli mamy do czynienia z linkiem graficznym, tzn. oplatamy plik graficzny
znacznikami odsyłacza [a], to wyszukiwarka potraktuje zawartość parametru ALT podobnie
jak "anchor text" (gorzej). Jak nietrudno się domyślić, wyszukiwarki zapamiętują
ten znacznik również w przypadku innych grafik.
Komentarze
Żadna wyszukiwarka nie zapamiętuje komentarzy - nie mają one więc
znaczenia w tworzeniu rankingu.
Treść pliku graficznego i plików zewnętrznych
Również żadna wyszukiwarka nie będzie wstanie przeczytać treści zawartych w
pliku graficznym lub plikach zewnętrznych np. plikach JavaScript, do których
odwołuje się strona. Dla tego typu plików stworzono znaczniki TITLE i ALT, które
już wyszukiwarki czytają i zapamiętują.
część 1
część 2
Zobacz także :
Główna | Gry za darmo | Bezpłatne kursy | Darmowe serwery i domeny | Tapety za free | Publikacje elektroniczne | Słownik dla niewtajemniczonych |