Jak Google widzi Twoją witrynę
Przy optymalizowaniu stron pod kątem wyszukiwarek często zadajemy sobie pytanie jak Google widzi naszą stronę internetową? Wiedząc to moglibyśmy dostarczyć to co wyszukiwarka najwyżej ceni i wiedzielibyśmy jakie elementy naszej strony są przechowywane w jej indeksie. Wiedzą już prawie powszechną są czynniki on-page będące częścią seo jednak mimo to czasami zastanawiamy się jak strony są postrzegane przez Google. Jak je widzi robot?
Jak robot wyszukiwarki widzi witrynę?
Robot wyszukiwarki trafia na stronę internetową, aby pobrać jej zawartość. Są jednak elementy, których albo nie może pobrać, albo nie pobiera. W dużym uproszczeniu nadrzędnym celem crawlera jest zebranie danych na temat danej strony w celu ich przetworzenia przez algorytmy wyszukiwarki i w rezultacie określenia odpowiedniej pozycji. Nie ma zatem sensu pobierać danych, które nie są potrzebne. Wyszukiwarki pełnotekstowe przetwarzają, pobierają potężne ilości informacji. W sytuacjach, w których można te pakiety uszczuplić możemy mieć pewność, że wyszukiwarki to robią lub zrobią. Flagowe elementy strony, które są pomijane to JavaScript/AJAX czy Flash. Oczywiście od każdej reguły są wyjątki. Jeżeli korzystamy z popularnych bibliotek JavaScript Google jest w stanie rozpoznać w jakim celu został on zastosowany. W ciągu lat zaobserwowano także, że pobierane są np. style CSS w celu ich zbadania chociażby pod kątem ukrywania tekstu. Jednak z reguły możemy założyć, że standardowe pobranie strony przez Googlebota pozbawione jest tych dodatkowych, interakcyjnych elementów i skupione jest wokół samej zawartości tekstowej i istotnych znaczników HTML.
W jaki sposób możemy pobawić się w bota wyszukiwarki? Jak możemy mieć wyobrażenie na temat tego procesu?
Przeglądarka tekstowa
Jednym z najstarszych sposobów jest użycie przeglądarki tekstowej. Używano ich jeszcze przed erą Nescape, a później Internet Explorera. Wyświetlają one zawartość tekstową i strona czytana jest w sposób liniowy. Od początku kodu HTML do końca. Wyświetlane są najpierw elementy występujące jako pierwsze w kodzie HTML. Oto jak wygląda strona główna Magiczne SEO i SEM:
Pierwsze linki jakie się wyświetlają to link do RSS w headerze z tekstem z atrybutu alt „magiczne seo i sem rss” oraz kolejne linki górnej nawigacji. W układzie naszej witryny najpierw występuje górna nawigacja, potem zawartość a na końcu nawigacja boczna. W dokładnie takiej samej kolejności wyświetlane są elementy w przeglądarce tekstowej.
Na powyższym zrzucie ekranu widać końcową sekcję prawej nawigacji, gdzie umiejscowiliśmy widget do Facebooka (Społeczność Magicznego). Ponieważ do jego obsługi wymagany jest JS nie został on wyświetlony w przeglądarce tekstowej.
Przedstawione powyżej screeny zostały zrobione przy pomocy Lynx – osobiście używam właśnie tej przeglądarki tekstowej. Posługiwałam się nią zarówno na Linux, Mac OS i Windows – więc działa prawie wszędzie.
Sprawdzenie strony w aplikacji typu Lynx daje lepszą perspektywę na to jak nasza witryna się prezentuje w oczach wyszukiwarki czy samego robota.
Wyłączenie obsługi stylów
O wiele szybszą i prostsza metodą do obejrzenia strony bez dodatkowych wodotrysków jest wyłącznie obsługi stylów w ulubionej przeglądarce. Zazwyczaj jest to opcja dostępna gdzieś w menu Widok. Taką funkcjonalność posiada też wiele dodatków do Firefox jak np. Webdeveloper Toolbar.

To rozwiązanie jednak usuwa same style CSS. Elementy w JavaScript/AJAX czy Flash są czasami widoczne i funkcjonalne – w zależności od wybranej metody.

Symulacja robota wyszukiwarki i alternatywa do Lynx
Jeżeli nie mamy ochoty na instalowanie kolejnego softu jakim jest przeglądarka tekstowa to możemy skorzystać z jej webowej wersji lub bookmarkletu. Po podaniu adresu URL drukowana jest zawartość wyświetlana przez przeglądarkę tekstową. Niestety w związku z wykorzystywaniem usługi jako proxy wymagane jest teraz wgranie na serwer odpowiedniego pliku html lub gif, aby z niej skorzystać.
Istnieje wiele narzędzi do symulowania webcrawlera. Jedym z nich jest robot simulator:
|
|||||||||||||||
Plusem narzędzia jest ułożenie danych wg kategorii: linki, tekst, tag title, meta description itp. Minusem jest brak obsługi polskich znaków.
Jak Google postrzega naszą zawartość
Często zastanawiamy się jak Google rozpoznaje naszą zawartość tekstową na stronie. Czy faktycznie potrafi przyporządkować do odpowiedniej kategorii tematycznej. Czy skojarzy, że artykuł na temat Civilization V trafia do worka gry komputerowe. Czy słowa użyte na stronie sugerują wyszukiwarce odpowiedni kontekst? Niektóre osoby używają do tego narzędzia do słów kluczowych AdWords, a konkretnie do listowania słów kluczowych na podstawie podanego adresu URL. Na ich podstawie można ocenić czy samo Google klasyfikuje stronę w pożądanej przez nas tematyce. Wykorzystuje się tą metodę do orientacji względem optymalizacji czynników SEO, optymalizacji stron docelowych w kampanii PPC czy nawet oceny strony pod kątem AdSense.
Czy Google jest w stanie zaindeksować stronę?
Na stronach często występują problemy, z którymi roboty wyszukiwarek mają problemy. Czasami są to drobnostki jak zawartość pliku robots.txt innym razem problemy z ustawieniami serwera HTTP. Zamiast wykluczać wszystkie możliwe powody do dyspozycji mamy narzędzia w Narzędzia dla Webmasterów. Pokazują się w nim informacje na temat błędów dotyczące indeksowania. Dodatkowo jesteśmy w stanie dowiedzieć się jak nasza strona jest pobierana przez Googlebota (tzw. Fetch as Googlebot).
Zwracane informacje nie tylko źródło HTML, ale także informacje na temat odpowiedzi z serwera HTTP. Można je także sprawdzić za pomocą wtyczek jak np. HTTP Headers czy Tamper data, ale w tym wypadku mamy odpowiedzi bezpośrednio dla Googlebota. Chyba, że lubimy przeglądać witryny podając się za Googlebota :).






