Vor einigen Tagen hatte ich darüber berichtet, wie eine Website aus Indien reichlich Spam mittels Google-Index macht. Man nehme also eine Domain, hänge irgendeine SEO-URL an diese Domain und schreibe diese auf irgendeiner Website als Link. Tage später findet man dann das Resultat im Google-Index wieder. Was mir dabei allerdings noch auf gefallen ist, dass sehr viele Websites (z.B. von ARD oder SWR) gar nicht richtig ihre URLs prüfen, ob diese überhaupt vorhanden sind. Im Anschluss einige Beispiel ...
Eigentlich sollte eine Website so programmiert sein, dass bei einen Aufruf einer falschen Seite vom Server automatisch HTTP 404 Error gesendet wird. Dies ist wichtig, damit Suchmaschinen diese falsche Seite nicht
indexieren, oder auch böse Suchbegriffe nicht in Zusammenhang mit einer Website gebracht werden können. Bei einigen Websites gibt es gar keine Prüfung bzw. HTTP 404 wird völlig falsch ausgegeben.
Beispiele:
www.ard.de/cix-blog-ist-der-beste-urltest.html
www.swr.de/cix-blog-ist-der-beste-urltest.html
www.swr3.de/startpage/-/id=47310/14mpkol/cix-blog-ist-der-beste-urltest.html
(geändert)
Nun gibt es Websites die eine (schöne) Fehlerseite ausgeben, und auch einen Status 404 senden, aber die Reihenfolge der Statusmeldungen ist falsch.
Beispiele:
www.sparkasse-goslar.de/cix-blog-ist-der-beste-urltest.html
www.touristikaktuell.de/cix-blog-ist-der-beste-urltest.html
(geändert)
Hier wird erst ein Status 200 gesendet (Seite ist vorhanden), und folgt erst 404 (Seite ist nicht vorhanden). Für jede Suchmaschine ist aber der erste HTTP-Status relevant, und somit ist die Seite z.B. für Google vorhanden.
Man könnte jetzt tausend Websites auflisten, wo die Prüfung der URL gar nicht stattfindet. Vermutlich ist man sich der Tragweite noch gar nicht richtig bewusst. Und wenn wir nun etwas warten, werden die oben erwähnte Beispiele bei Google stehen.