RSS Wie man nervige Crawler, Bots und sonstige Server-Anfragen in die Irre führt

verfasst 26.12.2010 von MediaCix | kurze URL: /t1036 | Kommentar schreiben

Es gibt Crawler, Bots und tausend nervige Server-Anfragen von "Möchtegern-Diensten" die sich jeden Tag und fast jede Stunde durch das Netz bewegen. Nun wer brauch schon weneo.de oder BotOnParade? Fakt ist, dass jede Server-Anfrage einen gewissen Traffic verursacht und mit der Zeit wird das auch nicht weniger. Also drehen wir den Spieß um und machen eine Umleitung zur deren eigenen IP. Wie das geht? Ganz einfach mit htaccess und einer Umgebungsvariable ...

Zuerst suchen wir uns die nervigen Sünder raus, und tragen diese in htaccess ein:

# nicht vergessen, sonst geht nix :)
RewriteEngine on 

# Suche nach UserAgent
SetEnvIfNoCase user-agent "libwww-perl" bad_bot=1
SetEnvIfNoCase user-agent "BotOnParade" bad_bot=1
SetEnvIfNoCase user-agent "landau" bad_bot=1
SetEnvIfNoCase user-agent "Nutch" bad_bot=1

# Suche nach IP-Bereich
SetEnvIfNoCase remote_addr "^77.41.*" bad_bot=1
SetEnvIfNoCase remote_addr "^77.88.*" bad_bot=1
SetEnvIfNoCase remote_addr "^78.26.*" bad_bot=1
SetEnvIfNoCase remote_addr "^83.149.*" bad_bot=1
SetEnvIfNoCase remote_addr "^142.166.*" bad_bot=1
SetEnvIfNoCase remote_addr "^204.124.*" bad_bot=1
SetEnvIfNoCase remote_addr "^212.235.*" bad_bot=1

# Suche nach Request
SetEnvIFNoCase Request_URI "w00tw00t" bad_bot=1

# Suche nach Referer
SetEnvIfNoCase referer "christhuntproductions" bad_bot=1


„bad_bot” ist dabei unsere neue Umgebungsvariable. Diese wird dann auch bei PHP-Info angezeigt. Ist unsere neue Variable definiert genügen nur zwei Zeilen und die Server-Anfrage wird umgeleitet:

RewriteCond %{ENV:bad_bot} 1
RewriteRule ^(.*)$ http://%{REMOTE_ADDR} [R=301,L]


Diese Zeilen treffen nur ein wenn bat_bot == 1 ist.
Da viele Scripte eine Umleitung mit 302 nicht für relevant halten, erfolgt hier eine gezielte 301-Umleitung. Fertig und ruhe im Sack ...

neuen Kommentar schreiben

Ich möchte automatisch eine E-Mail bei neuen Kommentaren erhalten.



Themen mit ähnlichen Inhalten

    - keine weiteren Themen gefunden -

Tags zum Beitrag

crawler     server-anfragen