Spammer, Content-Grabber und anderes Gesindel unerwünscht
Schon seit einiger Zeit läuft in diesem Blog ein Script, welches sämtliche Zugriffe in drei Gruppen unterteilt loggt. Zum einen werden so die normalen Userzugriffe und die Zugriffe der guten Bots (also Google, Yahoo, Ask, große Blog-spezifische Dienste usw.) in separaten Dateien geloggt, zum anderen werden aber auch die als schelcht bzw. überflüssig eingestuften Bots extra geloggt. Letztere habe ich soeben komplett ausgesperrt. Wer mit einem unerwünschten UserAgent oder einer IP (bzw. IP-Range) aus einem für deutsche Blogs verdächtigen Umfeld ankommt, der wird hier zukünftig nur noch eine kurze Fehlermeldung erhalten.
Als besonders lästig zeigten sich bisher folgende Kandidaten:
20060813_22:20:10|129.250.134.165|http://blocati.de|Biz360 spider (blogsmanager@biz360.com; http://www.biz360.com)|n.a.|/|0
20060814_15:11:51|208.109.97.209||Java/1.5.0_07|n.a.|/|0
20060815_19:20:29|62.194.62.149||Java/1.5.0_06|n.a.|/|0
20060817_17:46:40|210.112.131.32||Java/1.5.0_07|n.a.|/|0
Über die IPs aus obigem Logauszug läßt sich folgendes herausfinden (teilweise Firmennamen):
129.250.134.165 www.biz360.com
United States - California - San Francisco - Ntt America Inc
dyn-165-134-250-129.snfc-vrio.biz360.com
208.109.97.209 Java
United States - Arizona - Phoenix - Go Daddy Software Inc
ip-208-109-97-209.ip.secureserver.net
62.194.62.149 Java
Netherlands - Noord-holland - Amsterdam - Amsterdam-customer-cable
h62149.upc-h.chello.nl
210.112.131.32 Java
Korea, Republic Of - Wonkwang University
Nun, eine koreanische Uni muss hier nicht spidern und ein amerikanischer Webhoster (godaddy.com) hat auf deutschen Seiten in meinen Augen auch nichts zu suchen - vor allem nicht mit boshafter Regelmäßigkeit. Ich habe bei godaddy die Vermutung, dass das Domaingrabber sind, hatte aber keine Lust, dies irgendwo weiter zu recherchieren.
Begriffserklärungen / Definitionen:
- Contentgrabber - Jemand, der die Inhalte von fremden Webseiten ausliest, in eigenen Datenbanken speichert und für eigene Projekte verwendet. Im schlimmsten Fall wird eine komplette (Unter)Seite somit an anderer Stelle ins Internet gestellt (Duplicate Content), oft werden jedoch nur sehr kurze Auszüge verwendet, die dann in einer Art Suchergebnisliste (Pseudosuchmaschine) dargestellt werden. Die Betreiber bereichern sich mit Hilfe des unbrauchbaren (da aus dem Zusammenhang gerissenen) Contents und der oft ideal platzierten Werbung innerhalb ihrer Seiten. Da diese Seiten oft automatisch in 5-stelligen Mengen (kürzlich sogar 1x mit über 1Mrd Seiten) ins Netz gestellt werden und die Keywortdichte innerhalb der Seiten für die Suchmaschinenenalgorithmen sehr brauchbar aussieht, werden solche Seiten oft weit oben bei den Suchmaschinenbetreibern angezeigt. Ergebnis sind viele User und somit hohe Werbeeinnamen für diese Spammer.
- Domaingrabber - Jemand, der freigewordene wertvolle Domains mitunter binnen Sekunden registriert, nachdem der ursprüngliche Besitzer (oder dessen Hoster) die Domain freigegeben hat. Selbst wenn dies nur auf einem Irrtum beruhte, muss man an den Grabber oft horrende Summen zahlen, um sein Eigentum zurückzubekommen.
- Duplicate Content - hat man immer dann, wenn Texte (auch Auszüge) mehrfach im Internet verwendet werden. Für den Ersteller der Seite hat dies oft negative Auswirkungen, da die Suchmaschinen nicht immer das Original eindeutig erkennen können und die Kopien mitunter höher ranken bzw. das Original im Ranking wegen fehlender Einzigartigkeit herunterstufen.
Ich werde diesen Artikel wahrscheinlich öfter mal aktualisieren - ist sinnvoller, als bei jeder Kleinigkeit extra einen neuen zu verfassen
Am 6. November 2006 um 15:35 Uhr
Hallo!
Wie sperrst du denn Seiten, Spider oder ganze IP-Ranges aus, damit diese nicht mehr auf dein Blog zugreifen können?
Gruß,
Phillip
Am 7. November 2006 um 05:56 Uhr
Na mit php und den Server-Variablen $_SERVER[’variable’] Du mußt doch nichts weiter tun, als den User-Agent und die IP abfragen. Der UA kann gefälscht sein, die meisten Spammer geben sich allerdings nicht die Mühe, den UA extra zu fälschen - schließlich bietet das Internet ausreichend nicht gesperrte Alternativen und die, die vorgeben, ein normaler User zu sein, die kann man halt immer noch über die IP sperren.
Diese läßt sich höchstens über anonyme Proxies verschleiern und die kann man ohnehin rigoros sperren, weil die zu 99% nur von Spinnern und Leuten mit illegalen Interessen genutzt werden. Wer eine seriöse Seite betreibt, kann derartige Ano-Proxy-Benutzer also getrost sperren.
Alleine kannst Du kaum wirklich 100%igen Schutz erreichen, einige meiner Domains haben trotz dieser Sperren hunderte von wertlosen “Backlinks” aus Spamseiten von Hyro und anderen bekannten Vertretern dieser Gattung. Es gibt verschiedene Ansätze für solche Blockscripte im Internet, z.B. auch auf http://www.bot-trap.de/forum/ (von wo ich mir vor Monaten eine grundlegende Liste organisiert hatte), perfekt sind die kostenlosen Sachen aber alle nicht - im Fall von Bot-Trap kann aber jeder ein bißchen mithelfen.
Für ein professionelles Herausfiltern von Spammern etc. aus Deinen Zugriffen zahlst Du übrigens schnell 4-5-stellige Summen pro Monat! Dafür sind die dort verwendeten Datenbanken allerdings auch gigantisch und sehr gut gepflegt. Sowas kostet Zeit und somit Geld, größere Firmen leisten sich diese Filter für ihre Homepages teilweise, als kleiner Webmaster muss man sich eben selbst ein wenig helfen …
Falls eine Ãœberprüfung aus den Datenbanken positiv war, dann beendest Du Deine Seite mit einem die(’Fehlermeldung Deiner Wahl, gerne auch mit viel Ballast dran ‘);