![]() |
Meine Meinung 15.07.2005am |
Über ein in Mode gekommenes asoziales Verhalten und wie man sich als Webmaster dagegen wehren kann. Mit Nachtrag zu Referer-Spamming und .htaccess/robots.txt-Beispielen. |
Meine Meinung |
---|---|---|
Tagebuch | ||
Statements | ||
Über mich |
Traffic-Klau - Was ist das überhaupt? Es geht hier nicht darum, den Verkehr einer fremden Webseite anzuzapfen, um Besucher auf die eigene Homepage umzuleiten oder abzuwerben. Traffic-Klau hat auch nichts mit Urheberrecht oder freiem Datenaustausch zu tun. Von Traffic-Klau (englisch "Bandwidth Stealing") redet man, wenn Inhalte aus einer Domain durch direkte Verlinkung irgendwo anders dargestellt werden und deshalb ein unerwünschter Datentransfer entsteht. Wenn also z.B. jemand in der Domain www.xyz.de ein Bild findet und es nicht auf seinen eigenen Server kopiert, sondern es mit src="https://www.xyz.de/bild.gif" auf seiner Homepage www.abc.de anzeigt, dann begeht er im Prinzip Traffic-Klau. Besonders häufig wird sowas in Weblogs und Foren gemacht, wo den Mitgliedern nur wenig oder gar kein eigener Speicherplatz zur Verfügung steht. Ausserdem beschränkt sich der Diebstahl nicht auf Bilder, sondern es werden auch gerne Sound-Dateien, Download-Links oder sogar ganze Webseiten in fremde Domains und Framesets "entführt". |
Was ist da jetzt so schlimm dran? Die Bilder, Dateien und HTML-Seiten stehen doch sowieso schon im Netz und sind deshalb frei zugänglich. Warum sollte man sich dort nicht einfach bedienen, um den eigenen Internet-Auftritt ein Wenig zu verschönern? Ganz einfach: Weil es Geld kostet - und zwar das Geld desjenigen, der die Sachen ordnungsgemäß auf seinem Server abgelegt hat. Zunächst mal ist schon der Speicherplatz an sich nicht umsonst. Bei den meisten Webspace-Anbietern richtet sich der Preis ausserdem nach dem Transfer-Volumen. D.h. je mehr Daten aus einer Domain abgerufen werden, desto mehr Kosten entstehen. Wenn diese Daten jetzt aber in einer ganz anderen Domain verwendet werden, dann muss der Besitzer dafür zusätzlich bezahlen, obwohl er nicht das Geringste davon hat. Meistens halten es die Traffic-Diebe ja nicht mal für nötig, einen Link zur Eingangsseite des Bestohlenen zu setzen, damit der wenigstens ein paar Besucher abbekommt. |
Traffic-Klau ist also kein Kavaliers-Delikt, sondern es werden andere Webmaster ganz konkret finanziell geschädigt und das kann sogar rechtliche Konsequenzen bis hin zur Strafanzeige haben. Auch die Ausrede "Meine paar Zugriffe kosten doch kaum was" zieht nicht. Wenn genug Leute genauso denken, dann wird die Sache sehr schnell teuer und ausserdem geht es ums Prinzip. Wer will schon gerne die Internet-Auftritte anderer Leute mitfinanzieren? Häufig ist den Übeltätern aber überhaupt nicht klar, was sie da eigentlich tun. Wenn sie es wüssten, dann würden sie es schlicht und einfach lassen, denn da sie ja oft ebenfalls Webmaster sind, können sie nur allzu schnell selbst in die Lage des Beklauten kommen. |
Natürlich ist nicht jede direkte Verwendung von Material aus fremden Domains Traffic-Klau. Es gibt zahlreiche Dienste, die News-Feeds, Grafiken, Counter, Scripts oder ähnliche Napping-Angebote auf ihren Servern bereit stellen und dafür lediglich einen Link verlangen. Auch Werbemittel wie Banner oder Buttons dürfen häufig direkt aus fremden Domains angezeigt werden. Das wird dann aber entweder deutlich gesagt oder der HTML-Code für den Einbau in die eigene Homepage wird verbindlich vorgegeben. Wenn es jedoch nicht ausdrücklich erlaubt wird, sollte man davon ausgehen, dass es unerwünscht ist. Man kann es allerdings auch übertreiben, indem man bereits die einfache Verlinkung einer fremden Webseite als Traffic-Klau ansieht. Kaum ein Webmaster wird sich beschweren, wenn ihm auf diese Weise Besucher zugeführt werden, solange sich die Seite in einem neuen, leeren Browser-Fenster öffnet und klar erkennbar ist, dass man sich jetzt in einer anderen Domain befindet. Trotzdem lehnen einige kommerzielle Betreiber eine solche Linksetzung ab, wenn man nicht an einem Partnerprogramm teilnimmt und keine offiziellen Werbemittel verwendet. Ich halte es da ganz einfach so: Tu nichts, was bekannte Suchmaschinen nicht auch tun. |
![]() Dieser nette, international verständliche Gruss könnte auch auf Deiner Homepage stehen.
Du musst Dich lediglich an meinen Bildern vergreifen, dann bekommst Du ihn schon innerhalb weniger Tage. |
Fast jeder Webmaster musste sich schon mal über Traffic-Klau
ärgern, aber es ist überhaupt nicht schwierig, die Täter zu ermitteln.
Traffic-Diebe sollten sich also nicht allzu sehr in Sicherheit wiegen.
Wer eine Server-Statistik mit Referer-Anzeige hat, der erkennt recht schnell,
wenn fremde Seiten auf die eigenen Inhalte zugreifen.
Auch ein ungewöhnlicher Anstieg des Transfer-Volumens
ist ein alarmierendes Anzeichen für Traffic-Klau.
Genauere Angaben kann man dann aus den Logfiles des Servers entnehmen,
in denen jeder einzelne Dateizugriff mit der exakten URL des Aufrufers
protokolliert wird. Zusätzlich können auch regelmäßige
Suchmaschinen-Abfragen
mit der eigenen URL als Suchbegriff so manches interessante Ergebnis liefern.
Hat man den lästigen Parasiten erstmal ausfindig gemacht,
dann gibt es verschiedene Möglichkeiten sich zu wehren:
|
Wenn man keinen eigenen Webspace hat und überall im Netz
interessante Dinge entdeckt, die man anderen zeigen will,
dann ist Traffic-Klau schon sehr verlockend.
Trotzdem sollte man mal über ein paar Dinge nachdenken:
Ich habe bisher jeden Fall von Traffic-Klau aus der Domain www.drfreund.net erkannt und verfolgt. Die Täter haben sich dann entweder wochenlang mit einem peinlichen Spruch auf dem geklauten Bild blamiert oder ihre Homepage existiert nicht mehr. |
Nachtrag vom 05.08.2005: Referer-Spamming |
---|
Bei mir gab es bis vor kurzem eine frei zugängliche Server-Statistik, weil ich an einem Bannertausch interessierten Webmastern einen Blick auf meine Besucherzahlen ermöglichen wollte. Doch leider gönnten mir das einige Leute nicht und bombardierten diese Statistik mit unzähligen gefälschten Aufrufen, um auf subtile Weise Werbung für ihre eigenen Abzocker-Seiten zu machen. Diese relativ neue Unsitte nennt sich Referer-Spamming. |
In meiner Statistik waren u.a. die 30 häufigsten Referer mit Links gelistet, also die Webseiten, von denen aus meine Homepage am meisten aufgerufen wurde. Dass dort auch die Seiten von Traffic-Dieben auftauchen ist normal, plötzlich entdeckte ich aber auch Links zu Pharma-, Porno- und anderen Abzocker-Seiten, die gar keine Inhalte aus meiner Domain anzeigen und auf denen selbstverständlich kein Link zu mir existiert. Wie war meine Homepage von dort aufgerufen worden und warum so oft? Als 2/3 meiner Referer nur noch aus Abzocker-Seiten bestanden, recherchierte ich ein wenig und stiess auf eine neue Variante des altbekannten und zu Recht gehassten Spamming. Die Masche funktioniert so: |
Der Spammer sucht nach Webseiten mit einer Statistik, in der die Referer gelistet werden. Dann wird ein Spam-Bot losgeschickt, der diese Webseiten automatisch immer wieder aufruft und dabei einen gefälschten Referer angibt. Dieser falsche Referer ist die URL der Webseite, auf der der Spammer seinen Müll verkaufen will, und die wandert jetzt als Link in die Statistik. Auf diese Weise hat der Spammer einen Link zu seiner Webseite generiert, der natürlich auch von Suchmaschinen gewertet wird und den PageRank erhöht. Der Spammer zwingt also letztlich fremden Webseiten seine Links auf, um damit Werbung für seinen eigenen Dreck zu machen. |
Referer-Spamming ist aus den folgenden Gründen eine ziemlich miese Sache:
|
Was kann man gegen Referer-Spamming tun?
Als erste provisorische Maßnahme hatte ich meine Statistik durch ein Kennwort geschützt.
Damit wurde den Spammern der Lohn für ihre Aktivitäten entzogen,
denn obwohl ihre Links noch erzeugt wurden, konnten sie weder von Besuchern
angeklickt, noch von Suchmaschinen ausgewertet werden.
Einen richtigen Spammer beeindruckt das allerdings kaum, denn den stört es nicht,
wenn er blind die Statistiken von 1000 Webmastern versauen muss, um nur einen einzigen brauchbaren
Link zu erzeugen. So hatte der Kennwortschutz auch keinerlei positive Auswirkungen
auf meine Statistik. Deshalb bin ich zur Abwehr von Spammer-Zugriffen per .htaccess-RewriteRule übergegangen. Sobald ich in meiner Statistik einen verdächtigen Referer entdecke, installiere ich eine Umleitung, die den Aufruf sofort wieder an genau diesen Referer zurück schickt. Auf diese Weise ruft der Spammer letztlich seine eigene Webseite auf und darf für den Traffic selbst bezahlen, den er eigentlich mir zugedacht hatte. Ich fürchte jedoch, dass ich damit eine Art "Rüstungswettlauf" in Gang gesetzt habe, denn das Spammer-Pack meldet sich immer wieder mit neuen URLs, die ich jedesmal nachpflegen muss. Was ein Spammer nicht kennt, das kann er auch nicht kaputt machen. Deshalb sollte man auf jeden Fall dafür sorgen, dass die eigene Statistik-Seite nicht mit Suchmaschinen gefunden werden kann. Zu diesem Zweck eignet sich die Datei robots.txt, mit der man dem Spider einer Suchmaschine mitteilen kann, welche Dateien und Verzeichnisse seiner Homepage man lieber nicht indiziert haben möchte. Wenn es möglich ist, sollte man ausserdem generell auf Links zur eigenen Statistik-Seite verzichten (also es nicht so machen wie ich). Ergebnis: Sensible Bereiche einer Homepage werden erst garnicht von Spammern gefunden und in Ruhe gelassen. |
Mein Fazit: Kaum bietet man im Web irgendetwas frei und arglos an, schon findet sich jemand, der es für seine unseriösen und egoistischen Zwecke missbraucht, so dass man es mit Einschränkungen versehen oder sogar wieder ganz entfernen muss. Wenn das so weiter geht, wird das Internet irgendwann nur noch von Spammern, Abzockern und Traffic-Dieben beherrscht - nur werden sie davon nichts haben, weil es dort niemanden mehr zum Bestehlen geben wird. |
Anhang 1: Die Datei .htaccess |
---|
Mit der Datei .htaccess kann man u.a. die Zugriffsberechtigungen für Server-Verzeichnisse festlegen und geeignete Aktionen bei unerwünschten Zugriffen definieren. Diese Methode sollte jedoch nur mit einigen Vorkenntnissen angewendet werden, da eine fehlerhafte .htaccess die Erreichbarkeit einer Domain empfindlich stören kann. Vorraussetzungen sind ein Apache-Server und die Berechtigung, eine .htaccess anlegen und bearbeiten zu dürfen (im Zweifelsfall bitte beim jeweiligen Webhoster nachfragen). |
Allgemeines |
Die Datei .htaccess (der Punkt am Anfang gehört zum Namen!) ist eine einfache ASCII-Datei, die z.B. mit dem Windows-Editor erstellt werden kann. Anschliessend lädt man sie per FTP in das Server-Verzeichnis, das man damit schützen will. Dabei gilt eine einzelne .htaccess rekursiv auch für alle Unterverzeichnisse, falls dort keine weitere .htaccess liegt. Der Inhalt sieht schematisch so aus: |
RewriteEngine On RewriteBase / RewriteCond Bedingung1A [NC,OR] RewriteCond Bedingung1B [NC,OR] ... RewriteRule Aktion1 RewriteCond Bedingung2A [NC,OR] RewriteCond Bedingung2B [NC,OR] ... RewriteRule Aktion2 ... |
Zunächst wird die RewriteEngine des Servers eingeschaltet und mit RewriteBase der Ausgangspfad initialisiert. Darunter werden Blöcke aus einer oder mehreren RewriteCond-Bedingungen und einer abschliessenden RewriteRule-Aktion eingetragen. In den Bedingungen können z.B. bestimmte URLs angegeben werden, in denen auch Platzhalter erlaubt sind (Regular Expressions). Das NC bewirkt dabei, dass Gross-/Kleinschreibung nicht beachtet wird, und das OR sorgt für eine Oder-Verknüpfung der verschiedenen Bedingungen. Zusätzlich kann die .htaccess noch weitere Abschnitte für andere Zwecke enthalten, die hier jedoch nicht dargestellt sind. |
Traffic-Klau verhindern |
Der folgende Anweisungs-Block filtert die URLs von 3 verschiedenen Traffic-Dieben und zeigt auf deren Webseiten für alle geklauten Grafiken ein Ersatzbild an: |
RewriteCond %{HTTP_REFERER} ^https://Traffic-Dieb1$ [NC,OR] RewriteCond %{HTTP_REFERER} ^https://Traffic-Dieb2$ [NC,OR] RewriteCond %{HTTP_REFERER} ^https://Traffic-Dieb3$ [NC] RewriteCond %{REQUEST_FILENAME} !Ersatzbild.gif$ RewriteRule \.(gif|jpg|GIF|JPG)$ https://www.xyz.de/Ersatzbild.gif [R,L] |
Mit den ersten 3 RewriteCond-Zeilen wird jeweils die URL eines Traffic-Diebs
als Referer definiert (Traffic-Dieb1-3 muss durch die realen URLs ersetzt werden).
Die RewriteRule-Zeile legt fest, dass GIF- und JPG-Bilder, die auf diesen Webseiten
angezeigt werden, durch ein anderes Bild ersetzt werden sollen
(Ersatzbild.gif und www.xyz.de.net müssen durch die reale Bilddatei und
den entsprechenden Pfad ersetzt werden). Das Ersatzbild sollte natürlich möglichst klein sein,
damit es weniger Traffic verursacht als das geklaute Bild,
und durch eine abschreckende Botschaft auf den Dieb und seine Besucher extrem unattraktiv wirken.
Die 4. RewriteCond-Zeile sorgt übrigens dafür, dass das Ersatzbild auch tatsächlich
angezeigt und nicht selbst durch die RewriteRule-Aktion gesperrt wird. Neben Bildern können auch andere Datei-Typen auf diese Weise umgeleitet werden und es ist auch möglich, überhaupt kein Bild mehr anzuzeigen. Eine weitere Variante besteht darin, die Bedingungen so zu formulieren, dass Bilder generell nur von der eigenen Domain aus angezeigt werden können. Das ist zwar sehr bequem, da man so eine Regel nie aktualisieren muss, aber es kann zu Problemen kommen, wenn Besucher eine Firewall nutzen, die den Referer blockiert. Die sehen dann überall immer nur das Ersatzbild, auch wenn sie sich tatsächlich auf der richtigen Homepage befinden. Ausserdem kann man bei so einem Rundschlag auch versehentlich Bilder sperren, die eigentlich für eine Verwendung in anderen Domains zugelassen sind (z.B. Werbebanner), und seriöse Bilder-Suchdienste (z.B. Google-Bildersuche) würden auch nicht mehr richtig funktionieren. |
Referer-Spamming verhindern |
Der folgende Anweisungs-Block filtert die URLs von 3 verschiedenen Spammern und veranlasst eine Umleitung zurück zu diesen aufrufenden URLs ("Referer-based Deflector"): |
RewriteCond %{HTTP_REFERER} ^https://Spammer1$ [NC,OR] RewriteCond %{HTTP_REFERER} ^https://Spammer2$ [NC,OR] RewriteCond %{HTTP_REFERER} ^https://Spammer3$ [NC] RewriteRule ^.* %{HTTP_REFERER} [R,L] |
Mit den ersten 3 RewriteCond-Zeilen wird jeweils die URL eines Spammers
als Referer definiert (Spammer1-3 muss durch die realen URLs ersetzt werden).
Die RewriteRule-Zeile legt fest, dass Aufrufe von diesen Webseiten aus
wieder zu diesen Seiten selbst zurück geschickt werden
(gilt auch für automatische, gefälschte Aufrufe durch einen Spam-Bot).
Damit diese Methode funktioniert ist es wichtig,
dass die Verzeichnisse mit den eigenen Webseiten nicht zusätzlich
durch ein Kennwort geschützt sind, da dies zuerst den Fehler
"Error 401: Authorization required" auslösen kann, der die Weiterleitung verhindert. Alternativ zur Umleitung wird oft auch ein Auslösen des Fehlers "Error 403: Forbidden" vorgeschlagen (RewriteRule .* - [F,L]), der dem Spammer die Illegalität seines Vorgehens signalisieren soll. Allerdings dürften derartige Appelle an die Vernunft oder gar an das nicht vorhandene Gewissen eines Spammers völlig vergebens sein. Zur Abwehr unerwünschter Mailadressen-Sammler oder sonstiger Spy-Bots kann eine solche Regel aber durchaus nützlich sein. Sowohl die Weiterleitung (Status-Code "302: Moved Temporarily") als auch das Auswerfen des Fehlers "Error 403: Forbidden" produzieren noch immer Einträge in das Access-Log des Servers, die man nur unterdrücken kann, wenn man Zugriff auf die Konfigurations-Dateien des Apache-Servers hat. Auch einige Statistik-Programme (z.B. Webalizer) stellen solche Aufrufe leider als Referer-Links dar. Man kann das Spamming auf diese Weise also nicht verhindern, aber man kann es für den Spammer wenigstens so teuer wie möglich machen und sich selbst vor unerwünschtem Traffic schützen. |
Links |
Auf den folgenden Webseiten sind weitere Anleitungen und Beispiele zur Verwendung
der .htaccess zu finden:
|
Anhang 2: Die Datei robots.txt |
---|
Mit der Datei robots.txt kann man den Spider einer
Suchmaschine anweisen,
bestimmte Bereiche einer Domain nicht zu indizieren.
D.h. die so geschützten Dateien und Verzeichnisse werden von der
Suchmaschine nicht mehr gefunden, sind aber ansonsten noch frei zugänglich,
wenn man die korrekte URL kennt. Die robots.txt ist deshalb nur eine
zusätzliche Hürde gegen Missbrauch, aber kein sicherer Schutz. Beim Umgang mit der robots.txt ist etwas Vorsicht angebracht, damit man sich nicht versehentlich bei allen Suchmaschinen aussperrt und die eigene Homepage von willkommenen Besuchern weiterhin gefunden werden kann. |
Aufbau |
Die Datei robots.txt ist eine einfache ASCII-Datei, die z.B. mit dem Windows-Editor erstellt werden kann. Anschliessend lädt man sie in das Root-Verzeichnis der Homepage, damit sie von Suchmaschinen-Spidern beachtet wird. Der Inhalt sieht schematisch so aus: |
User-agent: * Disallow: /Verzeichnis1/ Disallow: /Verzeichnis2/ Disallow: /Verzeichnis3/ |
Die User-agent-Zeile bestimmt, für welche Suchmaschinen die folgenden Anweisungen gelten sollen. Der Stern (*) bedeutet "alle Suchmaschinen". Mit den Disallow-Zeilen werden 3 Unterverzeichnisse vor dem Zugriff des Spiders geschützt (Verzeichnis1-3 muss durch die realen Verzeichnisse oder Dateipfade ersetzt werden). Der Abschluss mit dem Slash (/) ist wichtig, da der Eintrag sonst als Anfang eines Dateinamens und nicht als Verzeichnis interpretiert wird. Auf diese Weise können z.B. Statistik-Seiten, aber auch Bildverzeichnisse von einer Auflistung in der Suchmaschine ausgenommen werden. Dieses Verfahren beruht allerdings auf einer freiwilligen Mitarbeit der Suchmaschinen. Daher muss es nicht unbedingt überall funktionieren, aber die grossen Suchmaschinen, wie z.B. Google halten sich an die robots.txt. Wenn Dateien aus neu geschützten Verzeichnissen bereits in einer Suchmaschine gelistet werden, dann kann es eine Weile dauern, bis sie als veraltet gewertet werden und verschwinden. |
Links |
Auf den folgenden Webseiten sind weitere Anleitungen und Beispiele zur Verwendung
der robots.txt zu finden:
|
![]() |
![]() |
![]() |
URL: https://www.drfreund.net/aktuell_017.htmhttps://www.drfreund.net/aktuell_017.htm | Zwischenablage |
![]() |
![]() |
![]() |
Letzte Aktualisierung: Samstag, 14.01.2023, 00:01:08 Uhr | Technische Infos | ||
![]() |
![]() |
Browser: CCBot/2.0 (https://commoncrawl.org/faq/) | Browser-Check |
![]() |
|
![]() |
![]() |
Cookie-Policy :: Disclaimer :: Impressum :: Kontakt: ten.dnuerfrd@dnuerfrd | RSS-Feed | ||
Home :: Astronomoe :: Science Fiction :: Musik :: Meine Meinung :: Service :: WebNapping :: Werbemittel :: Aktionen :: Links :: F.A.Q. :: Sitemap |