Fast alle Menschen mit einer Webseite werden es kennen. Man freut sich, dass die Webseite endlich online ist und die ersten Daten in der Google Analytics Übersicht erscheinen.
Nach kurzer Zeit wird man aber stutzig. Das SEO kann so schnell nicht gegriffen haben, da noch nicht alle Seiten indexiert wurden.
Bei näherem Betrachten stellt man im Bereich “Akquisition” von Google Analytics fest, dass man Traffic von Referrals bekommen hat. Doch solch eine Referral Strategie wurde noch nicht einmal gestartet. Also was ist das? Gibt es tatsächlich einen Gönner der die Seite so stark weiterempfiehlt?
Dann die Ernüchterung, es handelt sich um Google Analytics Spam. Dieser Spam kommt von Seiten wie (bitte diese Seiten nicht aufrufen):
Aber woher kommt er? Und warum erstellt man solch einen Spam? Hat es Auswirkungen auf mich und wie wird man den Spam los?
Kurzum, die Leute, die diesen automatischen Google Analytics Spam betreiben, erhoffen sich darüber Einnahmen.
Früher einmal war es möglich mit solchen Black-Hat-SEO Maßnahmen Einnahmen zu erwirtschaften. Mittlerweile wurde es aber zum Glück von Google massiv eingeschränkt einen Vorteil daraus zu erzielen. Lediglich für uns ernsthafte Webseitenbetreiber ist es immer noch lästig.
Besucht man die Webseitenurls, die in dem Analytics Konto angezeigt werden, kam man früher oft auf Amazon Seiten heraus. Heutzutage landet man meist auf aliexpress.com. Den einzigen Vorteil erzielen diese Spambetreiber also daraus, dass wir über diese Links ihre Seiten geraten und über von uns dort genutzte Angebote, meist durch Provisionen, Geld verdienen.
Diese Referral Einträge entstehen oft über automatische Scripts. Diese rufen nicht mal unsere Webseite auf, sondern nutzen nur unseren Tracking-Code, um einen solchen Eintrag in unserem Google Analytics Konto hinzuzufügen.
Sie erhalten den Tracking-Code nicht über crawling oder sonstige Listen, sondern wählen eine Nummer zufällig aus und treffen dabei leider oft ins Schwarze.
Begeht man den Fehler einem solchen Link aus Neugier zu folgen, wird er meist von dem Spamsystem registriert und eine zweite Welle, meist mit anderen Referrals, wird an unser Konto gesendet.
Daher folgen Sie bitte niemals solchen dubiosen Links.
Dieser Spam hat zum Glück keine großen Auswirkungen auf unser Suchmaschienenergebnis. Allerdings verf’älscht er stark die Webseitenstatistiken.
Zum Beispiel haben diese Spam Referrals eine Absprungrate von 100%. Dies drückt den Durchschnitt sehr stark und macht eine genaue Analyse und die Auslegung einer Strategie unmöglich.
Es gibt viele verschiedene Möglichkeiten den Google Analytics Spam zu bekämpfen.
Ich werde hier zwei Möglichkeiten beschreiben, die ich selbst nutze:
Es gibt noch weitere Möglichkeiten, so kann man zum Beispiel diese Hosts aus dem Tracking-Code von Google Analytics ausschließen. Dies kann aber den gravierenden Nachteil haben, dass solche Einträge nicht mehr als Referral, sondern als richtige Seitenaufrufe gezählt werden und dann nicht mehr gefiltert werden können. Daher rate ich von dieser Methode ab.
Zu allererst können wir die Filterung von Google in Google Analytics anschalten.
Dazu gehen wir auf “Verwalten” > “Einstellungen der Datenansicht”
Dort aktivieren wir die Option “Alle Treffer von bekannten Bots und Spidern ausschließen”.
Man kann diese Referrals ebenfalls in der .htaccess Datei der Webseite ausschließen und auf diesem Weg zwei Fliegen mit einer Klappe schlagen. So gibt es noch andere Spam Möglichkeiten, die unseren Webseiten schaden könnten.
Unter anderem gibt es Bots (Crawler), ähnlich wie die von Google, die kontinuierlich das Internet durchsuchen. Stoßen diese Crawler auf unsere Webseite, lösen Sie einen Eintrag in unserem Google Analytics Konto aus. Diese Crawler sind zumeist auch wesentlich aggressiver und greifen oft auf unsere Webseite zu, um einen höheren Rang in der Referral Liste zu erreichen. Dies erzeugt natürlich viel Datenverkehr und verschwendet daher unnötig Ressourcen unserer Server.
Man kann mit dieser Lösung natürlich den Spam nicht verhindern, da er über Systeme ausgelöst wird, die nicht unsere Webseite besuchen. Diesen werden wir mit der Strategie aus Abschnitt 2 (siehe unten) los.
Es ist recht einfach die .htaccess Datei anzupassen, jedoch sollte man hier vorsichtig vorgehen, um nichts falsches zu ändern. Ein Fehler kann zu internen Serverfehlern (Statuscode 500) führen.
Bei manchen Hostinganbietern kann man diese Datei direkt in der Webspace Verwaltung (z.B. cPanel) ändern. Kann man dies nicht, findet man die .htaccess Datei im root Verzeichnis der Webseite.
Ist dies auch nicht der Fall, so gibt es noch keine und man kann sie dort erstellen.
Um dem Spam Einhalt zu gebieten fügt man folgendes in der Datei hinzu (davor bitte ein Backup der Datei anlegen):
###Block Referrer Spam SetEnvIfNoCase Referer econom.co spam=yes SetEnvIfNoCase Referer iloveitaly.ru spam=yes SetEnvIfNoCase Referer shopping.iloveitaly.ru spam=yes SetEnvIfNoCase Referer bestwebsitesawards.com spam=yes SetEnvIfNoCase Referer darodar.com spam=yes SetEnvIfNoCase User-Agent econom.co spam=yes SetEnvIfNoCase User-Agent iloveitaly.ru spam=yes SetEnvIfNoCase User-Agent shopping.iloveitaly.ru spam=yes SetEnvIfNoCase User-Agent bestwebsitesawards.com spam=yes SetEnvIfNoCase User-Agent darodar.com spam=yes Order allow,deny Allow from all Deny from env=spam
Der Code besteht aus 3 verschiedenen Segmenten.
SetEnvIfNoCase Referer darodar.com spam=yes
Diese Zeile markiert einen Referrer von einer Seite als Spam (er setzt die Environment Variable spam auf yes). Hier ist es darodar.com.
SetEnvIfNoCase User-Agent darodar.com spam=yes
Diese Zeile fängt einen Zugriff mit dem User-Agent darodar.com ab und setzt ebenfalls die Environment Variable spam auf yes.
Deny from env=spam
Diese Zeile ist nun entscheidend. Sie verbietet allen den Zugriff auf die Webseite, die eine Variable Spam besitzen.
Sollte also mal ein Spam von einer anderen Quelle als der wenigen oben kommen, so kann man sie mit dem hinzufügen von zwei Zeilen, einmal mit Referer und einmal mit User-Agent, schnell ebenfalls ausschließen.
Nach dem man die .htaccess angepasst und wieder hochgeladen hat, sollte man kurz die Funktion der Webseite testen, um auszuschließen, dass ein Fehler unterlaufen ist.
Als nächstes ist es Zeit den Spam aus Google Analytics zu entfernen. Leider ist es nicht möglich bereits bestehende (Spam-) Einträge zu löschen. Jedoch gibt es eine Möglichkeit sie zu filtern und so die alten Daten bereinigt darzustellen.
Dies geht wie folgt:
Als erstes erstellen wir eine neue Sektion in Google Analytics.
Dazu gehen wir auf ‘Verwalten’ > ‘Segmente’ > ‘+ NEUES SEGMENT’
Als nächstes geben wir dem Segment einen Namen, hier “Spam Filter”.
Punkt 2 ist es den Eintrag “Bedingungen auszuwählen” im Menü auszuwählen. Die Einstellungsmöglichkeiten sollten wie unten abgebildet aussehen.
Hier gibt man als Filter “Hostname” an und im zweiten Drop-Down Menü “stimmt mit regulärem Ausdruck überein”.
Nun wird es komplizierter. Der 5. Schritt ist es, den regulären Ausdruck einzufügen.
Was wir von dem regulären Ausdruck dargestellt haben möchten, ist eine Liste von uns bekannten Hosts, die unseren Tracking-Code wirklich verwenden dürfen. Das bedeutet, wir schließen alle Hosts aus, bis auf eine von uns definierte Liste.
Das machen wir wie folgt. Wir geben alle URLs an von den Hosts auf denen wir definitiv unseren Tracking-Code platziert haben. Bei meinem Beispiel ist es rocket.works (mit und ohne www) und meine anderen URLs dieses Webprojektes.
Zusammen sind es also rocket.works, www.rocket.works, rocket-works.de und www.rocket-works.de.
Zusätzlich zu den Domains und ggf. Subdomains, empfiehlt es sich translate.googleusercontent.com der Liste hinzuzufügen. Damit zeichnet man auch die Zugriffe von Nutzern auf, die die Seite über Google übersetzen lassen.
Bei dem regulären Ausdruck nutzen wir das Pipe-Symbol |, um die Einträge voneinander zu trennen. Die Punkte in den URLs müssen wir durch einen Backslash maskieren, da Punkte Sonderzeichen der regulären Ausdrücke darstellen.
Mein kompletter regulärer Ausdruck ist in meinem Beispiel wie folgt:
rocket\.works|www\.rocket\.works|rocket-works\.de|www\.rocket-works\.de|translate\.googleusercontent\.com
Warten wir nach der Eingabe kurze Zeit, können wir anhand der Zusammenfassung auf der rechten sehen, ob wir den Ausdruck richtig eingegeben haben.
Dieser Wert verdeutlicht direkt, wie viele Spameinträge es bereits gegeben hat. In meinem Fall waren dies nicht sehr viele, da ich die Maßnahmen, kurz nach dem ich das Projekt online gestellt habe, bereits angewandt hatte.
Den regulären Ausdruck bitte kopieren, da wir Ihn gleich noch einmal benötigen!
Wir können das Segment nun speichern und den Bericht hinzufügen. Dazu einfach oben in den Berichten auf das + klicken und das neu erstellte Segment in der Liste auswählen.
Um nun zu verhindern das zukünftig überhaupt Einträge von Hosts eingetragen werden, die wir nicht wünschen, müssen wir einen Filter anlegen. Dieser funktioniert genauso wie unser gerade erstelltes Segment.
Damit wir später immer noch die Möglichkeit haben alle Daten, samt möglichem Spam, zu sehen, empfehle ich eine neue Datenansicht zu erstellen. Mithilfe dieser Ansicht können wir immer wieder prüfen, wie viel Spam uns erreicht und ob wir die .htaccess Datei weiter anpassen müssen.
Eine neue Datenansicht kann man über “Verwalten” in Google Anayltics hinzufügen. Dazu im Dropdown-Menü “Datenansicht” mit “Neue Ansicht erstellen” erstellen.
Nun erzeugen wir den Filter. Hierzu wählen wir “Filter” auf der gleichen “Verwalten” Seite von Google Analytics aus.
Im Menü für Filter erstellen wir mit “+ NEUER FILTER” einen neuen Filter und geben ihm einen Namen, z.B. “Nur meine Hostnamen”.
Als Filtertyp wählen wir “Benutzerdefiniert” und “Einschließen” im erscheinenden Menü. Für das Filterfeld nutzen wir “Hostname” und fügen unseren, im Segment bereits erstellten, regulären Ausdruck ein.
Nun speichern wir den Filter. Dieser Filter ist für die ausgewählte Datenansicht aktiv und wird in Zukunft für diese nur noch die Daten aufzeichnen, die von unseren definierten Hostnamen kommen.
Sollten wir in Zukunft weitere Hostnamen benutzen (z.B. weil wir den gleichen Tracking-Code auf einer weiteren Seite einfügen), müssen wir diese natürlich im Filter ergänzen.
Ich hoffe diese kleine Anleitung wird vielen Webseitenbetreibern bei der Bekämpfung des Google Analytics Spams behilflich sein. Wenn Ihnen der Beitrag gefallen hat und Sie ihn nützlich finden, so teilen Sie ihn bitte.
Wollen Sie etwas ergänzt haben, Ihre Kritik oder Lob äußern, so können Sie gerne einen Kommentar hinterlassen.
Benötigen Sie Hilfe bei der Beseitigung Ihres Spams oder suchen Sie nach einem Webdesigner?
Kontaktieren Sie mich jederzeit!