Always deliver more than expected.
Dieses Zitat scheint Google unter seinen
Firmengrundsätzen dann vielleicht doch anders gemeint zu haben.
Dennoch tauchen immer wieder Ergebnisseiten auf Google auf, die dort eigentlich nichts zu suchen haben. Bekannte Beispielen waren
https-Seiten, die z.B. bei Onlinebanking eingesetzt werden. Mit einem Mal waren Bestellkörbe, Kontenauszüge und geheime Firmendateien für jedermann sichtbar im Internet verlinkt. Und auch die schnellsten Webmaster kamen damals nicht gegen die Google-Cache Funktion an, die von jedem Dokument einen schönen Schnappschuß im wahrsten Sinne des Wortes verewigte.
Auch an die selbst
auferlegten Regeln einer Robots.txt scheint sich der Branchenprimus nicht immer zu halten:
Viele Webmaster beklagen, dass durch Robots.txt verbotene Seiten dennoch im Index zu finden sein.
Der letzte Schrei scheint jedoch zu sein, dass Google Seiten in seinen Index aufnimmt, die nicht einmal frei durch einen Link zu erreichen sind oder welche einen Login erfordern.
Fall 1)
Das Unternehmen X setzt ein CMS ein, welches auf den Seiten einen Link zum Editieren/Löschen des Artikels anbietet. Wird der Link geklickt, kommt man in die "Admin-Oberfläche". Hier wird dann auf Cookie-Ebene eine User-Identifikation durchgeführt. Leider hat das CMS nicht damit gerechnet, dass jemand auf die Seiten kommt, der überhaupt keine Cookies annehmen kann: Ein Suchmaschinen-Spider.
In diesem Fall behandelte das CMS den Besucher nämlich (leider) wie einen eingeloggten User. Hatte dieser
eingeloggte User also den "Löschen"-Link geklickt, wurde folglich die gewünschte Aktion ausgeführt. Eine Nacht reichte für den aktiven Google-Spider aus, um sämtliche Seiten des Unternehmens nachhaltig vom
Server des Betreibers zu löschen. Backup? Alt. Reaktion des Betreibers der Seite: "Wir werden den Löschen-Link von der Seite nehmen."
Fall 2)
Eine Schule in den USA war überrascht, als auf einmal sensible Schülerdaten aus dem "geschützten" Bereich im Web und in den Suchergebnissen von Google auftauchten. 619 Schüler konnten also ihren Namen, Sozialversicherungsnummern und Testergebnisse online auf Richtigkeit prüfen. Der
Schulleiter war außer sich und wußte sich nicht anders zu helfen, als die Presse einzuschalten. Seiner Äußerung nach wurde nämlich von Seite des Suchmaschinenbetreibers Google nichts unternommen, diese Daten umgehend zu löschen.
Was ist in den beiden Fällen passiert?
Natürlich liegt es nah, die Schuld bei demjenigen zu suchen, der die Daten letztlich auf seinen Ergebnisseiten präsentiert hat: Google. Denen liegt jedoch nicht wirklich viel daran, Informationen zu verbreiten, die nicht dafür gedacht sind.
Die Lösung ist in der Methodik der Spider zu suchen: Sie nehmen keine Cookies an, sie verfolgen Links. Da Googles Spider einer der aktivsten ist, ist es klar, dass solche Daten zuerst hier auftauchen. Von der Technik her wären jedoch auch andere Suchmaschinen irgendwann an diese Daten gekommen.
An erster Stelle scheint also der Schutz der Daten vernachläßigt worden sein. Webmaster sollten sich zunehmend darüber Gedanken machen, wie Zugänge zu Admin-Seiten zu programmieren sind. Sollte das Abschalten von Cookies (
In jedem Browser möglich) der einzige Schutzmechanismus sein, lohnt sich weitere Mühe. Das Auslagern von Sicherheitsüberprüfung ist generell zu überdenken...
Auch im zweiten Fall ist Google nicht unbedingt ein Vorwurf zu machen:
Wahrscheinlich hat ein Mitarbeiter der Schule beim Verlassen der Admin-Pages einen externen Link geklickt. Das Tracking-System der externen Website hat den Referrer getrackt. Dieser könnte so ausgesehen haben:
http://www.catawba.k12.nc.us/admin/edit-data.php?user=admin&pass=wisdom
Viele Seiten benutzen Online-Statistiken wie z.B
Webalizer. Unter
domainame.tl/webalizer findet man
bei Google tausende solcher Statistik-Seiten.
Diese zeigen auch die Verweise/Referrer in ihren Statistiken als Link an.

Findet Google also
so eine Statistik und verfolgt alle dortigen Links, dann ist es nur eine Frage der Zeit, bis der Googlebot sich durch den schlecht
geschützten Admin-Bereich eines Webangebots spidert und natürlich alle Angaben auch in den Index bringt....
Mehr zum Thema Referrer-Spam demnächst