Unter
AOLreSearch war bis vor kurzem eine Seite mit einer Studie zu finden, welche eine anonymisierte Liste von Suchdaten, abgegeben über die AOL-Suche in den USA, bereithielt. Zwischen dem 1. März 2006 und dem 31. Mai 2006 wurden die Daten aufgeschrieben und dann aggregiert sowie sortiert zusammengefaßt.
Neben vielen Analysen zum Sucherverhalten der Nutzer der AOL-Suche in den USA war auch ein Link zu eben jener Liste veröffentlicht worden.
Die Daten wurden zur freien Verfügung ins Netz gestellt, um Interessierten die Möglichkeit zu bieten anhand von Live-Daten Theorien zu verfassen oder Suchverhalten zu erforschen:
The goal of this collection is to provide real query log data that is based on real users. It could be used for personalization, query reformulation or other types of search research.
Die Liste enthält:
36,389,567 lines of data
21,011,340 instances of new queries (w/ or w/o click-through)
7,887,022 requests for "next page" of results
19,442,629 user click-through events
16,946,938 queries w/o user click-through
10,154,742 unique (normalized) queries
657,426 unique user ID's
Im Web ist diese Veröffentlichung von Such-Daten auf
sehr große Aufregung gestoßen.
Große Websites berichten in aktuellen Postings von einem "
Angriff auf die Privatsphäre".
Die Daten bestehen aus 5 Spalten: AnonID, Query, QueryTime, ItemRank sowie ClickURL. Interessant ist die Query und die AnonID. Hier kann eine Beziehung zwischen einer anonymen Person in Form einer Zahl und deren Suchnachfragen gezogen werden. So kann ich also erkennen, dass ID 19162 sich für "Area 51", "How to play guitar" und "wakeboarding in Florida" interessiert. Dass sich 19162 auch für dicke Mädchen interessiert ist sicher ein tiefer Einblick in seine Suchgewohnheiten, sagt aber nichts über den Sucher persönlich aus und macht aus 19162 keine ent-anonymisierte Person!
Die Daten, die das AOLreSearch über die amerikanischen Nutzer ins Internet stellte sind real. Sie sind dazu geeignet genaue Analysen über Suchgewohnheiten und den wirklichen Interessen der Nutzer zu machen. Jedoch alles ohne den Auslöser der Suchanfragen zu identifizieren.
In den Kritiken werden viele Modelle und Möglichkeiten angegeben, wie diese Daten negativ genutzt werden könnten:
"Viele Nutzer geben ihren eigenen Namen ein, um zu sehen, was für Informationen über sie im Web gespeichert sind. Wenn man nun also sieht, was diese Leute noch gesucht haben, dann kann man eine personalisierte Suchhistorie erstellen, die dem Nutzer sicher nicht lieb ist."
Für mich ist das sehr hypothetisch. Von den 650.000 Nutzern, die in dem Datenpush enthalten sind, sind nur ein paar Abfragen mit Namen. Davon die meisten über Prominente. Ich glaube nicht, dass Britney Spears über die AOL-Suche nach Nacktbildern von sich selber sucht. Auch ist das bloße auftreten von Namen und "unschönen Suchbegriffen" ist noch kein Hinweis darauf, dass auch diese Person wirklich die Suche ausgelöst hat.
Zugegeben: Die ganze Aktion ist unglücklich. Die Gefahren, die die Blogger jedoch aus den Daten ableiten, werden zum Teil auf die Daten nicht zutreffen, zum Teil nicht auf die geschilderte Art und Weise zutreffen.
Zur Sicherheit hätte das verantwortliche Team eventuelle Namen aus den Daten entfernen können.
Ich möchte dennoch zu bedenken geben, dass
keine personenbezogenen Daten veröffentlicht wurden, die Daten von AOLreSearch inzwischen offline genommen wurden und ursprünglich mit deutlichen Beschränkungen der Nutzung bereitgestellt wurden.
In Stichproben habe ich keine Datensätze gefunden, auf die die Horrorszenarien zutreffen, die heute im Web zu finden sind.
Update #1: Inzwischen wird auch in
deutschen Medien von den Daten geschrieben. Wichtig fände ich die Differenzierung, dass die Nutzung der
amerikanischen AOL-Suche veröffentlicht wurde, nicht die
deutsche.
Update #2: Vielleicht sollte noch erwähnt werden, dass jede Suchmaschine den Benutzern eine zufällige, eindeutige Nummer gibt. Diese Nummer dient der Zuordnung. Es ist also nicht so, dass die Suchmaschine weiß, wer da gerade sucht. Sie weiß nur, welche Nummer gerade sucht. Hinweise in anderen Blogs,
dass die Daten User bei Mordplanungen zeigt, sind völlig abgehoben. Ich habe auch nicht verstanden, ob die Aussage des Postings sein soll, dass man per Suchmaschine recherchierte Mordpläne bitte im Dunkeln lassen soll... Es wurde ein Spiegel hochgehalten und einige Nutzer mögen nicht, was sie sieht. Andere springen auf den Aufmerksamkeits-Zug auf...
Bei Zeiten werde ich ein Posting darüber machen, was man mit einem Telefonbuch und einer Suchmaschine in Kombination anstellen kann und welche persönlichen Daten im Web für jedermann zugänglich Tag und Nacht verfügbar sind.
Hinweis: Dies ist meine private Meinung und keine öffentliche Äußerung meines Arbeitgebers.
Vor einigen Wochen ging ein Aufschrei durch die Netzgemeinde. Etwas unüberlegt hatte ein AOL Mitarbeiter Amerika die Suchanfragen von US-Benutzern der dortigen AOL-Suchmaschine veröffentlicht. Obwohl es keine Zuweisung gab, die den Namen des Nutzers dir
Aufgenommen: Aug 21, 21:18