Für immer und ewig in der Wayback Machine

Es ist schon ein paar Jahre her, da schrieb ich darüber, wie man den Google-Cache ausschaltet und verhindern kann, dass man in der Wayback Machine auftaucht. Damals musste man noch eine ganze Zeitlang warten, bis eine Website neu indiziert worden war, wenn man wie beschrieben den Zugriff über die robots.txt Datei gesperrt hatte.

Als ich vor ein paar Tagen damit begann, meine Projekte in die ExpressionEngine umzuziehen, bekam ich auf einmal eine Leser-Mail zu einem Text, von dem ich mir sehr sicher war, dass ich ihn aus dem Netz genommen hatte. Nichts von großer Dramatik, einfach eine eher persönliche Geschichte, etwas, das man der aktuellen Blogosphäre nicht zum Frass vorwerfen würde: Wenn das verträumte kleine Dorf zum Ballermann-Areal ausgebaut wurde, kann man nur noch den Zaun ums eigene Grundstück höher ziehen. Ich fragte also und erhielt zur Antwort, dass dieser Leser sich schon seit Jahren irgendwelche Texte abspeicherte, wenn sie ihm gut gefielen (auch so etwas, an das man erst denkt, wenn man damit konfrontiert wird) und dass er sich zurzeit aus dem Archive.org einiges rauspicken würde, was er vor ein paar Jahren nicht rechtzeitig gespeichert hatte.

So fand ich denn heraus, dass man über die robots.txt keineswegs den kompletten Zugriff für die Wayback-Machine sperrt und die vorhandenen Dokumente automatisch entfernt.  Man kann den Zugriff auf die Suche sperren: Als ich die robots.txt frisch hoch lud, war innerhalb von Sekunden kein Zugriff mehr möglich: We’re sorry, access to .... has been blocked by the site owner via robots.txt. Ich löschte sie wieder - und man konnte viele der archivierten Versionen abrufen. Übergangslos.

In der Beschreibung auf Archive.org steht, dass mit dem Aufspielen der robots.txt alle alten Versionen gelöscht werden. Das ist zumindest interessant, denn wenn das so wäre, hätte genau das ja nicht geklappt.

So was bedeutet zum Beispiel, dass man den Zugriff aufs Archive.org durch einfaches Entfernen der robots.txt jederzeit wieder freischalten kann, wenn es um die Beweislage in Streitfällen geht, um zu prüfen, ob dort nicht doch noch Reste irgendwelcher Texte herumliegen. Es bedeutet auch, dass niemand von uns wirklich entscheiden kann, wann seine Inhalte aus dem Internet entfernt werden, aber das war ja seit den Social-Bookmark-Diensten klar.

Mich würde interessieren, ob es sich um einen Einzelfall (Fehler im System) handelt oder ob auch andere wieder an ihre Daten kommen, obwohl sie den Zugriff eigentlich blockiert hatten in der Annahme, dass die Daten dann entfernt werden.

Ich werde jetzt auch gleich mal hinmailen und nachfragen, wie das kommt.

Update: Olivia ergänzt (per Mail) folgende Infos:

“Und falls doch jemand seine Seiten aus dem Archiv entfernen möchte? Kein Problem, sagt Web-Oberarchivar Kahle. “Wir wollen nichts in unserem Archiv haben, das die Autoren nicht darin haben wollen.” 
Quelle: morgenwelt.de

Außerdem schickte Liv mir ein Stück Text von der archive.org Seite, in dem wiederum steht, dass eventuell nicht alles entfernt wird, wenn man die robots.txt aufspielt. Während in der Anleitung ausdrücklich steht, dass dann alles gelöscht wird. Ich nehme mal an, dass es kein Problem sein dürfte, die komplette Löschung anzufordern.

Allerdings setzt das voraus, dass man überhaupt etwas davon weiß, dass dort so ein Archiv entsteht.