Moving-Target.de

Dies ist ein privates Blog und dies istdie vermaledeite Datenschutzerklärung.

Navigation

Aktuell | Rubriken | Archiv seit 1996

Blogosphärisches | Blogroll | Über ...

Aktuellste Einträge:



Letzte Kommentare:

Linn in Von Arschlöchern lernen: War das auf Facebook? Als ich den Anfang des Artikels las, wollte ich auch auf jeden Fall ...

Britta in Norwegen in Der vierte Wunsch: Vielen lieben Dank für die letzten Einträge - und den Elfen. Hmpf, ich weiß nicht wie ich es ...

Graugrüngelb in Es gibt da einen Haken. Jetzt.: Das ist ja ‘ne nette Idee. Ich fahre ja in den urlaub immer mit diesen Handtuchhaken, die man über ...

Thomas Arbs in Mittwochs im Düsseldorf: Das ist phantastisch. Es ist schwer zu schlucken, aber es soll ja auch nicht leicht sein. ...

melody in Mittwochs im Düsseldorf: (Ich weiß, dass der liebe echte Löwenherz gegen Muslime in den Krieg gezogen ist, aber die ...

Kontakt

Impressum

Datenschutzerklärung

powered by ExpressionEngine






Freezer Blues. « | » Schenke mit Geist ohne List

Für immer und ewig in der Wayback Machine

Es ist schon ein paar Jahre her, da schrieb ich darüber, wie man den Google-Cache ausschaltet und verhindern kann, dass man in der Wayback Machine auftaucht. Damals musste man noch eine ganze Zeitlang warten, bis eine Website neu indiziert worden war, wenn man wie beschrieben den Zugriff über die robots.txt Datei gesperrt hatte.

Als ich vor ein paar Tagen damit begann, meine Projekte in die ExpressionEngine umzuziehen, bekam ich auf einmal eine Leser-Mail zu einem Text, von dem ich mir sehr sicher war, dass ich ihn aus dem Netz genommen hatte. Nichts von großer Dramatik, einfach eine eher persönliche Geschichte, etwas, das man der aktuellen Blogosphäre nicht zum Frass vorwerfen würde: Wenn das verträumte kleine Dorf zum Ballermann-Areal ausgebaut wurde, kann man nur noch den Zaun ums eigene Grundstück höher ziehen. Ich fragte also und erhielt zur Antwort, dass dieser Leser sich schon seit Jahren irgendwelche Texte abspeicherte, wenn sie ihm gut gefielen (auch so etwas, an das man erst denkt, wenn man damit konfrontiert wird) und dass er sich zurzeit aus dem Archive.org einiges rauspicken würde, was er vor ein paar Jahren nicht rechtzeitig gespeichert hatte.

So fand ich denn heraus, dass man über die robots.txt keineswegs den kompletten Zugriff für die Wayback-Machine sperrt und die vorhandenen Dokumente automatisch entfernt.  Man kann den Zugriff auf die Suche sperren: Als ich die robots.txt frisch hoch lud, war innerhalb von Sekunden kein Zugriff mehr möglich: We’re sorry, access to .... has been blocked by the site owner via robots.txt. Ich löschte sie wieder - und man konnte viele der archivierten Versionen abrufen. Übergangslos.

In der Beschreibung auf Archive.org steht, dass mit dem Aufspielen der robots.txt alle alten Versionen gelöscht werden. Das ist zumindest interessant, denn wenn das so wäre, hätte genau das ja nicht geklappt.

So was bedeutet zum Beispiel, dass man den Zugriff aufs Archive.org durch einfaches Entfernen der robots.txt jederzeit wieder freischalten kann, wenn es um die Beweislage in Streitfällen geht, um zu prüfen, ob dort nicht doch noch Reste irgendwelcher Texte herumliegen. Es bedeutet auch, dass niemand von uns wirklich entscheiden kann, wann seine Inhalte aus dem Internet entfernt werden, aber das war ja seit den Social-Bookmark-Diensten klar.

Mich würde interessieren, ob es sich um einen Einzelfall (Fehler im System) handelt oder ob auch andere wieder an ihre Daten kommen, obwohl sie den Zugriff eigentlich blockiert hatten in der Annahme, dass die Daten dann entfernt werden.

Ich werde jetzt auch gleich mal hinmailen und nachfragen, wie das kommt.

Update: Olivia ergänzt (per Mail) folgende Infos:

“Und falls doch jemand seine Seiten aus dem Archiv entfernen möchte? Kein Problem, sagt Web-Oberarchivar Kahle. “Wir wollen nichts in unserem Archiv haben, das die Autoren nicht darin haben wollen.” 
Quelle: morgenwelt.de

Außerdem schickte Liv mir ein Stück Text von der archive.org Seite, in dem wiederum steht, dass eventuell nicht alles entfernt wird, wenn man die robots.txt aufspielt. Während in der Anleitung ausdrücklich steht, dass dann alles gelöscht wird. Ich nehme mal an, dass es kein Problem sein dürfte, die komplette Löschung anzufordern.

Allerdings setzt das voraus, dass man überhaupt etwas davon weiß, dass dort so ein Archiv entsteht.

Samstag, 28. Januar 2006 um 04:33 PM
On TargetLinkE-MailDrucken
Dieser Eintrag kann nicht mehr kommentiert werden.