image image


Worknote: Auch WordPress ist ein Datensilo

image

Einer der Gründe für meine Flucht in die World Markdown mit ihren statischen Seiten war, daß ich bei WordPress ein ungutes Gefühl hatte, was den Export der Inhalte angeht, wenn man mal die Blog-Software wechseln will oder muß. Und mein Gefühl hatte mich leider nicht getrogen: Ich hatte mit

wget -r -k -E -l 8 http://schockwellenreiter.de

versucht, die kompletten letzten vier Jahre (die einzigen noch dynamisch erzeugten Seiten, die Jahre davor lagen schon nur noch statisch vor) des Schockwellenreiters aus den Klauen von WordPress zu befreien (-k konvertiert die Links, so daß sie lokal funktionieren und -E erzwingt die Endung .html für alle Dateien). Das lief für die Jahre 2009 bis 2012 einen Tag und eine ganze Nacht durch und erzeugte mehr als zwei Gigabyte an Textdateien (ohne die Bilder). Zum Vergleich: Der (statische) Schockwellenreiter von 2002 bis 2009 benötigt (mit Bildern) etwa 400 MB.

wget schrieb über 80.000 Dateien heraus und versah sie alle brav mit der Endung .html. Doch leider in den meisten Fällen völlig sinn- und nutzlos. Denn fast alle Dateien lagen dann in der Form

http://www.schockwellenreiter.de/index.php?p=999999.html

vor. Das betrifft vor allem alle Archivseiten und Inhaltsverzeichnisse, lediglich die einzelnen Postings sind mit einer für den Server nutzbaren URL, wie z.b.

http://www.schockwellenreiter.de/blog/2012/09/20/das-ist-mal-eine-kugelbahn/index.html

versehen worden. Das heißt, wenigstens die eigentlichen Inhalte sind erreichbar (soweit sie Google kennt), alle Inhaltsverzeichnisse, Kategorien- und Tag-Seiten aber nicht. Schlimmer noch, wenn man sie dann findet, haben alle Links auf diesen Seiten wieder die Struktur index.php?p=999999.html – sind also auch in dieser Hinsicht völlig nutzlos.

Was tun? Erst einmal bin ich beruhigt, daß wenigstens die einzelnen Postings noch vorhanden sind. Ich werde in den nächsten Tage versuchen, sie mit ein wenig CSS-Zauberei aufzuhübschen und einige nicht mehr gebrauchte Elemente verschwinden lassen.

Danach werde ich sukkzessive alle sinnlosen Seiten aus dem Archiv entfernen (also cirka 70.000 Seiten – das wird einige Zeit in Anspruch nehmen). Für die restlichen rund 10.000 Seiten werde ich versuchen, ein Skript zu schreiben, daß daraus wenigstens eine Art Inhaltsverzeichnis generiert, so daß sie nicht völligt verwaist auf dem Server rumliegen.

Jedenfalls bin ich von Experimenten mit dynamisch generiertem Content geheilt – aber hinterher ist man ja immer klüger.

(Kommentieren)  Auch WordPress ist ein Datensilo bitte flattrn




Über …

Der Schockwellenreiter ist seit dem 24. April 2000 das Weblog digitale Kritzelheft von Jörg Kantel (Neuköllner, EDV-Leiter, Autor, Netzaktivist und Hundesportler — Reihenfolge rein zufällig). Hier steht, was mir gefällt. Wem es nicht gefällt, der braucht ja nicht mitzulesen. Wer aber mitliest, ist herzlich willkommen und eingeladen, mitzudiskutieren!

Alle eigenen Inhalte des Schockwellenreiters stehen unter einer Creative-Commons-Lizenz, jedoch können fremde Inhalte (speziell Videos, Photos und sonstige Bilder) unter einer anderen Lizenz stehen.


Werbung


Werbung


image  image  image
image  image  image