image image


Texte, Medien und andere Witze

image

Jana Blahak, Jan Dix und Simon Munzert haben für R das rzeit package geschrieben, das auf die Content API von Zeit Online aufsetzt und den Inhalt für eine Analyse in R zur Verfügung stellt. Wie man dieses Paket nutzt, haben sie in dem Blogbeitrag Gathering German newspaper data with the rzeit package ausführlich erklärt. Doch man kann noch mehr damit anstellen, wie die Autoren in dem Folgeartikel Constructing a network of politicians from newspaper data zeigen. Haben eigentlich auch andere (Online-) Zeitungen oder Zeitschriften eine ähnliche API?

Zumindest die niederländische Version von GZSZ Goede Tijden Slechte Tijden hat eine Zusammenfassung aller Episoden seit dem Start im Oktober 1990 online. Das hat Longhow Lam ausgenutzt um mit einer Kombination aus dem R-Paket rvest (image 102 KB) und dem SAS Text miner alle Episoden der SOAP zu analysieren. In dem Beitrag Soap analytics: Text mining »Goede tijden slechte tijden« plot summaries … hat er sein Vorgehen dokumentiert. Ich frage mich natürlich, ob ähnliches nicht auch mit Pythons Natural Language Toolkit möglich gewesen wäre.

  

Damit solche Analysen generell möglich sind, müssen natürlich die Daten (Texte) frei zur Verfügung stehen. Daher fordert Richard Morey von der Cardiff University folgerichtig radikale Offenheit aller Manuskripte und stellt konsequent seine Manuskripte auf GitHub ein.

Nathalie Villa-Vialaneix (aka TuxetteChics) nutzt das R-Paket scholar, um Daten aus Google Scholar zu extrahieren und deren zitationsanalyse zu visualisieren. Sie hat unter anderem damit (und den Paketen tm und wordlcloud) eine nette Wordwolke gebastelt. Ihre Vorgehensweise hat sie in dem Beitrag Yet another post on google scholar data analysis dokumentiert. Inspiriert wurde sie dabei von Bart Rogiers’ Artikel Put Google Scholar citations on your personal website with R, scholar, ggplot2 and cron.

Um Daten analysieren zu können, müssen sie natürlich erst einmal importiert werden. This R Data Import Tutorial Is Everything You Need (hier der zweite Teil) ist schon eine großspurige Behauptung, aber diese wird (bei ausgedruckt fast 60 Seiten) nicht ganz zu Unrecht aufgestellt. Und falls dann doch noch Probleme auftreten, helfen vielleicht die 15 Easy Solutions To Your Data Frame Problems In R aus dem gleichen Blog weiter.

Leider liegen Texte manchmal nur in Form von Word-Dokumenten vor. Bob Rudis hat dazu nicht nur das Tutorial Using R To Get Data Out Of Word Docs verfaßt, sondern auch gleich noch seine Erkenntnisse in das R-Paket docxtractr gegossen.

Und last but not least zeigt Euch Vince Knight, wie man Witze mit Pythons Natural Language Toolkit (NLTK) analysiert – auch die neuen aus 2015.


(Kommentieren)  Texte, Medien und andere Witze – 20150828 bitte flattrn

image image



Über …

Der Schockwellenreiter ist seit dem 24. April 2000 das Weblog digitale Kritzelheft von Jörg Kantel (Neuköllner, EDV-Leiter, Autor, Netzaktivist und Hundesportler — Reihenfolge rein zufällig). Hier steht, was mir gefällt. Wem es nicht gefällt, der braucht ja nicht mitzulesen. Wer aber mitliest, ist herzlich willkommen und eingeladen, mitzudiskutieren!

Alle eigenen Inhalte des Schockwellenreiters stehen unter einer Creative-Commons-Lizenz, jedoch können fremde Inhalte (speziell Videos, Photos und sonstige Bilder) unter einer anderen Lizenz stehen.

Der Besuch dieser Webseite wird aktuell von der Piwik Webanalyse erfaßt. Hier können Sie der Erfassung widersprechen.


Werbung


Werbung


image  image  image
image  image  image