image image


image

Inhalte aus der Wikipedia auslesen mit Python

Möchte man Inhalte aus der Wikipedia mit Python auslesen, kann man natürlich die üblichen Webscraping-Bibliotheken oder -Module wie Beautiful Soup oder Scrapy nutzen. Das Buch »Data Visualization with Python and JavaScript« von Kyran Dale, das ich gerade lese, macht reichlich Gebrauch davon. Es geht aber auch komfortabler: Durch diesen Hackernoon-Artikel eines zwölfjährigen Jungen wurde ich auf das Python-Modul Wikipedia aufmerksam, einen Python-Wrapper der MediaWikiAPI.

Das Modul ist auf PyPi, so daß Ihr es mit

pip install wikipedia

installiert bekommt. Die Bedienung ist dann straight forward. Natürlich müßt Ihr es erst einmal importieren,

import wikipedia

danach könnt Ihr aber sofort loslegen:

wikipedia.summary("Apple III", sentences = 3)
'The Apple III (often styled as apple ///) is a business-oriented personal computer produced and released by Apple Computer in 1980. It was intended as the successor to the Apple II series, but was largely considered a failure in the market.\nDevelopment work on the Apple III started in late 1978 under the guidance of Dr.'

Das Beispiel zeigt ein Problem der API, jeder Punkt gilt als Satzende, daher enden für die API Sätze oft nach 1. oder wie hier im Beispiel nach Dr..

Natürlich könnt Ihr nicht nur die englischsprachige Wikipedia abfragen, alle anderen Sprachversionen stehen Euch auch zur Verfügung:

wikipedia.set_lang("de")
wikipedia.summary("Apple III", sentences = 3)
'Der Apple III (Eigenschreibweise Apple ///) war der erste Computer von Apple, der ohne Steve Wozniak (er entwarf 1976 den Apple II) entwickelt wurde. Die Arbeit am Apple III begann im Jahr 1978, vorgestellt wurde er im Mai 1980.\nDer Apple III wurde aus mehreren Gründen zum teuren Flop.'

Die Bibliothek ist sehr umfangreich, die komplette API ist hier dokumentiert, für eilige Menschen gibt es aber auch einen Quickstart. Das Modul ist schon älter (letzter Commit 2016), sollte daher ausgereift sein, steht unter einer MIT-Lizenz und ist auf GitHub zu finden.

Ich hätte da schon ein paar Ideen, was man damit anstellen könnte. Still digging!

image


(Kommentieren) 

image image



Über …

Der Schockwellenreiter ist seit dem 24. April 2000 das Weblog digitale Kritzelheft von Jörg Kantel (Neuköllner, EDV-Leiter Rentner, Autor, Netzaktivist und Hundesportler — Reihenfolge rein zufällig). Hier steht, was mir gefällt. Wem es nicht gefällt, der braucht ja nicht mitzulesen. Wer aber mitliest, ist herzlich willkommen und eingeladen, mitzudiskutieren!

Alle eigenen Inhalte des Schockwellenreiters stehen unter einer Creative-Commons-Lizenz, jedoch können fremde Inhalte (speziell Videos, Photos und sonstige Bilder) unter einer anderen Lizenz stehen.

Der Besuch dieser Webseite wird aktuell von der Piwik Webanalyse erfaßt. Hier können Sie der Erfassung widersprechen.

Diese Seite verwendet keine Cookies. Warum auch? Was allerdings die iframes von Amazon, YouTube und Co. machen, entzieht sich meiner Kenntnis.


Werbung

Diese Spalte wurde absichtlich leergelassen!


Werbung


image  image  image
image  image  image


image