Scrapy ist nicht nur der Name einer Ska-Punk-Band aus Passau, sondern auch ein populäres, freies (BSD-Lizenz) Open-Source-Webcrawling-Werkzeug für Python, das seit der Version 1.3 von Februar 2016 auch Python >= 3.3 unterstützt (außer unter Windows, da geht bis jetzt nur Python 2.7). Und auch wenn das Tool eine exzellente Dokumentation auf ReadTheDocs besitzt, freut es mich doch, das Packt Publishing heute im Rahmen seiner täglich wechselnden, freien (frei wie Freibier) Ebook-Download-Aktion den Titel »Learning Scrapy« von Dimitrios Kouzis-Loukas zum Download anbietet. Allerdings scheint das Buch – obwohl 2016 erschienen – noch Scrapy 1.2 zu behandeln und somit mit Python 2.7 zu arbeiten. Das hat es übrigens mit dem wunderbaren Buch Data Visualization with Python and Javascript von Kyran Dale gemein, das ebenfalls wegen Scrapy auf Python 2.7 setzt. Aber die Unterschiede sind nicht so gravierend, daß man mit beiden Büchern nicht auch mit Python 3 arbeiten könnte (bei Kyran Dales Buch habe ich das ausprobiert).
Und hier wie gewohnt die Spielregeln: Wer noch keinen Account bei Packt besitzt, muß sich einmalig kostenlos registrieren, alle anderen können den Titel – nach einem eventuell notwendigen Login – sofort bis heute Nacht um 24:00 Uhr (GMT) als Epub, Mobi und/oder PDF herunterladen.
1 (Email-) Kommentar
Kenne bislang Scrapy noch nicht - aber was ist an bs4 bzw. "BeautifulSoup" denn schlecht? Das kann sogar typisch kaputtes HTML parsen und liefert mir das Gewünschte frei Haus. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ ist frei zugänglich, mit einem "pip install bs4" ist alles einsatzbereit.
– Bruno H. (Kommentieren) (#)
Über …
Der Schockwellenreiter ist seit dem 24. April 2000 das Weblog digitale Kritzelheft von Jörg Kantel (Neuköllner, EDV-Leiter, Autor, Netzaktivist und Hundesportler — Reihenfolge rein zufällig). Hier steht, was mir gefällt. Wem es nicht gefällt, der braucht ja nicht mitzulesen. Wer aber mitliest, ist herzlich willkommen und eingeladen, mitzudiskutieren!
Alle eigenen Inhalte des Schockwellenreiters stehen unter einer Creative-Commons-Lizenz, jedoch können fremde Inhalte (speziell Videos, Photos und sonstige Bilder) unter einer anderen Lizenz stehen.
Der Besuch dieser Webseite wird aktuell von der Piwik Webanalyse erfaßt. Hier können Sie der Erfassung widersprechen.
Diese Seite verwendet keine Cookies. Warum auch? Was allerdings die iframes
von Amazon, YouTube und Co. machen, entzieht sich meiner Kenntnis.
Werbung