這可能是你見過最全的網路爬蟲工具庫集合!

語言: CN / TW / HK

這是「進擊的Coder」的第  581  篇技術分享

作者:崔慶才

經常逛 GitHub 的同學可能會聽說過大名鼎鼎的 awesome 倉庫,沒錯,就是這個: https://github.com/sindresorhus/awesome

這個庫可謂是一個極大的寶藏,囊括了有關技術的幾乎所有領域的資料、工具和庫,比如平臺、程式語言、前端開發、後端開發、大資料、資料科學、資料庫、安全、硬體、DevOps 等等等,幾乎想到的全都有。

就拿 Platform 這個平臺這個分支來講吧,裡面又有進一步的細分,比如 iOS、Android、Linux、macOS、JVM 等等,然後每一個又是一個新的以 awesome 開頭的倉庫,比如:

  • awesome-linux: https://github.com/inputsh/awesome-linux

  • awesome-android: https://github.com/JStumpp/awesome-android

  • awesome-macOS: https://github.com/iCHAIT/awesome-macOS

是的,每一個子倉庫裡面都收集了關於這個領域的幾乎所有的資料、工具、庫等等。

也就是說,awesome ( https://github.com/sindresorhus/awesome )這個庫是 ,然後衍生出來了各個領域和方向的 awesome 子倉庫來收集對應領域的資料、工具庫,由全世界的程式設計師一起維護和貢獻。

真的全是寶藏!

有朋友這會就好奇了,有沒有有關爬蟲的 awesome 庫呢?有!

awesome-web-scraping

就是這個: https://github.com/lorien/awesome-web-scraping

這裡面收集了有關網路爬蟲的各種資料、工具庫的列表,不僅僅是 Python,還有 Go、Ruby、JavaScript、PHP 等等,首頁如下:

另外還有一些爬蟲商業服務、控制檯工具、無頭瀏覽器、驗證碼破解網站等等。

比如我們看看 Python 的,裡面就收集了各種請求庫、解析庫、資料處理庫等等:

這裡就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列倉庫還有更小的分支,那就是根據語言劃分的分支,比如說中文版、日文版、俄文版等等,比如說 awesome-windows 上面就分了中文: https://github.com/Awesome-Windows/Awesome

其他的很多 awesome 倉庫也有中文,比如:

  • awesome-anrdoid 中文: https://github.com/jobbole/awesome-android-cn

  • awesome-ios 中文: https://github.com/jobbole/awesome-ios-cn

OK,那我做了件什麼事呢?

我也為 awesome-web-scraping 建立了一箇中文版本的倉庫: https://github.com/Germey/AwesomeWebScraping

其實就是對原倉庫進行了一次翻譯,也是區分了各種語言,比如 Python、JavaScript 等各個語言的工具庫 全在這裡面了!另外 每個語言都有很多分類,像請求庫、爬取框架、解析庫、自然語言處理、訊息佇列等等 ,都在這裡了:

比如部分的內容大致如下:

總之,這個庫的目標就是做一個 GitHub 上收集有關網路爬蟲工具庫的最全的中文版集合!

當然現在我還在翻譯和優化過程中,部分內容可能不是完全通順,還會繼續更新和完善的。

大家如果發現有遺漏的庫,想往裡面加的話也歡迎提 PR,我會一併收納和整理,一起讓它完善起來吧!

最後,求個 star,謝謝啦!

https://github.com/Germey/AwesomeWebScraping

掃碼直達該倉庫:

End

崔慶才的新書 《Python3網路爬蟲開發實戰(第二版)》 已經正式上市了!書中詳細介紹了零基礎用 Python 開發爬蟲的各方面知識,同時相比第一版新增了 JavaScript 逆向、Android 逆向、非同步爬蟲、深度學習、Kubernetes 相關內容,‍同時本書已經獲得 Python 之父 Guido 的推薦,目前本書正在七折促銷中!

內容介紹: 《Python3網路爬蟲開發實戰(第二版)》內容介紹

掃碼購買

好文和朋友一起看~