這 6 個爬蟲開源專案 yyds

語言: CN / TW / HK

今天盤點 6 個爬蟲開源專案,它們可以幫你爬天爬地怕空氣,爬微博、爬B站、爬知乎、爬*站。

提前宣告,切勿使用這些專案從事非法商業活動,僅用於用於科研學習

01

微博爬蟲

這個開源專案程式可以持續爬取一個或多個新浪微博使用者(如李文di、無疫煩)的資料,並將結果資訊寫入檔案或資料庫。寫入資訊幾乎包括使用者微博的所有資料,包括使用者資訊和微博資訊兩大類。

地址:https://github.com/dataabc/weiboSpider

爬取結果可寫入檔案和資料庫,具體的寫入檔案型別如下:

  • txt檔案

  • csv檔案

  • json檔案

  • MySQL資料庫

  • MongoDB資料庫

  • SQLite資料庫

同時支援下載微博中的圖片和影片,具體的可下載檔案如下:

  • 原創微博中的原始圖片

  • 轉發微博中的原始圖片

  • 原創微博中的影片

  • 轉發微博中的影片

  • 原創微博Live Photo中的影片

  • 轉發微博Live Photo中的影片

首先需要修改 config.json 檔案,然後爬取,程式會自動生成一個 weibo 資料夾,我們以後爬取的所有微博都被儲存在這裡。

然後程式在該資料夾下生成一個名為"微博名字"的資料夾,明星的所有微博爬取結果都在這裡。資料夾裡包含一個csv檔案、一個txt檔案、一個json檔案、一個img資料夾和一個video資料夾,img資料夾用來儲存下載到的圖片,video資料夾用來儲存下載到的影片。如果你設定了儲存資料庫功能,這些資訊也會儲存在資料庫裡,資料庫設定見設定資料庫部分。    

02

Python爬蟲教程

Python爬蟲教程系列、從 0 到 1 學習 Python 爬蟲,包括瀏覽器抓包,手機 APP 抓包,如 fiddler、mitmproxy,各種爬蟲涉及的模組的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及驗證碼識別,MySQL,MongoDB 資料庫的 Python 使用,多執行緒多程序爬蟲的使用,css 爬蟲加密逆向破解,JS爬蟲逆向,分散式爬蟲,爬蟲專案實戰例項等。

地址:https://github.com/wistbean/learn_python3_spider

03

爬蟲集合

這個開源專案收集了各種爬蟲 ,包括 Blibli、部落格園、百度百科、北郵人、百度雲網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公眾號、網易雲等等,你能想到的國內外網站爬蟲,都可以先來這裡看看有沒有開源的爬蟲。

地址:https://github.com/facert/awesome-spider

04

智慧爬蟲平臺

這個開源平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。

地址:https://gitee.com/ssssssss-team/spider-flow

接下來以流程圖的方式,開始配置一些變數和引數,點開始就能爬出你想要的資料。

05

Java爬蟲

Spiderman 是一個Java開源Web資料抽取工具,它能夠收集指定的Web頁面並從這些頁面中提取有用的資料。

Spiderman主要是運用了像XPath,正則表示式等這些技術來實資料抽取。

地址:https://gitee.com/l-weiwei/spiderman

06

爬蟲大全

這個開源專案包含多種網站、電商資料爬蟲。包含:淘寶商品、微信公眾號、大眾點評、招聘網站、閒魚、阿里任務、scrapy部落格園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文字採集、fofa資產採集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評️️️。

地址:https://gitee.com/AJay13/ECommerceCrawlers

歡迎關注公眾號 逛逛GitHub ,每天推薦一個好玩有趣的開源專案。 最後,防止找不到本篇文章,可以收藏點贊,方便翻閱查詢。

推薦閱讀

1.  GitHub 上有什麼好玩的專案?

2.   推薦 7 個熱門電商 GitHub 專案

3. 女朋友讓我寫 1 萬字檢討

4. GitHub 上 7 個 yyds 演算法專案