Python爬蟲程式設計思想(154):使用Scrapy處理登入頁面

語言: CN / TW / HK

在抓取Web頁面資料時,並不是每一個頁面的資料在任何時候都可以抓取到。有一些頁面,需要使用者登入後才可以在瀏覽器中顯示,如果想通過爬蟲抓取這樣的頁面,同樣也需要登入。也就是說,這種頁面只有特定的使用者才能訪問。

對於需要登入才能訪問的頁面有多種情況,其中比較容易抓取的是不管以任何使用者登入,頁面都相同,或者只想抓取特定使用者登入後的頁面,在這種情況下,可以事先在網站上註冊一個使用者,然後在抓取Web頁面之前,先用程式模擬登入,登入成功後,就可以繼續利用爬蟲下載該Web頁面了。

本例通過Flask框架實現了一個簡單的Web伺服器,用於模擬需要登入才能訪問的Web頁面,然後使用Scrapy模擬登入,最後再使用Scrapy抓取登陸後頁面的內容。

現在先來建立相關的Web頁面。

登入頁面(login.html)

「其他文章」