Python爬蟲程式設計思想(151):使用Scrapy抓取資料,用ItemLoader儲存單條抓取的資料

語言: CN / TW / HK

在前面的文字中通過parse方法返回一個MyscrapyItem物件的方式將抓取的資料儲存到指定的檔案中,本文會介紹另外一種儲存資料的方式:ItemLoader。

本質上,ItemLoader物件也是通過返回一個item的方式儲存資料的,只不過ItemLoader物件將item和response(用於從服務端獲取響應資料的物件)進行了封裝。

ItemLoader類的構造方法常用的引數有2個:item和response,其中item用於指定Item物件(如本例的MyscrapyItem物件),response用於指定從服務的獲取資料的物件(本例是response,也是parse方法的第2個引數)。

下面的例子會通過一個ItemLoader物件以及XPath擷取文章列表的第一篇文章的標題、摘要和Url。它們分別儲存在title、abstract和href三個屬性中。最後在執行網路爬蟲時會通過“-o”命令列引數指定儲存的檔案型別(通過副檔名確定檔案型別),成功執行後,就會將抓取到的資料儲存到指定的檔案中。

import scrapy
from scr
「其他文章」