Python爬蟲程式設計思想(64): 在pyquery中使用CSS選擇器

語言: CN / TW / HK

pyquery的CSS選擇器用於指定CSS程式碼,並通過CSS程式碼選取HTML文件中對應的節點。建立一個CSS選擇器需要建立一個PyQuery物件,PyQuery類的構造方法需要傳入一個HTML文件(可以是字串、URL或檔案形式)。由於PyQuery類過載了函式呼叫運算子(實現了__call__函式),所以可以按下面的程式碼使用PyQuery類的例項。

from pyquery import PyQuery as pq
doc = pq(html)
# 由於PyQuery類過載了函式呼叫運算子,所以可以像呼叫函式一樣使用PyQuery的例項,函式引數就是CSS程式碼
result = doc('#button1')

下面的例子用PyQuery物件解析了字串形式的HTML程式碼和京東商城首頁的HTML程式碼,並通過CSS選擇器提取字串形式的HTML程式碼中的節點資訊,以及京東商城首頁導航條連結的文字。

京東商城導航條的樣式如圖1所示。我們要提取的就是這一行文字,如“秒殺”、“優惠券”等。