用go語言爬取珍愛網 | 第一回

語言: CN / TW / HK

image

我們來用go語言爬取“珍愛網”使用者資訊。

首先分析到請求url為:

http://www.zhenai.com/zhenghun

image

接下來用go請求該url,程式碼如下:

package main

import (
 "fmt"
 "io/ioutil"
 "net/http"
)

func main() {

 //返送請求獲取返回結果
 resp, err := http.Get("http://www.zhenai.com/zhenghun")

 if err != nil {
   panic(fmt.Errorf("Error: http Get, err is %v\n", err))
 }

 //關閉response body
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
   fmt.Println("Error: statuscode is ", resp.StatusCode)
   return
 }

 body, err := ioutil.ReadAll(resp.Body)

 if err != nil {
   fmt.Println("Error read body, error is ", err)
 }

 //列印返回值
 fmt.Println("body is ", string(body))
}

執行後會發現返回體裡有很多亂碼:

image

在返回體裡可以找到<meta charset="gbk" /> 即編碼為gbk,而go預設編碼為utf-8,所以就會出現亂碼。接下來用第三方庫將其編碼格式轉為utf-8。

由於訪問golang.org/x/text需要梯子,不然報錯:

image

所以在github上下載:

mkdir -p $GOPATH/src/golang.org/x
cd $GOPATH/src/golang.org/x
git clone https://github.com/golang/text.git

然後將gbk編碼轉換為utf-8,需要修改程式碼如下:

utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
body, err := ioutil.ReadAll(utf8Reader)

考慮到通用性,返回的編碼格式不一定是gbk,所以需要對實際編碼做判斷,然後將判斷結果轉為utf-8,需要用到第三方庫golang.org/x/net/html,同樣的在github上下載:

mkdir -p $GOPATH/src/golang.org/x
cd $GOPATH/src/golang.org/x
git clone https://github.com/golang/net

那麼程式碼就變成這樣:

package main

import (
 "fmt"
 "io/ioutil"
 "net/http"
 "golang.org/x/text/transform"
 //"golang.org/x/text/encoding/simplifiedchinese"
 "io"
 "golang.org/x/text/encoding"
 "bufio"
 "golang.org/x/net/html/charset"
)

func main() {

 //返送請求獲取返回結果
 resp, err := http.Get("http://www.zhenai.com/zhenghun")

 if err != nil {
   panic(fmt.Errorf("Error: http Get, err is %v\n", err))
 }

 //關閉response body
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
   fmt.Println("Error: statuscode is ", resp.StatusCode)
   return
 }

 //utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
 utf8Reader := transform.NewReader(resp.Body, determinEncoding(resp.Body).NewDecoder())
 body, err := ioutil.ReadAll(utf8Reader)

 if err != nil {
   fmt.Println("Error read body, error is ", err)
 }

 //列印返回值
 fmt.Println("body is ", string(body))
}

func determinEncoding(r io.Reader) encoding.Encoding {

 //這裡的r讀取完得保證resp.Body還可讀
 body, err := bufio.NewReader(r).Peek(1024)

 if err != nil {
   fmt.Println("Error: peek 1024 byte of body err is ", err)
 }

 //這裡簡化,不取是否確認
 e, _, _ := charset.DetermineEncoding(body, "")
 return e
}

執行後就看不到亂碼了:

image

今天先爬到這裡,明天將提取返回體中的地址URL和城市,下一節見。

本公眾號免費 提供csdn下載服務,海量IT學習資源, 如果你準備入IT坑,勵志成為優秀的程式猿,那麼這些資源很適合你,包括但不限於java、go、python、springcloud、elk、嵌入式 、大資料、面試資料、前端 等資源。同時我們組建了一個技術交流群,裡面有很多大佬,會不定時分享技術文章,如果你想來一起學習提高,可以公眾號後臺回覆【 2 】,免費邀請加技術交流群互相學習提高,會不定期分享程式設計IT相關資源。

掃碼關注,精彩內容第一時間推給你

image

本公眾號免費 提供csdn下載服務,海量IT學習資源, 如果你準備入IT坑,勵志成為優秀的程式猿,那麼這些資源很適合你,包括但不限於java、go、python、springcloud、elk、嵌入式 、大資料、面試資料、前端 等資源。同時我們組建了一個技術交流群,裡面有很多大佬,會不定時分享技術文章,如果你想來一起學習提高,可以公眾號後臺回覆【 2 】,免費邀請加技術交流群互相學習提高,會不定期分享程式設計IT相關資源。

掃碼關注,精彩內容第一時間推給你

image