一日一知:國內爬蟲開發人員的未來

語言: CN / TW / HK

攝影:產品經理

烤三文魚腩

先丟擲我的觀點:希望各位做爬蟲的同學,儘快,儘可能多地做海外的爬蟲專案,爬海外的網站,這才是你們新的未來。

最近兩年,我已經沒有做過國內任何網站的爬蟲了,根據這兩年爬海外網站的一些經驗,談談我的發現和想法。

內地的環境不適合做爬蟲

國內網站在這麼多年的爬蟲與反爬蟲的鬥爭中,反爬能力越來越強,瑞數、極驗和其它第三方專業反爬蟲系統,已經能擋住很多人了。

國內值得爬的網站就只有幾個,大家都在爬,你有1GB的資料,他有1TB的資料,內卷極其嚴重。並且還有很多工作室直接使用群控技術,幾萬臺機器一起爬,普通人很難跟他們競爭。

國內一些專門做輿情分析的公司,他們甚至可以通過地下渠道直接拿到網站的內部API,資料質量比你通過爬蟲爬的資料高多了。

最後,比較重要的是,爬國內的大網站,很容易被請喝茶。輕者拘留,重者在檔案裡面留下一輩子的汙點。

海外資料的新機遇

NLP的語料

NLP最重要的四個元素就是:語料、模型、演算法、算力。其中模型和算力可以複用,自然不是問題。但因為沒有人抓海外的資料,因此缺少了語料,沒有語料,就沒有辦法訓練模型。NLP裡面的ABSA、語意理解、文字生成、智慧問答也全都做不下去。特別是小眾語言——法語、俄語、韓語、西班牙語,幾乎就沒有國內的公司在做。

抓資料不難,但難在對資料的標註。現在國內對小眾語言的標註,還停留在使用Google翻譯把小眾語言先翻譯成英文,再讓人去給英文打標的階段。

如果你能儘早收集小語種的語料,然後讓懂這個語料的人去打標,那麼以後即便你不直接做NLP,光出售小語種的標註資料,你都可以大賺一筆。國內學習小語種的大學生,找工作都很困難。如果你能讓他們兼職給你標註資料,不僅提供了就業崗位,而且價格非常低廉,屬於是雙贏。

語料抓取的壁壘不是爬蟲技術,而是資料量和資料多樣性。資料量達到一定規模以後,壁壘自然就能形成。別人的爬蟲再先進,只要他短期收集不了那麼多的資料,那麼他就沒有辦法超過你。

總之,越早開始收集海外語料,越早能形成自己的壁壘。

遊戲出海

眾所周知,遊戲在內地已經沒有未來了,各大遊戲廠商在接下來的幾年會把遊戲出海作為最重要的目標。目前已經有幾家公司的遊戲在東南亞大殺四方,在歐美市場也一路血洗當地的產品。想必大家都知道我說的是哪幾個遊戲。

但可以確定的是,目前國內做輿情分析的公司,還沒有誰能夠把海外輿情(特指非英語國家)分析做好。如果你有豐富的海外輿情抓取經驗,那麼當這些公司招聘的時候,你就有很高的競爭力。

盡職調查

除了遊戲外,基於資料的盡職調查也是一個方向。投資人在確定是否要投資某個創業公司前,都會做盡職調查(DD)。其中基於資料的盡職調查(DDD)就是其中的重要一環。例如一個電商初創公司告訴投資人,他每個月的銷售額有幾百億,然後你用爬蟲爬一下他的商城,根據每個商品的銷量和評論,反推出他的月銷售額只有幾百元,那麼你就能知道這個電商公司在騙投資人了。

又比如某個直播網站,對投資人宣稱自己的日活月活非常高,然後你用爬蟲監控一下熱門主播的評論數,禮物數,設計一個公式計算出它的真實日活月活,兩邊一對比你就知道他們有沒有騙人了。

海外網站是新的藍海

只要你把視野放開,稍微研究一下我國臺灣、香港的網站,以及英法意德,巴西韓國,俄羅斯東南亞的網站,你就會發現:

  1. 大部分網站幾乎沒有反爬蟲機制

  2. 語料極其豐富

  3. 小部分網站有極難的反爬蟲系統(Akamai),但是可以通過曲折繞過的方式拿到資料

  4. 國內幾乎沒有競爭對手,你爬得越多,你積累的原始資本就越大

如果你是個人開發者,你幾乎不用擔心有什麼風險。因為不會有人來找你喝茶。

怎麼跟外國的公司競爭?

有人可能會問,難道美國、歐洲自己沒有做爬蟲、做輿情的公司嗎?他們肯定也做了很多年了,為什麼國內的公司要找你,而不去找這些歐美本土的公司?

我認為,就憑這五個字: 你是自己人

如果你是一家中國的公司,專注分析海外輿情。即便你的業務能力跟一家歐美公司差不多甚至稍微低一些(當然低太多可不行),國內的大公司在選擇合作伙伴的時候,一定會優先考慮你,而不是歐美當地的公司。

無論從人性上,還是從法律合規上,選擇自己人都會安心很多。從人性上,中國人會選擇跟中國人合作。大家都在網際網路圈子,你這個公司怎麼樣,你這個老闆怎麼樣,稍稍打聽一下就知道了。只要知道你確實有實力,為什麼不找你?

從業務上,兩邊公司溝通都用中文,有什麼問題線上聊一下或者出個差,早上出發中午就能到,溝通起來很方便。

大公司應該怎麼做爬蟲?

我提到如果你是個人開發者或者小公司,那麼你幾乎不用擔心任何風險。儘管爬就是了。

但如果你是國內的大公司,那麼還是有一些注意事項的。因為大公司會擔心像GDPR這樣的資訊保護法,也會擔心如果爬蟲被發現了會影響自己的國際聲譽。但這些其實都不是什麼大問題,都有辦法繞過去的。

具體做法跟本文的關係不大,我就先不講了。如果大家對爬蟲出海有興趣的話,請留言告訴我,我可以再分享一些具體的實踐經驗。

未聞 Code·知識星球開放啦!

一對一答疑爬蟲相關問題

職業生涯諮詢

面試經驗分享

每週直播分享

......

未聞 Code·知識星球期待與你相見~

一二線大廠在職員工

十多年碼齡的程式設計老鳥

國內外高校在讀學生

中小學剛剛入門的新人

“未聞 Code技術交流群” 等你來!

入群方式:新增微信“mekingname”,備註“粉絲群”(謝絕廣告黨,非誠勿擾!)