限時優惠 | Python網路爬蟲&文字分析

語言: CN / TW / HK

為何要學Python?

在科學研究中,資料的獲取及分析是最重要的也是最棘手的兩個環節!

前大資料時代 ,一般使用實驗法、調查問卷、訪談或者二手資料等方式,將資料整理為結構化的表格資料,之後再使用各種計量分析方法,對這些表格資料進行分析。但 大資料時代 ,網路資料成為各方學者亟待挖掘的潛在寶藏,大量商業資訊、社會資訊以文字等非結構化、異構型資料格式儲存於海量的網頁中。那麼對於經管為代表的人文社科類專業科研工作者而言,通過Python可以幫助學者解決使用Web資料進行科研面臨的兩個問題:

  1. 網路爬蟲技術解決 如何從網路世界中高效地 採集資料

  2. 文字分析技術解決 如何從雜亂的文字資料中 抽取文字資訊(變數)

課程綱要

  • 課程目標:掌握Python語法、網路爬蟲、資料分析Pandas、文字分析、機器學習的核心知識點和分析思路

  • 核心知識點:爬蟲原理及應用、 非結構化文字資料探勘的思路及方法、機器學習應用等

  • 環境配置:安裝Python,注意安裝過程中勾選 Add python 3.x to PATH

  • 課件資料:本課程全部使用jupyter notebook檔案作為課程課件

課程特色

  • 接地氣:以經管學術需求為導向, 將Python分為語法篇、採集資料篇、文字分析篇、機器學習篇四大部分

  • 好理解:知識點力求通俗易懂,少了晦澀的計算機術語,多了通俗易懂的使用場景和實戰講解

  • 上手快:所有知識點均有可重複使用的程式碼塊,猶如一塊塊的積木,課後您可以根據分析需要,快速搭建出自己的Python程式碼

一、準備工作

  1. 課程介紹

  2. Win中的Python配置

  3. Mac中的Python配置

  4. 課件下載

二、Python語法入門

  1. Python跟英語一樣是一門語言

  2. 資料型別之字串

  3. 資料型別之列表元組集合

  4. 資料型別之字典

  5. 資料型別之布林值、None

  6. 邏輯語句(if&for&tryexcept)

  7. 列表推導式

  8. 理解函式

  9. 常用的內建函式

  10. 內建庫檔案路徑pathlib庫

  11. 內建庫csv檔案庫

  12. 內建庫正則表示式re庫

  13. 初學python常出錯誤彙總

三、資料採集

  1. 網路爬蟲原理

  2. 網路訪問requests庫

  3. 網頁解析pyquery庫

  4. 案例 1大眾點評

  5. 案例 2豆瓣讀書

  6. 案例 3招聘網

  7. 如何解析json資料

  8. 案例 4豆瓣電影

  9. 案例 5京東商城

  10. 案例 6用爬蟲下載文件及多媒體檔案

  11. 案例 7上市公司定期報告pdf批量下載

  12. 案例 8上交所招股說明pdf批量下載

  13. 案例 9深交所招股說明pdf批量下載

  14. 爬蟲知識點總結

四、資料分析

  1. Pandas基礎知識

  2. 資料去重與缺失值處理

  3. 合併資料

  4. 重塑資料

  5. 選取表中指定記錄(行)

  6. 選取表中指定欄位(列)

  7. 描述性統計

  8. 在表中建立新欄位(列)

  9. 批操作apply與agg

  10. 透視表pivot_table

  11. 資料分組groupby

  12. 時間序列時間點建立

  13. 日期資料的dt屬性

  14. 日期行索引操作(選取指定日期的資料)

  15. 時間序列date_range

  16. 時間序列重取樣resample

  17. 時間序列時間視窗rolling

  18. 案例 1Kaggle titanic資料集探索性分析

  19. 案例 11Boss直聘Python崗位分析

五、初識文字分析

  1. 什麼是文字分析

  2. 讀取不同格式檔案中的資料

  3. 實戰之如何將多個整理到一個excel中

  4. 案例 12中文分詞及資料清洗

  5. 案例 13詞頻統計&詞雲圖

  6. 案例 14中文情感分析(詞典法)

  7. 案例 15對excel中的文字進行情感分析

  8. 案例 16共現法擴充套件情感詞典(領域詞典)

  9. 案例 17詞向量word2vec擴充領域詞典

六、機器學習與文字分析

  1. 瞭解機器學習

  2. 使用機器學習做文字分析的流程

  3. scikit-learn機器學習庫簡介

  4. 文字特徵抽取(特徵工程)

  5. 案例 18線上評論文字分類

  6. 使用標註工具對資料進行標註

  7. 案例 19計算文字情感分析(有權重)

  8. 案例 20文字相似性計算

  9. 案例 21使用文字相似性識別變化(政策連續性)

  10. 案例 22Kmeans聚類演算法

  11. 案例 23LDA話題模型

  12. 文字分析在經管領域中的應用概述

文字分析相關應用

參照兩篇論文的摘要,可以通過場景化等的方式幫助我們迅速理解上面兩個問題。摘要部分的加粗內容是論文用到的分析技術,在我們的課程中均有與之對應的知識點和程式碼。

王偉,陳偉,祝效國,王洪偉.眾籌融資成功率與語言風格的說服性——基於Kickstarter的實證研究[J].管理世界,2016(05):81-98.

摘要:眾籌融資效果決定著眾籌平臺的興衰。眾籌行為很大程度上是由投資者的主觀因素決定的,而影響主觀判斷的一個重要因素就是語言的說服性。而這又是一種典型的用 戶產生內容(UGC),專案發起者可以採用任意型別的語言風格對專案進行描述。不同的語 言風格會改變投資者對專案前景的感知,進而影響他們的投資意願。首先,依據 Aristotle 修 辭三元組以及 Hovland 說服模型,採用紮根理論,將眾籌專案的語言說服風格分為 5 類:訴諸可信、訴諸情感、訴諸邏輯、訴諸回報和訴諸誇張。

然後,藉助文字挖掘方法,構建說服風格語料庫,並對專案摘要進行分類。

最後,建立語言說服風格對專案籌資影響的計量模型,並對 Kickstarter 平臺上的 128345 個專案進行實證分析 。總體來說,由於專案性質的差異,不同 的專案類別對應於不同的最佳說服風格。

胡楠,薛付婧,王昊楠.管理者短視主義影響企業長期投資嗎?——基於文字分析和機器學習[J].管理世界,2021,37(05):139-156+11+19-21.

在可持續發展戰略導向下,秉持長遠理念是企業抵禦外部環境威脅和擁有可持續經營能力的基 石。然而,作為企業掌舵人的管理者並非都具有長遠的目光。本文基於高層梯隊理論和社會心理學中的時間 導向理論,提出了管理者內在的短視主義特質與企業資本支出和研發支出的關係,並 採用文字分析和機器學習技術構建出管理者短視主義指標從而對其進行實證檢驗 。研究結果發現, 年報 MD&A 中披露的“短期視域” 語言 能夠反映管理者內在的短視主義特質,管理者短視會導致企業減少資本支出和研發支出。當公司治理水平、監督型機構投資者的持股比例以及分析師關注度越高時,管理者短視主義對這些長期投資的負向影響越易受到抑制。最終,管理者短視主義導致的研發支出減少和資本投資效率降低會損害企業的未來績效。本文拓寬了管理者短視主義的行為後果分析,對企業高層次管理人才的聘任以及企業和政府的監管具有重要的實踐啟示。 同時,本文將文字分析和機器學習方法引入管理者短視主義的研究,為未來該領域的研究提供了參考和借鑑。

Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis." Information Systems Research 29, no. 2 (2018): 273-291.

摘要:儘管移動應用程式市場的增長為移動應用程式開發人員創新提供了巨大的市場機會和經濟誘因,但它也不可避免地刺激了模仿者開發盜版軟體。原始應用的從業人員和開發人員聲稱,模仿者竊取了原始應用的想法和潛在需求,並呼籲應用平臺對此類模仿者採取行動。令人驚訝的是,很少有嚴格的研究來分析模仿者是否以及如何影響原始應用的需求。

進行此類研究的主要威懾因素是缺乏一種客觀的方法來識別應用程式是模仿者還是原創者。通過結合自然語言處理,潛在語義分析,基於網路的聚類和影象分析等機器學習技術,我們提出了一種將應用識別為原始或模仿者並檢測兩種模仿者的方法:欺騙性和非欺騙性。

根據檢測結果,我們進行了經濟計量分析,以確定五年間在iOS App Store中釋出的 5,141個開發人員的10,100個動作遊戲應用程式 樣本中,模仿應用程式對原始應用程式需求的影響。我們的結果表明,特定模仿者對原始應用需求的影響取決於模仿者的質量和欺騙程度。高質量的非欺騙性複製品會對原件產生負面影響。相比之下,低質量,欺騙性的模仿者正面影響了對原件的需求。

結果表明,從總體上講,模仿者對原始移動應用程式需求的影響在統計上是微不足道的。 我們的研究通過提供一種識別模仿者的方法 ,並提供模仿者對原始應用需求的影響的證據,為越來越多的移動應用消費文獻做出了貢獻。

文獻

[1]沈豔,陳贇,黃卓.文字大資料分析在經濟學和金融學中的應用:一個文獻綜述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19

[2]王偉,陳偉,祝效國,王洪偉. 眾籌融資成功率與語言風格的說服性-基於Kickstarter的實證研究. 管理世界 .2016;5:81-98.

[3]胡楠,薛付婧,王昊楠.管理者短視主義影響企業長期投資嗎?——基於文字分析和機器學習[J].管理世界,2021,37(05):139-156+11+19-21.

[4]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies ,2020

[5]Kenneth Benoit. July 16, 2019. “Text as Data: An Overview.” Forthcoming in Cuirini, Luigi and Robert Franzese, eds. Handbook of Research Methods in Political Science and International Relations. Thousand Oaks: Sage.

[6]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research , 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

[7]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25.

[8]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." Journal of Business and Psychology 33, no. 4 (2018): 445-459.

[9]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." The Journal of Finance 75, no. 3 (2020): 1371-1415.

[10]孟慶斌, 楊俊華, 魯冰. 管理層討論與分析披露的資訊含量與股價崩盤風險——基於文字向量化方法的研究[J]. 中國工業經濟 , 2017 (12): 132-150.

[11]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

[12]Hoberg, Gerard, and Gordon Phillips. 2016, Text-based network industries and endogenous product differentiation,? Journal of Political Economy 124, 1423-1465

[13]Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." The Journal of Finance 66, no. 1 (2011): 35-65.

[14]Fairclough, Norman. 2003. Analysing discourse: Textual analysis for social research (Psychology Press)

[15]Grimmer, Justin, and Brandon M Stewart. 2013, Text as data: The promise and pitfalls of automatic content analysis methods for political texts, Political analysis 21, 267-297.