影片分享 | Python文字挖掘與金融科技

語言: CN / TW / HK

第一屆中國研究生金融科技創新大賽講座 

2022/06/24 13:43

錄屏影片檔案:http://dwz.win/ayS8

大鄧選取了金融科技比賽中4個演算法主題,以文字分析為技術手段,做的概述性分享。內容以影片為準,錄屏已分享 至B站。

另類資料與投資演算法

資訊通訊技術的創新、網際網路和移動終端的普及,產生了了大量的區別於 傳統財務資料的新型資料,這類非財務資料具有資料量大、實時性高、顆粒度細及“原始”等特點,影響著資本市場,在投資領域的應用受到了越來越多的關注。投資者可以用 較低的成本 獲取大量的資料和資訊,對這類資訊進行篩選、分析,輔助制定投資決策。

能否選擇一種尚未在資本市場廣泛使用的另類資料,利用合適的演算法把該資料應用於 A 股市場投資當中,並尋找合適的演算法解決方案,研究其在投資中的價值,並構建出可行性的投資方案?

另類資料alternative data

大資料思維, 快、多、大、異。

另類大資料產生的更多更快,與傳統指標相關性小,能提供更多的資訊增益。

另類資料alternative data主要包含以下三種:

另類資料 包括 結構化 型別 python技術
個人產生的資料 社交媒體帖子、產品評論、網際網路搜尋趨勢等 非結構 網頁 爬蟲
由業務流程產生的資料 公司工商資料、專利資料、尾氣資料、招聘資料、商業交易、事件資料、招標資料、阿里巴巴、京東、美團等電商平臺數據、app排行榜、直播和搜尋指數資料等 結構化 數字 爬蟲
感測器產生的資料 衛星影象資料、行人和車輛流量、船舶位置等,地圖資料。 非結構 影象 圖片分析
第三方資料 分析師研報情感資料、一致性預期。 結構 數字 付費

國內提供另類資料的開源網站有:

  • tushare 付費

  • akshare 免費

文字

文化研究之父斯圖亞特·霍爾(Stuart Hall)在《電視話語中的編碼和解碼》(_Encoding and decoding inthe television discourse_)一文中提出了“ 編碼解碼 ”理論。

  • 編碼(encoding),資訊傳播者將所傳遞的訊息、意圖或觀點,轉化為具有特定規則的程式碼。

  • 解碼(decoding),資訊接受者,將上述程式碼按特定規則進行解讀。

資訊傳播學的編碼解碼理論

角度 解釋 難度 python庫
資訊檢索 新聞諮詢中是否出現某類資訊(某類詞) re、jieba
情感分析 文字中正面詞與負面詞含量的對比 jieba、nltk
文字相似度 兩文字向量化後的cosine餘弦值的 jieba、scikit-learn
文字分類 標註資料,使用文字資料做類別預測(利好、利空) scikit-learn
詞向量 - 不同主體對同一概念的認知(偏見、刻板印象)等。
- 同一主體對不同概念的認知。
gensim

文字相似度提前預警股價暴跌。

Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.

圖片

OCR影象識別,識別有沒有、有多少。

  • 停車場汽車停放量,識別有多少量車,預測沃爾瑪等商超的經營情況

音訊、影片

  • 演講音訊轉文字,用到文字分析,度量講話的語氣語調。

金融資訊輿情分析

新聞輿情作為金融投資市場上的重要資訊可以及時披露上市公司的經營狀 況或股價異動情況,常常可作為投資決策的重要參考,但市場中海量的輿情資訊難以通過人工的方式逐一分析,往往只能主觀挑選某些個人認為比較重要的 新聞媒體進行輿情的跟蹤,並忽略和拋棄其他新聞媒體的輿情資訊,這極有可能遺漏掉一部分有價值的重要資訊。

請各參賽隊伍根據賽方提供的上市公司新聞資訊資料,利用深度學習、自然語言處理演算法進行建模分析, 及時、準確地 判斷新聞資訊的 輿情傾向 (利好、中性、利空等)

新聞中的可以挖掘的金融指標

  • 分析師情緒    買在分歧,賣在一致。

  • 新聞情緒  機構、媒體、散戶。

測度演算法

使用文字分析對諮詢中的輿情傾向(利好、中性、利空等)進行分析。

演算法 功能 類比
詞典法 把文件轉為某個數。
例如政府工作報告中提到"創新"、"創業"的個數。
原子
機器學習 把 文件 轉為 vector 分子
詞嵌入 比機器學習更深入徹底,將word看做vector。工程師,含有 男性、技術、高薪。。。 夸克

需要的技術

  1. 詞典法-構造金融情感詞典

  • 共現法,上下文共同出現。

  • 詞向量法

  • ML做文字分類

  • 構造金融詞典

    共現法

    物以類聚,詞以群分。近義詞更容易出現在同一個上下文中。

    以「利好」「利空」為例

    1. 人工選定「利好」「利空」初始詞

    2. 構建語料內的詞語共現矩陣

    3. 得到與「利好」「利空」共現得分較高的前n個候選詞

    4. 分別輸出到txt內

    5. 人工篩查剔除

    詞向量

    以「利好」「利空」為例

    1. 人工選定「利好」「利空」初始詞

    2. 訓練語料內的詞向量模型

    3. 得到與「利好」「利空」向量相似度較高的前n個候選詞

    4. 分別輸出到txt內

    5. 人工篩選剔除

    ML做預測(利好1、利空0)步驟

    1. ...(標註資料)

    2. 匯入資料

    3. 資料清洗(剔除停用詞,雜亂字元等)

    4. 特徵工程(文字轉化為向量)

    5. 將資料分為訓練集和測試集

    6. 選擇某種ML演算法訓練模型

    7. 評價模型

    ML演算法

    機器學習演算法分為 監督式非監督式 。本節特指監督式,即同時含有x1, x2,...xn和y.

    ML訓練出的模型,實際上是通過資料,學習 y=f(x1, x2, ...xn)中的 f。

    監督學習演算法 程式碼匯入方法
    迴歸 from sklearn.linear_model import LinearRegression
    from sklearn.linear_model import LogisticRegression
    ...
    K近鄰 from sklearn.neighbors import KNeighborsClassifier
    ...
    支援向量機 from sklearn.svm import SVC
    ...
    決策樹 from sklearn.tree import DecisionTreeClassifier
    ...

    投保反欺詐模型

    機器學習可以根據豐富的資料和監控模型,對資料進行多重處理分析,建立實時反欺詐規則和模型,結合當前使用者特徵,實時識別使用者欺詐行為。

    請參賽隊伍在 瞭解投保資訊收集的基礎上 ,基於 機器學習技術 ,對投保過程中的資訊進行收集和分析,從資料中提取客戶多維度異常模式,探索大資料反欺詐規則,實現異常識別功能,提前檢測投保人在交易過程中是否有欺詐行為,識別可能的欺詐行為,減少欺詐損害。

    瞭解投保資訊收集的基礎上-->提取新的x

    ML做預測步驟

    1. ...(標註資料)

    2. 匯入資料

    3. 資料清洗(剔除停用詞,雜亂字元等)

    4. 特徵工程(構造並加入新的x)

    5. 將資料分為訓練集和測試集

    6. 選擇某種ML演算法訓練模型

    7. 評價模型

    監督學習演算法 程式碼匯入方法
    迴歸 from sklearn.linear_model import LinearRegression
    from sklearn.linear_model import LogisticRegression
    ...
    K近鄰 from sklearn.neighbors import KNeighborsClassifier
    ...
    支援向量機 from sklearn.svm import SVC
    ...
    決策樹 from sklearn.tree import DecisionTreeClassifier
    ...

    Kaggle程式碼

    公募產品個性化推薦系統

    在客戶需求升級和金融市場的競爭環境下,數字化運營將是未來金融機構核心競爭力的來源,是構築差異化優勢的重要手段。

    請參賽隊伍結合金融行業的數字化運營需求,根據賽方提供的公募基金資訊資料、風險等級資料、使用者行為點選序列、公募產品詳情頁的停留時長、公募產品的自選收藏等行為資料集,運用機器學習、深度學習、推薦演算法等科技手段,分析預測使用者的下一個興趣點,在滿足風險合規的條件下為合適的使用者找到合適的產品。

    方法論基礎

    假設:  相似的人 喜歡做 相似的事情

    有三種推薦演算法

    推薦系統演算法思想 解釋 特徵向量化
    Demographic Filtering 相似人口特徵的人 喜歡 相似的事(物) 將人向量化。[age、gendre、salary、consume、地理、、、]
    Content Based Filtering 如果一個人喜歡某個特定事(物),他或她也會喜歡與它相似的專案。 將事物向量化
    Collaborative Filtering 協同(聯合) 人與事(物) 的 配對匹配 存在模式 使用者-評價-矩陣

    Collaborative Filtering | user-item-matrix

    以使用者影評為例,挖掘構造出使用者、產品的特點(特徵向量)。

    冷啟動問題

    如果某個使用者,沒有任何影評資料,如何預測該使用者的偏好?

    思路: 依然假設物以類聚,人以群分。

    公募基金公司  有歷史記錄

    user 型別 個人風險偏好考試 金額
    User1 (age/gender/edu/addr/intro) 債券 保守 5000
    User2 (age/gender/edu/addr/intro) 股票 激進 10000
    ... .. .. ..

    精選文章

    從符號到嵌入:計算社會科學的兩種文字表示

    推薦 | 社科(經管)文字分析快速指南

    使用cntext訓練Glove詞嵌入模型

    擴增內建pkl | 歡迎各位向cntext庫分享情感詞典

    cntext庫 | 關於DUTIR被汙染解決辦法

    sklearnex庫 | 兩行程式碼百倍加速你的機器學習程式碼

    認知的測量 | 向量距離vs語義投影

    Wordify | 發現和區分消費者詞彙的工具

    影片專欄課 | Python實證指標構建與文字分析

    PNAS | 文字網路分析&文化橋樑Python程式碼實現

    Wordify | 發現和區分消費者詞彙的工具

    BERTopic庫 | 使用預訓練模型做話題建模

    tomotopy | 速度最快的LDA主題模型

    管理世界 | 如何用文字分析度量管理層短視主義

    管理世界 | 使用中文LM金融詞典做管理層語調分析

    管理世界 | 使用中文LM金融詞典做管理層語調分析

    文字分析 | 中國企業高管團隊創新注意力(含程式碼)

    近年《管理世界》《管理科學學報》使用文字分析論文

    100min影片 | Python文字分析與會計