影片分享 | Python文字挖掘與金融科技
第一屆中國研究生金融科技創新大賽講座
2022/06/24 13:43
錄屏影片檔案:http://dwz.win/ayS8
大鄧選取了金融科技比賽中4個演算法主題,以文字分析為技術手段,做的概述性分享。內容以影片為準,錄屏已分享 至B站。
另類資料與投資演算法
資訊通訊技術的創新、網際網路和移動終端的普及,產生了了大量的區別於 傳統財務資料的新型資料,這類非財務資料具有資料量大、實時性高、顆粒度細及“原始”等特點,影響著資本市場,在投資領域的應用受到了越來越多的關注。投資者可以用 較低的成本 獲取大量的資料和資訊,對這類資訊進行篩選、分析,輔助制定投資決策。
能否選擇一種尚未在資本市場廣泛使用的另類資料,利用合適的演算法把該資料應用於 A 股市場投資當中,並尋找合適的演算法解決方案,研究其在投資中的價值,並構建出可行性的投資方案?
另類資料alternative data
大資料思維, 快、多、大、異。
另類大資料產生的更多更快,與傳統指標相關性小,能提供更多的資訊增益。
另類資料alternative data主要包含以下三種:
另類資料 | 包括 | 結構化 | 型別 | python技術 |
---|---|---|---|---|
個人產生的資料 | 社交媒體帖子、產品評論、網際網路搜尋趨勢等 | 非結構 | 網頁 | 爬蟲 |
由業務流程產生的資料 | 公司工商資料、專利資料、尾氣資料、招聘資料、商業交易、事件資料、招標資料、阿里巴巴、京東、美團等電商平臺數據、app排行榜、直播和搜尋指數資料等 | 結構化 | 數字 | 爬蟲 |
感測器產生的資料 | 衛星影象資料、行人和車輛流量、船舶位置等,地圖資料。 | 非結構 | 影象 | 圖片分析 |
第三方資料 | 分析師研報情感資料、一致性預期。 | 結構 | 數字 | 付費 |
國內提供另類資料的開源網站有:
-
tushare 付費
-
akshare 免費
文字
文化研究之父斯圖亞特·霍爾(Stuart Hall)在《電視話語中的編碼和解碼》(_Encoding and decoding inthe television discourse_)一文中提出了“ 編碼解碼 ”理論。
-
編碼(encoding),資訊傳播者將所傳遞的訊息、意圖或觀點,轉化為具有特定規則的程式碼。
-
解碼(decoding),資訊接受者,將上述程式碼按特定規則進行解讀。
資訊傳播學的編碼解碼理論
角度 | 解釋 | 難度 | python庫 |
---|---|---|---|
資訊檢索 | 新聞諮詢中是否出現某類資訊(某類詞) | 低 | re、jieba |
情感分析 | 文字中正面詞與負面詞含量的對比 | 低 | jieba、nltk |
文字相似度 | 兩文字向量化後的cosine餘弦值的 | 中 | jieba、scikit-learn |
文字分類 | 標註資料,使用文字資料做類別預測(利好、利空) | 中 | scikit-learn |
詞向量 |
- 不同主體對同一概念的認知(偏見、刻板印象)等。 - 同一主體對不同概念的認知。 |
高 | gensim |
文字相似度提前預警股價暴跌。
Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
圖片
OCR影象識別,識別有沒有、有多少。
-
停車場汽車停放量,識別有多少量車,預測沃爾瑪等商超的經營情況
音訊、影片
-
演講音訊轉文字,用到文字分析,度量講話的語氣語調。
金融資訊輿情分析
新聞輿情作為金融投資市場上的重要資訊可以及時披露上市公司的經營狀 況或股價異動情況,常常可作為投資決策的重要參考,但市場中海量的輿情資訊難以通過人工的方式逐一分析,往往只能主觀挑選某些個人認為比較重要的 新聞媒體進行輿情的跟蹤,並忽略和拋棄其他新聞媒體的輿情資訊,這極有可能遺漏掉一部分有價值的重要資訊。
請各參賽隊伍根據賽方提供的上市公司新聞資訊資料,利用深度學習、自然語言處理演算法進行建模分析, 及時、準確地 判斷新聞資訊的 輿情傾向 (利好、中性、利空等)
新聞中的可以挖掘的金融指標
-
分析師情緒 買在分歧,賣在一致。
-
新聞情緒 機構、媒體、散戶。
測度演算法
使用文字分析對諮詢中的輿情傾向(利好、中性、利空等)進行分析。
演算法 | 功能 | 類比 |
---|---|---|
詞典法 |
把文件轉為某個數。 例如政府工作報告中提到"創新"、"創業"的個數。 |
原子 |
機器學習 | 把 文件 轉為 vector | 分子 |
詞嵌入 |
比機器學習更深入徹底,將word看做vector。工程師,含有 男性、技術、高薪。。。
|
夸克 |
需要的技術
-
詞典法-構造金融情感詞典
-
共現法,上下文共同出現。
-
詞向量法
ML做文字分類
構造金融詞典
共現法
物以類聚,詞以群分。近義詞更容易出現在同一個上下文中。
以「利好」「利空」為例
-
人工選定「利好」「利空」初始詞
-
構建語料內的詞語共現矩陣
-
得到與「利好」「利空」共現得分較高的前n個候選詞
-
分別輸出到txt內
-
人工篩查剔除
詞向量
以「利好」「利空」為例
-
人工選定「利好」「利空」初始詞
-
訓練語料內的詞向量模型
-
得到與「利好」「利空」向量相似度較高的前n個候選詞
-
分別輸出到txt內
-
人工篩選剔除
ML做預測(利好1、利空0)步驟
-
...(標註資料)
-
匯入資料
-
資料清洗(剔除停用詞,雜亂字元等)
-
特徵工程(文字轉化為向量)
-
將資料分為訓練集和測試集
-
選擇某種ML演算法訓練模型
-
評價模型
ML演算法
機器學習演算法分為 監督式 和 非監督式 。本節特指監督式,即同時含有x1, x2,...xn和y.
ML訓練出的模型,實際上是通過資料,學習 y=f(x1, x2, ...xn)中的 f。
監督學習演算法 | 程式碼匯入方法 |
---|---|
迴歸 |
from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression ... |
K近鄰 |
from sklearn.neighbors import KNeighborsClassifier ... |
支援向量機 |
from sklearn.svm import SVC ... |
決策樹 |
from sklearn.tree import DecisionTreeClassifier ... |
投保反欺詐模型
機器學習可以根據豐富的資料和監控模型,對資料進行多重處理分析,建立實時反欺詐規則和模型,結合當前使用者特徵,實時識別使用者欺詐行為。
請參賽隊伍在 瞭解投保資訊收集的基礎上 ,基於 機器學習技術 ,對投保過程中的資訊進行收集和分析,從資料中提取客戶多維度異常模式,探索大資料反欺詐規則,實現異常識別功能,提前檢測投保人在交易過程中是否有欺詐行為,識別可能的欺詐行為,減少欺詐損害。
瞭解投保資訊收集的基礎上-->提取新的x
ML做預測步驟
-
...(標註資料)
-
匯入資料
-
資料清洗(剔除停用詞,雜亂字元等)
-
特徵工程(構造並加入新的x)
-
將資料分為訓練集和測試集
-
選擇某種ML演算法訓練模型
-
評價模型
監督學習演算法 | 程式碼匯入方法 |
---|---|
迴歸 |
from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression ... |
K近鄰 |
from sklearn.neighbors import KNeighborsClassifier ... |
支援向量機 |
from sklearn.svm import SVC ... |
決策樹 |
from sklearn.tree import DecisionTreeClassifier ... |
Kaggle程式碼
公募產品個性化推薦系統
在客戶需求升級和金融市場的競爭環境下,數字化運營將是未來金融機構核心競爭力的來源,是構築差異化優勢的重要手段。
請參賽隊伍結合金融行業的數字化運營需求,根據賽方提供的公募基金資訊資料、風險等級資料、使用者行為點選序列、公募產品詳情頁的停留時長、公募產品的自選收藏等行為資料集,運用機器學習、深度學習、推薦演算法等科技手段,分析預測使用者的下一個興趣點,在滿足風險合規的條件下為合適的使用者找到合適的產品。
方法論基礎
假設: 相似的人 喜歡做 相似的事情
有三種推薦演算法
推薦系統演算法思想 | 解釋 | 特徵向量化 |
---|---|---|
Demographic Filtering | 相似人口特徵的人 喜歡 相似的事(物) | 將人向量化。[age、gendre、salary、consume、地理、、、] |
Content Based Filtering | 如果一個人喜歡某個特定事(物),他或她也會喜歡與它相似的專案。 | 將事物向量化 |
Collaborative Filtering 協同(聯合) | 人與事(物) 的 配對匹配 存在模式 | 使用者-評價-矩陣 |
Collaborative Filtering | user-item-matrix
以使用者影評為例,挖掘構造出使用者、產品的特點(特徵向量)。
冷啟動問題
如果某個使用者,沒有任何影評資料,如何預測該使用者的偏好?
思路: 依然假設物以類聚,人以群分。
公募基金公司 有歷史記錄
user | 型別 | 個人風險偏好考試 | 金額 |
---|---|---|---|
User1 (age/gender/edu/addr/intro) | 債券 | 保守 | 5000 |
User2 (age/gender/edu/addr/intro) | 股票 | 激進 | 10000 |
... | .. | .. | .. |
精選文章
sklearnex庫 | 兩行程式碼百倍加速你的機器學習程式碼
100min影片 | Python文字分析與會計
- 25個Matplotlib圖的Python程式碼,複製直接可用!
- 用了這個工具,我節省電腦幾十G儲存空間
- Asent庫 | 英文文字資料情感分析
- 使用 Auto-TS 自動化時間序列預測
- 影片分享 | Python文字挖掘與金融科技
- 機器學習實戰 | 信用卡欺詐檢測
- 一文徹底搞懂自動機器學習AutoML:TPOT
- 使用 EvalML 自動機器學習完成 NLP 任務
- 保姆級教程,用 PyTorch 和 BERT 進行文字分類
- 文字分析 | 中國企業高管團隊創新注意力(含程式碼)
- Pandas 對數值進行分箱操作的 4 種方法
- 推薦一款進階版的Pandas神器:Polars
- Jupyter Lab 十大高生產力外掛
- cntext更新 | 新增效價情感分析函式
- 限時優惠 | Python網路爬蟲&文字分析
- karateclub庫 | 計算社交網路中節點的向量
- plotnine!!!終於可以在Python中使用ggplot2
- SimpleTransformers庫 | 使用BERT實現文字向量化
- 圖(Graph)視覺化利器graphviz庫
- Python自動化辦公之 Excel 自動繪製圖表