PieCloudDB Database 雲上商業智能的最佳實踐
「商業智能(Business Intelligence,BI)」這個概念最早是 Gartner 在上個世紀九十年代提出的,它認為從功能上來説,商業智能是一種解決方案,其關鍵是處理企業來自多個來源的各種數據,提取有用的數據並清理,然後經過抽取(Extraction)、轉換(Transformation)和加載(Load),即 ETL 過程,合併到一個企業級的數據倉庫裏,按照一定的建模方式組織數據,再利用合適的商業智能工具來形成各種可視化的分析報表,將數據轉化為洞察(Insight),為管理者的決策提供支持。
對於企業而言,打造一套完善的商業智能解決方案,可以讓業務需求更貼合真實數據,讓商業決策更加理性和“智能”。決策者接收到的直接結果大多數是數據可視化後的分析報表,「數據可視化(Data Visualization)」作為商業智能的一個重要特徵,可以通過交互式數據儀表板、圖表、圖形和映射的方式來呈現企業故事,使展示結果更易於理解和共享,為決策者提供更多的洞察,這都是傳統的報告和分發工具所無法企及的。雖然前端可視化分析最為直觀,但它僅僅是商業智能的一個環節,底層數據庫的建設才是基石。PieCloudDB Database 作為一款雲原生數據庫產品,搭建了底層業務系統數據源和可視化分析報表之間的橋樑,在整個商業智能解決方案中起到了承上啟下的核心作用。
PieCloudDB Database 兼容 PostgreSQL 協議,支持 ODBC、JDBC 等標準數據庫接口。對 SQL 的全面支持使得 PieCloudDB Database 可以無縫集成業內常見的 ETL 和 BI 工具;而對多種過程語言(Procedural Language)的支持為用户基於數據庫的二次開發提供了便利。的本文將藉助一個商業智能場景,介紹如何使用 Python 編程語言和 BI 工具 Tableau 連接 PieCloudDB Database ,從而形成以下完整的商業智能解決方案:
- 確定數據來源
- 數據採集
- 數據入庫
- 數據清洗
- 探索性數據分析
- 數據建模
- 數據洞察
商業智能場景介紹
隨着今年初對新冠疫情防控政策的重大調整,旅遊行業逐漸開始回温,在這種趨勢下,如何提升景點品質、提高商業競爭力成為了擺在景區規劃人員面前的問題。在這種場景下,基於我們的解決方案結構,可以對某旅遊網站的中文評論進行內容分析,充分發揮文本數據的作用,從而為旅遊行業的規劃升級提供決策幫助。本文會側重介紹解決方案中所涉及的 PieCloudDB Database 外部連接方式,後續的文章則會重點介紹該場景下的數據分析過程。
使用 Python 訪問 PieCloudDB Database
PieCloudDB Database 完全兼容 PostgreSQL 的客户端協議,所以我們可以使用 PostgreSQL 驅動訪問 PieCloudDB Database。同時 psycopg 是一種用於執行 SQL 語句的 Python API,可以為 PostgreSQL 數據庫訪問接口,所以我們可以利用 psycopg 模塊連接 PieCloudDB Database。大家可以參考以下步驟進行操作:
# 安裝 psycopg 模塊
pip install psycopg2
# 導入 psycopg 模塊
import psycopg2
# 連接到 PieCloudDB Database
conn = psycopg2.connect(database='openpie', user='username', password='token', host='127.0.0.1', port='5432')
# 參數信息:
# � database – 數據庫名
#� user – 數據庫用户名
#� password – 數據庫接入 token 即密碼
#� host – 數據庫IP地址
#� port – 端口號
# 創建指針對象
cur = conn.cursor()
# 執行 SQL 語句
cursor.execute(sql)
# 提交執行結果
conn.commit()
# 關閉指針和數據庫連接
cursor.close()
conn.close()
使用 Tableau 連接 PieCloudDB Database
市場上常見的 BI 工具有很多,從軟件成熟度和市場接受度考量,我們使用 Tableau 進行探索性數據分析。經過測試,我們可以從 Tableau Desktop 使用 PostgreSQL 驅動訪問 PieCloudDB Database。大家可以參考以下步驟進行操作:
· 選擇連接方式
選擇左側“連接”窗格 > 到服務器 > 更多... > PostgreSQL
由於 Tableau 的要求,在連接操作之前,用户需要從 https://jdbc.postgresql.org/download/ 下載和安裝 PostgreSQL 所需的驅動程序,然後將相關的 .jar 文件複製到以下文件夾中(可能需要手動創建該文件夾):~/Library/Tableau/Drivers ,詳細步驟請參考 Tableau 官網。
· 填寫連接信息
根據提示,填寫需要連接的數據庫IP地址、端口號、數據庫名、用户名和密碼即可。
在整個商業智能解決方案中,我們會藉助 Python 豐富的數據科學工具進行數據採集、數據清洗和數據建模,並通過 Tableau 強大的可視化分析功能進行探索性數據分析、形成動態化看板。如果大家對中文文本分析這個主題感興趣,想了解詳細的數據建模過程和完整的商業智能場景流程,請持續關注我們的後續技術博文。
- 數據科學在文本分析中的應用 :中英文 NLP(上)
- 『堅如磐石的 PieCloudDB』:透明加密模塊的設計與實現
- 後疫情時代,數據科學賦能旅遊行業服務質量提升
- OpenPie 和 ChatGPT 聊聊雲上數據計算的那些事兒
- 正式上市丨拓數派發布eMPP存算分離軟硬件一體機
- 『Postgres.Live 技術沙龍回顧』揭祕 PieCloudDB Database eMPP 架構設計
- PieCloudDB Database 雲上商業智能的最佳實踐
- 數據科學在量化金融中的應用:指數預測(下)
- 數據科學在量化金融中的應用:指數預測(上)
- 【DTCC 2022】雲原生數據庫PieCloudDB全新eMPP架構是如何煉成的
- 數據科學,為企業創造更大的數據價值
- 擁抱開放|OpenPie引領PostgreSQL中國代碼貢獻力