Python 資料分析師的基本修養

語言: CN / TW / HK

資料分析師通常都需要藉助程式設計工具整理數量大而複雜的資料,在這些資料中挖掘有用的資料。簡而言之,資料分析師就是從凌亂的資料中整理出規則的人,而這樣的工作要求資料分析師掌握這些技巧:

  • 業界知識 - 資料分析的基礎就是為行業服務,足夠的業界知識能讓資料分析師瞭解究竟哪些資料才能為行業提供更深入的洞察
  • 程式設計技巧 - 資料分析師需要清楚應該使用哪些庫來簡化和處理資料,進而從中找到所需的資料
  • 資料分析 - 除了本身的資料分析能力,資料分析師也需要懂得藉助工具來提取資料中的價值
  • 視覺化技能 - 只是提取資料是不夠的,資料分析師需要把這些資料整理好後進行視覺化,總結並呈現給他人

這篇文章將使用​ ​Python線上執行​ ​一系列經典的資料分析案例,讓你對資料分析工具與程式設計有一定的瞭解,通過這些資料進行視覺化並呈現我們所整理的資料。

文章中所使用的資料和範例程式碼已整理到專案檔案中,大家只要開啟就可以開始使用​ ​Python線上執行​ ​並檢視資料:https://e2f35f8cd0-share.lightly.teamcode.com

分析資料

首先,我們需要使用Python中的Pandas庫來讀取 ​ ​.csv​ ​ 檔案的資料。如果你的專案檔案中還未安裝pandas,可以參考​ ​安裝教程​ ​通過 ​ ​pip install pandas​ ​ 或Quick Fix一鍵安裝。

讀取資料

安裝好Pandas庫後,我們還需要在編輯區使用Python程式碼 ​ ​import pandas​ ​ 匯入,然後再通過下面的程式碼讀取資料檔案。

import pandas as pd
from tabulate import tabulate

df = pd.read_csv('diabetes.csv'

大家可以使用以下程式碼,在編輯器中使用 Python 線上執行並檢視資料效果:

print(tabulate(df, headers = 'keys', tablefmt = 'psql'))

作為資料分析師,大家應該要知道數值(Numerical)和分類(Categorical)資料之間的區別。

數值資料顧名思義,指的是具有數值意義的資料。這種資料具有實際測量的物理意義,比如血糖、血壓、年齡等。

分類資料則描述物件的性質,比性別、婚姻狀況、家鄉等。我們這次使用的資料中,其實只有“結果”屬於分類資料。在表示分類資料時,我們同樣能使用數字來進行描述,但這些資料並沒有數學意義,你不能拿他來做運算。

資料視覺化

在這個教程中,我們會展示一系列使用Python線上執行的資料視覺化效果,大家可以根據自己的資料型別選擇合適的圖表來呈現。

餅圖

使用​ ​Python線上執行​ ​程式碼:​ ​SimplePie.py​

散點圖

使用​ ​Python線上執行​ ​程式碼:​ ​scatterplot.py​

折線圖

使用​ ​Python線上執行​ ​程式碼:​ ​linechart.py​

柱狀圖

使用​ ​Python線上執行​ ​程式碼:​ ​multibar.py​

當我們完成資料分析和視覺化圖表後,我們可以根據資料和圖示內容,簡要說明資料故事。例如:購買賓士的人明顯比寶馬更多、中老年人患糖尿病的比例更高、一月份的冰箱購買量遠比其他月份高等,從而根據其他資料和實際情況繼續分析。

資料分析師也是人,我們在分析資料的時候有時也會帶有一些陷入為主的觀念。然而,資料的意義就是為了破除這些迷思。分析資料的過程中,我們需要保持開放的態度,不要讓偏見影響我們的資料結果。