Python 數據分析師的基本修養

語言: CN / TW / HK

數據分析師通常都需要藉助編程工具整理數量大而複雜的數據,在這些數據中挖掘有用的資料。簡而言之,數據分析師就是從凌亂的數據中整理出規則的人,而這樣的工作要求數據分析師掌握這些技巧:

  • 業界知識 - 數據分析的基礎就是為行業服務,足夠的業界知識能讓數據分析師瞭解究竟哪些數據才能為行業提供更深入的洞察
  • 編程技巧 - 數據分析師需要清楚應該使用哪些庫來簡化和處理數據,進而從中找到所需的資料
  • 數據分析 - 除了本身的數據分析能力,數據分析師也需要懂得藉助工具來提取數據中的價值
  • 可視化技能 - 只是提取數據是不夠的,數據分析師需要把這些數據整理好後進行可視化,總結並呈現給他人

這篇文章將使用​ ​Python在線運行​ ​一系列經典的數據分析案例,讓你對數據分析工具與編程有一定的瞭解,通過這些數據進行可視化並呈現我們所整理的數據。

文章中所使用的數據和範例代碼已整理到項目文件中,大家只要打開就可以開始使用​ ​Python在線運行​ ​並查看數據:https://e2f35f8cd0-share.lightly.teamcode.com

分析數據

首先,我們需要使用Python中的Pandas庫來讀取 ​ ​.csv​ ​ 文件的數據。如果你的項目文件中還未安裝pandas,可以參考​ ​安裝教程​ ​通過 ​ ​pip install pandas​ ​ 或Quick Fix一鍵安裝。

讀取數據

安裝好Pandas庫後,我們還需要在編輯區使用Python代碼 ​ ​import pandas​ ​ 導入,然後再通過下面的代碼讀取數據文件。

import pandas as pd
from tabulate import tabulate

df = pd.read_csv('diabetes.csv'

大家可以使用以下代碼,在編輯器中使用 Python 在線運行並查看數據效果:

print(tabulate(df, headers = 'keys', tablefmt = 'psql'))

作為數據分析師,大家應該要知道數值(Numerical)和分類(Categorical)數據之間的區別。

數值數據顧名思義,指的是具有數值意義的數據。這種數據具有實際測量的物理意義,比如血糖、血壓、年齡等。

分類數據則描述對象的性質,比性別、婚姻狀況、家鄉等。我們這次使用的數據中,其實只有“結果”屬於分類數據。在表示分類數據時,我們同樣能使用數字來進行描述,但這些數據並沒有數學意義,你不能拿他來做運算。

數據可視化

在這個教程中,我們會展示一系列使用Python在線運行的數據可視化效果,大家可以根據自己的數據類型選擇合適的圖表來呈現。

餅圖

使用​ ​Python在線運行​ ​代碼:​ ​SimplePie.py​

散點圖

使用​ ​Python在線運行​ ​代碼:​ ​scatterplot.py​

折線圖

使用​ ​Python在線運行​ ​代碼:​ ​linechart.py​

柱狀圖

使用​ ​Python在線運行​ ​代碼:​ ​multibar.py​

當我們完成數據分析和可視化圖表後,我們可以根據數據和圖標內容,簡要説明數據故事。例如:購買奔馳的人明顯比寶馬更多、中老年人患糖尿病的比例更高、一月份的冰箱購買量遠比其他月份高等,從而根據其他數據和實際情況繼續分析。

數據分析師也是人,我們在分析數據的時候有時也會帶有一些陷入為主的觀念。然而,數據的意義就是為了破除這些迷思。分析數據的過程中,我們需要保持開放的態度,不要讓偏見影響我們的數據結果。