Python 數據分析師的基本修養
數據分析師通常都需要藉助編程工具整理數量大而複雜的數據,在這些數據中挖掘有用的資料。簡而言之,數據分析師就是從凌亂的數據中整理出規則的人,而這樣的工作要求數據分析師掌握這些技巧:
- 業界知識 - 數據分析的基礎就是為行業服務,足夠的業界知識能讓數據分析師瞭解究竟哪些數據才能為行業提供更深入的洞察
- 編程技巧 - 數據分析師需要清楚應該使用哪些庫來簡化和處理數據,進而從中找到所需的資料
- 數據分析 - 除了本身的數據分析能力,數據分析師也需要懂得藉助工具來提取數據中的價值
- 可視化技能 - 只是提取數據是不夠的,數據分析師需要把這些數據整理好後進行可視化,總結並呈現給他人
這篇文章將使用 Python在線運行 一系列經典的數據分析案例,讓你對數據分析工具與編程有一定的瞭解,通過這些數據進行可視化並呈現我們所整理的數據。
文章中所使用的數據和範例代碼已整理到項目文件中,大家只要打開就可以開始使用 Python在線運行 並查看數據:http://e2f35f8cd0-share.lightly.teamcode.com
分析數據
首先,我們需要使用Python中的Pandas庫來讀取 .csv
文件的數據。如果你的項目文件中還未安裝pandas,可以參考 安裝教程 通過 pip install pandas
或Quick Fix一鍵安裝。
讀取數據
安裝好Pandas庫後,我們還需要在編輯區使用Python代碼 import pandas
導入,然後再通過下面的代碼讀取數據文件。
import pandas as pd from tabulate import tabulate df = pd.read_csv('diabetes.csv'
大家可以使用以下代碼,在編輯器中使用 Python 在線運行並查看數據效果:
print(tabulate(df, headers = 'keys', tablefmt = 'psql'))
作為數據分析師,大家應該要知道數值(Numerical)和分類(Categorical)數據之間的區別。
數值數據顧名思義,指的是具有數值意義的數據。這種數據具有實際測量的物理意義,比如血糖、血壓、年齡等。
分類數據則描述對象的性質,比性別、婚姻狀況、家鄉等。我們這次使用的數據中,其實只有“結果”屬於分類數據。在表示分類數據時,我們同樣能使用數字來進行描述,但這些數據並沒有數學意義,你不能拿他來做運算。
數據可視化
在這個教程中,我們會展示一系列使用Python在線運行的數據可視化效果,大家可以根據自己的數據類型選擇合適的圖表來呈現。
餅圖
使用 Python在線運行 代碼: SimplePie.py
散點圖
使用 Python在線運行 代碼: scatterplot.py
折線圖
使用 Python在線運行 代碼: linechart.py
柱狀圖
使用 Python在線運行 代碼: multibar.py
當我們完成數據分析和可視化圖表後,我們可以根據數據和圖標內容,簡要説明數據故事。例如:購買奔馳的人明顯比寶馬更多、中老年人患糖尿病的比例更高、一月份的冰箱購買量遠比其他月份高等,從而根據其他數據和實際情況繼續分析。
數據分析師也是人,我們在分析數據的時候有時也會帶有一些陷入為主的觀念。然而,數據的意義就是為了破除這些迷思。分析數據的過程中,我們需要保持開放的態度,不要讓偏見影響我們的數據結果。
- 設計模式之狀態模式
- 如何實現數據庫讀一致性
- 我是怎麼入行做風控的
- C 11精要:部分語言特性
- 吳恩達來信:人工智能領域的求職小 tips
- EasyCV帶你復現更好更快的自監督算法-FastConvMAE
- 某車聯網App 通訊協議加密分析(四) Trace Code
- 帶你瞭解CANN的目標檢測與識別一站式方案
- EasyNLP玩轉文本摘要(新聞標題)生成
- PostgreSQL邏輯複製解密
- 基於 CoreDNS 和 K8s 構建雲原生場景下的企業級 DNS
- 循環神經網絡(RNN)可是在語音識別、自然語言處理等其他領域中引起了變革!
- 技術分享| 分佈式系統中服務註冊發現組件的原理及比較
- 利用谷歌地圖採集外貿客户的電話和手機號碼
- 跟我學Python圖像處理丨關於圖像金字塔的圖像向下取樣和向上取樣
- 帶你掌握如何使用CANN 算子ST測試工具msopst
- 一招教你如何高效批量導入與更新數據
- 一步步搞懂MySQL元數據鎖(MDL)
- 你知道如何用 PHP 實現多進程嗎?
- KubeSphere 網關的設計與實現(解讀)