Data manipulation

原生資料 (raw data) 通常沒辦法拿來直接做資料分析,必須經過資料清洗 (data cleaning) 和整理,使資料的結構更適合做下一步動作,如資料分析 (data analysis) / 資料視覺化 (data visualization)。

在資料分析之前...

Analytic process

  1. data manipulation

  2. data visualization

  3. statistical analysis / modeling

  4. deployment

data manipulation 是第一步,根據前輩們的經驗,這個步驟通常花上整個分析過程 80% 的時間。想要做好的資料分析師,整理數據的能力是不可或缺的。

在 R 中,dplyrtidyr是兩個最常用來整理 raw data 的套件。

學習資源