Data manipulation
原生資料 (raw data) 通常沒辦法拿來直接做資料分析,必須經過資料清洗 (data cleaning) 和整理,使資料的結構更適合做下一步動作,如資料分析 (data analysis) / 資料視覺化 (data visualization)。
在資料分析之前...
Analytic process
data manipulation
data visualization
statistical analysis / modeling
deployment
data manipulation 是第一步,根據前輩們的經驗,這個步驟通常花上整個分析過程 80% 的時間。想要做好的資料分析師,整理數據的能力是不可或缺的。
在 R 中,dplyr
和 tidyr
是兩個最常用來整理 raw data 的套件。
學習資源
Last updated