n2 Data Science Programming
  • 【NTU CS+X】資料科學程式設計
  • week 1
    • Git & Github
    • RStudio
    • R Basic
    • R markdown
    • Task 1
  • week 2
    • Package
    • Pipes
    • Data manipulation
    • Data visualization
    • Task 2
  • week 3
    • EDA
    • Text Mining
    • Task 3
  • week 4
    • Crawler
    • Statistics
    • Task 4
  • week 5
    • Shiny
  • week 6
    • Past Projects
Powered by GitBook
On this page
  • TF-IDF
  • TF-IDF in R
  • PCA
  • PCA in R
  • K-means
  • K-means in R
  1. week 3

Text Mining

TFIDF -> PCA -> K-means

TF-IDF

TF-IDF 是作文本分析一個重要的觀念,可以看出哪些詞在某個或某幾篇文章中是重要的,以下是 TF-IDF 的介紹(定義)。

  • 文字探勘之前處理與 TF-IDF 介紹

  • TF-IDF与余弦相似性的应用(二):找出相似文章

TF-IDF in R

  • 中文文本探勘初探:TF-IDF in R Language

  • github example

PCA

  • PCA的数学原理

  • 斯坦福机器学习笔记-PCA

  • 教學影片

    • Principal Component Analysis. Appendix 1 with voice

    • StatQuest: Principal Component Analysis (PCA), Step-by-Step

  • 如果你有讀過線性代數,應該不難發現 PCA 就是 SVD

    • 機器學習中SVD和PCA一直沒有搞的特別清楚,應該如何理解呢?

    • 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

PCA in R

  • R筆記–(7)主成份分析(2012美國職棒MLB)

  • Articles - Principal Component Methods in R: Practical Guide

  • Principal Component Analysis: How to reveal the most important variables in your data?

K-means

  • Games

  • K-Means Algorithm - Unsupervised Learning | Coursera

  • Introduction to K-means Clustering (python 看不懂沒關係)

  • k-means clustering algorithm

K-means in R

  • Example of K-Means Clustering with R

PreviousEDANextTask 3

Last updated 7 years ago