[R]scale 與 dist function

這篇文章會介紹 R 中的 scale 與 dist 兩個 function。

在做資料分析前會需要先標準化


scale

scale 的主要作用在標準化數據,共有三個 arguments,

  • x: 必須要是 matrix,以「行」為每組數據計算
  • center: TRUE or FALSE。中心化,TRUE 會減去數據的平均值
  • scale: TRUE or FALSE。 TRUE 會將數據中的每個值除以數據的標準差

預設 center 和 scale 都是 TRUE,也就是算出來的值是 z-score

\(z = \frac{x - \mu}{\sigma}, \sigma \neq 0\)

其中:
\(x\):數據
\(\mu\):平均值
\(\sigma\):標準差

x <- matrix(1:10, nrow = 5)

scale(x)

dist

dist 是在算數據間的距離,主要的 arguments有

  • x: 可以是 matrix, data.frame ,但必須要是 numeric。
  • methods: 共有六種計算距離的方法,”euclidean”, “maximum”, “manhattan”, “canberra”, “binary” 和 “minkowski”,預設是使用 euclidean 距離。

以「列」為數據,兩兩計算,

x <- matrix(1:10, nrow = 5)

dist(x)