一些離散化特徵值的想法與方法
怎樣的差異算是有意義的?
需要先釐清所謂有意義所只為何? 對誰? Supervised 監督式的想法: 由本身以外的某一 supervisor 所產生的意義 ; Unsupervised 非監督式的想法: 由本身產生的意義。
先討論非監督式的離散化(discretization),一種本身就有離散化的特質; 一種是本身具備被離散化的特質。本身就有離散化的特質,就是本身結構上的分布就是呈現成"離散"的各群狀;本身具備被離散化的特質,就是根據本身性質,例如數值有大小,可被分割成一塊一塊的區域。
依本身性質可被分割的方式有:
Equal Interval Width: 等距分割
Equal Frequency Intervals: 等量分割
Rounding: 捨入放大後的數值
Winsorising (Thresholding): 手動分割
Equal Entropy Intervals: 等熵分割
Categorizing : 類值化
本身結構上的分布就是呈現成"離散"的各群狀:
Clustering: 分群 (Kmean, or GMM Expectation Maximization)
Supervised 監督式的想法:
ChiMerge
MDLP
CAIM
留言
張貼留言