一些離散化特徵值的想法與方法

怎樣的差異算是有意義的?

需要先釐清所謂有意義所只為何?  對誰?  Supervised 監督式的想法: 由本身以外的某一 supervisor 所產生的意義 ; Unsupervised 非監督式的想法:  由本身產生的意義。

先討論非監督式的離散化(discretization),一種本身就有離散化的特質; 一種是本身具備被離散化的特質。本身就有離散化的特質,就是本身結構上的分布就是呈現成"離散"的各群狀;本身具備被離散化的特質,就是根據本身性質,例如數值有大小,可被分割成一塊一塊的區域。

依本身性質可被分割的方式有:

Equal Interval Width: 等距分割

Equal Frequency Intervals: 等量分割

Rounding: 捨入放大後的數值

Winsorising (Thresholding): 手動分割

Equal Entropy Intervals: 分割

Categorizing : 類值化

本身結構上的分布就是呈現成"離散"的各群狀:

Clustering: 分群  (Kmean, or GMM Expectation Maximization)

Supervised 監督式的想法:

ChiMerge

MDLP

CAIM


留言

這個網誌中的熱門文章

標準差與 Wald 統計量

可能性比檢定(Likelihood ratio test)

Wold Decomposition Theorem