Friday, March 9, 2007

Data Mining Chapter 2 Overview

一般而言,在進行探勘工作之前必須先評估所輸入資料,並做適當的前置處理工作,以便能應用在後續的探勘工作。本章將從資料本身的型態開始討論,敘述各型態資料的特性;其次探討三個常見的資料品質問題,並進行Cleaning。另外為了使資料適用於特定的探勘技術,我們通常要做資料的前置處理,例如Data Reduction、Feature Selection、Normalization、Discretization等來轉換原始資料。最後則是資料彼此間的關係(Similarity、Dissimilarity)的計算方法。概括而言,本章內容尚屬概念性介紹,並無較難理解的演算法,唯一的數學是統計的PCA及線代的SVD,請同學多花一點時間讀Appendix。

學習目標

  • 了解何謂data matrix, transactional data, sequential data, sequence data及time series data
  • 區分不同的資料屬性based on 4 properties: distinctness, order, addition, multiplication
  • 資料品質的問題:outlier&noise, missing data, duplicate
  • 資料前置處理工作:
    • Data Reduction by Samping
    • Dimension Reduction via PCA
    • Feature Selection by specific filtering algorithms
    • Feature Creation by feature extraction, mapping to new space, feature construction
    • Normalization
    • Discretization by equal width, equal depth, or clustering
  • Proximity Measure (distance and similarity)
    • Similarity: Jaccard measure, cosine measure, pearson's correlatio
    • Distance: Euclidean, mahalanobis distance
  • 其他可能遭遇問題:例如
    • 資料量過多或過少時
    • Attributes超過演算法處理上限
    • 使用Regression時只能輸入數值型屬性的資料

No comments: