Monday, May 7, 2007

Data Mining Chapter 4 Overview

我們已經在前二章學習了各種資料的型態及許多前置處理的方法,從本章開始,我們將進入探勘技術的相關演算法。分類是資料分析中最常見的工作之一,本章即從分類的基本概念開始,介紹其中最簡單且具代表性的分類技術--決策樹。決策樹的建立主要在決定每個節點所採用的區隔條件,最常用的便是利用Information Gain來評估那種區隔屬性最佳。因此決策樹的建立對離散型資料來說最為容易,比較麻煩的是處理數值型屬性,這時我們必須決定如何分裂屬性才會獲得最好結果。

分類模型的好壞可以準確率或錯誤率為評量,一般而言模型愈複雜或是訓練時間愈久,training error愈低,而testing error則可能減少(underfitting),也可能增加(overfitting)。但由於testing error在訓練時是未知的,因此本章討論幾個預估generalization error的方法,做為training error的輔助,以避免可能發生的兩種狀況-overfitting及underfitting。

本章最後介紹利用測試集(test data)來衡量不同分類模型的效能。當我們透過同一份測試集來比較不同模型時,若只以簡單的分類準確率來評斷好壞是不客觀的,尤其若是使用不同的測試集更是如此,所以此時我們可利用統計檢定來評斷不同模型之間的效能差異,是否存在statistically significant,藉以得到較客觀的結果。

學習目標
1. 決策樹建立演算法
- Splitting Evaluation: Entropy, Gini Index, Misclassification Error.
- Generalization error的估計方法
2. 了解overfitting及underfitting的問題
3. 了解各種比較classifier的方法。

No comments: