Monday, May 7, 2007

Data Mining Chapter 5 Overview

第5章延續上一章的分類主題,介紹其他常見的分類技術。從較基本的rule-based及nearest-neighbor classifier開始,再介紹較複雜的Bayesian classifier、ANN及SVM。

Rule-based classifier的產生方式分為直接與間接兩種--直接方法最主要使用sequential covering algorithm來產生規則,間接方法則從如從決策樹來轉換成規則。Rule-based classifier通常會拿來與decision tree比較,同學們應更進一步探討兩者之間的優缺點。 Nearest-neighbor classifier屬於instance-based learning,它最大的不同在於不需要建立模型,因此稱之為Lazy Learner。

Bayesian Classifier使用條件機率的概念來建立模型,它特別適合資料即使擁有相同的屬性值,卻屬於不同的類別的情況。但要注意的是它假設屬性間的關係獨立,所以在某些情況下,其分類能力會不如於考慮屬性間關係的Bayesian Belief Networks。同學們在決定使用何種classifier時,應特別注意屬性間的關係程度所造成的影響。

ANN模擬人類大腦的神經元運作模式來建立與其相似功能的模型,在使用此分類技術時,應先決定神經元數目、層級數等參數來決定模型的學習能力。理論上,ANN所逼近的函數具備學習任何事物的能力,但如何設定適當的參數是個難題。本章對ANN只有簡短的介紹,有興趣的同學可自行研讀其它書籍。

SVM起源於統計理論,找出一個函數具備maximal margin hyperplane以達到最小化generalization error的目的。它可分為Linear SVM及Non-Linear SVM,而non Linear SVM特別適合處理非線性可區隔的資料,但SVM處理Multiclass Problem時需要建立多個classifier才能進行分類。

本章除了介紹分類技術之外,也討論兩種Ensemble Methods以提高分類的準確度--「bagging」與「boosting」,兩者的差別在於boosting會在每一回合結束後調整權重,使得學習效果更好。最後一個小節探討Class Imbalance Problem,有時我們會特別注意不常出現的類別,但許多分類技術卻會被佔大多數的類別所主導,此時我們常用的準確度衡量標準就不代表任何意義了。本節介紹許多替代的衡量標準,例如Confusion Matrix、F-Measure、ROC Curve,或是使用Cost-Sensitive Learning以避免發生嚴重的分類錯誤。

學習目標

1. 了解各種分類技術的特性,以求在不同的情況之下選擇適當的技術
2. 了解Ensemble Method的流程及為何能提高分類準確度
3. 有能力判斷在不同的情況下使用何種的衡量標準,而不是只會選擇Accuracy

No comments: