Thursday, March 22, 2007

Data Mining Chapter 3 Overview

本章可視為前一章主題「Data」的延伸,最主要是針對資料進行探索式分析,用以了解資料的特性,並幫助我們選擇適當的前置處理及後續資料資料的技術。本章包含三個重要的主題-Summary Statistics、Visualization和OLAP。Summary Statistics是利用統計常用的一些measure來描述資料集的特性;Visualization是利用人類比機器所擁有更強大功能的眼睛來看出資料的特性,因此如何將資料視覺化,讓我們能更輕易地觀察出資料的特性,是第二部份的挑戰;OLAP 操作通常附屬於資料庫或資料倉儲,它除了包含前面二者(Summary Statistics、Visualization)的功能之外,還提供分析高維度資料集Data Cube的五項操作(Slicing、Dicing、Roll-Up、Drill-Down及Pivot)。基本上,本章內容並不難。圖的部分不僅要能看懂,更要曉得該圖所要傳達的是何種資料的特性及關係。OLAP部分則會出作業以供同學們熟悉。

學習目標

1. 了解各種統計measure所代表的意義
variance, covariance, correlation, the p%th percentile
2. 了解各種現有資料視覺化方法及其優缺點
parallel coordinate, star coordinate
3. 了解OLAP及其操作元如何做為資料視覺化工具
multi-dimensional data model, cube operations: slice and dice, roll-up and drill-down

No comments: