總網頁瀏覽量

星期四, 9月 27, 2018

資料探勘(Data Mining) 概念是什麼?

資料探勘(Data Mining) 概念是什麼?

INTRODUCTION TO DATA SCIENCE AND BIG DATA課堂筆記

Content

1.瞭解分類Classification的概念
2.學習簡單的分類演算法
  • 決策樹
  • 最鄰近法
  • 簡單貝氏分類(機率)
3.認識評估分類模型的方法




瞭解分類classification的概念

Def:將一個物件指定預先定義的分類

以性別分類為例,某一些名字一定是男生,某一些名字一定是女生。
  • 分類就是在做"貼標籤"labeling的過程。
  • 分類模型,可以幫助"做預測"prediction
以Email為例,可以把郵件分為
  1. 重要
  2. 一般
  3. 垃圾

數學Def:建立一個學習函數(分類模型)將每個屬性集合(x)分類到一個以定義的類別y
(想成一個黑盒子,輸入x,輸出y)
(標題、寄件者、內文、寄件時間)→黑盒子→重要、一般、垃圾

如何建立分類模型?(分辨奧客)

舉例:先train好客人,在train壞客人,發現好客人會穿西裝、鼻孔大,壞客人會舉手、眉毛粗...
訓練資料→(歸納)→學習演算法+學習模型→模型→應用模型→(推論)測試資料

延伸問題:哪個模型比較好?

找了一張類似的圖,這個是用KNN

分類演算法的核心問題

  • 支援向量機Support Vector Machine(SVM):找一條線可以切割
  • 類神經網路Artificial Neural Network(ANN):模擬人類的思維做分類
  • 最鄰近法K-Nearest Neighbor(KNN):以一個半徑,劃一個圈,看誰數量多
  • 決策樹(Decision Tree):切割方法(直線與橫線),很像遞迴
  • 簡單貝氏分類法(Naive Bayes Classifier):虛線十字,算比例

混淆矩陣(Confusion Matrix)
計算模型的正確率,預測的優劣(老師特別強調)

「混淆矩陣」的圖片搜尋結果
分別有預測類別、實際類別,算出正確率、錯誤率


學習簡單的分類演算法

通常會把資料分為
  1. 訓練資料(建立模型用75%)
  2. 鑑效資料(驗證模型用,建立模型中)
  3. 檢驗資料(測量模型用,建立模型後25%)

什麼是決策樹?

「決策樹」的圖片搜尋結果
根節點、內部節點、葉節點(考點)

Hunt's 演算法(基本演算法的推演)
概念:回歸分割
切割完剩同一類,就停了

屬性的條件可以有幾個分支?
  • 二元屬性(是/否、男/女,恰好可以轉換成兩個分支條件)
  • 類別屬性(血型、隊名,多個也可以分為兩個分支條件)
  • 順序屬性(學歷、等級,依照順序併,但不要跳脫順序!)
  • 連續變數(身高、體重、薪資,做切割,過度將連續型資料切割會變成overfitting)
選擇哪個屬性來分割比較好?
分類的結果越乾淨越好

延伸問題:如何描述乾淨(混亂)的程度?
畫一張亂度表

亂度衡量指標

「Gini entropy misclassifiaction error」的圖片搜尋結果
  • Entropy
  • Gini
  • Misclassification Error

有了亂度的衡量要如何選擇?
求出information gain

屬性分支樹與Gain的關係
→避免"overfitting"過度配適
(為了少數的資料製造過度複雜的模型)

「過度配適」的圖片搜尋結果


如何避免過度配適?


  • 事先修剪(Pre-puning)
  • 事後修剪(Post-puning)

如何使用最鄰近法?

概念:物以類聚

距離怎麼算?

  • 歐式距離
  • 曼哈頓距離

沒有留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...