隨機森林是屬于集成學習,其核心思想就是集成多個弱分類器以達到三個臭皮匠賽過諸葛亮的效果。隨機森林采用Bagging的思想,所謂的Bagging就是:
(1)每次有放回地從訓練集中取出 n 個訓練樣本,組成新的訓練集;
(2)利用新的訓練集,訓練得到M個子模型;
(3)對于分類問題,采用投票的方法,得票最多子模型的分類類別為最終的類別;對于回歸問題,采用簡單的平均方法得到預測值。
隨機森林以決策樹為基本單元,通過集成大量的決策樹,就構成了隨機森林。決策樹是一種樹形結構,由結點(node)[其中結點包括內部結點(internal note)和葉結點(leaf node)兩種類型] 和 向邊(directed edge)組成。可以將決策樹看成是一個if-then規則的集合,根據規則,逐次判斷條件,最終依據路徑歸于特定類別。其數學表示可以為給定特征條件下的條件概率分布。
根據需要篩選的樣本集的所有特性,隨機選擇一組特性組合構成決策樹,每一次判斷都將生成一個新的節點(樹枝),最終不同的樣本在經過同樣的判斷集合后,將生成不同高度的決策樹。此時通過決策樹的三維圖像,我們可以直觀地看出樣本集中的最高點、最低點,并依據不同需要選取眾數、均值等數據進行分析。