收藏 | 機(jī)器學(xué)習(xí)模型與算法最全分類(lèi)匯總!
機(jī)器學(xué)習(xí)
Author:louwill
Machine Learning Lab
本文總共涉及了26種機(jī)器學(xué)習(xí)模型與算法,幾乎涵蓋了全部主流的機(jī)器學(xué)習(xí)算法。包括線性回歸、邏輯回歸、Lasso回歸、Ridge回歸、線性判別分析、近鄰、決策樹(shù)、感知機(jī)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、AdaBoost、GBDT、XGBoost、LightGBM、CatBoost、隨機(jī)森林、聚類(lèi)算法與kmeans、主成分分析、奇異值分解、最大信息熵、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、EM算法、隱馬爾可夫模型、條件隨機(jī)場(chǎng)和馬爾可夫鏈蒙特卡洛方法。
其中決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和聚類(lèi)算法都各自代表了一個(gè)大類(lèi)算法,比如說(shuō)決策樹(shù)具體包括ID3、C4.5和CART,神經(jīng)網(wǎng)絡(luò)包括DNN、CNN或者是RNN等其他網(wǎng)絡(luò)模型,這里僅對(duì)大類(lèi)算法做區(qū)分。
下面我們分別從單模型和集成學(xué)習(xí)模型、監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)模型和判別式模型和生成式模型、概率模型和非概率模型等多個(gè)維度來(lái)討論本書(shū)所涉及到的26個(gè)算法。

圖1 機(jī)器學(xué)習(xí)模型知識(shí)體系
單模型與集成模型
從模型的個(gè)數(shù)和性質(zhì)角度來(lái)看,我們可以將機(jī)器學(xué)習(xí)模型劃分為單模型(single model)和集成模型(ensemble model)。所謂單模型,是指機(jī)器學(xué)習(xí)模型僅包括一個(gè)模型,以某種模型獨(dú)立進(jìn)行訓(xùn)練和驗(yàn)證使用的。本書(shū)監(jiān)督學(xué)習(xí)模型中大多數(shù)模型都可以算作單模型,包括線性回歸、邏輯回歸、Lasso回歸、Ridge回歸、線性判別分析、近鄰、決策樹(shù)、感知機(jī)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和樸素貝葉斯等。
與單模型相對(duì)立的,就是集成模型,集成模型就是將多個(gè)單模型進(jìn)行組合構(gòu)成一個(gè)強(qiáng)模型,這個(gè)強(qiáng)模型能取所有單模型之所長(zhǎng),達(dá)到一個(gè)相對(duì)的最佳性能。集成模型中的單模型既可以是同種類(lèi)別的,也可以是不同類(lèi)別的,總體呈現(xiàn)一種“多而不同”的特征。常用的集成模型包括Boosting和Bagging兩大類(lèi),主要包括AdaBoost、GBDT、XGBoost、LightGBM、CatBoost和隨機(jī)森林等模型。單模型和集成模型分類(lèi)如圖2所示。

圖2 單模型與集成模型
監(jiān)督模型與無(wú)監(jiān)督模型
監(jiān)督模型(supervised model)和無(wú)監(jiān)督模型(unsupervised model)代表了機(jī)器學(xué)習(xí)模型的最典型劃分方式,幾乎所有的模型都可以歸類(lèi)到這兩類(lèi)模型當(dāng)中。監(jiān)督模型是指模型在訓(xùn)練過(guò)程中根據(jù)數(shù)據(jù)輸入和輸出進(jìn)行學(xué)習(xí),監(jiān)督學(xué)習(xí)模型包括分類(lèi)(classification)、回歸(regression)和標(biāo)注(tagging)等模型。無(wú)監(jiān)督模型是指從無(wú)標(biāo)注的數(shù)據(jù)中學(xué)習(xí)得到模型,主要包括聚類(lèi)(clustering)、降維(dimensionality reduction)和一些概率估計(jì)模型。
圖2中所有的單模型和集成模型都是監(jiān)督模型,以及圖1中的一部分概率模型也屬于監(jiān)督模型,包括隱馬爾可夫模型和條件隨機(jī)場(chǎng),它們屬于監(jiān)督模型中的標(biāo)注模型。無(wú)監(jiān)督模型主要包括kmeans聚類(lèi)、譜聚類(lèi)和層次聚類(lèi)等一些聚類(lèi)模型,以及主成分分析和奇異值分解等降維模型。另外,馬爾可夫鏈蒙特卡洛方法也可以作為一種概率無(wú)監(jiān)督模型。監(jiān)督模型和無(wú)監(jiān)督模型的劃分如圖3所示。

圖3 監(jiān)督模型與無(wú)監(jiān)督模型
生成式模型和判別式模型
監(jiān)督模型在機(jī)器學(xué)習(xí)模型中占主要部分,針對(duì)監(jiān)督模型,我們又可以根據(jù)其模型學(xué)習(xí)方式將其分為生成式模型(generative model)和判別式模型(discriminative model)。生成式模型的學(xué)習(xí)特點(diǎn)在于學(xué)習(xí)數(shù)據(jù)的聯(lián)合概率分布,然后基于聯(lián)合分布求條件概率分布作為預(yù)測(cè)模型。如下式所示。

常用的生成式模型包括樸素貝葉斯、隱馬爾可夫模型以及隱含狄利克雷分布模型等。
判別式模型的學(xué)習(xí)特點(diǎn)在于基于數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)或者條件概率分布作為預(yù)測(cè)模型,判別式模型關(guān)心的是對(duì)于給定的輸入,應(yīng)該預(yù)測(cè)出什么樣的。常用的判別式模型有很多,像線性回歸、邏輯回歸、Lasso回歸、Ridge回歸、線性判別分析、近鄰、決策樹(shù)、感知機(jī)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、最大信息熵模型、全部集成模型以及條件隨機(jī)場(chǎng)等,都屬于判別式模型。生成式與判別式模型劃分如圖4所示。

圖4 生成式模型與判別式模型
概率模型與非概率模型
機(jī)器學(xué)習(xí)模型還有一種根據(jù)模型函數(shù)是否為概率模型的方式,將機(jī)器學(xué)習(xí)模型分為概率模型(probabilistic model)和非概率模型(non-probabilistic model)。通過(guò)對(duì)輸入和輸出之間的聯(lián)合概率分布和條件概率分布進(jìn)行建模的機(jī)器學(xué)習(xí)模型,都可以稱(chēng)之為概率模型。而通過(guò)對(duì)決策函數(shù)建模的機(jī)器學(xué)習(xí)模型,即為非概率模型。
常用的概率模型包括樸素貝葉斯、隱馬爾可夫模型、貝葉斯網(wǎng)絡(luò)和馬爾可夫鏈蒙特卡洛等,而線性回歸、近鄰、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)以及集成模型都可以算是非概率模型。
需要注意的是,概率模型與非概率模型的劃分并不絕對(duì),有時(shí)候有些機(jī)器學(xué)習(xí)模型既可以表示為概率模型,也可以表示為非概率模型。比如說(shuō)決策樹(shù)、邏輯回歸、最大熵模型和條件隨機(jī)場(chǎng)等模型,就兼具概率模型和非概率模型兩種解釋。概率模型和非概率模型的劃分如圖5所示。

圖5 概率模型與非概率模型
往期精彩:
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語(yǔ)義分割理論與實(shí)戰(zhàn)指南.pdf
算法工程師的日常,一定不能脫離產(chǎn)業(yè)實(shí)踐
技術(shù)人要學(xué)會(huì)自我營(yíng)銷(xiāo)
求個(gè)在看
