<kbd id="5sdj3"></kbd>
<th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>

    【綜述】機器學習中的12類算法

    共 3224字,需瀏覽 7分鐘

     ·

    2021-07-14 19:16


    導(dǎo)讀

    最近在研究一些機器學習方面的論文,翻到了一篇較早的機器學習綜述(2017年),雖然不是最新的研究現(xiàn)狀,但考慮到經(jīng)典機器學習算法其實發(fā)展并不像深度學習那么迅猛,所以其論述還是很有參考性。本文就其中關(guān)于機器學習算法分類的一段進行選摘翻譯,以供參考。原文鏈接可通過閱讀原文查閱。



    以下譯文選摘自2017年發(fā)表在IJIRCCE上的《A Survey on Machine Learning: Concept, Algorithms and Applications》這篇文章的第III部分的B小節(jié),對算法進行分類介紹。主要包括12種機器學習算法。

    本文為個人翻譯分享,限于英語水平,定有翻譯不當甚至的錯誤的地方還望諒解。另外,部分不為熟知的算法舉例有所刪減。


    01 回歸算法

    回歸分析是預(yù)測的一部分,其通過挖掘自變量和因變量(目標)之間的關(guān)系實現(xiàn)。知名的回歸模型包括:線性回歸(Linear Regression),邏輯回歸(Logistic Regression),逐步回歸(Stepwise Regression),最小二乘法(Ordinary Least Squares Regression (OLSR)),多元自適應(yīng)回歸(Multivariate Adaptive Regression Splines (MARS) ),本地散點平滑估計(Locally Estimated Scatterplot Smoothing (LOESS))等等。

    譯者注:雖然稱之為回歸算法,但眾所周知邏輯回歸是用于分類的。另外,除了線性回歸和邏輯回歸之外,其他幾種算法貌似并不常用。


    02 基于實例的算法

    基于實例或基于內(nèi)存的算法,會直接存儲所有訓(xùn)練數(shù)據(jù)樣本,而不對其開發(fā)一個具體的模型函數(shù)。當有新的任務(wù)時(即用于測試集),其會用所有訓(xùn)練集數(shù)據(jù)進行檢驗以得到預(yù)測結(jié)果。如果遇到更好的訓(xùn)練數(shù)據(jù),它可以簡單的對其予以替換和更新。因此,這類算法也被稱為"勝者為王"算法。例如:K近鄰(KNN),學習向量量化(LVQ),自組織映射網(wǎng)絡(luò)(SOM),局部加權(quán)學習(LWL)等等。

    譯者注:這類算法其實就是所謂的惰性算法,即不訓(xùn)練任何模型,只存儲訓(xùn)練數(shù)據(jù),直至有預(yù)測任務(wù)時采取與訓(xùn)練集比較的方式進行預(yù)測。KNN就是最典型的代表。


    03 正則化算法

    正則化是用于解決過擬合和離群點的過程,是一種對已有機器學習模型進行簡單而有效的增加調(diào)整參數(shù)的方法,典型的就是對回歸模型。通過對擬合函數(shù)增加懲罰項的方式來實現(xiàn)擬合曲線的平滑,從而更好的處理離群點。例如:嶺回歸(Ridge),LASSO回歸,彈性網(wǎng)(Elastic Net),最小角回歸(LARS)等。

    譯者注:此處的正則化算法其實也屬于廣義上的線性回歸模型,在sklearn中都從linear_model中引入。


    04 決策樹算法

    決策樹算法將可能的解決方案構(gòu)建成類似于一棵樹的結(jié)構(gòu),同時滿足一定的約束條件。如此命名,是因為它總是從一個根節(jié)點開始,然后引出多個分支,直至可以得出確切的結(jié)論或預(yù)測結(jié)果為止,從而將這一過程構(gòu)建成一棵樹。它因具有以類似于人的處理方式來解決問題的能力而備受青睞,同時又具有較快的速度和較高的準確率。例如:CART樹、ID3、C4.5、C5.0等等。

    譯者注:決策樹的確是一種很好的機器學習算法,非常符合if-else或者swich-case的編程思想,它訓(xùn)練速度快、精度高,更重要的是支撐起了眾多集成學習算法。


    05 貝葉斯算法

    這是一組基于貝葉斯理論的機器學習算法,可用于解決分類和回歸問題。例如:樸素貝葉斯(NB),高斯樸素貝葉斯(Gaussian NB),多項式樸素貝葉斯(Multinomial NB),貝葉斯網(wǎng)絡(luò)(BN)等。

    譯者注:貝葉斯理論是機器學習中的常青樹,不僅衍生了樸素貝葉斯算法,更是支撐起了HPO(超參)方向的一片天!


    06 支持向量機

    SVM是一種如此流行的機器學習算法,以至于可將其獨立分為一類。它采用一組超平面或帶有決策邊界的決策平面來區(qū)分不同標簽的數(shù)據(jù)。它是一種嚴格的有監(jiān)督分類算法。換言之,該算法根據(jù)輸入數(shù)據(jù)或訓(xùn)練集來得到最優(yōu)超平面或決策邊界,而后以此對新的數(shù)據(jù)進行分類。當采用核函數(shù)時,SVM可兼顧線性和非線性分類問題。

    譯者注:SVM是曾經(jīng)紅極一時的機器學習算法,尤其是有了核函數(shù)的加持!俗話說,SVM有三寶,間隔對偶核函數(shù)。但其理解或者公式推導(dǎo)其實都是不甚友好的。另外,SVM不僅可用于分類問題,當然也可以用于回歸問題。


    07 聚類算法

    聚類是對數(shù)據(jù)集中潛在的模式進行利用和區(qū)分,從而對數(shù)據(jù)進行打標簽的過程。例如:K-Means、K-Medians、譜聚類、DBSCAN、EM等。

    譯者注:聚類算法是最為常見的無監(jiān)督機器學習場景,其與分類算法的區(qū)別在于:聚類是在數(shù)據(jù)無標簽的情況下嘗試對其打標簽,而分類則是在實際有標簽的情況下對其進行預(yù)測!


    08 關(guān)聯(lián)規(guī)則算法

    關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)表面不相關(guān)數(shù)據(jù)之間的相關(guān)性。它們被廣泛應(yīng)用于電商網(wǎng)站來預(yù)測客戶行為和需求,以及向顧客推薦其可能感興趣的產(chǎn)品。例如:Apriori 算法、Eclat 算法等。

    譯者注:關(guān)聯(lián)規(guī)則的經(jīng)典案例是啤酒和尿布,這也是某種意義上數(shù)據(jù)挖掘的起源!


    09 人工神經(jīng)網(wǎng)絡(luò)算法

    這是一種基于人或動物真實神經(jīng)網(wǎng)絡(luò)而構(gòu)建的模型。由于其試圖發(fā)現(xiàn)輸入和輸出數(shù)據(jù)間的復(fù)雜關(guān)聯(lián),ANN因此被視為非線性模型。其對數(shù)據(jù)進行采樣應(yīng)用而非整個數(shù)據(jù)集,從而可控制成本和時間。例如:感知機、反向傳播、徑向基網(wǎng)絡(luò)等。

    譯者注:人工神經(jīng)網(wǎng)絡(luò)是一種擬生算法,理念源于自然,又有著較為嚴格的數(shù)學理論基礎(chǔ),誕生時間也較早。比較經(jīng)典的算法當屬多層感知機模型,但其更大的價值在于奠定了深度學習的理論基礎(chǔ)。或許,深度學習這種星火燎原的態(tài)勢,是作者在2017年初所不曾預(yù)想的場面。


    10 深度學習算法

    在數(shù)據(jù)體量足夠大的今天,人工神經(jīng)網(wǎng)絡(luò)模型也有了更多的現(xiàn)代化版本。其利用更大的神經(jīng)網(wǎng)絡(luò)來解決半監(jiān)督問題,其中的數(shù)據(jù)往往是無標簽或者未分類的。例如,深度玻爾茲曼機,深度置信網(wǎng)絡(luò)(DBN),卷積神經(jīng)網(wǎng)絡(luò)(CNN)等等。

    譯者注:近幾年深度學習算法太火了,每年都有大量新的論文提出創(chuàng)新思想,儼然成為機器學習領(lǐng)域最為璀璨的明珠!


    11 降維算法

    降維算法通常用于將較大的數(shù)據(jù)集降低體量,采用最有用的成份或少數(shù)特征來表達相關(guān)信息。這可有助于數(shù)據(jù)更好的提供可視化或者更高效的開展有監(jiān)督學習中的分類。例如:主成分分析 (PCA)、主成分回歸 (PCR)、線性判別分析 (LDA)等。

    譯者注:降維算法與聚類算法同屬于無監(jiān)督學習,僅在某些特定場景下有所應(yīng)用,例如PCA算法有著嚴格的矩陣論基礎(chǔ)。但由于降維后的數(shù)據(jù)變得不具有可解釋性,所以它是天使還是魔鬼,全看如何應(yīng)用!


    12 集成算法

    集成算法的主要出發(fā)點是綜合多個獨立訓(xùn)練的弱學習器預(yù)測結(jié)果,確保最終結(jié)果相較于單個學習器而言更為精準和魯棒。為了最大化集成學習效果,需謹慎考慮基學習器類型和集成方法。例如:Boosting,Bagging,AdaBoost,GBM,GBRT,隨機森林,極限隨機森林等。

    譯者注:單就經(jīng)典機器學習而言(即不考慮深度學習和強化學習等),集成學習才是當前的主流和熱點!主流集成學習思想可參考歷史推文:一張圖介紹機器學習中的集成學習算法。



    相關(guān)閱讀:


    瀏覽 100
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    分享
    舉報
    評論
    圖片
    表情
    推薦
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    分享
    舉報

    <kbd id="5sdj3"></kbd>
    <th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>
    一级a爱视频 | 豆花视频成人网 | 色综合久久88色综合天天看泰 | 精品无码国产污污污免费网站 | 成人视频国产欧美日韩豆花 |