<kbd id="5sdj3"></kbd>
<th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>

    機器學(xué)習(xí)十大算法的優(yōu)缺點!

    共 6928字,需瀏覽 14分鐘

     ·

    2023-10-13 10:01

        
        
    來源:知乎 Abner說AI

    本文約4500字,建議閱讀9分鐘

    本文為你統(tǒng)計了機器學(xué)習(xí)十大算法的優(yōu)缺點。


    1.邏輯回歸


    二項logistic回歸模型是一種分類模型,由條件概率分布 P(Y|X)表示,形式為參數(shù)化的logistic分布。這里隨機變量X取值為實數(shù),隨機變量Y取值為1或0。可以通過有監(jiān)督的方法來估計模型參數(shù)。


    優(yōu)點:

    1. 計算代價不高,易于理解和實現(xiàn);

    2. 適用于需要得到有分類概率額場景;

    3.對小數(shù)據(jù)噪聲的魯棒性好,不會收輕微的多重共線性的影響。


    缺點:

    1. 容易欠擬合,分類精度可能不高;

    2.數(shù)據(jù)有缺失和特征很大的時候表現(xiàn)不好 。


    2.支持向量機


    對于兩類線性可分學(xué)習(xí)任務(wù),SVM找到一個間隔最大的超平面將兩類樣本分開,最大間隔能夠保證該超平面具有最好的泛化能力。


    優(yōu)點:

    1. 可以解決小樣本情況下的ML問題;

    2. 可以提高泛化性能;

    3. 可以解決高維問題,避免維數(shù)災(zāi)難;

    4. 可以解決非線性問題;

    5. 可以避免神經(jīng)網(wǎng)絡(luò) 結(jié)構(gòu)選擇和局部極小點問題;

    參數(shù)C和g的選擇對分類性能的影響:

    C是懲罰系數(shù),C越大,交叉validation高,容易過學(xué)習(xí);

    g是核函數(shù) 的到達0的速率,g越小,函數(shù)下降快,交叉validation高,也容易造成過學(xué)習(xí)。


    缺點:

    1. 對缺失數(shù)據(jù)敏感;

    2. 對非線性問題沒有通用解決方案,必須謹慎選擇kernel function來處理。


    SVM算法的主要優(yōu)點有:

    1) 解決高維特征的分類問題和回歸問題很有效,在特征維度大于樣本數(shù)時依然有很好的效果。

    2) 僅僅使用一部分支持向量來做超平面的決策,無需依賴全部數(shù)據(jù)。

    3) 有大量的核函數(shù)可以使用,從而可以很靈活的來解決各種非線性的分類回歸問題。

    4)樣本量不是海量數(shù)據(jù)的時候,分類準確率高,泛化能力強。


    SVM算法的主要缺點有:

    1) 如果特征維度遠遠大于樣本數(shù),則SVM表現(xiàn)一般。

    2) SVM在樣本量非常大,核函數(shù)映射維度非常高時,計算量過大,不太適合使用。(不適用于大數(shù)據(jù)集)

    3)非線性問題的核函數(shù)的選擇沒有通用標準,難以選擇一個合適的核函數(shù)。

    4)SVM對缺失數(shù)據(jù)敏感。


    1)一般推薦在做訓(xùn)練之前對數(shù)據(jù)進行歸一化,當然測試集中的數(shù)據(jù)也需要歸一化。

    2)在特征數(shù)非常多的情況下,或者樣本數(shù)遠小于特征數(shù)的時候,使用線性核,效果已經(jīng)很好,并且只需要選擇懲罰系數(shù)C即可。

    3)在選擇核函數(shù)時,如果線性擬合不好,一般推薦使用默認的高斯核'rbf'。這時我們主要需要對懲罰系數(shù)C和核函數(shù)參數(shù)γ進行艱苦的調(diào)參,通過多輪的交叉驗證選擇合適的懲罰系數(shù)C和核函數(shù)參數(shù)γ。

    4)理論上高斯核不會比線性核差,但是這個理論卻建立在要花費更多的時間來調(diào)參上。所以實際上能用線性核解決問題我們盡量使用線性核。


    3.決策樹


    一種啟發(fā)式算法,核心是在決策樹各個節(jié)點上應(yīng)用信息增益 等準則來選取特征,進而遞歸地構(gòu)造決策樹。


    優(yōu)點:

    1. 計算復(fù)雜度不高,易于理解和解釋,可以理解決策樹所表達的意義;

    2. 數(shù)據(jù)預(yù)處理階段比較簡單,且可以處理缺失數(shù)據(jù);

    3. 能夠同時處理數(shù)據(jù)型和分類型屬性,且可對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹;

    4. 是一個白盒模型,給定一個觀察模型,則根據(jù)所產(chǎn)生的決策樹很容易推斷出相應(yīng)的邏輯表達式;

    5. 在相對短的時間內(nèi)能夠?qū)Υ髷?shù)據(jù)集合做出可行且效果良好的分類結(jié)果。

    6. 可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。


    缺點:

    1. 對于那些各類別樣本數(shù)目不一致的數(shù)據(jù),信息增益的結(jié)果偏向于那些具有更多數(shù)值的屬性;

    2. 對噪聲數(shù)據(jù)較為敏感;

    3. 容易出現(xiàn)過擬合問題;

    4. 忽略了數(shù)據(jù)集中屬性之間的相關(guān)性;

    5.處理缺失數(shù)據(jù)時的困難


    決策樹優(yōu)點:

    1)簡單直觀,生成的決策樹很直觀。

    2)基本不需要預(yù)處理,不需要提前歸一化,處理缺失值。

    3)使用決策樹預(yù)測的代價是O(log_2m)。m為樣本數(shù)。

    4)既可以處理離散值也可以處理連續(xù)值。很多算法只是專注于離散值或者連續(xù)值。

    5)可以處理多維度輸出的分類問題。

    6)相比于神經(jīng)網(wǎng)絡(luò)之類的黑盒分類模型,決策樹在邏輯上可以得到很好的解釋

    7)可以交叉驗證的剪枝來選擇模型,從而提高泛化能力。

    8)對于異常點的容錯能力好,健壯性高。


    決策樹算法的缺點:

    1)決策樹算法非常容易過擬合,導(dǎo)致泛化能力不強??梢酝ㄟ^設(shè)置節(jié)點最少樣本數(shù)量和限制決策樹深度來改進。

    2)決策樹會因為樣本發(fā)生一點點的改動,就會導(dǎo)致樹結(jié)構(gòu)的劇烈改變。這個可以通過集成學(xué)習(xí)之類的方法解決。

    3)尋找最優(yōu)的決策樹是一個NP難的問題,我們一般是通過啟發(fā)式方法,容易陷入局部最優(yōu)??梢酝ㄟ^集成學(xué)習(xí)之類的方法來改善。

    4)有些比較復(fù)雜的關(guān)系,決策樹很難學(xué)習(xí),比如異或。這個就沒有辦法了,一般這種關(guān)系可以換神經(jīng)網(wǎng)絡(luò)分類方法來解決。

    5)如果某些特征的樣本比例過大,生成決策樹容易偏向于這些特征。這個可以通過調(diào)節(jié)樣本權(quán)重來改善。


    4.KNN算法


    一種惰性分類方法,從訓(xùn)練集中找出k個最接近測試對象的訓(xùn)練對象,再從這k個訓(xùn)練對象中找出居于主導(dǎo)的類別,將其賦給測試對象。


    優(yōu)點:

    1. 簡單有效,容易理解和實現(xiàn);

    2. 重新訓(xùn)練的代價較低(類別體系的變化和訓(xùn)練集的變化);

    3. 計算時間和空間線性于訓(xùn)練集的規(guī)模;

    4. 錯誤率漸進收斂于貝葉斯錯誤率,可作為貝葉斯的近似;

    5. 適合處理多模分類和多標簽分類問題;

    6. 對于類域的交叉或重疊較多的待分類樣本集較為適合。


    缺點:

    1. 是懶散學(xué)習(xí)方法,比一些積極學(xué)習(xí)的算法要慢;

    2. 計算量比較大,需對樣本點進行剪輯;

    3. 對于樣本不平衡的數(shù)據(jù)集效果不佳,可采用加權(quán)投票法改進;

    4. k值的選擇對分類效果有很大影響,較小的話對噪聲敏感,需估計最佳k值;

    5.可解釋性不強,計算量大。


    KNN的主要優(yōu)點有:

    1) 理論成熟,思想簡單,既可以用來做分類也可以用來做回歸;

    2) 可用于非線性分類;

    3) 訓(xùn)練時間復(fù)雜度 比支持向量機之類的算法低,僅為O(n);

    4) 和樸素貝葉斯之類的算法比,對數(shù)據(jù)沒有假設(shè),準確度高,對異常點不敏感;

    5) 由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的 交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合;

    6)該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。


    KNN的主要缺點有:

    1)計算量大,尤其是特征數(shù)非常多的時候;

    2)樣本不平衡的時候,對稀有類別的預(yù)測準確率低;

    3)KD樹,球樹之類的模型建立需要大量的內(nèi)存;

    4)使用懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測時速度比起邏輯回歸之類的算法慢;

    5)相比決策樹模型,KNN模型可解釋性不強。


    5.樸素貝葉斯算法


    貝葉斯分類器的分類原理是利用各個類別的先驗概率,再利用貝葉斯公式及獨立性假設(shè)計算出屬性的類別概率以及對象的后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類別。


    優(yōu)點:

    1. 數(shù)學(xué)基礎(chǔ)堅實,分類效率穩(wěn)定,容易解釋;

    2. 所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感;

    3. 無需復(fù)雜的迭代求解框架,適用于規(guī)模巨大的數(shù)據(jù)集。


    缺點:

    1. 屬性之間的獨立性假設(shè)往往不成立(可考慮用聚類算法先將相關(guān)性較大的屬性進行聚類);

    2. 需要知道先驗概率,分類決策存在錯誤率。


    樸素貝葉斯的主要優(yōu)點有:

    1)樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有穩(wěn)定的分類效率。

    2)對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個處理多分類任務(wù),適合增量式訓(xùn)練,尤其是數(shù)據(jù)量超出內(nèi)存時,我們可以一批批的去增量訓(xùn)練。

    3)對缺失數(shù)據(jù)不太敏感,算法也比較簡單,常用于文本分類。


    樸素貝葉斯的主要缺點有:   

    1) 理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型給定輸出類別的情況下,假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好。而在屬性相關(guān)性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進。

    2)需要知道先驗概率,且先驗概率很多時候取決于假設(shè),假設(shè)的模型可以有很多種,因此在某些時候會由于假設(shè)的先驗?zāi)P偷脑驅(qū)е骂A(yù)測效果不佳。

    3)由于我們是通過先驗和數(shù)據(jù)來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率。

    4)對輸入數(shù)據(jù)的表達形式很敏感。


    6.隨機森林算法


    RF的主要優(yōu)點有:

    1) 訓(xùn)練可以高度并行化,對于大數(shù)據(jù)時代的大樣本訓(xùn)練速度有優(yōu)勢。最主要的優(yōu)點。

    2) 由于可以隨機選擇決策樹節(jié)點劃分特征,這樣在樣本特征維度很高的時候,仍然能高效的訓(xùn)練模型。

    3) 在訓(xùn)練后,可以給出各個特征對于輸出的重要性

    4) 由于采用了隨機采樣,訓(xùn)練出的模型的方差小,泛化能力強。

    5) 相對于Boosting系列的Adaboost和GBDT, RF實現(xiàn)比較簡單。

    6) 對部分特征缺失不敏感。


    RF的主要缺點有:

    1)在某些噪音比較大的樣本集上,RF模型容易陷入過擬合。

    2) 取值劃分比較多的特征容易對RF的決策產(chǎn)生更大的影響,從而影響擬合的模型的效果。


    7.AdaBoost算法


    提升方法是從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列的弱分類器(即基本分類器),然后組合這些弱分類器,構(gòu)成一個強分類器,大多數(shù)的提升方法都是改變訓(xùn)練數(shù)據(jù)集的概率分布(訓(xùn)練數(shù)據(jù)的權(quán)值分布),針對不同的訓(xùn)練數(shù)據(jù)分布調(diào)用弱學(xué)習(xí)算法學(xué)習(xí)一系列的弱分類器。


    優(yōu)點:

    1. 分類精度高;

    2. 可以使用各種方法構(gòu)建子分類器 ,Adaboost算法提供的是框架;

    3. 簡單,且不用做特征篩選;

    4. 不會造成overfitting。


    缺點:

    1. 對分類錯誤的樣本多次被分錯而多次加權(quán)后,導(dǎo)致權(quán)重過大,影響分類器的選擇,造成退化問題;(需改進權(quán)值更新方式)

    2. 數(shù)據(jù)不平衡問題導(dǎo)致分類精度的急劇下降;

    3. 算法訓(xùn)練耗時,拓展困難;

    4. 存在過擬合,魯棒性不強等問題。


    Adaboost的主要優(yōu)點有:

    1)Adaboost作為分類器時,分類精度很高

    2)在Adaboost的框架下,可以使用各種回歸分類 模型來構(gòu)建弱學(xué)習(xí)器,非常靈活。

    3)作為簡單的二元分類器時,構(gòu)造簡單,結(jié)果可理解。

    4)不容易發(fā)生過擬合


    Adaboost的主要缺點有:

    1)對異常樣本敏感,異常樣本在迭代中可能會獲得較高的權(quán)重,影響最終的強學(xué)習(xí)器的預(yù)測準確性。


    8.GBDT


    GBDT主要的優(yōu)點有:

    1) 可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。

    2) 在相對少的調(diào)參時間情況下,預(yù)測的準確率也可以比較高。這個是相對SVM來說的。

    3)使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。


    GBDT的主要缺點有:

    1) 由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù)。不過可以通過自采樣的SGBT來達到部分并行。


    9.XGBoost算法


    1.XGBoost與GBDT相比,其優(yōu)勢:

    將樹模型的復(fù)雜度加入到正則項中,來避免過擬合,因此泛化性能會優(yōu)于GBDT。

    損失函數(shù)用泰勒展開式展開,同時用到了一階和二階導(dǎo)數(shù),可以加快優(yōu)化速度。

    GBDT只支持CART作為基學(xué)習(xí)器,XGBoost還支持線性分類器作為基學(xué)習(xí)器。

    引進了特征子采樣,像隨機森林那樣,既能避免過擬合,又能減少計算。

    在尋找最優(yōu)分割點時,考慮到傳統(tǒng)的貪心算法效率較低,實現(xiàn)了一種近似貪心算法,用來加速和減少內(nèi)存小號,除此之外,還考慮了稀疏數(shù)據(jù)集合缺失值的處理。

    XGBoost支持并行處理。XGBoost的并行不是模型生成的并行,而是在特征上的并行,將特征排序后以block的形式存儲在內(nèi)存中,在后面迭代重復(fù)使用這個結(jié)構(gòu)。這個block也使得并行化成為了可能,其次在節(jié)點分裂時,計算每個特征的增益,最終選擇增益最大的那個特征去做分割,那么各個特征的增益計算就可以開多線程進行。


    2.與lightGBM相比的不足點:

    XGBoosting采用預(yù)排序,在迭代之前,對結(jié)點的特征做預(yù)排序,遍歷選擇最優(yōu)分割點,數(shù)據(jù)量大時,貪心法耗時,LightGBM方法采用histogram算法,占用的內(nèi)存低,數(shù)據(jù)分割的復(fù)雜度更低。

    XGBoosting采用level-wise生成決策樹,同時分裂同一層的葉子,從而進行多線程優(yōu)化,不容易過擬合,但很多葉子節(jié)點的分裂增益較低,沒必要進行跟進一步的分裂,這就帶來了不必要的開銷;LightGBM采用深度優(yōu)化,leaf-wise生長策略,每次從當前葉子中選擇增益最大的結(jié)點進行分裂,循環(huán)迭代,但會生長出更深的決策樹,產(chǎn)生過擬合,因此引入了一個閾值進行限制,防止過擬合。


    10.人工神經(jīng)網(wǎng)絡(luò)


    優(yōu)點:

    1. 分類的準確度高,并行分布處理能力強,分布存儲及學(xué)習(xí)能力強;

    2. 對噪聲神經(jīng)有較強的魯棒性和容錯能力,能充分逼近復(fù)雜的非線性關(guān)系,具備聯(lián)想記憶的功能等。


    缺點:

    1. 神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)拓撲結(jié)構(gòu)、權(quán)值和閾值的初始值;

    2. 不能觀察之間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和可接受程度;

    3. 學(xué)習(xí)時間過長,甚至可能達不到學(xué)習(xí)的目的。


    編輯:于騰凱
    校對:龔力

    瀏覽 1649
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    分享
    舉報
    評論
    圖片
    表情
    推薦
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    分享
    舉報

    <kbd id="5sdj3"></kbd>
    <th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>
    国产成人无码AⅤ片免费播放 | 天天综合干 | 亚洲污污污 | 亚洲免费在线视 | 黄色污污视频网站在线观看 |