大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)派THU業(yè)界最需要的是什么技能?新的一年里您應(yīng)該從哪里開始學(xué)習(xí)?對于像數(shù)據(jù)科學(xué)這種飛速發(fā)展的領(lǐng)域,很容易理解為何在給定時間內(nèi)難以掌握一些熱門技能。成為一名數(shù)據(jù)科學(xué)家的關(guān)鍵是研究并且熟練掌握那些任意時刻出現(xiàn)的先進(jìn)技術(shù)。您永遠(yuǎn)不知道什么時候可能需要一個以前從未使用過的工具、函數(shù)或模塊,因而需要首先學(xué)習(xí)如何使用它們。這就是為什么我們大多數(shù)人喜歡閱讀“走向數(shù)據(jù)科學(xué)”(Towards Data Science)可考慮加一句譯者注,說明這是一個數(shù)據(jù)科學(xué)門戶網(wǎng)站!
數(shù)據(jù)科學(xué)最大的障礙是過去幾年來其突飛猛進(jìn)般的演變。近年來,數(shù)據(jù)科學(xué)已經(jīng)從一個相對鮮為人知的領(lǐng)域轉(zhuǎn)變?yōu)楹笫昀镒顭衢T的工作方向。所以,其概念體系/生態(tài)體系也在快速發(fā)展。這也意味著:如果您停滯不前,則很容易在數(shù)據(jù)科學(xué)的大潮之中落后。對于數(shù)據(jù)科學(xué)家而言,有一些關(guān)鍵屬性是雇主所看重并且追尋的,但最重要的屬性是您所熟悉的技術(shù)。就現(xiàn)在情況看來,熟悉從動畫片摩登原始人(Flintstones)中模仿的腳車技術(shù)可能并不像熟悉TensorFlow這樣有價值。由于數(shù)據(jù)科學(xué)市場和其概念體系在不斷發(fā)展,因此很難確定雇主實際想在自己的解決方案中使用的最新技術(shù)到底是什么。幸運的是,由于我們是數(shù)據(jù)科學(xué)家,因此我們可以通過瀏覽互聯(lián)網(wǎng)以查找更多數(shù)據(jù)科學(xué)崗位所需的技能,例如編程語言,包,和軟件。要想找到一份完美的數(shù)據(jù)集,來回答該選擇什么“數(shù)據(jù)科學(xué)技術(shù)”(體系)并不完全可行,因此以下概述來自于我的個人經(jīng)驗。雖然如此,這些概述也都來源于數(shù)據(jù)科學(xué)崗列出的工作要求,比較全面,并且與數(shù)據(jù)科學(xué)的內(nèi)在聯(lián)系很緊密。此外,數(shù)據(jù)科學(xué)領(lǐng)域也在迅速發(fā)展。這意味著盡管某些技術(shù)在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我謹(jǐn)就此方面的技術(shù)提出自己的見解。任何有遠(yuǎn)大理想的數(shù)據(jù)科學(xué)家都一定會熟悉許多業(yè)界常用的技能。有這些技能的使用經(jīng)驗一直都是很多工作崗位要求的一部分,因為它們很可能是您入職以后所使用的那些技能。至少,熟悉這些技能的基本概念能夠確保您在使用他們之時更容易上手。首先,如果您還不了解Python,建議您學(xué)習(xí)Python。盡管在數(shù)據(jù)分析中還會用到R,SAS甚至是Julia,大多數(shù)工作崗位尋求的還是精通Python的人。這并不是說其他語言是沒用的,因為能夠適用于不同目的的編程語言技能組合往往是最佳的。比如說,如果要建造花園,我想使用的不僅是鏟子,盡管我可能要做更多的工作,我最終還是能夠把花園建好的。Python是當(dāng)前科學(xué)計算領(lǐng)域的行業(yè)標(biāo)準(zhǔn)。這是有充分理由的,因為Python生態(tài)系統(tǒng)是其他任何語言都無法比擬的。另一個很棒的事情是,Python的設(shè)計使得它很容易使用。對于那些初學(xué)者,我會推薦Python,因為它會對您很有幫助!至于分析方面,通常都不直接列出技術(shù)。這僅是因為,取決于您想做什么,在進(jìn)行具體的可視化時,任何軟件包都可以勝任。因此,考慮到這一點,最好掌握多種庫以進(jìn)行數(shù)據(jù)可視化。此外,分析過程中的另一個重要的要素是統(tǒng)計學(xué)知識。我要說的是,熟悉Python的SciPy會使您更容易被公司錄用。在分析方面,雇主尋找的是真實的量化結(jié)果。統(tǒng)計測試是獲得真實量化結(jié)果的最簡單方法。此外,這些統(tǒng)計技能將逐步演化為您的機(jī)器學(xué)習(xí)技能。對于數(shù)據(jù),重要的是無論使用什么編程語言,都能對數(shù)據(jù)有深刻的理解。就是說:雖然大多數(shù)語言都具有相似的數(shù)據(jù)類型,但是用您首選的語言可能最終會完全不同。擁有一定的處理數(shù)據(jù)能力將會使數(shù)據(jù)清洗和建立有效的處理管道更加容易。對于Python來說,像NumPy和Pandas這樣的軟件包對于處理數(shù)據(jù)絕對是必不可少的。如果您想使用復(fù)雜的數(shù)據(jù)集并訓(xùn)練大型模型,那么先學(xué)好如何用自己喜歡的編程語言來操作/加工數(shù)據(jù)可能更為重要。盡管數(shù)據(jù)科學(xué)的重要組成部分是機(jī)器學(xué)習(xí),但很多職位頭銜一般不包含機(jī)器學(xué)習(xí)。原因是,首先,數(shù)據(jù)科學(xué)家會先預(yù)處理數(shù)據(jù),然后用科學(xué)的方法進(jìn)行實踐??紤]到這一點,如果沒有對數(shù)據(jù)操作的正確理解,甚至都很難建立模型并運行它。簡單來說,處理數(shù)據(jù)是最重要的一步,也是精通機(jī)器學(xué)習(xí)前的第一步。數(shù)據(jù)方面的另一重要事項是了解如何處理和存儲數(shù)據(jù)。從數(shù)據(jù)湖,數(shù)據(jù)庫和表的知識出發(fā),您還應(yīng)該知道如何查詢數(shù)據(jù)并將其帶入代碼中以進(jìn)行測試。能夠?qū)?shù)據(jù)進(jìn)行算術(shù)運算是非常棒的,但是當(dāng)您沒有數(shù)據(jù)時,它將變得毫無用處。此外,數(shù)據(jù)聚合算法很重要,無論是來自日志數(shù)據(jù),生成的數(shù)據(jù)還是最常用的數(shù)據(jù)。使用API服務(wù)并能夠以許多非傳統(tǒng)方式檢索數(shù)據(jù)對于任何數(shù)據(jù)科學(xué)家來說無疑都是必不可少的。在機(jī)器學(xué)習(xí)方面,雖然一些更高級的概念(例如,構(gòu)建神經(jīng)網(wǎng)絡(luò))可能很酷,但在許多情況下,使用典型的黑盒模型可能是最佳選擇。我認(rèn)為這意味著數(shù)據(jù)科學(xué)家應(yīng)該至少對兩者都有一定的了解。盡管我認(rèn)為這些技能沒有什么價值,因為大多數(shù)時候這些知識框架都是由其他人(尤其是在行業(yè)中)預(yù)先構(gòu)建好了的,(譯者補(bǔ)充:大多數(shù)時候只要調(diào)包就行了)所以大多數(shù)工作要求Python開發(fā)人員至少具有類似使用Sklearn庫的經(jīng)驗。開發(fā)運維是一個經(jīng)常被忽視的數(shù)據(jù)科學(xué)技能。所有模型都有一個目的,通常該目的是為了部署各個模型。因此,虛擬環(huán)境管理通常會有一段時間成為數(shù)據(jù)科學(xué)團(tuán)隊的重要工作內(nèi)容。這些至關(guān)重要的基礎(chǔ)技能也可能有助于編程,但主要是在構(gòu)建更復(fù)雜的數(shù)據(jù)解決方案時會有所幫助。如果您不知道如何將開發(fā)運維組合在一起,那運用現(xiàn)行的開發(fā)運維技術(shù)是很困難的。至少,對于許多數(shù)據(jù)科學(xué)家而言,了解如何使用終端并熟悉命令行(CLI)絕對是必不可少的。一年多以前,我寫了一篇關(guān)于為什么開發(fā)運維會如此重要的文章,實際上,您可以在這里查看:The benefits of?devlops skills in data science:https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85
構(gòu)建自己的生態(tài)系統(tǒng)想吸引大批的數(shù)據(jù)科學(xué)家往往是很困難的,因為他們經(jīng)常使用不同的語言。話雖這么說,對于您偏好的語言,可能還有一些軟件包,可能在2021年還需要您去掌握。根據(jù)我在職位列表上看到的內(nèi)容,我列出了幾個熱門語言中比較重要且值得學(xué)習(xí)的軟件包。Python
Julia
R
C++
當(dāng)然,不是說就一定要按照上面的列表來學(xué)習(xí),而是給人們提供了不同生態(tài)圈的輪廓。例如,Seaborn和Matplotlib具有許多相同的功能,因此您可能不需要兩者都知道,但是絕對需要了解如何繪制統(tǒng)計圖表。數(shù)據(jù)科學(xué)領(lǐng)域發(fā)展迅速,預(yù)測其未來相當(dāng)困難。但是,我們可以看到有關(guān)技術(shù)發(fā)展的趨勢。對于TensorFlow,Python,Pandas等行業(yè)標(biāo)準(zhǔn)軟件包,它們可能會存在很長時間。我懷疑對于整個生態(tài)系統(tǒng)而言,它的發(fā)展方向是不定的,但不會突變。話雖如此,新的編程語言Julia擁有許多有趣的前景,可能暗示著數(shù)據(jù)科學(xué)的未來。需要明確的是,這對于Python的地位沒有任何意義,但對于和Python一起的其他語言角色可能會有一些意義。我認(rèn)為,數(shù)據(jù)科學(xué)世界每天都有很多有趣的事情在發(fā)生。對于像我這樣喜歡不斷學(xué)習(xí)新事物的人來說,這是一件很棒的事情,但是這也會給人以警醒,因為很難知道在任何給定時間點您應(yīng)該與什么樣的技能打交道才能跟上行業(yè)發(fā)展。https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560