<kbd id="5sdj3"></kbd>
<th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>

    讓算法落地,數(shù)據(jù)產(chǎn)品的一些思考

    共 4223字,需瀏覽 9分鐘

     ·

    2020-09-14 21:10

    ↑↑↑關(guān)注后"星標(biāo)"Datawhale
    每日干貨?&?每月組隊(duì)學(xué)習(xí),不錯過
    ?Datawhale推薦?
    朱宏圖,滴滴統(tǒng)計學(xué)家,來源:滴滴技術(shù)

    導(dǎo)讀:一個成功的數(shù)據(jù)產(chǎn)品有三個核心層,包含一個中心(應(yīng)用層)與兩個基本點(diǎn)(數(shù)據(jù)層和算法層)。其中應(yīng)用層最重要,就是說給誰創(chuàng)造價值,也可以叫業(yè)務(wù)目標(biāo)。判斷一個數(shù)據(jù)產(chǎn)品的好壞在于它有沒有真正給受眾創(chuàng)造價值,創(chuàng)造多大價值。


    我們以一套數(shù)據(jù)產(chǎn)品為例來闡述它的三個核心層。

    比如說,“5G紅外成像測溫”作為一個數(shù)據(jù)產(chǎn)品已逐步在全國各類重要區(qū)域投入使用。應(yīng)用層是要做到在公共場所中(像飛機(jī)場,或火車站),如何無感、無接觸、且快速精準(zhǔn)的識別高溫人員,這個業(yè)務(wù)目標(biāo)對2020年的新冠防疫有非常大的價值。為了達(dá)到該業(yè)務(wù)目標(biāo),在數(shù)據(jù)層,我們很容易收集到大量有很高準(zhǔn)確度的訓(xùn)練數(shù)據(jù)集。具體地說,通過挑選固定人群出現(xiàn)在各種公共場所中,并同時采他們的紅外熱成像數(shù)據(jù)和體溫的信息。在算法層,基于前面大量的訓(xùn)練數(shù)據(jù)集,我們用人臉識別技術(shù)與紅外熱成像等相關(guān)的算法技術(shù)(像神經(jīng)網(wǎng)絡(luò))來訓(xùn)練統(tǒng)計模型來精準(zhǔn)地預(yù)測人體的體溫,但是人與成像儀器的距離對預(yù)測的準(zhǔn)確性會有很大的影響。



    1.?
    三個核心層
    如同例子所示,三個核心層相輔相成,相互制約,相互作用,缺一不可。具體地說,它們?nèi)齻€關(guān)系如下:

    • 應(yīng)用層:
      應(yīng)用層是實(shí)現(xiàn)技術(shù)落地,為算法層提供目標(biāo)與方向,為未來數(shù)據(jù)層建設(shè)提供指引。
    • 數(shù)據(jù)層:
      數(shù)據(jù)層是以業(yè)務(wù)需求為指導(dǎo)進(jìn)行高效的、有序的底層數(shù)據(jù)建設(shè),方便數(shù)據(jù)提取、清洗與處理,并降低數(shù)據(jù)分析的技術(shù)難度。
    • 算法層:
      算法層是為了實(shí)現(xiàn)業(yè)務(wù)目標(biāo),深入理解業(yè)務(wù),提供技術(shù)支持,進(jìn)行數(shù)據(jù)的深度挖掘,并彌補(bǔ)一部分?jǐn)?shù)據(jù)建設(shè)上的缺陷,幫助找到數(shù)據(jù)層優(yōu)化的方向。



    2.?
    應(yīng)用層
    應(yīng)用層也分好幾個層級的,核心點(diǎn)就是能夠給一部分人群,企業(yè)或政府創(chuàng)造出價值,而這些層級主要是要從影響的受眾多少和程度來區(qū)分,有大有小,我們來看幾個例子:

    • 可以做幾個 R 包,像中山大學(xué)王學(xué)欽老師的球(Ball)軟件包,如果有人用來分析數(shù)據(jù),并得到正確結(jié)論,就是一種價值。
    • 耶魯大學(xué)的張和平老師有關(guān)不孕癥的結(jié)果,能夠影響一部分病人的治療方案。
    • 密西根大學(xué)的宋學(xué)坤老師和合作者解決了活體腎移植領(lǐng)域供受者不匹配的問題,使得腎臟配對的成功率比 Alvin Roth 方法提高了20~30%。
    • 可以給政府/公司出一些專題分析,商業(yè)智能和報告(像北京大學(xué)陳松溪老師有關(guān)環(huán)境和新冠的報告受到政府機(jī)關(guān)的重視),給產(chǎn)品進(jìn)行一些基本的分析,對決策提一些有深度的想法,以提高決策的精準(zhǔn)度。
    • 做個 app 或電商,像滴滴、京東,和阿里等等,這些平臺把供給和需求打通,以增加貿(mào)易的效率。
    • 像學(xué)而思這樣的平臺,給許多沒有進(jìn)私立學(xué)校和重點(diǎn)學(xué)校的學(xué)生們一個接觸頂級教資的機(jī)會。



    3.?
    數(shù)據(jù)層
    有了一個好的應(yīng)用層問題,數(shù)據(jù)層就變得非常關(guān)鍵,就是能不能在一定成本下收集到有用的數(shù)據(jù),以達(dá)到業(yè)務(wù)的目標(biāo)。在現(xiàn)在許多場景中,相關(guān)數(shù)據(jù)產(chǎn)品之所以可以業(yè)務(wù)落地的一個關(guān)鍵點(diǎn)就是數(shù)據(jù)層上的突破,即能夠相對容易地找到與業(yè)務(wù)目標(biāo)相關(guān)的數(shù)據(jù)源和特征?,F(xiàn)在各種 app,電商,搜索平臺都匯集了許多用戶的行為信息,它們是公司優(yōu)惠策略的金礦,但是這些海量的數(shù)據(jù)到底能不能發(fā)揮應(yīng)有的效果,主要是三點(diǎn):

    • 數(shù)據(jù)需要服務(wù)于應(yīng)用才有價值。比如說,許多平臺收集了大量視頻的數(shù)據(jù),存儲它們花費(fèi)很大,所以需要刪除大量與業(yè)務(wù)無關(guān)的東西,并進(jìn)行壓縮以降低成本。

    • 數(shù)據(jù)收集是有成本的,是否要收集相關(guān)數(shù)據(jù)要看能不能真正為業(yè)務(wù)創(chuàng)造出價值,我們一定要平衡成本和收益。如果成本遠(yuǎn)大于的收益的話,我們可能就不需要相關(guān)的數(shù)據(jù)。

    • 數(shù)據(jù)需要能轉(zhuǎn)化為達(dá)成業(yè)務(wù)目標(biāo)的策略,更直白地說,就是如何把數(shù)據(jù)轉(zhuǎn)化成業(yè)務(wù)抓手,以正確地影響業(yè)務(wù)。


    我們來討論兩個場景

    第一個場景是數(shù)據(jù)對業(yè)務(wù)價值有很強(qiáng)的確定性,就如“5G紅外成像測溫”的相關(guān)訓(xùn)練數(shù)據(jù)。

    我們再考慮另外一個非常有名的 ImageNet (http://image-net.org/),它是計算機(jī)視覺領(lǐng)域一個跨時代的數(shù)據(jù)集,以場景之豐富多樣和各種復(fù)雜的問題而受到廣泛關(guān)注,而它的一個關(guān)鍵突破就是最近十幾年整個領(lǐng)域在標(biāo)注能力和效率的提升, 而標(biāo)注好壞的一個要點(diǎn)就是問題確定性的大小,也就是說能否很確定地找到與業(yè)務(wù)目標(biāo)相關(guān)的特征。ImageNet 的問題雖然很復(fù)雜,但是不確定性是非常小的。用 ImageNet 這種高確定性的數(shù)據(jù)來打造商業(yè)落地的數(shù)據(jù)產(chǎn)品極度依賴于現(xiàn)在的算力和算法層的突破。

    第二個場景是數(shù)據(jù)對業(yè)務(wù)價值有很強(qiáng)的不確定性,這種不確定性有兩個維度:

    1.我們不知道哪些數(shù)據(jù)真正重要。
    在許多情況,我們根本不知道什么信息是最關(guān)鍵的,像許多疑難雜癥,可能是因?yàn)椤安 钡亩x本身都不清楚,像精神類的許多疾病,由此許多后續(xù)動作的不確定性很大。也可能是因?yàn)椴±淼恼麄€機(jī)制都不清楚,我們無從下手。

    2.我們不清楚有沒有能力收集到相關(guān)數(shù)據(jù)。
    現(xiàn)在許多研究雖然收集了許多數(shù)據(jù),其實(shí)我們根本不知道這些數(shù)據(jù)能不能真正可以幫助醫(yī)生治病救人。許多病理研究都要測不同層級基因的信息,各個政府和機(jī)構(gòu)投入了大量的資源來制造相關(guān)的儀器和收集相關(guān)數(shù)據(jù)。
    為什么? 因?yàn)檫@些儀器并不能滿足應(yīng)用的需求,也不能達(dá)到業(yè)務(wù)的目標(biāo)=治病救人,所以科學(xué)家們還在不斷的努力中。另外,因?yàn)閷€人數(shù)據(jù)隱私的保護(hù),各個國家開始進(jìn)行了相關(guān)的立法,以規(guī)范各個商家,組織,和政府機(jī)關(guān)對個人數(shù)據(jù)的使用和管理,所以許多跟業(yè)務(wù)相關(guān)的數(shù)據(jù)并不能應(yīng)用在一些策略中。



    4.?
    算法層
    算法層也是我們學(xué)術(shù)同仁所說的理論研究。統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)里面許多有影響力的理論方法都是有很多應(yīng)用場景和能解決實(shí)際問題的理論方法。比如說,抽樣方法和實(shí)驗(yàn)設(shè)計方法(像方開泰老師的均勻設(shè)計)都是在收集數(shù)據(jù)方向,許多同仁在實(shí)踐中抽象出來的有一定普實(shí)性的理論。像 MCMC,線性模型,隨機(jī)森林,SVM,和神經(jīng)網(wǎng)絡(luò)等估計和預(yù)測方法都是在實(shí)踐中得到廣泛應(yīng)用,并創(chuàng)造出相當(dāng)大的價值。在互聯(lián)網(wǎng)的領(lǐng)域,最流行的三種學(xué)習(xí)方法可能是簡單的回歸模型,隨機(jī)森林(或 XGBoost),和深度學(xué)習(xí)。

    回歸模型

    回歸模型是研究一些被解釋變量關(guān)于另一些解釋變量的具體函數(shù)關(guān)系的方法。它通常用于數(shù)據(jù)建模,預(yù)測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系,是許多數(shù)據(jù)建模的第一選擇。例如,我們可以用回歸模型來研究司機(jī)的一些不良的駕駛行為(比如魯莽駕駛,開車手機(jī)等等)與道路交通事故數(shù)據(jù)之間的關(guān)系。

    隨機(jī)森林

    隨機(jī)森林(或 XGBoost),是一個高度靈活和有效的學(xué)習(xí)方法, 它能夠有效地處理大數(shù)據(jù),而且它可以進(jìn)行大量特征進(jìn)行變量選擇,是做回歸和分類問題的首選工具之一。隨機(jī)森林的應(yīng)用前景非常多,包含客服進(jìn)線問題的預(yù)測,推薦系統(tǒng),實(shí)時分流,用戶分層等等。

    深度學(xué)習(xí)

    深度學(xué)習(xí)是處理有時/空相關(guān)性數(shù)據(jù)的重要學(xué)習(xí)方法,特別是在圖像識別、語音識別、和自然語言理解這三個領(lǐng)域都有非常不錯的表現(xiàn),可以說是這三個領(lǐng)域的首選模型。跟傳統(tǒng)統(tǒng)計方法相比,深度學(xué)習(xí)能放大局部一些弱的信號,并把這些放大的信號拉齊到同一個位置。它最大的優(yōu)點(diǎn)就是使得特征提取和特征選擇自動化,學(xué)習(xí)到的特征對原始數(shù)據(jù)有更本質(zhì)的刻畫,可能更利于進(jìn)行統(tǒng)計分類和推斷,上海 ImageNet 的數(shù)據(jù)就引起了深度學(xué)習(xí)的發(fā)展和突破。

    我們最近一直在做網(wǎng)約車運(yùn)營相關(guān)的策略和研究。通過這段時間的理解,我們越來越感覺實(shí)驗(yàn)設(shè)計,因果推斷,和強(qiáng)化學(xué)習(xí)這三個方向起著關(guān)鍵的作用。因?yàn)槠木壒剩覀冞@里只稍微闡述一下它們的重要性。

    實(shí)驗(yàn)設(shè)計和因果推斷可以說是醫(yī)療行業(yè),工業(yè)應(yīng)用,和互聯(lián)網(wǎng)公司中被最廣泛使用的統(tǒng)計方法。在大部分的應(yīng)用場景中,我們關(guān)心的是業(yè)務(wù)中的因果關(guān)系,就是通過找到并改變一些抓手變量,來達(dá)到預(yù)期的業(yè)務(wù)目標(biāo),并考慮環(huán)境變量的影響。

    為了對因果關(guān)系進(jìn)行推斷,我們有的時候可以用觀察的數(shù)據(jù),但是這個需要一些強(qiáng)的假設(shè)條件。隨機(jī)實(shí)驗(yàn)就依賴于實(shí)驗(yàn)設(shè)計,本質(zhì)上就是一個設(shè)計一種實(shí)驗(yàn)方法收集一些有用且有效的數(shù)據(jù),可以更科學(xué)的看清楚策略的實(shí)際效果,以進(jìn)行因果推斷。

    強(qiáng)化學(xué)習(xí)開始在應(yīng)用中起著越來越重要的作用,主要是因?yàn)樗囊粋€主要目的是找到達(dá)到最優(yōu)的中長期獎勵的策略。最近它在圍棋和電子游戲中達(dá)到或超過了人類水平, 而且在精準(zhǔn)醫(yī)療上也有很多的應(yīng)用。隨著大數(shù)據(jù)技術(shù)和科技的發(fā)展,因?yàn)槲覀兪占臄?shù)據(jù)在時間上越來越精細(xì),所以有可能設(shè)計一些動態(tài)的策略來達(dá)到業(yè)務(wù)的目標(biāo)。


    比如說,網(wǎng)約車平臺匯集了大量車的時空軌跡和用戶的行為軌跡,而平臺策略主要影響用戶的行為和供需匹配的效率。我們可以考慮一些策略來影響用戶的短期行為,也可以考慮一些中長期的策略(像定價)。我們最近一直在用強(qiáng)化學(xué)習(xí)來做優(yōu)化平臺各種平臺策略,具體的強(qiáng)化學(xué)習(xí)學(xué)習(xí)過程包含 (i)?輸入是每個用戶的歷史軌跡,包括訂單行為,呼叫記錄和領(lǐng)劵行為等;(ii)?模型產(chǎn)出每個乘客/司機(jī)在不同 action 下的長期收益。


    算法層是連接數(shù)據(jù)層和應(yīng)用層的橋梁。不同業(yè)務(wù)目標(biāo)對數(shù)據(jù)和算法的要求不一樣。越是重要的決策和洞察越需要與業(yè)務(wù)緊密相關(guān)的數(shù)據(jù)(深度特征),以及更高深的算法,像因果推斷。比如說,大部分公司希望對用戶行為的進(jìn)行一定的引導(dǎo),特別是深層次和長期的目標(biāo),數(shù)據(jù)的不確定性就會越高,由此處理這些數(shù)據(jù)需要很強(qiáng)的算法和數(shù)學(xué)推導(dǎo)能力,像強(qiáng)化學(xué)習(xí)。此外,算法層也可以彌補(bǔ)一部分?jǐn)?shù)據(jù)建設(shè)上的缺陷,就是用高深的算法來進(jìn)行數(shù)據(jù)挖掘,這可以幫助我們找到未來數(shù)據(jù)層建設(shè)的方向, 這是為什么數(shù)據(jù)挖掘重要的根本原因。



    5.?
    結(jié)論
    最后,我們把數(shù)據(jù)產(chǎn)品從業(yè)務(wù)的角度來進(jìn)行歸類:

    • 生存型:對于業(yè)務(wù)來說,我愿意為你買單,就是因?yàn)槲译x不開你,沒有你就沒有辦法活,這個最重要。
    • 服務(wù)型:有沒有你,我的服務(wù)水平有很大的差異,這就是服務(wù)型。
    • 品質(zhì)型:有了你,我們的服務(wù)顯得高大上,這個是品質(zhì)型。

    每一類數(shù)據(jù)產(chǎn)品的受眾人群的大小和背景不一樣。一個高水平的數(shù)據(jù)建設(shè)就是以應(yīng)用層為引導(dǎo),打造出最經(jīng)濟(jì)實(shí)惠的數(shù)據(jù)框架,并根據(jù)用戶來定制對應(yīng)的數(shù)據(jù)產(chǎn)品,而每個數(shù)據(jù)產(chǎn)品都是應(yīng)用層,數(shù)據(jù)層和算法層三者的有機(jī)融合。




    本文作者

    ?


    北卡羅來納大學(xué)教堂山分校生物統(tǒng)計學(xué)終身教授

    北卡州立大學(xué)統(tǒng)計博士

    “干貨學(xué)習(xí),點(diǎn)三連
    瀏覽 46
    點(diǎn)贊
    評論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報
    評論
    圖片
    表情
    推薦
    點(diǎn)贊
    評論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報

    <kbd id="5sdj3"></kbd>
    <th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>
    毛片性爱视频 | 国产棈品久久久久久久久久九秃 | 国产成人婬片A片免费V8 | 99天堂网| 校园春色五月天 |