<kbd id="5sdj3"></kbd>
<th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>

    百度開源的依存句法分析系統(tǒng)

    共 3425字,需瀏覽 7分鐘

     ·

    2020-09-07 23:20






    向AI轉(zhuǎn)型的程序員都關(guān)注了這個號???

    機(jī)器學(xué)習(xí)AI算法工程?? 公眾號:datayx


    依存句法分析是自然語言處理核心技術(shù)之一,旨在通過分析句子中詞語之間的依存關(guān)系來確定句子的句法結(jié)構(gòu),如下圖實(shí)例所示:?



    依存句法分析作為底層技術(shù),可直接用于提升其他NLP任務(wù)的效果,這些任務(wù)包括但不限于語義角色標(biāo)注、語義匹配、事件抽取等。該技術(shù)具有很高的研究價(jià)值及應(yīng)用價(jià)值。為了方便研究人員和商業(yè)合作伙伴共享效果領(lǐng)先的依存句法分析技術(shù),我們開源了基于大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練的高性能的依存句法分析工具,并提供一鍵式安裝及預(yù)測服務(wù),用戶只需一條命令即可獲取依存句法分析結(jié)果。


    依存句法分析標(biāo)注關(guān)系集合

    DuCTB1.0數(shù)據(jù)集含14種標(biāo)注關(guān)系,具體含義見下表:


    項(xiàng)目介紹

    DDParser(Baidu?Dependency?Parser)是百度自然語言處理部基于深度學(xué)習(xí)平臺飛槳(PaddlePaddle)和大規(guī)模標(biāo)注數(shù)據(jù)研發(fā)的依存句法分析工具。其訓(xùn)練數(shù)據(jù)不僅覆蓋了多種輸入形式的數(shù)據(jù),如鍵盤輸入query、語音輸入query,還覆蓋了多種場景的數(shù)據(jù),如新聞、論壇。該工具在隨機(jī)評測數(shù)據(jù)上取得了優(yōu)異的效果。同時(shí),該工具使用簡單,一鍵完成安裝及預(yù)測。


    本項(xiàng)目所用方法出自論文《Deep Biaffine Attention for Neural Dependency Parsing》,也有對應(yīng)的pytorch版本。


    代碼 以及運(yùn)行教程??獲?。?/span>

    關(guān)注微信公眾號 datayx ?然后回復(fù)? 句法分析? 即可獲取。

    AI項(xiàng)目體驗(yàn)地址 https://loveai.tech


    效果說明



    • CTB5: Chinese Treebank 5.0?是Linguistic Data Consortium (LDC)在2005年發(fā)布的中文句法樹庫,包含18,782條句子,語料主要來自新聞和雜志,如新華社日報(bào)。


    • DuCTB1.0:?Baidu Chinese Treebank1.0是百度構(gòu)建的中文句法樹庫,即本次所發(fā)布的依存句法分析工具-DDParser的訓(xùn)練數(shù)據(jù)來源,具體信息參見數(shù)據(jù)來源

    注:由于CTB5數(shù)據(jù)集規(guī)模較小,最優(yōu)模型(即評測模型)使用了句子的word級表示、POS(詞性標(biāo)簽)表示、以及預(yù)訓(xùn)練詞向量,而DuCTB1.0數(shù)據(jù)集規(guī)模較大,其最優(yōu)模型僅使用了句子的word級和char級表示。


    快速開始

    版本依賴

    • python: >=3.6.0

    • paddlepaddle: 1.8.2

    • LAC: >=0.1.4


    一鍵安裝

    用戶可以使用以下方式進(jìn)行一鍵安裝及預(yù)測:

    • pip安裝 pip install ddparser

    • 半自動安裝 先從?https://pypi.org/project/ddparser/?下載包,解壓后使用python setup.py install安裝包。


    功能使用

    未分詞方式

    • 代碼示例



    已分詞方式

    • 代碼示例


    注:標(biāo)簽含義見依存句法分析標(biāo)注關(guān)系集合。


    進(jìn)階使用

    項(xiàng)目下載

    用戶可以通過git clone https://github.com/baidu/DDParser下載源碼,并且執(zhí)行下列命令安裝依賴庫:

    pip install --upgrade paddlepaddle-gpu
    pip install --upgrade LAC

    模型下載

    我們發(fā)布了基于DuCTB1.0訓(xùn)練的模型,通過執(zhí)行cd ddparser && sh download_pretrained_model.sh下載模型,模型將保存在./ddparser/model_files/baidu下。


    訓(xùn)練

    用戶可以通過sh run_train.sh訓(xùn)練模型。詳細(xì)命令如下所示:


    注:用戶可通過修改train_data_path,?valid_data_pathtest_data_path指定訓(xùn)練集,評估集和測試集, 參數(shù)含義見參數(shù)說明,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。

    評估

    用戶可以通過執(zhí)行sh download_data.sh下載我們提供的評估集,其將保存在./data/baidu/下。該評估集共2,592條句子,平均長度為11.27字符。
    用戶可以通過執(zhí)行sh run_evaluate.sh評估模型效果,詳細(xì)命令如下所示:


    注:用戶可通過修改test_data_path指定評估集,所用數(shù)據(jù)集格式見數(shù)據(jù)格式說明。


    預(yù)測

    基于源碼,我們提供兩種基于命令行的預(yù)測方法,分別用于已分詞數(shù)據(jù)和未分詞數(shù)據(jù)。


    基于已分詞數(shù)據(jù)的預(yù)測

    預(yù)測的輸入數(shù)據(jù)要求以CoNLL-X(官方說明)格式組織,缺失字段使用“-”代替。通過執(zhí)行sh run_predict.sh進(jìn)行預(yù)測,詳細(xì)命令如下所示:


    注:用戶可通過修改infer_data_pathinfer_result_path指定要預(yù)測的數(shù)據(jù)集和預(yù)測結(jié)果的路徑。

    基于未分詞數(shù)據(jù)的預(yù)測
    預(yù)測的輸入數(shù)據(jù)為字符串形式,一行一條數(shù)據(jù)。通過執(zhí)行sh run_predict_query.sh對來自標(biāo)準(zhǔn)輸入的數(shù)據(jù)進(jìn)行預(yù)測,詳細(xì)命令如下所示:


    注:默認(rèn)調(diào)用LAC預(yù)測分詞和詞性


    參數(shù)說明


    數(shù)據(jù)格式說明

    本項(xiàng)目數(shù)據(jù)格式基于CoNLL-X(官方說明)的風(fēng)格,缺少的字段使用"-"代替(用戶只用關(guān)注ID,F(xiàn)ROM,HEAD,DEPREL,PROB等列即可),如“百度是一家高科技公司”的可解析為如下格式:





    閱讀過本文的人還看了以下文章:


    TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


    基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


    《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


    Deep Learning 中文版初版-周志華團(tuán)隊(duì)


    【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!


    《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


    《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


    特征提取與圖像處理(第二版).pdf


    python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


    2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


    《21個項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


    《深度學(xué)習(xí)之pytorch》pdf+附書源碼


    PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


    【下載】豆瓣評分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


    《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


    汽車行業(yè)完整知識圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


    李沐大神開源《動手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


    筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


    《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


    將機(jī)器學(xué)習(xí)模型部署為REST API


    FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享


    重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識別


    yolo3 檢測出圖像中的不規(guī)則漢字


    同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?


    前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測


    【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


    VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識別分類工程項(xiàng)目


    特征工程(一)


    特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


    特征工程(三):特征縮放,從詞袋到 TF-IDF


    特征工程(四): 類別特征


    特征工程(五): PCA 降維


    特征工程(六): 非線性特征提取和模型堆疊


    特征工程(七):圖像特征提取和深度學(xué)習(xí)


    如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


    Machine Learning Yearning 中文翻譯稿


    螞蟻金服2018秋招-算法工程師(共四面)通過


    全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


    python+flask搭建CNN在線識別手寫中文網(wǎng)站


    中科院Kaggle全球文本匹配競賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



    不斷更新資源

    深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

    ?搜索公眾號添加:?datayx??



    機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程

    ?搜索公眾號添加:?datanlp

    長按圖片,識別二維碼

    瀏覽 80
    點(diǎn)贊
    評論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報(bào)
    評論
    圖片
    表情
    推薦
    點(diǎn)贊
    評論
    收藏
    分享

    手機(jī)掃一掃分享

    分享
    舉報(bào)

    <kbd id="5sdj3"></kbd>
    <th id="5sdj3"></th>

  • <dd id="5sdj3"><form id="5sdj3"></form></dd>
    <td id="5sdj3"><form id="5sdj3"><big id="5sdj3"></big></form></td><del id="5sdj3"></del>

  • <dd id="5sdj3"></dd>
    <dfn id="5sdj3"></dfn>
  • <th id="5sdj3"></th>
    <tfoot id="5sdj3"><menuitem id="5sdj3"></menuitem></tfoot>

  • <td id="5sdj3"><form id="5sdj3"><menu id="5sdj3"></menu></form></td>
  • <kbd id="5sdj3"><form id="5sdj3"></form></kbd>
    亚洲在线小视频 | 777三级 | 天天爱天天干天天爽 | 精品无码一区二区三区天香 | 欧美日韩国产区二区三视频豆花 |