[發明專利]基于目標語句的依存句法分析方法、裝置及服務器有效
| 申請號: | 201410386389.8 | 申請日: | 2014-08-07 |
| 公開(公告)號: | CN105335348B | 公開(公告)日: | 2018-10-02 |
| 發明(設計)人: | 吳勝蘭;董凡 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 目標 語句 依存 句法 分析 方法 裝置 服務器 | ||
本申請提供了一種目標語句的依存句法分析方法、裝置及服務器,所述方法包括:獲取待分析的目標語句的目標詞序列;將所述目標詞序列中的前兩個目標詞作為當前目標詞,判斷當前目標詞是否都是骨干詞,如果都是,則采用預置的動作預測骨干模型確定兩個目標詞之間的依存關系,如果有一個不是或者兩個都不是,則采用預置的動作預測完整模型確定兩個目標詞之間的依存關系;參考目標詞序列組成語句的順序和確定的依存關系獲取下兩個待處理的目標詞作為當前目標詞,并執行判斷所述當前目標詞是否都是骨干詞的步驟,直至所述目標詞序列中的所有目標詞都分析完畢為止。在本申請實施例中,可以大大降低錯誤級聯給準確率帶來的影響,從而提升了依存句法分析結果的準確率。
技術領域
本申請涉及數據處理技術領域,特別涉及一種目標語句的依存句法分析方法、裝置及服務器。
背景技術
在互聯網越來越發達的今天,使用計算機進行語言識別和處理已經是非常成熟的技術。句法分析就是計算語言學(Computational Linguistics)的一項研究內容,它通過建立形式化的數學模型,設計有效的算法,利用計算機分析和處理句子,將其從詞序列形式轉換為句法樹形式從而捕捉句子內部結構和詞語之間的搭配關系。在自然語言處理(NLP,Natural Language Processing)領域,主要分析兩種主流的句法體系,分別是短語結構句法體系(Phrase-structure Grammar)和依存結構句法體系(Dependency Grammar)。
依存句法是由法國語言學家L.Tesniere于1959年提出,用于分析語言單位內成分之間的依存關系,以揭示其句法結構,其主張句子中核心動詞是支配其它成分的中心成分,而它本身卻不受其它任何成分的支配,所有受支配成分都以某種依存關系從屬于支配者。計算機進行依存句法分析,即是對給定輸入句子的詞序列,分析各個詞之間的搭配關系和整個句子的結構,并得到一棵依存句法分析樹。依存句法分析樹就是依存句法分析結果的表示形式。在依存句法分析樹中,句子的每個詞看做一個節點,并在句首插入一個起輔助作用的虛擬節點(記為根節點ROOT),所有節點通過有向弧連接形成一棵樹,且滿足以下三個條件:第一,除了根節點外,任意節點都有且僅有一條入邊;第二,除了葉子節點外,任意節點有至少一條出邊,根節點僅有一條出邊,對應的弧指向支配整個句子的核心詞;第三,所有的弧不能交叉,如果a和b兩個節點存在有向弧,則處于他們中間的任意兩個節點間的弧在水平方向的投影一定落在a和b的弧的投影上。
在依存句法樹中,一條弧代表一則依存關系,弧的方向代表支配順序。有向弧總是從某個父節點出發,指向其孩子節點,這稱作父節點支配孩子節點,而孩子節點依存于父節點。常見的依存關系有:定中關系(ATT),表示定語依存于中心語,狀中關系(ADV),表示狀語依存于中心語,并列關系(COO),表示名詞支配(與之并列)名詞,主謂關系(SBV),表示主語依存于謂語,動賓關系(VOB),表示謂語支配賓語,核心關系(HED),表示ROOT支配句子核心詞,依存分句(DC),表示主句核心詞支配分句核心詞。依存句法分析樹中的一條有向弧就叫依存弧。
為了方便計算機處理,還將每個詞以及詞的若干屬性叫做詞項,也叫Term。詞的屬性可以包括單詞在句子中的位置、詞性和分詞粒度等。針對依存句法分析樹,需要對詞項增加以下額外信息:對Term序列編號,從0開始計數,其中,ROOT用-1表示;針對每個Term,增加一個parent屬性和一個relate屬性,parent表示當前節點的父節點編號,relate表示父節點指向當前節點的依存弧的類型;如果一個Term的內容是標點符號,則設置parent為-2,relate可以任意設置一個代表孤立節點的字符,例如WP,不參與到依存樹的結構中;句子中的核心詞的父節點是ROOT,parent為-1,relate為核心關系(HED)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410386389.8/2.html,轉載請聲明來源鉆瓜專利網。





