[發明專利]一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法無效

申請號：	201210479801.1	申請日：	2012-11-23
公開（公告）號：	CN103020148A	公開（公告）日：	2013-04-03
發明（設計）人：	邱錫鵬;趙建雙	申請（專利權）人：	復旦大學
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/27
代理公司：	上海正旦專利代理有限公司 31200	代理人：	陸飛;盛志范
地址：	200433 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種中文短語結構轉化依存系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種將中文短語結構樹庫轉化為依存結構樹庫的方法，其特征在于,具體步驟如下：

a)讀入PennChineseTreebank中文樹庫，并通過拆分器，將樹庫中的長句拆分為短句；

b)確定最終的核心映射表，并利用核心映射表得到每個詞的初始依賴頭節點；

c)通過依賴規則器確定每個詞的最終依賴頭節點；

d)???建立依賴關系類型標注規范，通過依賴關系規范器，確定詞與詞之間的最終依賴關系，形成最終的依賴樹庫。

2.根據權利要求1所述的方法，其特征在于：步驟a)中所述拆分器根據樹結構的特點，在根節點的孩子節點中，將為逗號或分號的設為拆分點，把長句拆分為短句，且拆分后的樹以原來的根節點作為現在的根節點。

3.根據權利要求1所述的方法，其特征在于：?步驟b)中所述核心映射表是仿照PENN2MALT轉換工具中公布的核心映射表的格式，根據PennChineseTreebank中文樹庫的特點和依賴樹的特點，確定的更準確的核心映射表，其排除了標點、語氣詞、感嘆詞做核心詞的情況。

根據權利要求1所述的方法，其特征在于：步驟c)中所述依賴規則器，其根據漢語語法的特點以及PennChineseTreebank中文樹庫的標注特點，對于只用步驟b)中所述核心映射表不能確定的依賴結構，確定具體的規則，來確定每個詞的最終依賴頭節點；其中所述具體的規則為：

a)“把”字結構和“被”字結構的規則：“把”字或“被”字節點后緊跟的節點的孩子中，如果是主謂或者主謂賓結構，則主語和謂語都依賴于“把”字或“被”字節點，并作為他們的賓語；

b)“得”字結構的規則：“得”字節點以他前面的動詞為核心詞，他后面的賓語以“得”字節點為核心詞；

c)并列結構的規則：讓最前面的名詞作為核心詞，而那些連接并列名詞之間的連詞依賴到連詞后面的名詞，如果并列名詞是用頓號隔開的話，頓號依賴到它前面的名詞；

d)特殊的動詞短語的規則：特殊的動詞短語結構的標注包括VCD、VRD、VSB、VCP、VPT、VNV。通過對這些特殊動詞短語結構的研究，得到如下規則表：

。

4.根據權利要求1所述的方法，其特征在于，步驟d)中所述依賴關系類型標注規范，?

具體見下表所示：

。

5.根據權利要求1所述的方法，其特征在于：步驟d)中所述依賴關系規范器，尋找詞與詞之間的依賴關系，從兩方面入手：

1)從PennChineseTreebank中文樹庫標注中找到他們的依賴關系；

2?從詞自身的特點以及它的依賴詞的特點出發找到他們的依賴關系；

其中所述的第一個方面，其具體規則為：

①PennChineseTreebank中文樹庫中，節點標記為DVP、ADVP的將其核心詞的依賴關系定為狀語；節點標記為DNP、DP、ADJP的將其核心詞的依賴關系定為定語；

②PennChineseTreebank中文樹庫中，節點標記后綴分別為-SUB、-OBJ、-ADV、-EXT的，將其核心詞的依賴關系分別定為主語、賓語、狀語、補語；

③PennChineseTreebank中文樹庫中，節點標記為VRD、VCP、VPT的將其非核心節點的依賴關系定為補語；節點標記為VCD的將其非核心節點的依賴關系定為并列；節點標記為VSB的將其非核心節點的依賴關系定為連動；節點標記為VNV的將其非核心節點的依賴關系定為疑問連動；

所述的第二個方面，具體規則見下面的規則表：

。

6.根據權利要求5所述的方法，其特征在于：所述第一方面和第二方面的這些規則是存在沖突的，將這些規則定好優先級，具體的優先級由高到低依次為：所述第二方面規則中列表列出的依賴類型為根節點、時態、語氣、感嘆、標點、之字結構、的字結構、得字結構、地字結構的規則，然后是所述第一方面中的規則①、②、③，最后是所述第二方面規則中列表列出的依賴類型為并列、關聯、介賓、數量、主語、賓語、定語、狀語、補語的規則，嚴格的按照優先級的先后順序能得到準確的依賴關系。

7.一種將中文短語結構樹庫轉化為依存結構樹庫的系統，其特征在于，該系統包括：

拆分器，用于將樹庫中的長句拆分為短句；

核心映射表，用于得到每個詞的初始依賴頭節點；

依賴規則器，用于確定每個詞的最終依賴頭節點；

依賴關系規范器，用于確定詞與詞之間的最終依賴關系，形成最終的依賴樹庫。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于復旦大學，未經復旦大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210479801.1/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法無效

專利文獻下載