[發明專利]一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法無效
| 申請號: | 201210479801.1 | 申請日: | 2012-11-23 |
| 公開(公告)號: | CN103020148A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 邱錫鵬;趙建雙 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 短語 結構 轉化 依存 系統 方法 | ||
1.一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其特征在于,具體步驟如下:
a)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句;
b)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點;
c)通過依賴規則器確定每個詞的最終依賴頭節點;
d)???建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。
2.根據權利要求1所述的方法,其特征在于:步驟a)中所述拆分器根據樹結構的特點,在根節點的孩子節點中,將為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。
3.根據權利要求1所述的方法,其特征在于:?步驟b)中所述核心映射表是仿照PENN2MALT轉換工具中公布的核心映射表的格式,根據PennChineseTreebank中文樹庫的特點和依賴樹的特點,確定的更準確的核心映射表,其排除了標點、語氣詞、感嘆詞做核心詞的情況。
根據權利要求1所述的方法,其特征在于:步驟c)中所述依賴規則器,其根據漢語語法的特點以及PennChineseTreebank中文樹庫的標注特點,對于只用步驟b)中所述核心映射表不能確定的依賴結構,確定具體的規則,來確定每個詞的最終依賴頭節點;其中所述具體的規則為:
a)“把”字結構和“被”字結構的規則:“把”字或“被”字節點后緊跟的節點的孩子中,如果是主謂或者主謂賓結構,則主語和謂語都依賴于“把”字或“被”字節點,并作為他們的賓語;
b)“得”字結構的規則:“得”字節點以他前面的動詞為核心詞,他后面的賓語以“得”字節點為核心詞;
c)并列結構的規則:讓最前面的名詞作為核心詞,而那些連接并列名詞之間的連詞依賴到連詞后面的名詞,如果并列名詞是用頓號隔開的話,頓號依賴到它前面的名詞;
d)特殊的動詞短語的規則:特殊的動詞短語結構的標注包括VCD、VRD、VSB、VCP、VPT、VNV。通過對這些特殊動詞短語結構的研究,得到如下規則表:
。
4.根據權利要求1所述的方法,其特征在于,步驟d)中所述依賴關系類型標注規范,?
具體見下表所示:
。
5.根據權利要求1所述的方法,其特征在于:步驟d)中所述依賴關系規范器,尋找詞與詞之間的依賴關系,從兩方面入手:
1)從PennChineseTreebank中文樹庫標注中找到他們的依賴關系;
2?從詞自身的特點以及它的依賴詞的特點出發找到他們的依賴關系;
其中所述的第一個方面,其具體規則為:
①PennChineseTreebank中文樹庫中,節點標記為DVP、ADVP的將其核心詞的依賴關系定為狀語;節點標記為DNP、DP、ADJP的將其核心詞的依賴關系定為定語;
②PennChineseTreebank中文樹庫中,節點標記后綴分別為-SUB、-OBJ、-ADV、-EXT的,將其核心詞的依賴關系分別定為主語、賓語、狀語、補語;
③PennChineseTreebank中文樹庫中,節點標記為VRD、VCP、VPT的將其非核心節點的依賴關系定為補語;節點標記為VCD的將其非核心節點的依賴關系定為并列;節點標記為VSB的將其非核心節點的依賴關系定為連動;節點標記為VNV的將其非核心節點的依賴關系定為疑問連動;
所述的第二個方面,具體規則見下面的規則表:
。
6.根據權利要求5所述的方法,其特征在于:所述第一方面和第二方面的這些規則是存在沖突的,將這些規則定好優先級,具體的優先級由高到低依次為:所述第二方面規則中列表列出的依賴類型為根節點、時態、語氣、感嘆、標點、之字結構、的字結構、得字結構、地字結構的規則,然后是所述第一方面中的規則①、②、③,最后是所述第二方面規則中列表列出的依賴類型為并列、關聯、介賓、數量、主語、賓語、定語、狀語、補語的規則,嚴格的按照優先級的先后順序能得到準確的依賴關系。
7.一種將中文短語結構樹庫轉化為依存結構樹庫的系統,其特征在于,該系統包括:
拆分器,用于將樹庫中的長句拆分為短句;
核心映射表,用于得到每個詞的初始依賴頭節點;
依賴規則器,用于確定每個詞的最終依賴頭節點;
依賴關系規范器,用于確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210479801.1/1.html,轉載請聲明來源鉆瓜專利網。





