[發明專利]一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法無效
| 申請號: | 201210479801.1 | 申請日: | 2012-11-23 |
| 公開(公告)號: | CN103020148A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 邱錫鵬;趙建雙 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 短語 結構 轉化 依存 系統 方法 | ||
技術領域
本發明屬于自然語言處理技術領域,具體為一種將中文短語結構樹庫轉換為依存結構樹庫的系統及其方法。
背景技術
隨著自然語言處理的發展,基于規則的研究方法逐漸顯示出它的局限性,人們越來越趨向于用基于統計學的方法從真實的語料中獲取自然語言的規律。句法分析位于自然語言處理中的一個核心位置,其性能的好壞,對其他技術有著重要的影響。它也是以基于統計學的方法為主流方法。所以語料數據在句法分析中充當了一個重要的角色。語料的準確度的高低與規模的大小從最基礎的層面決定著句法分析的性能的好壞,沒有大規模、高準度的語料,再好的算法也失去了他的作用。樹庫作為一種對句子進行了深層句法標注的語料庫越來越引起人們的興趣。
目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。在世界范圍來說,大多數大規模樹庫是基于短語結構的。關于漢語樹庫中,基于短語結構標注的樹庫也占有主要地位,其中最為著名的是賓夕法尼亞大學的中文樹庫Penn?Chinese?Treebank。
在語法體系中,依存語法以其形式簡潔、易于標注、便于應用等優點,逐漸受到研究人員的重視。而基于依存句法的漢語樹庫的匱乏無疑限制了漢語句法分析的發展。由于標注樹庫需要完善的標注體系和規范的標注流程,來保證標注的質量,這是一件費時費力的工作。研究發現短語結構和依存結構雖然在表現形式上不同,但是它們都是對句子語法結構的描述,因此在結構上存在一致性。而現今短語結構樹庫是充足的,我們可以根據他們之間的聯系可以將短語結構轉換成依存結構,得到我們想要的依存樹庫,從而免去了大量的人工標注工作。
目前國內外不少人都嘗試了將短語結構樹庫轉化為依存樹庫。其中最主流的方法是利用核心節點映射表來找到每一層的核心節點,且同一層的其他節點都依賴于這個核心節點,并用遞歸的方式遍歷整棵結構樹。樹庫轉換工具PENN2MALT就是利用這一思想的主流轉換工具,它提供了Penn?Treebank和Penn?Chinese?Treebank的核心節點映射表,以及它的可執行文件,現在都已經免費共享。
PENN2MALT對于Penn?Treebank英文語料的轉換達到了很好的效果,不過由于漢語的復雜性,以及PENN2MALT自身的規則的簡單性,用PENN2MALT轉換的PennChineseTreebank中文語料結果效果并不是很好,如果用他轉換后的語料來訓練依存句法的話,會影響依存句法最終的性能。所以我們根據漢語的特點,定義了大量的規則,用規則的方法開發了自己的轉換工具,用這個轉換工具轉換后的語料相對于PENN2MALT轉換的語料,具有更高的準確性和規范性。
發明內容
本發明目的在于提出一種基于規則的中文樹庫轉換系統和方法,將PennChineseTreeBank中文結構樹庫轉換成更合理更規范的依存樹庫。
本發明提出的一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其具體步驟如下:
1)?讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句。
2)?確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點。
3)?通過依賴規則器確定每個詞的最終依賴頭節點。
4)???建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。
本發明主要包括:拆分復雜的樹結構;建立更準確的核心映射表,并排除標點、語氣詞、感嘆詞做核心詞的情況;利用規則的方法解決漢語中的特殊語法結構;建立依賴關系類型標注規范;利用規則的方法確定依賴關系類型。下面來一一介紹本發明的主要內容。
一、拆分復雜的樹結構
在Penn?Chinese?Treebank樹庫中存在許多長句子,并且這些長句子被標注在一棵結構樹中,其結構非常的復雜,這樣的結構樹中可能存在多個根節點,而且這些根節點相互之間不存在依賴關系,所以如果將這樣的長句轉換成依存樹的話,會大大降低依存樹庫的準確率。而本發明中采用拆分器將這些長句切割成若干個短句子,每個短句子自身形成一個獨立的結構樹,從而降低了結構樹的復雜度。再將這些重新生成的結構樹轉換成依賴樹,從而得到更高準確率和規范性的依賴樹庫。其具體規則為:根據樹結構的特點,在根節點的孩子節點中,將其為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210479801.1/2.html,轉載請聲明來源鉆瓜專利網。





