日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法無效

專利信息
申請號: 201210479801.1 申請日: 2012-11-23
公開(公告)號: CN103020148A 公開(公告)日: 2013-04-03
發明(設計)人: 邱錫鵬;趙建雙 申請(專利權)人: 復旦大學
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 上海正旦專利代理有限公司 31200 代理人: 陸飛;盛志范
地址: 200433 *** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 中文 短語 結構 轉化 依存 系統 方法
【說明書】:

技術領域

發明屬于自然語言處理技術領域,具體為一種將中文短語結構樹庫轉換為依存結構樹庫的系統及其方法。

背景技術

隨著自然語言處理的發展,基于規則的研究方法逐漸顯示出它的局限性,人們越來越趨向于用基于統計學的方法從真實的語料中獲取自然語言的規律。句法分析位于自然語言處理中的一個核心位置,其性能的好壞,對其他技術有著重要的影響。它也是以基于統計學的方法為主流方法。所以語料數據在句法分析中充當了一個重要的角色。語料的準確度的高低與規模的大小從最基礎的層面決定著句法分析的性能的好壞,沒有大規模、高準度的語料,再好的算法也失去了他的作用。樹庫作為一種對句子進行了深層句法標注的語料庫越來越引起人們的興趣。

目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。在世界范圍來說,大多數大規模樹庫是基于短語結構的。關于漢語樹庫中,基于短語結構標注的樹庫也占有主要地位,其中最為著名的是賓夕法尼亞大學的中文樹庫Penn?Chinese?Treebank。

在語法體系中,依存語法以其形式簡潔、易于標注、便于應用等優點,逐漸受到研究人員的重視。而基于依存句法的漢語樹庫的匱乏無疑限制了漢語句法分析的發展。由于標注樹庫需要完善的標注體系和規范的標注流程,來保證標注的質量,這是一件費時費力的工作。研究發現短語結構和依存結構雖然在表現形式上不同,但是它們都是對句子語法結構的描述,因此在結構上存在一致性。而現今短語結構樹庫是充足的,我們可以根據他們之間的聯系可以將短語結構轉換成依存結構,得到我們想要的依存樹庫,從而免去了大量的人工標注工作。

目前國內外不少人都嘗試了將短語結構樹庫轉化為依存樹庫。其中最主流的方法是利用核心節點映射表來找到每一層的核心節點,且同一層的其他節點都依賴于這個核心節點,并用遞歸的方式遍歷整棵結構樹。樹庫轉換工具PENN2MALT就是利用這一思想的主流轉換工具,它提供了Penn?Treebank和Penn?Chinese?Treebank的核心節點映射表,以及它的可執行文件,現在都已經免費共享。

PENN2MALT對于Penn?Treebank英文語料的轉換達到了很好的效果,不過由于漢語的復雜性,以及PENN2MALT自身的規則的簡單性,用PENN2MALT轉換的PennChineseTreebank中文語料結果效果并不是很好,如果用他轉換后的語料來訓練依存句法的話,會影響依存句法最終的性能。所以我們根據漢語的特點,定義了大量的規則,用規則的方法開發了自己的轉換工具,用這個轉換工具轉換后的語料相對于PENN2MALT轉換的語料,具有更高的準確性和規范性。

發明內容

本發明目的在于提出一種基于規則的中文樹庫轉換系統和方法,將PennChineseTreeBank中文結構樹庫轉換成更合理更規范的依存樹庫。

本發明提出的一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其具體步驟如下:

1)?讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句。

2)?確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點。

3)?通過依賴規則器確定每個詞的最終依賴頭節點。

4)???建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。

本發明主要包括:拆分復雜的樹結構;建立更準確的核心映射表,并排除標點、語氣詞、感嘆詞做核心詞的情況;利用規則的方法解決漢語中的特殊語法結構;建立依賴關系類型標注規范;利用規則的方法確定依賴關系類型。下面來一一介紹本發明的主要內容。

一、拆分復雜的樹結構

在Penn?Chinese?Treebank樹庫中存在許多長句子,并且這些長句子被標注在一棵結構樹中,其結構非常的復雜,這樣的結構樹中可能存在多個根節點,而且這些根節點相互之間不存在依賴關系,所以如果將這樣的長句轉換成依存樹的話,會大大降低依存樹庫的準確率。而本發明中采用拆分器將這些長句切割成若干個短句子,每個短句子自身形成一個獨立的結構樹,從而降低了結構樹的復雜度。再將這些重新生成的結構樹轉換成依賴樹,從而得到更高準確率和規范性的依賴樹庫。其具體規則為:根據樹結構的特點,在根節點的孩子節點中,將其為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210479801.1/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 天天干狠狠插| 亚洲神马久久| 亚洲精品欧美精品日韩精品| 综合久久色| 日韩精品一区二区三区不卡| 99久久精品免费视频| 国产一区二区免费在线| 国产人澡人澡澡澡人碰视 | 91波多野结衣| 精品中文久久| 91精品色| 亚洲欧洲日韩| 国产日韩一区在线| 欧美一区二区久久| 97久久国产亚洲精品超碰热| 午夜剧场一区| 国产日韩欧美网站| 国产清纯白嫩初高生在线观看性色| 国产精品对白刺激在线观看| 国产精品久久免费视频在线| 国产伦理久久精品久久久久| 国产精品电影免费观看| 久久久精品中文| 国产视频一区二区视频| 国产一区二区三区色噜噜小说| 欧美乱码精品一区二区| 国产精品欧美一区乱破| 亚洲乱亚洲乱妇28p| 91精品视频在线免费观看| 亚洲va国产| 日本免费电影一区二区| 91精品第一页| 国产伦理精品一区二区三区观看体验 | 久久精品男人的天堂| 国产欧美日韩精品在线| 国产视频一区二区不卡| 海量av在线| 97精品国产aⅴ7777| 国产欧美一区二区三区沐欲| 91精品啪在线观看国产线免费| 夜夜爱av| 色噜噜狠狠色综合久| 国产一级精品在线观看| 日本精品一区二区三区视频| 国产69精品久久久久999小说| 一区二区三区欧美日韩| 蜜臀久久99精品久久一区二区| 三级午夜片| 日韩精品免费看| 国产精品高潮呻吟久| 国产一区二区三区国产| _97夜夜澡人人爽人人| 狠狠躁夜夜| 国产高清一区二区在线观看| 99国产精品永久免费视频 | 亚洲国产一区二区精品| 韩漫无遮韩漫免费网址肉| 中文字幕欧美久久日高清| 欧美一区二区三区在线免费观看| 国产精品99一区二区三区| 色婷婷精品久久二区二区我来| 欧美色图视频一区| 欧美午夜精品一区二区三区| 在线视频不卡一区| 国产性猛交| 小萝莉av| 日韩精品一区二区中文字幕| 国产精品一级片在线观看| 国产日产高清欧美一区二区三区| 亚洲欧美日韩综合在线| 天天干狠狠插| 国产女人和拘做受在线视频| 日韩亚洲欧美一区二区| 亚洲欧美另类国产| 亚洲日韩aⅴ在线视频| 免费久久一级欧美特大黄| 久久精品国产一区二区三区| 国偷自产一区二区三区在线观看| 国产精品1区2区| 中文字幕制服丝袜一区二区三区 | 中文文精品字幕一区二区| 国产69精品福利视频|