[發明專利]一種基于滑動語義串匹配的句法分析方法有效
| 申請號: | 201310492589.7 | 申請日: | 2013-10-18 |
| 公開(公告)號: | CN103500160A | 公開(公告)日: | 2014-01-08 |
| 發明(設計)人: | 王偉;黃德根 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 李寶元;梅洪玉 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 滑動 語義 匹配 句法 分析 方法 | ||
技術領域
本發明屬于計算機自然語言處理領域,涉及一種對人類自然語言句子進行高質量的句法分析的方法,具體是指一種基于滑動語義串匹配的句法分析方法。
背景技術
句法分析是對自然語言句子進行一系列的解析,主要分析出句子的句法成分以及它們之間的關系,通常的輸出結果是以句法樹作為表現形式。
句法分析是自然語言處理過程中一個至關重要的環節,同時又是一個公認的難點問題。因為它是很多具體應用的基礎,比如自動問答系統、語義檢索、文本摘要、故事理解,甚至機器翻譯等等。如果這個環節不能把給定的句子分析正確,那么,依賴它的后續處理的性能就難以保證。由于人們對高性能的信息處理系統的迫切要求,句法分析的質量問題已經成為了自然語言處理發展道路上的一個瓶頸問題,句法分析本身也是一個不可回避的研究課題。
句法分析通常都是以詞性為基礎進行分析,由于詞性信息粒度太粗,導致很多歧義發生,因此很難從多個歧義結構中選擇到一個正確的句法樹,后來雖有利用概率性信息來優選最終的句法樹,并也取得了一定的效果,但是要再進一步提升性能就很難。考慮到詞性信息粒度太粗的問題,以后的句法分析開始把詞的信息考慮進來,主要是中心詞驅動方法。但是詞的信息粒度太細,使得數據稀疏問題嚴重,因此效果提升不是很大。考慮到詞性信息粒度太粗,而詞的信息粒度又太細,因此采用語義碼來代替詞進行句法分析的這種方法已經提出來并被使用(苑春法等1999,曹雁鋒等2005,曹海龍2006,張耀中2008,吳璽宏等2009,樊揚2010,代印唐等2011),其中的語義信息來源,有的是基于語義詞典,比如知網和同義詞詞林等;有的是通過聚類的方式獲得;有的通過將詞性進行次范疇化。但是,這些應用語義碼的方法都是基于上下文無關文法的,或者是先采用上下文無關文法的句法分析,然后再用語義信息從多個歧義結果中進行優選。由于上下文無關文法沒有很好地考慮上下文信息,而且大多數僅是基于二元數據的生成規則,對于自然語言中存在的多元長度的信息關聯,甚至超遠距離信息關聯情況的句法分析,就鞭長莫及。因此,這種考慮語義的上下文無關文法的句法分析的性能雖有提高,但仍然沒有達到一個很好效果。因此,如何解決上下文無關文法所存在的上下文信息覆蓋不足的問題,或者轉而采用上下文有關文法來進行句法分析,就成為了一個值得研究的課題。
采用面向數據驅動的句法分析(DOP)也有研究,主要是充分利用大規模標注的句法樹庫,首先分解句法樹為若干的子樹,建立子樹模式庫;然后在進行句法分析時,將待分析的句子進行切片,通過特定算法把這些分片的片段與子樹模式進行某種匹配,拼湊成完全的句法樹(張玥杰等2000,張亮等2007,郭海旭等2009)。該方法目前主要也是使用詞性和詞的信息,沒有使用語義編碼信息,會存在一定的數據稀疏問題。另外,這種切片的分界點很難把握,如果句子分段切分得不好,會導致最終的分析結果錯誤。因此,如何能保證合理地正確切分以及如何減少數據稀疏是該方法要解決的問題。
基于層疊組塊式句法分析現時被使用(Steven?Abney1996,耿向好2008,陳雪艷等2008,周國棟等2009,鄭偉發2009,Qiaoli?ZHOU等2009,Zhipeng?Jiang等2010,Zhou?qiao?li等2010)。對于如何獲取正確的組塊規則,已經進行了很多研究,從最大長度匹配的方法直到機器學習的最大熵方法、層疊隱馬爾科夫、層疊條件隨機場等方法都有使用。在進行每一層組塊操作時,在某種意義上已經考慮一定程度的上下文關聯信息,但是由于自然語言會存在長的上下文信息關聯的情況,而機器學習方法由于時間和存儲空間限制,上下文關聯的長度不能很大,而且目前的大部分都是基于詞性或詞的某種組合的信息,很少使用語義編碼信息。因此導致每一層的組塊的正確性也不是很高,而且由于層疊組塊方法不具備回溯能力,使得低層的一點錯誤會在后面高層逐漸地被放大,導致最后的分析結果不理想。因此,如何提高組塊分析過程中的每一層的正確性是該方法亟待解決的問題,特別是如何引入回溯機制進行錯誤修正是一個值得研究的課題。
由于自然語言是不斷發展的,新的語言現象總會不斷出現,這樣就要求系統能隨時吸收新的語法知識到系統的規則庫中,以便系統具有的語言知識不至于脫離實際太遠,因此機器具有學習能力是不可缺少的。但是現有的基于統計的機器學習方法,學習時間都普遍比較長,有的都是幾十小時以上,很不便于機器即時更新信息庫,導致了系統性能不能及時同步提高。因此,系統如何快速地獲取新語言現象的信息,以便動態提高系統性能,也是句法分析系統一個需要面對的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310492589.7/2.html,轉載請聲明來源鉆瓜專利網。





