[發明專利]基于多模型優勢互補策略的介詞短語識別方法在審
| 申請號: | 201710877036.1 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN107741927A | 公開(公告)日: | 2018-02-27 |
| 發明(設計)人: | 周俏麗 | 申請(專利權)人: | 沈陽航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙)21234 | 代理人: | 李曉光 |
| 地址: | 110136 遼寧省沈*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 優勢互補 策略 介詞 短語 識別 方法 | ||
技術領域
本發明涉及一種自然語言處理技術,具體為一種基于多模型優勢互補策略的介詞短語識別方法。
背景技術
介詞屬于虛詞,是一個相對封閉的類,在北大俞士汶[1]主編的《現代漢語語法信息詞典詳解》中列出了一個介詞表,表中共有介詞85個。介詞短語(Preposition Phrase,以下簡稱PP)由兩部分構成:前邊部分是介詞,后邊部分是跟介詞結合在一起的實詞或短語。根據PP的組成,PP的左邊邊界肯定是介詞,所以說對于介詞短語識別問題主要集中在右邊界確定上。PP的用途主要是在句子里做定語、狀語、補語[2],所以PP的正確識別有助于句子框架(主語,謂語,賓語)的識別。由于介詞短語所充當的句子成分不同,造成充當不同成分的介詞短語右邊界詞的右臨界詞有明顯的差異(詳細分析見本文的第三節)。所以本文對介詞短語進行分類,不同類別選取不同特征并采用機器算法訓練多個模型,提出多模型優勢互補策略對介詞短語識別進行融合。
目前PP識別的主流方法有兩種,一是統計的方法,二是統計與規則相結合的方法。基于統計的方法以機器學習模型為主。于浚濤等采用最大熵(ME)對進行PP識別;溫苗苗等[4]利用支持向量機模型(SVM);朱丹浩等等采用條件隨機場模型;張坤麗等等利用《人民日報》為實驗語料,分別采用SVM、ME和條件隨機場(CRF)這3種統計模型對出現頻次高于20次的61個介詞進行了PP識別并進行了對比,結果是CRF的識別效果比較好。張靈等采用基于搭配的特征對PP識別,在其論文中以CRF為識別模型把介詞和PP的右邊界詞共同作為特征并采用反向(對句子從右自左)掃描方法進行識別,該方法使PP的識別結果得到了較大提升。在統計與規則相結合的方法中,規則通常作為統計識別結果的后處理方法以校正統計識別結果的部分錯誤。奚建清等等提出了一種基于隱馬爾可夫模型(HMM)的PP識別,然后利用依存語法知識對HMM自動PP識別的邊界結果進行校正。盧朝華等等采用基于ME的統計模型,在基于ME的PP自動識別后再加入依存語法知識進行錯誤校正。盧朝華等利用ME和漢語PP左右邊界詞語的依存語法知識相結合的方法,對PP右邊界的錯誤識別進行校正。胡思磊等運用統計和規則相結合的方法,基于提出了一種基于CRF層次結構識別PP的方法,實驗融合可信搭配關系、候選后界、候選后詞、介詞多種特征進行統計決策并加入22條規則進行修正。宋貴哲等采用CRF進行漢語句子的PP識別研究,提出了基于CRFs的分布式策略和雙層CRF模型相結合的PP識別方法,最后利用PP的語法規則進行后處理。
利用機器學習(Machine Learning,以下簡稱ML)模型進行PP識別,特征選擇是至關重要的。因為當ML模型相同時,選取不同的特征會得到不同的識別結果。目前所公開的基于機器學習的介詞短語識別方法都沒有對介詞短語按上下文特征進行分類,導致所有類別都采用同樣統計模型進行識別。
發明內容
針對現有技術中基于機器學習的介詞短語識別方法都沒有對介詞短語按上下文特征進行分類,導致所有類別都采用同樣統計模型進行識別等不足,本發明要解決的問題是提供一種可進一步提高介詞短語的識別效果的基于多模型優勢互補策略的介詞短語識別方法。
為解決上述技術問題,本發明采用的技術方案是:
本發明一種基于多模型優勢互補策略的介詞短語識別方法,包括以下步驟:
1)對介詞短語進行分類,根據上下文特征對介詞進行分類,介詞短語的句子成分和位置特性,對介詞短語的特點進行分析總結,得到不同類別對應的位置特征;
2)針對不同的類別選擇不同的位置特征組合,采用條件隨機場模型對介詞短語進行識別,選擇訓練語料特征;
3)針對選擇的訓練語料特征訓練多個介詞短語識別模型,將句子中的各個介詞的識別結果進行合并,獲得最終結果。
對介詞短語分類如下:
101)介詞短語的為狀語:
當在主語之前時,和主句之間有一個停頓;
出現在主語之后和動詞之前的介詞短語狀語,與動詞有密切的關系,且緊鄰;
102)介詞短為定語:
介詞短語充當定語帶“的”,作定語的介詞短語位于“的”之前;
103)介詞短語充當補語格式為“V+介詞+NP”。
針對不同的類別選擇不同的特征組合,采用條件隨機場模型對介詞短語進行識別,選擇訓練語料特征為:
201)針對不同的類別選擇不同的特征組合,訓練多個PP識別模型,對識別的標注集進行選擇;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽航空航天大學,未經沈陽航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710877036.1/2.html,轉載請聲明來源鉆瓜專利網。





