[發明專利]一種基于集成學習和詞句綜合信息的文本蘊涵識別方法有效
| 申請號: | 201710311135.3 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN107133212B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 魏薇;萬小軍 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/295;G06F40/289;G06F40/253 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 學習 詞句 綜合信息 文本 蘊涵 識別 方法 | ||
本發明公開了一種基于集成學習和詞句綜合信息的文本蘊涵識別方法,涉及語言文字處理領域。目前的中文文本蘊涵識別系統主要基于詞匯特征、句法特征、知識庫、人工定義的規則等,然而詞匯、句法信息作為獨立特征訓練出的模型對數據的擬合度過低,規則、知識庫覆蓋范圍有限。本發明提出加入綜合詞匯和句法信息的特征來訓練分類器,并利用集成學習技術,有效提高文本蘊涵識別的準確性。其包括如下步驟:數據預處理;一致性轉化;特征提取;集成學習訓練;投票決策分類。本發明適用于各領域句子間蘊涵關系的識別。
技術領域
本發明涉及語言文字處理領域,特別涉及一種基于集成學習和詞句綜合信息的文本蘊涵自動識別方法。
背景技術
文本蘊涵關系被定義為兩文本段之間的定向關系,根據人類共同的語言理解和共同的背景知識,由一個文本所蘊涵的內容可以推斷另一個文本很可能是正確的。文本蘊涵識別技術具有極強的應用前景,信息抽取、問答系統、文檔摘要和機器翻譯等領域都與之有密切聯系。文本蘊涵識別評測自2005年以來已經連續舉辦了11屆。文本蘊涵識別評測的開展吸引了大量研究機構的參加,推動了文本蘊涵的研究和發展。自2005年來,關于文本蘊涵識別的優秀論文已陸續發表在國際重要會議和期刊上。
由于文本蘊涵識別在自然語言處理領域的基礎性地位,已有多個研究單位發布了針對英文的文本蘊涵識別系統,例如意大利威尼斯大學的VENSES,美國伊利諾大學香檳分校的Entailment Demo,日本國立情報學研究所的TIFMO等。國內學術界和工業界則少有針對中文文本蘊涵識別的突破性研究,也很少有相關學術成果發表在重要學術會議和期刊上。
目前的文本蘊涵識別方法主要分為以下幾種:基于文本相似度的方法、基于知識庫的方法、基于規則的方法,以及基于機器學習的方法?;谖谋鞠嗨贫鹊姆椒ㄕJ為兩個文本的相似度越高,文本間存在蘊涵關系的可能性越大,這種方法思想過于簡單,忽視了詞語間的語義關系,丟失了文本蘊涵關系的方向性,性能一般;基于知識庫的方法依賴于基于認知語言學的詞典,例如英文的WordNet、中文知網等,由于知識庫主要是專業人員手動構建的,詞匯之間的語義關系質量較高,信息比較準確,但是知識庫資源,尤其是中文資源有限,無法解決中文詞語中存在的復雜的語義關系;基于規則的方法主要是設定一系列規則,當滿足某一規則或一組規則時得出蘊涵或非蘊涵的結論,對符合規則的實例可以給出準確的判斷,但是由于語言表達的多樣性,很難用規則覆蓋語言中存在的各種現象。本發明主要使用機器學習方法,目前基于機器學習的方法由于所選擇的特征比較簡單,導致對數據的擬合程度不足,另外由于訓練數據較少,模型結果不夠穩定。為了克服這些問題,本發明提出抽取綜合詞匯和句法信息的特征,從而提高擬合效果,并且利用集成學習中的Bagging技術提高模型穩定性,使文本蘊涵識別準確性得以提高。
發明內容
針對當前機器學習方法在文本蘊涵識別任務中的缺陷,本發明提供一種基于集成學習和詞句綜合信息的文本蘊涵識別方法,該方法通過結合詞匯信息和句法信息抽取綜合特征,提高對數據的擬合程度,為避免訓練數據不足影響模型穩定性,該方法采用集成學習中的Bagging技術進行模型訓練。
本發明提出的一種基于集成學習和詞句綜合信息的文本蘊涵識別方法,包括如下步驟:
(1)對輸入的文本句進行預處理和分詞糾正;
(2)進行中文數字和時間表達的一致性轉化;
(3)提取相似度、詞匯、句法以及基于綜合信息的特征;
(4)基于集成學習技術的訓練和基于投票的分類:
進一步,對輸入的文本句進行預處理和分詞糾正:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710311135.3/2.html,轉載請聲明來源鉆瓜專利網。





