[發明專利]一種基于集成學習和詞句綜合信息的文本蘊涵識別方法有效
| 申請號: | 201710311135.3 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN107133212B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 魏薇;萬小軍 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/295;G06F40/289;G06F40/253 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 學習 詞句 綜合信息 文本 蘊涵 識別 方法 | ||
1.一種基于集成學習和詞句綜合信息的文本蘊涵識別方法,其特征在于,該方法通過結合詞匯信息和句法信息抽取綜合特征,提高對數據的擬合程度,并通過集成學習提高分類穩定性,具體包括如下步驟:
(1)對輸入的文本句進行預處理和分詞糾正;
(2)進行中文數字和時間表達的一致性轉化;
(3)提取相似度、詞匯、句法以及基于綜合信息的特征;具體做法如下:
使用向量表示相似度特征、詞匯特征、句法特征;
時間、數字、人名、地名、機構名、方位詞在句中表達了關鍵信息,如果假設文本中出現的以上信息在推理文本中找不到推理來源,則兩個句子傾向于不具有蘊涵關系,時間、數字、方位通過詞性標注信息篩選,實體通過命名實體識別篩選,在時間匹配中,考慮時間范圍的匹配,在實體、方位的匹配中,考慮同義詞的匹配,對于否定詞,用t1和t2中否定詞個數之差的絕對值作為特征的值,對于極端詞,極端詞指程度級別較高的詞,對于t2中出現的極端詞,在t1中尋找推理來源,對于同義詞,反義詞,上位詞,下位詞,對t2中的詞在t1中查找匹配,同義匹配、反義匹配、上位匹配、下位匹配的個數作為特征的值;
對于主謂,動賓,介賓,定中,狀中關系,用t2中的句法依賴關系對,在t1中查找匹配;對于主謂-動賓關系,用t2中的主謂關系,在t1中查找相應的動賓關系,或對于t2中的動賓關系,在t1中查找相應的主謂關系;
上述的特征分別單獨考慮了相似度信息,詞匯信息和句法信息,由于一些詞匯信息,需要借助句法信息的約束才能更好的區分正負例,加入一組基于詞匯-句法綜合信息的特征,用四維向量表示:[主語上位,賓語上位,主語下位,賓語下位],以主語上位為例:對于t2中的詞w2i,它是t1中w1j的上位詞,且在依存句法中是主語角色,則是一個主語上位,特征的值為t2中這樣詞的個數;
(4)基于集成學習技術的訓練和基于投票的分類。
2.根據權利要求1所述的基于集成學習和詞句綜合信息的文本蘊涵識別方法,其特征在于,對輸入的文本句進行預處理和分詞糾正,其具體做法如下:
對推理文本(t1)和假設文本(t2)進行預處理,主要步驟包括分詞,詞性標注,命名實體識別,依存句法分析,為了提高對推理文本和假設文本處理的一致性,在分詞步驟之后,進行自動的分詞糾正,如果推理文本和假設文本中包含相同字串,但只切分方式不同,則進行修正。
3.根據權利要求1所述的基于集成學習和詞句綜合信息的文本蘊涵識別方法,其特征在于,進行中文數字和時間表達的一致性轉化,具體做法如下:
中文中數字和時間有多種表達方式,為了后續特征提取中的匹配工作,首先進行數字和時間的表示方法統一化,數字表示形式包括:漢字、阿拉伯數字、百分數、小數、分數,中文時間表示有多種形式,分別選定一種表示方法,將數字和時間進行統一的表示方法轉換。
4.根據權利要求1所述的基于集成學習和詞句綜合信息的文本蘊涵識別方法,其特征在于,基于集成學習技術的訓練和基于投票的分類,具體做法如下:
使用SVM分類器,采用RBF核函數,為了分類的穩定性和預測的準確性,采用集成學習技術,集成學習的思路是在對新的實例進行分類的時候,把若干個單個分類器集成起來,通過對多個分類器的分類結果進行某種組合來決定最終的分類,以取得比單個分類器更好的性能,如果把單個分類器比作一個決策者的話,集成學習的方法就相當于多個決策者共同進行一項決策,具體來說使用Bagging策略,每次從訓練樣例中隨機抽樣,訓練出一個分類器,重復若干次,構造出若干個不同的分類器,對于一個新的要預測的實例,使用上述若干分類器同時分類,最后投票得出最終分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710311135.3/1.html,轉載請聲明來源鉆瓜專利網。





