[發明專利]文本蘊含識別方法及裝置有效
| 申請號: | 201811014746.2 | 申請日: | 2018-08-31 |
| 公開(公告)號: | CN109165300B | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 杜倩龍;宗成慶;蘇克毅 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30;G06F40/279 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 蘊含 識別 方法 裝置 | ||
本發明屬于自然語言技術領域,具體提供了一種文本蘊含識別方法及裝置,旨在解決現有技術在文本蘊含識別過程中存在大量噪聲的問題。為此目的,本發明提供了一種文本蘊含識別方法,包括獲取待識別文本蘊含句對中源句子和目標句子的詞匯向量集合,利用預設的第一感知器獲取源(目標)句子中每個詞與目標(源)句子之間的比較向量;基于預設的語義關系推理模型獲取源(目標)句子中每個詞與目標(源)句子之間的推理向量;利用預設的第二感知器獲取推理向量對應的門結構權重;根據推理向量和門結構權重進行加權融合,將加權融合的結果用于預測文本蘊含句對的語義蘊含關系。基于上述步驟,本發明提供的方法同樣具有提高預測結果準確率的有益效果。
技術領域
本發明屬于自然語言技術領域,具體涉及一種文本蘊含識別方法及裝置。
背景技術
當前,文本蘊含識別的研究在自然語言領域受到廣泛關注,已經從最開始的純理論探討轉換為較大規模的理論研究和經驗性平臺建設。傳統的文本蘊含識別包括下述四種方法:
第一,分類方法:該方法將文本蘊含識別形式化為一個分類問題,根據已標注的訓練實例,學習其中的特征并建立分類器,根據分類器給出文本蘊含識別的結果。其中,該方法中分類器是基于SVM模型建立的,學習的特征是基于詞匯重疊或者一階邏輯的詞匯-句法和語義特征;
第二,深層語義分析和推理方法:該方法采用傳統的邏輯推理方法推理文本的語義關系和語義特征;
第三,轉換方法:該方法判斷是否可以基于蘊含規則由源文本T得到目標文本H;
第四,性能驅動方法:該方法針對一些特定的語言形式,如詞匯相似性或者矛盾性,設計正確的驅動模塊,利用投票機制并結合驅動模塊以及召回率的處理機制進行文本蘊含識別。
傳統的文本蘊含識別方法均無法有效地比較句對中的語義信息,均需要對句子進行復雜的特征描述和特征提取。
隨著深度神經網絡的興起,利用深度神經網絡進行文本蘊含識別成為當前研究的熱點和難點。利用深度神經網絡進行文本蘊含識別不再需要對句子進行復雜的特征描述以及特征的抽取,通過學習可以得到源文本T和目標文本H對應的詞向量和句向量,然后利用深度神經網絡模型學習得到當前句對的分類模型。
現有的利用深度神經網絡進行文本蘊含識別的方法可以通過對輸入的兩個句子中的詞匯進行編碼,得到每個詞匯的向量表示,將兩個句子中相同的詞匯向量進行比較,得到比較結果,最后直接將每個詞匯的比較結果進行融合進行文本蘊含識別。現有的利用深度神經網絡進行文本蘊含識別的方法忽略了文本蘊含識別過程中每個詞匯對文本蘊含識別結果的影響是不同的,且存在大量噪聲信息。
因此,如何提出一種弱化文本蘊含識別過程中噪聲的影響并增強關鍵信息對文本蘊含識別結果的影響的方案是本領域技術人員目前需要解決的問題。
發明內容
為了解決現有技術中的上述問題,即為了解決現有技術在文本蘊含識別過程中存在大量噪聲的問題,本發明的第一方面提供了一種文本蘊含識別方法,包括:
獲取待識別文本蘊含句對中源句子的詞匯向量集合和目標句子的詞匯向量集合;
利用預設的第一感知器并且根據所述源句子的詞匯向量集合與目標句子的詞匯向量集合,分別獲取所述源句子中每個詞與所述目標句子之間的第一比較向量以及所述目標句子中每個詞與所述源句子之間的第二比較向量;
基于預設的語義關系推理模型并且根據所述第一比較向量與第二比較向量,分別獲取所述源句子中每個詞與所述目標句子之間的第一推理向量以及所述目標句子中每個詞與所述源句子之間的第二推理向量;
利用預設的第二感知器分別獲取每個所述第一推理向量和每個所述第二推理向量的門結構權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811014746.2/2.html,轉載請聲明來源鉆瓜專利網。





