[發明專利]語句等價性判斷方法和裝置有效
| 申請號: | 201910832807.4 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110633359B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 王然;蘇海波;孫偉;劉鈺;杜曉夢;劉譯璟 | 申請(專利權)人: | 北京百分點科技集團股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/211;G06N3/04 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新 |
| 地址: | 100096 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 等價 判斷 方法 裝置 | ||
1.一種語句等價性判斷方法,其特征在于,包括:
獲取待判斷等價性的語句;
將所述語句輸入預先訓練的等價性判斷模型,所述等價性判斷模型根據基于深度學習模型和人工特征模型的模型平均方法訓練得到;
通過所述等價性判斷模型對所述語句進行等價性判斷,得到等價性判斷結果;
其中,所述人工特征模型基于如下人工特征:句法特征、語法特征和主題特征;
(1)句法特征具體包括以下特征:
句子長度;
句子長度差;
句向量間距離;
句向量偏斜度;
句向量峰度;
動詞表示句向量及名詞表示句向量的余弦相似度;
tf-idf表示的句向量的統計值;
tf-idf表示的句向量的余弦相似度;
中心詞詞向量的余弦相似度;
(2)詞法特征具體包括以下特征:
數目差;
句子中共有詞數目;
句子間共有詞及共有停用詞差;
句子間共有詞占兩個句子所有詞的比例;
詞性;
用模糊字符串匹配計算的模糊相似度;
詞移距離;
等價句中共現的詞表;
句中共有詞的tf-idf值之和與全部詞的tf-idf值這的比值;
(3)主題特征具體包括以下特征:
主題分布的句向量的余弦相似度。
2.如權利要求1所述的方法,其特征在于,通過以下方式訓練得到所述等價性判斷模型,包括:
使用訓練數據分別訓練組合模型和人工特征模型,所述組合模型包括至少兩個不同的深度學習模型;
將訓練數據分別輸入訓練后的所述組合模型和所述人工特征模型,得到所述訓練數據的預測結果;
通過所述訓練數據的預測結果擬合邏輯回歸模型,對所述組合模型和所述人工特征模型進行模型平均得到所述等價性判斷模型。
3.如權利要求2所述的方法,其特征在于,所述深度學習模型包括:基于Transformer的雙向編碼器表示模型BERT、基于注意力用于句子建模的卷積神經網絡模型ABCNN、雙邊多視角自然語言句子匹配模型BIMPM和匹配金字塔模型MatchPyramid;
所述組合模型包括:BERT連接ABCNN的組合模型、BERT連接BIMPM的組合模型以及BERT連接MatchPyramid的組合模型;
所述人工特征模型包括Boosting模型。
4.如權利要求3所述的方法,其特征在于,所述使用訓練數據訓練組合模型,包括:
使用訓練數據對所述組合模型中的ABCNN、BiMPM、MatchPyramid分別進行擬合;
對擬合后的所述組合模型進行微調,得到訓練后的所述組合模型。
5.如權利要求2所述的方法,其特征在于,所述使用訓練數據分別訓練組合模型和人工特征模型,包括:
將訓練數據分為n個數據集t1-tn,依次使用t1-tn之一作為驗證集,其余數據集作為訓練集;
使用所述數據集t1-tn對組合模型和人工特征模型進行n折交叉驗證訓練。
6.如權利要求5所述的方法,其特征在于,所述將所述訓練數據分別輸入訓練后的所述組合模型和所述人工特征模型,得到所述訓練數據的預測結果,包括:
將所述數據集t1-tn分別輸入訓練后的所述組合模型和所述人工特征模型,得到所述組合模型和所述人工特征模型分別對應的預測結果;
將所述組合模型對應的預測結果合并,得到所述訓練數據對應于所述組合模型的預測結果;
將所述人工特征模型對應的預測結果合并,得到所述訓練數據對應于所述人工特征模型的預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百分點科技集團股份有限公司,未經北京百分點科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910832807.4/1.html,轉載請聲明來源鉆瓜專利網。





