[發明專利]基于多粒度融合模型的中文句子語義智能匹配方法及裝置有效
| 申請號: | 202010103529.1 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111310438B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 鹿文鵬;王榮耀;張旭;賈瑞祥;郭韋鈺;張維玉 | 申請(專利權)人: | 齊魯工業大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30;G06F16/33;G06F16/35;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250353 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 粒度 融合 模型 中文 句子 語義 智能 匹配 方法 裝置 | ||
1.基于多粒度融合模型的中文句子語義智能匹配方法,其特征在于,該方法具體步驟如下:
S1、構建文本匹配知識庫;具體如下:
S101、使用爬蟲獲取原始數據:在互聯網公共問答平臺爬取問題集,得到原始相似句子知識庫;或者使用網上公開的句子匹配數據集,作為原始相似句子知識庫;
S102、預處理原始數據:預處理原始相似句子知識庫中的相似文本,對每個句子進行分詞和斷字處理,得到文本匹配知識庫;其中,分詞處理是以中文里的每個詞語作為基本單位,對每條數據進行分詞操作;斷字處理是以中文里的每個字作為基本單位,對每條數據進行斷字操作;每個漢字或詞語之間用空格進行切分,并保留每條數據中包括的數字、標點以及特殊字符在內的所有內容;
S2、構建文本匹配模型的訓練數據集;具體如下:
S201、構建訓練正例:將句子與其對應的語義匹配的句子進行組合,構建訓練正例,形式化為:(Q1-char,Q1-word,Q2-char,Q2-word,1);
其中,Q1-char表示字符級粒度的句子1;Q1-word表示詞語級粒度的句子1;Q2-char表示字符級粒度的句子2;Q2-word表示詞語級粒度的句子2;1表示句子1和句子2這兩個文本相匹配,是正例;
S202、構建訓練負例:選中一個句子Q1,再從文本匹配知識庫中隨機選擇一個與句子Q1不匹配的句子Q2,將Q1與Q2進行組合,構建負例,形式化為:(Q1-char,Q1-word,Q2-char,Q2-word,0);
其中,Q1-char表示字符級粒度的句子1;Q1-word表示詞語級粒度的句子1;Q2-char表示字符級粒度的句子2;Q2-word表示詞語級粒度的句子2;0表示句子Q1和句子Q2這兩個文本不匹配,是負例;
S203、構建訓練數據集:將經過步驟S201和步驟S202操作后所獲得的全部的正例樣本和負例樣本進行組合,并打亂其順序,構建最終的訓練數據集;其中,無論是正例數據還是負例數據均包含五個維度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1;
S3、構建多粒度融合模型;具體如下:
S301、構建字符詞語映射轉換表;
S302、構建輸入層;
S303、構建多粒度嵌入層:對句子中的詞語和字符進行向量映射,得到詞語級句子向量和字符級句子向量;
S304、構建多粒度融合編碼層:對詞語級句子向量和字符級句子向量進行編碼處理,得到句子語義特征向量;
S305、構建交互匹配層:對句子語義特征向量進行分層比較,得到句子對的匹配表征向量;
S306、構建預測層:經預測層的Sigmoid函數處理,判斷句子對的語義匹配程度;
S4、訓練多粒度融合模型。
2.根據權利要求1所述的基于多粒度融合模型的中文句子語義智能匹配方法,其特征在于,所述步驟S301中構建字符詞語映射轉換表具體如下:
S30101、字符詞語表通過預處理后得到的文本匹配知識庫來構建;
S30102、字符詞語表構建完成后,表中每個字符、詞語均被映射為唯一的數字標識,映射規則為:以數字1為起始,隨后按照每個字符、詞語被錄入字符詞語表的順序依次遞增排序,從而形成字符詞語映射轉換表;
S30103、使用Word2Vec訓練字符詞語向量模型,得到字符詞語向量矩陣權重embedding_matrix;
所述步驟S302中構建輸入層具體如下:
S30201、輸入層包括四個輸入,對兩個待匹配的句子進行預處理分別獲取Q1-char、Q1-word、Q2-char、Q2-word,將其形式化為:(Q1-char,Q1-word,Q2-char,Q2-word);
S30202、對于輸入句子中的每個字符和詞語均按照步驟S301中構建完成的字符詞語映射轉換表將其轉化為相應的數字標識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊魯工業大學,未經齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010103529.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在電子設備之間繼續活動
- 下一篇:OPC數據采集方法





