[發明專利]一種基于半監督學習的關鍵詞到企業的檢索方法在審

申請號：	202010683463.8	申請日：	2020-07-15
公開（公告）號：	CN111881334A	公開（公告）日：	2020-11-03
發明（設計）人：	陳家銀;邱耶;龔小龍;陳曦;麻志毅;彭軍民	申請（專利權）人：	浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/9535;G06F16/9538;G06N3/04;G06N3/08
代理公司：	杭州融方專利代理事務所(普通合伙) 33266	代理人：	沈相權
地址：	311201 浙江省***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于監督學習關鍵詞企業檢索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于半監督學習的關鍵詞到企業的檢索方法，其特征在于按以下步驟進行：

(一)、前期分析：

該方法應用神經網絡模型計算關鍵詞與檢索返回的候選企業之間的語義相似度，對候選企業進行排序，推薦目標企業；具體來說，該方法使用預訓練的ALBERT模型對關鍵詞以及檢索返回的候選企業信息分別進行向量編碼，并構建匹配模型KC-CNN計算關鍵詞信息與候選企業信息的語義相似度；通過對相似度的排序得到對應的目標企業；使用自訓練方法與部分專家知識結合的半監督方式對模型進行迭代訓練；下面將從預訓練語言模型、半監督匹配兩個方面進行闡述；

(二)、預訓練語言模型：

使用大量無標注文本對語言模型進行預訓練，可以學習到文本中潛在的語義信息，更精確地編碼文本；

在不同文本處理任務中，字詞的使用方法和使用頻率不同，同時存在一些專有名詞；例如“瓦楞紙箱”，這是一個在通用語料中較少出現的名詞，但在紙包裝領域內是一個常用詞；針對不同應用任務，在現有語言模型基礎上考慮加入領域數據進行訓練，可以使得模型更加匹配業務場景；基于此，使用企業簡介和經營范圍作為訓練語料，因為企業的簡介和經營范圍描述了該企業的主營產品和提供的服務；使用ALBERT作為語言模型；作為最新的語言模型之一，ALBERT在BERT基礎上減少了內存使用的同時提升了訓練速度，取得了更好的詞編碼效果；模型預訓練的主要步驟為：

(1)文本語料收集：通過企業信息查詢系統收集企業的簡介和經營范圍，整理為文本語料；

(2)文本預處理：對簡介和經營范圍進行清洗，刪除噪聲文本，以及與企業描述無關的詞句，例如“依法須經批準的項目，經相關部門批準后方可開展經營活動”相關補充說明性文字；

(3)模型訓練：ALBERT模型將無標注文本作為輸入，通過預訓練任務進行模型學習；ALBERT相對于BERT，主要在三方面做了改進：1)詞嵌入參數因式分解，ALBERT通過降低詞嵌入的維度來減少參數量；2)隱藏層間參數共享，ALBERT中全連接層和注意力層的參數均共享；3)提出新的訓練任務，ALBERT提出了“句子間順序預測”作為新的預測任務，即給定兩個句子，預測它們的前后順序；該任務能夠學到更多的句子間語義關系和上下文信息；

通過使用企業信息語料進行預訓練，ALBERT模型完成了領域自適應，更加適配品牌與企業匹配的應用場景；

(三)、基于半監督學習的檢索方法：

通過關鍵詞檢索企業時，需要從多個候選項中選擇最佳的匹配結果；為了找到關鍵詞對應的企業，本發明使用文本匹配模型計算關鍵詞與候選企業的語義相似度，最后將相似度最高的企業作為匹配結果；現實應用中，基于深度學習的匹配模型的表現往往優于其他語義匹配方法，因為深度匹配模型可以更有效地利用文本特征和提取匹配項與待匹配項之間的交互信息，學習更豐富的表示；但是深度學習需要大量標注數據，在實際應用中難以得到滿足；同時，單一數據源難以確定關鍵詞對應的具體企業，導致匹配不準確；基于少量標注數據構建關鍵詞到具體企業的檢索模型，并對兩個檢索數據源分別進行建模，具體方法為：(1)構建關鍵詞-候選企業匹配模型KC-CNN，并使用初始標注數據對模型進行訓練；(2)使用KC-CNN模型對待檢索的關鍵詞進行企業關聯，其中對商標搜索接口使用B_KC-CNN，對企業搜索接口使用C_KC-CNN，將二者一致的匹配結果作為新的訓練數據，緩解標注數據不足的問題；(3)利用專家知識對部分模型輸出結果進行人工校正，保證訓練數據的準確性；

3.1關鍵詞-候選項匹配模型：

利用少量關鍵詞與候選項的匹配標注數據，使用基于ALBERT和CNN構建的KC-CNN模型對關鍵詞的對應企業進行識別；訓練數據由企業關鍵詞和兩個檢索渠道返回的候選企業組成：給定待檢索項q＝{q₁，q₂}，其中q₁表示關鍵詞主特征，q₂表示關鍵詞副特征，關鍵詞副特征可以用于解決關鍵詞的歧義問題；企業搜索接口得到的候選企業集合為其中表示單個企業樣本；每個樣本中，分別表示企業名稱、企業簡介和經營范圍3個特征；類似地，通過商標搜索接口得到的候選企業集合為：其中分別表示每個樣本的企業名稱、商標名稱和商標類別3個特征；對于有標注數據，P₁和P₂中標簽為1的樣本為正樣本，即該關鍵詞所對應的企業；對于未標注數據，集合中樣本標簽均設置為0；由于不同渠道得到的候選項的輸入特征不同，使用同一算法框架分別構建B_KC-CNN和C_KC-CNN來處理不同的特征輸入；考慮一對(關鍵詞，候選企業)輸入(q，a)，KC-CNN模型首先使用ALBERT模型對輸入進行編碼，得到輸入的上下文表示(m_q，m_a)；之后使用卷積神經網絡計算關鍵詞和企業的向量表示(r_q，r_a)，并計算兩個向量之間的余弦相似度；最后，通過優化關鍵詞-候選企業對之間的成對排序損失，訓練得到KC-CNN模型；

(1)輸入文本處理：

KC-CNN接收(關鍵詞，候選企業)對作為輸入；對于待檢索關鍵詞，將關鍵詞主特征和關鍵詞副特征作為輸入文本；對于商標搜索途徑的候選企業，將商標名稱、商標類別以及企業簡稱作為輸入文本，其中企業簡稱通過刪除企業名稱中的地名前綴和公司類型后綴得到；對于企業搜索途徑的候選企業，將企業簡稱，以及企業簡介和經營范圍的前20個字作為輸入文本；

(2)特征編碼：

KC-CNN使用預訓練ALBERT語言模型作為編碼器，對輸入文本中的每一個Token產生一個上下文表示，拼接后得到輸入文本的特征編碼矩陣；使用m_q＝[e₁，e₂，...，e_M]∈R^M×d表示待檢索關鍵詞的編碼矩陣，m_a＝[e₁，e₂，...，e_N]∈R^N×d表示候選企業的編碼矩陣；其中M和N分別為輸入中的Token個數，本發明中M設置為10、N設置為50；d為預訓練詞向量維度，ALBERT將其設置為128維；

(3)卷積和池化：

選取不同窗口大小的卷積核，對特征矩陣進行卷積操作：

c_i＝g(v^Te_i：(i+h-1))，

其中g代表卷積運算；v∈R^h×d，其中h一般取2和3，表示不同的窗口大小，用于抽取不同層次的N-gram信息；使用多個卷積核對特征進行卷積，每個卷積核輸出一個卷積序列，即一般核數量取n＝50；之后對每一個卷積序列采用最大池化進行特征選取，輸出該序列中的最大值；并使用非線性函數tanh對所有卷積序列池化的結果進行規范化，得到輸入特征的向量表示：

其中r每一維的取值范圍為[-1，1]；

(4)計算匹配相似度：

得到輸入的向量表示(r_q，r_a)后，KC-CNN計算向量之間的余弦相似度作為其匹配相似度：

(5)損失函數：

KC-CNN通過優化成對排序損失函數對模型進行訓練；每一輪得到兩對(關鍵詞，候選企業)的匹配相似度，計算二者之間的排序損失；具體來說，對兩對輸入(q，a⁺)和(q，a^-)，其中a⁺表示待檢索關鍵詞的對應企業，a^-表示候選企業中任意一個不正確匹配的企業，使用鉸鏈損失定義成對損失函數：

L＝max{O，t-s(q，a⁺)+s(q，a^-)}

其中t為一個自定義常數，表示正確匹配和錯誤匹配之間的間隔，本方法中取值為0.5；通過優化成對排序損失函數，KC-CNN傾向于對關鍵詞與關聯企業的匹配打分高，對非關聯企業的匹配結果打分低；

3.2自訓練迭代學習：

由于現實應用中數據標注的人力成本過高，無法使用足量標注數據對模型進行學習；針對此問題，使用基于半監督的自訓練方法訓練模型；通過標注少量數據，首先按3.1節的內容構建初始KC-CNN模型；接著利用大量無標注數據，使用自訓練方法對模型進行迭代學習后，得到最終模型。具體步驟為：

(1)從未標注數據中隨機選取Q個待檢索關鍵詞以及其對應的無標簽候選企業列表；在本發明中Q取50；

(2)對于每個待檢索關鍵詞，使用B_KC-CNN模型在商標搜索接口的候選企業列表中進行匹配檢索，使用C_KC-CNN模型在企業搜索接口的候選企業列表中進行匹配檢索，分別得到檢索結果；

(3)若二者檢索結果一致，將該企業標注為正例，其他候選企業標注為負例，加入到標注數據集中；若二者匹配結果不一致，利用專家知識進行人工校正，選擇正確的結果作為正例放入到標注數據集；

(4)使用擴增的標注數據集作為訓練集，更新KC-CNN模型；

重復步驟(1)～(4)，直到未標注數據集合為空；自訓練方法可以緩解標注數據不足的問題，大大降低人工成本；但是由于初始模型性能不足，單純的自訓練方法會導致將錯誤標注的數據加入到訓練集中，對模型訓練產生錯誤指導；通過對比兩個檢索結果并進行人工校正，可以保證標注數據的準確性，提高匹配模型的性能。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司，未經浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010683463.8/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】