日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于半監督學習的關鍵詞到企業的檢索方法在審

專利信息
申請號: 202010683463.8 申請日: 2020-07-15
公開(公告)號: CN111881334A 公開(公告)日: 2020-11-03
發明(設計)人: 陳家銀;邱耶;龔小龍;陳曦;麻志毅;彭軍民 申請(專利權)人: 浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司
主分類號: G06F16/951 分類號: G06F16/951;G06F16/9535;G06F16/9538;G06N3/04;G06N3/08
代理公司: 杭州融方專利代理事務所(普通合伙) 33266 代理人: 沈相權
地址: 311201 浙江省*** 國省代碼: 浙江;33
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 監督 學習 關鍵詞 企業 檢索 方法
【權利要求書】:

1.一種基于半監督學習的關鍵詞到企業的檢索方法,其特征在于按以下步驟進行:

(一)、前期分析:

該方法應用神經網絡模型計算關鍵詞與檢索返回的候選企業之間的語義相似度,對候選企業進行排序,推薦目標企業;具體來說,該方法使用預訓練的ALBERT模型對關鍵詞以及檢索返回的候選企業信息分別進行向量編碼,并構建匹配模型KC-CNN計算關鍵詞信息與候選企業信息的語義相似度;通過對相似度的排序得到對應的目標企業;使用自訓練方法與部分專家知識結合的半監督方式對模型進行迭代訓練;下面將從預訓練語言模型、半監督匹配兩個方面進行闡述;

(二)、預訓練語言模型:

使用大量無標注文本對語言模型進行預訓練,可以學習到文本中潛在的語義信息,更精確地編碼文本;

在不同文本處理任務中,字詞的使用方法和使用頻率不同,同時存在一些專有名詞;例如“瓦楞紙箱”,這是一個在通用語料中較少出現的名詞,但在紙包裝領域內是一個常用詞;針對不同應用任務,在現有語言模型基礎上考慮加入領域數據進行訓練,可以使得模型更加匹配業務場景;基于此,使用企業簡介和經營范圍作為訓練語料,因為企業的簡介和經營范圍描述了該企業的主營產品和提供的服務;使用ALBERT作為語言模型;作為最新的語言模型之一,ALBERT在BERT基礎上減少了內存使用的同時提升了訓練速度,取得了更好的詞編碼效果;模型預訓練的主要步驟為:

(1)文本語料收集:通過企業信息查詢系統收集企業的簡介和經營范圍,整理為文本語料;

(2)文本預處理:對簡介和經營范圍進行清洗,刪除噪聲文本,以及與企業描述無關的詞句,例如“依法須經批準的項目,經相關部門批準后方可開展經營活動”相關補充說明性文字;

(3)模型訓練:ALBERT模型將無標注文本作為輸入,通過預訓練任務進行模型學習;ALBERT相對于BERT,主要在三方面做了改進:1)詞嵌入參數因式分解,ALBERT通過降低詞嵌入的維度來減少參數量;2)隱藏層間參數共享,ALBERT中全連接層和注意力層的參數均共享;3)提出新的訓練任務,ALBERT提出了“句子間順序預測”作為新的預測任務,即給定兩個句子,預測它們的前后順序;該任務能夠學到更多的句子間語義關系和上下文信息;

通過使用企業信息語料進行預訓練,ALBERT模型完成了領域自適應,更加適配品牌與企業匹配的應用場景;

(三)、基于半監督學習的檢索方法:

通過關鍵詞檢索企業時,需要從多個候選項中選擇最佳的匹配結果;為了找到關鍵詞對應的企業,本發明使用文本匹配模型計算關鍵詞與候選企業的語義相似度,最后將相似度最高的企業作為匹配結果;現實應用中,基于深度學習的匹配模型的表現往往優于其他語義匹配方法,因為深度匹配模型可以更有效地利用文本特征和提取匹配項與待匹配項之間的交互信息,學習更豐富的表示;但是深度學習需要大量標注數據,在實際應用中難以得到滿足;同時,單一數據源難以確定關鍵詞對應的具體企業,導致匹配不準確;基于少量標注數據構建關鍵詞到具體企業的檢索模型,并對兩個檢索數據源分別進行建模,具體方法為:(1)構建關鍵詞-候選企業匹配模型KC-CNN,并使用初始標注數據對模型進行訓練;(2)使用KC-CNN模型對待檢索的關鍵詞進行企業關聯,其中對商標搜索接口使用B_KC-CNN,對企業搜索接口使用C_KC-CNN,將二者一致的匹配結果作為新的訓練數據,緩解標注數據不足的問題;(3)利用專家知識對部分模型輸出結果進行人工校正,保證訓練數據的準確性;

3.1關鍵詞-候選項匹配模型:

利用少量關鍵詞與候選項的匹配標注數據,使用基于ALBERT和CNN構建的KC-CNN模型對關鍵詞的對應企業進行識別;訓練數據由企業關鍵詞和兩個檢索渠道返回的候選企業組成:給定待檢索項q={q1,q2},其中q1表示關鍵詞主特征,q2表示關鍵詞副特征,關鍵詞副特征可以用于解決關鍵詞的歧義問題;企業搜索接口得到的候選企業集合為其中表示單個企業樣本;每個樣本中,分別表示企業名稱、企業簡介和經營范圍3個特征;類似地,通過商標搜索接口得到的候選企業集合為:其中分別表示每個樣本的企業名稱、商標名稱和商標類別3個特征;對于有標注數據,P1和P2中標簽為1的樣本為正樣本,即該關鍵詞所對應的企業;對于未標注數據,集合中樣本標簽均設置為0;由于不同渠道得到的候選項的輸入特征不同,使用同一算法框架分別構建B_KC-CNN和C_KC-CNN來處理不同的特征輸入;考慮一對(關鍵詞,候選企業)輸入(q,a),KC-CNN模型首先使用ALBERT模型對輸入進行編碼,得到輸入的上下文表示(mq,ma);之后使用卷積神經網絡計算關鍵詞和企業的向量表示(rq,ra),并計算兩個向量之間的余弦相似度;最后,通過優化關鍵詞-候選企業對之間的成對排序損失,訓練得到KC-CNN模型;

(1)輸入文本處理:

KC-CNN接收(關鍵詞,候選企業)對作為輸入;對于待檢索關鍵詞,將關鍵詞主特征和關鍵詞副特征作為輸入文本;對于商標搜索途徑的候選企業,將商標名稱、商標類別以及企業簡稱作為輸入文本,其中企業簡稱通過刪除企業名稱中的地名前綴和公司類型后綴得到;對于企業搜索途徑的候選企業,將企業簡稱,以及企業簡介和經營范圍的前20個字作為輸入文本;

(2)特征編碼:

KC-CNN使用預訓練ALBERT語言模型作為編碼器,對輸入文本中的每一個Token產生一個上下文表示,拼接后得到輸入文本的特征編碼矩陣;使用mq=[e1,e2,...,eM]∈RM×d表示待檢索關鍵詞的編碼矩陣,ma=[e1,e2,...,eN]∈RN×d表示候選企業的編碼矩陣;其中M和N分別為輸入中的Token個數,本發明中M設置為10、N設置為50;d為預訓練詞向量維度,ALBERT將其設置為128維;

(3)卷積和池化:

選取不同窗口大小的卷積核,對特征矩陣進行卷積操作:

ci=g(vTei:(i+h-1)),

其中g代表卷積運算;v∈Rh×d,其中h一般取2和3,表示不同的窗口大小,用于抽取不同層次的N-gram信息;使用多個卷積核對特征進行卷積,每個卷積核輸出一個卷積序列,即一般核數量取n=50;之后對每一個卷積序列采用最大池化進行特征選取,輸出該序列中的最大值;并使用非線性函數tanh對所有卷積序列池化的結果進行規范化,得到輸入特征的向量表示:

其中r每一維的取值范圍為[-1,1];

(4)計算匹配相似度:

得到輸入的向量表示(rq,ra)后,KC-CNN計算向量之間的余弦相似度作為其匹配相似度:

(5)損失函數:

KC-CNN通過優化成對排序損失函數對模型進行訓練;每一輪得到兩對(關鍵詞,候選企業)的匹配相似度,計算二者之間的排序損失;具體來說,對兩對輸入(q,a+)和(q,a-),其中a+表示待檢索關鍵詞的對應企業,a-表示候選企業中任意一個不正確匹配的企業,使用鉸鏈損失定義成對損失函數:

L=max{O,t-s(q,a+)+s(q,a-)}

其中t為一個自定義常數,表示正確匹配和錯誤匹配之間的間隔,本方法中取值為0.5;通過優化成對排序損失函數,KC-CNN傾向于對關鍵詞與關聯企業的匹配打分高,對非關聯企業的匹配結果打分低;

3.2自訓練迭代學習:

由于現實應用中數據標注的人力成本過高,無法使用足量標注數據對模型進行學習;針對此問題,使用基于半監督的自訓練方法訓練模型;通過標注少量數據,首先按3.1節的內容構建初始KC-CNN模型;接著利用大量無標注數據,使用自訓練方法對模型進行迭代學習后,得到最終模型。具體步驟為:

(1)從未標注數據中隨機選取Q個待檢索關鍵詞以及其對應的無標簽候選企業列表;在本發明中Q取50;

(2)對于每個待檢索關鍵詞,使用B_KC-CNN模型在商標搜索接口的候選企業列表中進行匹配檢索,使用C_KC-CNN模型在企業搜索接口的候選企業列表中進行匹配檢索,分別得到檢索結果;

(3)若二者檢索結果一致,將該企業標注為正例,其他候選企業標注為負例,加入到標注數據集中;若二者匹配結果不一致,利用專家知識進行人工校正,選擇正確的結果作為正例放入到標注數據集;

(4)使用擴增的標注數據集作為訓練集,更新KC-CNN模型;

重復步驟(1)~(4),直到未標注數據集合為空;自訓練方法可以緩解標注數據不足的問題,大大降低人工成本;但是由于初始模型性能不足,單純的自訓練方法會導致將錯誤標注的數據加入到訓練集中,對模型訓練產生錯誤指導;通過對比兩個檢索結果并進行人工校正,可以保證標注數據的準確性,提高匹配模型的性能。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司,未經浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010683463.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产乱码久久久久久虫虫| 国产日韩欧美精品一区| 国产一区二区电影在线观看| 国产欧美一区二区三区在线播放| 国产黄色一区二区三区| 99国产精品免费| 91久久免费| 在线精品国产一区二区三区88 | 国产欧美日韩va另类在线播放| 4399午夜理伦免费播放大全| 国产一二区在线| 亚洲影院久久| 久久久久亚洲精品| 国产91热爆ts人妖在线| 亚洲欧美精品suv| 国产一区日韩一区| 欧美日韩一区免费| 亚洲精品国产精品国自| 久久精品入口九色| 国产精品久久99| 国产日韩欧美网站| 国产电影精品一区二区三区| 综合色婷婷一区二区亚洲欧美国产| 午夜国内精品a一区二区桃色| 欧美一区二区三区三州| 狠狠色噜噜狠狠狠狠2018| 日本美女视频一区二区| 美女直播一区二区三区| 国产品久精国精产拍| 97久久国产精品| 日本一区二区免费电影| 综合国产一区| 欧美在线免费观看一区| 亚洲精品一区二区三区香蕉| 久久三级精品| 国产剧情在线观看一区二区| 亚洲国产精品激情综合图片| 综合久久一区| 欧美片一区二区| 国产欧美一区二区精品性色超碰| 91亚洲国产在人线播放午夜| 国产精品videossex国产高清| 国产精品日韩精品欧美精品| 在线亚洲精品| 亚洲欧美制服丝腿| 一区二区免费在线观看| 一区二区91| 久久久99精品国产一区二区三区| 91视频国产九色| 欧美午夜精品一区二区三区| 久久一区二区三区视频| 亚洲欧美一区二区三区1000| 91麻豆精品国产91久久久资源速度 | av不卡一区二区三区| 国产一级精品在线观看| 国产一区观看| 福利片一区二区三区| 国产亚洲综合一区二区| 久久99久久99精品免观看软件| 午夜天堂电影| 国产午夜一级一片免费播放| 久久一区二区精品| 91精品综合在线观看| 久久青草欧美一区二区三区| 国产一级一区二区三区| 欧美精品在线一区二区| 欧美精品久久一区| 午夜av片| av中文字幕一区二区| 国产日韩精品久久| 国产精品久久久久久久久久不蜜臀| 国产一区在线免费| 国产精品亚洲二区| 国产伦精品一区二区三区免| 国产精品人人爽人人做av片| 欧美一区二区三区黄| www.午夜av| 欧美日韩久久一区二区| 午夜电影三级| 亚洲第一天堂久久| 国产综合亚洲精品| 美女被羞羞网站视频软件| 国产一区二区在| www.日本一区| 一区二区欧美精品| 亚洲欧美一卡二卡| 国产精品偷伦一区二区| 国产91在线拍偷自揄拍| 一区二区三区在线观看国产| 国产一区二区电影在线观看| 国产精品你懂的在线| 欧美视频1区| 亚洲国产日韩综合久久精品| 久久国产精品麻豆| 午夜激情电影在线播放| 国产精品精品国内自产拍下载| 欧美精品日韩| 销魂美女一区二区| 二区三区视频| 国产日韩欧美第一页| 亚洲精品一品区二品区三品区| 久久久久久亚洲精品中文字幕| 久久精品国产亚洲7777| 中文乱码在线视频| 91午夜在线| 17c国产精品一区二区 | 国产一级不卡毛片| 亚洲久色影视| aaaaa国产欧美一区二区 | 国产一二区在线| 91看片淫黄大片91| 久久综合国产精品| 精品久久二区| 91精品视频在线免费观看| 午夜激情免费电影| 狠狠综合久久av一区二区老牛| 亚洲va欧美va国产综合先锋| 国产第一区二区| 国产精品一级片在线观看| 国产91麻豆视频| 99国产精品99久久久久| 国产午夜一区二区三区| 热re99久久精品国99热蜜月| 国产精品天堂网| 国产精品69久久久| 国产一区二区三区的电影| 久久久一二区| 久久精品一二三四| 四虎精品寂寞少妇在线观看| 国产jizz18女人高潮| 91超碰caoporm国产香蕉| 美日韩一区| 精品国产免费一区二区三区| 男女午夜影院| 肥大bbwbbwbbw高潮| 影音先锋久久久| 精品国产乱码一区二区三区a| 91国偷自产中文字幕婷婷| 91日韩一区二区三区| 91精品婷婷国产综合久久竹菊 | 91福利视频导航| 日韩av中文字幕在线免费观看| 国产精品自拍不卡| 国产精品久久久久久久久久久新郎 | 69久久夜色精品国产69–| 综合久久国产九一剧情麻豆| 国产在线一二区| 欧美日韩国产在线一区二区三区| 国产一区二区黄| 91精品啪在线观看国产线免费| 日韩精品免费一区二区在线观看| 99视频国产精品| 粉嫩久久久久久久极品| 国产黄色一区二区三区| 欧美日韩国产精品综合| 欧美日韩国产色综合视频| 91高清一区| 97视频精品一二区ai换脸| 欧美日韩一区二区三区四区五区六区| 日韩亚洲欧美一区| 欧美精品久久一区二区| 国产一区二三| 免费看欧美中韩毛片影院| 国产有码aaaae毛片视频| 欧美三区视频| 国产三级欧美三级日产三级99| 国产999精品视频| 亚洲精品卡一卡二| 国产一区二区91| 国产精品亚洲欧美日韩一区在线| 欧美日韩国产一二三| 国产97在线看| 国产91久| av素人在线| 亚洲国产精品日韩av不卡在线| 国产日韩欧美精品一区| 狠狠色噜噜狠狠狠四色米奇| 国产二区三区视频| 国产一级一区二区| 国产精品久久久爽爽爽麻豆色哟哟| 毛片免费看看| 久久久久国产精品免费免费搜索 | 在线国产一区二区| 欧美一区二区三区免费在线观看| 欧美日韩综合一区| 久久久久亚洲国产精品| 欧美一区二区三区视频在线观看| 88国产精品视频一区二区三区| 国产在线欧美在线| 性国产日韩欧美一区二区在线 | 91一区二区三区视频| 久久久人成影片免费观看| 91久久久爱一区二区三区| 亚洲乱视频| 鲁一鲁一鲁一鲁一鲁一av| 国产午夜一级一片免费播放| 日韩国产精品久久| 国久久久久久| 国产日韩欧美在线一区| 欧美日韩一区二区三区不卡| 国产一区二区三区影院| 热re99久久精品国99热蜜月| 国产女人与拘做受免费视频| 午夜国产一区二区| 日本一区二区三区在线看| 午夜一区二区视频| 精品一区二区在线视频| 午夜免费一级片| 亚洲va国产| 91丝袜国产在线播放| 国产视频一区二区三区四区| 久久人人97超碰婷婷开心情五月| 国产精品剧情一区二区三区| 91性高湖久久久久久久久_久久99| 亚洲午夜久久久久久久久电影院| 久久国产精品首页| 亚洲国产精品国自产拍av| 欧美hdfree性xxxx| 久久密av| 日韩亚洲精品视频| 性色av色香蕉一区二区| 国产人澡人澡澡澡人碰视| 欧美日韩精品在线播放| 国产日韩麻豆| 国产亚洲精品久久午夜玫瑰园| 日韩精品久久久久久久酒店| www亚洲精品| 国产suv精品一区二区4| 亚洲精品www久久久久久广东| 日本亚洲国产精品| 右手影院av| 91夜夜夜| 91国产在线看| 精品久久久久久久免费看女人毛片| 国产伦理精品一区二区三区观看体验 | 国产呻吟久久久久久久92| 欧美一区二区精品久久911| 91精品久久久久久久久久| 久久夜色精品国产噜噜麻豆| 激情久久久久久| 久久99久国产精品黄毛片入口 | 日韩精品久久久久久久的张开腿让| 久久精品99国产国产| 国产精品自产拍在线观看桃花| 久久青草欧美一区二区三区| 久久久中精品2020中文 |