[發明專利]一種基于半監督學習的關鍵詞到企業的檢索方法在審
| 申請號: | 202010683463.8 | 申請日: | 2020-07-15 |
| 公開(公告)號: | CN111881334A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 陳家銀;邱耶;龔小龍;陳曦;麻志毅;彭軍民 | 申請(專利權)人: | 浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/9538;G06N3/04;G06N3/08 |
| 代理公司: | 杭州融方專利代理事務所(普通合伙) 33266 | 代理人: | 沈相權 |
| 地址: | 311201 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 關鍵詞 企業 檢索 方法 | ||
本發明涉及一種檢索方法,尤其涉及一種基于半監督學習的關鍵詞到企業的檢索方法,屬于應用于信息檢索領域。自訓練方法首先使用初始標注數據訓練模型,然后使用模型對部分無標注數據進行識別并將其加入到標注數據集中,作為新的訓練數據;通過多輪次的自動數據標注和迭代訓練學習,得到最終的模型。半監督學習方法可以大大降低人工標注成本,提高檢索匹配效率。
技術領域
本發明涉及一種檢索方法,尤其涉及一種基于半監督學習的關鍵詞到企業 的檢索方法,屬于應用于信息檢索領域。
背景技術
通過關鍵詞檢索企業是指利用企業品牌、產品或工廠的關鍵詞檢索出該部 分信息背后對應的具體企業,有利于市場人員進行精準營銷。例如市場人員希 望找到醫療器械行業品牌“邁德斯特”背后企業。由于不同的企業在企業名稱、 企業商標、經營范圍等文本內容上存在相同的關鍵詞信息,導致關鍵詞信息在 不同數據源檢索會返回大量具有歧義內容的企業。例如對于品牌關鍵詞“邁德 斯特”,商標注冊信息檢索結果,返回的企業列表為{“衡水慧東商貿有限公 司”,“衡水科谷電子科技有限公司”,“河北瑞朗德醫療器械科技集團有限 公司”,…},共有62條檢索結果;企業工商信息檢索結果所示,返回的企業 列表為{“河北邁德斯特醫藥有限公司”,“衡水恒澤康醫療器械有限公司”, “河北瑞朗德醫療器械科技集團有限公司”,…},共有17條檢索結果。通過 該例子可以看出,利用單搜索源難以確定關鍵詞對應的具體企業。針對此問題, 本發明主要基于商標搜索接口和企業搜索接口兩個數據源得到候選企業列表, 應用深度學習技術,提出一種使用少量標注數據的半監督學習方法構建企業信 息檢索模型,實現面向關鍵詞的企業智能檢索引擎。
基本思路:首先分別對輸入和候選檢索項進行向量編碼表示,然后計算輸 入與候選項之間的語義相似度,取相似度最高的一項作為匹配結果。詞向量編 碼是指將詞映射為一個密集、低維的實值向量,基于詞向量可以更好地捕獲詞 語之間的語義關系,提升文本處理任務的性能。近年來,BERT算法超越了之 前的語言表示學習算法,可以學習到更準確的文本表示。相比word2vec等方 法,BERT更好地考慮了上下文信息,緩解了一詞多義的問題。ALBERT模型是 基于BERT算法的最新改進成果之一,減少了內存使用的同時提升了訓練速度。 卷積神經網絡(CNN)是常用的編碼器,通過卷積操作和池化操作來學習輸入的 表示。卷積操作可以增強局部信息的利用,池化操作可以學習更高層的表示。
傳統有監督方法需要提供大量的人工標注訓練數據,人力成本太高。針對 此問題,本發明使用基于半監督學習的檢索方法。半監督學習指同時利用少量 標注數據和大量無標注數據來訓練模型的一類算法,其中自訓練方法是常用的 半監督算法之一。自訓練方法首先使用初始標注數據訓練模型,然后使用模型 對部分無標注數據進行識別并將其加入到標注數據集中,作為新的訓練數據; 通過多輪次的自動數據標注和迭代訓練學習,得到最終的模型。半監督學習只 需要借助少量的標注數據來完成模型的迭代訓練,可以有效緩解標注數據不足 的問題,大大降低人工成本。
發明內容
本發明主要是解決現有技術中存在的不足,解決一種在市場拓展過程中, 市場人員往往最先獲知的不是企業客戶全稱,而是企業品牌、產品或工廠的關 鍵詞,然而僅知道這些關鍵詞信息,人工很難快速通過互聯網等平臺檢索出該 信息背后對應的具體企業。原因是很多企業在工商信息注冊時所填寫的企業名 稱、企業商標、經營范圍等文本內容上存在大量的相同關鍵詞信息,導致關鍵 詞信息檢索無法準確捕捉用戶語義需求,召回結果中出現大量的具有歧義內容 的企業。針對上述問題,提出一種基于半監督學習的關鍵詞到企業的檢索方法, 該方法核心是通過多源數據挖掘不同渠道下關鍵詞對應的企業信息,通過半監 督學習方法對檢索返回的候選企業按相關性進行排序,推薦目標企業。
本發明的上述技術問題主要是通過下述技術方案得以解決的:
一種基于半監督學習的關鍵詞到企業的檢索方法,按以下步驟進行:
(一)、前期分析:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司,未經浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010683463.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑用設備便捷式除塵裝置
- 下一篇:一種抗震防落梁結構





