[發明專利]一種基于半監督CBOW的用戶搜索詞主題分類的方法有效
| 申請號: | 201410286532.6 | 申請日: | 2014-06-25 |
| 公開(公告)號: | CN104036010B | 公開(公告)日: | 2017-05-24 |
| 發明(設計)人: | 賀樑;楊河彬;徐曉楓;黃保荃;李明耀;倪敏杰 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海麥其知識產權代理事務所(普通合伙)31257 | 代理人: | 董紅曼 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 cbow 用戶 搜索詞 主題 分類 方法 | ||
技術領域
本發明涉及互聯網信息搜索技術領域,特別是一種基于半監督CBOW的用戶搜索詞主題分類的方法。
背景技術
隨著互聯網技術的發展,互聯網上的數字信息開始呈指數型增長。互聯網上的信息資源繁多,來源也千差萬別,人們要從信息的海洋當中獲取自己需要的特定信息越來越困難。搜索引擎是人們在互聯網上進行獲取的主要工具。在搜索引擎中,通過用戶查詢主題分類能夠直接或者間接反應用戶的潛在興趣和需求。正確的用戶查詢主題分類是現代搜索引擎的核心技術之一,能夠為用戶個性化應用、搜索引擎性能優化、定向廣告投放及搜索用戶行為分析起到了基礎性的作用。比如用戶在搜索引擎中提交查詢“寶馬汽車好不好”,我們可以將其分類到“汽車”類別當中,通過這個類別,我們可以在不損害用戶體驗的情況下投放汽車相關的廣告,提高用戶的廣告點擊率。
搜索引擎的使用需要輸入搜索詞,用戶搜索詞具有稀疏性、海量性和非規范性。單個搜索詞長度一般都非常短,往往只有2到3個關鍵詞,尤其用戶在使用搜索引擎時往往不注意規范表達,錯誤拼寫、縮寫簡寫、網絡流行詞、專業術語、產品編號等非常多,很難抽取到有效的語言特征,然而搜索的頻率又非常高,每天產生的用戶搜索詞條非常龐大,給用戶搜索詞分類提出了非常高的分類性能要求,大大增加了搜索詞分類的難度。由于搜索詞具有上面提到的語言特征,傳統的文本表示方法及文本分類方法直接應用到用戶搜索詞上效果不佳,搜索詞的特征稀疏性,基于詞語共現程度來衡量文本相似度的方法不再有效,導致了分類不能取得理想的結果。
目前,解決上述問題的方法通常歸結為兩類:一類是借助外部文本,如搜索引擎返回的文檔、維基百科等,擴展用戶搜索詞。另二類是利用主題模型挖掘詞語之間的內在聯系。由于搜索詞短導致的特征稀疏性,基于詞袋的用戶搜索詞表示方法及有監督的分類方法往往不能取得理想的結果。主要原因在于詞語共現程度來衡量文本相似度的方法不再有效,導致了分類準確率不高。如q1:三星 筆記本,q2:聯想 Y470,由于他們之間并沒有共現的詞,他們之間的相似度為0。但是由于“三星”與“聯想”同樣都是電腦品牌,“Y470”是聯想筆記本里面的一個型號,二者表達的都是在尋找筆記本的相關信息。但是基于詞袋的表示方法將每個詞作為一個特征,并不考慮詞與詞之間的關系。然而為了解決這個問題,主要有兩個解決方法,第一,利用文本進行擴充。但是在上面已經提到了,利用文本擴充的方法存在性能瓶頸,在實際使用當中受限。第二,利用主題進行擴充,比如將q1利用主題進行擴展得到q1’:三星 筆記本 Topic:數碼 topic:數碼,q2擴充的結果:聯想 Y470 Topic:數碼。利用主題之間的共現,增加二者的相關度。然而不管是事先定義的主題或者從大量文本訓練出來的隱含主題,搜索詞的很多詞匯都不在里面,使得應用起來非常受限。第一類的解決方法,由于涉及到網頁捉取、分詞等一消耗較長的時間。另一方面分類準確性非常依賴擴充后的文本質量。由于搜索詞的海量性及分類要求的實時性,使得該類方法在實際使用中非常受限。第二類的解決方法可以發現詞與詞之間的主題關系,但是對于主題當中不存在的詞無能為力。由于搜索引擎的非規范性,要收集一個適合于搜索詞主題關系挖掘的外部文本將非常困難。
現有技術的搜索查詢分類主要基于文本擴充及主題擴充,由于需要外部的資源。在線的資源獲取數據非常耗時,線下資源經常非常匱乏,尋找到一個合適的外部文本資源非常困難。并且傳統基于詞向量及有監督的文本分類方法常常沒有辦法取得預期的效果。
發明內容
本發明的目的是針對現有技術的不足而設計的一種基于半監督CBOW的用戶搜索詞主題分類的方法,采用半監督CBOW算法對搜索引擎的搜索數據及少量人工標注的數據建立含有語義、語法和類別信息的詞向量模型,并利用詞向量的線性組合形成用戶搜索詞向量,然后再進行分類,使得用戶搜索詞向量在空間上面不同類別的數據分得更加開,提高了分類的準確性,有效的解決了用戶查詢短的文本。
本發明的目的是這樣實現的:一種基于半監督CBOW的用戶搜索詞主題分類的方法,其特點是運用半監督CBOW算法對大量未標注和部分已標注的搜索詞建立含有語義、語法和類別信息的詞向量模型,利用詞向量模型的線性組合成查詢向量,然后根據查詢向量進行用戶搜索詞的主題分類,具體按下述步驟進行:
(一)、 詞向量模型的建立
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410286532.6/2.html,轉載請聲明來源鉆瓜專利網。





