[發明專利]搜索關鍵字頻度解析方法、裝置、電子設備及介質有效
| 申請號: | 201610158328.5 | 申請日: | 2016-03-18 |
| 公開(公告)號: | CN107203570B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 蘭華勇 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 11021 中科專利商標代理有限責任公司 | 代理人: | 曹玲柱 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 關鍵字 頻度 解析 方法 裝置 | ||
本發明提供了一種基于HLSA的搜索關鍵詞頻度解析方法和裝置。本發明中,引入包含主題思想的LSA空間模型進行關鍵詞聚合,進而解決和彌補了基于VSM向量的歐式距離模型沒有考慮詞本身語義信息的不足之處以及基于編輯距離模型關鍵詞順序發生變化時帶來的誤差。此外,本發明還結合漢明碼計算關鍵詞間特征向量的相似度,形成新型HLSA算法,提高了相似度計算效率;并且,利用K近鄰算法分類并統計關鍵詞頻度,可以將不同粒度的關鍵詞進行聚合,從而有效地避免了最長公共子串模型由于粒度太細所產生的誤判。
技術領域
本發明涉及電子商務技術領域,尤其涉及一種基于HLSA的搜索關鍵詞頻度解析方法和裝置。
背景技術
用戶在電商平臺搜索欄里輸入的關鍵詞是表達其購買某款商品意愿的重要參考信息。在預定義的時間段范圍內聚合、分類以及統計商品搜索關鍵詞的出現頻度能夠有效地量化用戶對某款商品的需求程度,進而為采銷人員對某款商品是否需要采購、上架或增強其推廣力度提供有力的參考決策依據。
統計搜索關鍵詞頻度的前提是對其進行分類處理,而分類理論的基礎幾乎都是依賴于相似度模型。目前,計算搜索關鍵詞相似度的方法主要包括基于VSM(Vector SpaceModel,向量空間距離)向量的歐式距離模型、Levenshtein距離模型、最長公共子串以及最長公共子序列等。以下對各種方法的優缺點進行分別說明:
(1)基于VSM向量的歐式距離模型,該模型假設搜索關鍵詞內部詞條之間互不相關,采用多維向量來表示搜索記錄,從而簡化關鍵詞之間的復雜關系,使得模型具備可計算性。然而,歐式距離模型在關鍵詞之間線性無關時可以很好地解決問題,但它只考慮了關鍵詞的統計特性,且假定關鍵詞之間線性無關,而沒有考慮詞本身的語義信息,因此具有一定的局限性。
(2)Levenshtein距離,又稱編輯距離,指的是兩個搜索詞之間,由一個轉換成另一個所需的最少編輯操作次數。并由此衡量搜索關鍵詞之間的距離,進而獲得相似度。Levenshtein距離模型雖然具有無需考慮關鍵詞之間是否線性無關的優勢,但其不足之處在于若關鍵詞出現順序發生變化時,相似度計算結果將產生較大誤差。
(3)基于權值的最長公共子串方法,采用動態規劃方法遞歸計算搜索詞之間的最大公共部分,進而計算搜索詞之間的相似度。該最長公共子串方法對于關鍵字出現的順序并無特殊要求,但對關鍵詞的連續性和一致性有嚴格限制,因此也不能滿足我們的實際需求。
(4)在最長公共子串方法的基礎上,提出了基于權值和詞條的最長公共子序列LCS((Longest Common Subsequence)方法,相比最長公共子串而言,最長公共子序列對搜索關鍵詞的出現順序不敏感,因此具有更好的適用性。然而,最長公共子序列方法在關鍵詞不連續的情況下依然能夠良好地工作,但由于其判別關鍵字的基本特征粒度過于太細,往往產生過判,造成誤差的引入和累計,因而使用場合往往受到限制。
可見,現有技術解析搜索關鍵詞相似度方法在一定程度和范圍內具有一定的適用性,但或多或少也存在一些問題。
發明內容
(一)要解決的技術問題
鑒于上述技術問題,本發明提供了一種基于HLSA的搜索關鍵詞頻度解析方法和裝置,以提升搜索關鍵詞頻度解析的準確性和有效性。
(二)技術方案
根據本發明的一個方面,提供了一種搜索關鍵字頻度解析方法。該搜索關鍵字頻度解析方法包括:
步驟A:提取搜索關鍵詞記錄,對其進行分詞、清洗,得到目標詞條,多條的目標詞條構成目標詞庫;
步驟B:去除目標詞庫中對語義權重貢獻較小的弱相關詞條;
步驟C:對目標詞庫中的目標詞條進行近義詞或同義詞的替換;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610158328.5/2.html,轉載請聲明來源鉆瓜專利網。





