[發(fā)明專利]搜索關(guān)鍵字頻度解析方法、裝置、電子設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 201610158328.5 | 申請日: | 2016-03-18 |
| 公開(公告)號: | CN107203570B | 公開(公告)日: | 2020-02-07 |
| 發(fā)明(設(shè)計)人: | 蘭華勇 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 11021 中科專利商標(biāo)代理有限責(zé)任公司 | 代理人: | 曹玲柱 |
| 地址: | 100080 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索 關(guān)鍵字 頻度 解析 方法 裝置 | ||
1.一種搜索關(guān)鍵字頻度解析方法,其特征在于,包括:
步驟A:提取搜索關(guān)鍵詞記錄,對其進行分詞、清洗,得到目標(biāo)詞條,多條的目標(biāo)詞條構(gòu)成目標(biāo)詞庫;
步驟B:去除目標(biāo)詞庫中對語義權(quán)重貢獻較小的弱相關(guān)詞條;
步驟C:對目標(biāo)詞庫中的目標(biāo)詞條進行近義詞或同義詞的替換;
步驟D:采用特征-對象矩陣將高維空間映射到低維的潛在語義結(jié)構(gòu)上所構(gòu)建出的LSA空間模型,結(jié)合漢明碼計算詞條特征向量之間的距離,聚合特征向量距離等同或相近的特征向量對應(yīng)的詞條,生成詞條組;
步驟E:對聚合后的每一個詞條組,根據(jù)預(yù)設(shè)半徑參數(shù)確定詞條聚合分布的區(qū)域,在該范圍內(nèi)采用K近鄰算法對聚合的詞條進行分類;以及
步驟F:基于分類結(jié)果與目標(biāo)詞庫中每個詞條的搜索次數(shù)進行頻度解析,其中,歸結(jié)為一類的詞條的搜索次數(shù)作為整體進行頻度解析;
其中,所述步驟D包括:
子步驟D1:由目標(biāo)詞庫中的詞條構(gòu)建二維的特征-對象矩陣,該特征-對象矩陣中的每一個元素為兩個詞條對應(yīng)的特征向量組成的特征向量簇;
子步驟D2:對每一特征向量簇,將其包括的兩個特征向量分別轉(zhuǎn)換為二進制碼,利用漢明碼計算該兩個特征向量之間的距離;以及
子步驟D3:將目標(biāo)詞庫中距離小于預(yù)設(shè)閾值的兩特征向量對應(yīng)的詞條聚合,作為一詞條對,并將包含同一詞條的多個詞條對合并為一詞條組。
2.根據(jù)權(quán)利要求1所述的搜索關(guān)鍵字頻度解析方法,其特征在于,所述步驟E中,根據(jù)預(yù)設(shè)半徑參數(shù)確定詞條聚合分布的區(qū)域,在該范圍內(nèi)采用K近鄰算法對聚合的詞條進行分類包括:
子步驟E1:設(shè)定半徑R0;
子步驟E2:求取詞條組中全部詞條對應(yīng)特征向量的平均值向量;
子步驟E3:計算詞條組中每一詞條對應(yīng)特征向量與該平均值向量的距離;
子步驟E4:將距離小于半徑R0的特征向量對應(yīng)的詞條歸結(jié)為一類。
3.根據(jù)權(quán)利要求2所述的搜索關(guān)鍵字頻度解析方法,其特征在于,所述子步驟E4之后還包括:
子步驟E5:將分類結(jié)果存儲至數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求1至3中任一項所述的搜索關(guān)鍵字頻度解析方法,其特征在于,所述步驟A包括:
子步驟A1:從數(shù)據(jù)庫中提取搜索關(guān)鍵詞記錄;
子步驟A2:對記錄進行分詞處理,去除副詞、助詞、標(biāo)點符號,得到一個或多個詞條;以及
子步驟A3:將詞條作為參數(shù)進行停用詞庫的查詢,刪除停用的詞條,進而完成對詞條的清洗工作。
5.根據(jù)權(quán)利要求4所述的搜索關(guān)鍵字頻度解析方法,其特征在于,所述子步驟A2中,利用ICTCLAS或自建分詞引擎對記錄進行分詞處理。
6.根據(jù)權(quán)利要求1至3中任一項所述的搜索關(guān)鍵字頻度解析方法,其特征在于,所述步驟B包括:采用預(yù)先定義的過濾詞庫或規(guī)則庫,對預(yù)處理得到的目標(biāo)詞庫中的目標(biāo)詞條按照預(yù)設(shè)的權(quán)重門限進行條件過濾,去除對語義權(quán)重貢獻較小的弱相關(guān)詞條。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610158328.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 電子機器及信息的顯示控制方法
- 儲存系統(tǒng)
- 接口調(diào)用頻度控制、接口調(diào)用請求處理方法及裝置
- 一種數(shù)字熒光示波器波形顯示數(shù)據(jù)的轉(zhuǎn)換計算方法
- 投射材料
- 一種關(guān)聯(lián)頻度計算的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜框架的語義建模方法
- 清醒度判定裝置以及清醒度判定方法
- 圖像形成裝置以及圖像處理系統(tǒng)
- 一種多智能卡擴展方法及系統(tǒng)
- 數(shù)據(jù)收集服務(wù)器、數(shù)據(jù)利用服務(wù)器、設(shè)備、數(shù)據(jù)流通系統(tǒng)、數(shù)據(jù)收集方法以及程序





