[發(fā)明專利]一種網(wǎng)絡(luò)搜索詞的聚類方法和聚類裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201410377357.1 | 申請(qǐng)日: | 2014-08-01 |
| 公開(公告)號(hào): | CN104199833A | 公開(公告)日: | 2014-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 孫鵬飛 | 申請(qǐng)(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 權(quán)鮮枝;吳昊 |
| 地址: | 100088 北京市西城區(qū)新*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 搜索詞 方法 裝置 | ||
1.一種網(wǎng)絡(luò)搜索詞的聚類方法,包括:?
從搜索日志中提取出需要進(jìn)行聚類的網(wǎng)絡(luò)搜索詞;?
對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息;?
對(duì)所述短文本信息提取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞獲取每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量;?
判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;?
當(dāng)存在相似的兩個(gè)關(guān)鍵詞向量時(shí),對(duì)相似的兩個(gè)關(guān)鍵詞向量進(jìn)行合并,生成一個(gè)新的關(guān)鍵詞向量代替所述相似的兩個(gè)關(guān)鍵詞向量,并繼續(xù)判斷任兩個(gè)關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量;?
當(dāng)不存在相似的關(guān)鍵詞向量時(shí),從互不相似的各關(guān)鍵詞向量中提取網(wǎng)絡(luò)搜索詞,將從同一個(gè)關(guān)鍵詞向量中提取到的網(wǎng)絡(luò)搜索詞劃分為同一聚類。?
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)相同統(tǒng)一資源定位符URL的網(wǎng)絡(luò)搜索詞,根據(jù)所述URL抓取網(wǎng)頁(yè)相關(guān)內(nèi)容,生成短文本信息包括:?
將對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞設(shè)置在短文本信息中,其中,當(dāng)對(duì)應(yīng)于相同URL的網(wǎng)絡(luò)搜索詞中存在多個(gè)相同的網(wǎng)絡(luò)搜索詞時(shí),從相同的網(wǎng)絡(luò)查詢?cè)~中選取一個(gè)網(wǎng)絡(luò)查詢?cè)~設(shè)置在所述短文本信息中;?
從具有所述URL的網(wǎng)頁(yè)中抓取屬性標(biāo)簽中關(guān)鍵詞屬性和/或描述屬性對(duì)應(yīng)的屬性值,將所述屬性值設(shè)置在在所述短文本信息中。?
3.根據(jù)權(quán)利要求1所述的方法,其中,在對(duì)所述短文本信息提取關(guān)鍵詞之前,所述方法還包括:?
剔除所述短文本信息中的停用詞,并對(duì)剔除停用詞后的短文本信息中的詞項(xiàng)進(jìn)行詞性分析,得到各詞項(xiàng)的詞性。?
4.根據(jù)權(quán)利要求3所述的方法,其中,對(duì)所述短文本信息提取關(guān)鍵詞包括:?
將預(yù)定詞性的詞項(xiàng)選取為所述關(guān)鍵詞,所述詞性包括名詞、形容詞、副詞和動(dòng)詞。?
5.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述關(guān)鍵詞得到每條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量包括:?
利用關(guān)鍵詞在關(guān)鍵詞向量中的詞頻值,計(jì)算所述關(guān)鍵詞在每條短文本信息中的權(quán)重值;?
根據(jù)所述關(guān)鍵詞和關(guān)鍵詞在本條短文本信息中的權(quán)重值,得到本條短文本信息對(duì)應(yīng)的關(guān)鍵詞向量。?
6.根據(jù)權(quán)利要求5所述的方法,其中,所述判斷任兩個(gè)所述關(guān)鍵詞向量是否為相似的關(guān)鍵詞向量包括:?
根據(jù)兩個(gè)關(guān)鍵詞向量中各關(guān)鍵詞的權(quán)重值,計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度,當(dāng)計(jì)算出的余弦相似度大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量為相似的關(guān)鍵詞向量,當(dāng)計(jì)算出的余弦相似度不大于預(yù)定閥值時(shí),判斷所述兩個(gè)關(guān)鍵詞向量不是相似的關(guān)鍵詞向量。?
7.根據(jù)權(quán)利要求6所述的方法,其中,所述計(jì)算兩個(gè)關(guān)鍵詞向量之間的余弦相似度包括:?
對(duì)第一關(guān)鍵詞向量中的第一關(guān)鍵詞,在設(shè)置的詞項(xiàng)倒排索引表中查詢?cè)摰谝魂P(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,當(dāng)對(duì)應(yīng)的關(guān)鍵詞向量包括第二關(guān)鍵詞向量時(shí),獲知所述第一關(guān)鍵詞為同時(shí)存在于第一關(guān)鍵詞向量和第二關(guān)鍵詞向量中的共同關(guān)鍵詞;?
利用所述共同關(guān)鍵詞在第一關(guān)鍵詞向量中的第一權(quán)重值、所述共同?關(guān)鍵詞在第二關(guān)鍵詞向量中的第二權(quán)重值、第一關(guān)鍵詞向量的模長(zhǎng)和第二關(guān)鍵詞向量的模長(zhǎng)計(jì)算所述第一關(guān)鍵詞向量和第二關(guān)鍵詞向量的余弦相似度;?
其中,所述詞項(xiàng)倒排索引表包括記錄詞項(xiàng)的詞典表、記錄詞項(xiàng)與關(guān)鍵詞向量編號(hào)對(duì)應(yīng)關(guān)系的向量索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。?
8.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括建立關(guān)鍵詞向量和短文本信息的對(duì)應(yīng)關(guān)系:?
將所述對(duì)應(yīng)關(guān)系和向量合并關(guān)系記錄在向量正排索引表中,其中,所述對(duì)應(yīng)關(guān)系指示向量編號(hào)與文本編號(hào)的對(duì)應(yīng)關(guān)系,每個(gè)關(guān)鍵詞向量設(shè)置有向量編號(hào),每個(gè)短文本信息設(shè)置有文本編號(hào),所述向量合并關(guān)系指示向量編號(hào)與發(fā)生合并的關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系;?
所述向量正排索引表包括記錄向量編號(hào)的向量索引表、記錄向量編號(hào)與關(guān)鍵詞向量的對(duì)應(yīng)關(guān)系的向量?jī)?nèi)容索引表和詞項(xiàng)信息表,所述詞項(xiàng)信息表記錄關(guān)鍵詞向量中的關(guān)鍵詞、關(guān)鍵詞的權(quán)重值、關(guān)鍵詞向量的模長(zhǎng)和關(guān)鍵詞向量對(duì)應(yīng)的短文本信息。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司;,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司;許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410377357.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





