[發(fā)明專利]網(wǎng)頁(yè)搜索關(guān)鍵詞的相關(guān)性檢測(cè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410714574.5 | 申請(qǐng)日: | 2014-11-28 |
| 公開(公告)號(hào): | CN104462310B | 公開(公告)日: | 2018-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 何鑫 | 申請(qǐng)(專利權(quán))人: | 北京國(guó)雙科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司11240 | 代理人: | 李志剛,吳貴明 |
| 地址: | 100086 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁(yè) 搜索關(guān)鍵詞 相關(guān)性 檢測(cè) 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種網(wǎng)頁(yè)搜索關(guān)鍵詞的相關(guān)性檢測(cè)方法和裝置。
背景技術(shù)
用戶通常會(huì)抱有一定的目的和意圖瀏覽網(wǎng)站。對(duì)于一個(gè)網(wǎng)站而言,了解用戶訪問的真實(shí)意圖非常重要。通常,網(wǎng)站會(huì)根據(jù)用戶瀏覽網(wǎng)站的行為軌跡構(gòu)造模型,以訓(xùn)練分類器的方法對(duì)訪問網(wǎng)站的用戶進(jìn)行分類,或是通過分析網(wǎng)站站內(nèi)搜索詞的熱度來了解用戶的需求。
由于進(jìn)行站內(nèi)搜索是用戶主動(dòng)尋找信息的行為,因此,在一定程度上可以描述用戶的需求。用戶需求可以通過對(duì)用戶在網(wǎng)站中的站內(nèi)搜索詞進(jìn)行聚類的方式來加以識(shí)別。傳統(tǒng)的站內(nèi)搜索詞聚類方法依賴于搜索詞本身,通過詞語間字面上的重疊進(jìn)行計(jì)算,實(shí)現(xiàn)方法如下:首先,對(duì)搜索關(guān)鍵詞進(jìn)行字面上的拆解(包括逐子或分詞),拆解以后的搜索關(guān)鍵詞可以表示為以詞(字)為單元的序列串;然后,逐一計(jì)算每一對(duì)搜索關(guān)鍵詞的相似度,即比較兩個(gè)搜索詞的詞串的吻合程度,并獲取二者的相似度;最后,使用聚類算法進(jìn)行關(guān)鍵詞聚類。
用戶需求與站內(nèi)搜索詞之間應(yīng)存在多對(duì)多的關(guān)系,即一種用戶需求可以通過多個(gè)站內(nèi)搜索詞來表示,一個(gè)站內(nèi)搜索詞也可以表示多種不同的用戶需求。現(xiàn)有的搜索詞聚類方法僅僅通過搜索關(guān)鍵詞字面上的吻合程度建立聯(lián)系并不符合實(shí)際情況;同時(shí),生硬地構(gòu)造了一種搜索關(guān)鍵詞間的相關(guān)關(guān)系,聚類結(jié)果可信度差,比如,“三星”和“蘋果”不包含任何字面上的匹配,但是相關(guān)性應(yīng)該很高,而“本田”和“本源”是完全無關(guān)的兩個(gè)詞,但是字面上仍然存在著相關(guān)關(guān)系;另外,現(xiàn)有方法需要計(jì)算每?jī)蓚€(gè)搜索關(guān)鍵詞之間的相似度,因此時(shí)間復(fù)雜度為o(n2),不適用于大規(guī)模數(shù)據(jù)挖掘。
針對(duì)相關(guān)技術(shù)中網(wǎng)頁(yè)搜索關(guān)鍵詞之間的相關(guān)性檢測(cè)不準(zhǔn)確的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有的網(wǎng)頁(yè)搜索關(guān)鍵詞之間的相關(guān)性檢測(cè)不準(zhǔn)確的問題而提出本發(fā)明,為此,本發(fā)明的主要目的在于提供一種網(wǎng)頁(yè)搜索關(guān)鍵詞的相關(guān)性檢測(cè)方法及裝置,以解決上述問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)搜索關(guān)鍵詞的相關(guān)性檢測(cè)方法。該方法包括:確定用于執(zhí)行網(wǎng)頁(yè)搜索的第一網(wǎng)頁(yè)搜索關(guān)鍵詞和第二網(wǎng)頁(yè)搜索關(guān)鍵詞,其中,第一網(wǎng)頁(yè)搜索關(guān)鍵詞和第二網(wǎng)頁(yè)搜索關(guān)鍵詞為不同的網(wǎng)頁(yè)搜索關(guān)鍵詞;獲取統(tǒng)一資源定位符集合,其中,統(tǒng)一資源定位符集合包括多個(gè)統(tǒng)一資源定位符,多個(gè)統(tǒng)一資源定位符兩兩不同,多個(gè)統(tǒng)一資源定位符包括第一網(wǎng)頁(yè)搜索關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的統(tǒng)一資源定位符和第二網(wǎng)頁(yè)搜索關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的統(tǒng)一資源定位符;獲取第一向量,其中,第一向量包括多個(gè)元素,第一向量的多個(gè)元素分別為第一網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系;獲取第二向量,其中,第二向量包括多個(gè)元素,第二向量的多個(gè)元素分別為第二網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系;根據(jù)第一向量和第二向量對(duì)第一網(wǎng)頁(yè)搜索關(guān)鍵詞和第二網(wǎng)頁(yè)搜索關(guān)鍵詞進(jìn)行相關(guān)性檢測(cè)。
進(jìn)一步地,獲取統(tǒng)一資源定位符集合包括:獲取第一統(tǒng)一資源定位符子集合,其中,第一統(tǒng)一資源定位符子集合為第一網(wǎng)頁(yè)搜索關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的統(tǒng)一資源定位符的集合,根據(jù)以下方法分別確定第一網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系:分別判斷多個(gè)統(tǒng)一資源定位符是否是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符;如果多個(gè)統(tǒng)一資源定位符是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第一網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系所對(duì)應(yīng)的數(shù)值為1;如果多個(gè)統(tǒng)一資源定位符不是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第一網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系所對(duì)應(yīng)的數(shù)值為0,獲取統(tǒng)一資源定位符集合還包括:獲取第二統(tǒng)一資源定位符子集合,其中,第二統(tǒng)一資源定位符子集合為第二網(wǎng)頁(yè)搜索關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的統(tǒng)一資源定位符的集合,根據(jù)以下方法分別確定第二網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系:分別判斷多個(gè)統(tǒng)一資源定位符是否是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符;如果多個(gè)統(tǒng)一資源定位符是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第二網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系所對(duì)應(yīng)的數(shù)值為1;如果多個(gè)統(tǒng)一資源定位符不是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第二網(wǎng)頁(yè)搜索關(guān)鍵詞和多個(gè)統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系所對(duì)應(yīng)的數(shù)值為0。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國(guó)雙科技有限公司,未經(jīng)北京國(guó)雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410714574.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





