[發明專利]一種文檔資源建議詞的挖掘方法和裝置有效
| 申請號: | 201310306623.7 | 申請日: | 2013-07-19 |
| 公開(公告)號: | CN103425748A | 公開(公告)日: | 2013-12-04 |
| 發明(設計)人: | 李國洪;潘欣婷;陳慶軒 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙) 11370 | 代理人: | 羅朋;趙晶 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 資源 建議 挖掘 方法 裝置 | ||
技術領域
本發明涉及網絡文檔資源庫技術領域,尤其涉及一種文檔資源建議詞的挖掘技術。
背景技術
當前的多種網絡文檔資源庫,如百度文庫、新浪愛問共享資料、豆丁網等,一般通過用戶上傳文檔的方式來不斷豐富文檔資源庫。然而,在用戶進行文檔資源搜索的查詢信息中,存在著具有文檔資源需求但沒有被滿足的查詢信息,例如某某作文、某某歌曲的吉他譜等,這些查詢信息自身描述了明確的文檔資源需求或者涵蓋了泛化的文檔資源需求表述,通過對這部分未滿足需求的查詢信息的挖掘,可有針對性的引導用戶在上傳文檔資源采用這些查詢信息作為文檔資源的標題或標簽,從而一方面有效地提升了用戶搜索文檔資源時搜索結果的命中率,同時提升了用戶的文檔搜索滿意度,另一方面也提高了文檔資源建設的效率,同時降低了成本。
然而,現有技術多通過人工抽樣分析來對未滿足用戶需求的查詢信息進行挖掘和分析。例如,在一定的時間周期內,人工從用戶的查詢信息中抽樣,并參照文檔資源庫中已有文檔資源,挖掘、分析出未被滿足需求的查詢信息,并且以此為基礎,分析這些需求未被滿足的查詢信息中涵蓋的大部分用戶的文檔需求類型,如駕照考試資料、小學作文等。
對于現有用戶未滿足需求挖掘、分析,基本屬于長周期人工分析的原始方式,人力投入成本過大,而且隨著用戶上傳文檔的快速增長,人工分析的時間延遲和人工成本成為制約,而目前尚缺乏有效的數據挖掘和分析方法來獲得未滿足需求的查詢信息,進而影響快速地、有針對性地根據用戶需求對文檔資源庫中文檔資源的建設。
發明內容
本發明的目的是提供一種文檔資源建議詞的挖掘方法和裝置。
根據本發明的一個方面,提供了一種文檔資源建議詞的挖掘方法,其中,該方法包括:
a獲取具有文檔資源需求的第一文檔需求信息;
b計算所述第一文檔需求信息與文檔資源庫中文檔內容標識信息的相似度,以獲得其中相似度低于預定相似度閾值的第二文檔需求信息;
c對所述第二文檔需求信息進行聚合處理,以獲得與所述第二文檔需求信息相對應的文檔資源建議詞。
根據本發明的另一個方面,還提供了一種文檔資源建議詞的挖掘裝置,其中,該裝置包括:
第一需求獲取裝置,用于獲取具有文檔資源需求的第一文檔需求信息;
第二需求獲取裝置,用于計算所述第一文檔需求信息與文檔資源庫中文檔內容標識信息的相似度,以獲得其中相似度低于預定相似度閾值的第二文檔需求信息;
建議詞獲取裝置,用于對所述第二文檔需求信息進行聚合處理,以獲得與所述第二文檔需求信息相對應的文檔資源建議詞。
與現有技術相比,本發明通過獲取具有文檔資源需求的第一文檔需求信息,計算第一文檔需求信息與文檔資源庫中文檔內容標識信息的相似度,以獲得其中相似度低于預定相似度閾值的第二文檔需求信息,并對第二文檔需求信息進行聚合處理,以獲得相應的文檔資源建議詞。由于第二文檔需求信息與文檔內容標識信息的相似度較低,從而用戶使用第二文檔需求信息進行文檔搜索時,往往搜索結果的召回率較低,用戶的文檔搜索體驗也較差,本發明在獲取第二文檔需求信息后,對其進行諸如分類、聚類等聚合處理,獲得處理后的文檔資源建議詞;這些文檔資源建議詞可以在用戶上傳文檔時作為文檔資源建議詞提供給用戶,以引導用戶對文檔資源庫進行建設,如將文檔資源建議詞作為上傳文檔的標題、標簽等,從而有效的提高了后續搜索的命中率,同時提升了用戶對文檔資源庫中文檔資源搜索的滿足度。進一步地,在通過前述方法引導用戶上傳文檔資源之后,文檔資源建議詞還可在用戶搜索文檔資源時,作為搜索建議詞提供給用戶,這同樣有效提高了搜索結果的召回率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1示出根據本發明一個方面的一種文檔資源建議詞的挖掘方法的流程圖;
圖2示出根據本發明另一個方面的一種文檔資源建議詞的挖掘裝置的示意圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本發明作進一步詳細描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310306623.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型油煙凈化裝置
- 下一篇:一種可擋油煙的隱藏式灶具





