[發(fā)明專利]基于標(biāo)簽推薦文檔的方法及文檔推薦裝置無效
| 申請?zhí)枺?/td> | 201210422437.5 | 申請日: | 2012-10-29 |
| 公開(公告)號: | CN102955849A | 公開(公告)日: | 2013-03-06 |
| 發(fā)明(設(shè)計)人: | 劉曉震 | 申請(專利權(quán))人: | 新浪技術(shù)(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 黃啟行;方曉明 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 標(biāo)簽 推薦 文檔 方法 裝置 | ||
1.一種基于標(biāo)簽推薦文檔的方法,包括:
接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對應(yīng)的同義詞組;
根據(jù)獲取的同義詞組,從預(yù)先存儲的文檔庫中,查詢并獲取包含所述同義詞組的文檔列表;
計算包含所述同義詞組的文檔列表中每一文檔的特征值,構(gòu)建基于文檔標(biāo)簽的空間權(quán)重向量;
根據(jù)構(gòu)建的基于文檔標(biāo)簽的空間權(quán)重向量,計算文檔標(biāo)簽對應(yīng)的文檔與文檔列表中每一篇文檔的相似度,并選取預(yù)定數(shù)目的相似度最高的文檔作為查詢結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述文檔包括文檔標(biāo)識、文檔標(biāo)簽、文檔更新時間以及文檔內(nèi)容。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對應(yīng)的同義詞組包括:
查詢預(yù)先設(shè)置的同義詞詞林,分別獲取與文檔標(biāo)簽中各標(biāo)簽對應(yīng)的同義詞子組;
基于文檔標(biāo)簽格式,將各標(biāo)簽對應(yīng)的同義詞子組組合為同義詞組。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述從預(yù)先存儲的文檔庫中,查詢并獲取包含所述同義詞組的文檔列表包括:
基于文檔標(biāo)簽,對獲取的同義詞組進(jìn)行組合,得到組合的同義詞組;
根據(jù)組合的同義詞組,查詢倒排索引集合,獲取所述組合的同義詞組對應(yīng)的正排索引集合標(biāo)識;
根據(jù)獲取的正排索引集合標(biāo)識,查詢正排索引集合,獲取正排索引集合標(biāo)識映射的文檔,形成文檔列表。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述計算包含所述同義詞組的文檔列表中每一文檔的特征值包括:
查詢預(yù)先設(shè)置的標(biāo)簽計數(shù)器,遍歷文檔列表,獲取文檔列表中每一文檔基于文檔標(biāo)簽的計數(shù)值;
結(jié)合文檔庫中文檔總數(shù)以及基于文檔標(biāo)簽的計數(shù)值,分別得到文檔列表中各文檔對應(yīng)的特征值。
6.根據(jù)權(quán)利要求5所述的方法,其中,在所述查詢預(yù)先存儲的標(biāo)簽計數(shù)器的步驟之前,所述方法進(jìn)一步包括:
接收發(fā)布的攜帶博文標(biāo)識的博文,獲取該博文中的博文標(biāo)簽;
查詢文檔庫中,獲取所述博文標(biāo)識對應(yīng)的博文標(biāo)簽數(shù)組;
根據(jù)獲取的博文標(biāo)簽以及博文標(biāo)簽數(shù)組,更新博文標(biāo)簽數(shù)組中的計數(shù)值。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)獲取的博文標(biāo)簽以及博文標(biāo)簽數(shù)組,更新博文標(biāo)簽數(shù)組中的計數(shù)值包括:
將所述博文標(biāo)簽與所述博文標(biāo)簽數(shù)組互為差集,將博文標(biāo)簽差博文標(biāo)簽數(shù)組的集合寫入輸入標(biāo)簽數(shù)組,博文標(biāo)簽數(shù)組差博文標(biāo)簽的集合寫入輸出標(biāo)簽數(shù)組;
根據(jù)輸入標(biāo)簽數(shù)組中的標(biāo)簽,對標(biāo)簽計數(shù)器中相應(yīng)標(biāo)簽對應(yīng)的計數(shù)值執(zhí)行加1操作;
根據(jù)輸出標(biāo)簽數(shù)組中的標(biāo)簽,對標(biāo)簽計數(shù)器中相應(yīng)標(biāo)簽對應(yīng)的計數(shù)值執(zhí)行減1操作;
對輸入標(biāo)簽數(shù)組中的數(shù)據(jù),增加索引倒排數(shù)據(jù)內(nèi)容,對輸出標(biāo)簽數(shù)組中的數(shù)據(jù),刪除對應(yīng)的索引倒排數(shù)據(jù)內(nèi)容。
8.根據(jù)權(quán)利要求1至7任一項所述的方法,其中,計算所述相似度采用夾角余弦定理公式。
9.一種基于標(biāo)簽推薦文檔的文檔推薦裝置,其特征在于,該裝置包括:同義詞組獲取模塊、文檔獲取模塊、空間權(quán)重向量構(gòu)建模塊以及文檔推薦模塊,其中,
同義詞組獲取模塊,用于接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對應(yīng)的同義詞組;
文檔獲取模塊,用于根據(jù)獲取的同義詞組,從預(yù)先存儲的文檔庫中,查詢并獲取包含所述同義詞組的文檔列表;
空間權(quán)重向量構(gòu)建模塊,用于計算包含所述同義詞組的文檔列表中每一文檔的特征值,構(gòu)建基于文檔標(biāo)簽的空間權(quán)重向量;
文檔推薦模塊,用于根據(jù)構(gòu)建的基于文檔標(biāo)簽的空間權(quán)重向量,計算文檔標(biāo)簽對應(yīng)的文檔與文檔列表中每一篇文檔的相似度,并選取預(yù)定數(shù)目的相似度最高的文檔作為查詢結(jié)果輸出。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述同義詞組獲取模塊包括:解析單元、查詢單元以及同義詞組獲取單元,其中,
解析單元,用于接收用戶選取的文檔標(biāo)簽,解析得到文檔標(biāo)簽中包含的各標(biāo)簽,依次輸出至查詢單元;
查詢單元,用于根據(jù)接收的標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取該標(biāo)簽對應(yīng)的同義詞子組,輸出至同義詞組獲取單元;
同義詞組獲取單元,用于根據(jù)文檔標(biāo)簽的格式,將接收的同義詞子組組合為同義詞組。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新浪技術(shù)(中國)有限公司,未經(jīng)新浪技術(shù)(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210422437.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





