[發(fā)明專利]基于垂直領域的微博搜索排序方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310737940.4 | 申請日: | 2013-12-27 |
| 公開(公告)號: | CN103744918A | 公開(公告)日: | 2014-04-23 |
| 發(fā)明(設計)人: | 孟令勝;張霞;趙立軍;趙博 | 申請(專利權(quán))人: | 東軟集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 陳英俊 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 垂直 領域 搜索 排序 方法 系統(tǒng) | ||
1.一種基于垂直領域的微博搜索排序方法,根據(jù)現(xiàn)有微博中每條微博的領域相關度、被關注權(quán)重、時間權(quán)重、每個微博用戶的粉絲數(shù)權(quán)重以及每一類型的微博用戶的類型權(quán)重,對現(xiàn)有微博進行排序;其中,
根據(jù)確定的垂直領域,搜集所述垂直領域內(nèi)的領域詞匯,并計算在現(xiàn)有微博中所述垂直領域內(nèi)每個領域詞匯的詞頻;
對所計算出的每個領域詞匯的詞頻進行擬合,獲取現(xiàn)有微博中所述垂直領域內(nèi)每個領域詞匯的權(quán)重;
根據(jù)每個領域詞匯的權(quán)重,獲取現(xiàn)有微博中每條微博的領域相關度;
對現(xiàn)有微博中每條微博的被關注度進行擬合,獲取每條微博的被關注權(quán)重;
根據(jù)現(xiàn)有微博中每條微博的發(fā)表時間,計算所述微博的時間權(quán)重;
通過對現(xiàn)有微博用戶中每個微博用戶的粉絲數(shù)進行擬合,獲取每個微博用戶的粉絲數(shù)權(quán)重;以及,
通過統(tǒng)計現(xiàn)有微博用戶的類型,獲取所述類型的微博用戶的類型權(quán)重;
將所述領域相關度、粉絲數(shù)權(quán)重、被關注權(quán)重、類型權(quán)重和所述時間權(quán)重分別乘以預先分配的權(quán)重系數(shù),然后再相加,根據(jù)所相加的結(jié)果對現(xiàn)有微博進行搜索排序。
2.如權(quán)利要求1所述的基于垂直領域的微博搜索排序方法,其中,在對所計算出的每個領域詞匯的詞頻進行擬合,獲取在現(xiàn)有微博中所述垂直領域內(nèi)每個領域詞匯的權(quán)重的過程中,
計算相同詞頻的領域詞匯在所有領域詞匯中所占的比例;
對所計算的相同詞頻的領域詞匯在所有領域詞匯中所占的比例取負對數(shù),獲取每個領域詞匯的詞頻的直接權(quán)重;
對每個領域詞匯的詞頻的直接權(quán)重進行歸一化,獲取每個領域詞匯的權(quán)重。
3.如權(quán)利要求1所述的基于垂直領域的微博搜索排序方法,其中,在根據(jù)每個領域詞匯的權(quán)重,獲取現(xiàn)有微博中每條微博的領域相關度的過程中,
對現(xiàn)有微博中每條微博所包含的領域詞匯的權(quán)重進行相加,獲取現(xiàn)有微博中每條微博的領域相關度。
4.如權(quán)利要求1所述的基于垂直領域的微博搜索排序方法,其中,在通過對現(xiàn)有微博用戶中每個微博用戶的粉絲數(shù)進行擬合,獲取每個微博用戶的粉絲數(shù)權(quán)重的過程中,
計算粉絲數(shù)相同的微博用戶在現(xiàn)有微博用戶中所占的比例;
對所計算的粉絲數(shù)相同的微博用戶在現(xiàn)有微博用戶中所占的比例取負對數(shù),獲取每個微博用戶的粉絲數(shù)的直接權(quán)重;
對每個微博用戶的粉絲數(shù)的直接權(quán)重進行歸一化,獲取每個微博用戶的粉絲數(shù)權(quán)重。
5.如權(quán)利要求1所述的基于垂直領域的微博搜索排序方法,其中,在對現(xiàn)有微博中每條微博的被關注度進行擬合,獲取每條微博的被關注權(quán)重的過程中,
計算被關注度相同的微博在現(xiàn)有微博中所占的比例;
對所計算的被關注度相同的微博在現(xiàn)有微博中所占的比例取負對數(shù),獲取每條微博的被關注度的直接權(quán)重;
對每條微博的被關注度的直接權(quán)重進行歸一化,獲取每條微博的被關注權(quán)重。
6.如權(quán)利要求1所述的基于垂直領域的微博搜索排序方法,其中,在根據(jù)現(xiàn)有微博中每條微博的發(fā)表時間,計算所述微博的時間權(quán)重的過程中,通過如下公式進行計算:
f5(t)=D-(now-t),當f5(t)<0時,f5(t)=0
其中,f5(t)為現(xiàn)有微博中每條微博的時間權(quán)重,D為預設的有效天數(shù),now為當前時間,t為微博發(fā)表的時間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團股份有限公司,未經(jīng)東軟集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310737940.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





