[發(fā)明專利]一種基于微博平臺的領(lǐng)域信息推薦系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201611075431.X | 申請日: | 2016-11-28 |
| 公開(公告)號: | CN106776881A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 楊燕;王帥;徐良;徐罡;田申 | 申請(專利權(quán))人: | 中國科學(xué)院軟件研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司11251 | 代理人: | 楊學(xué)明,顧煒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 平臺 領(lǐng)域 信息 推薦 系統(tǒng) 方法 | ||
1.一種基于微博平臺的領(lǐng)域信息推薦系統(tǒng),其特征在于包括:數(shù)據(jù)獲取與預(yù)處理模塊、領(lǐng)域關(guān)鍵詞提取模塊、用戶自定義關(guān)鍵詞擴(kuò)展模塊、線性合并模塊、相似度計(jì)算與個(gè)性化推薦模塊以及主題獲取模塊;其中:
數(shù)據(jù)獲取與預(yù)處理模塊:獲取用戶相關(guān)微博信息數(shù)據(jù),并進(jìn)行預(yù)處理;預(yù)處理包括數(shù)據(jù)的停用詞過濾、分詞和詞性標(biāo)注;預(yù)處理結(jié)果即為用戶的歷史微博數(shù)據(jù),傳給領(lǐng)域關(guān)鍵詞提取模塊;如果用戶自定義了領(lǐng)域興趣關(guān)鍵詞,則預(yù)處理結(jié)果同時(shí)傳給用戶自定義關(guān)鍵詞擴(kuò)展模塊;
領(lǐng)域關(guān)鍵詞提取模塊:基于預(yù)處理結(jié)果,關(guān)鍵詞提取采用基于TextRank算法修改的TextRank for Weibo算法無指導(dǎo)地進(jìn)行,該算法包括基于共現(xiàn)關(guān)系的無向圖的構(gòu)造和基于圖的節(jié)點(diǎn)權(quán)重計(jì)算兩個(gè)階段;基于共現(xiàn)關(guān)系的無向圖的構(gòu)造階段,首先將用戶歷史微博中出現(xiàn)的分詞轉(zhuǎn)化為對應(yīng)的節(jié)點(diǎn);在節(jié)點(diǎn)間連接邊的構(gòu)造時(shí),使用節(jié)點(diǎn)之間是否有邊以及邊的權(quán)重由兩個(gè)詞語在同一篇微博中的共現(xiàn)次數(shù)判定共現(xiàn)的構(gòu)圖,邊的權(quán)重即為詞語在同一微博中的共現(xiàn)次數(shù),如果兩個(gè)詞語在用戶的某條微博中共現(xiàn),則兩個(gè)詞語所對應(yīng)節(jié)點(diǎn)之間的邊之權(quán)值加1,邊的最終權(quán)值為其對應(yīng)兩個(gè)詞語在微博中的共現(xiàn)次數(shù);然后再基于圖的節(jié)點(diǎn)權(quán)重計(jì)算階段,迭代計(jì)算每個(gè)階段的權(quán)重,直到節(jié)點(diǎn)權(quán)重的變化量收斂到某個(gè)閥值為止;迭代結(jié)束后,每個(gè)節(jié)點(diǎn)的權(quán)重即為其所代表的分詞的重要程度,將用戶的所有分詞按照重要度進(jìn)行排序即獲得關(guān)鍵詞提取的結(jié)果,從而自動識別用戶所在的領(lǐng)域特征;
用戶自定義關(guān)鍵詞擴(kuò)展模塊:基于關(guān)鍵詞的共現(xiàn)、分布以及其所屬用戶的屬性信息來計(jì)算關(guān)鍵詞之間的相似度,將高相關(guān)度的詞語作為目標(biāo)關(guān)鍵詞的擴(kuò)展結(jié)果;本模塊支持用戶輸入多個(gè)自定義關(guān)鍵詞,對于每個(gè)自定義關(guān)鍵詞,會對關(guān)鍵詞擴(kuò)展出的擴(kuò)展詞向量進(jìn)行線性加和,從而得到最終的擴(kuò)展向量;用戶自定義關(guān)鍵詞擴(kuò)展功能保證了用戶的動態(tài)興趣需求能夠?qū)崟r(shí)得到滿足,同時(shí)極大增強(qiáng)了用戶自定義關(guān)鍵詞的表述能力;
線性合并模塊:在領(lǐng)域關(guān)鍵詞自動提取和基于用戶自定義關(guān)鍵詞的擴(kuò)展均完成后,采用最大值歸一化方法對兩個(gè)結(jié)果向量進(jìn)行歸一化,使關(guān)鍵詞提取與關(guān)鍵詞擴(kuò)展的結(jié)果向量映射到一個(gè)統(tǒng)一的取值范圍之中;歸一化后,對兩個(gè)歸一化后的向量進(jìn)行線性合并,合并過程支持用戶自定義關(guān)鍵詞提取和關(guān)鍵詞擴(kuò)展的權(quán)重;該模塊輸出一個(gè)代表用戶最終領(lǐng)域興趣的詞向量;
相關(guān)度計(jì)算與個(gè)性化推薦模塊:線性合并模塊刻畫出用戶領(lǐng)域興趣的關(guān)鍵詞向量之后,對每條待過濾微博進(jìn)行分詞以及詞頻統(tǒng)計(jì)以生成詞頻向量,然后將用戶興趣關(guān)鍵詞向量、待推薦微博生成的詞頻向量以及IDF信息向量進(jìn)行點(diǎn)乘運(yùn)算,得到該微博與用戶興趣的相關(guān)度,該相關(guān)度即為該條微博的領(lǐng)域相關(guān)度,通過計(jì)算出每個(gè)用戶微博的領(lǐng)域相關(guān)度,按照領(lǐng)域相關(guān)度由高到低進(jìn)行排序,將微博信息呈現(xiàn)給用戶,實(shí)現(xiàn)對用戶的個(gè)性化領(lǐng)域微博推薦;
主題獲取模塊:以推薦給用戶的領(lǐng)域微博文本為輸入訓(xùn)練LDA模型,根據(jù)主題的詞項(xiàng)分布將詞項(xiàng)聚類成主題;將主題詞項(xiàng)集合與線性合并模塊中得到的用戶領(lǐng)域興趣關(guān)鍵詞項(xiàng)進(jìn)行相關(guān)度計(jì)算,獲得主題重要性,并按照重要性排序呈現(xiàn)給用戶,從而完成主題發(fā)現(xiàn)和推薦。
2.根據(jù)權(quán)利要求1所述的基于微博平臺的領(lǐng)域信息推薦系統(tǒng),其特征在于:所述數(shù)據(jù)獲取與預(yù)處理模塊實(shí)現(xiàn)過程如下:
(1)用戶登錄微博系統(tǒng)后,首先進(jìn)行用戶驗(yàn)證,驗(yàn)證通過后,自動使用該用戶所關(guān)聯(lián)的微博平臺憑證與微博平臺交互,以驗(yàn)證用戶身份在微博平臺上的合法性;
(2)獲取用戶關(guān)注訂閱的相關(guān)微博文本,利用本地?cái)?shù)據(jù)庫將獲取的數(shù)據(jù)結(jié)構(gòu)化地持久化起來,以便隨時(shí)讀取;
(3)對持久化的微博文本進(jìn)行預(yù)處理工作,包括停用詞過濾、分詞和詞性標(biāo)注三部分;針對微博文本特性,采用模式匹配的方法,對停用詞首先進(jìn)行了過濾,然后針對微博場景進(jìn)行優(yōu)化了的中文分詞以及詞性標(biāo)注,使用分詞器產(chǎn)品ICTCLAS5.0進(jìn)行分詞和詞性標(biāo)注,同時(shí)在關(guān)鍵詞提取與關(guān)鍵詞擴(kuò)展之前均對用戶微博分詞后的結(jié)果進(jìn)行詞性過濾,只保留名詞。預(yù)處理結(jié)果數(shù)據(jù)即為用戶的歷史微博數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院軟件研究所,未經(jīng)中國科學(xué)院軟件研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611075431.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





