[發(fā)明專利]針對社交媒體的觀點檢索系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201711343978.8 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108038204A | 公開(公告)日: | 2018-05-15 |
| 發(fā)明(設(shè)計)人: | 廖祥文;陳國龍;馬飛翔;楊定達 | 申請(專利權(quán))人: | 福州大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/00 |
| 代理公司: | 福州元創(chuàng)專利商標代理有限公司 35100 | 代理人: | 蔡學(xué)俊;丘鴻超 |
| 地址: | 350116 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對 社交 媒體 觀點 檢索系統(tǒng) 方法 | ||
本發(fā)明涉及一種針對社交媒體的觀點檢索系統(tǒng)及方法。包括:一文本實體鏈接模塊,用于將用戶查詢和待查詢文檔進行分詞處理,同時鏈接到指定的知識圖譜,充分利用知識圖譜中的實體間關(guān)系,增加系統(tǒng)對用戶查詢和文檔的理解程度;一查詢擴展模塊,用于根據(jù)用戶的查詢,結(jié)合知識圖譜實體描述文本,通過分類得到查詢擴展詞;一觀點檢索得分計算模塊,用于結(jié)合原始查詢和查詢擴展詞,分別計算用戶查詢與某一文檔間的主題相關(guān)度得分部分,觀點相關(guān)度得分部分,以及文檔類別得分部分,并根據(jù)三個部分得到一個文檔的綜合得分;一文檔排序輸出模塊,根據(jù)文檔綜合得分從高到低排序,得到查詢的觀點檢索結(jié)果并輸出。本發(fā)明能夠高效準確地理解用戶查詢的信息需求,檢索出與用戶查詢相關(guān)并帶有對查詢觀點的文檔。
技術(shù)領(lǐng)域
本發(fā)明涉及觀點檢索領(lǐng)域,更具體地,涉及一種針對社交媒體的觀點檢索系統(tǒng)及方法,能夠結(jié)合知識圖譜,高效地從社交媒體等文檔集中檢索出與給定查詢相關(guān),同時帶有對查詢的觀點的相關(guān)文檔列表。
背景技術(shù)
當前,有很多技術(shù)方法可用于觀點檢索。傳統(tǒng)的觀點檢索方法將觀點檢索分為兩個階段,首先利用傳統(tǒng)的信息檢索模型或者語言模型得到主題相關(guān)的文檔集合,接著利用觀點分類器從主題相關(guān)文檔中得到帶有觀點的文檔,該類方法工作重點在于第二個階段,但用于觀點檢索中缺少理論依據(jù),效果也不夠理想。
當前,存在著一些線性組合觀點檢索方法。利用傳統(tǒng)的信息檢索模型或者語言模型得到主題相關(guān)度得分,通過觀點分析模型計算得到觀點相關(guān)度得分,使用線性組合公式將兩種相關(guān)度得分結(jié)合為一個得分,并根據(jù)得分高低進行排序。但該類方法結(jié)合方式過于簡單,若主題相關(guān)度得分或者觀點相關(guān)度得分中某一項得分比另一項大的多時,不能很好的反映真實的情況,結(jié)果也不夠準確。
當前,還存在著一些統(tǒng)一觀點檢索模型。將主題相關(guān)度和觀點得分結(jié)合到統(tǒng)一的檢索模型中,從傳統(tǒng)的基于統(tǒng)計的檢索模型出發(fā),推導(dǎo)出統(tǒng)一的檢索模型,模型包含了主題相關(guān)部分和觀點相關(guān)部分。該類模型擁有較好的理論支持,是目前效果較好的一類方法。
然而,在社交媒體中,用戶的查詢輸入通常較短,往往只是一個簡單的詞語,很難準確表達用戶查詢的信息需求,而目前的觀點檢索系統(tǒng)和方法往往對該問題沒有足夠的重視。隨著近年來互聯(lián)網(wǎng)的高速發(fā)展,微博、論壇等社交媒體消息的不斷產(chǎn)生,這就對觀點檢索技術(shù)提出了一個挑戰(zhàn):如何構(gòu)建一個能充分理解用戶查詢信息需求的觀點檢索原型系統(tǒng)來檢索出符合用戶查詢需求的觀點文檔。因此,人們迫切希望有一種高效準確的觀點檢索方法,該方法能夠理解用戶查詢信息需求,檢索出社交媒體中與用戶查詢相關(guān)的觀點文檔。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種針對社交媒體的觀點檢索系統(tǒng)及方法,能夠高效準確地理解用戶查詢的信息需求,檢索出與用戶查詢相關(guān)并帶有對查詢觀點的文檔。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種針對社交媒體的觀點檢索系統(tǒng),包括:
一文本實體鏈接模塊,用于將用戶查詢和待查詢文檔進行分詞處理,同時鏈接到指定的知識圖譜,利用知識圖譜中的實體間關(guān)系,增加系統(tǒng)對用戶查詢和文檔的理解程度;
一查詢擴展模塊,用于根據(jù)用戶的查詢,結(jié)合知識圖譜實體描述文本,通過分類得到查詢擴展詞;
一觀點檢索得分計算模塊,用于結(jié)合用戶查詢和查詢擴展詞,分別計算用戶查詢與文檔間的主題相關(guān)度得分、觀點相關(guān)度得分以及文檔類別得分,并根據(jù)三個部分得分得到該文檔的綜合得分;
一文檔排序輸出模塊,根據(jù)文檔綜合得分從高到低排序,得到查詢的觀點檢索結(jié)果并輸出。
優(yōu)選的,所述系統(tǒng)還包括:
一數(shù)據(jù)預(yù)處理模塊,用于去除文本中的鏈接、特殊字符及標點符號,對英文數(shù)據(jù)進行詞干還原處理,過濾文本中的停用詞。
優(yōu)選的,所述查詢擴展模塊的分類器包括擴展詞分布、共現(xiàn)頻率、鄰近關(guān)系、文檔集頻率四類特征,以及一個標注候選擴展詞類別的公式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711343978.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對象搜索方法及裝置
- 針對嵌入式應(yīng)用上下文中的搜索的查詢意圖表達
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲介質(zhì)
- 動態(tài)社交圈確定方法、裝置、設(shè)備及存儲介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計算機設(shè)備及存儲介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲介質(zhì)





