[發明專利]基于話題的新聞檢索裝置及方法無效
| 申請號: | 201210274765.5 | 申請日: | 2012-08-03 |
| 公開(公告)號: | CN102831192A | 公開(公告)日: | 2012-12-19 |
| 發明(設計)人: | 李德聰;方慶安;楊青 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 劉淑敏 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 話題 新聞 檢索 裝置 方法 | ||
技術領域
本發明涉及互聯網信息處理領域的文本聚類、信息檢索技術,尤其涉及一種基于話題的新聞檢索裝置及方法?。?
背景技術
隨著以互聯網為代表的信息技術的快速發展,信息的數量越來越大、傳播速度越來越快,影響范圍越來越廣。在此大環境下,網絡新聞也日益顯現出多元化的特點。對于同一話題,很可能存在多篇采取不同角度、產自不同媒體、持有不同觀點的新聞。用戶在檢索新聞時,如果能以話題為單位,展示與話題相關的新聞、數據等,則與傳統的單純展示以單篇新聞為單位的檢索結果相比,可以幫助用戶一目了然的了解該與其查詢相關的輿論情況,取得更好的用戶體驗。?
目前,提供新聞檢索的網站,主要為各專業新聞媒體官方網站、門戶網站、搜索引擎的新聞垂直搜索頻道等。這些網站的新聞檢索還有很大改進余地。這些網站的新聞檢索主要依賴于對單篇新聞建立索引,用戶輸入查詢后,考察用戶查詢和單篇新聞的相關度。有些網站只能單純展示以單篇新聞為單位的檢索結果;有些網站的檢索結果只是簡單的把重復的新聞組合在一起;有些網站雖然能夠依靠某種技術,確定屬于同一話題的各篇新聞,但其在處理用戶查詢時,采取的是先考察用戶查詢和單篇新聞的相關度,再把與各單篇新聞相關的新聞組合展示的方式,沒有從根本上和深層次上考察用戶查詢和各話題的相關度。?
發明內容
有鑒于此,本發明的主要目的在于提供一種基于話題的新聞檢索裝置及方法,在用戶檢索新聞時,從根本上和深層次上考查各話題和用戶查詢的相關度,并把檢索到的話題和常規新聞網頁結合展示。?
為達到上述目的,本發明的技術方案是這樣實現的:?
一種基于話題的新聞檢索裝置,主要包括采集分析模塊、聚類處理模塊、索引建立模塊、查詢排序模塊以及結果輸出模塊;其中:
采集分析模塊,用于采集新聞網頁,并提取相應的特征;
聚類處理模塊,用于對新聞網頁聚類,產生話題及其特征向量;
索引建立模塊,用于對話題和新聞網頁建立索引;
查詢排序模塊,用于對用戶的查詢、計算各話題和新聞網頁排序分數;
結果輸出模塊,用于對檢索結果進行排序和輸出。
一種基于話題的新聞檢索方法,主要包括:?
A、采集新聞網頁,對新聞網頁進行分析,提取特征的步驟;
B、對新聞網頁聚類,產生話題及其特征向量的步驟;
C、對話題和新聞網頁建立索引的步驟;
D、對用戶的查詢、計算各話題和新聞網頁排序分數的步驟;以及
E、對檢索結果進行排序和輸出的步驟。
其中,步驟A所述采集新聞網頁并對新聞網頁提取特征,包括:?
A1、采用網絡爬蟲采集新聞網頁;
A2、對新聞網頁進行分詞、詞性標注、專名識別的處理,構造特征向量,所述特征向量以詞或短語token及其權重為單位。
步驟B所述對新聞網頁聚類、產生話題及其特征向量,包括:?
所述產生的特征對新聞網頁聚類,每個聚類結果作為一個話題,每個聚類結果有一個以token及其相關信息為元素的中心向量,該向量作為話題的特征向量,并記錄該話題包含的新聞網頁ID。
步驟C所述對話題和新聞網頁建立索引,主要包括:?
C1、對話題建索引,建立倒排表;對于每個話題,以步驟B產生的特征向量中的token作為索引項;對于每個token,倒排鏈中存儲包含該token的所有話題ID、該token在各話題中的權重及其他信息;
C2、對新聞網頁建索引;對每個新聞網頁,利用步驟A中產生的特征向量建立索引;所述索引項為特征向量中的token。
步驟D所述對用戶的查詢、計算各話題和新聞網頁排序分數的過程包括:?
D1、用戶輸入查詢后,對查詢進行分詞、分詞結果賦權等處理,產生一個查詢向量,單位為token。
D2、計算相關度;對于話題和常規新聞網頁,分別通過話題索引和新聞網頁索引,計算查詢特征向量和話題或新聞網頁特征向量的余弦相似度,得出查詢與話題或新聞網頁的相關度;?
D3、綜合其他因素計算話題或新聞網頁的排序分數,計算過程中保證話題和新聞網頁的排序分數的可比性。
對步驟E所述檢索結果的排序,由于話題和新聞網頁的排序分數有可比性,既可混合排序也可各自排序;在展示檢索結果時,該話題通過鏈接導入新頁面,包含該話題內的所有新聞以及話題的其他信息。?
本發明所提供的基于話題的新聞檢索裝置及方法,具有以下優點:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210274765.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于空間濾波器的人臉識別方法
- 下一篇:多級存儲的重部署方法及裝置





