[發明專利]一種特定領域信息自動化組織的裝置及其方法無效
| 申請號: | 201210357548.2 | 申請日: | 2012-09-24 |
| 公開(公告)號: | CN102890715A | 公開(公告)日: | 2013-01-23 |
| 發明(設計)人: | 李德聰;楊青 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 程殿軍 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 領域 信息 自動化 組織 裝置 及其 方法 | ||
技術領域
?本發明涉及機器學習與信息檢索技術,尤其涉及一種特定領域信息自動化組織的裝置及其方法。
背景技術
隨著互聯網的高速發展,網絡信息越來越豐富和日益多元化,但,同時也意味著如果用戶想全面而系統地獲得某一類特定信息,將不得不花費更多的時間和精力從信息海洋中進行篩選,并自行進行組織和梳理。
為此,一些互聯網信息提供商做了這方面的嘗試,例如:各大門戶網站提供了分頻道的新聞;針對某一重大事件提供專題報道等,但這些產品很大程度上依賴于人工篩選和編輯,展現形式也往往是單條的新聞、圖片等,形式也較為單一。
近年來,機器學習技術(包括分類、聚類等技術)和信息檢索技術得到快速發展,同時隨著計算機性能的不斷提高,為自動化篩選某一特定領域的信息,并進行有效組織和檢索功能提供了技術實現的可能。
發明內容
?有鑒于此,本發明的主要目的在于提供一種特定領域信息自動化組織的裝置及其方法,以實現機器對信息的分類、聚類和檢索,使其在互聯網海量信息的環境中,自動篩選出某一特定領域的信息,并實現有效組織和檢索功能。
為達到上述目的,本發明的技術方案是這樣實現的:
一種特定領域信息自動化組織的裝置,該裝置主要包括新聞采集模塊、新聞篩選模塊、新聞話題檢測模塊、后臺信息緩存模塊、特定領域信息采集模塊、索引模塊以及檢索模塊;其中:
新聞采集模塊,用于采集網絡新聞;
新聞篩選模塊,從采集的新聞中篩選出特定領域的新聞;
新聞話題檢測模塊,對特定領域的新聞進行話題檢測;
后臺信息緩存模塊,緩存按話題組織的特定領域的新聞,以備前端模塊隨時訪問;
特定領域信息采集模塊,從設定的網站采集該特定領域的信息;
索引模塊,對新聞和特定領域的信息建立索引
檢索模塊,對用戶輸入的查詢進行處理并查詢索引,并整理檢索結果。
其中:所述裝置進一步包括前端模塊,用于展示直接面向用戶的信息并接收用戶的請求。
所述特定領域,包括使用者希望通過互聯網去搜集的信息領域。
所述的特定領域信息采集模塊采集的信息,具體為:從設定的網站采集的不合格食品的信息。
一種特定領域信息自動化組織的方法,主要包括如下步驟:
A、信息采集的步驟,從網絡采集新聞和特定網站的結構化信息;
B、信息篩選的步驟,對所采集的新聞自動篩選,得出特定領域的新聞;
C、話題檢測的步驟,對特定領域的新聞進行聚類,組織成話題展示;
D、建立索引的步驟,對特定領域的新聞和特定網站的結構化信息建立索引,以供檢索。
其中:步驟A主要包括:
采集網絡新聞,即采用網絡爬蟲采集各類新聞網站的新聞,并將其轉化為結構化信息;以及
采集特定網站的結構化信息,即從特定網站采集特定領域的信息,也將其轉化為結構化信息。
步驟B所述對所采集的新聞自動篩選,主要采用預先專門訓練的樸素貝葉斯分類器,以抽取網頁的標題、正文、url的特征,并結合相關規則,判定新采集到的新聞是否屬于特定領域類的新聞。
步驟C主要包括:
C1、去除長時間沒有變化的話題;
C2、對本周期內進入的各條新聞抽取特征,并構造成用于描述該新聞的基于向量空間模型的特征向量;
C3、對所述生成的一批特征向量進行層次聚類,聚類算法采用非加權組中心UPGMC算法,將聚類結果中的每個集合即簇均擁有一個中心向量,并計算余弦相似度;
C4、對所述的每一個簇,找出與該簇的相似度最大的話題;如果該相似度大于預定閥值,將該簇合并到該話題中,并修正其中心向量和更新時間;否則,將該簇視為一個新的話題,其誕生時間和更新時間為系統當前時間;
C5、對所有話題再進行一次UPGMC層次聚類,聚類結果的所有簇即為本周期結束后本的全部話題。
步驟D包括:對所述特定領域的新聞和所述特定領域類的信息建立索引。
本發明所提供的特定領域信息自動化組織的裝置及其方法,具有以下優點:
在互聯網海量信息的環境中,實現自動化篩選出某一特定領域的信息,并對這些信息實現了按話題組織和展現,同時還提供傳統文本信息和特殊結構化信息的檢索功能。使用戶省去了篩選、梳理、尋找特定領域信息的麻煩。
附圖說明
圖1為本發明實施例的食品安全類信息自動化組織的裝置的結構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210357548.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種排列式袋裝用品包裝盒
- 下一篇:一種紙桶的加工工藝
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





