[發明專利]一種實時新聞的展現裝置及其方法無效
申請號: | 201210360101.0 | 申請日: | 2012-09-25 |
公開(公告)號: | CN102929932A | 公開(公告)日: | 2013-02-13 |
發明(設計)人: | 李德聰;楊青;方慶安 | 申請(專利權)人: | 人民搜索網絡股份公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 程殿軍 |
地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 實時 新聞 展現 裝置 及其 方法 | ||
技術領域
?本發明涉及互聯網數據實時處理和展現技術,特別涉及一種實時新聞的展現裝置及其方法。
背景技術
?隨著以互聯網為代表的信息技術的快速發展,信息的數量越來越大、傳播速度越來越快,影響范圍越來越廣。互聯網已能夠與報紙、電視等傳統媒介并駕齊驅,成為新聞傳播的主要媒介之一。然而,傳統新聞網站不能展示新聞動態更新的過程,或者只能展示本網站采編的新聞的動態更新過程,因此,并沒有充分發揮出互聯網新聞實時、快速的優勢。
發明內容
?有鑒于此,本發明的主要目的在于提供一種實時新聞的展現裝置及其方法,以展示全網環境下以及各個領域內新聞動態更新的過程,增強互聯網新聞報道的實時性。
為達到上述目的,本發明的技術方案是這樣實現的:
一種實時新聞的展現裝置,主要包括新聞采集和預處理模塊、新聞分頻道模塊、實時新聞處理模塊、實時新聞存儲模塊和前端模塊;其中:
新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理;
新聞分頻道模塊,用于對所采集的新聞劃分頻道;
實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區;
實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號;
前端模塊,用于滾動展示所述的實時新聞。
一種實時新聞的展現方法,包括:
A、實時采集新聞并進行預處理;
B、對所采集的新聞進行分頻道,即對所采集的新聞按主題類別進行自動化分類;
C、將所采集的新聞進行處理,并按其頻道標簽分別存儲于相應的存儲區;
D、存儲新聞并實時更新前端模塊,滾動展示所述的實時新聞。
其中:步驟A所述實時采集新聞并進行預處理的過程,具體包括:
A1、通過爬蟲采集目標網站列表中的網頁頁面;
A2、對所采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間的信息,并組織成結構化信息
A3、根據所述的標題和正文,分別記錄簽名。
其中,步驟A3?所述的簽名的特點是:對于相似度較高的文本,產生相同的簽名。
步驟B所述對采集的新聞分頻道即分類的過程為:
采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、url的特征,并結合預設的規則,判定當前周期內所采集到的各網頁是否屬于新聞,如果是,則判其歸屬其中的一個頻道,并填寫頻道標簽;否則,不處理。
所述頻道分為國內、國際、社會、財經、體育、娛樂、汽車、科技和互聯網類,以及焦點頻道。
步驟C所述對所采集的新聞進行處理的過程,包括:
C1、獲取當前周期內的所采集的新聞,根據新聞標題簽名、正文簽名信息,與當前維護的實時新聞簽名集合比對,進行去重;
C2、對各頻道隊列的可寫拷貝進行加寫鎖,并將各可寫拷貝內超過預設時長的過時新聞刪除;
C3、根據新的新聞的頻道標簽,將其分別加入各頻道的可寫拷貝中,并將各可寫拷貝內的新聞按時間進行倒序排序,然后解除寫鎖。
步驟D所述更新前端模塊并滾動展示所述實時新聞的過程為:
D1、找到指定頻道的隊列,對當前可讀拷貝加讀鎖;
D2、從可讀拷貝讀取前N條新聞,解除讀鎖;
D3、更新前端模塊中的實時新聞列表;其中,N為自然數。
所述的步驟A~步驟D均需周期性執行。
本發明所提供的實時新聞的展現裝置及其方法,具有以下優點:
可以把新發生的全網范圍內網絡新聞即時展現給用戶,使用戶直觀感受全網新聞以及各頻道內的新聞動態更新的過程。
本發明通過維護一定長度的時間有序隊列,基本上克服了新聞爬取順序和實際發布順序不一致的問題。
附圖說明
圖1為本發明實施例的實時新聞的展現裝置的組成示意圖;
圖2為本發明實施例的實時新聞的展現方法的總體流程圖;
圖3為本發明的實時采集新聞和預處理流程圖;
圖4為本發明的實時新聞處理流程圖;
圖5為本發明的實時新聞存儲流程圖。
具體實施方式
下面結合附圖及本發明的實施例對本發明的裝置及其方法作進一步詳細的說明。
圖1為本發明實施例的實時新聞的展現裝置的組成示意圖,如圖1所示,其主要包括:
新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210360101.0/2.html,轉載請聲明來源鉆瓜專利網。