[發明專利]一種實時新聞的展現裝置及其方法無效
申請號: | 201210360101.0 | 申請日: | 2012-09-25 |
公開(公告)號: | CN102929932A | 公開(公告)日: | 2013-02-13 |
發明(設計)人: | 李德聰;楊青;方慶安 | 申請(專利權)人: | 人民搜索網絡股份公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 程殿軍 |
地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 實時 新聞 展現 裝置 及其 方法 | ||
1.一種實時新聞的展現裝置,其特征在于,主要包括新聞采集和預處理模塊、新聞分頻道模塊、實時新聞處理模塊、實時新聞存儲模塊和前端模塊;其中:
新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理;
新聞分頻道模塊,用于對所采集的新聞劃分頻道;
實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區;
實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號;
前端模塊,用于滾動展示所述的實時新聞。
2.?一種實時新聞的展現方法,其特征在于,包括:
A、實時采集新聞并進行預處理;
B、對所采集的新聞進行分頻道,即對所采集的新聞按主題類別進行自動化分類;
C、將所采集的新聞進行處理,并按其頻道標簽分別存儲于相應的存儲區;
D、存儲新聞并實時更新前端模塊,滾動展示所述的實時新聞。
3.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟A所述實時采集新聞并進行預處理的過程,具體包括:
A1、通過爬蟲采集目標網站列表中的網頁頁面;
A2、對所采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間的信息,并組織成結構化信息
A3、根據所述的標題和正文,分別記錄簽名。
4.根據權利要求3所述的實時新聞的展現方法,其特征在于,步驟A3?所述的簽名的特點是:對于相似度較高的文本,產生相同的簽名。
5.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟B所述對采集的新聞分頻道即分類的過程為:
采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、url的特征,并結合預設的規則,判定當前周期內所采集到的各網頁是否屬于新聞,如果是,則判其歸屬其中的一個頻道,并填寫頻道標簽;否則,不處理。
6.根據權利要求5所述的實時新聞的展現方法,其特征在于,所述頻道分為國內、國際、社會、財經、體育、娛樂、汽車、科技和互聯網類,以及焦點頻道。
7.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟C所述對所采集的新聞進行處理的過程,包括:
C1、獲取當前周期內的所采集的新聞,根據新聞標題簽名、正文簽名信息,與當前維護的實時新聞簽名集合比對,進行去重;
C2、對各頻道隊列的可寫拷貝進行加寫鎖,并將各可寫拷貝內超過預設時長的過時新聞刪除;
C3、根據新的新聞的頻道標簽,將其分別加入各頻道的可寫拷貝中,并將各可寫拷貝內的新聞按時間進行倒序排序,然后解除寫鎖。
8.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟D所述更新前端模塊并滾動展示所述實時新聞的過程為:
D1、找到指定頻道的隊列,對當前可讀拷貝加讀鎖;
D2、從可讀拷貝讀取前N條新聞,解除讀鎖;
D3、更新前端模塊中的實時新聞列表;
其中,N為自然數。
9.根據權利要求2、7或8所述的實時新聞的展現方法,其特征在于,所述的步驟均需周期性執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210360101.0/1.html,轉載請聲明來源鉆瓜專利網。