[發明專利]一種多網頁新聞評論內容自動精確提取裝置無效
| 申請號: | 201310289400.4 | 申請日: | 2013-07-11 |
| 公開(公告)號: | CN103488675A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 王巍;楊武;苘大鵬;玄世昌;談亞洲;申國偉 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 新聞 評論 內容 自動 精確 提取 裝置 | ||
技術領域
本發明屬于多網頁動態文字內容自動精確提取領域,特別涉及一種提取各大門戶網站或者論壇動態生成的評論,為分析網絡輿情提供資源庫的自動精確提取出所需信息內容的裝置。
背景技術
Ajax是Asynchronous?Javascript+XML的縮寫。Ajax技術的基本思想是允許一個互聯網瀏覽器向一個遠程頁面發出異步的HTTP調用,并且用返回的結果更新當前顯示數據的部分Web頁面而不必刷新整個頁面。Ajax的核心是Javascript對象XmlHttpRequest。它是一種支持異步請求的技術,使用XmlHttpRequest可以向服務器提出請求并處理響應,而不阻塞用戶對網頁其它內容的訪問請求,頁面無需整體刷新,在頁面內與服務器通信。該技術能夠改善客戶端的體驗,使得HTTP頁面外觀與使用感覺很類似于Windows桌面應用程序。同時使用異步方式與服務器通信,不需要打斷用戶的操作,具有更加迅速的響應能力,可以把以前一些服務器負擔的工作轉到客戶端,利用客戶端閑置的處理能力,該技術已經被標準化并得到廣泛支持,不需要下載額外的插件或者支持程序。
鑒于Ajax的多種優點,包括新浪、搜狐、網易、騰訊在內的各大門戶網站不約而同地使用這項技術來支持各自的查看評論的功能。門戶網站的新聞每天都會收到數量龐大的網民的評論,這些評論涵蓋了時事、經濟、電子產品等各個領域,如果能夠自動收集來自于這些網站的新聞評論,便可以為從不同角度對網民的輿情進行分析提供資源。對于商家來說,獲得民眾對于其產品的全面回饋無疑是一件非常有利的事情。對于掌握民眾對時事的輿論趨勢,網絡評論也是非常重要的資料來源。因為門戶網站的各個新聞版塊相互獨立,比如:經濟、文化、體育等,評論也是各自獨立成塊的,所以只需要把各個版塊的鏈接中對應的評論提取出來,不需要其他的分類,就可以得到該版塊網民的評論。
在動態內容提取方面已經申請的專利有申請號為200910133630.5的專利《一種Ajax網頁內容的抓取方法及系統》。該專利中的方法可以提取到部分動態網頁的內容。對于內容不是通過用戶的點擊、選擇來獲取的動態網頁,該方法就不能獲得網頁內容了。此外,該方法及系統需要分析繁瑣的Javascript代碼來確定哪個函數是調用Ajax來進行通信的。同時,對于瀏覽器模擬工具來說,并不是點擊后獲得網頁的內容就可以得到網頁動態生成的內容,需要設置等待網頁執行完所有的Javascript代碼,內容才能完全被瀏覽器模擬工具獲得到,該方法中沒有涉及相關技術。
發明內容
本發明的目的在于提供一種多網頁新聞評論內容自動精確提取裝置。
本發明的目的是這樣實現的:
多網頁新聞評論內容自動精確提取裝置,包括動態內容URL收集裝置、網頁預處理裝置、數據獲取裝置、數據自動化提取裝置和輸出裝置,觀察需要提取評論的網頁的HTML標簽結構,設計提取靜態網頁內容的模板,動態內容URL收集裝置從新聞評論網頁URL隊列中獲取URL,根據URL的來源進行分類并存儲;網頁預處理裝置將已經對應描述模板的網頁直接交給數據獲取裝置,將還沒有對應描述模板的網頁,提取網頁的完整標簽、尋找包含有價值信息的標簽,運用模擬工具提供的接口精確提取模板并保存,將新聞評論的第一頁URL交給數據獲取裝置;數據獲取裝置實例化瀏覽器對象,設置瀏覽器對象等待網頁中所有Javascript的時間閾值,設置Ajax的通信方式,使異步的Ajax通信同步化,使瀏覽器對象直接接收Ajax的響應,與服務器進行同步通信,使用設置完的瀏覽器對象對URL進行內容提取;數據自動提取裝置根據URL的來源選擇信息提取時使用的模板,根據模板進行信息的精確提取,將提取出來的信息傳遞給信息存儲裝置,判斷當前頁碼是否為最后一頁,若不是則進行翻頁操作,繼續提取信息;信息存儲裝置接收數據提取裝置傳送的信息,對信息進行分類存儲。
設計提取靜態網頁內容的模板時對于可以查看源碼的網頁,直接使用瀏覽器模擬工具的接口制作模板;對于不能查看源碼的網頁,使用瀏覽器模擬工具獲得網頁的HTML標簽結構,然后利用瀏覽器工具的接口制作模板。
內容提取的過程中,對于不引用他人評論的評論,可以直接進行提取;對于引用他人評論的評論,根據引用他人評論的評論中的特殊標簽進行判斷,提取該條評論的實際內容,剔除引用的評論內容。
時間閾值大于瀏覽器工具執行完URL對應的Javascript所需的時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310289400.4/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





