[發明專利]一種多網頁新聞評論內容自動精確提取裝置無效
| 申請號: | 201310289400.4 | 申請日: | 2013-07-11 |
| 公開(公告)號: | CN103488675A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 王巍;楊武;苘大鵬;玄世昌;談亞洲;申國偉 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 新聞 評論 內容 自動 精確 提取 裝置 | ||
1.一種多網頁新聞評論內容自動精確提取裝置,包括動態內容URL收集裝置、網頁預處理裝置、數據獲取裝置、數據自動化提取裝置和輸出裝置,其特征在于:觀察需要提取評論的網頁的HTML標簽結構,設計提取靜態網頁內容的模板,動態內容URL收集裝置從新聞評論網頁URL隊列中獲取URL,根據URL的來源進行分類并存儲;網頁預處理裝置將已經對應描述模板的網頁直接交給數據獲取裝置,將還沒有對應描述模板的網頁,提取網頁的完整標簽、尋找包含有價值信息的標簽,運用模擬工具提供的接口精確提取模板并保存,將新聞評論的第一頁URL交給數據獲取裝置;數據獲取裝置實例化瀏覽器對象,設置瀏覽器對象等待網頁中所有Javascript的時間閾值,設置Ajax的通信方式,使異步的Ajax通信同步化,使瀏覽器對象直接接收Ajax的響應,與服務器進行同步通信,使用設置完的瀏覽器對象對URL進行內容提取;數據自動提取裝置根據URL的來源選擇信息提取時使用的模板,根據模板進行信息的精確提取,將提取出來的信息傳遞給信息存儲裝置,判斷當前頁碼是否為最后一頁,若不是則進行翻頁操作,繼續提取信息;信息存儲裝置接收數據提取裝置傳送的信息,對信息進行分類存儲。
2.根據權利要求1所述的一種多網頁新聞評論內容自動精確提取裝置,其特征在于:所述設計提取靜態網頁內容的模板時對于可以查看源碼的網頁,直接使用瀏覽器模擬工具的接口制作模板;對于不能查看源碼的網頁,使用瀏覽器模擬工具獲得網頁的HTML標簽結構,然后利用瀏覽器工具的接口制作模板。
3.根據權利要求1或2所述的一種多網頁新聞評論內容自動精確提取裝置,其特征在于:所述內容提取的過程中,對于不引用他人評論的評論,可以直接進行提取;對于引用他人評論的評論,根據引用他人評論的評論中的特殊標簽進行判斷,提取該條評論的實際內容,剔除引用的評論內容。
4.根據權利要求3所述的一種多網頁新聞評論內容自動精確提取裝置,其特征在于:所述的時間閾值大于瀏覽器工具執行完URL對應的Javascript所需的時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310289400.4/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





