[發明專利]一種WEB信息抽取方法無效
| 申請號: | 201210490141.7 | 申請日: | 2012-11-27 |
| 公開(公告)號: | CN103020170A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 宗競 | 申請(專利權)人: | 江蘇樂買到網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州威世朋知識產權代理事務所(普通合伙) 32235 | 代理人: | 楊林潔 |
| 地址: | 215123 江蘇省蘇州市蘇州工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 信息 抽取 方法 | ||
技術領域
本發明屬于計算機網絡技術領域,尤其涉及一種網絡中WEB信息抽取方法。
背景技術
伴隨著Internet和計算機的普及和廣泛使用,現實生活中的紙質存檔信息都以電子文檔的形式存儲在計算機和網絡上,同時Internet中產生的數據呈井噴式的增長,各大領域信息均出現在不同站點的Web頁面上和數據庫中。但存儲在不同網點上的網頁信息主要以半結構化或者非結構化的HTML語義的形式出現,因此不能用于直接分析處理。將Web頁面上有用的數據提取出來,是如今網絡輿情分析系統方面的研究熱點。隨著網絡購物的發展,對Web頁面信息的抽取技術提出的更高的要求。
Web信息抽取技術(Information?Extraction)就是把網頁里包含的某些特定信息如用戶名、發表時間、IP地址、正文、評論、商品價格等信息抽取出來,進行結構化處理,組織成表格一樣的形式存入數據庫中。信息抽取系統的主要功能是從文本中抽取出符合特定目標的事實信息。通常,被抽取出來的信息的描述形式為結構化的數據結構,可以直接存入數據庫中,供用戶查詢以及進一步的分析利用。信息抽取技術的初始研究開始于20世紀60年代,這個時期主要的研究是提取自然語言文本。
隨著Web技術的快速發展,網絡用戶可以自由的針對特定的事件或對象在網頁中發表自己的觀點和看法,這使得網絡用戶評論以驚人的速度增長并且覆蓋了現實世界的各個領域,如經濟、政治、娛樂、網絡購物等。網絡用戶發表的評論信息是許多應用的重要信息來源,如網絡輿情的檢測與分析,這些應用需要一種準確高效的方法從大量不同的網站中收集輿情信息。
隨著國家對互聯網安全的重視,涌現出了網絡攻擊、輿情、郵件等各層面的監控分析系統,為網絡有害事件的發現、處理和評估提供了有力支持。但因這些信息具有海量性、定向性和復雜性等特點,除發現能力外,這些系統對有害事件的調查、取證等能力有限,目前仍然是依賴人工進行用戶行為重建,辦案效率低、周期長,只能采取重點突破的方式。
現有的技術中對網絡組織的研究很少,缺乏相應的技術監控手段支持,人工分析更無法滿足網絡組織這種大范圍、有組織、長程關聯的行為分析,現有的網絡組織發現技術零散的分布在輿情分析產品和文獻中。
為此需要對這些監控數據進行綜合分析。Web信息抽取技術的研究是對這些數據進行綜合分析的一個基礎性工作。只有將Web網頁中的相關信息很好的抽取出來,才能在輿情分析、搜索引擎等方面得到更好的應用。通過利用IP地址、采集信息、賬戶資料、頁面分析、使用時間、發布周期、地理分布、信息傾向性等多元數據進行信息抽取和特征分析,從而可以為決策人員提供更豐富的、多視角的、綜合的調查材料。
發明內容
為了克服上述背景技術中的不足之處,本發明提出了一種web信息抽取方法,該方法基于語義標記,包括正文抽取方法和評論抽取方法,其特征在于包括所述正文提取方法分成以下步驟實現:
第一步,設從線性序列的頭開始順序遍歷,遇到第一個F2評論屬性的語義標記停止,則最后一個F2正文屬性的語義標記節點的位置為POSlast,第一個具有F3評論屬性的語義標記節點的位置為POSfirst;
第二步,將頁面線性序列中0..POSfirst-1的子序列設為初始正文區,在該區域內選擇一個信息量最大的文本塊作為正文內容,設該正文內容節點對應的位置為POSarticle;
第三步,將調整后的正文區序列區間的終止位置設置為POSlast=max(POSlast,POSarticle);
第四步,評論區序列區間的起始位置設置為POSfirst=max(POSlast,POSarticle)+1,從而完成正文區和評論區的切分;
其中,F2是表示正文結束特征的語義標記,?F3是表示評論開始特征的語義標記。
根據本發明的技術方案,還包括所述評論抽取方法具體包括步驟:
(1)多條評論的抽取模型,確定評論區后,評論區內線性序列的語法模型就簡化為F3*?(F3*CRF3*)*F4,該模式反映評論區的多條評論具有周期性重復的特征;
(2)評論抽取方法,依據上面OneReview的初始區間確定和起始位置計算的思想,已經可以確定一條評論回復序列的完整區間模式,進而就可以利用這個模式序列去識別評論區的所有其他評論;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇樂買到網絡科技有限公司,未經江蘇樂買到網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210490141.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





