[發明專利]一種用于Web對象信息抽取的增強約束條件隨機場模型在審
| 申請號: | 201410126652.X | 申請日: | 2014-03-31 |
| 公開(公告)號: | CN103870596A | 公開(公告)日: | 2014-06-18 |
| 發明(設計)人: | 梁久禎;黃彥姣 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 214122 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 web 對象 信息 抽取 增強 約束條件 隨機 模型 | ||
【技術領域】
本發明涉及網頁信息抽取領域,特別涉及一種用于Web對象信息抽取的增強約束條件隨機場模型。
【背景技術】
互聯網是全球規模最大、門類最全的信息共享平臺,它涵蓋了各個領域的大量有價值的信息。信息抽取技術的本質是從網頁的半結構或無結構的信息中抽取出用戶感興趣的信息,并將其轉化為結構更加合理、語義更加清晰的格式。比如可以從美食餐飲網頁中抽取飯店的名字、地址、電話、平均消費等信息,并將這些信息以結構化的方式存儲到數據庫中,進而滿足人們對美食領域相關信息的搜索需求。
近年來,統計學習(又稱統計機器學習)方法成為信息抽取領域中常用的方法,主要的統計模型有隱馬爾可夫模型(Hidden?Markov?Models,HMM)、最大熵模型Maximum?Entropy,ME)、條件隨機場模型(Conditional?Random?Fields,CRFs)等。
不幸的是,隱馬爾可夫模型可用來描述一個隱含未知參數的馬爾可夫過程,但它具有產生式模型的局限性,不能反映訓練數據本身的特性。最大熵模型(中每個狀態都有一個指數模型作為下一個狀態的條件概率,但存在標簽偏置問題。條件隨機場模型在處理序列數據分割與標注問題上顯示出了良好的性能。與CRFs相比,層次條件隨機場模型(Hierarchical?Conditional?Random?Fields,HCRFs)能更好的適應網頁數據的層次結構。但是,該模型對Web對象元素之間的條件依賴關系沒有良好的適應。約束條件隨機場模型(Constrained?Conditional?Random?Fields,CCRFs),將某些類型的約束條件引入條件隨機場中,但是這些約束僅限于強制標注某些特定的數據元素是否為某些特定標簽,不能充分的利用Web數據元素和標注屬性之間強烈的特征關系。
【發明內容】
為了克服上述現有的統計模型存在的不足,本發明一種用于Web信息抽取的增強約束條件隨機場模型,能夠改進一般現有的統計模型的不足,使其能有效地解決Web對象信息抽取問題。
本發明的目的在于提供一種用于Web信息抽取的增強約束條件隨機場模型,準確地求出標注序列的概率分布,并利用概率分布的計算結果得到輸出序列,提高Web信息屬性標注的正確率。
為了達到本發明的目的,根據本發明的一個方面,本發明提供一種增強約束條件隨機場模型,該模型將可信約束條件c引入條件隨機場形成約束條件隨機場,并利用增強因子b對約束條件隨機場進行增強,計算出標注序列Y的概率分布p(Y|X,c)。
在給定觀測序列X=(X1,X2,...,Xn)和約束c的條件下,標注序列為Y=(Y1,Y2,...,Yn)的正確率測度A(Y,Yr)表示狀態標注序列Y中標注正確的元素個數,可通過計算每個元素正確率Ai(Y)之和而得到,Ai(Y)表示為:
利用大間隔思想將增強因子b,與正確率測度A(Y,Yr)引入概率分布的計算能夠有效地提高模型屬性標注的正確率。
進一步的,歸一化因子Z(Xr,c)可以在所有可能的輸出序列Y上求和得到,即
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410126652.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





