[發明專利]一種基于命名實體識別的中標數據提取方法在審
| 申請號: | 201811313636.6 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109408825A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 楊紅飛 | 申請(專利權)人: | 杭州費爾斯通科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜;邱啟旺 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名實體 數據提取 準確率 文本 閉環流程 表格數據 公告網頁 關鍵信息 規則篩選 結果校對 提取信息 文本數據 校對結果 信息提取 單元格 數據量 數據源 保留 | ||
本發明公開了一種基于命名實體識別的中標數據提取方法,從中標公告網頁的HTML解析成文本,到文本中提取所需的關鍵信息,再到提取結果校對,最后校對結果再反哺到提取上,形成一個閉環流程;在提取信息中結合了命名實體識別與規則篩選,提高中標機構的提取率,且針對不同的數據源,所需的改動較少;該方法在把難以處理的表格數據轉為易于識別的普通文本數據的同時,盡可能保留了與信息提取相關的各個單元格間的關系,這是后續中標機構、中標標的與中標金額得以高準確率提取的主要因素。該方法可操作性強,隨著處理過的數據量的增長,最終會得到較高的提取率與準確率。
技術領域
本發明涉及數據處理領域,尤其涉及一種基于命名實體識別的中標數據提取方法。
背景技術
中標數據提取是一類高效利用文本數據的任務,隨著各級政府進一步加大信息公開力度,越來越的中標數據處于可利用狀態,也由于數據量大,且數據呈現形式眾多,這一類數據還有待進一步加工利用。
當前有通過DOM樹對HTML數據直接進行解析的方法(參考專利:一種基于DOM樹的招標網站中標信息抽取方法),所需的信息都提取于DOM樹的節點上;其中,DOM是文檔對象化模型(Document Object Model)的簡稱,DOM Tree指通過DOM將HTML頁面進行解析,并生成的HTML tree樹狀結構和對應訪問方法。
也有利用二階HMM對中標網頁進行命名實體提取的方法(參考專利:一種基于二階HMM的中標網頁命名實體抽取方法),其通過文本上下文及HTML標簽作為數據,使用二階HMM進行序列標注;其中,命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等;隱馬爾可夫模型(Hidden Markov Model,HMM)是一種統計模型,用來描述一個含有隱含未知參數的馬爾可夫過程。
現有的中標數據提取方法一般都缺乏系統性,很難有持續迭代優化的趨勢,且使用條件較為限制,從而導致通用性較差。
發明內容
在中標數據提取任務中,現有的方法或依賴于規則提取,或側重于算法提取,這直接反映在提取效果不夠好,且沒有持續優化的趨勢,本發明針對以上問題提出一種基于命名實體識別的中標數據提取方法,從HTML解析成文本,到文本中提取所需的關鍵信息,再到提取結果校對,最后校對結果再反哺到提取上,形成一個閉環流程;在提取信息中結合了命名實體識別與規則篩選,提高中標機構的提取率,且針對不同的數據源,所需的改動較少。
本發明的目的是通過以下技術方案來實現的:一種基于命名實體識別的中標數據提取方法,該方法包括以下步驟:
步驟1:獲取中標公告網頁的HTML;
步驟2:解析HTML:
2.1)針對HTML中的文本,獲取標題和其他純文本;
2.2)針對HTML中的表格,首先將其解析為嵌套列表,然后采取如下規則將其解析為純文本:
a)如果首行單元格同時滿足如下三個條件,則更新除首行外的單元格內容:單元格內容=首行單元格內容+“是”+單元格內容;
A.沒有冒號
B.沒有特定詞
C.沒有機構實體
b)依次對每行的單元格以“;”進行拼接;再對所有行以“。”進行拼接;
2.3)將解析得到的標題、純文本和解析后的表格按其出現順序拼接為全文;
步驟3:從步驟2得到的標題中提取項目名稱以及公告類型;從標題下文提取公告時間;從步驟2得到的全文中提取中標總金額;
步驟4:根據文本順序,依次掃描每句話:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州費爾斯通科技有限公司,未經杭州費爾斯通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811313636.6/2.html,轉載請聲明來源鉆瓜專利網。





