[發明專利]一種基于知識圖譜的招投標網頁信息解析方法在審
| 申請號: | 201910644807.1 | 申請日: | 2019-07-17 |
| 公開(公告)號: | CN110377758A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 謝振平;馬冬雪;劉淵;詹千熠 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/28;G06F16/953 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉;戴風友 |
| 地址: | 214122 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解析 網頁信息 圖譜 抽取 網頁 自適應能力 編輯距離 領域知識 實用性能 算法過程 網頁元素 語義匹配 語義信息 結構化 構建 文本 引入 分析 | ||
本發明屬于網頁信息解析領域,涉及一種基于知識圖譜的招投標網頁信息解析方法。所述的解析方法通過分析招投標文本的結構特征,然后據此構建招投標領域知識圖譜,引入一種基于編輯距離的招投標網頁元素語義匹配與抽取算法過程,從而實現一種基于知識圖譜的招投標網頁信息解析。本發明所述方法能夠實現對招投標網頁中語義信息的結構化解析抽取,具備較好的網頁自適應能力,能滿足實用性能要求。
技術領域
本發明屬于網頁信息解析領域,涉及一種基于知識圖譜的招投標網頁信息解析方法。
背景技術
如今,互聯網成為了獲取信息資源的主要渠道,招投標活動為企業、用戶提供了大量有價值的數據,解析招投標網頁信息對征信、經濟發展有著重要意義。由于招投標網頁結構復雜,形式靈活,使用現有技術還存在一些不足:①抽取粒度粗糙,無法滿足用戶需求;②正則表達式技術雖能滿足精確需求,但是人工成本較大,適用性低、靈活性差。
發明內容
本發明目的在于解決招投標網頁信息解析效率低下的問題,提供了一種基于知識圖譜的招投標網頁信息解析方法,本發明重在實現對招投標網頁中語義信息的結構化解析。本發明著重考慮兩點:①分析招投標領域文本特征,構建招投標領域的知識圖譜。②通過知識圖譜,實現一種基于編輯距離的招投標網頁元素語義匹配與抽取算法。
本發明的技術方案如下:
一種基于知識圖譜的招投標網頁信息解析方法,第一步:知識圖譜構建:
分析招投標文本的結構特征,在此基礎上構建招投標領域知識圖譜;
第二步:語義信息解析:
將招投標領域知識圖譜結合編輯距離的方法,進行招投標網頁元素語義匹配與抽取,得到招投標網頁中語義信息的結構化解析。
所述的知識圖譜構建步驟包括:
(1)招投標文本結構特征分析:通過學習招投標領域的相關知識,從招投標網頁中分析招投標文本的結構特征;
(2)知識圖譜構建:使用編輯器Protégé構建招投標領域知識圖譜;
(3)知識圖譜存儲:通過對知識圖譜的解析,得到其概念、屬性、層次關系的詞典,并且將其持久化到關系型數據庫中。
所述的語義信息解析步驟包括:
(1)目標語義信息:定義招投標網頁信息結構化解析的目標信息項,即目標語義信息;
(2)預處理:去除招投標網頁信息數據的噪聲;
(3)信息抽取:基于構建的招投標領域知識圖譜,采用編輯距離算法,計算招投標網頁元素語義匹配的相似度,最終解析得到招投標網頁的結構化語義信息。
本發明的效果和益處:
本發明的方法能夠作為解析招投標網頁信息的核心實現方法,解決了招投標網頁信息解析效率低下的問題,實現招投標網頁信息的結構化解析。
附圖說明
圖1招投標網頁解析框架圖。
圖2招投標知識圖譜層次圖。
圖3信息抽取流程圖。
具體實施方式
以下結合技術方案和附圖詳細敘述本發明的具體實施方式。
如圖1所示,本發明提供了一種基于知識圖譜的招投標網頁信息解析方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910644807.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種實時知識圖譜構建系統
- 下一篇:事件關系圖譜構建方法及裝置





