[發明專利]一種基于數據挖掘的工程國家標準數據庫自適應構建方法在審
| 申請號: | 202010439242.6 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111931021A | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 朱全銀;申奕;王夢迪;周泓;莊軍;馮萬利;馬甲林;周蕾;馬思偉;曹猛;李佳冬;朱良生;宋厚厚;胡凌宇;閆康 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 工程 國家標準 數據庫 自適應 構建 方法 | ||
發明公開了一種基于數據挖掘的工程國家標準數據庫自適應構建方法,使用網絡爬蟲技術與BloomFilter自適應算法相結合,通過選取最優的哈希函數個數,從獲取到的國家規范鏈接數據集standard_URL中,快速判斷鏈接是否已被爬取,找出新增的國家規范鏈接數據集update_URL。同時在網絡爬蟲技術的基礎上,對非結構化建筑規范數據進行采集,其中包含文本數據集text和“圖像”形式的“文本+表格”混合數據集img,然后利用圖像識別技術,對混合數據集img中文本數據與表格數據分別處理,得到文本數據集Text與表格數據集table。本發明改變了傳統查詢國家標準規范的方式,方便審圖專家快速查閱相關國家標準規范和建筑強條,可有效減少審圖人員的工作量,節約大量時間。
技術領域
本發明屬于數據挖掘和文字識別領域,特別涉及一種基于數據挖掘的工程國家標準數據庫自適應構建方法。
背景技術
在建筑信息化大發展時代,建筑業已成為國民經濟支柱產業。但是建筑業同時也面臨著更多的人力需求以及伴隨而來的問題。其中最突出的問題是目前我國審圖工作量大,圖紙數量繁多,項目給的審圖時間短,要求多,占用建筑圖紙審查單位圖紙存儲空間并耗費人力資源。導致審圖專家工作量大。而且查詢建筑標準強條比較困難。圍繞數字化審圖系統的發展與應用,通過國家發布的工程標準,提取其在面積定額、衛生標準、防火措施、技術規定等方面的強制性條文,并設計數據庫將其存儲,利用互聯網技術和數據庫技術的結合使人們在任意時間任意地點訪問數據庫成為可能。有效的提高了審圖專家審圖的效率,減少了審圖的工作量。
朱全銀等人已有的研究基礎包括:朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取算法[J].淮陰工學院學報,2015,24(5):18-24;李翔,朱全銀.聯合聚類和評分矩陣共享的協同過濾推薦[J].計算機科學與探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.ANovel Classifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;QuanyinZhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm.InternationalReview on Computers and Software,2011,Vol.6(6):1089-1093;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類的冷鏈物流配載智能推薦方法.中國專利公開號:CN105654267A,2016.06.08;曹蘇群,朱全銀,左曉明,高尚兵等人,一種用于模式分類的特征選擇方法.中國專利公開號:CN103425994A,2013.12.04;劉金嶺,馮萬利,張亞紅.基于重新標度的中文短信文本聚類方法[J].計算機工程與應用,2012,48(21):146-150.;朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取算法[J].淮陰工學院學報,2015,24(5):18-24;李翔,朱全銀.聯合聚類和評分矩陣共享的協同過濾推薦[J].計算機科學與探索,2014,8(6):751-759;朱全銀,辛誠,李翔,許康等人,一種基于K-means和LDA雙向驗證的網絡行為習慣聚類方法.中國專利公開號:CN 106202480A,2016.12.07。
增量式網絡爬蟲:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010439242.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





