[發明專利]一種基于大數據的招投標審核方法有效
| 申請號: | 201710381502.7 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107239891B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 李晨;朱世偉;魏墨濟;楊子江;趙燕清;李憲毅;楊愛芹;于俊鳳;徐蓓蓓;李思思;劉翠芹;張明君;董婷 | 申請(專利權)人: | 山東省科學院情報研究所 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/06;G06F16/955 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 投標 審核 方法 | ||
1.一種基于大數據的招投標審核方法,其特征在于,通過以下步驟來實現:
a).招投標信息的采集,以采購網及各類招投標網為信息源,獲取招標、中標、廢標流標及信息更正四類公告的列表入口URL地址;然后將此四類公告的入口URL地址交由分布式網絡爬蟲進行信息采集,并為網絡爬蟲配置時長不大于1天的采集周期;
b).信息的提取,首先將網絡爬蟲采集的非結構化網頁數據中的廣告、友情鏈接、同類推薦無關信息過濾掉,以抽取網頁數據中的有效信息;然后從四類公告網頁數據中提取包括項目名稱、項目編號、招標時間、投標時間、投標地點、開標時間、開標地點、預算金額、采購單位、采購單位聯系人、采購單位聯系方式、采購單位地址、代理機構、代理機構聯系人、代理機構聯系方式、代理機構地址、采購內容、附件文檔在內的信息,每個信息定義一個指標,所有的指標組成指標列表;
c).信息的清洗和存儲,招投標的信息是不定時發布的,網絡爬蟲的采集頻率會高于招投標信息更新的最大頻率,在采集過程中會出現采集到重復信息的情形;網絡爬蟲首先對所要采集網頁的URL地址進行判斷,同一URL地址的信息只需采集存儲一次;
四類公告信息分別使用數據庫中的一個表存儲,招標公告存儲于招標表中,中標公告存儲于中標表中,廢標流標公告存儲于廢標表中,信息更正公告存儲于更正表中;所提取的每一個指標使用結構化數據庫中一列存儲,將網頁URL、招投標信息媒體來源、所屬區域、網頁發布時間、網頁采集時間也分別作為指標,存儲于數據庫一列;
d).招標、開標時間審核,對于組織發布的某一投招標信息,判斷其招標公告發布時間是否滿足早于開標時間19日以上,如果滿足,則表明招標和開標的時間符合規定,如果不滿足,則表明招標和開標時間不合規,給出警示信息;
e).中標時間審核,在當前時間與開標時間差不少于10天的基礎上,以項目編號或項目名稱為項目標識,查詢其是否存在于中標表、廢標表或更正表中,如果存在,則表明符合規定;如果不存在,說明在規定時間內項目的招標結果并未公示,不符合規定,給出警示信息;
f).中標次數審核,判斷同一中標單位在相同招標單位的中標數量是否大于用戶預設閾值,以及相鄰兩個中標時間間隔小于用戶預設閾值的次數過多,如果中標數量大于閾值且相鄰中標時間間隔小于閾值的次數過多,則表明存在招標不合規的可能,發出警示信息;
g).中標單位資質審核,判斷中標單位是否存在于采購資質機構中,如果存在,則表明中標單位符合采購資質;如果不能再,則表明中標單位不符合采購資質,發出警示信息;
h).采購內容與經營范圍的審核,判斷中標公告中招標單位的采購內容是否屬于中標單位的經營范圍,如果屬于,則表明中標單位的經營范圍與招標單位的采購內容相匹配;如果不屬于,則表明中標單位的經營范圍與招標單位的采購內容不匹配,發出警示信息;
步驟b)中所述的信息的提取通過以下步驟來實現:
b-1).獲取表格,由于頁面中存在多個表格的情形,通過能夠標識表格屬性的ID、CLASS在多個表格中抽取記錄招投信息的表格;
b-2).表格去噪,將表格中控制頁面顯示格式的DIV、CSS以及與表格無關的噪聲標簽去除,只保留與表格顯示和控制相關的table、tr、td、colspan標簽;
b-3).表格標準化,將表格分割成多行多列的單元格,轉化成簡單表格,使得表格中的每個單元格只占一行一列且只有唯一確定值;
b-4).判斷表格橫豎,發布招投標信息時既可采用將指標放到第一行的橫表,也可采用將指標放到第一列的縱表,在抽取表格信息前需判斷其是橫表還是縱表;取表格的第一行單元格值和第一列單元格值,分別與各個指標進行匹配,比較第一行和第一列單元格值的命中率,若第一行單元格值的命中率高則為橫表,否則為縱表;
b-5).提取鍵值序列,若表格為橫表,則將第一行單元格的值映射到相應的指標,相應列單元格的值即為指標的值,將表格轉化成結構化的鍵值對,進而存儲到結構化數據庫;若表格為縱表,則將第一列單元格的值映射到指標,相應行單元格的值即為指標的值,提取鍵值對存儲到結構化數據庫;
步驟d)中所述的招標、開標時間審核通過以下步驟來實現:
d-1).獲取招標發布時間,由于網絡爬蟲一天內的抓取頻率會大于1次,因此招標公告的采集時間與公告的發布時間最多不會超過一天,故使用網頁的采集時間作為招標公告的發布時間;
d-2).獲取開標時間,招標公告的內容中會直接標明開標時間,通過步驟b)所述的信息提取方法獲取開標時間;
d-3).時間差比較,通過比較招標發布時間與開標時間,判斷開標時間是否早于招標公告發布時間,若是,則發出警示信息,若不是,則計算開標時間與招標公告發布時間的時間差是否大于或等于19天,如果判斷結果為是,則審核通過,否則發出警示信息;
步驟e)中所述的中標時間審核通過以下步驟來實現:
e-1).獲取開標時間,招標公告的內容中會直接標明開標時間,通過步驟b)所述的信息提取方法獲取開標時間;
e-2).獲取當前時間,若當前時間與開標時間的時間差不少于10天,轉入步驟e-3);否則,不作任何操作;
e-3).獲取項目標識,部分招投標網會為項目分配編號作為項目的唯一標識,而部分沒有項目編號信息的招投標網會采用項目名成作為項目的唯一標識;通過步驟b)的信息提取方法在招標公告的內容中獲取項目編號,若獲取到項目編號,則將項目標識定為項目編號,否則通過步驟b)的信息提取方法在招標公告的內容中獲取項目名稱,將項目標識定為項目名稱;
e-4).使用項目標識在中標表中進行檢索,若找到說明招標項目已完成流程審核通過,否則執行步驟e-5);
e-5).使用項目標識在廢標表中進行檢索,若找到說明招標項目由于某種原因作廢,此輪招標流程結束審核通過,否則轉入步驟e-6);
e-6).使用項目標識在更正表中進行檢索,若找到說明招標項目由于某種原因更正了部分信息,此輪招標流程結束審核通過,否則轉入e-7);
e-7).若未在中標表、廢標表和更正表中找到帶有項目標識的項目,說明在規定時間內項目的招標結果并未公示,不符合規定,給出警示信息;
步驟f中所述的中標次數審核通過以下步驟來實現:
f-1).按照中標單位對中標表中的數據進行分組;
f-2).統計同一中標單位中標相同招標單位的次數,設中標次數為Ntender_bid;
f-3).若次數Ntender_bid大于用戶預設閾值α,轉入步驟f-4);
f-4).獲取同一中標單位中標相同招標單位的中標時間列表TimeListbid;
f-5).按照中標時間對TimeListbid列表進行排序;
f-6).從TimeListbid列表的第一個元素起,依次取出TimeListbid列表中相鄰兩個中標時間,比較兩者的時間間隔Intervaladj_bid,若Intervaladj_bid小于用戶預設閾值β,則風險可能計數Nrisk加1;
f-7).迭代步驟f-6),直至取出的兩個元素包含TimeListbid列表的最后一個元素;
f-8).若計數Nrisk大于用戶預設閾值γ,給出警示信息;
步驟g)中所述的中標單位資質審核通過以下步驟來實現:
g-1).在中標表中找出來源是采購網的數據集列表Listgov;
g-2).從Listgov列表中取出一條數據Datagov,并從數據Datagov中取出元素中標單位Elementorg;
g-3).在采購資質機構中查找Elementorg,若未找到說明中標單位不具有資質,給出警示信息;
g-4).迭代步驟g-2)和步驟g-3),直至Listgov列表為空;
步驟h)中所述的采購內容與經營范圍的審核,包括構建采購內容分類模型、構建經營范圍分類模型和采購內容與經營范圍審核,首先按照經營范圍分類大全,將經營范圍劃分為57個類型,并建立分類目錄;具體步驟如下:
構建采購內容分類模型的步驟為:
h-1-1).在分類目錄中選擇一個類型;
h-1-2).根據所選中的類型,人工在招標表中選擇足夠多的采購內容描述及附件文檔作為樣本;
h-1-3).迭代步驟h-1-2)和步驟h-1-3),直至為所有分類目錄選定足夠的樣本;
h-1-4).采用貝葉斯、決策樹和支持向量機中的一種分類算法,為樣本數據構建采購內容分類模型;
構建經營范圍分類模型的步驟為:
h-2-1).在分類目錄中選擇一個類型;
h-2-2).根據所選中的類型,人工選定相應類型足夠多的企業;
h-2-3).針對步驟h-2-2)中選出的每個企業,通過網絡爬蟲模擬瀏覽器交互的方式,使用企業信用信息公示系統中所提供的檢索功能,將企業名稱作為檢索關鍵詞進行查詢,并采集查詢結果網頁;
h-2-4).在采集到的網頁中采用步驟b)中的效信息提取和步驟c)中的結構化信息提取,獲取企業經營范圍作為類型的樣本;
h-2-5).迭代步驟h-2-1)至步驟h-2-4),直至為所有分類目錄選定足夠的樣本;
h-2-6). 采用貝葉斯、決策樹和支持向量機中的一種分類算法,為樣本數據構建經營范圍分類模型;
采購內容與經營范圍審核的步驟為:
h-3-1).在中標表中獲取待審核中標項目的項目標識;
h-3-2).依據項目標識查詢招標表,獲取采購內容和附件文檔;
h-3-3).使用采購內容分類模型對待審核中標項目的采購內容和附件文檔進行分類,獲取待審核中標項目采購內容的類型TypeOrder;
h-3-4).在中標表中獲取待審核中標項目的中標單位;
h-3-5).通過網絡爬蟲模擬瀏覽器交互的方式,使用企業信用信息公示系統中所提供的檢索功能,將中標單位名稱作為檢索關鍵詞進行查詢,并采集查詢結果網頁;
h-3-6).在采集到的網頁中步驟b)中的效信息提取和步驟c)中的結構化信息提取,獲取企業經營范圍;
h-3-7).使用經營范圍分類模型對待審核中標單位的經營范圍進行分類,獲取待審核中標單位經營范圍的類型Typebid;
h-3-8).匹配采購內容的類型TypeOrder和中標單位經營范圍的類型Typebid,若兩者相同審核通過;反之,若兩者不同,給出警示信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省科學院情報研究所,未經山東省科學院情報研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710381502.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





