[發(fā)明專利]一種基于語義相似分析的圍串標智能識別方法有效
| 申請?zhí)枺?/td> | 202010038033.0 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111274783B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設計)人: | 謝榮偉;韓衛(wèi)民;陸志浩;馬仲能;黃康君 | 申請(專利權(quán))人: | 廣東電網(wǎng)有限責任公司廣州供電局 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30;G06F40/284 |
| 代理公司: | 武漢天領(lǐng)眾智專利代理事務所(普通合伙) 42300 | 代理人: | 高蘭 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 相似 分析 圍串標 智能 識別 方法 | ||
本發(fā)明涉及一種基于語義相似分析的圍串標智能識別方法,先計算關(guān)鍵詞相似性、文本統(tǒng)計相似性及章節(jié)綜合語義相似性,再結(jié)合這三個維度的權(quán)重,通過這三個維度的加權(quán)平均計算得到兩份投標文件的綜合相似度,進而判斷是否圍串標。本申請采用的圍串標識別方法,通過人工智能語義分析技術(shù)深度解讀不同公司的投標文件的相似特征,從統(tǒng)計特征層面與內(nèi)容語義表達層面多角度分析圍串標的疑似可能性,可靠性強,效率高,同時推動了人工智能技術(shù)在電力行業(yè)圍串標分析中的智能應用。
技術(shù)領(lǐng)域
本發(fā)明涉及信息技術(shù)和人工智能領(lǐng)域,特別是涉及一種基于語義相似分析的圍串標智能識別方法。
背景技術(shù)
電力行業(yè)實際招投標過程中,經(jīng)常會出現(xiàn)一些圍標串標行為,此類行為會引起企業(yè)采購成本上升、產(chǎn)品質(zhì)量以及履約風險等問題。由于目前采購過程中招投標文件中非結(jié)構(gòu)化數(shù)據(jù)占比較高,這些文件有明顯相同之處,或者多處雷同,可以作為串標圍標判定的重要依據(jù)。現(xiàn)階段圍串標的識別分析工作主要受制于人工識別效率低下以及一些主觀判定因素,缺乏一定的客觀性和規(guī)范化標準,因此有必要提出一種非結(jié)構(gòu)化文本數(shù)據(jù)的自動分析方法針對招投標文件進行圍串標分析。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的上述不足,本發(fā)明提出了一種基于語義相似分析的圍串標智能識別方法,解決現(xiàn)有人工識別圍標串標效率低,且主觀判定因素大的技術(shù)問題。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
一種基于語義相似分析的圍串標智能識別方法,具體包括以下步驟:
S1:計算關(guān)鍵詞相似性:利用TextRank算法分別從兩份投標文件中抽取若干關(guān)鍵詞,每一份投標文件的一系列關(guān)鍵詞構(gòu)成關(guān)鍵詞集合,利用兩份投標文件對應關(guān)鍵詞集合的交集比例計算杰卡德距離,得到兩份文件的關(guān)鍵詞相似度;
S2:計算文本統(tǒng)計相似性:過濾文件中的停用詞、行業(yè)專用詞,再利用tf-idf計算方法提取統(tǒng)計權(quán)重特征向量,并計算特征向量之間的余弦相似性;
S3:計算章節(jié)綜合語義相似性:先計算每個章節(jié)特征向量的余弦相似性,再結(jié)合每個章節(jié)的權(quán)重,得到兩份投標文件的章節(jié)綜合語義相似度;
S4:計算綜合相似度:根據(jù)經(jīng)驗設計關(guān)鍵詞相似性、文本統(tǒng)計相似性及章節(jié)綜合語義相似性這三個維度的權(quán)重,通過這三個維度的加權(quán)平均計算得到兩份投標文件的綜合相似度,進而判斷是否圍串標。
進一步的,S2中過濾停用詞、行業(yè)專用詞的步驟是:
S21:根據(jù)人工經(jīng)驗和分詞統(tǒng)計方法,構(gòu)建停用詞庫、行業(yè)專用詞庫;
S22:采用jieba分詞對文件進行分詞處理,然后將每一個分詞分別與停用詞庫、行業(yè)專用詞庫中的詞進行比較,如果是停用詞庫、行業(yè)專用詞庫的詞則刪除,以此循環(huán)刪除所有的停用詞、行業(yè)專業(yè)詞。
進一步的,S3中每個章節(jié)特征向量的余弦相似性的具體計算步驟如下:
S31:利用WORD2VEC技術(shù)對歷史所有投標文件進行詞向量訓練;
S32:將兩份投標文件中每個章節(jié)的停用詞、行業(yè)專用詞過濾掉,得到的剩下詞語,獲取詞向量取平均值得到章節(jié)內(nèi)容的向量特征,再計算每個章節(jié)特征向量的余弦相似性。
進一步的,S3中每個章節(jié)的權(quán)重是根據(jù)經(jīng)驗設計的。
進一步的,S4中關(guān)鍵詞相似性、文本統(tǒng)計相似性及章節(jié)綜合語義相似性這三個維度的權(quán)重之和為1。
進一步的,S4中判斷是否圍串標的具體步驟是:將計算的綜合相似度值與設置的相似度閾值進行比較,如果綜合相似度值超過閾值,則兩份文件有圍串標嫌疑,進行預警。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電網(wǎng)有限責任公司廣州供電局,未經(jīng)廣東電網(wǎng)有限責任公司廣州供電局許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038033.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





