[發明專利]一種基于語義相似分析的圍串標智能識別方法有效
| 申請號: | 202010038033.0 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111274783B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 謝榮偉;韓衛民;陸志浩;馬仲能;黃康君 | 申請(專利權)人: | 廣東電網有限責任公司廣州供電局 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30;G06F40/284 |
| 代理公司: | 武漢天領眾智專利代理事務所(普通合伙) 42300 | 代理人: | 高蘭 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 相似 分析 圍串標 智能 識別 方法 | ||
1.一種基于語義相似分析的圍串標智能識別方法,其特征在于,具體包括以下步驟:
S1:計算關鍵詞相似性:利用TextRank算法分別從兩份投標文件中抽取若干關鍵詞,每一份投標文件的一系列關鍵詞構成關鍵詞集合,利用兩份投標文件對應關鍵詞集合的交集比例計算杰卡德距離,得到兩份文件的關鍵詞相似度;
S2:計算文本統計相似性:過濾文件中的停用詞、行業專用詞,再利用tf-idf計算方法提取統計權重特征向量,并計算特征向量之間的余弦相似性即得到文本統計相似性;
S3:計算章節綜合語義相似性:先計算每個章節特征向量的余弦相似性,再結合每個章節的權重,得到兩份投標文件的章節綜合語義相似度;
S4:計算綜合相似度:根據經驗設計關鍵詞相似性、文本統計相似性及章節綜合語義相似性這三個維度的權重,通過這三個維度的加權平均計算得到兩份投標文件的綜合相似度,進而判斷是否圍串標。
2.根據權利要求1所述的一種基于語義相似分析的圍串標智能識別方法,其特征在于,S2中過濾停用詞、行業專用詞的步驟是:
S21:根據人工經驗和分詞統計方法,構建停用詞庫、行業專用詞庫;
S22:采用jieba分詞對文件進行分詞處理,然后將每一個分詞分別與停用詞庫、行業專用詞庫中的詞進行比較,如果是停用詞庫、行業專用詞庫的詞則刪除,以此循環刪除所有的停用詞、行業專業詞。
3.根據權利要求2所述的一種基于語義相似分析的圍串標智能識別方法,其特征在于,S3中每個章節特征向量的余弦相似性的具體計算步驟如下:
S31:利用WORD2VEC技術對歷史所有投標文件進行詞向量訓練;
S32:采用如權利要求2所述的過濾方式將兩份投標文件中每個章節的停用詞、行業專用詞過濾掉,得到的剩下詞語,獲取詞向量取平均值得
到章節內容的向量特征,再計算每個章節特征向量的余弦相似性。
4.根據權利要求1所述的一種基于語義相似分析的圍串標智能識別方法,其特征在于,S3中每個章節的權重是根據經驗設計的。
5.根據權利要求1所述的一種基于語義相似分析的圍串標智能識別方法,其特征在于,S4中關鍵詞相似性、文本統計相似性及章節綜合語義相似性這三個維度的權重之和為1。
6.根據權利要求1所述的一種基于語義相似分析的圍串標智能識別方法,其特征在于,S4中判斷是否圍串標的具體步驟是:將計算的綜合相似度值與設置的相似度閾值進行比較,如果綜合相似度值超過閾值,則兩份文件有圍串標嫌疑,進行預警。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司廣州供電局,未經廣東電網有限責任公司廣州供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038033.0/1.html,轉載請聲明來源鉆瓜專利網。





