[發(fā)明專利]招投標信息評審專家識別系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201911037773.6 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN112016272A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設計)人: | 賈新 | 申請(專利權)人: | 河南拓普計算機網(wǎng)絡工程有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/279;G06F40/30 |
| 代理公司: | 河南科技通律師事務所 41123 | 代理人: | 樊羿;張曉輝 |
| 地址: | 450000 河南省鄭州市金*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 投標 信息 評審 專家 識別 系統(tǒng) 方法 | ||
本發(fā)明公開了一種招投標信息評審專家識別系統(tǒng)及方法,旨在解決現(xiàn)有識別中存在的提取表達式過于復雜,無法準確判斷人名屬性的技術問題。本發(fā)明包括以下部分:1、文本清洗,將招投標信息轉(zhuǎn)換為自然語句;2、人名識別,逐句檢測是否含有人名;3、提取人名標簽,將含有人名的語句的前句作為人名標簽;4、判斷人名標簽是否為評審專家標簽;5、結果輸出。本發(fā)明的有益技術效果在于:語句結構簡單,工作效率高;識別精度高;自動化程度強。
技術領域
本發(fā)明涉及信息識別處理技術領域,具體涉及一種招投標信息評審專家識別系統(tǒng)及方法。
背景技術
從互聯(lián)網(wǎng)上海量招標信息中提取出評審專家,對于數(shù)據(jù)分析、建立評審專家檔案等應用是非常重要的一個環(huán)節(jié)。
常規(guī)的提取評審專家主要由兩種方案:
(1)基于正則提取:根據(jù)中國通用姓氏,通過配置正則,從文本中提取人名,比如/(張.{1,2})|(王.{1,2})/表示提取張和王以及它們后面的1~2個字,這種方案雖然難度小,但是容易出現(xiàn)誤提取,因為張和王等不只可以作為姓氏,導致正確率不太高,另外,中國通用姓氏2000多個,正則配置較為麻煩,加上少數(shù)民族姓氏與上述姓名結構不同,識別的準確率就更低了,而且如此多的姓氏組成的正則表達式結構過于龐大,即便把表達式拆分為多個字段按批次執(zhí)行,效率仍然不高。再者,一篇招標信息中出現(xiàn)人名的地方有多處,如采購聯(lián)系人、代理機構聯(lián)系人等,正則提取則不能判斷提取到的人名是什么角色,還需人工分辨。
(2)基于分詞器提取:主要基于目前中文分詞器的詞性標注功能,將文本分詞并標注詞性,依據(jù)詞性過濾出來NR詞性的詞組,依靠分詞識別人名具有一定語義消歧義作用,能在一定程度上減少誤提取概率,比如部分分詞器會內(nèi)置一些訓練好的識別模型,如CRF模型等用于提高分詞、詞性標注的正確率, 但是一篇文章出現(xiàn)人名的地方比較多,如聯(lián)系人、負責人等等,對于提取到的人名結果,很難確定是否就是想要的評審專家姓名。
發(fā)明內(nèi)容
本發(fā)明提供一種招投標信息評審專家識別系統(tǒng)及方法已解決現(xiàn)有技術中存在的提取表達式過于復雜,無法準確判斷人名屬性的技術問題。
為解決上述技術問題,本發(fā)明采用如下技術方案:
設計一種招投標信息評審專家識別系統(tǒng),包括:
文本清洗單元,用于將招標信息文本轉(zhuǎn)換為自然語句的集合;
人名識別單元,用于識別上述自然語句中的人名;
人名標簽提取單元,用于提取含有人名的語句的前一或前多語句作為人名標簽;
人名標簽判斷單元,用于判斷上述人名標簽是/否為專家標簽;
輸出單元,用于統(tǒng)一識別出的屬于專家的人名的格式并輸出至結果文本。
進一步的,文本清晰單元包括正則清洗模塊,用于使用正則表達式對招標信息文本進行轉(zhuǎn)換。
進一步的,人名識別單元包括閾值設置模塊,用于設置被識別出的人名個數(shù)的閾值。
進一步的,人名識別單元包括pyhanlp自然語言工具包。
進一步的,人名標簽提取單元包括標簽長度限制模塊,用于設置人名標簽的最小長度。
進一步的,人名標簽判斷單元包括scikit-learn機器學習框架的LogisticRegression邏輯回歸包。
一種招投標信息評審專家識別方法,包括以下步驟:
S1:去除待識別的文本中自然語句以外的字符;
S2:判斷所述待識別的文本語句中是否含有人名;若是,則進入步驟S3,若否,則繼續(xù)判斷下一句;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南拓普計算機網(wǎng)絡工程有限公司,未經(jīng)河南拓普計算機網(wǎng)絡工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911037773.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:招投標公告中標金額清洗方法
- 下一篇:電磁波屏蔽片及印刷配線板
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





