[發(fā)明專利]一種短文本相似度分析方法及其系統(tǒng)、計算機設備、介質在審
| 申請?zhí)枺?/td> | 202011258047.X | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112199937A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設計)人: | 汪楨子;章彬;汪偉;何維 | 申請(專利權)人: | 深圳供電局有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/258;G06K9/62;G06Q10/10 |
| 代理公司: | 深圳匯智容達專利商標事務所(普通合伙) 44238 | 代理人: | 徐文城 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 分析 方法 及其 系統(tǒng) 計算機 設備 介質 | ||
本發(fā)明涉及一種短文本相似度分析方法及其系統(tǒng)、計算機設備、介質,所述方法包括:獲取待評審項目申報材料電子文檔,并對其進行文本提取得到待評審項目的待評審標題信息;獲取第i個歷史評審項目申報材料電子文檔,并對其進行文本提取得到第i個歷史評審項目的歷史標題信息;獲取待評審標題信息與歷史標題信息之間的最長連續(xù)公共子串,并將待評審標題信息與歷史標題信息分別去除最長連續(xù)公共子串后得到第一字符串和第二字符串;計算第一字符串和第二字符串之間的編輯距離;根據(jù)編輯距離計算待評審標題信息與歷史標題信息的相似度。本發(fā)明適用于電力各專業(yè)領域的科技項目申報材料的文本相似度分析,有助于實現(xiàn)智能輔助立項評審,避免重復立項。
技術領域
本發(fā)明涉及軟件信息技術領域,具體涉及一種短文本相似度分析方法及其系統(tǒng)、計算機設備、介質。
背景技術
隨著電力改革不斷深入、科學技術不斷持續(xù)發(fā)展,電網(wǎng)公司各專業(yè)領域的科學技術研究項目立項評審越來越多,為了避免相似的項目重復申報,需要對科學技術研究項目的申報材料進行相似度審核。一般而言,科技項目申報材料均為大文本,目前科技項目相似度判別方式須依靠專業(yè)人工閱讀甄別比對,對于每一份科技項目申報材料,都需要將其與數(shù)據(jù)庫中的海量在先科技項目申報材料進行人工對比,耗費大量人力時間成本,并且難以保障相似性判定的高效準確。隨著環(huán)保意識的增強,目前電網(wǎng)公司推行無紙化辦公,科技項目申報材料均采用電子文檔方式提交和評審,電子文檔為評審工作的信息化提供了基礎,可以通過分析待評審項目與歷史評審項目的文本相似度來判斷是否存在重復申報情況,目前的文本相似度分析主要包括分詞以及分詞后的詞與詞之間的距離計算,最后綜合得到相似度結果。但目前的文本相似度分析方法并不是適用于電網(wǎng)公司各專業(yè)領域的科學技術研究項目立項評審,主要原因如下:
(1)因為標題中的專業(yè)詞較多而且都是以組合起來的長詞出現(xiàn),并不是單純的可以切分的專業(yè)詞匯,如‘基于大數(shù)據(jù)加速分析與三維數(shù)字化的設備可視化監(jiān)測模型的研究與應用’,這其中‘大數(shù)據(jù)加速分析’,‘設備可視化檢測模型’簡單的切分成‘大數(shù)據(jù)’,‘加速’,‘分析’,‘設備’,‘可視化’,‘檢測’,‘模型’后,含義已經(jīng)改變;
(2)對專業(yè)名稱來說語義理解效果較差。如:‘源端基地綜合能源系統(tǒng)關鍵技術及發(fā)展模式研究’和‘綜合能源系統(tǒng)多能轉換模擬與綜合能效評估技術研究’兩者在語義理解上相似度會相對較高,但實際上這兩個科技項目相差很大;
(3)科技項目的標題相對較短,長的30個字左右,短的只有10個字。由于科技項目標題中含有大量的專業(yè)名稱,并且專業(yè)名稱常常組合到一起組成更長含有語義的詞語,對于兩個項目標題來說,如果兩個名稱中有較多重復的這種專業(yè)名詞,那這兩個項目相似的可能性就非常大。但是如果采用直接的編輯距離來計算可能導致相似度非常低。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種短文本相似度分析方法及其系統(tǒng)、計算機設備、計算機可讀存儲介質,適用于電力各專業(yè)領域的科技項目申報材料的文本相似度分析,有助于實現(xiàn)智能輔助立項評審,避免重復立項,保障立項管理工作提質增效。
為達上述目的,根據(jù)第一方面,本發(fā)明實施例提出一種短文本相似度分析方法,包括:
步驟S1、獲取待評審項目申報材料電子文檔,并對其進行文本提取得到待評審項目的待評審標題信息;
步驟S2、獲取第i個歷史評審項目申報材料電子文檔,并對其進行文本提取得到第i個歷史評審項目的歷史標題信息;
步驟S3、獲取所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息之間的最長連續(xù)公共子串,并將所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息分別去除所述最長連續(xù)公共子串后得到第一字符串和第二字符串;
步驟S4、計算所述第一字符串和第二字符串之間的編輯距離;
步驟S5、根據(jù)所述編輯距離計算所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳供電局有限公司,未經(jīng)深圳供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258047.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種科研項目重復申報智能分析方法、存儲介質
- 下一篇:一種無菌隔膜單向截止閥





