[發明專利]一種短文本相似度分析方法及其系統、計算機設備、介質在審
| 申請號: | 202011258047.X | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112199937A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 汪楨子;章彬;汪偉;何維 | 申請(專利權)人: | 深圳供電局有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/258;G06K9/62;G06Q10/10 |
| 代理公司: | 深圳匯智容達專利商標事務所(普通合伙) 44238 | 代理人: | 徐文城 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 分析 方法 及其 系統 計算機 設備 介質 | ||
1.一種短文本相似度分析方法,其特征在于,包括:
步驟S1、獲取待評審項目申報材料電子文檔,并對其進行文本提取得到待評審項目的待評審標題信息;
步驟S2、獲取第i個歷史評審項目申報材料電子文檔,并對其進行文本提取得到第i個歷史評審項目的歷史標題信息;
步驟S3、獲取所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息之間的最長連續公共子串,并將所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息分別去除所述最長連續公共子串后得到第一字符串和第二字符串;
步驟S4、計算所述第一字符串和第二字符串之間的編輯距離;
步驟S5、根據所述編輯距離計算所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息的相似度。
2.根據權利要求1所述的短文本相似度分析方法,其特征在于,所述步驟S3,包括:
步驟S31、設所述待評審標題信息為字符串s1,所述第i個歷史評審項目的歷史標題信息為字符串si;
步驟S32、求出字符串s1和si的最長連續公共子串sz;
步驟S33、如果最長連續公共子串sz的長度大于2,則分別將字符串s1和si中的sz去除后得到新的2個字符串s10和si0,并令s1=s10,si=si0后返回步驟S32;如果最長連續公共子串sz的長度小于等于2,則輸出s10作為第一字符串,si0作為第二字符串。
3.根據權利要求1所述的短文本相似度分析方法,其特征在于,所述根據所述編輯距離計算所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息的相似度,包括:
其中,s10表示第一字符串,si0表示第二字符串,sim(s10,si0)表示所述編輯距離計算所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息的相似度,ED表示第一字符串和第二字符串之間的編輯距離,len(s10)表示第一字符串的長度,len(si0)表示第二字符串的長度。
4.根據權利要求1所述的短文本相似度分析方法,其特征在于,所述待評審標題信息包括待評審項目的項目主標題、研究內容中的副標題;所述第i個歷史評審項目的歷史標題信息包括第i個歷史評審項目的項目主標題、研究內容中的副標題;
所述步驟S3具體為:獲取所述待評審標題信息中的每一個標題信息與所述第i個歷史評審項目的歷史標題信息中的每一個標題信息之間的最長連續公共子串,并分別去除所述最長連續公共子串后得到第一字符串sjk1和第二字符串sjk2;其中sjk1表示所述待評審標題信息中的第j個標題信息去除其與歷史標題信息中的第k個標題信息經去除最大連續公共子串后得到的第一字符串,sjk2表示歷史標題信息中的第k個標題信息經去除其與所述待評審標題信息中的第j個標題信息的最大連續公共子串后得到的第二字符串;
所述步驟S4具體為:計算所有的第一字符串sjk1及與其對應的第二字符串sjk2之間的編輯距離,得到編輯距離集合;其中所述待評審標題信息中的每一個標題信息存在對應的k個編輯距離;
所述步驟S5具體為:根據所述編輯距離集合計算所有的第一字符串sjk1及與其對應的第二字符串sjk2之間的相似度,并根據所有的相似度計算結果計算所述待評審標題信息與所述第i個歷史評審項目的歷史標題信息的相似度;其中所述待評審標題信息中的每一個標題信息存在對應的k個相似度計算結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳供電局有限公司,未經深圳供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258047.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種科研項目重復申報智能分析方法、存儲介質
- 下一篇:一種無菌隔膜單向截止閥





