[發明專利]項目查重方法、裝置、設備及存儲介質在審
| 申請號: | 201910539972.0 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110377886A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 崔德冠 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F16/35;G06K9/62 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 長文本 相似度 短文本集 重結果 存儲介質 項目文本 短文本 判定 文本 相似度獲取 相似度檢測 人工智能 查找 預設 | ||
1.一種項目查重方法,其特征在于,所述方法包括:
獲取待查重項目對應的項目文本,按預設文本維度將所述項目文本劃分為待測短文本集和待測長文本集;
從預設查重語料庫中查找所述待測短文本集對應的基準短文本,并獲取所述待測短文本集與所述基準短文本之間的第一相似度;
若所述第一相似度低于預設相似度閾值,則從所述預設查重語料庫中查找所述待測長文本集對應的基準長文本,并獲取所述待測長文本集與所述基準長文本之間的第二相似度;
根據所述第二相似度獲取所述待查重項目對應的查重結果。
2.如權利要求1所述的方法,其特征在于,所述從預設查重語料庫中查找所述待測短文本集對應的基準短文本,并獲取所述待測短文本集與所述基準短文本之間的第一相似度的步驟,包括:
根據所述待測短文本集所屬的第一文本維度從預設查重語料庫中查找所述待測短文本集對應的基準短文本;
分別對所述待測短文本集和所述基準短文本進行向量轉換,獲取所述待測短文本集中包含的各待測短文本對應的目標向量以及所述基準短文本對應的基準向量;
利用余弦函數分別計算所述目標向量和所述基準向量之間的相似度,并根據獲取到的相似度構建相似度矩陣;
根據所述相似度矩陣獲取所述待測短文本集與所述基準短文本之間的第一相似度。
3.如權利要求2所述的方法,其特征在于,所述分別對所述待測短文本集和所述基準短文本進行向量轉換,獲取所述待測短文本集中包含的各待測短文本對應的目標向量以及所述基準短文本對應的基準向量的步驟,包括:
從所述待測短文本集中選取一條目標待測短文本,根據n-gram算法將所述目標待測短文本轉換為第一詞組向量,將所述基準短文本轉換為第二詞組向量;
將所述第一詞組向量轉換為第一獨熱向量、所述第二詞組向量轉換為第二獨熱向量,并利用深度學習算法進行向量映射以獲取在預設低維空間中所述第一獨熱向量對應的目標向量、所述第二獨熱向量對應的基準向量;
遍歷所述待測短文本集中的剩余待測短文本,對所述剩余待測短文本進行向量轉換,以獲取所述待測短文本集中包含的各待測短文本對應的目標向量。
4.如權利要求2或3所述的方法,其特征在于,所述根據所述相似度矩陣獲取所述待測短文本集與所述基準短文本之間的第一相似度的步驟,包括:
將所述相似度矩陣中的各相似度按照從大到小的順序進行排序,根據排序結果選取預設數量的目標相似度;
根據所述目標相似度,通過第一預設公式計算出所述待測短文本集與所述基準短文本之間的第一相似度;
其中,所述第一預設公式為:
式中,S*為第一相似度,k為預設數量,si為目標相似度,α為預設閾值,且0<α<1。
5.如權利要求1所述的方法,其特征在于,所述從所述預設查重語料庫中查找所述待測長文本集對應的基準長文本,并獲取所述待測長文本集與所述基準長文本之間的第二相似度的步驟,包括:
根據所述待測長文本集所屬的第二文本維度從所述預設查重語料庫中查找所述待測長文本集對應的基準長文本;
利用詞頻-逆文件頻率算法獲取所述待測長文本集與所述基準長文本之間的第二相似度。
6.如權利要求5所述的方法,其特征在于,所述利用詞頻-逆文件頻率算法獲取所述待測長文本集與所述基準長文本之間的第二相似度的步驟,包括:
利用詞頻-逆文件頻率算法分別獲取所述待測長文本集對應的第一關鍵詞集合,以及所述基準長文本對應的第二關鍵詞集合;
將所述第一關鍵詞集合和所述第二關鍵詞集合合并為目標關鍵詞集;
獲取所述待測長文本集中包含的各待測長文本對于所述目標關鍵詞集的第一詞頻向量,以及所述基準長文本對于所述目標關鍵詞集的第二詞頻向量;
根據所述第一詞頻向量以及所述第二詞頻向量確定所述待測長文本集與所述基準長文本之間的第二相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539972.0/1.html,轉載請聲明來源鉆瓜專利網。





