[發(fā)明專利]項目查重方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910539972.0 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110377886A | 公開(公告)日: | 2019-10-25 |
| 發(fā)明(設(shè)計)人: | 崔德冠 | 申請(專利權(quán))人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F16/35;G06K9/62 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 長文本 相似度 短文本集 重結(jié)果 存儲介質(zhì) 項目文本 短文本 判定 文本 相似度獲取 相似度檢測 人工智能 查找 預(yù)設(shè) | ||
本發(fā)明涉及人工智能,公開一種項目查重方法、裝置、設(shè)備及存儲介質(zhì),該方法包括:獲取項目文本,將項目文本劃分為待測短文本集和待測長文本集;查找待測短文本集對應(yīng)的基準(zhǔn)短文本,并獲取其與待測短文本集之間的第一相似度;若第一相似度低于預(yù)設(shè)相似度閾值,則查找待測長文本集對應(yīng)的基準(zhǔn)長文本并獲取其與待測長文本集之間的第二相似度;根據(jù)第二相似度獲取查重結(jié)果,由于是先根據(jù)短文本集對應(yīng)的基準(zhǔn)短文本對短文本集進行相似度檢測,在獲取到的相似度不能判定項目的查重情況時,再通過計算長文本集和基準(zhǔn)長文本之間的相似度對待查重項目進行查重結(jié)果判定,相較于現(xiàn)有的文本查重方式,使得查重結(jié)果更加準(zhǔn)確、真實,也提高了文本查重的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種項目查重方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
目前,為了避免政府財政專項資金扶持項目被重復(fù)多次申請而造成資金的浪費,提高資金的使用效率,需要對企業(yè)申報的財政專項資金扶持項目進行查重。現(xiàn)有的項目查重方法主要關(guān)注點在于如何利用算法實現(xiàn)和提高文本的匹配相似度,但往往只是針對項目描述、項目內(nèi)容等長文本進行相似度評估,而忽略了其它內(nèi)容,導(dǎo)致了查重結(jié)果不夠準(zhǔn)確,查重結(jié)果失真的情況。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認上述內(nèi)容是現(xiàn)有技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供了一種項目查重方法、裝置、設(shè)備及存儲介質(zhì),旨在解決現(xiàn)有技術(shù)查重結(jié)果不夠準(zhǔn)確,查重結(jié)果失真的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明提供了一種項目查重方法,所述方法包括以下步驟:
獲取待查重項目對應(yīng)的項目文本,按預(yù)設(shè)文本維度將所述項目文本劃分為待測短文本集和待測長文本集;
從預(yù)設(shè)查重語料庫中查找所述待測短文本集對應(yīng)的基準(zhǔn)短文本,并獲取所述待測短文本集與所述基準(zhǔn)短文本之間的第一相似度;
若所述第一相似度低于預(yù)設(shè)相似度閾值,則從所述預(yù)設(shè)查重語料庫中查找所述待測長文本集對應(yīng)的基準(zhǔn)長文本,并獲取所述待測長文本集與所述基準(zhǔn)長文本之間的第二相似度;
根據(jù)所述第二相似度獲取所述待查重項目對應(yīng)的查重結(jié)果。
優(yōu)選地,所述從預(yù)設(shè)查重語料庫中查找所述待測短文本集對應(yīng)的基準(zhǔn)短文本,并獲取所述待測短文本集與所述基準(zhǔn)短文本之間的第一相似度的步驟,包括:
根據(jù)所述待測短文本集所屬的第一文本維度從預(yù)設(shè)查重語料庫中查找所述待測短文本集對應(yīng)的基準(zhǔn)短文本;
分別對所述待測短文本集和所述基準(zhǔn)短文本進行向量轉(zhuǎn)換,獲取所述待測短文本集中包含的各待測短文本對應(yīng)的目標(biāo)向量以及所述基準(zhǔn)短文本對應(yīng)的基準(zhǔn)向量;
利用余弦函數(shù)分別計算所述目標(biāo)向量和所述基準(zhǔn)向量之間的相似度,并根據(jù)獲取到的相似度構(gòu)建相似度矩陣;
根據(jù)所述相似度矩陣獲取所述待測短文本集與所述基準(zhǔn)短文本之間的第一相似度。
優(yōu)選地,所述分別對所述待測短文本集和所述基準(zhǔn)短文本進行向量轉(zhuǎn)換,獲取所述待測短文本集中包含的各待測短文本對應(yīng)的目標(biāo)向量以及所述基準(zhǔn)短文本對應(yīng)的基準(zhǔn)向量的步驟,包括:
從所述待測短文本集中選取一條目標(biāo)待測短文本,根據(jù)n-gram算法將所述目標(biāo)待測短文本轉(zhuǎn)換為第一詞組向量,將所述基準(zhǔn)短文本轉(zhuǎn)換為第二詞組向量;
將所述第一詞組向量轉(zhuǎn)換為第一獨熱向量、所述第二詞組向量轉(zhuǎn)換為第二獨熱向量,并利用深度學(xué)習(xí)算法進行向量映射以獲取在預(yù)設(shè)低維空間中所述第一獨熱向量對應(yīng)的目標(biāo)向量、所述第二獨熱向量對應(yīng)的基準(zhǔn)向量;
遍歷所述待測短文本集中的剩余待測短文本,對所述剩余待測短文本進行向量轉(zhuǎn)換,以獲取所述待測短文本集中包含的各待測短文本對應(yīng)的目標(biāo)向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司,未經(jīng)平安國際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539972.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 超鏈接自動重導(dǎo)與管理系統(tǒng)及其方法
- 計費重批的方法、裝置及系統(tǒng)
- 帶有重稱功能的ETC車道計重收費處理方法及系統(tǒng)
- 一種高速整車計重收費系統(tǒng)
- 海量日志數(shù)據(jù)的去重入庫方法、裝置、設(shè)備及存儲介質(zhì)
- 基于FPGA的重測序分析方法和裝置
- 文本查重方法及裝置、計算機可讀存儲介質(zhì)、電子設(shè)備
- 一種業(yè)務(wù)恢復(fù)方法、裝置、電子設(shè)備及存儲介質(zhì)
- 視頻處理方法及裝置、電子設(shè)備和存儲介質(zhì)
- 應(yīng)用于掃地機的重定位方法、裝置、電子設(shè)備和介質(zhì)





