[發(fā)明專利]相似文本的檢索方法、裝置和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910060108.2 | 申請日: | 2019-01-22 |
| 公開(公告)號: | CN111460088A | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 康楊楊;周笑添;孫常龍;劉曉鐘;司羅 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京合智同創(chuàng)知識產(chǎn)權(quán)代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似 文本 檢索 方法 裝置 系統(tǒng) | ||
本發(fā)明實(shí)施例提供了一種相似文本的檢索方法、裝置和系統(tǒng)。其中,相似文本的檢索方法包括:對接收的查詢文本進(jìn)行對應(yīng)的處理,獲取與所述查詢文本對應(yīng)的文本向量;根據(jù)向量引擎中的索引,從多個樣本向量集中檢索出與所述查詢文本對應(yīng)的文本向量匹配的樣本向量集;從所述樣本向量集中獲取與所述查詢文本對應(yīng)的文本向量相似的樣本向量,并將所述相似的樣本向量對應(yīng)的樣本文本作為所述查詢文本的相似文本。通過本發(fā)明實(shí)施例,可以提升檢索效率。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種相似文本的檢索方法、裝置和系統(tǒng)。
背景技術(shù)
隨著科技的發(fā)展,相似文本檢索的應(yīng)用越來越廣泛,如,應(yīng)用在論文反抄襲、垃圾信息識別等領(lǐng)域。
以短信、群聊等的垃圾信息識別為例,通常是采用人工離線標(biāo)注垃圾數(shù)據(jù),使用標(biāo)注的垃圾數(shù)據(jù)對機(jī)器學(xué)習(xí)中的識別模型進(jìn)行訓(xùn)練,將識別模型上線用于垃圾信息識別,定期更新識別模型的方式進(jìn)行垃圾信息識別。由于垃圾信息變異速度快,這種方式只能定期更新模型,且需要人工離線標(biāo)注數(shù)據(jù)導(dǎo)致無法快速地響應(yīng)業(yè)務(wù)需求。
另一種進(jìn)行垃圾信息識別的方式,是采用字符匹配的方式識別垃圾信息,通過判別輸入文本是否是已經(jīng)出現(xiàn)過的垃圾樣本來進(jìn)行垃圾信息識別。但是,這種方式難以適應(yīng)在線流量非常大(即高QPS)的情況,且由于候選的垃圾樣本集非常大,使得處理速度非常慢,耗時長,無法有效的支持業(yè)務(wù)需求。
因此,如何提升檢索速度,應(yīng)對這種在線流量較大、高并發(fā)的情況,成為亟需解決的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種相似文本的檢索方案,以解決上述問題。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種相似文本的檢索方法,所述方法包括:對接收的查詢文本進(jìn)行對應(yīng)的處理,獲取與所述查詢文本對應(yīng)的文本向量;根據(jù)向量引擎中的索引,從多個樣本向量集中檢索出與所述查詢文本對應(yīng)的文本向量匹配的樣本向量集;從所述樣本向量集中獲取與所述查詢文本對應(yīng)的文本向量相似的樣本向量,并將所述相似的樣本向量對應(yīng)的樣本文本作為所述查詢文本的相似文本。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供了一種相似文本的檢索裝置,所述裝置包括:文本向量獲取模塊,用于對接收的查詢文本進(jìn)行對應(yīng)的處理,獲取與所述查詢文本對應(yīng)的文本向量;向量集獲取模塊,用于根據(jù)向量引擎中的索引,從多個樣本向量集中檢索出與所述查詢文本對應(yīng)的文本向量匹配的樣本向量集;文本獲取模塊,用于從所述樣本向量集中獲取與所述查詢文本對應(yīng)的文本向量相似的樣本向量,并將所述相似的樣本向量對應(yīng)的樣本文本作為所述查詢文本的相似文本。
根據(jù)本發(fā)明實(shí)施例的第三方面,提供一種相似文本的檢索系統(tǒng),其包括第一分發(fā)單元、預(yù)處理單元、向量生成單元和向量引擎;所述第一分發(fā)單元,用于將接收到的查詢文本,發(fā)送至所述預(yù)處理單元;所述預(yù)處理單元,用于對接收的所述查詢文本進(jìn)行預(yù)處理,并將與所述查詢文本對應(yīng)的預(yù)處理結(jié)果發(fā)送至所述第一分發(fā)單元;所述向量生成單元,用于根據(jù)從所述第一分發(fā)單元獲取的與所述查詢文本對應(yīng)的預(yù)處理結(jié)果,生成與所述查詢文本對應(yīng)的文本向量,并將所述文本向量發(fā)送至所述第一分發(fā)單元;所述向量引擎,用于根據(jù)從所述第一分發(fā)單元獲取的文本向量,進(jìn)行檢索,獲得匹配的樣本向量集,并從所述匹配的樣本向量集中獲得與所述文本向量相似度最高的N個相似的樣本向量,將N個所述相似的樣本向量對應(yīng)的樣本文本作為相似文本發(fā)送至所述第一分發(fā)單元;所述第一分發(fā)單元,還用于將所述向量引擎發(fā)送的相似文本發(fā)送至所述用戶單元。
根據(jù)本發(fā)明實(shí)施例提供的相似文本的檢索方案,通過將樣本向量分為多個樣本向量集,并生成所述多個樣本向量集對應(yīng)的索引,檢索時先檢索出與所述查詢文本對應(yīng)的文本向量匹配的樣本向量集,再從匹配的樣本向量集中檢索出相似的樣本向量,最終根據(jù)所述相似的樣本向量獲得相似文本,通過這種檢索方式提升了檢索效率,滿足了高并發(fā)場景的性能需求。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910060108.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





