[發明專利]一種文本匹配方法、裝置及計算機設備有效
| 申請號: | 202110169702.2 | 申請日: | 2021-02-07 |
| 公開(公告)號: | CN112765960B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 姚小妮;廉錦瑩 | 申請(專利權)人: | 成都新潮傳媒集團有限公司;成都百新智聯科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F16/33;G06K9/62 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 楊國瑞 |
| 地址: | 610000 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 方法 裝置 計算機 設備 | ||
本發明涉及信息檢索技術領域,公開了一種文本匹配方法、裝置及計算機設備。在所述方法中,提供了一種準確快速的文本匹配方案,即在應用到海量規范文檔檢索場景中時,可從詞頻?逆文檔頻率維度、編輯距離維度和杰卡德相似系數維度等三個不同維度上對用戶查詢文本和已知文檔標題進行相似性/差異性比對,并計算得到用戶查詢文本和已知文檔標題在各個維度上的指標值,然后通過算法綜合三個指標值得到聚合指標值,最后基于最大聚合指標值鎖定匹配目標,由于該方法不需要進行模型訓練,并具有較高的準確度和較低的算法復雜度,因此可以快速準確地得到檢索結果,特別適用于在線環境下的文檔檢索。
技術領域
本發明屬于信息檢索技術領域,具體地涉及一種文本匹配方法、裝置及計算機設備。
背景技術
短文本匹配是自然語言處理(Natural Language Processing,NLP)中一個非?;A的問題,它在信息檢索、智能問答和機器翻譯等領域有著廣泛的應用。如網頁搜索可以抽象為尋找與用戶查詢文本相匹配網頁的相似性問題,智能回復可抽象為根據問題匹配答案的文本相似性問題等等。由于企業內部文檔一般比較規范,文檔標題和文檔內容關聯性非常強,所以僅用文檔標題做匹配就可以得到比較高的準確率,而不用全文檔檢索,否則必然非常耗時,因此用戶查詢文本和已知文檔標題的相似性比對可以抽象一個短文本匹配問題,使得可將短文本匹配技術應用在企業內部文檔檢索場景中。
目前,傳統的短文本匹配方法有基于詞移距離(Word Mover’s Distance,WMD)的方法和基于概率檢索模型的BM25方法,其中,WMD方法使用Word2Vec編碼詞向量,可以實現語義匹配,但它的最大缺陷在于時間復雜度較高,不適合用于海量規范文檔檢索場景,例如對于大公司而言,企業內部文檔可能是海量的,因此若使用WMD方法對企業內部文檔進行檢索,將非常耗時;而BM25方法是將用戶查詢文本切分為單詞,然后基于單詞和文檔標題之間的相似性、單詞和查詢文本之間的相似性和每個單詞的權重這三個指標對查詢文本和文檔標題之間的相似性進行量化,但是該方法在計算單詞權重時沒有考慮單詞之間的相關性,因此存在文檔檢索準確率較低的問題。
發明內容
為了解決現有短文本匹配方法在應用到海量規范文檔檢索場景中所存在的檢索耗時和文檔檢索準確率較低的問題,本發明目的在于提供一種新型的文本匹配方法、裝置、計算機設備及計算機可讀存儲介質,可以在應用到海量規范文檔檢索場景中時,從詞頻-逆文檔頻率維度、編輯距離維度和杰卡德相似系數維度等三個不同維度上對用戶查詢文本和已知文檔標題進行相似性/差異性比對,并計算得到用戶查詢文本和已知文檔標題在各個維度上的指標值,然后通過算法綜合三個指標值得到聚合指標值,最后基于最大聚合指標值鎖定匹配目標,由于該方法不需要進行模型訓練,并具有較高的準確度和較低的算法復雜度,因此可以快速準確地得到檢索結果,特別適用于在線環境下的文檔檢索。
第一方面,本發明提供了一種文本匹配方法,包括:
獲取查詢單詞集合和多個標題單詞集合,其中,所述查詢單詞集合與用戶查詢文本對應,所述多個標題單詞集合與多個已知文檔標題一一對應;
針對所述多個標題單詞集合中的各個標題單詞集合,計算得到所述查詢單詞集合與該標題單詞集合的第一指標值、第二指標值和第三指標值,其中,所述第一指標值用于表征基于詞頻-逆文檔頻率TF-IDF計算得到的且所述查詢單詞集合與該標題單詞集合的相似程度,所述第二指標值用于表征基于編輯距離MED計算得到的且所述查詢單詞集合與該標題單詞集合的差異程度,所述第三指標值用于表征基于杰卡德相似系數計算得到的且所述查詢單詞集合與該標題單詞集合的相似程度;
針對所述各個標題單詞集合,計算得到對應該標題單詞集合的所述第一指標值與所述第三指標值的積以及所述第二指標值與所述第三指標值的積,并從兩積中取最大值,得到對應的聚合指標值;
將與最大聚合指標值對應的已知文檔標題作為所述用戶查詢文本的匹配目標,其中,所述最大聚合指標值為多個聚合指標值中的最大值,所述多個聚合指標值與所述多個已知文檔標題一一對應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都新潮傳媒集團有限公司;成都百新智聯科技有限公司,未經成都新潮傳媒集團有限公司;成都百新智聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110169702.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種殼體磁鐵滅弧室繼電器
- 下一篇:一種照準棱鏡鏡頭防雨結構





