[發明專利]一種文本匹配方法及電子設備有效
| 申請號: | 201810698874.7 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109165291B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 鄒輝;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(專利權)人: | 廈門快商通信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 方法 電子設備 | ||
本發明涉及自然語言處理技術領域,提供了一種文本匹配方法,所述方法包含步驟:對待匹配文本進行預處理,其中所述預處理包含對所述待匹配文本進行分詞處理;將可合并的分詞拼接成短語;基于第一相似算法計算所述待匹配文本與文本庫中的預存文本的相似度,并選取預設數量個符合預設條件的所述預存文本,作為第一相似文本;基于第二相似算法計算所述待匹配文本與所述第一相似文本的相似度;從所述第一相似文本中選取相似度滿足預設條件的預存文本,確定為匹配文本。通過本發明所提供的文本匹配方法可提升文本匹配的準確度。
技術領域
本發明涉及自然語言處理技術,尤其是關于一種文本匹配方法及電子設備。
背景技術
在文本分析領域中,文本匹配在很多實際場景中都扮演著重要角色。比如,在搜索場景中,用戶輸入一條待匹配文本,系統需要去語料庫中尋找與該待匹配文本盡可能相似的內容,并將匹配結果返回給用戶;再比如,在常見問答(Frequently Asked Questions,FAQ)系統中,用戶提出一個問題,系統需要根據用戶提出的問題在FAQ庫中找到最相似的問題,并返回該相似問題對應的答案。在這些場景中,文本匹配的準確性直接影響用戶體驗效果,所以,在文本分析領域中,文本匹配具有非常重要的地位。
文本匹配過程一般是針對兩條文本,通過算法計算這兩條文本之間的相似度,通過相似度大小來判定這兩條文本之間的匹配度。
現有文本匹配方法主要是將兩條文本分別經分詞后處理成一個向量,即,用一個向量來描述一條文本,再計算這兩個向量之間的相似度,根據相似度結果確定這兩條文本的匹配度,這里,將這種匹配方式定義為橫向匹配。
舉例來說,對于兩條文本,分別為“黑色的貓坐在黃色的椅子上”和“黃色的貓坐在黑色的椅子上”,如果采用上述橫向匹配方式計算這兩條文本之間的相似度,由于這兩條文本在分詞的共現上完全一致,所以這兩條文本的相似度為1,也就是認為這兩條文本完全匹配,但很顯然,這兩條文本中的關鍵信息“黑色”和“黃色”在這兩條文本中的出現位置不一致。
由此可見,現有的解決方案中,文本匹配的精準度不高,這將導致在實際應用中,無法正確理解用戶輸入文本的含義,從而無法提供真準確的回復,從導致用戶體驗度較差。
發明內容
本發明的實施例,提供了一種文本匹配方法,所述方法包含步驟:對待匹配文本進行預處理,其中所述預處理包含對所述待匹配文本進行分詞處理;將可合并的分詞拼接成短語;基于第一相似算法計算所述待匹配文本與文本庫中的預存文本的相似度,并選取預設數量個符合預設條件的所述預存文本,作為第一相似文本;基于第二相似算法計算所述待匹配文本與所述第一相似文本的相似度;從所述第一相似文本中選取相似度滿足預設條件的預存文本,確定為匹配文本。
在一實施中,所述對待匹配文本進行預處理,還包含對所述待匹配文本中的各分詞進行多語義詞識別,并對所述多語義詞進行語義確認。
在一實施中,所述對所述待匹配文本中的各分詞進行多語義詞識別具體包含,基于所述各分詞,匹配多語義詞數據庫,若匹配成功,則確定為多語義詞;其中所述多語義詞數據庫通過對語料庫的語義訓練獲得。
在一實施中,所述語料庫的語義訓練方法具體包含步驟:確定包含目標分詞的訓練語料;分別對所述訓練語料進行分詞處理,并基于第一預設算法確定各所述訓練語料分詞的第一詞向量;基于第二預設算法確定各所述訓練語料的句向量;基于所述第一詞向量及各所述訓練語料的所述句向量,計算獲得各所述訓練語料中所述目標分詞對應的第二詞向量;對所述目標分詞對應的各所述第二詞向量進行聚類,獲得至少一個類別;基于所述至少一個類別確定所述目標分詞對應的至少一個語義及語義向量。
在一實施中,所述將可合并的所述分詞拼接成短語包含:基于所述分詞的詞性及預設合并規則,確定可合并的所述分詞,并進行拼接。
在一實施中,所述將可合并的所述分詞拼接成短語包含:匹配預設短語數據庫,確認可合并的所述分詞,并拼接成短語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通信息技術有限公司,未經廈門快商通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810698874.7/2.html,轉載請聲明來源鉆瓜專利網。





