[發明專利]相似度確定方法及裝置有效
| 申請號: | 201710646291.5 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN109325509B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 石鵬;范浩文 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F18/22 | 分類號: | G06F18/22;G06F40/284 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡;褚敏 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 確定 方法 裝置 | ||
本發明公開了一種相似度確定方法及裝置。其中,該方法包括:對第一文本和第二文本分別進行分詞獲得對應的第一分詞結果和第二分詞結果;對第一分詞結果和第二分詞結果進行過濾,確定在第一文本和第二文本中都出現的相同的詞;統計在第一文本和第二文本中都出現的相同的詞分別在第一文本和第二文本中出現的次數;根據統計的次數,確定第一文本以及第二文本的相似度,本發明解決了相關技術中文本相似度的計算量大的技術問題。
技術領域
本發明涉及文本相似度計算領域,具體而言,涉及一種相似度確定方法及裝置。
背景技術
目前,用于計算文本相似度的算法大多是通過權重法或者詞/字頻進行匹配的,然而,利用上述權重法或者詞/字頻進行匹配,精確度較低,并且權重法的權重設置需要根據具體場景來進行,比較復雜。
針對上述相關技術中文本相似度的計算比較復雜的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種相似度確定方法及裝置,以至少解決相關技術中文本相似度的計算量大的技術問題。
根據本發明實施例的一個方面,提高了一種相似度確定方法,包括:對第一文本和第二文本分別進行分詞獲得對應的第一分詞結果和第二分詞結果;對所述第一分詞結果和第二分詞結果進行過濾,確定在所述第一文本和所述第二文本中都出現的相同的詞;統計所述在所述第一文本和所述第二文本中都出現的相同的詞分別在所述第一文本和所述第二文本中出現的次數;根據統計的次數,確定所述第一文本以及所述第二文本的相似度。
可選地,對所述第一分詞結果和第二分詞結果進行過濾包括:分別將所述第一分詞結果和第二分詞結果導入詞包;利用所述詞包檢測所述第一分詞結果和第二分詞結果中是否存在無意義的詞,其中,所述無意義的詞包括以下至少之一:標點,助詞,空格;在檢測結果為是的情況下,利用所述詞包過濾掉所述第一分詞結果和第二分詞結果中出現的所述無意義的詞。
可選地,根據統計的次數,確定所述第一文本以及所述第二文本的相似度包括:確定所述在所述第一文本和所述第二文本中都出現的相同的詞在所述第一文本以及第二文本中出現的次數分別對應的向量;采用余弦向量夾角算法,基于所述向量確定所述第一文本和所述第二文本的相似度。
可選地,在根據統計的次數,確定所述第一文本以及所述第二文本的相似度之后,還包括:獲取在所述第一文本和所述第二文本中均存在的所述相同的詞的種類;根據所述相同的詞的種類確定計算所述相似度的復雜度。
根據本發明實施例的另外一個方面,還提供了一種相似度確定裝置,包括:分詞單元,用于對第一文本和第二文本分別進行分詞獲得對應的第一分詞結果和第二分詞結果;第一確定單元,用于對所述第一分詞結果和第二分詞結果進行過濾,確定在所述第一文本和所述第二文本中都出現的相同的詞;統計單元,用于統計所述在所述第一文本和所述第二文本中都出現的相同的詞分別在所述第一文本和所述第二文本中出現的次數;第二確定單元,用于根據統計的次數,確定所述第一文本以及所述第二文本的相似度。
可選地,所述第一確定單元包括:導入模塊,用于分別將所述第一分詞結果和第二分詞結果導入詞包;檢測模塊,利用所述詞包檢測所述第一分詞結果和第二分詞結果中是否存在無意義的詞,其中,所述無意義的詞包括以下至少之一:標點,助詞,空格;過濾模塊,在檢測結果為是的情況下,用于利用所述詞包過濾掉所述第一分詞結果和第二分詞結果中出現的所述無意義的詞。
可選地,所述第二確定單元包括:第一確定模塊,用于確定所述在所述第一文本和所述第二文本中都出現的相同的詞在所述第一文本以及第二文本中出現的次數分別對應的向量;第二確定模塊,用于采用余弦向量夾角算法,基于所述向量確定所述第一文本和所述第二文本的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710646291.5/2.html,轉載請聲明來源鉆瓜專利網。





