[發明專利]確定文檔相似度的方法、裝置、設備和計算機存儲介質有效
| 申請號: | 201710547017.2 | 申請日: | 2017-07-06 |
| 公開(公告)號: | CN109213972B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 楊旭;王少萌;姜曉燕 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/284;G06F16/31;G06F16/33 |
| 代理公司: | 廣州鑄智知識產權代理有限公司 44886 | 代理人: | 徐瑞紅 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 文檔 相似 方法 裝置 設備 計算機 存儲 介質 | ||
1.一種確定文檔相似度的方法,其特征在于,預先根據參考文檔集構建有詞語對應表;該方法包括:
分別對至少兩個待比較文檔進行分詞處理,得到各待比較文檔中的詞語,其中,將非參考文檔集中的文檔作為其中一個待比較文檔,逐一將參考文檔集中的各文檔作為另一個待比較文檔;
將各待比較文檔中的詞語在所述詞語對應表中查詢,以構建待比較文檔的特征向量;
通過計算各待比較文檔的特征向量之間的相似度,確定待比較文檔之間的相似度;其中,
所述將各待比較文檔中的詞語在所述詞語對應表中查詢,以構建待比較文檔的特征包括:
從所述詞語對應表中查詢得到各待比較文檔中詞語對應的索引信息;所述索引信息是根據對所述參考文檔集中各文檔進行分詞處理所確定的;
利用得到的索引信息,構建各待比較文檔的特征向量。
2.根據權利要求1所述的方法,其特征在于,所述詞語對應表的構建包括:
將參考文檔集中各文檔進行分詞處理;
將分詞處理后得到的詞語進行匯總,得到詞語對應表,記錄該詞語對應表中各詞語的索引信息。
3.根據權利要求2所述的方法,其特征在于,所述將參考文檔集進行分詞處理包括:
通過多個計算節點并行對所述參考文檔集中的各文檔進行分詞處理。
4.根據權利要求1所述的方法,其特征在于,在從所述詞語對應表中查詢得到各待比較文檔中詞語對應的索引信息時,針對待比較文檔中的各詞語分別執行:
判斷該詞語是否存在于所述詞語對應表中,如果是,則獲取該詞語在所述詞語對應表中的索引信息;
否則,判斷該詞語是否存在于臨時對應表中,如果否,則將該詞語記錄于臨時對應表中,記錄并獲取該詞語在臨時對應表中的索引信息;如果是,則獲取該詞語在臨時對應表中的索引信息;
其中臨時對應表和詞語對應表中的索引信息不重疊。
5.根據權利要求1所述的方法,其特征在于,在從所述詞語對應表中查詢得到各待比較文檔中詞語對應的索引信息時,針對待比較文檔中的各詞語分別執行:
判斷該詞語是否存在于所述詞語對應表中,如果是,則獲取該詞語在所述詞語對應表中的索引信息;
否則,丟棄該詞語。
6.根據權利要求1所述的方法,其特征在于,在利用得到的索引信息,構建待比較文檔的特征向量時,針對待比較文檔中各詞語分別執行:
將獲取的詞語的索引信息作為該詞語在所述待比較文檔的特征向量中的維度號;
依據該詞語在所述待比較文檔中的出現次數,確定該詞語在所述待比較文檔的特征向量中的分量值。
7.根據權利要求6所述的方法,其特征在于,所述通過計算各待比較文檔的特征向量之間的相似度,確定待比較文檔之間的相似度包括:
計算待比較文檔的特征向量之間的余弦相似度,將得到的相似度值作為待比較文檔之間的相似度。
8.根據權利要求1所述的方法,其特征在于,在利用得到的索引信息,構建待比較文檔的特征向量時,針對待比較文檔中各詞語分別執行:
將獲取的詞語的索引信息作為該詞語在所述待比較文檔的特征向量中的維度號;
將指示該詞語在所述待比較文檔中出現的值,作為該詞語在所述待比較文檔的特征向量中的分量值。
9.根據權利要求8所述的方法,其特征在于,所述通過計算各待比較文檔的特征向量之間的相似度,確定待比較文檔之間的相似度包括:
計算待比較文檔的特征向量之間的Jaccard相似度,將得到的相似度值作為待比較文檔之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710547017.2/1.html,轉載請聲明來源鉆瓜專利網。





