[發(fā)明專利]確定文檔相似度的方法、裝置、設(shè)備和計(jì)算機(jī)存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201710547017.2 | 申請(qǐng)日: | 2017-07-06 |
| 公開(公告)號(hào): | CN109213972B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 楊旭;王少萌;姜曉燕 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/194 | 分類號(hào): | G06F40/194;G06F40/284;G06F16/31;G06F16/33 |
| 代理公司: | 廣州鑄智知識(shí)產(chǎn)權(quán)代理有限公司 44886 | 代理人: | 徐瑞紅 |
| 地址: | 英屬開曼群島大開*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 確定 文檔 相似 方法 裝置 設(shè)備 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種確定文檔相似度的方法、裝置、設(shè)備和計(jì)算機(jī)存儲(chǔ)介質(zhì),其中方法包括:預(yù)先根據(jù)參考文檔集構(gòu)建有詞語對(duì)應(yīng)表;對(duì)至少兩個(gè)待比較文檔進(jìn)行分詞處理后,得到待比較文檔中的各詞語;將各待比較文檔中的詞語在所述詞語對(duì)應(yīng)表中查詢,以構(gòu)建待比較文檔的特征向量;通過計(jì)算待比較文檔的特征向量之間的相似度,確定待比較文檔之間的相似度。本發(fā)明能夠降低大規(guī)模文檔相似度的耗時(shí)。
【技術(shù)領(lǐng)域】
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種確定文檔相似度的方法、裝置、設(shè)備和計(jì)算機(jī)存儲(chǔ)介質(zhì)。
【背景技術(shù)】
隨著信息爆炸時(shí)代的來臨,網(wǎng)絡(luò)上文檔數(shù)量急劇上升,呈海量趨勢(shì)。無論在文檔去重還是文檔推薦等場(chǎng)景中,都會(huì)涉及到文檔相似度的計(jì)算。現(xiàn)有文檔相似度計(jì)算方式通常是基于兩兩比較的文檔,構(gòu)建各文檔的特征向量,然后通過兩文檔的特征向量之間的相似度來計(jì)算兩文檔之間的相似度。由于其特征向量的構(gòu)建是基于兩個(gè)文檔的,因此,需要針對(duì)文檔兩兩構(gòu)建特征向量并進(jìn)行相似度計(jì)算,若存在數(shù)量巨大的文檔需要進(jìn)行比較,則耗時(shí)巨大。
例如,在搜索引擎中,需要針對(duì)新爬取的文檔判斷爬取的歷史文檔中是否已經(jīng)存在新爬取的文檔。若新爬取的文檔數(shù)量為m,爬取的歷史文檔數(shù)量為n,兩兩比較就需要執(zhí)行m×n次,即執(zhí)行m×n次文本特征向量構(gòu)建和相似度計(jì)算。若m為6萬,n為60萬,則需要計(jì)算約1萬小時(shí),耗時(shí)巨大。
【發(fā)明內(nèi)容】
有鑒于此,本發(fā)明提供了一種確定文檔相似度的方法、裝置、設(shè)備和計(jì)算機(jī)存儲(chǔ)介質(zhì),以便于降低大規(guī)模文檔相似度的耗時(shí)。
具體技術(shù)方案如下:
本發(fā)明提供了一種確定文檔相似度的方法,預(yù)先根據(jù)參考文檔集構(gòu)建有詞語對(duì)應(yīng)表;該方法包括:
分別對(duì)至少兩個(gè)待比較文檔進(jìn)行分詞處理,得到各待比較文檔中的詞語;
將各待比較文檔中的詞語在所述詞語對(duì)應(yīng)表中查詢,以構(gòu)建待比較文檔的特征向量;
通過計(jì)算各待比較文檔的特征向量之間的相似度,確定待比較文檔之間的相似度。
根據(jù)本發(fā)明一具體實(shí)施方式,所述詞語對(duì)應(yīng)表的構(gòu)建包括:
將參考文檔集中各文檔進(jìn)行分詞處理;
將分詞處理后得到的詞語進(jìn)行匯總,得到詞語對(duì)應(yīng)表,記錄該詞語對(duì)應(yīng)表中各詞語的索引信息。
根據(jù)本發(fā)明一具體實(shí)施方式,所述將各待比較文檔中的詞語在所述詞語對(duì)應(yīng)表中查詢,以構(gòu)建待比較文檔的特征包括:
從所述詞語對(duì)應(yīng)表中查詢得到各待比較文檔中詞語對(duì)應(yīng)的索引信息;
利用得到的索引信息,構(gòu)建各待比較文檔的特征向量。
根據(jù)本發(fā)明一具體實(shí)施方式,所述將參考文檔集進(jìn)行分詞處理包括:
通過多個(gè)計(jì)算節(jié)點(diǎn)并行對(duì)所述參考文檔集中的各文檔進(jìn)行分詞處理。
根據(jù)本發(fā)明一具體實(shí)施方式,在從所述詞語對(duì)應(yīng)表中查詢得到各待比較文檔中詞語對(duì)應(yīng)的索引信息時(shí),針對(duì)待比較文檔中的各詞語分別執(zhí)行:
判斷該詞語是否存在于所述詞語對(duì)應(yīng)表中,如果是,則獲取該詞語在所述詞語對(duì)應(yīng)表中的索引信息;
否則,判斷該詞語是否存在于臨時(shí)對(duì)應(yīng)表中,如果否,則將該詞語記錄于臨時(shí)對(duì)應(yīng)表中,記錄并獲取該詞語在臨時(shí)對(duì)應(yīng)表中的索引信息;如果是,則獲取該詞語在臨時(shí)對(duì)應(yīng)表中的索引信息;
其中臨時(shí)對(duì)應(yīng)表和詞語對(duì)應(yīng)表中的索引信息不重疊。
根據(jù)本發(fā)明一具體實(shí)施方式,在從所述詞語對(duì)應(yīng)表中查詢得到各待比較文檔中詞語對(duì)應(yīng)的索引信息時(shí),針對(duì)待比較文檔中的各詞語分別執(zhí)行:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710547017.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





