[發明專利]一種文本相似性的比較方法以及裝置有效
| 申請號: | 201510974716.6 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105630767B | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 張伸正;魏少俊;陳培軍 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京天達知識產權代理事務所(普通合伙) 11386 | 代理人: | 左萌;龔頤雯 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 初始特征向量 特征向量 最小權重 權重 準確度 文本信息 賦予 | ||
1.一種文本相似性的比較方法,包括:
提取兩個以上文本的初始特征向量;
所述初始特征向量中至少一個元素的權重值被賦予最小權重值的倍數值,其他元素的權重值被賦予最小權重值;
根據所述倍數在初始特征向量中增加相應元素形成新的特征向量;
根據所述新的特征向量,比較所述兩個以上文本的相似性。
2.根據權利要求1所述的文本相似性的比較方法,其特征在于,根據所述新的特征向量,比較所述兩個以上文本的相似性具體為:對所述新的特征向量進行最小哈希運算,根據運算結果比較所述兩個以上文本的相似性。
3.根據權利要求1所述的文本相似性的比較方法,其特征在于,根據所述新的特征向量,比較所述兩個以上文本的相似性具體為:根據所述新的特征向量之間的內積或夾角的余弦比較所述兩個以上文本的相似性。
4.根據權利要求1-3中任一所述的文本相似性的比較方法,其特征在于,將文本進行分詞處理,進一步進行去無用信息處理后形成所述初始特征向量。
5.根據權利要求4所述的文本相似性的比較方法,其特征在于,將文本進行分詞處理并去無用信息形成字詞序列,根據字詞序列中字詞出現頻率由高到低的順序排列字詞,由前至后取出預設數量的字詞形成所述初始特征向量。
6.根據權利要求1-3、5中任一所述的文本相似性的比較方法,其特征在于,計算初始特征向量中每一個元素的字詞頻率,所述字詞頻率為元素在所述文本中出現的次數,根據所述字詞頻率確定所述初始特征向量的最小權重值及其對應的元素,最小權重值的倍數權重值及其對應的元素。
7.根據權利要求1-3、5中任一所述的文本相似性的比較方法,其特征在于,計算初始特征向量中每一個元素的文檔頻率,所述文檔頻率為包括了所述元素的文本數量,逆文檔頻率為與所述文檔頻率呈反比的函數值,根據所述逆文檔頻率確定所述初始特征向量的最小權重值及其對應的元素,最小權重值的倍數權重值及其對應的元素。
8.根據權利要求1-3、5中任一所述的文本相似性的比較方法,其特征在于,計算初始特征向量中每一個元素的字詞頻率以及逆文檔頻率,根據計算得到的所述字詞頻率以及所述逆文檔頻率確定特征向量的最小權重值及其對應的元素,最小權重值的倍數權重值及其對應的元素。
9.根據權利要求1-3、5中任一所述的文本相似性的比較方法,其特征在于,根據初始特征向量中每一個元素在文本中所處的位置確定元素的權重值。
10.根據權利要求9所述的文本相似性的比較方法,其特征在于,所述位置包括文本標題,文本摘要,文本正文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974716.6/1.html,轉載請聲明來源鉆瓜專利網。





