[發明專利]文章相似度挖掘方法、系統、設備及存儲介質在審
| 申請號: | 201711385538.9 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN109948121A | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 向量 預處理 存儲介質 特征向量 用戶瀏覽 特征詞 權重 挖掘 提取特征 用戶推薦 用戶文章 歸一化 停用詞 分詞 偏好 詞語 閱讀 改進 | ||
本發明公開了一種文章相似度挖掘方法、系統、設備及存儲介質,其中方法包括步驟:S1、對多篇文章進行預處理,獲取每篇文章的特征詞;S2、基于TF?IDF計算所述特征詞的TF?IDF權重;S3、根據所述TF?IDF權重生成每篇文章的歸一化的特征向量;S4、計算任意兩個所述特征向量的相似度。本發明通過將文件進行分詞、去停用詞、提取特征詞等預處理,然后采用改進的TF?IDF方法計算特征詞語的權重,通過TF?IDF計算出文章的向量,形成表示文章的向量,然后通過計算文章的向量間的相似度,從而挖掘出更精準的相似文章并向用戶推薦,從而抓住用戶瀏覽偏好,提升了用戶文章的點擊轉化率,提高用戶瀏覽閱讀體驗。
技術領域
本發明涉及數據挖掘領域,特別涉及一種基于向量空間模型的文章相似度挖掘方法、系統、設備及存儲介質。
背景技術
隨著互聯網和人工智能的發展,人們獲得信息的來源更豐富,特別是目前處于大數據時代,在用戶瀏覽完一篇文章后,若能夠自動地為用戶推薦相似度高的相關文章,則可進一步抓住用戶的偏好心理,從而在很大程度上提高用戶的個性化體驗。由于文章都是有字詞組成,所以通常就將文章拆分為若干特征字詞,并將這些特征字詞形成特征集合,即將文章轉化成特征向量,然后通過比較特征向量間的相似性來得到文章之間的相似度。現有技術中,在計算特征向量時,主要采用布爾權重、詞頻權重、TF-IDF(term frequency–inverse document frequency,詞頻-逆向文件頻率)等方法來計算特征詞語的權重。其中,布爾權重表示一個特征詞語在文章中是否出現,所以布爾權重的優點是計算簡單快速,缺點是無法體現高頻詞和低頻詞的區別;詞頻權重是表示一個特征詞語在文章中出現的頻率,所以詞頻權重的優點是快捷地統計出各個特征詞語在文章中出現的次數,缺點是找不出特征詞語在不同文章中的分布情況。
發明內容
本發明要解決的技術問題是為了克服現有技術中布爾權重雖計算簡單快速但無法體現高頻詞和低頻詞的區別,而詞頻權重雖能快捷地統計出各個特征詞語在文章中出現的次數但不能找出特征詞語在不同文章中的分布情況的缺陷,提供一種文章相似度挖掘方法、系統、設備及存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明提供一種文章相似度挖掘方法,其特點是,包括步驟:
S1、對多篇文章進行預處理,獲取每篇文章的特征詞;
S2、基于TF-IDF計算所述特征詞的TF-IDF權重;
S3、根據所述TF-IDF權重生成每篇文章的歸一化的特征向量;
S4、計算任意兩個所述特征向量的相似度。
本方案中,在預處理獲得能夠表征文章顯著類別信息的特征詞后,采用TF-IDF對特征詞進行降權,從而使用降權后的特征向量來表示文章,這樣在大數據的當下,大量文章之間的相似性就可轉變為計算特征向量之間的相似性,從而可以采用大數據計算如Spark(專為大規模數據處理而設計的快速通用的計算引擎)進行文章之間相似度的挖掘。
較佳地,步驟S1具體包括:
S11、讀取多篇文章,并清洗所述文章;
S12、基于分詞詞庫對已清洗的所述文章進行分詞;
S13、基于停用詞詞庫對已分詞的所述文章去停用詞;
S14、基于特征詞詞庫對已去停用詞的所述文章進行特征詞提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711385538.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于二元化的簡歷解析方法
- 下一篇:輸入文本的糾錯方法、裝置及電子設備





