[發明專利]一種基于ITQ算法的印尼語相似新聞推薦方法有效
| 申請號: | 201910249807.1 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109992716B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 楊國武;楊曉強;張慶穎;陳祥;熊菊霞;黃勇;王逸塵;劉海洋 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李夢蝶 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 itq 算法 印尼 相似 新聞 推薦 方法 | ||
本發明提供了一種基于ITQ算法的印尼語相似新聞推薦方法,首先,提取每篇印尼新聞中的標題以及正文,保存至對應印尼新聞的字段中;根據所述印尼新聞數據訓練Word2Vec模型,得到新聞到向量的映射字典;通過ITQ算法得到最優旋轉矩陣下的特征向量的二進制編碼;計算當前被瀏覽的印尼新聞和候選數據集中每篇印尼新聞的二進制數組成的n位簽名;計算當前被瀏覽的新聞與候選數據集中每一篇印尼新聞的漢明距離;根據所述漢明距離進行排序,選取候選數據集中距離最小的前m篇印尼新聞作為推薦新聞。本發明通過以上方法解決了基于內容的新聞推薦效果與計算量平衡的技術問題。本發明靈活性強,能夠適用各種語言環境。
技術領域
本發明屬于計算機領域,具體涉及一種基于ITQ算法的印尼語相似新聞推薦方法。
背景技術
用戶搜索網頁新聞時,系統將高效且準確的從數據庫中檢索出與用戶當前瀏覽的網頁新聞在內容上相似或相近的新聞。現有實現相同功能的技術大致有如下兩種,第一種:基于數據庫自帶的搜索排序功能,搜索引擎的大致工作原理如下,將所擁有全部新聞網頁中的每一篇新聞作分詞處理,分詞的結果存儲在數據庫中,每一個詞匯會對應一個新聞序號字段,表示哪些新聞中包含這個詞匯,當用戶檢索新聞時,系統將用戶輸入的詞匯進行分詞處理后,在數據庫中查找每個詞匯對應的新聞序號字段,然后將這些詞匯對應的新聞序號字段求交集,即找到同時包含輸入詞匯的新聞序號,然后將其中一個返回,這樣用戶就根據搜索查看到了對應的新聞,數據庫自帶的推薦實現就是在上一步驟基礎之上,將找到的其他新聞序號返回。該方法的缺點如下:數據庫的主要功能是支持對數據進行高效的增刪查改操作,數據庫自帶的實現排序的方法源于對新聞的分詞,然后建立倒排索引,利用詞匯對應的新聞序號這一信息,僅僅給予了新聞中每個詞匯相同重要性,沒突出新聞的主體,這樣會導致即使對詞匯對應的新聞序號做了交集運算,包含這樣詞匯的新聞量還是很多,因為把新聞中每個詞匯賦予了相同的重要性,而新聞有關鍵詞,這些詞匯應該要更重要些,所以推薦出來的新聞可能也含有這些詞匯,但僅僅出現一次,而且對全文信息毫無中用,那么推薦的效果就不夠理想。
第二種:基于已經搜索出來的網頁,利用TF-IDF技術對該網頁進行表示,同時利用該技術對數據庫中的其他網頁進行表示。TF-IDF即是詞頻-逆文檔頻率,要推薦新聞首先要表示新聞,怎樣準確的表示一篇新聞成為了關鍵,詞頻-逆文檔頻率,提供了這么一種思想,將新聞分割為詞匯后,認為新聞中詞匯頻率高的同時這些詞匯在其他新聞中出現次數較少的,那么這些詞匯就能夠有效的成為這篇新聞的關鍵詞以來區分數據庫中其他的新聞。利用TF-IDF經過數學運算得到一個數值,那么每一篇新聞中這些詞都有一個這樣的TF-IDF值,這樣使得每一篇新聞都能用這樣的一個數值向量表示,然后利用已經向量化的新聞通過數學方式如:歐氏距離或余弦相似,求得向量的相似程度,來實現基于內容的推薦。該方法的缺點如下:詞頻-逆文檔頻率首先是對新聞向量化,即是將新聞轉化為維度相同的一個一維數值向量,在新聞向量的基礎上進行相似推薦。這個向量的維度非常大,就算利用了一些詞匯過濾手段去除掉一些詞匯,向量的維度還是會達到數十萬,在內存中計算的開銷非常大,利用TF-IDF計算每篇新聞各個維度的值,只是利用到了新聞詞匯詞頻的信息,沒有更多的考慮上下文的信息,對新聞信息的利用率低。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于ITQ算法的印尼語相似新聞推薦方法解決了基于內容的新聞推薦效果與計算量平衡的技術問題。
為了達到以上目的,本發明采用的技術方案為:
本方案提供一種基于ITQ算法的印尼語相似新聞推薦方法,包括如下步驟:
(S1)爬取印尼新聞數據,提取每篇印尼新聞中的標題以及正文,并保存至對應印尼新聞的字段中;
(S2)根據所述印尼新聞數據訓練Word2Vec模型,得到新聞到向量的映射字典;
(S3)根據所述新聞到向量的映射字典通過ITQ算法,得到最優旋轉矩陣下的特征向量的二進制編碼;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910249807.1/2.html,轉載請聲明來源鉆瓜專利網。





