[發明專利]一種基于ITQ算法的印尼語相似新聞推薦方法有效
| 申請號: | 201910249807.1 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109992716B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 楊國武;楊曉強;張慶穎;陳祥;熊菊霞;黃勇;王逸塵;劉海洋 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李夢蝶 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 itq 算法 印尼 相似 新聞 推薦 方法 | ||
1.一種基于ITQ算法的印尼語相似新聞推薦方法,其特征在于,包括如下步驟:
(S1)爬取印尼新聞數據,提取每篇印尼新聞中的標題以及正文,并保存至對應印尼新聞的字段中;
(S2)根據所述印尼新聞數據訓練Word2Vec模型,得到新聞到向量的映射字典;
(S3)根據所述新聞到向量的映射字典通過ITQ算法,得到最優旋轉矩陣下的特征向量的二進制編碼;
(S4)根據所述新聞到向量的映射字典以及最優旋轉矩陣下的特征向量的二進制編碼分別計算當前被瀏覽的新聞與候選數據集中每一篇印尼新聞的二進制數組成的n位簽名,其中,n為二進制編碼的總位數;
所述步驟(S4)中計算當前被瀏覽的印尼新聞的二進制數組成的n位簽名,其包括如下步驟:
(e1)根據所述新聞到向量的映射字典,計算當前被瀏覽新聞中標題的二進制數組成的n位簽名Ai;
(e2)根據最優旋轉矩陣下的特征向量的二進制編碼,計算當前被瀏覽新聞中新聞內容的二進制數組成的n位簽名Bi;
(e3)根據所述二進制數組成的n位簽名Ai和所述二進制數組成的n位簽名Bi,拼接得到當前瀏覽新聞的二進制數組成的n位簽名Ci,從而完成當前被瀏覽的印尼新聞的二進制數組成的n位簽名,其中,i為候選數據集中新聞的譯成號,n為二進制編碼的總位數;
所述步驟(S4)中計算候選數據集中每篇印尼新聞的二進制數組成的n位簽名,其包括如下步驟:
(f1)根據所述新聞到向量的映射字典,計算候選數據集中每一篇新聞中標題二進制數組成的n位簽名Di;
(f2)根據最優旋轉矩陣下的特征向量的二進制編碼,計算候選數據集中每一篇新聞中新聞內容的二進制數組成的n位簽名Ei;
(f3)根據所述二進制數組成的n位簽名Di與所述二進制數組成的n位簽名Ei,計算得到候選數據集中每一篇新聞的二進制數組成的n位簽名Fi,從而完成候選數據集中每篇印尼新聞的二進制數組成的n位簽名,其中,i為候選數據集中新聞的譯成號,n為二進制編碼的總位數;
(S5)根據所述二進制數組成的n位簽名計算當前被瀏覽的新聞與候選數據集中每一篇印尼新聞的漢明距離;
(S6)根據所述漢明距離進行排序,選取候選數據集中漢明距離最小的前m篇印尼新聞作為推薦新聞,從而完成相似新聞的推薦;
所述步驟(S2)包括如下步驟:
(a1)根據爬取的印尼新聞數據,得到使用頻率最高的100000個單詞,并利用Word2Vec模型計算詞嵌入;
(a2)根據所述詞嵌入將每篇新聞轉化為向量表達,從而得到新聞到向量的映射字典;
所述步驟(S2)還包括對印尼新聞的預處理,其包括如下步驟:
(b1)將印尼新聞的內容進行分詞處理;
(b2)根據分詞處理結果,將分詞中的停用語和特殊字符進行過濾,得到純文本數據,從而完成對印尼新聞的預處理;
所述步驟(S3)包括如下步驟:
(c1)將所述新聞到向量的映射字典利用PCA進行降維處理;
(c2)根據降維處理結果尋找量化誤差最小的旋轉矩陣,從而得到最優旋轉矩陣下的特征向量的二進制編碼;
所述步驟(S5)具體為:根據所述二進制數組成的n位簽名Ci與所述二進制數組成的n位簽名Fi,計算兩者間的漢明距離,從而得到當前被瀏覽的新聞與候選數據集中每一篇印尼新聞的漢明距離。
2.根據權利要求1所述的基于ITQ算法的印尼語相似新聞推薦方法,其特征在于,所述步驟(c1)的表達式如下:
其中,為關于W的目標函數,W為協方差矩陣XTX的特征向量組成的矩陣,E為期望值,x為單個樣本,ωk為sgn(·)函數的超平面參數,m為樣本數,T為矩陣的轉置,X為新聞詞向量化后的數據集,k表示第k個sgn函數,I為單位矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910249807.1/1.html,轉載請聲明來源鉆瓜專利網。





