[發(fā)明專利]一種基于主題模型的相似文章推薦方法在審
| 申請?zhí)枺?/td> | 201711203644.0 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107992542A | 公開(公告)日: | 2018-05-04 |
| 發(fā)明(設計)人: | 鄭子彬;黃煉楷 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廣東廣信君達律師事務所44329 | 代理人: | 楊曉松 |
| 地址: | 510275 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 相似 文章 推薦 方法 | ||
技術領域
本發(fā)明涉及互聯(lián)網信息挖掘的技術領域,尤其涉及到一種基于主題模型的相似文章推薦方法。
背景技術
隨著互聯(lián)網的不斷發(fā)展,人們的生活習慣和生活方式正在經歷革命性變化,互聯(lián)網的發(fā)展不僅方便了人們的生活,而且還大大增加了人們獲取信息的渠道。中國互聯(lián)網絡信息中心(CNNIC)在《第36次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》提到,截至2015年6月,我國網絡新聞用戶規(guī)模為5.55億,其中,手機網絡新聞用戶規(guī)模為4.60億;網絡新聞作為信息獲取類的重要應用,使用率僅次于即時通信,排在第二位。
在大數(shù)據(jù)的社會背景下,以Google、百度為代表的搜索引擎可以讓那個用戶通過輸入關鍵詞精確找到自己需要的相關信息。但是,如果用戶無法準確描述符合自己需求的關鍵詞,搜索引擎就沒辦法發(fā)揮作用了。和搜索引擎不同的是,推薦系統(tǒng)通過分析用戶的行為或項目內容的特征,從而來發(fā)現(xiàn)用戶感興趣的內容。隨著各大新聞文章信息發(fā)布平臺(如微信公眾號)的發(fā)展和壯大,文章的數(shù)量快速增加,用戶在獲取感興趣文章的難度不斷加大,海量文章給用戶帶來廣泛信息內容的同時也給用戶帶來很大的選擇困擾,如何幫助用戶高效發(fā)掘感興趣的文章成為一個信息發(fā)布平臺急需解決的重要問題。
由于缺乏足夠的用戶興趣相關信息,以及處理文章面臨的復雜問題,導致互聯(lián)網上文章的自動推薦效果有限,相似文章推薦算法還有很大的提升空間。文章推薦算法需要使用自然語言處理技術來應對自然語言的詞義歧義、句法模糊、語法不規(guī)范和詞語不統(tǒng)一等難點,還要將自然語言轉換成機器能識別的數(shù)學符號,通過機器學習和數(shù)據(jù)挖掘的手段來建模、驗證。目前,對于相似文章推薦算法已有大量相關的研究,比如基于聚類和分類的文章推薦、基于關鍵詞的文章推薦、基于特定領域熱門文章的推薦等等。雖然相關研究能在某些應用場景下取得一定的效果,但其中出現(xiàn)的復雜度高、適用范圍較小、人工標記成本高、推薦多樣性差等問題局限了文章推薦算法的應用。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種能幫助互聯(lián)網用戶高效挖掘感興趣文章、適用范圍較大、人工標記成本較低、推薦多樣性較好的基于主題模型的相似文章推薦方法。
為實現(xiàn)上述目的,本發(fā)明所提供的技術方案如下:
S1.文章原始文本預處理,提取單純的文章內容:
文章的原始數(shù)據(jù)一般來源于網絡,而文章原始本文以網頁的格式來存儲,通過瀏覽器的渲染才展示為排版完善的文章;由于文章原始文本并不是單純的中文內容,其中可能包含超文本標記語言、層疊樣式表和動態(tài)腳本語言代碼等,所以需要對文章原始文本進行預處理。
預處理的方法有:正則表達式技術、正文提取技術、解析技術。
S2.對文章內容進行分詞、詞性分析,篩選出名詞詞性的詞語,詞袋抽取,由此形成文章主要的詞語特征向量:
現(xiàn)有成熟的中文分詞工具有結巴分詞、盤古分詞等,本方案采用結巴分詞工具用于文章的主題內容做分詞;在分詞之后,通過詞性分析篩選保留名詞詞性的詞語,這相比于關鍵詞提取等其他處理方式,名詞詞語在實驗驗證中效果最佳。
將詞語編碼成特征向量的過程中,本方案使用了詞袋模型。詞袋模型是自然語言處理的一種常用技術。在這種模型中,文本(段落或者文檔)被看作是無序的詞匯集合,忽略語法甚至是單詞的順序,文檔中每個詞語的出現(xiàn)都是獨立的,不依賴其他單詞的出現(xiàn)。詞袋模型基于上述文章的詞語集合,構建一個包含出現(xiàn)過的每個詞語唯一索引的詞典。假設詞語的出現(xiàn)順序沒有關系,那么就能文章的詞語集合進行詞袋抽取,再用該詞典中每個單詞在文章中出現(xiàn)的頻率來表示每篇文章的詞語集合,這樣就得到文章詞袋抽取之后的詞語特征向量。
S3.利用所有文章的詞語特征向量訓練TFIDF模型,基于該TFIDF模型計算每篇文章的詞語特征向量,形成TFIDF特征向量:
上面所得到的文章詞語特征向量屬于文章內特征,也就是說文章詞語特征向量只能表達文章內部的模式和特點,但不能表達文章在整個文章集合中的模式和特點,因此本方案對文章詞語特征向量進一步提煉,采用信息檢索技術——TFIDF技術來表達文章的詞語在整個文章集合中的特征權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711203644.0/2.html,轉載請聲明來源鉆瓜專利網。





