日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于主題模型的相似文章推薦方法在審

專利信息
申請?zhí)枺?/td> 201711203644.0 申請日: 2017-11-27
公開(公告)號: CN107992542A 公開(公告)日: 2018-05-04
發(fā)明(設計)人: 鄭子彬;黃煉楷 申請(專利權)人: 中山大學
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 廣東廣信君達律師事務所44329 代理人: 楊曉松
地址: 510275 *** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 主題 模型 相似 文章 推薦 方法
【說明書】:

技術領域

發(fā)明涉及互聯(lián)網信息挖掘的技術領域,尤其涉及到一種基于主題模型的相似文章推薦方法。

背景技術

隨著互聯(lián)網的不斷發(fā)展,人們的生活習慣和生活方式正在經歷革命性變化,互聯(lián)網的發(fā)展不僅方便了人們的生活,而且還大大增加了人們獲取信息的渠道。中國互聯(lián)網絡信息中心(CNNIC)在《第36次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》提到,截至2015年6月,我國網絡新聞用戶規(guī)模為5.55億,其中,手機網絡新聞用戶規(guī)模為4.60億;網絡新聞作為信息獲取類的重要應用,使用率僅次于即時通信,排在第二位。

在大數(shù)據(jù)的社會背景下,以Google、百度為代表的搜索引擎可以讓那個用戶通過輸入關鍵詞精確找到自己需要的相關信息。但是,如果用戶無法準確描述符合自己需求的關鍵詞,搜索引擎就沒辦法發(fā)揮作用了。和搜索引擎不同的是,推薦系統(tǒng)通過分析用戶的行為或項目內容的特征,從而來發(fā)現(xiàn)用戶感興趣的內容。隨著各大新聞文章信息發(fā)布平臺(如微信公眾號)的發(fā)展和壯大,文章的數(shù)量快速增加,用戶在獲取感興趣文章的難度不斷加大,海量文章給用戶帶來廣泛信息內容的同時也給用戶帶來很大的選擇困擾,如何幫助用戶高效發(fā)掘感興趣的文章成為一個信息發(fā)布平臺急需解決的重要問題。

由于缺乏足夠的用戶興趣相關信息,以及處理文章面臨的復雜問題,導致互聯(lián)網上文章的自動推薦效果有限,相似文章推薦算法還有很大的提升空間。文章推薦算法需要使用自然語言處理技術來應對自然語言的詞義歧義、句法模糊、語法不規(guī)范和詞語不統(tǒng)一等難點,還要將自然語言轉換成機器能識別的數(shù)學符號,通過機器學習和數(shù)據(jù)挖掘的手段來建模、驗證。目前,對于相似文章推薦算法已有大量相關的研究,比如基于聚類和分類的文章推薦、基于關鍵詞的文章推薦、基于特定領域熱門文章的推薦等等。雖然相關研究能在某些應用場景下取得一定的效果,但其中出現(xiàn)的復雜度高、適用范圍較小、人工標記成本高、推薦多樣性差等問題局限了文章推薦算法的應用。

發(fā)明內容

本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種能幫助互聯(lián)網用戶高效挖掘感興趣文章、適用范圍較大、人工標記成本較低、推薦多樣性較好的基于主題模型的相似文章推薦方法。

為實現(xiàn)上述目的,本發(fā)明所提供的技術方案如下:

S1.文章原始文本預處理,提取單純的文章內容:

文章的原始數(shù)據(jù)一般來源于網絡,而文章原始本文以網頁的格式來存儲,通過瀏覽器的渲染才展示為排版完善的文章;由于文章原始文本并不是單純的中文內容,其中可能包含超文本標記語言、層疊樣式表和動態(tài)腳本語言代碼等,所以需要對文章原始文本進行預處理。

預處理的方法有:正則表達式技術、正文提取技術、解析技術。

S2.對文章內容進行分詞、詞性分析,篩選出名詞詞性的詞語,詞袋抽取,由此形成文章主要的詞語特征向量:

現(xiàn)有成熟的中文分詞工具有結巴分詞、盤古分詞等,本方案采用結巴分詞工具用于文章的主題內容做分詞;在分詞之后,通過詞性分析篩選保留名詞詞性的詞語,這相比于關鍵詞提取等其他處理方式,名詞詞語在實驗驗證中效果最佳。

將詞語編碼成特征向量的過程中,本方案使用了詞袋模型。詞袋模型是自然語言處理的一種常用技術。在這種模型中,文本(段落或者文檔)被看作是無序的詞匯集合,忽略語法甚至是單詞的順序,文檔中每個詞語的出現(xiàn)都是獨立的,不依賴其他單詞的出現(xiàn)。詞袋模型基于上述文章的詞語集合,構建一個包含出現(xiàn)過的每個詞語唯一索引的詞典。假設詞語的出現(xiàn)順序沒有關系,那么就能文章的詞語集合進行詞袋抽取,再用該詞典中每個單詞在文章中出現(xiàn)的頻率來表示每篇文章的詞語集合,這樣就得到文章詞袋抽取之后的詞語特征向量。

S3.利用所有文章的詞語特征向量訓練TFIDF模型,基于該TFIDF模型計算每篇文章的詞語特征向量,形成TFIDF特征向量:

上面所得到的文章詞語特征向量屬于文章內特征,也就是說文章詞語特征向量只能表達文章內部的模式和特點,但不能表達文章在整個文章集合中的模式和特點,因此本方案對文章詞語特征向量進一步提煉,采用信息檢索技術——TFIDF技術來表達文章的詞語在整個文章集合中的特征權值。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201711203644.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产91综合一区在线观看| 精品国产鲁一鲁一区二区三区| 一区二区三区国产精品视频 | 欧美一级久久精品| 亚洲高清久久久| 日韩精品免费一区二区中文字幕 | 久久夜靖品2区| 国产精品精品国内自产拍下载| 日韩av在线导航| 香港三日本8a三级少妇三级99| 国产白嫩美女在线观看| 国产精品一区二区日韩新区| 亚洲欧美另类综合| 国产69精品久久久久9999不卡免费 | 狠狠色狠狠色综合婷婷tag| 欧美性xxxxx极品少妇| 久久久99精品国产一区二区三区| 国产日韩欧美一区二区在线观看| 欧美综合在线一区| 一级久久久| 亚欧精品在线观看| 欧美一区二区三区免费看| 欧美一区二区三区久久综合| 国产真裸无庶纶乱视频| 国产视频在线一区二区| 国产目拍亚洲精品区一区| 特级免费黄色片| 国偷自产中文字幕亚洲手机在线| 91狠狠操| 亚洲二区在线播放视频| 欧美一区二区三区久久精品视 | 午夜av电影网| 一区二区三区精品国产| 性色av色香蕉一区二区三区| 久久精视频| 亚洲日韩aⅴ在线视频| 欧洲激情一区二区| 97视频一区| 韩国视频一区二区| 日本一区二区高清| 中文字幕制服狠久久日韩二区| 国产精品19乱码一区二区三区| 国产一区二区视频在线| 97国产精品久久| 久久99久久99精品蜜柚传媒| 99国产精品| 91avpro| 91久久国产视频| 欧美精品一区久久| 神马久久av| 91超薄丝袜肉丝一区二区| 国产一区二区三区在线电影| 国产精品亚洲а∨天堂123bt| 少妇厨房与子伦免费观看| 色婷婷久久一区二区三区麻豆| 国内久久久久久| 精品国产乱码久久久久久影片| 91国偷自产一区二区介绍| 护士xxxx18一19| 99国产精品免费| 国产日韩欧美专区| 国产精品久久久久久av免费看| 欧美日韩亚洲三区| xoxoxo亚洲国产精品| 97视频久久久| 精品日韩久久久| 精品久久综合1区2区3区激情| 亚洲欧美另类久久久精品2019| 国产精品免费专区| 久久夜色精品久久噜噜亚| 亚洲午夜久久久久久久久电影院| 国内久久久| 欧美在线免费观看一区| 99er热精品视频国产| 国产理论一区二区三区| 99精品区| 亚洲欧美日韩国产综合精品二区| 欧美日韩偷拍一区| 91精品国产综合久久国产大片 | 国内精品在线免费| 日韩一级片免费视频| 99国产精品永久免费视频| 日韩美一区二区三区| 欧美一区二区三区久久久久久桃花 | 一区二区三区日韩精品| 天堂av一区二区三区| 夜夜躁人人爽天天天天大学生| 91丝袜国产在线观看| 97精品国产97久久久久久| 99国产精品久久久久老师| 久久婷婷国产综合一区二区| 搡少妇在线视频中文字幕| 丝袜美腿诱惑一区二区| 亚洲国产精品入口| 国产极品美女高潮无套久久久| 国产精品视频免费一区二区| 91久久国产视频| 国产精品一二三区视频出来一| 海量av在线| 搡少妇在线视频中文字幕| 国产免费一区二区三区四区五区| 午夜片在线| 国产乱了高清露脸对白| 亚洲欧洲日韩av| 88888888国产一区二区| 狠狠色很很在鲁视频| 88国产精品欧美一区二区三区三| 久久久精品久久日韩一区综合| 在线观看欧美日韩国产| 93精品国产乱码久久久| 国产精品久久久不卡| 午夜影院一级片| 一区二区三区欧美精品| 综合久久一区| 国产88在线观看入口| 精品久久综合1区2区3区激情| 久久久国产精品一区| 日韩欧美高清一区| 国产97在线播放| 欧美大成色www永久网站婷| 久久精品99国产精品亚洲最刺激 | 国产精品一区一区三区| 国产精品九九九九九九| 国产麻豆精品久久| 国产第一区在线观看| 国产一区二三| 亚洲四区在线观看| 国产69精品久久99的直播节目| 亚洲精品久久久久中文第一暮| 国产一区在线免费观看| 欧美日韩三区二区| 久久国产精品网站| 香蕉免费一区二区三区在线观看| 狠狠色狠狠色88综合日日91| 少妇久久精品一区二区夜夜嗨| 99爱精品视频| 欧美老肥婆性猛交视频| 亚洲国产精品一区二区久久,亚洲午夜| 国产69精品久久99不卡解锁版| 日韩一区二区福利视频| 国产一级片一区二区| 中文字幕亚洲欧美日韩在线不卡| 91av一区二区三区| 狠狠色噜噜综合社区| 99精品少妇| 午夜老司机电影| 99er热精品视频国产| 99久久免费精品国产男女性高好| 国产精品人人爽人人做av片| 538在线一区二区精品国产| 国产精品偷拍| 午夜看大片| 国产69精品久久久久999天美| 国产日韩欧美另类| 久久人人97超碰婷婷开心情五月 | 99国产精品99久久久久| 精品国产一区二区三区久久久久久| 国产日韩一区二区在线| 日韩av电影手机在线观看| 日韩毛片一区| 日本一区欧美| 99久久国产综合精品女不卡| 色噜噜狠狠色综合中文字幕| 一区二区三区欧美日韩| 久久久久久中文字幕| 日本一二三不卡| 免费欧美一级视频| 国久久久久久| 国产一区二区国产| 99国产精品久久久久老师| 精品国产区| 国产日产精品一区二区| 欧美人妖一区二区三区| 护士xxxx18一19| 国产精品久久久久久久久久不蜜臀| 久久99中文字幕| 国产人澡人澡澡澡人碰视| 欧美久久一区二区三区| 少妇自拍一区| 亲子乱子伦xxxx| 午夜av电影网| 国产淫片免费看| 综合久久一区| 中文乱码字幕永久永久电影| 欧美精品国产精品| 国产精品三级久久久久久电影| 欧美乱妇高清无乱码一级特黄| 国产精品一区二区毛茸茸| 国产精品乱码一区| 一区二区免费播放| 国产日韩欧美精品一区| 97人人模人人爽人人喊38tv| 久久精品综合| 91av一区二区三区| 欧美一区二区三区久久综合| 一区不卡av| 韩国女主播一区二区| 国产一区二区视频播放| 午夜毛片电影| 欧美日韩国产精品综合| 欧美国产精品久久| 国产1区在线观看| 精品在线观看一区二区| 亚洲精品久久在线| 欧美日韩一区免费| 久99精品| 免费毛片**| 国产真实乱偷精品视频免| 中文字幕一区二区三区免费| 夜夜嗨av禁果av粉嫩av懂色av | 野花社区不卡一卡二| 国产精品日本一区二区不卡视频| 99久久精品一区| 自拍偷在线精品自拍偷无码专区| 国产一区二区二| 国产日产欧美一区二区| 狠狠色狠狠色综合久久一| 韩日av一区二区| 亚洲欧美一二三| 久久精品国产96| 肉丝肉足丝袜一区二区三区| 日本美女视频一区二区| 亚洲国产99| 久久夜色精品亚洲噜噜国产mv| 日韩av不卡一区二区| 奇米色欧美一区二区三区| 国产一区免费在线观看| 性生交大片免费看潘金莲| 国产一区二区三区影院| 国产91在线播放| 91av精品| 久久99精品国产99久久6男男| 色狠狠色狠狠综合| 国产黄色一区二区三区| 在线国产精品一区| 日韩av电影手机在线观看| 99精品一区二区| 久久久久久久久久国产精品| 右手影院av| 在线观看欧美一区二区三区| 国产精品无码永久免费888| 国产精品免费观看国产网曝瓜| 欧美国产三区| xxxxhdvideosex| 国产精品乱码一区| 97久久超碰国产精品|