日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于LDA模型的新聞自動標簽方法在審

專利信息
申請號: 202010040359.7 申請日: 2020-01-15
公開(公告)號: CN111259143A 公開(公告)日: 2020-06-09
發明(設計)人: 徐然婷;劉一鳴;李焱 申請(專利權)人: 山東勞動職業技術學院(山東勞動技師學院)
主分類號: G06F16/35 分類號: G06F16/35;G06K9/62;G06F16/957;G06F16/955
代理公司: 北京科億知識產權代理事務所(普通合伙) 11350 代理人: 湯東鳳
地址: 250022 山東*** 國省代碼: 山東;37
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 lda 模型 新聞 自動 標簽 方法
【權利要求書】:

1.一種基于LDA模型的新聞自動標簽方法,其特征在于,所述基于LDA模型的新聞自動標簽方法包括以下步驟:

步驟一,提取新聞數據集中的新聞簇,其中,新聞數據集由多個新聞記錄組成,一個新聞簇包括至少兩個新聞記錄;

步驟二,提取出的多個新聞簇中的熱點新聞簇;提取熱點新聞簇中各新聞記錄的關鍵字;

步驟三,生成由一個新聞記錄的至少兩個關鍵字組合的組合詞,其中,一個新聞記錄對應一個或多個組合詞;以及根據組合詞的熱度值生成新聞熱點自動標簽;

步驟四,將需要進行新聞熱點自動標簽的文本進行預處理;其中預處理的方式至少包括中文分詞、去停用詞;

步驟五,利用LDA模型對預處理后的文本進行建模,計算文本中每個詞項的詞項權重;

步驟六,根據計算所得的詞項權重,從預處理后的文本中采樣每一個主題;在預處理后的文本中,分別計算文檔-主題分布和主題-詞分布;通過主題-詞分布,計算采樣得到的每個主題的主題權重;

步驟七,根據每個主題的主題權重計算主題詞間權重,選出符合的主題詞;獲取主題編號,輸出新聞主題標簽;

步驟八,抽取新聞關鍵信息;

步驟九,推薦新聞信息。

2.如權利要求1所述的基于LDA模型的新聞自動標簽方法,其特征在于,所述新聞抽取方法如下:

(1)輸入欲抽取新聞站點欄目的統一資源定位符;

(2)生成目標鏈接樣式正則表達式;

(3)下載新聞站點欄目URL對應的網頁源代碼;

(4)提取網頁中所有鏈接,通過新聞鏈接樣式正則表達式過濾出得到新聞鏈接;

所述步驟(4)具體為:新聞鏈接一般存在于frame、a標簽中,只要在HTML源代碼中過濾出這兩個標簽就可以縮小標簽查找的范圍,簡化鏈接抽取的網頁源代碼,所以在鏈接抽取的代碼中定義了鏈接過濾器LinkFilter;為了更好地在網頁源代碼中尋找固定標簽,在過濾標簽之前將源代碼解析成節點樹(DOM),然后通過鏈接過濾器過濾出鏈接標簽;具體采用算法getNewsUrls實現;

(5)將步驟(4)得到的新聞鏈接插入到待抽取的新聞頁面URL隊列;

(6)下載新聞頁面URL對應的網頁源代碼,抽取網頁的新聞關鍵信息,包括基于標簽與分塊特征的正文塊抽取算法,基于編輯距離的新聞標題抽取,基于分塊特征的新聞時間、來源抽取;

設基于標簽與分塊特征的正文塊抽取算法中預處理后的新聞網頁W由多個標簽塊B組成,W={B1,B2,B3,...,Bn},對每一個標簽塊中的具體信息做統計,得到Bi={Nb,Nlt,Nl,Np,Nt,Ntag};其中Nb表示一個標簽塊中包含的子標簽塊數;Npt是該標簽塊中的非鏈接標簽內文本數,整個標簽塊中的文本數包括鏈接標簽內的文本數記為Nt;Nl表示標簽塊中的鏈接數,其對應的鏈接文本數為Nlt;Np表示該標簽塊中P標簽的數量;Ntag是標簽塊中所有的標簽總數;

W對應的DOM樹為T,遍歷樹T,計算T中每一個元素節點及其子節點的特征屬性,并以鍵值對的形式保存節點與其屬性實體的對應關系;計算節點文本數時,根據標簽名用所有文本數減去鏈接標簽中的文本數(Npt=Nt-Nlt),同時不對鏈接標簽計數以排除鏈接及其中的文本對計算文本-標簽比的影響,其中文本-標簽密度比為density=Npt/(Ntag-Nl);計算B中文本長度的平均值(var),設B中的文本節點1,2,3,...n,i為文本節點中的任一節點,Li表示該文本節點的文本長度;標簽塊文本平均數計算公式如下:

標簽塊特征分數計算公式如下:

根據以上公式對樹T的所有標簽塊算分,最后以分數最大值定位到正文元素塊。

3.如權利要求1所述的基于LDA模型的新聞自動標簽方法,其特征在于,所述新聞推薦方法如下:

1)新聞抓取:通過爬蟲工具,抓取新聞網頁地址,下載新聞標題及新聞內容,并將新聞存儲到數據庫新聞表中;

2)新聞預處理:對新聞進行分詞處理,只保留名詞;去掉無效新聞,并將有效新聞的分詞結果存儲到數據庫新聞表中;

3)新聞模型訓練:采用基于GibbsSampling的LDA算法進行主題模型的訓練,建立主題模型;

4)新聞特征建模:進行新聞特征提取,建立新聞特征模型,新聞特征模型由新聞標簽模型Nt和新聞主題特征模型Nl組成,即N={Nt,Nl};

5)用戶特征初步建模:進行用戶特征提取,建立用戶畫像,對用戶特征進行初步建模;

6)用戶特征二次建模:基于步驟五用戶特征初步建模結果,對用戶特征進行二次精確建模,建立用戶興趣模型U;用戶興趣模型U由用戶興趣關鍵詞模型Ut和用戶興趣主題特征模型Ul組成,即U={Ut,Ul};

7)相似度計算:基于上述步驟四至步驟六提取的新聞特征和用戶特征,進行新聞特征模型和用戶興趣模型的融合匹配度計算;

8)新聞推薦。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東勞動職業技術學院(山東勞動技師學院),未經山東勞動職業技術學院(山東勞動技師學院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010040359.7/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 一区二区国产精品| 色就是色欧美亚洲| 国产性猛交xx乱| 一区二区三区欧美视频| 日韩欧美一区精品| 99国产精品免费观看视频re| 激情久久综合| yy6080影院旧里番乳色吐息| 一区二区三区日韩精品| 欧美高清极品videossex| 国产日韩欧美另类| 午夜剧场a级免费| 久久99精品久久久久婷婷暖91| 国产精品久久久久久久久久久久久久久久久久 | 久久国产精品二区| 亚洲精品456在线播放| 国产aⅴ一区二区| 国产欧美一区二区在线| 日韩欧美国产高清91| 日韩av三区| 亚洲欧美国产日韩色伦| 国偷自产中文字幕亚洲手机在线| 亚洲免费永久精品国产 | 国产高清一区二区在线观看| 日韩一区二区中文字幕| 欧美一级不卡| 日韩中文字幕在线一区| 国产婷婷色一区二区三区在线| 午夜国内精品a一区二区桃色| 一区二区三区电影在线观看| 亚洲精品www久久久久久广东 | 午夜剧场一区| 精品中文久久| 日韩精品免费一区二区在线观看| 2023国产精品自产拍在线观看| 狠狠色噜噜狠狠狠狠88| 国产69精品久久久久app下载| 久久三级精品| 免费久久一级欧美特大黄| 国产精品不卡一区二区三区| 国产视频精品一区二区三区| 国产在线卡一卡二| 99精品视频一区二区| 久久夜色精品国产噜噜麻豆| 国产区精品区| 亚洲欧美一二三| 国产精品一二三在线观看| 视频一区欧美| 国产激情二区| 狠狠色综合欧美激情| 国产精品尤物麻豆一区二区三区| 欧美日韩久久一区二区 | 少妇在线看www| 日韩欧美激情| 欧美日韩国产在线一区二区三区| 亚洲国产精品一区二区久久hs | 日本美女视频一区二区| 欧美日韩激情一区二区| 国产69精品久久777的优势| 国产高清在线一区| 精品一区二区三区自拍图片区| 国产91视频一区二区| 午夜激情免费电影| 欧美色综合天天久久| 99久久免费精品视频| 国产日本欧美一区二区三区| 久久午夜无玛鲁丝片午夜精品| 日韩av在线中文| 亚洲欧美日韩在线看| 福利电影一区二区三区| 午夜影院色| 久久精品男人的天堂| 亚洲精品乱码久久久久久国产主播| 日韩av免费网站| 欧美一区二区三区性| 日本美女视频一区二区三区| 热久久一区二区| 91一区二区三区久久国产乱 | 国产一区二区三区四| 国产的欧美一区二区三区| 天干天干天干夜夜爽av| 久久久久久久久亚洲精品一牛 | www.久久精品视频| 亚洲影院久久| 久久精品一二三四| 久久精品国产亚洲7777| 国产精品二十区| 国产精品乱码一区| 国产日韩欧美另类| 99久久精品免费看国产免费粉嫩 | 国产欧美一区二区精品久久| 丰满少妇高潮惨叫久久久| 国产一区二区日韩| 狠狠色噜噜狠狠狠狠88| 午夜av免费观看| 亚洲精品国产主播一区| 国产日产欧美一区| 欧美一区二区三区视频在线观看| 欧美日韩九区| 色吊丝av中文字幕| 国产精品视频一区二区三| 久久久精品a| 欧美高清极品videossex| 国产欧美一区二区精品久久| xx性欧美hd| 日韩av中文字幕第一页| 亚洲欧美一区二区三区不卡| 黄毛片在线观看| 国产电影精品一区二区三区| 51区亚洲精品一区二区三区| 亚洲激情中文字幕| 996久久国产精品线观看| 国语对白老女人一级hd| 在线电影一区二区| 午夜免费一级片| 99精品一区| 亚洲精品久久久久中文字幕欢迎你| 九九国产精品视频| 国产在线一二区| 国产精品综合在线| 亚洲欧洲日韩av| 四虎国产精品永久在线国在线| 欧美亚洲精品一区二区三区| 丰满少妇在线播放bd日韩电影| 国产男女乱淫真高清视频免费| 欧美乱战大交xxxxx| 国产欧美二区| 亚洲国产精品一区二区久久hs| 久久精品爱爱视频| 一区二区三区在线观看国产| 理论片高清免费理伦片| 午夜a电影| 欧美在线播放一区| 久久久精品观看| 国产日韩一区二区三免费| 国产1区2| 亚洲精品日韩激情欧美| 99国产精品免费| 国产88av| 精品免费久久久久久久苍| 精品91av| 国产乱子一区二区| 国产精品一区在线播放| 久久精品亚洲精品国产欧美| 97人人澡人人爽人人模亚洲| 91精品福利观看| 国产午夜精品一区二区三区视频 | 蜜臀久久精品久久久用户群体| 国产精品日韩一区二区| 久久91久久久久麻豆精品| 色一情一乱一乱一区99av白浆| 精品久久9999| 日本神影院一区二区三区| 日韩精品一区中文字幕| 97精品国产97久久久久久粉红 | 99久久婷婷国产精品综合| 国产欧美日韩精品在线| 欧美午夜一区二区三区精美视频| 午夜爽爽视频| 一区二区国产盗摄色噜噜| 97久久精品人人做人人爽50路| 国产精品国外精品| 亚洲精品久久久久久久久久久久久久 | 午夜在线看片| 国产伦理精品一区二区三区观看体验| 国产午夜精品理论片| 亚洲欧洲一二三区| 九一国产精品| 国内精品久久久久久久星辰影视 | 性少妇freesexvideos高清bbw| 欧洲亚洲国产一区二区三区| 国产乱人伦精品一区二区三区| 一区二区精品久久| 亚洲一区2区三区| 国产1区在线观看| 国产一区二区三区色噜噜小说| 国产乱一乱二乱三| 亚洲精品少妇一区二区 | 欧美hdxxxx| 久久99精品国产麻豆宅宅| 国产主播啪啪| 色乱码一区二区三区网站| 国产精品一区二| 热久久国产| 免费观看xxxx9999片| 国产日韩欧美三级| 狠狠躁日日躁狂躁夜夜躁av | 午夜情所理论片| 日韩av在线播放网址| 在线视频国产一区二区| 乱淫免费视频| 精品一区电影国产| 丰满少妇在线播放bd日韩电影| 国产女人和拘做受视频免费| 欧美色综合天天久久综合精品| 中文字幕一区一区三区| 国产一区二| 中文乱码在线视频| 日本美女视频一区二区| 91精品国产影片一区二区三区| 一区二区中文字幕在线观看| 午夜色影院| 国产69精品久久久久9999不卡免费| 野花国产精品入口| 久久精品综合视频| 国产69精品久久777的优势| 午夜免费网址| 欧美系列一区二区| 鲁丝一区二区三区免费| 日韩av在线导航| 亚洲精品国产91| 久久艹国产精品| 国产丝袜在线精品丝袜91| 国产免费第一区| 亚洲一级中文字幕| 国产第一区在线观看| 国产午夜精品理论片| 国产偷自视频区视频一区二区| 久99久精品| 99精品一级欧美片免费播放| 欧美极品少妇xxxxⅹ| 国产日韩欧美一区二区在线观看 | 久久久久久久久亚洲精品| 激情欧美一区二区三区| 日韩亚洲欧美一区| 69久久夜色精品国产69– | 欧美色综合天天久久| 十八无遮挡| 亚洲精品www久久久久久广东| 亚洲欧美日韩三区| 久久精品视频3| 欧美精品一区二区三区在线四季| 综合久久国产九一剧情麻豆| 久久久人成影片免费观看| 2020国产精品自拍| 亚洲精品久久久久www| 日本一区二区在线电影| 91精品综合| 午夜av片| 久久综合激情网| 欧美日韩精品在线播放| 亚洲一级中文字幕| 欧美一区二区三区白人| 欧美日韩国产免费观看| 国产精品一区二区av日韩在线| 久久99亚洲精品久久99|