[發明專利]一種基于LDA模型的新聞自動標簽方法在審
| 申請號: | 202010040359.7 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111259143A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 徐然婷;劉一鳴;李焱 | 申請(專利權)人: | 山東勞動職業技術學院(山東勞動技師學院) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F16/957;G06F16/955 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 250022 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 模型 新聞 自動 標簽 方法 | ||
1.一種基于LDA模型的新聞自動標簽方法,其特征在于,所述基于LDA模型的新聞自動標簽方法包括以下步驟:
步驟一,提取新聞數據集中的新聞簇,其中,新聞數據集由多個新聞記錄組成,一個新聞簇包括至少兩個新聞記錄;
步驟二,提取出的多個新聞簇中的熱點新聞簇;提取熱點新聞簇中各新聞記錄的關鍵字;
步驟三,生成由一個新聞記錄的至少兩個關鍵字組合的組合詞,其中,一個新聞記錄對應一個或多個組合詞;以及根據組合詞的熱度值生成新聞熱點自動標簽;
步驟四,將需要進行新聞熱點自動標簽的文本進行預處理;其中預處理的方式至少包括中文分詞、去停用詞;
步驟五,利用LDA模型對預處理后的文本進行建模,計算文本中每個詞項的詞項權重;
步驟六,根據計算所得的詞項權重,從預處理后的文本中采樣每一個主題;在預處理后的文本中,分別計算文檔-主題分布和主題-詞分布;通過主題-詞分布,計算采樣得到的每個主題的主題權重;
步驟七,根據每個主題的主題權重計算主題詞間權重,選出符合的主題詞;獲取主題編號,輸出新聞主題標簽;
步驟八,抽取新聞關鍵信息;
步驟九,推薦新聞信息。
2.如權利要求1所述的基于LDA模型的新聞自動標簽方法,其特征在于,所述新聞抽取方法如下:
(1)輸入欲抽取新聞站點欄目的統一資源定位符;
(2)生成目標鏈接樣式正則表達式;
(3)下載新聞站點欄目URL對應的網頁源代碼;
(4)提取網頁中所有鏈接,通過新聞鏈接樣式正則表達式過濾出得到新聞鏈接;
所述步驟(4)具體為:新聞鏈接一般存在于frame、a標簽中,只要在HTML源代碼中過濾出這兩個標簽就可以縮小標簽查找的范圍,簡化鏈接抽取的網頁源代碼,所以在鏈接抽取的代碼中定義了鏈接過濾器LinkFilter;為了更好地在網頁源代碼中尋找固定標簽,在過濾標簽之前將源代碼解析成節點樹(DOM),然后通過鏈接過濾器過濾出鏈接標簽;具體采用算法getNewsUrls實現;
(5)將步驟(4)得到的新聞鏈接插入到待抽取的新聞頁面URL隊列;
(6)下載新聞頁面URL對應的網頁源代碼,抽取網頁的新聞關鍵信息,包括基于標簽與分塊特征的正文塊抽取算法,基于編輯距離的新聞標題抽取,基于分塊特征的新聞時間、來源抽取;
設基于標簽與分塊特征的正文塊抽取算法中預處理后的新聞網頁W由多個標簽塊B組成,W={B1,B2,B3,...,Bn},對每一個標簽塊中的具體信息做統計,得到Bi={Nb,Nlt,Nl,Np,Nt,Ntag};其中Nb表示一個標簽塊中包含的子標簽塊數;Npt是該標簽塊中的非鏈接標簽內文本數,整個標簽塊中的文本數包括鏈接標簽內的文本數記為Nt;Nl表示標簽塊中的鏈接數,其對應的鏈接文本數為Nlt;Np表示該標簽塊中P標簽的數量;Ntag是標簽塊中所有的標簽總數;
W對應的DOM樹為T,遍歷樹T,計算T中每一個元素節點及其子節點的特征屬性,并以鍵值對的形式保存節點與其屬性實體的對應關系;計算節點文本數時,根據標簽名用所有文本數減去鏈接標簽中的文本數(Npt=Nt-Nlt),同時不對鏈接標簽計數以排除鏈接及其中的文本對計算文本-標簽比的影響,其中文本-標簽密度比為density=Npt/(Ntag-Nl);計算B中文本長度的平均值(var),設B中的文本節點1,2,3,...n,i為文本節點中的任一節點,Li表示該文本節點的文本長度;標簽塊文本平均數計算公式如下:
標簽塊特征分數計算公式如下:
根據以上公式對樹T的所有標簽塊算分,最后以分數最大值定位到正文元素塊。
3.如權利要求1所述的基于LDA模型的新聞自動標簽方法,其特征在于,所述新聞推薦方法如下:
1)新聞抓取:通過爬蟲工具,抓取新聞網頁地址,下載新聞標題及新聞內容,并將新聞存儲到數據庫新聞表中;
2)新聞預處理:對新聞進行分詞處理,只保留名詞;去掉無效新聞,并將有效新聞的分詞結果存儲到數據庫新聞表中;
3)新聞模型訓練:采用基于GibbsSampling的LDA算法進行主題模型的訓練,建立主題模型;
4)新聞特征建模:進行新聞特征提取,建立新聞特征模型,新聞特征模型由新聞標簽模型Nt和新聞主題特征模型Nl組成,即N={Nt,Nl};
5)用戶特征初步建模:進行用戶特征提取,建立用戶畫像,對用戶特征進行初步建模;
6)用戶特征二次建模:基于步驟五用戶特征初步建模結果,對用戶特征進行二次精確建模,建立用戶興趣模型U;用戶興趣模型U由用戶興趣關鍵詞模型Ut和用戶興趣主題特征模型Ul組成,即U={Ut,Ul};
7)相似度計算:基于上述步驟四至步驟六提取的新聞特征和用戶特征,進行新聞特征模型和用戶興趣模型的融合匹配度計算;
8)新聞推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東勞動職業技術學院(山東勞動技師學院),未經山東勞動職業技術學院(山東勞動技師學院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040359.7/1.html,轉載請聲明來源鉆瓜專利網。





