[發明專利]一種基于LDA主題模型的新聞段落檢索方法在審
| 申請號: | 201811223321.2 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109190011A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 鐘坤華;劉曙光;陳芋文;林小光;孫啟龍 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/33 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400714 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索 主題模型 新聞數據庫 新聞稿件 新聞文檔 主題索引 大數據 構建 鏈接 語料 人工智能 分段處理 新聞發布 用戶體驗 主題分析 準確定位 傳統的 文檔 反饋 發布 應用 聯合 開發 | ||
1.一種基于LDA主題模型的新聞段落檢索方法,其特征在于:包括以下步驟:
S1:對已發布新聞數據庫中的所有新聞稿件進行分段處理,每個段落視為一篇文檔,以此形成語料集;
S2:基于該語料集構建LDA主題模型;
S3:基于所構建的主題模型對新聞數據庫中的新聞稿件建立主題索引;
S4:結合主題索引和傳統的關鍵字、新聞作者和新聞發布時間進行聯合檢索;
S5:反饋檢索到的新聞段落及其所屬新聞全文鏈接。
2.根據權利要求1所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:在步驟S1中,基于已發布的新聞數據庫中的所有新聞稿件,去除圖片和視頻內容,只保留其文字部分,然后按照自然段落劃分,以此形成新的語料集,在數據庫中構建一張段落與新聞稿件對應關系的映射表。
3.根據權利要求1所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:在步驟S2中,基于步驟S1所形成的語料集自動構建LDA主題模型,通過該模型的建立,獲得整個語料集的主題分布、每個主題下的代表詞及其概率分布、每篇文檔的主題分布;基于整個語料集的主題形成主題集合,用于后續檢索時的主題指定;對每篇文檔記錄前三個最大概率的主題及其概率值,主題用于建立索引,概率值用于檢索結果排序。
4.根據權利要求1所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:在步驟S3中,針對語料庫中每篇文檔,即新聞稿件的一個段落,以其前三個最大概率的主題為該段落文檔構建索引,建立所有段落文檔的主題索引表。
5.根據權利要求4所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:對于新增的新聞稿件,首先對其進行自然段落分段處理,更新段落與新聞稿件對應關系的映射表,然后基于構建的LDA主題模型,分析其主題分布,記錄其最大概率的三個主題及其概率值,在主題索引表中增加相應記錄。
6.根據權利要求1所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:在步驟S4中,在檢索時,從LDA主題模型輸出的主題集合中選擇主題,然后從主題索引表中檢索,或者根據主題、關鍵字、新聞作者、新聞發布時間的組合進行聯合檢索;對于關鍵字、新聞作者、新聞發布時間,檢索過程中,按照精確匹配的方式進行檢索。
7.根據權利要求1所述的基于LDA主題模型的新聞段落檢索方法,其特征在于:在步驟S5中,由于關鍵字、新聞作者、新聞發布時間是按照精確匹配方式進行檢索的,故對于在檢索輸入時指定了主題的情況下,檢索結果按照主題概率從大到小排序,排在最前面的,是主題最相關的新聞段落。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811223321.2/1.html,轉載請聲明來源鉆瓜專利網。





