[發明專利]一種基于LDA主題模型的新聞段落檢索方法在審
| 申請號: | 201811223321.2 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109190011A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 鐘坤華;劉曙光;陳芋文;林小光;孫啟龍 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/33 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400714 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索 主題模型 新聞數據庫 新聞稿件 新聞文檔 主題索引 大數據 構建 鏈接 語料 人工智能 分段處理 新聞發布 用戶體驗 主題分析 準確定位 傳統的 文檔 反饋 發布 應用 聯合 開發 | ||
本發明涉及本發明公開了一種基于LDA主題模型的新聞段落檢索方法,屬于人工智能與大數據應用領域。包括步驟S1對已發布新聞數據庫中的所有新聞稿件進行分段處理,每個段落視為一篇文檔,以此形成語料集;S2基于該語料集構建LDA主題模型;S3基于所構建的主題模型對新聞數據庫中的新聞稿件建立主題索引;S4結合主題索引和傳統的關鍵字、新聞作者和新聞發布時間進行聯合檢索;S5反饋檢索到的新聞段落及其所屬新聞全文鏈接。本發明結合LDA主題分析方法和傳統檢索方法,相對于傳統檢索能夠更準確定位所需主題的新聞文檔,能夠更精準的定位到所需新聞文檔的段落,同時給出該段落所屬新聞全文鏈接,能夠提供更好的用戶體驗,更好地開發新聞大數據的應用價值。
技術領域
本發明屬于人工智能和大數據應用領域,涉及一種基于LDA主題模型的新聞段落檢索方法。
背景技術
在人工智能和大數據盛行的環境下,為加快適應傳統媒體和新興媒體融合發展的需求,媒體行業急需開展前言技術應用,積極運用人工智能和大數據技術,充分利用現有的已發布的新聞大數據,進行媒體內容生成流程重構,提升媒體生產效率和質量。已發布新聞稿件的內容信息,能夠為當前新聞稿件的寫作提供有用信息和寫作參考。用戶希望能夠檢索到最符合需求的新聞稿件,希望能夠更精準的定位到稿件中的最相關段落,而無需花費額外的精力去篩選。傳統的文檔檢索完全依靠關鍵字等信息匹配來進行,而且只能檢索到相關的新聞稿件全文,無法定位到需要的新聞段落。新聞段落的智能化檢索有著現實的需求和意義。
發明內容
有鑒于此,本發明的目的在于提供一種能夠精準的定位到所需新聞文檔和文檔段落的新聞段落檢索方法。
為達到上述目的,本發明提供如下技術方案:
一種基于LDA主題模型的新聞段落檢索方法,包括步驟:
S1:對已發布新聞數據庫中的所有新聞稿件進行分段處理,每個段落視為一篇文檔,以此形成語料集;
S2:基于該語料集構建LDA主題模型;
S3:基于所構建的主題模型對新聞數據庫中的新聞稿件建立主題索引;
S4:結合主題索引和傳統的關鍵字、新聞作者和新聞發布時間進行聯合檢索;
S5:反饋檢索到的新聞段落及其所屬新聞全文鏈接。
進一步,在步驟S1中,基于已發布的新聞數據庫中的所有新聞稿件,去除圖片和視頻內容,只保留其文字部分,然后按照自然段落劃分,以此形成新的語料集,在數據庫中構建一張段落與新聞稿件對應關系的映射表。
進一步,在步驟S2中,基于步驟S1所形成的語料集自動構建LDA主題模型,通過該模型的建立,獲得整個語料集的主題分布、每個主題下的代表詞及其概率分布、每篇文檔的主題分布;基于整個語料集的主題形成主題集合,用于后續檢索時的主題指定;對每篇文檔記錄前三個最大概率的主題及其概率值,主題用于建立索引,概率值用于檢索結果排序。
進一步,在步驟S3中,針對語料庫中每篇文檔,即新聞稿件的一個段落,以其前三個最大概率的主題為該段落文檔構建索引,建立所有段落文檔的主題索引表。
進一步,對于新增的新聞稿件,首先對其進行自然段落分段處理,更新段落與新聞稿件對應關系的映射表,然后基于構建的LDA主題模型,分析其主題分布,記錄其最大概率的三個主題及其概率值,在主題索引表中增加相應記錄。
進一步,在步驟S4中,在檢索時,從LDA主題模型輸出的主題集合中選擇主題,然后從主題索引表中檢索,或者同時指定主題、關鍵字、新聞作者、新聞發布時間進行聯合檢索;對于關鍵字、新聞作者、新聞發布時間,檢索過程中,按照精確匹配的方式進行檢索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811223321.2/2.html,轉載請聲明來源鉆瓜專利網。





