[發明專利]一種新聞稿件主題分類及審核方法在審
| 申請號: | 201811189190.0 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109344256A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 鐘坤華;劉曙光;林小光;陳芋文;孫啟龍 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400714 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新聞稿件 敏感 審核 命中 主題分類 概率 詞匯 發布 人工智能應用 應用人工智能 詞匯過濾 詞匯統計 概率分布 稿件數據 媒體行業 審核結果 文字匹配 主題分析 主題模型 最大概率 閾值判定 大數據 敏感詞 重構的 采編 構建 稿件 輸出 分類 分析 統計 | ||
本發明涉及一種新聞稿件主題分類及審核方法,屬于人工智能應用領域,包括步驟1.基于現有的已發布的稿件數據集構建LDA主題模型;2.設置可發布主題、可發布主題概率閾值、敏感詞匯集、敏感詞匯命中次數閾值;3.對待審稿件進行主題分析,計算其主題概率分布,對待審稿件按最大概率主題進行分類,將待審稿件納入該類別;4.以文字匹配的方式,對待審稿件進行敏感詞匯統計分析,統計每個敏感詞的命中次數,計算總命中次數;5.對待審稿件進行閾值判定,審核稿件是否通過;6.輸出待審稿件的審核結果、概率最大前三主題及其概率、敏感詞匯過濾分析結果。本發明作為新聞稿件的預審核工具,是媒體行業應用人工智能和大數據技術進行采編流程重構的有效方法。
技術領域
本發明屬于人工智能和大數據應用領域,涉及一種新聞稿件主題分類及審核方法。
背景技術
在人工智能和大數據技術驅動下,為加快適應傳統媒體和新興媒體融合發展的需求,媒體行業急需開展前沿技術嵌入,積極運用人工智能和大數據技術進行媒體內容品質創新、采編流程重構。傳統方式的新聞稿件審核完全依靠人工處理,采用人工智能和大數據技術對新聞稿件進行智能化審核,是媒體行業的發展趨勢。
發明內容
有鑒于此,本發明的目的在于提供一種新聞稿件主題分類及審核方法。
為達到上述目的,本發明提供如下技術方案:
一種新聞稿件主題分類及審核方法,包括以下步驟:
S1:基于現有的已發布的稿件數據集構建LDA主題模型;
S2:設置可發布主題、可發布主題概率閾值、敏感詞匯集、敏感詞匯命中次數閾值;
S3:通過構建的LDA主題模型對待審稿件進行主題分析,計算其主題概率分布,對待審稿件按照最大概率主題進行分類,將待審稿件納入該主題類別;
S4:以文字匹配的方式,對待審稿件進行敏感詞匯統計分析,統計每個敏感詞的命中次數,并計算總的命中次數;
S5:基于步驟S3和S4的分析結果,對待審稿件進行閾值判定,判斷審核稿件是否通過;
S6:輸出待審稿件的審核結果、概率最大的前三個主題及其概率、敏感詞匯過濾分析統計結果。
步驟S1中構建的LDA主題模型可以不定期重新建立,不需要每次新聞稿件審核時都進行重建。LDA主題模型重新建立后,步驟S2中的可發布主題需要根據新建立的LDA主題模型輸出的主題表述進行重新設置。
進一步,在步驟S2中,針對不同類型的新聞版塊,設置不同的可發布主題,可發布主題的概率閾值根據具體情況動態調整,敏感詞匯集及其命中總次數閾值根據具體情況動態調整。
進一步,在步驟S2中,對于同一個新聞版塊,能夠設置多個可發布主題,每個可發布主題分別設置相應的概率閾值。
進一步,在步驟S2中,可發布主題根據步驟S1所構建的LDA主題模型輸出的主題表述進行設置。
進一步,步驟S1中所述的構建LDA主題模型,是基于已發布的新聞稿件數據集,保留其文字部分,去除圖片和視頻內容,自動構建LDA主題模型,獲得每個主題下代表詞匯及其概率分布。
進一步,步驟S3中所述對待審稿件進行主題分析,是基于已構建的LDA主題模型,對待審稿件進行主題分析,獲得待審稿件的主題概率分布,統計概率最大的前三個主題并記錄其對應概率值,作為輸出信息的一部分。
進一步,在步驟S5中,綜合主題分類分析和敏感詞分析的結果,對待審稿件進行閾值判定審核,待審稿件同時滿足如下三個條件的情況下,審核通過,否則審核不通過:
a)主題分類分析結果中,待審稿件的最大概率主題必須是預設置的可發布主題之一;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811189190.0/2.html,轉載請聲明來源鉆瓜專利網。





