[發明專利]基于文章特征的原創新聞評估方法和系統有效
| 申請號: | 201811038828.0 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109213845B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 姚洲鵬 | 申請(專利權)人: | 杭州凡聞科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文章 特征 原創 新聞 評估 方法 系統 | ||
本發明公開了一種基于文章特征的原創新聞評估方法和系統,其中,方法包括:獲取新聞文章的特征信息,特征信息包括來源特征信息和關鍵詞特征信息;將來源特征信息與預設的來源關鍵詞庫進行匹配評估,得到第一評估報告;根據預設的轉載關鍵詞庫、原創關鍵詞庫以及媒體關鍵詞庫利用預設規則對關鍵詞特征信息進行提取評估,得到第二評估報告;根據第一評估報告和第二評估報告確定新聞文章原創性等級。本發明直接利用多個詞庫進行評估得到的第一評估報告和第二評估報告能夠確定新聞文章原創性等級,使得判定結果更加準確。
技術領域
本發明涉及數字信息處理技術領域,尤其涉及一種基于文章特征的原創新聞評估方法和系統。
背景技術
隨著互聯網的迅猛發展以及智能移動客戶端的普及,傳統媒體和新型媒體上均可以發布新聞文章。但是新型媒體依托互聯網和移動客戶端,可以通過多種途徑上傳或者轉載新聞文章;而傳統媒體也會從互聯網中獲取新聞文章來使用。使得各類新聞文章越來越多,更新越來越快,新聞文章的質量也參差不齊。但是新聞文章作為一種具有極強傳播性與影響力的事物,在輿論中發揮著重要的作用。但是由于不易監管的特性,導致新聞文章原創性較差,更易出現抄襲行為。
目前,新聞文章原創性判定方法,將采集的新聞文章特征與新聞文章數據庫做相似度計算,包括逐字比對、提取特征詞條進行比對匹配等等,進而確定發布時間最早一篇為原創新聞文章。由于新聞文章數據庫中相似度計算的復雜性及時效性,而且需要人工輔助手段作為判斷依據,導致判定結果的可靠性較差。
發明內容
本發明提供的基于文章特征的原創新聞評估方法和系統,其主要目的在于克服現有的原創性判定方法需要人工輔助手段作為判斷依據,導致判定結果的可靠性較差的問題。
為解決上述技術問題,本發明采用如下技術方案:
一種基于文章特征的原創新聞評估方法,包括以下步驟;
獲取新聞文章的特征信息,所述特征信息包括來源特征信息和關鍵詞特征信息;
將所述來源特征信息與預設的來源關鍵詞庫進行匹配評估,得到第一評估報告;
根據預設的轉載關鍵詞庫、原創關鍵詞庫以及媒體關鍵詞庫利用預設規則對關鍵詞特征信息進行提取評估,得到第二評估報告;
根據所述第一評估報告和第二評估報告確定新聞文章原創性等級。
作為一種可實施方式,所述將所述來源特征信息與預設的來源關鍵詞庫進行匹配評估,得到第一評估報告,包括以下步驟;
將所述來源特征信息與預設的來源關鍵詞庫進行匹配,得到新聞文章的標注來源信息和實際來源信息;根據所述標注來源信息和實際來源信息判斷新聞文章是否為轉載;
若所述來源特征信息中的標注來源與實際來源不同,則將所述新聞文章標記為一級轉載,并生成第一評估報告;
若所述來源特征信息中的標注來源與實際來源相同,則根據預設的轉載關鍵詞規則利用轉載關鍵詞庫對所述關鍵詞特征信息進行轉載關鍵詞提取。
作為一種可實施方式,所述根據預設的轉載關鍵詞庫、原創關鍵詞庫以及媒體關鍵詞庫利用預設規則對關鍵詞特征信息進行提取評估,得到第二評估報告,包括以下步驟;
根據預設的轉載關鍵詞規則利用轉載關鍵詞庫對所述關鍵詞特征信息進行轉載關鍵詞提取;
若所述關鍵詞特征信息提取不到轉載關鍵詞,則根據預設的原創關鍵詞規則利用原創關鍵詞庫對所述關鍵詞特征信息進行原創關鍵詞提取;若所述關鍵詞特征信息提取到原創關鍵詞,則將所述新聞文章標記為一級原創;若所述關鍵詞特征信息提取不到原創關鍵詞,則將所述新聞文章標記為三級原創;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州凡聞科技有限公司,未經杭州凡聞科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811038828.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本處理方法、裝置以及相關設備
- 下一篇:一種自然語言處理系統





